Binauraler Ton für einen interaktiven VR-Film · Eidesstaatliche Erklärung Hiermit versichere ich, Pablo Knupfer, ehrenwörtlich, dass ich die vorliegende Masterarbeit mit dem Titel:

Binauraler Ton für einen

interaktiven VR-Film

Masterarbeit im Studiengang Audiovisuelle Medien

vorgelegt von Pablo Knupfer

am 14. März 2018

an der Hochschule der Medien Stuttgart

Fakultät Electronic Media

zur Erlangung des akademischen Grades Master of Engineering

Erstprüfer: Prof. Oliver Curdt

Zweitprüfer: Prof. Dr. Simon Wiest

Eidesstaatliche Erklärung

Hiermit versichere ich, Pablo Knupfer, ehrenwörtlich, dass ich die vorliegende Masterarbeit mit dem

Titel: „Binauraler Ton für einen interaktiven VR-Film“ selbstständig und ohne fremde Hilfe verfasst und

keine anderen als die angegebenen Hilfsmittel benutzt habe. Die Stellen der Arbeit, die dem Wortlaut

oder dem Sinn nach anderen Werken entnommen wurden, sind in jedem Fall unter Angabe der Quelle

kenntlich gemacht. Die Arbeit ist noch nicht veröffentlicht oder in anderer Form als Prüfungsleistung

vorgelegt worden.

Ich habe die Bedeutung der ehrenwörtlichen Versicherung und die prüfungsrechtlichen Folgen (§26

Abs. 2 Bachelor-SPO (6 Semester), § 24 Abs. 2 Bachelor-SPO (7 Semester), § 23 Abs. 2 Master-SPO (3

Semester) bzw. § 19 Abs. 2 Master-SPO (4 Semester und berufsbegleitend) der HdM) einer unrichtigen

oder unvollständigen ehrenwörtlichen Versicherung zur Kenntnis genommen.

Stuttgart, den 14. März 2018

________________________________

Pablo Knupfer

I

Zusammenfassung

Die vorliegende Arbeit gibt einen Überblick über unterschiedliche Techniken für die Produktion von

Audio für Virtual Reality. Neben verschiedenen Mikrofonsystemen werden für VR geeignete

Audioformate vorgestellt und Softwares zur Audioproduktion für lineare und interaktive VR-

Anwendungen verglichen. Anhand der vorgestellten Möglichkeiten wird eine geeignete

Produktionstechnik für einen interaktiven VR-Film entwickelt und deren Anwendung dokumentiert.

Abstract

This work creates an overview of technique for the production of audio for virtual reality. Various

microphone systems and audio formats for VR are introduced. Furthermore different software, which

can be used for producing linear and interactive VR experiences, is compared. Based on this research

a suitable production technique for an interactive VR movie is developed, used and documented.

II

Danksagung

Vielen Dank an das Team „Asperity“ für die Möglichkeit an dem Projekt teilhaben zu dürfen, sowie an

das Techniklager der Filmakademie Baden-Württemberg.

Vielen Dank für den Beistand und die Unterstützung durch meine Familie, Florian Beck, Siri Gögelmann,

Victor Gogröf, Marie Pattberg, Marcel Remy und Karen Schuster.

Einen besonderen Dank für das Verständnis und die Unterstützung der Kollegen beim SWR Stuttgart

Außenübertragung Hörfunk.

Weiter einen großen Dank an die folgenden Sponsoren für die Unterstützung der Produktion mit

großartigen Produkten: Audio Ease, Avid, Blue Ripple Sound, Schoeps Mikrofone, Sennheiser

Mikrofone, VisiSonics.

III

Inhaltsverzeichnis

Zusammenfassung................................................................................................................................... I

Danksagung ............................................................................................................................................ II

Abkürzungsverzeichnis ......................................................................................................................... VI

Abbildungsverzeichnis ......................................................................................................................... VII

Tabellenverzeichnis ................................................................................................................................ X

Formelverzeichnis .................................................................................................................................. X

1. Einleitung ........................................................................................................................................... 1

2. Virtual Reality ..................................................................................................................................... 2

2.1 Charakterisierung von VR ............................................................................................................. 2

2.2 Interaktive versus lineare VR ........................................................................................................ 3

2.3 Räumliches Hören ........................................................................................................................ 4

2.4 Binauraltechnik............................................................................................................................. 6

3. VR-Audio ............................................................................................................................................ 7

3.1 Anforderungen ............................................................................................................................. 7

3.2 Wiedergabe über Kopfhörer......................................................................................................... 7

3.3 Formate für VR-Audio ................................................................................................................... 8

3.3.1 Ambisonics ............................................................................................................................ 8

3.3.1.1 Grundlagen ..................................................................................................................... 9

3.3.1.2 Kodierung ..................................................................................................................... 10

3.3.1.3 Higher Order Ambisonics .............................................................................................. 11

3.3.1.4 Vorteile ......................................................................................................................... 11

3.3.1.5 Nachteile ...................................................................................................................... 12

3.3.1.6 Ambisonics-Formate ..................................................................................................... 13

3.3.2 Objektbasiertes Audio ......................................................................................................... 14

3.3.2.1 Prinzip ........................................................................................................................... 14

3.3.2.2 Vorteile ......................................................................................................................... 14

3.3.2.3 Nachteile ...................................................................................................................... 15

IV

3.3.2.4 Beispiele für Codecs mit objektbasiertem Audio .......................................................... 15

3.3.3 Quad-binaural...................................................................................................................... 16

3.4 Mikrofonsysteme für VR ............................................................................................................. 17

3.4.1 Ambisonics .......................................................................................................................... 17

3.4.1.1 First-Order-Ambisonics-Mikrofonarrays ....................................................................... 17

3.4.1.2 Higher-Order-Ambisonics-Mikrofonarrays ................................................................... 19

3.4.2 Quad-Binaural ..................................................................................................................... 21

3.4.3 Stereophone Mikrofonarrays .............................................................................................. 22

3.4.3.1 ORTF-3D ........................................................................................................................ 23

3.4.3.2 ESMA mit 3D-Erweiterung ............................................................................................ 24

4. VR-Audio-Produktion ....................................................................................................................... 26

4.1 Lineare VR .................................................................................................................................. 26

4.1.1 Software zur Produktion von Ambisonics-Tonmischungen ................................................. 26

4.1.1.1 Facebook 360 Spatial Workstation und Audio Ease 360pan ......................................... 27

4.1.1.2 DearVR .......................................................................................................................... 30

4.1.1.3 Blue Ripple Sound ......................................................................................................... 31

4.1.1.4 Vergleich ....................................................................................................................... 36

4.1.2 Software zur Produktion von objektbasierten Mischungen ................................................ 39

4.1.2.1 Merging Technologies Pyramix 11 für MPEG-H und ADM ............................................ 39

4.1.2.2 Weitere Produktions-Software für MPEG-H ................................................................. 42

4.1.2.3 Magix Sequoia für ADM ................................................................................................ 42

4.2 Interaktive VR ............................................................................................................................. 43

4.2.1 Unity .................................................................................................................................... 45

4.2.2 Wwise .................................................................................................................................. 51

4.2.3 FMOD Studio ....................................................................................................................... 64

4.2.4 Fabric ................................................................................................................................... 74

4.2.5 Vergleich .............................................................................................................................. 81

5. Umsetzung des interaktiven VR-Filmes „Asperity“ ........................................................................... 89

V

5.1 Beschreibung von „Asperity“ ...................................................................................................... 89

5.2 Anforderungen an den Ton ........................................................................................................ 90

5.3 Verwendete Technik für Audio ................................................................................................... 90

5.3.1 Middleware ......................................................................................................................... 90

5.3.2 Kopfhörer ............................................................................................................................ 91

5.3.3 Körperschallwandler ............................................................................................................ 91

5.4 Vorproduktion ............................................................................................................................ 92

5.5 Produktion .................................................................................................................................. 93

5.5.1 3D-Atmo .............................................................................................................................. 93

5.5.2 Dialog................................................................................................................................... 94

5.6 Integration .................................................................................................................................. 95

5.6.1 Binauralisierung ................................................................................................................... 95

5.6.2 Lineares Intro....................................................................................................................... 96

5.6.3 Interaktiver Film .................................................................................................................. 97

5.7 Fazit ............................................................................................................................................ 99

6. Zusammenfassung .......................................................................................................................... 100

7. Literaturverzeichnis ........................................................................................................................ 101

VI

Abkürzungsverzeichnis

3DOF – Three degrees of freedom

6DOF – Six degrees of freedom

ADM – Audio Definition Model

API - Application Programming Interface

BPM – Beats per minute

BRIR – Binaural Room Impulse Response

BWF – Broadcast Wave Format

DAW – Digital Audio Workstation

DCA – Digitally Controlled Amplifier

DSP – Digital Signal Processor

ESMA – Equal Segment Microphone Array

FOA – First Order Ambisonics

HRIR – Head-Related Impulse Response

HPF – Hochpass-Filter

HRTF – Head-Related Transfer Function

HOA – Higher Order Ambisonics

HMD – Head-Mounted Display

PCM – Pulse-Code-Modulation

RTPC – Real Time Parameter Control

SC – Side-Chain

TPF – Tiefpass-Filter

VCA – Voltage Controlled Amplifier

VR – Virtual Reality

VII

Abbildungsverzeichnis

Abbildung 1: Kategorisierung der VR-Landschaft (Bildquelle: Susal, Krauss, Tsingos & Altman, 2016,

S. 2) ................................................................................................................................................... 3

Abbildung 2: Kopfbezogenes Koordinatensystem zur Beurteilung der Hörereignisrichtung (Bildquelle:

Dickreiter, 2014, S. 128) .................................................................................................................... 4

Abbildung 3: Richtungsbasierende Frequenzbänder nach Versuchen von Blauert bei der

Richtungslokalisation auf der Medienebene (Sengpiel, o.J.a) ........................................................... 5

Abbildung 4: Six degrees of freedom (6DOF) (Bildquelle: Susal et al., 2016, S. 3) .................................. 7

Abbildung 5: Kopfbezogenes Koordinatensystem (Bildquelle: Blauert & Braasch, 2008, S. 88) ............. 9

Abbildung 6: Darstellung der winkelabhängigen Amplitude 𝑌𝑚𝑛𝜎 der sphärischen Harmonischen (0.

bis 2. Ordnung) mit den in der Fourier-Bessel-Reihe verwendeten Indizes (Slavik & Weinzierl,

2008, S. 661). (Bildquelle: https://en.wikipedia.org/wiki/Spherical_harmonics) ............................ 10

Abbildung 7: Sennheiser AMBEO VR MIC (Bildquelle: https://de-

de.sennheiser.com/img/10069/product_detail_x2_tablet_AMBEO_VR_Mic-sennheiser-01.jpg) .. 17

Abbildung 8: MH Acoustics em32 Eigenmike® (links) und VisiSonics 5/64 Audio Visual Camera (rechts)

in relativen Größenverhältnissen (Bildquellen:

https://mhacoustics.com/sites/default/files/s1_0.jpg, http://visisonics.com/wp-

content/uploads/2014/09/newcamera.jpg) ................................................................................... 20

Abbildung 9: Quad-binaurales Mikrofonarray 3Dio Omni Binaural Microphone (Bildquelle:

https://cdn.shopify.com/s/files/1/0995/9804/products/Omni_2_WebReady_grande.jpg?v=14652

82518) ............................................................................................................................................. 21

Abbildung 10: ORTF-3D in Windkorb von unten (Bildquelle:

https://www.hauptmikrofon.de/images/ORTF3D_TopView_small.jpg) ......................................... 23

Abbildung 11: Anordnung der Kapseln als vertikales XY-Mikrofonpaare (Bildquelle: Wittek & Theile,

2017, S. 6) ....................................................................................................................................... 23

Abbildung 12: ESMA mit vier vertikal ausgerichteten MS-Mikrofonanordnungen zur 3D-Aufnahme

(Bildquelle: Lee, 2016, S. 9) ............................................................................................................. 25

Abbildung 13: Einstellung des globalen Raummodells in der Facebook 360 Spatial Workstation

(Bildquelle: Facebook 360 Spatial Workstation) ............................................................................. 27

Abbildung 14: Spatialiser-Plugin der Facebook 360 Spatial Workstation zum 3D-Panning von

Schallquellen (Bildquelle: Facebook 360 Spatial Workstation)........................................................ 27

Abbildung 15: Automation der Parameter und Panning in der Rektangularprojektion des sphärischen

Videos in der Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite) ............................... 28

VIII

Abbildung 16: Radar in der Audio Ease 360pan Suite zum Anzeigen von Schallquellen (Bildquelle:

Audio Ease 360pan Suite) ................................................................................................................ 28

Abbildung 17: Metering-Plugin in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360

Spatial Workstation)........................................................................................................................ 29

Abbildung 18: dearVR von Dear Reality zum 3D-Panning von Schallquellen (Bildquelle: Dear Reality

dearVR) ........................................................................................................................................... 30

Abbildung 19: Hemisphärischer Panner (Bildquelle: Blue Ripple Sound, 2018b, S. 48) ........................ 31

Abbildung 20: O3A View beim Schreiben einer Panning-Automation innerhalb der VR mit HMD

(Bildquelle: Blue Ripple Sound, 2018d, S. 1) .................................................................................... 32

Abbildung 21: O3A MS5 algorithmisches Hall-Plugin für Ambisonics 3. Ordnung mit ausführlichen

Einstellungsmöglichkeiten (Bildquelle: Blue Ripple Sound, 2018c, S. 23) ........................................ 33

Abbildung 22: O3A Shoebox-Plugin für Raum-Modelling (Bildquelle: Blue Ripple Sound, 2018c, S. 37)

........................................................................................................................................................ 34

Abbildung 23: Pyramix 11 Track Layout mit objektbasiertem Audio (Bildquelle:

http://www.merging.com/resources/img/news/prs/Track-layout-OBA_1200px.jpg) .................... 39

Abbildung 24: Export nach ADM (Bildquelle:

http://www.merging.com/resources/img/news/prs/ADM-export_1200px.jpg) ............................ 40

Abbildung 25: Beschriftung der Achsen der Space Navigator 3D-Maus von 3DConnexion für 3D-

Panning in Pyramix 11 (Bildquelle: Ryan, 2016) .............................................................................. 41

Abbildung 26: Space Navigator 3D-Maus von 3DConnexion (Bildquelle:

https://www.3dconnexion.de/fileadmin/templates/images/SN_Gallery/01_iso_right.jpg) .......... 41

Abbildung 27: Einsatz von Audio-Middleware nach Kategorisierung in AAA, Pro Casual und Indie

Games 2017 (Schmidt) (Bildquelle:

https://static.wixstatic.com/media/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg/v1/fi

ll/w_630,h_352,al_c,q_80,usm_0.66_1.00_0.01/ebb935_43f7757147854a74bcbe9587ca0010d5~

mv2.jpg) .......................................................................................................................................... 43

Abbildung 28: Preise pro Spiel in USD in Abhängigkeit vom Budget (Audiokinetic, o.J.i; Firelight

Technologies, o.J.f; Tazman-Audio, o.J.b) ....................................................................................... 44

Abbildung 29: Distanz-Kurven in Unity. Dabei besteht die X-Achse aus der Distanz der Schallquelle

vom Hörer und die Y-Achse aus den jeweiligen Eigenschaften (Bildquelle:

https://docs.unity3d.com/uploads/Main/AudioDistanceFunctions.png) ....................................... 46

Abbildung 30: Audio-Mixer-Fenster in Unity (Bildquelle: Unity 2017.3.1f1) ........................................ 47

Abbildung 31: Definieren des Snapshot-Übergangs eines Parameters (Bildquelle:

https://docs.unity3d.com/uploads/Main/AudioMixerTransitionOverrides.png) ............................ 47

Abbildung 32: Unity Timeline mit Audio-Tracks (Bildquelle: Unity 2017.3.1f1) ................................... 48

IX

Abbildung 33: Unity Profiler in „Channel and groups“-Ansicht (Bildquelle: Unity 2017.3.1f1) ............ 49

Abbildung 34: Transport Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 37) .............................. 52

Abbildung 35: Schematic-View in Wwise (Bildquelle: Audiokinetic, 2017, S. 216) ............................... 53

Abbildung 36: Real Time Parameter Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 126) .......... 55

Abbildung 37: User Defined 3D-Panning in Wwise (Bildquelle: Audiokinetic, 2017, S. 164) ................ 56

Abbildung 38: Attenuation Curve Editor in Wwise zur Simulation von Distanz und Richtwirkung

(Bildquelle: Audiokinetic, 2017, S. 157) ........................................................................................... 57

Abbildung 39: Mischpult (oben) und Soundcaster (unten) in Wwise (Bildquelle: Audiokinetic, 2017,

S. 236) ............................................................................................................................................. 59

Abbildung 40: Music Segment Editor in Wwise (Bildquelle: Wwise v2017.2.1) ................................... 60

Abbildung 41: Event Track mit „Single Instrument“ in FMOD (Bildquelle: FMOD Studio 1.10.03) ....... 65

Abbildung 42: Distance Attenuation im Spatializer in FMOD (Bildquelle: FMOD Studio 1.10.03) ........ 68

Abbildung 43: 3D Preview in FMOD mit angezeigtem Abstrahlkegel und Ausbreitung (Bildquelle:

FMOD Studio 1.10.03) ..................................................................................................................... 69

Abbildung 44: Post-Fader Send, Delay und Chorus in FMOD (Bildquelle:

https://www.fmod.com/docs/studio/images/signalChainExample.png)........................................ 70

Abbildung 45: Adaptive Musik durch Transition-Regionen in FMOD (Bildquelle: FMOD Studio 1.10.03)

........................................................................................................................................................ 71

Abbildung 46: Custom Curve Editor von Fabric (Bildquelle: Fabric 2.4) ............................................... 76

Abbildung 47: Definierte Übergänge in Music Component von Fabric (Bildquelle:

http://s3.amazonaws.com/screensteps_live/images/tazman-

audio/288045/2/rendered/1c787f40-fd3f-4625-adcd-7ba929693b4e_display.png)...................... 78

Abbildung 48: Screenshot aus „Asperity“ – Blick des Users nach links zum Piloten des Shuttles......... 89

Abbildung 49: Screenshot aus „Asperity“ – Blick nach vorne mit Bildschirm für Kommunikation mit

Missionskontroll-zentrum, Master-Alarm-Knopf und ISS im Hintergrund....................................... 89

Abbildung 50: Nutzer auf dem spezialangefertigten Spaceshuttle-Sitz mit Beyerdynamic DT-770

Kopfhörer, HTC Vive HMD, HTC Vive Controller und Joystick ......................................................... 89

Abbildung 51: Atmo-Aufnahme für Spaceshuttle ................................................................................. 93

Abbildung 52: Atmo-Aufnahme für Raumklang in Intro ....................................................................... 93

Abbildung 53: Anordnung der unteren Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan

Suite (Bildquelle: Audio Ease 360pan Suite) .................................................................................... 93

Abbildung 54: Anordnung der oberen Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan

Suite (Bildquelle: Audio Ease 360pan Suite) .................................................................................... 93

Abbildung 55: Dreharbeiten von im Shuttle eingeblendeten Video von Ground-Control .................... 94

X

Abbildung 56: Pro Tools Session zur Erstellung von Dialog-Stems für die einzelnen Abschnitte von

„Asperity“ (Bildquelle: Pro Tools) .................................................................................................... 94

Abbildung 57: Capture Log in Wwise mit den Fehlermeldungen beim Einsatz von RealSpeace3D in

„Asperity“ (Bildquelle: Wwise v2017.2.1) ....................................................................................... 95

Abbildung 58: Oculus Spatializer in Wwise (Bildquelle: https://scontent-frt3-

2.xx.fbcdn.net/v/t39.2365-

6/18309151_1855720148014394_8182416502838788096_n.jpg?oh=742f05be7cb18d05786ac85

0c57f190b&oe=5B4D70E6) ............................................................................................................. 96

Abbildung 59: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“

– Leinwand mit Imagefilme der „Asperity Technologies Corp.“ ...................................................... 96

Abbildung 60: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“

– Starts des Spaceshuttles ............................................................................................................... 96

Abbildung 61: Ausschneiden eines Dialog-Teils innerhalb eines Dialog-Stems im Source Editor in

Wwise (Bildquelle: Wwise v2017.2.1) ............................................................................................. 97

Abbildung 62: Playlist eines Dialog-Stems im "Sequence Container" in Wwise (Bildquelle: Wwise

v2017.2.1) ....................................................................................................................................... 98

Tabellenverzeichnis

Tabelle 1: Vergleich der Funktionsumfänge verschiedener Ambisonics-Plugins .................................. 36

Tabelle 2: Von Wwise unterstützte Plattformen (Audiokinetic, o.J.l) ................................................... 51

Tabelle 3: Von FMOD unterstützte Plattformen (Audiokinetic, o.J.l; Firelight Technologies, o.J.a,

Firelight Technologies, o.J.b, Firelight Technologies, o.J.h, Firelight Technologies, o.J.i, Firelight

Technologies, 2016) ........................................................................................................................ 64

Tabelle 4: Vergleich der Funktionsumfänge von Wwise, FMOD, Fabric und Unity............................... 81

Formelverzeichnis

Formel 1: Fourier-Bessel-Reihe .............................................................................................................. 9

1

1. Einleitung

Virtual Reality könnte die Welt der Unterhaltungsindustrie in den nächsten Jahren stark verändern.

Zwar ist es fraglich, ob bestehende mediale Formate komplett verdrängt werden, doch eines ist bereits

klar: VR-Technik ermöglicht, im Vergleich zu traditionellen Medienformen, neue Darstellungsformen

und ein intensiveres Erfahren von Inhalten. Dabei spielt der Ton neben dem Bild eine zentrale Rolle.

Seit den Verkaufsstarts der HTC Vive, der Oculus Rift und PlayStation VR im Jahr 2016 (Berg, 2016;

Kolokythas, 2016; Zwingmann, 2016) können auch Privatkonsumenten1 durch Head-Mounted Displays

und Kopfhörer VR-Inhalte im eigenen Zuhause erfahren. Die Echtzeit-Binauralisierung von Toninhalten

ermöglicht dabei im Zusammenhang mit Headtracking die Wiedergabe von 3D-Sound auf

konventionellen Kopfhörern.

Abhängig vom Grad der Interaktion des Nutzers mit dem Medium ist die Produktion von diesen

Toninhalten mit speziellen Arbeitsabläufen verbunden, welche in dieser Arbeit untersucht werden

sollen. Es folgt zunächst eine Einführung in Virtual Reality, die Darlegung der damit angestrebten Ziele

und eine Kategorisierung von VR anhand der möglichen Interaktion. Nach einer Einführung über das

räumliche Hören wird die Binauraltechnik näher betrachtet, da diese die Grundlage für die

Binauralisierung von 3D-Audio darstellt. Im Anschluss werden die Anforderungen an VR-Audio, die

dafür verwendeten Formate, sowie geeignete Mikrofonsysteme behandelt. Es folgt ein Überblick über

die Produktion der Inhalte, wobei die dafür verwendbare Software gegenübergestellt wird. Das letzte

Kapitel erarbeitet eine Produktionstechnik für den interaktiven VR-Film „Asperity“ und dokumentiert

deren Umsetzung.

1 Für die Verbesserung des Textflusses und der Lesbarkeit wird in dieser Arbeit bei Personenbezeichnungen ausschließlich die grammatikalisch männliche Form verwendet, außer es handelt sich explizit um eine Aussage über eine weibliche Person. Diese Vorgehensweise impliziert keinerlei Wertung.

2

2. Virtual Reality

2.1 Charakterisierung von VR

Die Idee der virtuellen Realität ist nach Behrends (2015, S. 42) alle Eigenschaften der realen Umgebung

auszublenden und durch virtuelle Reize zu ersetzen. Wird die Simulation der virtuellen Welt von einem

Computer durchgeführt, so kann die perfekte virtuelle Realität laut Dörner, Jung, Grimm, Broll & Göbel

(2013, S. 8–9) als perfekte Benutzungsschnittstelle für Software begriffen werden. Nutzer würden

vergessen, dass sie mit einem Computer interagieren und so handeln wie sie es in der realen Welt

gewohnt sind.

VR-Systeme können folgendermaßen charakterisiert werden:

„Virtual Reality refers to immersive, interactive, multi-sensory, viewer-centered,

three-dimensional computer generated environments and the combination of

technologies required to build these environments.“ (Cruz-Neira, SIGGRAPH ’93

Course Notes „Virtual Reality Overview“ nach Dörner et al., 2013, S. 13)

Dörner, Jung et al. (2013, S. 13–14) beschreiben es so, dass 3D-Inhalte auf dreidimensionalen Displays

dargestellt und multisensorisch (zum Beispiel visuell, auditiv und taktil) präsentiert werden.

Körperbewegungen werden im dreidimensionalen Raum verfolgt, wodurch in Echtzeit 3D-

Interaktionen simuliert werden können. Zudem stellt das Tracking der Position und Orientierung des

Nutzers (Head-Tracking) die Grundlage für die blickpunktabhängige Bildgenerierung von VR-Systemen

dar. Dadurch wird es ermöglicht, in Echtzeit eine dreidimensionale Umgebung aus der Perspektive des

Nutzers darzustellen.

Verfahren zur sensorischen Erfassung von Nutzeraktionen sind unter anderem optisches Tracking, 3D-

Mäuse, mechanische Eingabegeräte, akustisches Tracking, elektromagnetisches Tracking, Inertial-

Tracker (mit Trägheits- beziehungsweise Beschleunigungssensoren), Bewegungsplattformen, Finger-

Tracking und Eye-Tracking (Grimm, Herold, Hummel & Broll, 2013).

Für die Ausgabe von Inhalten werden auf visueller Ebene Monitore, Projektionssysteme oder Head-

Mounted Displays, auf akustischer Ebene Mehrkanalsysteme oder Kopfhörer (Travis, 1996, S. 110) und

auf haptischer Ebene Vibrationsmotoren und Subwoofer verwendet (Grimm, Herold, Reiners & Cruz-

Neira, 2013).

3

Für diese Ausgabegeräte definieren Slater und Wolbur (1997 nach Dörner et al., 2013, S. 14) die

folgenden vier technischen Eigenschaften, welche die physikalische Immersion2 bilden:

1. Der Nutzer soll von der äußeren Umgebung isoliert sein und alle Sinneseindrücke sollen

ausschließlich vom Computer generiert werden.

2. Es sollen möglichst viele Sinne angesprochen werden.

3. Die Ausgabegeräte sollen den Nutzer vollständig umgeben.

4. Die Ausgabegeräte sollen durch hohe Auflösung und Qualität eine „lebendige“ Darstellung

ermöglichen.

Da beispielsweise Head-Mounted Displays (HMD) ausschließlich computergenerierte visuelle

Eindrücke ermöglichen, sind diese als immersive Displays zu betrachten, wobei HMDs mit größerem

Sichtfeld, immersiver als HMDs mit kleinem Sichtfeld sind (Dörner et al., 2013, S. 14).

Die Interaktion mit der virtuellen Realität ist jedoch bisher noch immer durch den Verlust von

Raumbezügen beschränkt, welche durch den Gleichgewichtssinn und die Tiefensensibilität vermittelt

werden (Behrends, 2015, S. 42). Es ist eine große Herausforderung das Körpergefühl des Nutzers mit

seinen visuellen und auditiven Reizen zu vereinen (Cue to Create, 2013 nach Behrends, 2015, S. 42).

2.2 Interaktive versus lineare VR

Abbildung 1: Kategorisierung der VR-Landschaft (Bildquelle: Susal, Krauss, Tsingos & Altman, 2016, S. 2)

VR-Erlebnisse können nach Susal, Krauss, Tsingos & Altman (2016, S. 2) in interaktive und lineare

Anwendungen unterteilt werden (s. Abbildung 1). Zur interaktiven VR gehören Spiele und interaktive

2 Bei dem Begriff der Immersion ist nach Sherman und Craig (2003 nach Dörner, Jung, Grimm, Broll und Göbel, 2013, S. 14) zwischen physikalischer und mentaler Immersion zu unterscheiden, wobei ersteres zum Beispiel die technische Eigenschaft eines VR-Displays darstellt und letzteres die mentale Qualität beim Erleben von VR (Dörner et al. 2013, S. 14).

4

Filme, bei denen der Zuschauer in Echtzeit das Geschehen steuert und aktiver Akteur in der Storyline

ist. Zur linearen VR gehören filmische oder experimentelle Geschehnisse, bei denen der Zuschauer

seinen Standpunkt steuern oder Verzweigungspunkte innerhalb einer linearen Zeitachse auswählen

kann. Den Inhalt an sich kann er dabei jedoch nicht verändern. Aber er kann in der Lage sein, den Ton

abhängig von der Blickrichtung zu beeinflussen, wie zum Beispiel die Verstärkung von Elementen mit

direkter Sichtverbindung (ebd.).

2.3 Räumliches Hören

Die räumliche Wahrnehmung des Gehörs besteht nach Dickreiter (2014, p. 127) aus der

Richtungswahrnehmung und der Entfernungswahrnehmung. Durch diese beiden Komponenten wird

die räumliche Ausdehnung einer Schallquelle wahrgenommen (ebd.). Für die Beschreibung der

Hörereignisrichtung vom Kopf des Hörers wird ein Koordinatensystem aus der Horizontal-, Frontal-

und Medianebene verwendet (s. Abbildung 2) (ebd.).

Abbildung 2: Kopfbezogenes Koordinatensystem zur Beurteilung der Hörereignisrichtung (Bildquelle: Dickreiter, 2014, S. 128)

Auf der horizontalen Ebene werden Hörereignisse durch Laufzeitdifferenzen und frequenzabhängige

Pegelunterschiede zwischen beiden Ohren lokalisiert (Dickreiter, 2014, S. 127–128). Auf der

Medienebene ist keine interaurale Pegel- und Laufzeitdifferenz vorhanden. Die Hörereignisrichtung

wird hierbei durch individualspezifische richtungsbestimmende Frequenzbänder für vorne, oben und

hinten ermittelt (Blauert, 1974 nach Blauert & Braasch, 2008, S. 94). Durch die charakteristische

Filterwirkung der Außenohren werden bei breitbandigen Signalen bestimmte Spektralanteile

angehoben und abgesenkt, wodurch Hörereignisse einer Schalleinfallsrichtung zugeordnet werden

können (Blauert & Braasch, 2008, S. 95) (s. Abbildung 3).

5

Abbildung 3: Richtungsbasierende Frequenzbänder nach Versuchen von Blauert bei der Richtungslokalisation auf der Medienebene (Sengpiel, o.J.a)

In Abbildung 3 lässt sich unter anderem erkennen, dass mit der größten relativen Häufigkeit das Band

um 1 kHz als „hinten“ lokalisiert wird. Der Erhebungswinkel zum Hörereignis auf der Medianebene und

die Lokalisation von vorne und hinten werden durch spektrale Veränderungen gebildet (Dickreiter,

2014, S. 128). Auf der Frontalebene erfolgt die Beurteilung der Hörereignisrichtung durch

Laufzeitdifferenzen und komplexe Klangfarben- und Pegeldifferenzen (ebd.).

Die Schallübertragung aus dem Freifeld für einen bestimmten Schalleinfallswinkel am Eingang des

Gehörgangs wird dabei durch die Außenohrübertragungsfunktion (HRTF3) beschrieben (Sengpiel,

o.J.b). Die damit verbundenen spektralen Besonderheiten werden von Görne (2015, S. 126) als „HRTF-

Kammfilter“ bezeichnet. Webers (2007, S. 232) beschreibt diese spezielle Eigenschaft des Gehörgangs

als frequenzabhängige Richtcharakteristik. Durch eine Bewegung des Kopfes und die damit

verbundene Veränderung der HRTF werden weitere Richtungsinformationen gewonnen (Görne, 2015,

S. 126).

Damit der von der HRTF erzeugte Kammfilter in Bezug auf die Richtungslokalisation eine möglichst

große Wirkung erzielen kann, ist ein breitbandiges Schallsignal mit hochfrequentem Anteil nötig

(Görne, 2015, S. 126). Schmalbandige Signale können hingegen auf der Medianebene nicht lokalisiert

3 Head-Related Transfer Function

6

werden (Dickreiter, 2014, S. 132). Weiter ist die Lokalisation zuverlässiger, wenn das Schallsignal dem

Hörer bereits bekannt ist (Blauert & Braasch, 2008, S. 95; Görne, 2015, S. 126).

2.4 Binauraltechnik

Eine Voraussetzung für die optimale Wiedergabe von Signalen über Kopfhörer ist, dass Stereosignale

gemäß dem natürlichen Hören Laufzeit- und Pegelunterschiede enthalten und beide Kanäle anhand

der HRTF gefiltert wurden (Görne, 2015, S. 131). Die binaurale Reproduktion eines Schallfeldes kann

einerseits durch die Aufnahme mit Kunstkopfmikrofonen oder sich in den Ohren befindenden

Sondenmikrofonen, andererseits durch die Faltung von raumbezogenen Aufnahmen im Computer mit

einer gespeicherten HRTF erreicht werden (ebd.). Ohne dieser Vorgehensweise kommt es beim Hören

über Kopfhörer zur sogenannten Im-Kopf-Lokalisation, da das Außenohr keinen Einfluss auf das

Schallfeld hat und dadurch Phantomschallquellen auf einer Verbindungslinie im Kopf zwischen beiden

Ohren angeordnet werden (ebd.).

Durch Messungen von Impulsantworten von Lautsprechern in bestimmten Winkeln für das linke und

rechte Ohr werden HRTFs (Head-Related Transfer Function), HRIRs (Head-Related Impulse Response)

oder BRIRs (Binaural Room Impulse Response) erstellt (Shivappa, Morrell, Sen, Peters & Salehin, 2016,

S. 3). HRTFs und HRIRs charakterisieren, wie eine Person im Freifeld einen Klang (aus einem

Lautsprecher) aus einer bestimmten Richtung und Distanz empfängt (ebd.). BRIRs erfassen zusätzlich

die akustischen Effekte eines Raumes (ebd.).

Um also ein binaurales Stereosignal für Kopfhörer aus einer VR-Audio-Repräsentation zu erstellen,

werden Datensätze von HRTFs (beziehungsweise BRIRs) genutzt, um Lautsprechersignale mit der

geeigneten Impulsantwort zu filtern (Shivappa et al., 2016, S. 3). Folglich wird für jede spezifische

Lautsprecherposition die dazugehörige HRTF (beziehungsweise BRIR) benötigt (ebd.).

Durch BRIRs werden häufig lokale Räume erfasst und simuliert, in denen mit Kopfhörern gehört

werden soll (Shivappa et al., 2016, S. 3). Dies hilft bei der Externalisierung, Immersion und Lokalisierung

von Ton (ebd.).

7

3. VR-Audio

Dieses Kapitel stellt die Anforderungen an Audio für VR heraus, geht auf die damit verbundene

Wiedergabe über Kopfhörer ein und erläutert für VR geeignete Audio-Formate.

3.1 Anforderungen

Für VR-Anwendungen wird eine flexible, räumliche

Darstellung von Audio benötigt, da der Zuschauer zu jeder

Zeit seinen Blickwinkel (3DOF4) und gegebenenfalls

zusätzlich seine Position (6DOF, s. Abbildung 4) frei

verändern kann (Susal et al., 2016, S. 3). Aus diesem Grund

ist es nötig, dass der Ton aus jeder beliebigen Richtung

nahtlos, mit gleicher Qualität und mit derselben

räumlichen Präzision dargestellt wird.

Dabei sollten nicht-diegetische Hintergrundelemente oder Musik bei der Mischung aber trotzdem

bevorzugt kopfbezogen gehalten werden (Susal et al., 2016, S. 5). Das heißt, dass Kopfbewegungen

nicht zu einem veränderten Rendering dieser Signale führen. Diegetische Soundeffekte oder Dialoge

sollten hingegen szenenbezogen sein und sich an die getrackten Kopfbewegungen des Nutzers

anpassen (ebd.). Diese Abgrenzung kann beispielsweise als künstlerisches Element für

Sprecherstimmen eingesetzt werden (Susal et al., 2016, S. 7).

3.2 Wiedergabe über Kopfhörer

Die traditionelle Wiedergabe über Lautsprechersysteme mit einem Head-Mounted Display (HMD stellt

nach Oculus (o.J.b) aufgrund von Headtracking und der Bewegung des Nutzers eine Sackgasse dar.

Kopfhörer haben hingegen die Vorteile, dass eine akustische Isolation des Hörers von der Umwelt

stattfindet, Headtracking vereinfacht wird und – im Falle von Headsets – ideal platzierte Mikrofone

eingesetzt werden können (ebd.). Zusätzlich ist eine einfache dreidimensionale Audiowiedergabe

mittels Binauraltechnik möglich.

4 Three degrees of freedom

Abbildung 4: Six degrees of freedom (6DOF) (Bildquelle: Susal et al., 2016, S. 3)

8

Weiter konnte von Hanschke et al. (2016 nach Shivappa et al., 2016, S. 4) gezeigt werden, dass über

Kopfhörer mit dynamischem Headtracking immersive, kanalbasierte Inhalte in verhältnismäßig

gleicher immersiver Qualität wiedergeben werden können, wie über Lautsprecher.

Ein VR-Audio-System mit Kopfhörern muss nach Shivappa et al. (2016, S. 3) zusätzlich zu den

generellen Qualitätsanforderungen von Ton zu Bild folgende Kriterien erfüllen: Es muss eine akkurate

Lokalisierung von Ton in alle Richtungen erfolgen und eine dynamische Binauralisierung des

Schallfeldes durch Headtracking. Dabei ist eine präzise, hochauflösende Rotation des Schallfeldes

nötig, welche mit der menschlichen Wahrnehmung in einer Auflösung von bis zu einem Grad

übereinstimmt. Weiter darf die Latenz zwischen Bewegung und Ton nicht wahrnehmbar sein.

Gleichzeitig kann es jedoch auch wünschenswert sein einige Elemente, durch das Umgehen von

binauralem Processing während der Wiedergabezeit, in höherer Klangtreue zu rendern (Susal et al.,

2016, S. 5). Dies kann speziell bei Musik sinnvoll sein, da Instrumente wie Snaredrums durch die HRTF

Präzision und Attack verlieren können (Susal et al., 2016, S. 7). In diesem Fall ist es empfehlenswert

diese von der Binauralisierungsprozess auszuschließen.

3.3 Formate für VR-Audio

Aktuell werden hauptsächlich Ambisonics und objektbasiertes Audio verwendet (Susal et al., 2016,

S. 3). Weiter kommt für lineares VR-Audio das kanalbasierte Quad-binaurale Format zum Einsatz (Lee,

2016, S. 2).

3.3.1 Ambisonics

Bereits in den 1970er Jahren wurden die theoretischen Grundlagen vom Ambisonics-Verfahren

überwiegend von dem Mathematiker Michael Gerzon entwickelt (Gerzon, 1973 nach Slavik &

Weinzierl, 2008, S. 559). Das Verfahren ermöglicht eine theoretisch beliebig genaue Übertragung von

realen, dreidimensionalen Schallfeldern sowie das Synthetisieren von virtuell erzeugten (Slavik &

Weinzierl, 2008, S. 659). Dabei nimmt die Genauigkeit mit der Anzahl der für die Übertragung

verwendeten Kanäle bei der Aufnahme und Anzahl der Lautsprecher bei der Wiedergabe zu (ebd.).

Während sich das Verfahren früher auf dem Tonträgermarkt nicht durchsetzen konnte, hat es seit Ende

der 1990er Jahre durch die Einführung von Higher Order Ambisonics (HOA) ein Revival erlebt (Nicol &

Emerit, 1999; Malham, 1999 nach Slavik & Weinzierl, 2008, S. 660). Die Aufnahme in den MPEG-H

Standard (ISO/IEC 23008-3) kann dabei als großer Erfolg bewertet werden (Meyer & Elko, 2016, S. 1).

9

3.3.1.1 Grundlagen

Ambisonics basiert auf einem physikalischen Ansatz, der die vorkommende Wellenfront am Ort des

Hörers codiert (Susal et al., 2016, S. 3). Dabei wird das dreidimensionale Schallfeld durch eine Fourier-

Bessel-Reihe beschrieben und die Richtung aus der Perspektive des Hörers durch Kugelkoordinaten

(Radius r, Azimuth φ und Elevation δ, s. Abbildung 5) angegeben (Slavik & Weinzierl, 2008, S. 660).

Abbildung 5: Kopfbezogenes Koordinatensystem (Bildquelle: Blauert & Braasch, 2008, S. 88)

Es gilt:

𝑝(𝑟) = ∑ 𝑖𝑚𝑗𝑚(𝑘𝑟) ∑ 𝐵𝑚𝑛𝜎𝑌𝑚𝑛

𝜎(𝜑, 𝛿)

0≤𝑛≤𝑚,𝜎=±1

∞

𝑚=0

Formel 1: Fourier-Bessel-Reihe

Die mit dem Faktor der Komponenten 𝐵𝑚𝑛𝜎 multiplizierten Funktionen 𝑌𝑚𝑛

𝜎 werden als sphärische

Harmonische bezeichnet (Slavik & Weinzierl, 2008, 669-661). Das Schallfeld 𝑝(𝑟) besteht aus

Überlagerung von sphärischen Harmonischen der Ordnung 𝑚, welche radial mit sphärischen

Besselfunktionen 𝑗𝑚(𝑘𝑟) und einem Phasenfaktor 𝑖𝑚 gewichtet werden (Slavik & Weinzierl, 2008,

S. 661). In Abbildung 6 wird die winkelabhängige Amplitude der sphärischen Harmonischen 𝑌𝑚𝑛𝜎

dargestellt. Anhand der sphärischen Besselfunktion lässt sich erkennen, dass der Schalldruck im

Ursprung (𝑘𝑟 = 0) bereits durch die Harmonische 0. Ordnung 𝐵001 gegeben ist (ebd.). Die

Harmonischen höherer Ordnung synthetisieren das Schallfeld dann weiter in zunehmendem Abstand

vom Ursprung (ebd.).

10

Abbildung 6: Darstellung der winkelabhängigen Amplitude 𝑌𝑚𝑛𝜎 der sphärischen Harmonischen (0. bis 2. Ordnung) mit den

in der Fourier-Bessel-Reihe verwendeten Indizes (Slavik & Weinzierl, 2008, S. 661). (Bildquelle: https://en.wikipedia.org/wiki/Spherical_harmonics)

Für die Reproduktion des Schallfeldes werden die Komponenten 𝐵𝑚𝑛𝜎 der Fourier-Bessel-Reihe (s.

Formel 1) übertragen (Slavik & Weinzierl, 2008, S. 661). Eine größere Anzahl an übermittelten

Komponenten führt dabei zu einer genaueren Synthese und Resynthese des Schallfeldes. Die

Komponente 𝐵001 stellt den Schalldruck im Ursprung dar (in Ambisonics-Terminologie W), 𝐵11

−1,

𝐵11−1 und 𝐵10

1 stellen die Druckgradienten beziehungsweise die Schnellekomponenten in die drei

Richtungen des Raumes dar (in Ambisonics-Terminologie X, Y, Z). Diese vier Komponenten bilden das

vierkanalige B-Format (FOA5).

Für die Synthese und Resynthese eines Schallfeldes mit Ambisonics 𝑚-ter Ordnung, werden (𝑚 + 1)2

Übertragungskanäle (Komponenten) benötigt (Slavik & Weinzierl, 2008, S. 662).

3.3.1.2 Kodierung

Die Encodierung bedeutet, bei Ambisonics, die Komponenten 𝐵𝑚𝑛𝜎 eines realen oder virtuellen

Schallfeldes durch ein Ambisonics-Mikrofon oder basierend auf einem Schallfeld-Modell zu gewinnen

(ebd.). Die Dekodierung und Resynthese dieser Komponenten für eine zentrale Hörposition erfolgt

dann durch Überlagerung von Lautsprechersignalen (ebd.). Eine größere Anzahl von Komponenten

führt zu einem größeren korrekt resynthetisierten Bereich (ebd.). Voraussetzend ist dabei, dass das

aufgenommene Schallfeld eine ebene Welle ist und die Lautsprecher bei der Wiedergabe ebenfalls

ebene Wellen abstrahlen (ebd.).

5 First Order Ambisonics

𝑌001 (𝑊)

𝑌11−1(𝑌) 𝑌10

1 (𝑍) 𝑌111 (𝑋)

𝑌22−1(𝑉) 𝑌21

−1(𝑇) 𝑌201 (𝑅) 𝑌21

1 (𝑆) 𝑌221 (𝑈)

1. Ordnung:

2. Ordnung:

0. Ordnung:

11

Diese ebene Welle wird anhand ihrer Einfallsrichtung durch reelle Gewichtungsfaktoren zu den

Ambisonics-Komponenten enkodiert, welche die Übertragungskanäle bilden und für eine konkrete

Lautsprecherkonfiguration bei der Wiedergabe dekodiert werden müssen (ebd.). Dabei werden die

Wiedergabesignale aus den Komponenten und der Konfiguration des Wiedergabesystems abgeleitet.

Dies setzt aber voraus, dass die Anzahl der Lautsprecher mindestens so hoch ist wie die der

Ambisonics-Komponenten. Andernfalls treten mehr mathematische Gleichungen als unbekannte

Variablen auf und es kann keine korrekte Lösung garantiert werden (Slavik & Weinzierl, 2008, S. 663).

Die räumliche Information des Schallfeldes wird bei Ambisonics direkt in den PCM-Wellenformen der

Signale codiert (Susal et al., 2016, S. 3). Die Signale können dann weiter manipuliert (zum Beispiel

rotiert) und auf einer Vielfalt von Wiedergabesystemen, inklusive binaural über Kopfhörer, decodiert

werden (ebd.).

3.3.1.3 Higher Order Ambisonics

Ordnungen höher als FOA werden als Higher Order Ambisonics (HOA) bezeichnet. Diese bieten im

Gegensatz zu FOA eine präzisere und akkuratere Darstellung des gesamten Schallfeldes in höherer

räumlicher Auflösung (Shivappa et al., 2016, S. 4). Weiter ist der Sweetspot größer als bei FOA (Bertet

et al., 2009 nach Shivappa et al., 2016, S. 4). Untersuchungen von Frank & Zotter (2017) über die Größe

dieses optimalen Hörbereichs des reproduzierten Schallfeldes bei unterschiedlichen Ambisonics

Ordnungen haben ergeben, dass der mediane Radius des Sweetspots bei Ambisonics 1. Ordnung die

Hälfte des Lautsprecherradius beträgt und bei 3. Ordnung zwei Drittel.

Hörtests von Thresh, Armstrong & Kearney (2017) mit optimierten echten und virtuellen

Lautsprecherarrays und mit Hilfe eines generischen HRTFS-Satzes haben ergeben, dass bei der

Zunahme der Ambisonics Ordnung von der 1. auf die 3. die größte Verbesserung der

Lokalisierungsschärfe, mit einer Zunahme von 7° bis 10°, auftritt. Die Zunahme auf Ambisonics 5.

Ordnung habe lediglich zu einer Zunahme von ca. 2° geführt. Das weist laut Thesh et al. (2017) darauf

hin, dass bei der Simulation mit BRIRs ohne individuelle HRTFs, der Nutzen von Ambisonics 5. Ordnung

im Vergleich zu 3. Ordnung nur einen geringen Vorteil bringt.

3.3.1.4 Vorteile

Da sphärische Harmonische die Grundlage von Ambisonics darstellen, wird eine effiziente und flüssige

Rotation des Schallfeldes ermöglicht (Shivappa et al., 2016, S. 4). Durch spezielle Algorithmen ist es

möglich die HOA-Koeffizienten, unabhängig von der Komplexität der Szene und Anzahl der für das

12

Rendering benutzten virtuellen Lautsprecher effizient zu binauralisieren (ebd.). Das stellt für eine auf

Headtracking basierende Binauralisierung von VR-Audio auf Geräten mit schwacher Rechenleistung

einen wichtigen Vorteil dar (ebd.). Da Audio auf dem Gerät des Konsumenten gerendert wird, können

von binauralen bis zu immersiven Surround Sound Systemen alle standardisierten und nicht-

standardisierten Wiedergabesetups versorgt werden (Shivappa et al., 2016, S. 4–5).

Weiter ist bei Ambisonics eine effiziente und akkurate Darstellung des Schallfeldes mit einer

begrenzten Anzahl von Komponenten möglich, welche nur von der Ordnung der Darstellung abhängt

(Shivappa et al., 2016, S. 4). Außerdem können diese Koeffizienten unabhängig von der Komplexität

der Szene auf eine feste Bandbreite komprimiert werden (ISO/IEC, 2015 nach Shivappa et al., 2016,

S. 4). Dadurch wird eine sehr hohe räumliche Auflösung und Klangtreue bereitgestellt, ohne dass deren

Komplexität durch die Bandbreite von Objekten oder Kanälen begrenzt wird (Shivappa et al., 2016,

S. 5). Ein weiterer Vorteil sind die kompakten Mikrofon-Arrays, durch welche das Schallfeld

aufgenommen wird (Shivappa et al., 2016, S. 6).

Ambisonics wird zudem bereits von Facebook und Google zur Veröffentlichung von 360°-Videos

genutzt wird (Facebook, o.J.; YouTube, o.J.), was eine kostengünstige Verbreitung ermöglicht.

3.3.1.5 Nachteile

Ein Nachteil vom HOA ist, dass eine stark steigende Anzahl von PCM-Kanälen benötigt wird, um

detailliertere räumliche Informationen zu codieren: lediglich vier Kanäle für FOA, aber bereits sechzehn

Kanäle für 3rd Order (Susal et al., 2016, S. 3). Aus diesem Grund bleibe Ambisonics hauptsächlich in

niedriger Ordnung praktikabel. Dabei kann es jedoch zu einem Qualitätsverlust kommen, was Wittek

(2015) folgendermaßen beschreibt:

„Als Speicherformat für beliebige räumliche Signale ist Ambisonics sehr gut

geeignet, aber wiederum nur, wenn die Ordnung groß genug ist. Ein

Speicherformat mit nur vier Kanälen (bei Ambisonics heißen diese 4 Kanäle erster

Ordnung W, X, Y, Z) erzeugt aus jeder 3D-Aufnahme einen Brei, denn die vormals

gute Signaltrennung im 3D-Setup wird durch die Mischung auf 4 Kanäle zerstört.“

Die niedrige Auflösung von FOA beschränkt die korrekte Resynthese des Schallfeldes, speziell für hohe

Frequenzen, auf einen kleinen Sweetspot (Bertet, Daniel & Moreau, 2006).

Weiter ist das Ambisonics-Format hauptsächlich für 3DOF-Wiedergabeszenarien geeignet (Susal et al.,

2016, S. 3). Bei 6DOF müssten für jedes Verhalten unterschiedliche Sub-Mixe erstellt werden.

13

Beim Einsatz von Ambisonics tritt in Bezug auf nicht-diegetischen Filmton das Problem auf, dass

innerhalb einer Ambisonics-Mischung nur ein Mono-Signal nicht-diegetisch platziert werden kann.

Dies stellt zum Beispiel für den Einsatz von Musik in Stereo einen Nachteil dar. Weiter ist es nicht

möglich einzelne Elemente aus dem Binauralisierungsprozess auszuschließen, da ein Decoder ohne

Meta-Daten die Binauralisierung einer Ambisonics-Mischung durchführt.

3.3.1.6 Ambisonics-Formate

Die Unterschiede der folgenden Ambisonics-Formate liegen innerhalb ihrer Kanalanordnung und

Normalisierung. Im Folgenden werden für VR relevante Formate und ihre Eigenschaften kurz

dargelegt.

ambiX

Bei ambiX sind die Kanäle nach der Ambisonics Channel Number (ACN) angeordnet, welche aus den

Koeffizienten der jeweiligen sphärischen Harmonischen abgeleitet werden (Chapman et al., 2009, S. 3).

Die daraus resultierende Kanalanordnung für die Kanäle 0 bis 15 ist (W), (Y, Z, X), (V, T, R, S, U),

(Q, O, M, K, L, N, P). Hierbei sind die jeweiligen Ordnungen von 0 bis 3 durch Klammern dargestellt. Die

sphärischen Harmonischen sind dabei nach der Schmidt Semi-Normalisierung (SN3D) normalisiert

(Carpentier, 2017, S. 2).

FuMa

Bei FuMa erfolgt die Normalisierung der sphärischen Harmonischen hingegen nach dem eigenen

Schema von Furse und Malham (ebd.), wobei zusätzlich der W-Kanal mit 1/√2 gewichtet wird und die

Kanalanordnung der ersten 16 Kanäle aus (W), (X, Y, Z), (R, S, T, U, V), (K, L,M,N, O, P, Q) besteht

(Malham, 2003, S. 3–4). Hierbei sind die jeweiligen Ordnungen von 0 bis 3 durch Klammern dargestellt.

FuMa mit MaxN-Normalisierung

Weiter gibt es noch die Variante einer FuMa-Kanalanordnung mit MaxN-Normalisierung, welche zum

Beispiel von Audiokinetic Wwise (Audiokinetic, o.J.n) genutzt wird. Diese Normalisierung

unterscheidet sich von der FuMa-Normalisierung jedoch lediglich in der Gewichtung des W-Kanals

(Carpentier, 2017, S. 2).

Hybrid Higher Order Ambisonics (Facebook)

Facebook hat für seine 360°-Videos ein achtkanaliges Format entwickelt, welches von Facebook selbst

als Hybrid Higher Order Ambisonics bezeichnet wird (Fugal & Nair, 2017; Harvey, 2017). Es wird dabei

die Soundqualität von HOA mit acht Kanälen angestrebt. Durch den Encoder der Facebook 360 Spatial

Workstation ist es möglich dieses Format zu erstellen.

14

3.3.2 Objektbasiertes Audio

3.3.2.1 Prinzip

Objektbasierte Ansätze stellen eine komplexe auditive Szene als eine Sammlung einzelner Elemente

dar, welche jeweils aus einer Audio-Wellenform und Metadaten bestehen (Susal et al., 2016, S. 3).

Diese Metadaten verkörpern die künstlerische Intention, die für die Übertragung des Audio-Elements

in das finale Reproduktionssystem spezifiziert wird. Dafür werden allgemein monophone Audiospuren

benutzt, welche als Audio-Objekte auf horizontaler Ebene oder im dreidimensionalen Raum anhand

von Metadaten positioniert werden (ebd.). Basierend auf diesen Metadaten wird die Szenerie bei der

Wiedergabe vom Konsumenten durch einen Rendering-Algorithmus konstruiert (Shivappa et al., 2016,

S. 4). Durch Audio-Objekte können zudem virtuelle 3D-Lautsprechersetups erstellt und zur binauralen

Synthese verwendet werden (Wittek, 2015; Wittek & Theile, 2017, S. 9). Auf diese Weise können zum

Beispiel auch traditionelle Surround-Anordnungen wiedergegeben werden.

Interaktive Sound-Engines von Videospielen oder Simulatoren manipulieren auf eine ähnliche Weise

Sound-Objekte zu Punktschallquellen in komplexen, dynamischen Klanglandschaften. Aus diesem

Grund sind sie in der Lage eine große Anzahl von Metadaten zu speichern, die das Verhalten der

Objekte bestimmen (Susal et al., 2016, S. 3).

3.3.2.2 Vorteile

Da positionierende Metadaten, zum Beispiel anhand von Head-Tracking, dynamisch modifiziert

werden können, eigenen sich objektbasierte Darstellungen gut für VR-Anwendungen (Susal et al.,

2016, S. 4). Im Gegensatz zu Ambisonics, bieten sie nach Susal et al. (2016, S. 4) eine bessere Mischung

aus räumlicher Treue und Interaktivität, da Objekte diskret und individuell mit Metadaten versehen

werden können, die spezifisches Verhalten im Rendering-Prozess kennzeichnen. Die räumliche

Genauigkeit ist ebenfalls nur von Metadaten abhängig und ist nicht direkt an die Anzahl von Kanäle

gebunden (ebd.). Aus diesen Gründen ist objektbasiertes Audio besonders gut für Anwendungen

geeignet, die 6DOF-Wiedergabe mit hoher räumlicher Genauigkeit benötigen (ebd.).

Objektbasiertes Audio ermöglicht Nutzern zudem eine Personalisierung von Inhalten. Neben einer

Auswahl an verschiedenen Sprachen, kann zum Beispiel die Lautstärke der Sprache einzelner

Schauspieler individuell angepasst werden, um dem Dialog folgen zu können (Susal et al., 2016, S. 7).

Objekte können entweder individuell durch eine diskrete HRTF-Faltung pro Objekt oder durch einen

Satz von virtuellen Lautsprechern binauralisiert werden. Letzteres wird dann durch eine HRTF-Faltung

pro Lautsprecher binauralisiert (Shivappa et al., 2016, S. 4).

15

3.3.2.3 Nachteile

Der objektbasierte Ansatz benötigt jedoch im Vergleich zum kanalbasierten Produktions-Workflow

einen weiteren Arbeitsschritt, in dem Metadaten für die Objekte generiert werden (Susal et al., 2016,

S. 4). Dies kann automatisch oder durch einen Mixing-Engineer geschehen und besonders in Live-

Anwendungen eine Herausforderung darstellen (ebd.). Für diese Problematik existieren jedoch

verschiedene Lösungen. Beispiele hierfür sind die Konvertierung von räumlichen Mikrofonsignalen in

Sets aus Objekten oder Kanälen (Tsingos et al., 2016; Merimaa, 2002; Meyer & Elko, 2004 nach Susal

et al., 2016, S. 4) und automatisches Panning durch Tracking (Susal et al., 2016, S. 4).

Bei der Aufnahme von objektbasiertem Audio muss akustisches Übersprechen vermieden werden, da

diese die Lokalisation und das Timbre des gerenderten Audio-Objekts beeinflussen (Shivappa et al.,

2016, S. 4). Außerdem erfordert eine rein objektbasierte Repräsentation den Einsatz von individuellen

Audiospuren. Das bedeutet, dass die benötigte Bandbreite für die Übertragung einer Klangszene zu

jedem Zeitpunkt von der Anzahl an gleichzeitig vorhandenen Objekten und somit von ihrer Komplexität

abhängt (ebd.). Da typische filmische Inhalte den gleichzeitigen Einsatz von hunderten Objekte

benötigen, ist die benötigte Bandbreite für Streaming oder Übertragung zu hoch. Lösungen, die aus

diesem Grund mehrere Objekte miteinander verbinden oder ein kanalbasiertes Bett nutzen, mindern

allerdings die hohe räumliche Auflösung und die Möglichkeit des flexiblen Renderings von

objektbasiertem Audio (ebd.).

3.3.2.4 Beispiele für Codecs mit objektbasiertem Audio

Objektbasiertes Audio wird in verschiedenen für VR geeigneten Codecs eingesetzt.

Dolby AC-4

Mit Dolby AC-4 ist es möglich kanalbasiertes und objektbasiertes Audio mit den zugehörigen

Metadaten wie Objekttyp, Position, Ausbreitung und vielen mehr in einem Bitstrom zu übertragen

(Dolby Laboratories, 2015, S. 22). Dabei können abhängig von der Codierung

Lautsprecheranordnungen bis 9.1.4 (vier Höhenkanäle) übertragen werden (Dolby Laboratories, 2015,

S. 8). Diese können dann vom Renderer für die Wiedergabe mit Kopfhörern aufbereitet werden (Dolby

Laboratories, 2015, S. 23).

Allerdings empfiehlt Dolby für VR die Verbreitung als MP4 mit dem Dolby-Digital-Plus (.ec3) Bitstrom

für Dolby Atmos for Virtual Reality Applications (Dolby Laboratories, o.J.). Durch den darin enthaltenen

Dolby Atmos Decoder und Kopfhörer-Renderer, könne auf diese Weise die beste Wiedergabequalität

erreicht werden. Außerdem unterstützt der Dolby Atmos VR Player für Android, Windows oder macOS

16

lediglich Dolby Digital (.ac3) und das auf Dolby Digital basierende Dolby-Digital-Plus (Dolby

Laboratories, 2017, S. 3). Dies bedeutet, dass es zwar möglich ist, die Kanäle für eine 7.1-

Lautsprecheranordnung zu übertragen (Dolby Laboratories, 2008) und als virtuelle

Lautsprecheranordnung abzuspielen, objektbasiertes Audio oder 3D-Lautsprecheranordnungen aber

nicht möglich sind.

MPEG-H

MPEG-H von Fraunhofer fügt kanalbasiertes Audio, Ambisonics und objektbasiertes Audio mit den

zugehörigen Metadaten in einem Audio-Bitstrom zusammen (Fraunhofer IIS, 2017b, S. 3). MPEG-H

Audio ist Teil des ATSC 3.0-Standards für Digitalfernsehen (Fraunhofer IIS, 2017c) und wird in Südkorea

bereits seit 2017 im terrestrischen 4K-Fernsehen eingesetzt (Fraunhofer IIS, 2017a). MPEG-H kann 128

Audiokanäle, 128 Audio-Objekte und HOA bis zur 29. Ordnung übertragen, wobei für den Heimbereich

eine Beschränkung auf 7.1.4 oder 5.1.4 (mit vier Höhenkanälen) als sinnvoll betrachtet wird

(Fleischmann, 2017). Während Fraunhofer zu Beginn verschiedene Standard-Hall-Algorithmen für das

Rendern auf dem Endgerät angeboten hat, ist die aktuelle Produktionsweise, dass vorproduzierte Hall-

Effekte über virtuelle Lautsprechersetups zugemischt werden (Gieselmann, 2016). Für eine binaurale

Wiedergabe in VR mit Kopfhörern wurde von Fraunhofer der Renderer Cingo entwickelt, welcher 3D-

Kanalkonfigurationen und Ambisonics unterstützt und gleichzeitig die freie Positionierung von Sound-

Objekten im virtuellen Raum um den Hörer erlaubt (Fraunhofer IIS, 2017b, S. 2–4).

ADM

Das Audio Definition Model (ADM) ist ein standardisiertes, offenes, auf XML basierendes Metadaten-

Modell für die Beschreibung von kanalbasiertem und objektbasiertem Audio und HOA innerhalb von

Wave-Files im Broadcast Wave Format (BWF) (Geier, Carpentier, Noisternig & Warusfel, 2017; Pike,

Taylor, Parnell & Melchior, 2016, S. 4). Dabei wird das objektbasierte Audio durch einen Satz von

Parametern für zum Beispiel Position und Ausdehnung im 3D-Raum, Sprache oder Lautstärke

beschrieben (International Telecommunication Union, 2016, S. 3; Pike et al., 2016, S. 4).

3.3.3 Quad-binaural

Quad-binaural besteht aus vier Paar vorgerenderten, binauralen Stereokanälen für die Orientierung

des Kopfs nach vorne, hinten, links und rechts (Lee, 2016, S. 2). Entsprechend der Kopfrotation werden

diese dann überblendet, was jedoch zu einer geringen Lokalisationsgenauigkeit und Klangver-

färbungen aufgrund von Kammfiltern führt (ebd.). Weiter unterstützt dieses System nur die Rotation

entlang der Horizontalebene und nicht alle Ebenen des dreidimensionalen Raumes.

17

3.4 Mikrofonsysteme für VR

Für die Aufnahme von VR-Audio gibt es verschiedene Ansätze, die eine Aufnahme des 3D-Schallfeldes

anstreben. Dabei wird im Folgenden von einer Wiedergabe über Kopfhörer im Zusammenhang mit

HMDs und Headtracking ausgegangen. Da eine Kunstkopfaufnahme nicht die Möglichkeit bietet den

Ton an die Blickrichtung des Nutzers anzupassen, ist diese für VR-Anwendungen nicht relevant.

3.4.1 Ambisonics

Mikrofone für Ambisonics basieren auf der „mathematischen Theorie der Schallfeldabtastung auf einer

kugelsymmetrischen Oberfläche“ (Gerzon, 1975 nach Weinzierl, 2008, S. 592) und sind im A-Format

bereits seit Mitte der 1970er erhältlich (Weinzierl, 2008, S. 592).

3.4.1.1 First-Order-Ambisonics-Mikrofonarrays

Abbildung 7: Sennheiser AMBEO VR MIC (Bildquelle: https://de-de.sennheiser.com/img/10069/product_detail_x2_tablet_AMBEO_VR_Mic-sennheiser-01.jpg)

A-Format-Mikrofone (zum Beispiel Soundfield MKV, Sennheiser AMBEO VR MIC, Core Sound TetraMic

oder Oktava MK-4012 4-D) bestehen aus vier Nieren (beziehungsweise bei Soundfield aus vier breiten

Nieren), die in der Form eines Tetraeders angeordnet sind (Bates, Gorzel, Ferguson, O’Dwyer & Boland,

2016, S. 2; Core Sound, o.J.; Octava, o.J.; Sennheiser, o.J.; Sennheiser, 2016; Weinzierl, 2008, S. 592).

Die Kapselabstände werden dabei durch elektronische Kompensation auf den Mittelpunkt des

Tetraeders interpoliert, und es wird eine Koinzidenz bis zu Frequenzen von ca. 10 kHz erreicht

(Weinzierl, 2008, S. 592).

18

Diese vier, durch ein derartiges Mikrofon erhaltenen Signale, werden als A-Format bezeichnet und

können durch Matrizierung in das B-Format umgewandelt werden (Sennheiser, o.J.; Weinzierl, 2008,

S. 593):

A-Format: 1: Front Left Up (FLU)

2: Front Right Down (FRD)

3: Back Left Down (BLD)

4: Back Right Up (BRU)

B-Format: W = FLU + FRD + BLD + BRU

X = FLU + FRD – BLD – BRU

Y = FLU – FRD + BLD – BRU

Z = FLU – FRD – BLD + BRU

Diese vier Signale im B-Format sind koinzident (Weinzierl, 2008, S. 578) und können als das Signal eines

auf drei Raumdimensionen erweiterten MS-Verfahrens verstanden werden (Weinzierl, 2008, S. 41).

Das W-Signal liefert mit einer Kugel-Mikrofoncharakteristik den Druckanteil. X, Y und Z liefern mit der

Mikrofoncharakteristik Acht Gradienten-Anteile für die Richtung entlang der X-,Y- und Z-Achse im

dreidimensionalen Raum (ebd.). Also X für vorne-hinten, Y für links-rechts und Z für oben-unten.

In von Bates & Boland (2016) und Bates et al. (2017) durchgeführten Versuchen mit Hörtests hatte das

Soundfield MKV im Vergleich zum Sennheiser AMBEO VR MIC und Core Sound TetraMic die besten

Ergebnisse in der klanglichen Qualität. In Bezug auf die Richtungsgenauigkeit lieferte das Sennheiser

AMBEO VR MIC die besten Ergebnisse. Jedoch wurde die klangliche Qualität des Sennheiser AMBEO

VR MICs im Vergleich zum Soundfield MKV und Core Sound TetraMic als geringer eingestuft.

Wittek (2015) kritisiert FOA-Mikrofone folgendermaßen:

Mit Ambisonics erster Ordnung kann keine fehlerfeie Reproduktion erreicht

werden, denn die Mathematik dahinter stimmt nur für eine Tennisball-große Hör-

zone. Deshalb gelten eher die Gesetze der Stereofonie - das heißt, ein Ambisonics-

Mikrofon erster Ordnung ist nichts anderes als ein koinzidentes Mikrofon mit den

bekannten Vorteilen (einfach, wenige Kanäle, flexibel) und Nachteilen (sehr breite,

unpräzise Phantomschallquellen, mangelhafte räumliche Qualität).

19

Aufgrund ihrer hohen Kanalkohärenz, sind FOA-Mikrofone nicht in der Lage räumliche Klangbilder zu

erzeugen (Lee, 2016, S. 2). Weiter sei es bei FOA-Mikrofonen nicht möglich alle virtuellen Lautsprecher

mit unabhängigen Signalen zu versorgen, wodurch ein kompromissbehaftetes Resultat entstehe

(Wittek, 2015). Es komme zu Übersprechen auf den virtuellen Lautsprechersignalen (Wittek & Theile,

2017, S. 4).

3.4.1.2 Higher-Order-Ambisonics-Mikrofonarrays

Durch Higher-Order-Ambisonics-Mikrofone ist es möglich räumlich höher aufgelöste Aufnahmen als

mit First-Order-Ambisonics-Mikrofonen zu erzeugen.

Das em32 Eigenmike® von MH Acoustics (s. Abbildung 8, links) besteht aus einem kreisförmigen

Mikrofonarray aus 32 14 mm große Elektret-Kondensatormikrofone mit Kugelcharakteristik, welche

sich auf einer Kugel mit einem Durchmesser von 8,4 cm befinden (Bates et al., 2016, S. 2; MH Acoustics

LLC, o.J.). In der Kugel befinden sich zusätzlich die programmierbaren Mikrofonvorverstärker und 24-

bit A/D-Wandler (Bates et al., 2016, S. 2; MH Acoustics LLC, 2013, S. 2). Diese werden durch ein CAT-

5-Kabel mit der Eigenmike® Microphone Interface Box (EMIB) verbunden, welche die Signale des

em32-Arrays in einen Firewire-Audio-Stream konvertiert (MH Acoustics LLC, 2013, S. 2). Durch die dazu

gehörende EigenStudio®-Softwareanwendung können die rohen Mikrofonsignale aufgenommen

werden, bestimmte Mikrofone kalibriert und FOA und HOA-Signale generiert werden (Bates et al.,

2016, S. 2).

Bei der verwendeten Technik handelt es sich um Beamforming, wobei das Schallfeld wie bei

Ambisonics in sphärische Harmonische zerlegt, encodiert und dann eine gewünschte Ausgabe – bei

Beamforming, ein Beampattern – erzeugt wird (Meyer & Elko, 2016, S. 1–2). Durch die hohe Anzahl an

Mikrofonen ist es möglich die Signale in Ambisonics 4. Ordnung zu konvertieren (Shivappa et al., 2016,

S. 6).

In den bereits zuvor erwähnten Versuchen von Bates & Boland (2016) und Bates et al. (2017) wurde

festgestellt, dass das em32 Eigenmike® im Vergleich zum Sennheiser AMBEO VR Mic, Core Sound

TetraMic und Soundfield MKV in Bezug auf die Richtungsgenauigkeit die besten Ergebnisse liefert, was

in Bezug auf die Klangfarbe und klangliche Qualität jedoch nicht zugetroffen hat. Diese wurde, wie

bereits erwähnt, beim Soundfield MKV als am besten eingestuft.

20

Abbildung 8: MH Acoustics em32 Eigenmike® (links) und VisiSonics 5/64 Audio Visual Camera (rechts) in relativen Größenverhältnissen (Bildquellen: https://mhacoustics.com/sites/default/files/s1_0.jpg, http://visisonics.com/wp-content/uploads/2014/09/newcamera.jpg)

VisiSonics bietet mit der VisiSonics 5/64 Audio/Visual Camera ein kreisförmiges Mikrofonarray aus 64

Mikrofonen in Kombination mit fünf Kameras an (VisiSonics Corporation, o.J.a). Diese sind auf einer

20,32 cm großen Kugel aus Aluminium befestigt (ebd.). Bei der verwendeten Technik handelt es sich

ebenfalls um Beamforming (VisiSonics Corporation, o.J.c, S. 1). Durch die hohe Anzahl an Mikrofonen

wird eine sehr hohe räumliche Auflösung von Ambisonics bis zur 7. Ordnung ermöglicht (Shivappa et

al., 2016, S. 6; VisiSonics Corporation, o.J.c, S. 1). Jedoch ist der Frequenzbereich des Mikrofons

Aufgrund der Bauweise auf 200 – 7000 Hz beschränkt (VisiSonics Corporation, o.J.c, S. 1).

Vielkanalige HOA-Mikrofonarrays scheitern nach Wittek (2015) durch zu geringe Kanaleffizienz und

klangliche Qualität. Des Weiteren sind die aktuell erhältlichen Mikrofone sehr teuer und benötigen

aufgrund der großen Anzahl an Kanälen eine erhöhte Rechenleistung bei der binauralen Synthese (Lee,

2016, S. 1–2).

21

3.4.2 Quad-Binaural

Ein quad-binaurales Mikrofonarray (s. Abbildung 9) besteht aus einem Kopf oder Würfel an dem vier

Paare künstliche Ohren um 90° versetzt und in jeweils entgegengesetzter Richtung angebracht sind. In

ihren künstlichen Gehörgängen befindet sich jeweils ein Mikrofon mit Kugelcharakteristik, welches das

Signal bereits mit der HRTF des entsprechenden Außenohres aufnimmt.

Abbildung 9: Quad-binaurales Mikrofonarray 3Dio Omni Binaural Microphone (Bildquelle: https://cdn.shopify.com/s/files/1/0995/9804/products/Omni_2_WebReady_grande.jpg?v=1465282518)

Aus diesem Grund ist bei diesem Verfahren eine nachträgliche Binauralsynthese der Signale unnötig

(Lee, 2016, S. 2). Die Technik blendet anhand der Kopfrotation die Signale der benachbarten Ohrpaare

über. Dieser Ansatz führt zu einer geringen Lokalisationsgenauigkeit und Klangverfärbungen aufgrund

von Kammfiltern (ebd.). Hinzukommt, dass die Mikrofone im Vergleich zu FOA-Mikrofonen teurer sind

(ebd.).

22

3.4.3 Stereophone Mikrofonarrays

Die Signale eines stereophonen Mikrofonarrays können für die Wiedergabe in VR als virtuelle 3D-

Lautsprechsetups binauralisiert werden (Wittek, 2015; Wittek & Theile, 2017, S. 9). Dafür werden sie

in der jeweiligen VR-Authoring-Umgebung als geeignete, headgetrackte, statische Audio-Objekte

definiert und nach einem 3D-Preset (wie zum Beispiel Dolby 5.1.4 oder Auro3D 9.1, jeweils ohne

Center-Lautsprecher) oder in der Form eines Würfels um den Hörer angeordnet (ebd.). Jedoch setzen

die meisten der standardisierten Lautsprecherkonfigurationen ihre Priorität auf die frontale

Klangbühne, um das filmische Geschehen in einem Bildschirm zu begleiten (Shivappa et al., 2016, S. 4).

Dabei werden andere Bereiche hingegen überhaupt nicht oder nur dünn abgedeckt, wodurch keine

akkurate Darstellung aus diesen Richtungen möglich sei.

Weiter sei es nach Shivappa et al. (2016, S. 4) schwierig, kanalbasiertes Audio an eine sich ändernde

Blickrichtung anzupassen, da die komplette virtuelle Lautsprecherkonfiguration virtuell, durch

Aktualisierung der HRTFs anhand der neuen Richtung jedes einzelnen Lautsprechers, versetzt werden

muss. Dies benötige einen präzisen Satz von HRTFs für alle möglichen virtuellen

Lautsprecherpositionen, sowie eine sehr genaue Signalverarbeitung in Echtzeit. Speziell bei schnellen

Kopfbewegungen ist dieser Prozess anfällig für Artefakte und Klangverfärbungen (Lindau et al., 2008,

nach Shivappa et al., 2016, S. 4). Diese Fehler können die angestrebte Illusion komplett zerstören

(Shivappa et al., 2016, S. 4). Diesem Argument gegen virtuelle Lautsprecher wiedersprechen Wittek &

Theile (2017, S. 4) mit der Begründung, dass in VR generell virtuelle Lautsprecheranordnungen

verwendet werden, um Signale binaural zu synthetisieren. Dabei erzeugen viele Renderer dünne Gitter

(zum Beispiel Ambisonics 3. Ordnung) aus virtuellen Lautsprechern auf welche sich bewegende

Objekte durch Panning geroutet werden (ebd., S.9).

Nach Theile & Wittek (2011 nach Wittek & Theile, 2017, S. 4) sind die Anforderungen an ein

stereophones Mikrofonarray für 3D dieselben wie bei zwei- oder fünfkanaliger Stereophonie:

• Um Kammfilter zu vermeiden, muss eine Signaltrennung zwischen allen Kanälen herrschen,

wobei kein Signal mit signifikantem Pegel auf mehr als zwei Kanälen anliegen darf.

• Pegel- und Laufzeitunterschiede zwischen benachbarten Kanälen erzeugen die gewünschten

Abbildungseigenschaften.

• Dekorrelation des Diffusfeldes führt zu einer optimalen Umhüllung und Klangqualität.

23

3.4.3.1 ORTF-3D

Das Schoeps ORTF-3D (s. Abbildung 10) besteht aus zwei Ebenen in denen jeweils vier Supernieren auf

einem Rechteck mit einer Kantenlänge von 10 cm auf 20 cm als ORTF-Surround angeordnet sind

(Wittek, 2015; Wittek & Theile, 2017, S. 5). Dabei betragen die horizontalen Mikrofonöffnungswinkel

100° und 80°. Dies stellt eine Abwandlung von der traditionellen ORTF-Anordnung aus Nieren mit

einem Mikrofonabstand von 17,5 cm und einem Mikrofonöffnungswinkel von 110° (Theile, Dickreiter,

Graul, Camerer & Spikofski, 2014, S. 16) dar.

Abbildung 10: ORTF-3D in Windkorb von unten (Bildquelle: https://www.hauptmikrofon.de/images/ORTF3D_TopView_small.jpg)

Die ohne Abstand direkt übereinander positionierten Mikrofone

sind als vertikales 90° X/Y-Mikrofonpaare nach oben und unten

gerichtet, um in vertikaler Ebene eine weitere Signaltrennung

zu erzeugen (Wittek, 2015; Wittek & Theile, 2017, S. 6–7). Dies

ist aufgrund der hohen Richtwirkung der Supernieren möglich

und basiert auf den Erkenntnissen von Lee & Gribben (2014

nach Wittek & Theile, 2017), dass eine Dekorrelation im

Diffusfeld in Vertikalebene für das Gehör weniger relevant ist

als in der Horizontalebene. Dadurch wird die sehr kompakte

Bauweise ermöglicht.

Abbildung 11: Anordnung der Kapseln als vertikales XY-Mikrofonpaare (Bildquelle: Wittek & Theile, 2017, S. 6)

24

Lee (2016, S. 2) stellt jedoch die Problematik heraus, dass bei einem ORTF-Surround der Stereophone

Aufnahmewinkel zwischen allen zweikanaligen stereophonen Segmenten nicht gleich groß ist und aus

diesem Grund nicht die gleichmäßige 360°-Lokalisierung einer ESMA-Anordnung (Equal Segment

Microphone Array, s. folgendes Kapitel) bei der Wiedergabe erreicht werden kann, welche für VR-

Audio wichtig ist. Schoeps (o.J.) selbst bezeichnet die klanglichen Eigenschaften und 360°-Darstellung

ihres kompakteren ORTF-Surround hingegen als wie bei einem „IRT-Kreuz“, was eine ESMA-Anordnung

darstellt.

3.4.3.2 ESMA mit 3D-Erweiterung

Lee (2016) hat nach dem ESMA6-Design von Williams (2008 Lee, 2016, S. 2) das Konzept für ein 3D-

Mikrofonarray für VR entwickelt. Dieses ist von Williams ursprünglich entwickelt worden, um ein

gleichmäßiges 360°-Abbild in der Surround-Wiedergabe zu erzeugen und stellt die Basisphilosophie für

das Design von auf Äquivalenzstereophonie basierenden Mikrofonarrays für VR-Audio dar. ESMAs

besitzen einen gleich großen Mikrofonöffnungswinkel aller nebeneinanderliegenden Mikrofone.

Dadurch wird derselbe Aufnahmewinkel zwischen allen nebeneinanderliegenden stereophonen

Mikrofonsegmenten gebildet. Dabei sollten die durch ein ESMA aufgenommenen Signale idealerweise

durch ein Lautsprecherarray mit derselben Winkelanordnung wie das Mikrofonarray wiedergegeben

werden (Lee, 2016, S. 2).

Aufgrund der Praktikabilität des Mikrofonarrays habe sich Lee auf eine quadrophone Surround-Basis

mit vier Mikrofonen beschränkt, jedoch lasse sich der ESMA-Ansatz beliebig zur Erhöhung der

Richtungsauflösung erweitern (zum Beispiel oktogonales Array). Lees (2016) Versuche mit einer

koinzidenten Anordnung und Mikrofonabständen von 24 cm, 30 cm und 50 cm zeigten, dass die

äquivalenzstereophonen Anordnungen eine höhere Lokalisierungsgenauigkeit und Gleichmäßigkeit

haben. Außerdem führe der Mikrofonabstand von 50 cm zu einer höheren Genauigkeit und

Gleichmäßigkeit als 30 cm und 24 cm, wobei die Unterschiede nicht drastisch seien.

Da vergrößerte vertikale Mikrofonabstände nicht zu einer Steigerung der wahrgenommenen Größe

des 3D-Eindrucks führen (Lee & Gribben, 2014 nach Lee, 2016, S. 9), aber Pegeldifferenzen zur

Steigerung des wahrgenommenen vertikalen Winkels (Barbour, 2003 nach Lee, 2016, S. 9), hat sich Lee

für ein vertikales MS-System zur Erweiterung des quadrophonen ESMAs auf 3D entschieden (s.

Abbildung 12).

6 Equal Segment Microphone Array

25

Abbildung 12: ESMA mit vier vertikal ausgerichteten MS-Mikrofonanordnungen zur 3D-Aufnahme (Bildquelle: Lee, 2016, S. 9)

Dieses bestehe aus vertikal ausgerichteten Mikrofonen mit Acht-Charakteristik und Nieren. Die Achten

könnten direkt auf die Höhenkanäle übertragen werden, wenn neben der horizontalen Lokalisation

nur eine Erweiterung des Höreindrucks benötigt werde. Dabei würden die Achten, durch ihre

Charakteristik und Ausrichtung, eine maximale Ausblendung von horizontalem Direktsound

ermöglichen, ohne dabei die horizontale Lokalisation von Quellen zu beeinflussen. Wenn eine vertikale

Lokalisation gewünscht sei, könnten die Paare aus Achten und Nieren anhand des MS-Verfahrens

dekodiert und in Paare, bestehend aus nach oben und unten zeigenden, gerichteten Mikrofonen

konvertiert werden. Aus der Kombination von Niere und Acht entstehe dadurch, bei einem

Mitte/Seite-Verhältnis von 1, das Äquivalent zu einem Paar Hypernieren mit einem

Mikrofonöffnungswinkel von 130°. Jedoch müsse die Performance für beide Szenarios in einer

weiteren Studie überprüft werden.

26

4. VR-Audio-Produktion

Die Produktion von VR-Audio unterscheidet sich anhand der benötigten Interaktivität. Während zum

Beispiel bei VR-Games Audio in Echtzeit in der Game Engine generiert wird, um weitere Interaktion zu

ermöglichen, werden die Inhalte bei linearen VR-Filmen offline, beziehungsweise im Fall von Live-

Events live produziert (Susal et al., 2016, S. 2). Da es bei beiden Formen der VR für den Zuschauer

möglich ist den Blick in alle Richtungen zu wenden und dadurch die Darstellung von Audio während

des Abspielvorgangs zu beeinflussen, wird die Erstellung und Bereitstellung von Inhalten in einem

flexiblen Audioformat benötigt, welches räumliche Transformationen und Modifikationen von

Elementen innerhalb des Mischvorgangs ermöglicht (ebd.).

4.1 Lineare VR

Die Audio-Produktion und Postproduktion von linearen VR-Erlebnissen ist ähnlich wie bei

traditionellen filmischen Inhalten. Aus Aufnahmen von Raum-, Ambisonics oder einzelnen Mikrofonen

wird von einem Toningenieur durch ein Mischpult oder eine DAW eine Tonmischung für die binaurale

Reproduktion über Kopfhörer erstellt. Das Monitoring kann dabei unter anderem über Kopfhörer mit

Head-Tracking erfolgen. Die finale Mischung kann dann als Kanäle, Objekte, vorgerenderte

Ambisonics-Darstellung oder einer Kombination aus allem ausgespielt werden.

Die essentielle Komponente beim Mischen für VR ist die Positionierung der verschiedenen

Soundelemente im virtuellen Raum, sodass diese mit der Video-Referenz übereinstimmen (Susal et al.,

2016, S. 4). Das 3D-Panning für lineare VR-Filme erfolgt im Gegensatz zum traditionellen

Anwendungsfall anhand der Rektangularprojektion des sphärischen Videos. In diesem egozentrischen

Bezugsrahmen werden der Horizontalwinkel, der Vertikalwinkel und die Entfernung von virtuellen

Schallquellen definiert.

4.1.1 Software zur Produktion von Ambisonics-Tonmischungen

Im Folgenden sollen verschiedene Plugin-Lösungen für die Erstellung von Ambisonics-Tonmischungen

innerhalb einer DAW vorgestellt werden. Dabei wurden aus einer Vielzahl von Produkten, eine

Auswahl aus unterschiedlichen Preisbereichen mit einem unterschiedlich großen Umfang an

Funktionen getroffen.

27

4.1.1.1 Facebook 360 Spatial Workstation und Audio Ease 360pan

Durch Plugins wie Facebook 360

Spatial Workstation und Audio

Ease 360pan Suite ist es möglich

in einer DAW wie Pro Tools HD

oder Reaper Ambisonics-

Mischungen für sphärische

Videos zu erstellen (AUDIO EASE

B.V., o.J.c, S. 1; Facebook 360,

2017, S. 8). Auf die jeweiligen

Mono-, Stereo- oder 4.0-Spuren

(bei Facebook 360 Spatial

Workstation auch 5.0, 6.0 oder

7.0) werden dazu am Ende der

Effektkette ein Plugin zum 3D-

Panning (s. Abbildung) platziert,

welches einen Ambisonics-

Output erstellt. Ebenso können auch direkt Aufnahmen von Ambisonics-Mikrofonen verwendet und

für eventuelle Korrekturen in der Ausrichtung rotiert werden. Für das Monitoring wird auf einem

Ambisonics-Master dann ein entsprechendes Plugin zur binauralen Synthese platziert, welches in

Echtzeit die binaurale Ausgabe für Kopfhörer anhand der Blickrichtung des Bildausschnitts im 360°-

Video in einem Videofenster simuliert. Dabei unterscheiden sich die Spatial Workstation und die

360pan Suite neben dem Preis – Facebook 360 Spatial Workstation ist kostenlos und Audio Ease

360pan Suite 3 kostet aktuell knapp 300 € (AUDIO EASE B.V., o.J.b) – in einigen Punkten. Die Audio

Ease 360pan Suite beinhaltet einen Faltungshall mit einer Vielzahl von, mit einem Ambisonics-

Mikrofon aufgenommenen, Impulsantworten

(AUDIO EASE B.V., o.J.c, S. 15), während die

Facebook 360 Spatial Workstation hingegen

Raum-Modelling (s. Abbildung 14) mit

Reflektionspfaden aus bis zu 3 Reflektionen

betreibt (Facebook 360, 2017, S. 7) und keinen

eigenen Hall anbietet. Bei der 360pan Suite

können verschiedene Hallräume und bei der

Spatial Workstation das globale Raummodell

direkt aus dem jeweiligen Plugin für das 3D-

Abbildung 14: Spatialiser-Plugin der Facebook 360 Spatial Workstation zum 3D-Panning von Schallquellen (Bildquelle: Facebook 360 Spatial Workstation)

Abbildung 13: Einstellung des globalen Raummodells in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation)

28

Panning angesteuert und durch einen Distanz-Regler mit beeinflusst werden (s. Abbildung 13 und

Abbildung 15) (AUDIO EASE B.V., o.J.c, S. 5; Facebook 360, 2017, S. 6). Zusätzlich ist es mit 360pan auch

möglich den Hall mit meinem konventionellen Ambisonics-Send anzusteuern (AUDIO EASE B.V., o.J.c,

S. 5).

Abbildung 15: Automation der Parameter und Panning in der Rektangularprojektion des sphärischen Videos in der Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)

Beide Anwendungen ermöglichen analog zur Positionierung auch die Automation der Position von

Schallquellen auf der Rektangularprojektion des sphärischen Videos. Bei der Spatial Workstation ist

zusätzlich ein Surround-Panner vorhanden, um den Abstand der Schallquelle zu definieren (s.

Abbildung 13). Weiter unterscheiden sich die zwei Anwendungen

darin, dass die 360pan Suite alle Schallquellen gleichzeitig in dem

Haupt-Videofenster darstellen kann und eine Automation von

Position, Lautstärke, Hallanteil, sowie der Ausbreitung des Halls der

jeweiligen Quelle ermöglicht (s. Abbildung 15) (AUDIO EASE B.V., o.J.c,

S. 5). Außerdem gibt es bei 360pan Suite die Möglichkeit mit einem

Radar die Intensität von Schallquellen unter anderem direkt auf dem

Video anzuzeigen (Abbildung 16) (ebd., S.8).

Abbildung 16: Radar in der Audio Ease 360pan Suite zum Anzeigen von Schallquellen (Bildquelle: Audio Ease 360pan Suite)

29

Darüber hinaus ermöglichen beide Anwendungen durch einen „Position Blur“- (360pan Suite)

beziehungsweise „Spread“-Regler (Spatial Workstation) eine prozentuale Einstellung von

Punktschallquellen zu diffusen und dadurch als näher empfundenen Schallquellen (AUDIO EASE B.V.,

o.J.c, S. 5; Facebook 360, 2017, S. 7). Dadurch kann in extremer Einstellung zum Beispiel eine Mono-

Erzählerstimme fest mittig im Kopf und unabhängig von Kopfbewegungen positioniert werden. Wird

eine von der Kopfbewegung unabhängige Stereo-

Wiedergabe erwünscht, muss diese Spur separat

gerendert und bei der Wiedergabe

zusammengefügt werden. In der Spatial

Workstation ist ein Metering-Plugin enthalten,

welches für diesen Zweck auf der Ambisonics-

Summe und der Stereo-Spur platziert wird und

diese in kombinierter Form und unabhängig von

der aktuell simulierten Kopfrotation misst (s.

Abbildung 17) (Facebook 360, 2017, S. 13–14).

Dabei wird die maximal mögliche Lautstärke

angegeben, so als würde der Zuschauer immer in

die „lauteste“ Richtung schauen.

Mit der 360pan Suite ist es möglich Mixe in bis zu

Ambisonics 3. Ordnung zu erstellen (AUDIO EASE

B.V., o.J.a), während bei der Spatial Workstation

dies aktuell nur bis zur 2. Ordnung (ambiX)

möglich ist (Facebook 360, 2017, S. 1). Jedoch unterstützt letztere den Einsatz von VR-Brillen (Oculus

Rift DK1 und DK2 auf macOS oder Oculus Rift und HTC Vive auf Windows) (ebd., S.2), während die

360pan Suite mit Hilfe eines an den Kopfhörern befestigten Trackers Kopfbewegungen in Echtzeit

simuliert (AUDIO EASE B.V., o.J.c, S. 16). Als weitere Features bietet die Spatial Workstation einen

eingebauten Doppler-Effekt, wodurch Schallquellen in Abhängig von ihrer Distanz verzögert werden,

als auch die Möglichkeit mit stereoskopischen Videos zu arbeiten (Facebook 360, 2017, S. 7). Weiter

ist es möglich den Winkel für den beim Monitoring verwendeten Fokus und das Pegel außerhalb dieses

Fokusbereichs individuell einzustellen (Facebook 360, 2017, S. 12).

Abbildung 17: Metering-Plugin in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation)

30

4.1.1.2 DearVR

Ein weiteres Plugin, mit welchem innerhalb einer DAW Ambisonics-Mischungen erzeugt werden

können, ist dearVR von Dear Reality. Es stellt eine Kombination aus einem 3D-Panner, einem

Raummodell für Reflektionen und einem Faltungshall dar (s. Abbildung 18) (Dear Reality, 2017).

Abbildung 18: dearVR von Dear Reality zum 3D-Panning von Schallquellen (Bildquelle: Dear Reality dearVR)

Der Unterschied zur Facebook 360 Spatial Workstation und Audio Ease 360pan besteht jedoch darin,

dass Schallquellen ohne eine spezielle Videoreferenz mit einem 3D-Panner platziert werden. Dieser

kann zwischen einem kartesischen Koordinatensystem zum freien Verschieben der Schallquelle und

einem Polarkoordinatensystem zur Veränderung der jeweiligen Winkel und des Abstands

umgeschaltet werden. Dabei wird in einem zweidimensionalen Koordinatensystem gearbeitet,

welches zwischen X- und Z-Achse, Y- und Z-Achse, sowie X- und Y-Achse umgeschaltet werden kann.

Mit dem „Occlusion“-Regler kann eine Verdeckung von Schallquellen durch Objekte simuliert werden

(Dear Reality, 2017, S. 8). Dadurch können ähnlich wie bei der Spatial Workstation und 360pan

Punktschallquellen diffuser gemacht werden. Besonders ist an dearVR, dass ein Ambisonics-

Faltungshall und ein variables Raummodell für Reflektionen enthalten sind. Als Output-Format kann

Ambisonics in 1. bis 3. Ordnung in FuMa oder ambiX ausgewählt werden, sofern dies die genutzte DAW

ermöglicht. Mehrkanalige Signale müssen auf getrennten Mono-Spuren mit jeweils einer Instanz des

dearVR-Plugins als einzelne Punktschallquellen dargestellt werden (Dear Reality, 2017).

Der Preis von dearVR beträgt aktuell ohne Mehrwertsteuer 349 USD (Plugin Alliance, o.J.).

Das Platzieren der Schallquellen ist ohne direkte Referenz zum Video jedoch schwieriger und

ungenauer. Ferner führt die Kombination aus 3D-Panner und Hallgerät dazu, dass jedes umgewandelte

Mono-Signal eine eigene Hall-Instanz benötigt, was speziell bei langen Hallzeiten rechenintensiv

werden kann.

31

4.1.1.3 Blue Ripple Sound

Ein Anbieter einer Vielzahl an HOA-Plugins ist Blue Ripple Sound. Im Folgenden soll ein Überblick über

die Funktionen eines Teils der angebotenen Plugins gegeben werden.

O3A Core

Die kostenlose O3A Core Plugin-Library stellt für Ambisonics 3. Ordnung verschiedene 3D-Panner und

Visualisierer ohne Videobezug, Decoder,

Converter, Meter, sowie Plugins zur

Rotation des Schallfeldes und virtuelle

Mikrofone zur Verfügung (Blue Ripple

Sound, o.J.b, Blue Ripple Sound, 2018a).

Neben dem klassischen 3D-Panner aus

Azimuth und Elevation und einem

Panner mit Rektangularprojektion, gibt

es einen hemisphärischen Panner, der

ebenfalls mit Azimuth und Elevation

gesteuert werden kann (Blue Ripple

Sound, 2018d, S. 47–57).

O3A View

Das Plugin-Paket O3A View stellt für einen Preis von £349 (Blue Ripple Sound, o.J.a) eine separate

Videoanwendung für HMDs7 und konventionelle Displays zur Verfügung, welche alle Formate von

klassischem Film bis 360°-Video mit und ohne Stereographie unterstützt (Blue Ripple Sound, 2018d,

S. 1). Über eine Netzwerkschnittstelle wird die Videoanwendung mit der DAW verbunden und

gesteuert (Blue Ripple Sound, 2018d, S. 17). Weiter ist es möglich bestimmte O3A-Plugins innerhalb

dieser Videoansichten zu steuern. So können zum Beispiel Panning-Automationen mit den Controllern

der HTC Vive innerhalb der VR oder mit der Maus auf der konventionellen Videoansicht geschrieben

werden (s. Abbildung 20) (Blue Ripple Sound, 2018d, S. 1, 16). Für die Anzeige der Parameter

bestimmter Plugins innerhalb der Videoansicht, muss zuvor lediglich ein „View“-Button innerhalb der

jeweiligen Plugins aktiviert werden (Blue Ripple Sound, 2018d, S. 17). Des Weiteren kann eine

Visualisierung der Lautstärkeintensität an die Videoanzeige gekoppelt werden (ebd.). Zur Hilfe bei der

7 Es wird HTC Vive empfohlen, anderen HMDs wie zum Beispiel Oculus Rift sind auch möglich Blue Ripple Sound (2018d, S. 16).

Abbildung 19: Hemisphärischer Panner (Bildquelle: Blue Ripple Sound, 2018b, S. 48)

32

Platzierung von Schallquellen können zusätzlich Gitterlinien für Winkel oder die Kanten eines

würfelförmigen Raumes innerhalb der Videoansicht angezeigt werden (Blue Ripple Sound, 2018d,

S. 21).

Abbildung 20: O3A View beim Schreiben einer Panning-Automation innerhalb der VR mit HMD (Bildquelle: Blue Ripple Sound, 2018d, S. 1)

Da die Synchronisation anhand der Timeline des Projekts innerhalb der DAW und der Video-Zeit

erfolgt, ist es möglich einen großen Versatz einzustellen, um kein Audio direkt am Start des Projektes

platzieren zu müssen (Blue Ripple Sound, 2018d, S. 35). Weiter können Latenzen durch kleine

Verschiebungen ausgeglichen werden.

Ein weiteres nützliches Tool dieses Plugin-Pakets ist der enthaltene O3A Decoder für das Monitoring

von Ambisonics VR-Tonmischungen dritter Ordnung in binauralem Stereo für Kopfhörer. Dabei können

sechs verschiedene HRTF-Decoder von Blue Ripple Sound, ein MS-Decoder oder der von YouTube

eingesetzte Decoder für 1st Order Ambisonics ausgewählt werden (Blue Ripple Sound, 2018d, S. 31).

Durch einen „Normalise“-Schalter ist es dabei möglich die Pegel der verschiedenen Decoder

angleichen zu lassen, was einen Direktvergleich des Klangs ohne Pegelunterschiede ermöglicht. Weiter

ist es möglich die Größe des Fokusbereichs und die Intensität des Pegelunterschieds außerhalb des

Fokusbereichs einzustellen. Darüber hinaus ist optional ein Brickwall-Limiter vorhanden, um Clipping

zu verhindern.

33

O3A Reverb

Mit der O3A Reverb Plugin-Library bietet Blue Ripple Sound für £349 eine große Auswahl an

verschiedenen Hall-Plugins für Ambisonics dritter Ordnung an (Blue Ripple Sound, o.J.b).

Mit dem MS3 und MS5 sind algorithmische Hall-Plugins enthalten, die erste und späte Reflektionen

erzeugen (Blue Ripple Sound, 2018c, S. 2). Beide Plugins nutzen denselben Hall-Algorithmus und

unterscheiden sich darin, dass beim MS3 zehn Parameter für Einstellungen vorhanden sind und beim

MS5 (s. Abbildung 21) um die neunzig. Dabei ist keine Richtungssteuerung der späten Reflektionen

möglich (Blue Ripple Sound, 2018c, S. 25). Neben individuellen Einstellungen können auch Presets

ausgewählt werden. Das O3A Early Reflections-Plugin simuliert mit demselben Algorithmus wie der

MS3 und MS5 eine einzige erste Reflektion (ebd.).

Abbildung 21: O3A MS5 algorithmisches Hall-Plugin für Ambisonics 3. Ordnung mit ausführlichen Einstellungsmöglichkeiten (Bildquelle: Blue Ripple Sound, 2018c, S. 23)

34

Der O3A Reverb – Convolution stellt einen einfachen Faltungshall mit 3D-Impulsantworten dar (ebd.).

Dabei ist der Output jedoch nicht von der räumlichen Richtung der Eingabe abhängig. Er wird durch

die Richtung der verwendeten Impulsantwort bestimmt. Der O3A Reverb – Shaped Convolution nutzt

ebenfalls 3D-Impulsantworten, ermöglicht jedoch, die Richtung anhand der Eingabe zu formen (Blue

Ripple Sound, 2018c, S. 33). Diese Formung kann prozentual zwischen der Richtung der Eingabe und

der 3D-Impulsantwort eingestellt werden.

Das O3A Shoebox-Plugin fungiert im Gegensatz zu den bisher erwähnten Hall-Plugins gleichzeitig als

3D-Panner (ebd.). Aus einem Mono-Signal wird eine Ausgabe in Ambisonics dritter Ordnung erzeugt.

Dabei wird ein rechteckiger Raum als akustisches Modell benutzt, um für einen gepannten Sound

Reflektionen an den Wänden zu berechnen. Aus diesem Grund ist es nicht sinnvoll, das Plugin als

Effekt-Send einzusetzen, da in diesem Fall alles an die selbe Stelle positioniert werden würde (Blue

Ripple Sound, 2018c, S. 3).

Abbildung 22: O3A Shoebox-Plugin für Raum-Modelling (Bildquelle: Blue Ripple Sound, 2018c, S. 37)

O3A Manipulators

Blue Ripple Sound bietet mit der O3A Manipulators für £399 eine vielseitige Plugin-Library zur

Bearbeitung von Ambisonics-Tonmischungen oder Aufnahmen dritter Ordnung (Blue Ripple Sound,

o.J.b). In dieser sind unter anderem 3D-Panner enthalten, die ein Distanz-Modell, die Möglichkeit die

Größe von Schallquellen einzustellen, sowie das Erstellen von Automationen anhand eines

35

kartesischen 3D-Koordinatensystems erlauben (Blue Ripple Sound, 2018b, S. 20–25). Des Weiteren ist

ein HOA-Kompressor enthalten, welcher ermöglicht, die Dynamik einzuschränken. Dies geschieht

entweder für das gesamten Schallfeld, für bestimmte unabhängige Richtungen oder in einer

Kombination aus beidem (Blue Ripple Sound, 2018b, S. 26–27). Der O3A Diffuser erlaubt eine

„Weichzeichnung“ der Mischung durch die kontrollierbare Abschwächung von Transienten und die

Kontrolle über deren Ausbreitung im Raum (Blue Ripple Sound, 2018b, S. 29–30). O3A Directional

Emphasis und O3A Directional Mask erlauben es innerhalb eines Ambisonics-Mix dritter Ordnung Ton

aus einer bestimmten Richtung zu betonen oder abzuschwächen (Blue Ripple Sound, 2018b, S. 30–34).

Zusätzlich ist mit dem O3A Graphic Equalizer ein grafischer Terzbandequalizer mit 31 Frequenzbändern

(Blue Ripple Sound, 2018b, S. 36), mit dem O3A Parametric Equalizer ein parametrischer Equalizer

(Blue Ripple Sound, 2018b, S. 45–46) und mit dem O3A Low/High Pass Filter ein Hoch-

beziehungsweise Tiefpass Butterworth-Filter mit variabler Ordnung und Cutoff-Frequenz (Blue Ripple

Sound, 2018b, S. 38–39) enthalten. Durch O3A Move ist es möglich, Ton innerhalb eines Ambisonics-

Mixes in eine andere Richtung zu verschieben (Blue Ripple Sound, 2018b, S. 40–41) und mit O3A Portal

ist dies mit einer ganzen Region möglich (Blue Ripple Sound, 2018b, S. 47–48). Weiter können mit

letzterem Plugin auch zwei Regionen miteinander vertauscht werden. Durch O3A Reflection ist es

möglich das gesamte Schallfeld entlang einer das Zentrum kreuzenden Fläche zu spiegeln und dadurch

zum Beispiel Ton auf der rechten Seite mit Ton auf der linken Seite zu tauschen (Blue Ripple Sound,

2018b, S. 50). Mittels O3A Screen Resizer ist es möglich, Sounds an eine geänderte Bildschirmgröße

durch Streckung oder Erweiterung anzupassen und dadurch ihre zum Video relative Positionen zu

erhalten (Blue Ripple Sound, 2018b, S. 52–53). Der O3A Spatial Equalizer ermöglicht mit einem

grafischen Terzbandequalizer mit 31 Frequenzbändern Ton aus unterschiedlichen Richtungen

innerhalb eines Ambisonics-Mix zu bearbeiten (Blue Ripple Sound, 2018b, S. 54–55). Die zu

bearbeitenden Bereiche werden dafür eingefärbt. Die O3A Spatial Mask ermöglicht nach demselben

Prinzip den Pegel in bestimmten Bereichen zu verändern (Blue Ripple Sound, 2018b, S. 58). Weiter

ermöglicht O3A Spatial Mask Split durch das Einfärben eines Bereichs die Trennung einer Ambisonics-

Mischung dritter Ordnung (16 Kanäle) in zwei Ambisonics-Mischungen innerhalb einer Ausgabe mit 32

Kanälen (Blue Ripple Sound, 2018b, S. 61). Diese können nach einer getrennten Bearbeitung mit dem

O3A Join-Plugin wieder vereint werden. Mit O3A Spotlight ist es möglich nur einen bestimmten,

beliebig großen Bereich eines Schallfeldes auszuwählen und alles andere auszublenden (Blue Ripple

Sound, 2018b, S. 63). O3A Spotlight Split bietet dieselbe Funktionalität in Kombination mit einer

Auftrennung in zwei separate Ambisonics-Mischungen, im selben Prinzip wie bei O3A Spatial Mask

Split (Blue Ripple Sound, 2018b, S. 65–66). O3A Zoom und O3A Zoom XYZ bieten die Möglichkeit, durch

Manipulation den Eindruck zu erwecken, als ob sich die Perspektive des Hörers verändern

beziehungsweise sich das Schallfeld bewegen würde (Blue Ripple Sound, 2018b, S. 68–71).

36

4.1.1.4 Vergleich

In der folgenden Tabelle 1 werden die Funktionalitäten der Facebook 360 Spatial Audio Workstation,

Audio Ease 360 Pan, Dear Reality dearVR und von mehreren Produkten von Blue Ripple Sound

zusammengefasst und gegenübergestellt.

Tabelle 1: Vergleich der Funktionsumfänge verschiedener Ambisonics-Plugins

Facebook 360 Spatial Audio Workstation

Audio Ease 360 Pan

Dear Reality dearVR

Blue Rippel Sound O3A Core

Blue Rippel Sound O3A View O3A Reverb O3A Manipulators

Preis kostenlos 296,31 € 349 USD (≈ 294 €)

kostenlos View: £349 (≈ 393 €) Reverb: £349 (≈ 393 €) Manipulators: £399 (≈ 449,54 €)

Ambisonics Ordnung

2 3 3 3 3

3D-Panning mit Videoreferenz

✔ ✔ Nein, nur 3D-Panner ohne Video-referenz

Nein, nur 3D-Panner ohne Video-referenz

View: ✔ Reverb: Nein, nur 3-Panner beim O3A Shoebox-Plugin Manipulators: Nein, nur 3D-Panner

Binauraler Decoder für Monitoring

✔ ✔ - - View: ✔ (sieben verschiedene)

3D-Hall - Faltungs-hall mit einstell-barer Richt-wirkung

Faltungs-hall

- Reverb: Faltungshall mit und ohne einstellbare Richtwirkung und algorithmischer Hall

Reflektionen durch Raum-Modelling

Einstellung von Höhe, Breite und Länge des Raumes (Reflektions-pfade aus 3 Reflektionen)

- Einstellung von Abstand zu Fläche v., h., l., r., o., u.

- Reverb: Einstellung von Abstand zu individuellen Flächen v., h., l., r., o., u. und weitere Einstellungs-möglichkeiten

Erstellen diffuser Schallquellen

✔ ✔ ✔ - Manipulators: ✔

VR-Videoplayer ✔ ✔ - - View: ✔

37

Es gibt große Unterschiede im Preis und innerhalb der Funktionalität der betrachteten Plugins.

Facebook 360 Spatial Workstation ist kostenlos und bietet mit einem Raummodell für erste

Reflektionen, einem Videoplayer für HMDs und einem Decoder für binaurales Monitoring

grundlegende Tools für die Erstellung von Ambisonics-Mischungen zweiter Ordnung. Jedoch enthält

dieses Plugin-Paket keinen Ambisonics-Hall, was dazu führt, dass für eine Änderung der Position oder

der Distanz eines Objekts Automationen im Facebook 360 Spatialiser Plugin und in einem separaten

Hall-Plugin geschrieben werden müssen. Dennoch stellt die Individualisierbarkeit des Raummodells

einen besonderen Mehrwert dar für Reflektionen, die bei der 360pan Suite von Audio Ease nicht

enthalten ist. Die 360pan Suite bieten stattdessen einen simplen Workflow für die Automation von

Panning, Hall-Sends und für die Ausbreitung des Halls, mit der Verwendung eines Ambisonics-

Faltungshalles und einer Vielzahl an Impulsantworten. Durch den Decoder der 360pan Suite besteht

zudem die Möglichkeit, 3D-Mischungen mit einem Head-Tracker und ohne ein HMD zu beurteilen. Dies

stellt zwar eine gewisse Problematik dar, da nicht dieselbe Erfahrung wie mit einem HMD stattfindet.

Facebook 360 Spatial Audio Workstation

Audio Ease 360 Pan

Dear Reality dearVR

Blue Rippel Sound O3A Core

Blue Rippel Sound O3A View O3A Reverb O3A Manipulators

HMD-Support Oculus Rift DK1 und DK2 auf macOS oder Oculus Rift und HTC Vive auf Windows

Nur Head-Tracker für Kopfhörer

- - View: HTC Vive empfohlen, Oculus Rift und andere auch möglich

Visualizer - Mit und ohne Video-referenz

- Verschie-dene, aber ohne Video-referenz

-

Meter Ambisonics 2. Ordnung + Stereo-Spur in Kombination

- - ✔ -

Rotation von Ambisonics-Aufnahmen

✔ ✔ - ✔ -

Nachbearbeitung von Ambisonics-Aufnahmen

- - - - Manipulators: Kompressor, Diffuser, Richtungsbetonung, räumlicher EQ, räumliche Trennung u.v.m.

38

Dennoch kann dies als Optimierung eines Workflows betrachtet werden, bei dem die Mischung und

das Schreiben von Automationen nicht in VR erfolgen und ein HMD lediglich zur Kontrolle genutzt wird.

O3A View von Blue Ripple Sound überwindet diese Problematik dadurch, dass das Steuern von Plugin-

Parametern und das Panning von Schallquellen vollständig innerhalb der VR ermöglicht wird.

Zudem bieten die Plugin-Libraries von Blue Ripple Sound im Vergleich zu denen der anderen Anbieter

die vielfältigsten Möglichkeiten zur Erstellung und Bearbeitung von Ambisonics-Mischungen dritter

Ordnung. Bei O3A Manipulators können HOA-Aufnahmen oder Mischungen auf vielfältige Weise

nachbearbeitet und verändert werden, was bei den Plugins der anderen Hersteller – bis auf die

Rotation von Ambisonics-Aufnahmen – nicht möglich ist. Beim O3A Decoder können zudem

unterschiedliche HRTF-Decoder für das Monitoring genutzt und diese untereinander verglichen

werden.

Da dearVR von Dear Reality keine Möglichkeit für das Panning anhand eines Videos bietet, ist eine

akkurate Positionierung und Panning-Automation von Schallquellen unmöglich. Aus diesem Grund ist

das Plugin nicht für die Arbeit mit Videos zu empfehlen.

In Bezug auf die Bearbeitung von Ambisonics in DAWs bleibt es spannend, welche Möglichkeiten die

Zukunft bringen wird. Pro Tools HD bietet beispielsweise mit der Version 12.8.2 erst seit Oktober 2017

Ambisonics-Busse bis zur 3. Ordnung an (Avid Technology, 2017; Sherbourne, 2017). Komplette VR-

Workflows sind bisher selten zu finden. Der Einsatz individueller HRTFs ist aufgrund ihrer aufwändigen

Erstellung eher unwahrscheinlich, jedoch könnte dies auf Produktionsseite eine akkuratere Ortung

ermöglichen. Abzuwarten bleibt zudem, ob Mainstream-Portale wie YouTube (aktuell FOA) oder

Facebook (Hybrid-Order-Ambisonics mit 8 Kanälen) höhere Ordnungen ermöglichen oder eine

Auswahl unterschiedlicher HRTFs in ihren Decodern anbieten werden.

39

4.1.2 Software zur Produktion von objektbasierten Mischungen

Die Software für die Produktion von objektbasierten Mischungen ermöglicht das Platzieren und

Bewegen von Audio-Objekten im dreidimensionalen Raum sowie das Monitoring von diesen mit einem

Renderer. Da es sich bei Dolby Atmos for VR mit dem Dolby-Digital-Plus (.ec3) Bitstrom lediglich um

ein virtuelle Surround-Lautsprecheranordnung ohne Höhenebene und ohne Audio-Objekte handelt,

wurde bewusst auf eine Vorstellung der Produktionstechnik aus 3D-Panner, VR-Video-Player und

Renderer für die Arbeit in Pro Tools verzichtet.

4.1.2.1 Merging Technologies Pyramix 11 für MPEG-H und ADM

In der DAW Pyramix 11 von Merging Technologies wurde ein vollständiger 3D-Workflow für die

Erstellung von Masterfiles mit objektbasierten Audiometadaten entwickelt, die mit MPEG-H Audio und

dem Audio Definition Model (ADM) kompatibel sind (Merging Technologies, 2017). Dabei wurde der

zuvor für Dolby Atmos entwickelte Workflow in einen umfassenden Workflow für die TV-Produktion

mit zusätzlichem Mehrsprachen-Support abgeändert.

Abbildung 23: Pyramix 11 Track Layout mit objektbasiertem Audio (Bildquelle: http://www.merging.com/resources/img/news/prs/Track-layout-OBA_1200px.jpg)

Aus dem Pyramix 11 Projekt kann direkt nach ADM exportiert oder ein MPEG-H Authoring Tool Projekt

erstellt werden (s. Abbildung 24) (Merging Technologies, 2017). Dieses MPEG-H Authoring Tool von

Fraunhofer ermöglicht das Authoring, Monitoring und den Export in MPEG-H Audio.

40

Abbildung 24: Export nach ADM (Bildquelle: http://www.merging.com/resources/img/news/prs/ADM-export_1200px.jpg)

Weiter ist es in Pyramix 11 möglich, jedes erdenkliche Lautsprechersetup zwischen Mono und NHK

22.2 ohne zusätzliche Plugins mit den entsprechenden Bussen zu mischen und zu mastern (Merging

Technologies, o.J.b). Nach der Konfiguration der Busse, ist es möglich, Sounds durch einen 3D-Panner

im dreidimensionalen Raum zu positionieren. Da dabei die X-, Y- und Z-Koordinaten an jeden Bus

gesendet werden, ist es selbst bei unterschiedlicher Anzahl von Kanälen möglich, das Panning einer

beliebigen Anzahl von Bussen gleichzeitig zu steuern.

Darüber hinaus sind mit dem Flux Verb Full Reverb und dem Flux Verb Sessions Reverb mehrkanalige

Hallplugins in einigen Pyramix Software-Paketen8 enthalten (Merging Technologies, o.J.b).

Die Monitor-Sektion ermöglicht es, alle Kanäle der Ausgangsbusse zu verarbeiten und Down-Mixe für

jedes andere Format zu erstellen (Merging Technologies, o.J.b). Gleichzeitig sind Steuermöglichkeiten

für Lautsprecher wie Phase, mute und solo vorhanden.

Eine weitere Besonderheit von Pyramix 11 ist eine mehrkanalige, Timeline-basierte Effektverarbeitung

(Merging Technologies, o.J.a). Dafür können Signalketten aus VST (VST3) und VS3-Plugins erstellt

werden und direkt auf einen Mono- oder mehrkanaligen Clip in der Timeline angewandt werden,

während Edits und Fades erhalten bleiben. Diese Effektketten aus Plugins können mit ihren

8 Flux Verb Session Reverb ist in Pyramix Native Standard & MassCore Standard enthalten und Flux Verb Full Reverb in Native Pro, MassCore Pro & MassCore Extended (Merging Technologies (o.J.b))

41

Einstellungen in einem eigenen File gespeichert werden, um sie in anderen Pyramix 11-Projekten

aufzurufen.

Für das Arbeiten mit Ambisonics (bis zur 4. Ordnung), einen 360°-Video-Player und das Monitoring mit

verschiedenen HRTFs mit und ohne Hall (Engler & Jacques, 2017), kann die kostenpflichtige9 VST-

basierte B<>com Spatial Audio Toolbox vollständig integriert werden (Merging Technologies, o.J.a).

Zudem ist eine Steuerung des 3D-Panners durch die 3D-Mäuse Space Navigator (s. Abbildung 25) und

SpaceMouse Pro von 3DConnexion möglich (Ryan, 2016). Abbildung 26 vermittelt eine Vorstellung von

deren Bedienung.

9 Leider konnten auch durch eine Anfrage per Email keine Informationen über den Preis herausgefunden werden.

Abbildung 25: Space Navigator 3D-Maus von 3DConnexion (Bildquelle: https://www.3dconnexion.de/fileadmin/templates/images/SN_Gallery/01_iso_right.jpg)

Abbildung 26: Beschriftung der Achsen der Space Navigator 3D-Maus von 3DConnexion für 3D-Panning in Pyramix 11 (Bildquelle: Ryan, 2016)

42

4.1.2.2 Weitere Produktions-Software für MPEG-H

Das AMS™ Authoring and Monitoring System von Linear Acoustics unterstützt vollständig das MPEG-

H-TV-Audio-System (Fraunhofer IIS, 2017d). Es können für den Live-Betrieb in Echtzeit personalisierte

3D-Audioprogramme für ATSC-3.0-basiertes Digitalfernsehen erstellt, gerendert und überwacht

werden (ebd.).

Fraunhofer ist dabei, das Cingo Composer Plugin für VR-Audio zu entwickeln und hat bereits eine Beta-

Version veröffentlicht (Fraunhofer IIS, o.J.a, Fraunhofer IIS, o.J.b, Fraunhofer IIS, o.J.c, Fraunhofer IIS,

o.J.d, Fraunhofer IIS, o.J.e). Dabei handelt es sich um ein Plugin für VST und AAX mit dem es möglich

ist, einen 3D-Audio-Mix innerhalb einer DAW zu erstellen, diesen zu überwachen, mit Headtracking zu

monitoren und in MPEG-H zu exportieren.

Mit der zweiten Version von Spatial Audio Designer von New Audio Technology soll MPEG-H mit einem

kompletten Workflow, Monitoring und Export eines MPEG-H-Masters unterstützt werden (New Audio

Technology, 2016).

4.1.2.3 Magix Sequoia für ADM

Magix arbeitet aktuell in Kooperation mit dem Orpheus Projekt an der Integration eines Workflows für

objektbasiertes Audio in Form des ADM in Sequoia (Orpheus, 2016). Spuren stellen individuelle

Objekte dar und Ordner-Spuren repräsentieren die Audio-Content-Ebene der ADM-Hierarchie (ebd.).

Lautstärke- und Panning-Informationen der Objekte werden anhand von Automationskurven

dargestellt und werden mit der ADM-Datei exportiert (Orpheus, 2017, S. 11). Dabei erfolgt das Panning

mit einem 3D-Panner anhand von Koordinaten im 3D-Raum (Orpheus, 2017, S. 12). Weiter ist es

ebenfalls möglich, ADM-Dateien zu importieren (ebd.). Zusätzlich können Metadaten durch Tags in

einem Editor hinzugefügt werden, wie zum Beispiel die Sprache des Inhalts oder die Möglichkeit,

gemuted zu werden (Orpheus, 2017, S. 16).

Das Rendering von objektbasiertem Audio erfolgt aktuell durch den MPEG-H-Renderer, der bisher aber

nur eine sehr einfache Konvertierung erlaubt (Orpheus, 2017, S. 15).

Jedoch sind in diesem Zusammenhang noch keine Informationen über einen integrierten Videoplayer

für VR bekannt.

43

4.2 Interaktive VR

Für VR-Erlebnisse mit 6DOF-Interaktion werden Sounds bevorzugt in einem allozentrischen

Bezugsrahmen relativ zur Umgebung positioniert (Susal et al., 2016, S. 4). Das bedeutet, dass Sounds

direkt in der virtuellen Umgebung platziert werden. Auf diese Weise wird es ermöglicht, dass der Hörer

den Abstand und seine Position in Relation zur Schallquelle verändern kann. Weiter kommt ein

Umgebungsmodell zum Einsatz, welches durch Nachhall, Distanzdämpfung, Quellenrichtwirkung

u.v.m. charakterisiert ist (Susal et al., 2016, S. 5). Die Steuerung des Modells ist in Form von Metadaten

in den jeweiligen Inhalten inbegriffen, sodass der Rendering-Algorithmus die Mischung an die

Hörposition anpassen kann (ebd.).

Ton für interaktive VR-Erlebnisse kann einerseits direkt in Game Engines, wie zum Beispiel Unity oder

Unreal angelegt werden, andererseits durch die Zuhilfenahme einer speziellen Middleware für Audio

(auch Sound-Engine bezeichnet). Wie man in der GameSoundCon Game Audio Industry Survey 2017

(Schmidt, 2017) gut erkennen kann, sind, neben Selbstentwicklungen, Wwise und FMOD die von

Spieleherstellern im AAA-, Pro Casual- und Indie-Bereich am meisten eingesetzten Audio-Middlewares

(s. Abbildung 27).

Abbildung 27: Einsatz von Audio-Middleware nach Kategorisierung in AAA, Pro Casual und Indie Games 2017 (Schmidt) (Bildquelle: https://static.wixstatic.com/media/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg/v1/fill/w_630,h_352,al_c,q_80,usm_0.66_1.00_0.01/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg)

Bei Pro Casual Games kommt Fabric verhältnismäßig viel zum Einsatz. Auffällig ist jedoch, dass bei der

Mehrzahl der Indie Games, aber auch bei Pro Casual und AAA Games, auf eine Audio-Middleware

komplett verzichtet wird. Speziell im AAA, aber auch Pro Casual Games Bereich wird auch häufig eine

eigene angepasste Audio-Engine genutzt.

44

In der folgenden Tabelle sind die Preise für Lizenzen von Fabric, FMOD und Wwise gegenübergestellt.

Abbildung 28: Preise pro Spiel in USD in Abhängigkeit vom Budget (Audiokinetic, o.J.i; Firelight Technologies, o.J.f; Tazman-Audio, o.J.b)

Für Indies mit einem Budget unter 500.000 USD bietet Firelight Technologies (o.J.f) eine freie FMOD

Lizenz für eine Spielveröffentlichung pro Jahr (sonst 2.000 USD pro Spiel). Tazman-Audio (o.J.b) bietet

Fabric für Projekte mit einem Budget unter 100.000 USD komplett frei an und bietet für Budgets

zwischen 100.000 und 400.000 USD eine freie Spielveröffentlichung (sonst 750 USD pro Spiel).

Audiokinetic (o.J.q) bietet die kostenlose Wwise „Starter“-Lizenz für kommerzielle Projekte mit einem

Budget unter 150.000 USD an, welche aber eine Limitierung auf 500 Sounds beinhaltet.

Nicht-kommerzielle und akademische Projekte erhalten von Audiokinetic (o.J.r) kostenlose Lizenzen.

Dies ist bei Firelight Technologies (o.J.f) FMOD ebenfalls der Fall. FMOD und Wwise unterscheiden sich

in Bezug auf ihr Preisangebot weiter darin, dass bei FMOD und Fabric alle unterstützenden Plattformen

im Preis inbegriffen sind. Bei Wwise kostet jede weitere Plattform abhängig vom Budget 750 USD

(Budget < 150.000 USD), 3000 USD (Budget < 1.500.000 USD) und 12.000 USD (Budget > 1.500.000

USD).

Jedoch gelten die Preise für Wwise nur für Spiele. Für andere Projekte (zum Beispiel Filmproduktionen,

Simulationen u.v.m.) gelten gesonderte Preise. Auf unterschiedliche Support-Pläne der drei Anbieter

soll hier nicht weiter eingegangen werden.

$0

$2.000

$4.000

$6.000

$8.000

$10.000

$12.000

$14.000

$16.000

$18.000

$20.000

< $150.000 $150.000 –$400.000

$400.000 –$500.000

$500.000 –$1.000.000

$1.000.000 –$1.500.000

> $1.500.000

Fabric FMOD Wwise

45

4.2.1 Unity

Da es in Game Engines möglich ist, Audio ohne die Hinzunahme einer Middleware einzusetzen, soll im

Folgenden Unity auf den Funktionsumfang für Audio untersucht werden.

Unity unterstützt die Kanalformate 1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1 (Unity Technologies, 2017c). Dabei

können nutzerseitig durch einen Down- beziehungsweise Upmix die Formate unterschiedlicher

Ausgabegeräte ausgegeben werden (Unity Technologies, 2017a, Unity Technologies, 2017b). Der

Import von Audio-Dateien ist in den Formaten MPEG layer 3 (.mp3), Ogg Vorbis (.ogg), Microsoft Wave

(.wav) und Audio Interchange File Format (.aiff /. aif) möglich (Unity Technologies, o.J.b). Weiter

werden die Tracker-Module Ultimate Soundtracker module (.mod), Impulse Tracker module (.it),

Scream Tracker module (.s3m) und FastTracker 2 module (.xm) unterstützt (Unity Technologies,

2017h), sowie Ambisonics 1. Ordnung im B-Format in ambiX (Unity Technologies, 2017j).

Unity unterstützt die Plattformen iOS, Android, Windows, Universal Windows Plattform, Mac,

Linux/Steam OS, WebGL, PlayStation 4, PlayStation Vita, Xbox One, Wii U, Nintendo 3DS, Oculus Rift,

Google Cardboard Android & iOS, Steam VR PC & Mac, PlayStation VR, Gear VR, Windows Mixed

Reality, Daydream, Android TV, Samsung SMART TV, tvOS, Nintendo Switch, Fire OS, Facebook

Gameroom, Apple ARKit, Google ARCore und Vuforia (Unity Technologies, o.J.a).

Für die Binauralisierung von Audio für VR können Oculus Spatializer, Microsoft HRTF Spatializer, (Unity

Technologies, 2017i), Steam Audio (Valve Corporation, o.J.), RealSpace3D (VisiSonics Corporation,

o.J.b) oder DearVR (Dear Reality, o.J.) verwendet werden. Letzteres bietet zusätzlich die Möglichkeit,

mit DearVR Spatial Connect in einer DAW geschriebene Automationsdaten als objektbasiertes Audio

nach Unity zu exportieren (ebd.).

4.2.1.1 Funktionsweise

In Unity werden Audio-Clips durch Audio-Sources abgespielt. Audio-Sources und Audio-Listener

werden an Objekte im 3D-Raum angebracht, wodurch deren Positionierung simuliert wird.

4.2.1.2 Abwechslungsreiche Sounds

Playlisten oder per Zufall innerhalb eines Pools ausgewählte Sounds müssen durch selbstgeschriebene

Scripts erzeugt werden. Eine vorgefertigte Component für diesen Zweck ist nicht enthalten.

4.2.1.3 Panning und räumliche Positionierung

Audio-Sources können in ihrer ursprünglichen Kanalzuordnung geroutet oder als Mono-Downmix im

3D-Raum positioniert werden. Darüber hinaus ist es möglich zwischen diesen beiden Möglichkeiten zu

überblenden und somit den Einfluss der 3D-Engine auf die Audio-Source festzulegen (Spatial Blend).

46

Dies kann unter anderem durch Distanz-Kurven geschehen. Des Weiteren ist ein Stereo-Panner

vorhanden.

4.2.1.4 Distanzverhalten

Das Verhalten von Audio-Sources bei

zunehmender Distanz kann durch eine

logarithmische, lineare oder benutzerdefinierte

Distanz-Kurve definiert werden. Durch letztere

ist es möglich, Lautstärke, Spatial Blend,

Ausbreitung, TPF und den auf Reverb-Zonen

gerouteten Signalanteil in Abhängigkeit von der

Distanz der Quelle zum Hörer beliebig

festzulegen. Reverb-Zonen ermöglichen es

Bereiche für den Einsatz von Hall, sowie deren

Radius und Übergangsbereich zu definieren.

In den Audio-Projektsettings ist es möglich, dafür

einen globalen Faktor für logarithmische

Lautstärke-Distanzkurven festzulegen.

4.2.1.5 Richtwirkung

Diese zuvor erwähnte Ausbreitung von Stereo- oder Mehrkanalton im Lautsprechersetup kann durch

einen Winkel zwischen 0° und 360° festgelegt werden und durch eine Distanzkurve gesteuert werden.

4.2.1.6 Routing & Mixing

Die Ausgänge der jeweiligen Audio-Sources werden auf Audio-Mixer-Groups innerhalb eines Audio-

Mixers geroutet, der das Signal letztendlich dem Audio-Listener ausgibt. Ein Audio-Mixer besitzt immer

eine Master-Group, innerhalb welcher eine Hierarchie aus Audio-Mixer-Groups erzeugt wird. Für eine

Audio-Mixer-Group können Änderungen an Lautstärke und Pitch vorgenommen werden. Sie besitzt

eine VU-Anzeige, kann auf solo oder stumm geschaltet werden. Des Weiteren ist es möglich per Inserts

Effekte auf Signale anzuwenden, deren Parameter zu verändern oder einen Bypass anzuwenden.

Durch Sends und Returns können Signale zwischen verschiedenen Bussen ausgetauscht und Ducking

durchgeführt werden. Zusätzlich ist es möglich mehrere Audio-Mixer zu erstellen und diese gleichzeitig

einzusetzen. Die Ausgabe eines Audio-Mixers kann auf Audio-Mixer-Groups innerhalb anderer Audio-

Mixer geroutet werden.

Abbildung 29: Distanz-Kurven in Unity. Dabei besteht die X-Achse aus der Distanz der Schallquelle vom Hörer und die Y-Achse aus den jeweiligen Eigenschaften (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioDistanceFunctions.png)

47

Abbildung 30: Audio-Mixer-Fenster in Unity (Bildquelle: Unity 2017.3.1f1)

Durch das Anlegen verschiedener Mixer-Views ist es möglich, bestimmte Audio-Mixer-Groups

auszublenden. Anhand von Snapshots können alle Parametereinstellungen innerhalb eines Mixers

festgehalten werden.

Mithilfe des „Edit in Play Mode“-Schalter ist es entweder möglich, den aktuellen Snapshot eines Audio-

Mixers während der Ausführung von Spiel-Code in Echtzeit zu bearbeiten oder dessen zu Zustand vom

Spiel steuern zu lassen.

4.2.1.7 Spielzustände

Für verschiedene Spielzustände

können verschiedenen

Snapshots erstellt werden,

welche anhand der Spiel-Logik

gewechselt werden. Diese

Übergänge erfolgen

standardmäßig durch lineare

Interpolation zwischen den Start-

und Endwerten, können aber für

alle Parameter individuell

eingestellt werden (s. Abbildung 31).

Ebenfalls können beliebige Parameter innerhalb einer Audio-Mixer-Group anhand eines Scripts

manipuliert werden. Dadurch wird der Parameter zusätzlich aus Snapshots ausgeschlossen.

Abbildung 31: Definieren des Snapshot-Übergangs eines Parameters (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioMixerTransitionOverrides.png)

48

4.2.1.8 Effekte

Unity bietet verschiedene DSP-Effekte, die auf Audio-Sources, Audio-Listener und Audio-Mixer

angewandt werden können. Für diese sind ein TPF, HPF, Echo, Distortion, Chorus und ein

algorithmischer Hall enthalten. Für Audio-Mixer gibt es zusätzlich Flanger, Normalisierer,

Parametrischen EQ, Pitch Shifter, Kompressor, und weitere HPF und TPF.

Des Weiteren ist für eine Audio-Source die Intensität eines Doppler-Effektes einstellbar. Dies kann

auch global in den Audio-Projektsettings definiert werden.

4.2.1.9 Unity Timeline

Abbildung 32: Unity Timeline mit Audio-Tracks (Bildquelle: Unity 2017.3.1f1)

Für die Erstellung von filmischen Inhalten oder Spielsequenzen existiert in Unity eine Timeline. Durch

diese ist es möglich, Audio-Clips auf Audio-Tracks zu platzieren. Diese Tracks können verschiedenen

Audio-Sources zugeordnet werden. Audio-Clips auf den Tracks können anhand automatischer oder

manueller Kurven übergeblendet werden. Zusätzlich ist es möglich, sie zeitlich zu strecken oder zu

stauchen und sie zu loopen. Ferner können ihre Start- und Endposition oder ihre Dauer festgelegt

werden.

4.2.1.10 Mikrofonsignale und fremde Quellen

Unity besitzt mit der Microphone-Class eine API, um durch ein Script vorhandene Mikrofone zu finden

und Aufnahmen durchzuführen. Eine vorgefertigte Component ist dafür nicht vorhanden.

4.2.1.11 Debugging

Mit dem Unity Profiler ist es möglich die Performance des Audio-Systems zu überwachen. In einem

Graphen wird die Anzahl der insgesamt abspielenden Audio-Sources und Audio-Voices pro Frame

dargestellt, sowie der von der Audio-Engine genutzte Arbeitsspeicher und CPU. Da der „PlayOneShot“-

Befehl Audio-Voices nutzt, die nicht bei den abspielenden Audio-Sources angezeigt werden,

unterscheidet sich diese Anzahl von der Anzahl der Audio-Voices (Unity Technologies, 2017g).

49

Abbildung 33: Unity Profiler in „Channel and groups“-Ansicht (Bildquelle: Unity 2017.3.1f1)

Weitere Werte wie die Anzahl pausierter Audio-Sources, Anzahl an Audio-Clips, sowie eine

Aufschlüsselung über die Nutzung des Arbeitsspeichers und der CPU für einzelne Elemente innerhalb

der Audio-Engine werden in einer Liste Ansicht angezeigt. Zusätzlich werden in einer tabellarischen

Ansicht Informationen über das Abspielverhalten der vorhandenen Sound-Events mit den zugehörigen

Mixern und Mixer-Groups bereitgestellt, wie zum Beispiel welche Audio-Sources welche Audio-Clips

abgespielt haben, die abgespielte Lautstärke, die Distanz zum Audio-Listener und die Länge der

Abspielzeit. Durch das Klicken auf die jeweilige Zeile ist es dann möglich die zugehörigen Audio-Sources

und Clips im Projekt-Browser und Hierarchie-Fenster anzuzeigen.

4.2.1.12 Speicher- & Prozessornutzung

Für eine Audio-Source kann anhand eines numerischen Wertes von 0 bis 256 ihre Priorität gegenüber

anderen innerhalb einer Szene existierenden Audio-Sources definiert werden.

Für importierte Audio-Clips können jeweils weitere Einstellungen getroffen werden, um Speicher und

Prozessor zu entlasten. So ist es möglich, mit mehrkanaligem Audio einen Mono-Downmix mit

anschließender Peak-Normalisierung durchzuführen oder Clips verzögert auf einem separaten Thread

im Hintergrund zu laden, ohne den Haupt-Thread zu blockieren (Unity Technologies, 2017d). Per

Default werden nämlich alle Audio-Clips beim Laden einer Szene zunächst vorgeladen. Überdies ist

einstellbar, ob Audio-Dateien direkt beim Laden dekomprimiert werden, komprimiert im Speicher

gehalten und beim Abspielen dekomprimiert werden oder gestreamt werden (ebd.). Abhängig von der

Zielplattform können mit PCM, ADPCM, Vorbis/MP3 und HEVAG verschiedene Formate ausgewählt

werden, um abhängig vom jeweiligen Sound einen sinnvollen Kompromiss zwischen Qualität,

50

Dateigröße und Belastung der CPU zu finden. Zudem ist es für die PCM und ADPCM-Formate möglich,

eine automatische Optimierung oder eine manuelle Reduktion der Samplerate durchzuführen, um die

Dateigröße zu verkleinern. Für Vorbis/MP3 ist dies durch die Einstellung der Qualität der Kompression

möglich. Komprimiertes Audio ist am besten für lange Dateien wie zum Beispiel Hintergrundmusik oder

Dialog geeignet, während PCM und ADPCM besser für kurze Soundeffekte geeignet sind (Unity

Technologies, 2017d).

Audio-Mixer in Unity besitzen einen Kontrollmechanismus, der eine Sekunde nach dem Abspielen

einer Audio-Source eine Lautstärkemessung am eigenen Ausgang durchführt und anhand dieser

entscheidet, ob der Mixer deaktiviert werden kann (Unity Technologies, 2017e). Beim erneuten

Abspielen von Audio-Sources wird dieser dann wieder aktiviert. Dies geschieht anhand eines

definierbaren Schwellenwertes. Auf diese Weise wird vermieden, dass CPU-Ressourcen aufgrund einer

großen Anzahl von ungenutzten Mixern ausgeschöpft werden.

In den Audio-Projektsettings kann durch den Audio-Manager die Größe des DSP-Buffers festgelegt

werden, um eine bessere Performance oder geringere Latenzen zu erreichen. Außerdem kann die

Anzahl der gleichzeitig abgespielten, reellen Voices eingestellt werden, was die CPU-Nutzung stark

beeinflusst. Wird diese Anzahl überschritten, werden die am wenigsten hörbaren Voices zu virtuellen

Voices bis sie wieder lauter werden oder zuvor lautere Voices nicht mehr abgespielt werden (Unity

Technologies, 2017f). Dabei wird ein fortgeführter Abspielvorgang virtueller Voices simuliert. Die dafür

verwendete Anzahl virtueller Voices kann ebenfalls festgelegt werden. Wenn diese überschritten wird,

werden die am wenigsten hörbaren Voices gestoppt (ebd.).

51

4.2.2 Wwise

Wwise unterstützt eine Vielzahl an Plattformen. Diese sind in der folgenden Tabelle 2 aufgelistet.

Tabelle 2: Von Wwise unterstützte Plattformen (Audiokinetic, o.J.l)

Plattform VR Platform

Wwise Authoring

Application

Wwise SDK

Unity Unreal Engine 3

Unreal Engine 4

Android Google Cardboard, Daydream,

Gear VR

✔ ✔ ✔

iOS ✔ ✔ ✔ Linux ✔ ✔ ✔

Mac ✔ ✔ ✔ ✔ Windows Oculus

Rift, HTC Vive,

Microsoft HoloLens

7/8/10 XP/Vista /7/8/10

✔ Certified Epic

developers only

✔

Windows Phone 8

✔

Nintendo 3DS ✔ ✔ ✔

PlayStation 3 ✔ ✔

PlayStation 4 PlayStation VR

✔ ✔ ✔

PlayStation Vita ✔ ✔ ✔

Xbox 360 ✔ ✔ ✔

Xbox One ✔ ✔ ✔

Wii U ✔ ✔

Nintendo Switch ✔ ✔ ✔

Wwise unterstützt mit 0.1, 1.0, 2.0, 3.0, 4.0, 5.1, 7.1, Dolby 5.1.2, Dolby 7.1.2, Dolby 7.1.4, Auro 9.1,

Auro 10.1, Auro 11.1 und Auro 13.1. eine Vielzahl an Kanalkonfigurationen (Audiokinetic, o.J.m). Dabei

können Audiodateien mit Sampleraten bis 96 kHz und Bittiefen bis 32 Bit (werden jedoch auf 24 Bit

konvertiert) in AMB oder WAV eingesetzt werden (Audiokinetic, o.J.p). Abhängig vom Quellmaterial,

Ausgabegerät und Plattform kann ein Downmix nach dem AC3-Standard (Audiokinetic, o.J.e,

Audiokinetic, o.J.m), sowie ein Upmix erfolgen (Audiokinetic, o.J.d). Ambisonics wird im B-Format bis

zur 3. Ordnung mit 16 Kanälen in FuMa mit maxN-Normalisierung unterstützt (Audiokinetic, o.J.o).

Weiter wird auch MIDI unterstützt.

Darüber hinaus ist es möglich, Ausgabegeräte mit nicht-standardisierter Hardware in der Form von

selbst entwickelten Plugins zu integrieren (Audiokinetic, o.J.a). Diese können auch als zusätzliches,

zweites Ausgabegerät genutzt werden (Audiokinetic, o.J.f).

52

Für die Binauralisierung von Audio für VR können Microsoft HRTF (Audiokinetic, o.J.g), RealSpace3D,

Oculus Spatializer und Google Resonance Audio als Plugin eingebunden werden, sowie in Zukunft

Steam Audio (Audiokinetic, o.J.h).

Hinzukommend ist es möglich, die DAW Nuendo von Steinberg mit Wwise zu verbinden und auf diese

Weise Audio direkt zu importieren.


Die Kommunikation von Wwise und der Game Engine erfolgt durch sogenannte Game Calls, die von

der Game Engine gesendet werden. Diese lösen in der Sound Engine Events aus, die in dieser

weiterverarbeitet werden. Durch diese werden Sounds gestartet. Dabei kann das Abspielverhalten von

weiteren Parametern beeinflusst werden. Der Export von Wwise-Projekten in die Game Engine erfolgt

durch die Generierung von Soundbanks. Diese werden in der Game Engine geladen und beinhalten

Sounds und das zuvor definierte Abspielverhalten.

4.2.2.2 Aufbau

In Wwise sind spezielle Funktionen in verschiedenen Fenstern, sogenannten Views zu finden. Diese

sind für jeweils unterschiedliche Aufgaben anhand von Presets in Layouts kombiniert, können aber

auch individuell geöffnet oder kombiniert werden. Im Folgenden sollen lediglich grundlegende Layouts

mit ihrer Funktionalität vorgestellt werden.

Profile Layout

Das Profile Layout bietet Möglichkeiten während des Spielbetriebs alle Vorgänge innerhalb der Sound

Engine und die Performance zu überwachen.

Designer Layout

Das Designer Layout ermöglicht im Project Explorer die Erstellung und Organisation von Events und

Sound-Objekten, sowie Bussen. Zur Organisation dieser verschiedenen Objekte können Work-Units

angelegt werden, welche aus XML-Files bestehen.

Abbildung 34: Transport Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 37)

In diesem Layout befindet sich auch die Transport Control, wodurch Sound-Objekte abgespielt werden

können. Ferner kann das Abspielverhalten im Zusammenhang mit Switches, States und RTPCs getestet

53

und konvertierte Audiofiles mit den Originalen verglichen werden. Auf diese wird in dem später

folgenden Kapiteln eingegangen.

Interactive Music Layout

Das Interactive Music Layout stellt ein Layout für die Erstellung von interaktiver Musik dar. Es besitzt

viele Elemente die ebenfalls im Designer Layout vorhanden sind und spezielle Views für interaktive

Musik.

Mixer Layout

Das Mixing Layout beinhaltet ein Mischpult-Übersicht, in welche beliebig Objekte und Busse

angeordnet werden können. Events gehören dabei nicht dazu, da diese als Trigger für Sound-Objekte

fungieren und selbst nicht gemischt werden können. Die Ansicht ermöglicht individuelle Anpassungen.

Soundbank Layout

Im Soundbank Layout werden für das Spiel anhand der Events Soundbanks generiert. Diese beinhalten

Audio-Assets und Anweisungen, wie diese abgespielt werden sollen.

Schematic View

In der Schematic View (s. Abbildung 35) ist es möglich, anhand eines Strukturdiagramms einen

Überblick über die Beziehungen der Objekte innerhalb eines Projekts zu erhalten. Durchgehende Linien

zeigen die Struktur der Beziehungen an, gestrichelte Linien das Routing. Durch groß-gestrichelte Linien

wird angezeigt, wenn innerhalb eines Objekts der Output des Eltern-Outputs überschrieben wurde.

Überdies kann die Ansicht angepasst und Eigenschaften der Objekte wie zum Beispiel Lautstärke, Pitch,

TPF, HPF u.a. angezeigt und verändert werden.

Abbildung 35: Schematic-View in Wwise (Bildquelle: Audiokinetic, 2017, S. 216)

54


Die Kunst beim Sound Design für Computerspiele besteht darin, aus einer begrenzten Anzahl an

Sounds für maximale Abwechslung zu sorgen und eine vielfältige Klanglandschaft zu erstellen, die bei

langem Spielen nicht repetitiv wirkt. Dies ist speziell für häufig erklingende Sounds wichtig und kann in

Wwise durch eine Kombination aus Pitching und dem Abspielen von in Stücke aufgeteilte,

randomisierten Audiofiles erreicht werden (Audiokinetic, 2017, S. 80–98).

Im Sound Property Editor ist es möglich, die Werte wie Pitch, HPF, TPF oder Lautstärke per Zufall zu

variieren. Dafür werden Bereiche definiert, innerhalb dieser die nach dem Zufallsprinzip ausgewählten

Werte liegen.

Durch das Anlegen von Objekten in Random Containern können diese randomisiert abgespielt werden.

Dabei ist es möglich, Regeln für Randomisierung zu definieren, wie zum Beispiel, dass die letzten

beiden ausgewählten Objekte gemieden werden müssen oder, dass erst die komplette Liste von

Objekten abgearbeitet sein muss, bevor ein Objekt erneut abgespielt wird.

Mithilfe von Squence Containern ist es möglich, darin befindliche Objekte in einer schrittweisen oder

kontinuierlichen Sequenz abzuspielen. Schrittweise bedeutet in diesem Fall, dass bei einem Event

immer nur ein einzelnes Objekt abgespielt wird und die definierte Reihenfolge auf diese Weise bei

einem erneuten Eintreten des Events Schritt für Schritt durchgearbeitet wird. Kontinuierlich bedeutet

hingegen, dass bei einem Event die gesamte definierte Reihenfolge aus Objekten in kontinuierlicher

Form abgespielt wird. Für Momente der Stille innerhalb einer kontinuierlichen Sequenz gibt es ein

dafür vorgesehenes Silence-Objekt, dessen Länge ebenfalls randomisiert werden kann.

Auf diese Weise ist es möglich, Sounds in einen Sequence Container mit einer kontinuierlichen Sequenz

aus einzelnen Random Containern aufzuteilen. Diese können zusätzlich noch randomisierte

Eigenschaften enthalten, wodurch eine maximale Varianz erreicht wird (Audiokinetic, 2017, S. 80–97).

Importierte Audiodateien können für diesen Zweck in Wwise zugeschnitten und als unterschiedliche

Objekte gespeichert werden.


Für die Anpassung von Sounds an Gegebenheiten innerhalb des Spiels können Switches, Parameter

und States eingesetzt werden. Diese werden bei Wwise als Game Syncs bezeichnet.

Switches

Um zum Beispiel Fußschritte für verschiedene Untergründe einzusetzen, können Switches verwendet

werden. Für die Kommunikation mit der Game Engine wird dafür eine Switch Group erstellt, die als

eine Art Schalter fungiert. Innerhalb dieser werden verschiedene Switches erzeugt, welche

55

verschiedene Schalterstufen repräsentieren. Die Audio-Objekte für diese Schalterstellungen werden

dann mit diesen Schalterstellungen verknüpft.

Parameter

Um zum Beispiel die Beschleunigung eines Fahrzeugs zu simulieren, ist es möglich numerische Game

Parameter aus der Game Engine zu übertragen und anhand dieser Sounds zu modifizieren. Diese

stellen Zahlenwerte innerhalb eines definierten Bereichs dar. Durch die sogenannte Real Time

Parameter Control (RTPC) können Eigenschaften eines Objekts wie Lautstärke, Pitch, LPF, HPF, aber

auch der Output-Bus, Aux-Sends oder andere Werte beeinflusst werden. Das jeweilige Verhalten wird

anhand eines Graphen definiert. Die X-Achse besteht aus dem Game Parameter und die Y-Achse aus

der jeweiligen Eigenschaft des Objekts (s. Abbildung 36).

Abbildung 36: Real Time Parameter Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 126)

Mittels Blend Containern können mehrere Objekte gleichzeitig abgespielt werden. Diesen können auf

Blend-Tracks angeordnet werden, um sie anhand von Game-Parametern ineinander zu überblenden

oder Lautstärke, Pitch, HPF oder TPF zu verändern.

States

Für globale Events wie zum Beispiel das Schwimmen unter Wasser können in Wwise States eingesetzt

werden, um zum Beispiel einen TPF anzuwenden. Diese werden innerhalb einer State Group erstellt.

In dieser kann dann die Dauer eines Übergangs zwischen States definiert werden. Darüber hinaus kann

anhand des States für beliebige Objekte zum Beispiel ein Offset für Lautstärke, Pitch, TPF und HPF

eingestellt, Effekte auf Bypass geschalten, Sends manipuliert oder ihre Priorität geändert werden.

56


In Wwise existieren drei verschiedene Arten der

Positionierung von Schallquellen. Diese können

anhand des Spiels oder manuell im 3D-Raum

positioniert werden oder anhand von 2D-

Panning. Zudem ist die ursprüngliche

Kanalanordnung der Audiodatei möglich.

Bei „3D Game Defined“-Positionierung erfolgen

beispielsweise Panning, Lautstärke, Hall mit

Mono-Schallquellen anhand der Position von

Objekten im 3D-Raum der Game Engine.

Wenn keine Game-Objekte für das 3D-Panning

vorhanden sind, ist es möglich, diese mit der

„3D User Defined“-Positionierung zu

simulieren. Dafür können Schallquellen innerhalb des 3D-Raumes anhand von unterschiedlichen

Pfaden positioniert und automatisiert werden (s. Abbildung 37). Sie haben dann ebenfalls ein

Distanzverhalten wie Objekte im 3D-Raum der Game Engine und können ihre Position mit der

Orientierung des Hörers verändern oder unabhängig von dieser positioniert bleiben. Weiter ist mit

einem 2D-Panner auch konventionelles, statisches Surround -Panning möglich.

Zusätzlich kann anhand eines Parameters per RTPC zwischen 2D und 3D-Positionierung gewechselt

werden, was aber keinen weichen Übergang ermöglicht.

Abbildung 37: User Defined 3D-Panning in Wwise (Bildquelle: Audiokinetic, 2017, S. 164)

57


Abbildung 38: Attenuation Curve Editor in Wwise zur Simulation von Distanz und Richtwirkung (Bildquelle: Audiokinetic, 2017, S. 157)

Für die Simulation von Distanz bietet Wwise die Möglichkeit Veränderungen von Sounds in Relation

zur Distanz in Dämpfungskurven zu definieren. Dies erfolgt analog zur RTPC über einen Graphen mit

der Distanz als Parameter (s. Abbildung 38). Durch diesen kann das Verhalten von Lautstärke, Auxiliary

Sends, TPF, HPF, Ausbreitung und eine Art Fokus der Ausbreitung eingestellt werden (s. Abbildung 38).

Um diese Kurven auf mehrere Objekte gleichzeitig anwenden zu können, ist es möglich, aus ihnen

Sharesets anzulegen.


Das Abstrahlverhalten von Schallquellen kann durch einen Winkel für den Fokus, einen Winkel für eine

Übergangszone, den maximalen Lautstärkeverlust im Offset, TPF und HPF definiert und simuliert

werden (s. Abbildung 38, rechts unten).

4.2.2.8 Effekte

Auf Audio-Objekte oder Busse können verschiedene Effekte angewandt werden. Nützlich ist dabei für

von Interaktion unabhängige Effekte die Möglichkeit diese bereits vorab zu rendern, um CPU zu

sparen. Ferner ist es möglich Sharesets anzulegen, um Eigenschaften auf mehrere Objekte zu

übertragen.

58

Wwise bietet eine große Anzahl an integrierten Plugin-Effekten wie Delay, Guitar Distortion, Pitch

Shifter, Time Stretcher, Flanger, Harmonizer, Stereo Delay, Tremolo, Kompressor, Expander, Gain,

Meter, Peak Limiter, parametrischer EQ, Recorder und zwei unterschiedlich rechenintensive,

algorithmische Halle (Audiokinetic, o.J.h). Mit dem Recorder ist es möglich, Aufnahmen von AMB, WAV

oder WEM-Files innerhalb von Wwise zu erstellen (Audiokinetic, o.J.s). Für Premium-Entwickler wird

ein Faltungshall, ein Tool zur Erstellung von haptischem Feedback von Eingabegeräten, sowie Wwise

Reflect (Audiokinetic, o.J.h) angeboten. Mit letzterem ist es möglich, dynamisch zwischen der Position

der Schallquelle und des Empfängers anhand von reflektierenden Oberflächen und der vorhandenen

Raumgeometrie erste Reflektionen zu erzeugen. Zusätzlich sind verschiedene Soundgeneratoren

vorhanden, die neben verschiedenen Wellenformen, Sweeps und Rauschen auch Wind und Whooshes

generieren und durch Realtime-Parameter von der Game Engine manipuliert werden können. Durch

ihren Einsatz ist es zusätzlich möglich, CPU und Speicher zu sparen (Audiokinetic, o.J.t). Außerdem ist

ein Synthesizer mit zwei Oszillatoren enthalten, welcher über Midi oder anhand einer Basis-Frequenz

gesteuert werden kann. Letztere kann auch durch Realtime-Parameter manipuliert werden. Überdies

ist durch SoundSeed Impact möglich, eine enorme Anzahl an klanglichen Variationen eines einzigen

Audiofiles zu erstellen und diese mit Realtime-Parametern zu beeinflussen. Weiter gibt es eine große

Anzahl kommerzieller Partner-Plugins, sowie kommerzielle und nichtkommerzielle Community-

Plugins. Ferner unterstützt Wwise die Entwicklung eigener Plugins für Effekte, Klangerzeuger oder

Modelling (Audiokinetic, o.J.c).

4.2.2.9 Signalfluss & Mixing

In Wwise gibt es Busse, Auxiliary Busse und sogenannte Actor Mixer. In letzteren können Audiofiles im

Project Explorer organisiert werden. Daneben kann ein Actor Mixer als eine Art VCA beziehungsweise

DCA betrachtet werden, da die Addition beziehungsweise Subtraktion eines Offsets mit Werten wie

zum Beispiel der Lautstärke, Pitch, HPF und TPF auf die darin befindlichen Objekte ermöglicht wird.

Dabei sind Verschachtelungen mehrerer Actor Mixers möglich. Außerdem ist es in einem Actor Mixer

möglich, einen Output-Bus festzulegen.

In Bussen kann neben der Lautstärke für den Output der Summe – wie bei einem Actor Mixer – ein

Versatz für beispielsweise Lautstärke und Pitch der auf den Bus gerouteten Objekte eingestellt werden.

Ebenfalls ist es möglich, eine Side-Chain für Ducking auszuwählen.

Der Pegel für Auxiliary-Sends kann manuell oder spieldefiniert eingestellt werden. Bei letzterem wird

der Pegel durch Game-Calls innerhalb der Game Engine von der Seite des Programmierers gesteuert.

Durch einen Regler in Wwise sind feine Nachjustierungen dieser Werte möglich. Auf diese Weise ist es

möglich, Effekte wie beispielsweise Hall und Delay auf einem Auxiliary-Bus einzusetzen und zum

Beispiel Übergänge zwischen verschiedenen Räumen innerhalb eines Computerspiels zu simulieren.

59

Durch einen Master Secondary Bus ist es möglich, bestimmte Geräte mit sekundären Audio-

Ausgabepfaden wie zum Beispiel PlayStation 4-Controller anzusteuern. Ferner können mithilfe des

Master Motion Busses Motion-Effekte wie Vibration in bestimmten Controllern ausgelöst werden.

Wwise ermöglicht in dem sogenannten Soundcaster mehrere Sounds gleichzeitig abzuspielen und

Events und deren Abspielverhalten zu simulieren (s. Abbildung 39, unten). Dem Sounddesigner wird

dadurch ermöglicht, unabhängig von der Game Engine bereits eine Mischung zu erstellen.

In Kombination dazu können mit dem Mischpult des Mixing Layouts die verschiedenen Eigenschaften

von Objekte und Bussen eingestellt werden (s. Abbildung 39, oben). Darüber hinaus ist es möglich,

Einstellungen für bestimmte States vorzunehmen und somit anhand dieser verschiedene Snapshots zu

erstellen.

Abbildung 39: Mischpult (oben) und Soundcaster (unten) in Wwise (Bildquelle: Audiokinetic, 2017, S. 236)

Obendrein ist der Einsatz von Hardware-Controllern möglich. Dafür können dessen Elemente mit

beliebigen Funktionen und Objekt-Eigenschaften belegt werden.

4.2.2.10 Testen des Verhaltens von Audio

Nachdem mittels bereits erwähntem Soundcaster Events und deren Abspielverhalten unabhängig von

der Game Engine simuliert wurden, ist es für die Feinabstimmung der Mischung möglich, Wwise mit

60

dem Videospiel zu verbinden, Änderungen in Echtzeit durchzuführen und diese im Spiel zu testen.

Wwise kann dafür in bestimmte States springen oder sich diese vom Spiel vorgeben lassen.

4.2.2.11 Adaptive Musik

Wwise beinhaltet spezielle Strukturen und Funktionen für adaptive Musik. Aus einer begrenzten

Anzahl von musikalischen Fragmenten kann ein abwechslungsreicher Soundtrack erschaffen werden,

der die Stimmung des Spielgeschehens unterstreicht. Durch Music Switch Container kann Musik

anhand von States oder Switches ausgewählt und einzelne Music Segments oder Music Segments

innerhalb eines Music Playlist Containers abgespielt werden. Ein Music Segment besteht aus einem

oder mehreren Music Tracks auf welchen Audio-Clips innerhalb einer Timeline platziert werden

(Abbildung 40).

Abbildung 40: Music Segment Editor in Wwise (Bildquelle: Wwise v2017.2.1)

Für diese Segmente werden Zeit-Einstellungen angelegt, welche das Tempo in BPM, die Taktart, eine

zusätzliche Methode zur Unterteilung in ein Grid (zum Beispiel vier Takte oder ganze Note) und ein

Offset für diese Unterteilung in Millisekunden beinhalten. Weiter werden ein Entry Cue und Exit Cue

als Marker für den Beginn und Schluss innerhalb eines Segments platziert, um dieses beim

Abspielvorgang mit anderen Segmenten zu synchronisieren. Für zusätzliche Flexibilität bei Übergängen

können außerdem Custom Cues gesetzt werden.

Innerhalb eines Music Switch Containers oder Music Playlist Containers können zwischen den

Segmenten verschiedene Übergänge definiert werden. Es ist zum Beispiel einstellbar, ob ein Übergang

sofort, zum nächsten Grid, zum nächsten Takt, zur nächsten Zählzeit, zum nächsten Cue, zum nächsten

Custom Cue oder zum nächsten Exit Cue eintritt. Dabei können für das Quell- und das Ziel-Segment

eingestellt werden, ob diese nach dem Exit Cue weiter oder bereits vor dem Entry Cue abgespielt

werden sollen. Ebenfalls können Fades definiert oder ein zusätzliches Segment als Übergangspassage

abgespielt werden. Auf diese Weise ist es möglich, nahtlose Übergänge zu erzeugen.

61

Music Tracks, Music Segments, Music Playlist Container und Music Switch Container können außerdem

durch Realtime-Parameter vom Spiel manipuliert werden. Dies ermöglicht zum Beispiel den Mix von

Music Tracks innerhalb von Music Segments anhand von Spielparametern zu verändern.

Darüber hinaus unterstützt Wwise den Einsatz von MIDI und ermöglicht die Erstellung von MIDI

Instrumenten.

4.2.2.12 Mehrsprachen-Unterstützung

In Wwise können innerhalb eines Projekts mehrere Sprachen erstellt und eine Referenz-Sprache

definiert werden. Für Dialog existiert das Sound Voice-Objekt, welches mit Audio-Dateien in

unterschiedlicher Sprache verknüpft wird. Es ist zu jeder Zeit der Entwicklung möglich, zwischen den

Sprachen umzuschalten, diese anzuhören und zu simulieren.


Durch das Audio Input Source Plugin ist es möglich, Audio einer externen Quelle wie einem Netzwerk-

Stream, einem angeschlossenen Mikrofon oder von einer Datei auf der Festplatte, die nicht Teil des

Wwise-Projekts ist, zu nutzen (Audiokinetic, o.J.b).

4.2.2.14 Unity Timeline Integration

Unity besitzt für die Erstellung von filmischen Inhalten oder Spielsequenzen eine Timeline, welche von

Wwise in Form von einer Event-Spur und RTPC-Spur unterstützt wird. Diese Spuren können an

beliebige Game-Objekte gebunden werden. Auf der jeweiligen Spur werden anschießend Clips für zu

übermittelnde Events und RTPCs platziert. Die RTPC-Werte können mit dem Unity Curve Editor anhand

von Keyframes definiert werden.

4.2.2.15 Speicher- und Prozessornutzung

Speicheroptimierung

Da der für ein Computerspiel genutzte Speicher begrenzt ist und dieser mit oft aufwendiger Grafik

geteilt werden muss, gibt es in Wwise speziell vorgesehene Funktionen. Prinzipiell ist zu empfehlen,

dass mehrere Soundbanks für Sounds erstellt werden, welche nicht in jedem Level benötigt werden,

um somit nur die nötigen Sounds in den Speicher zu laden (Audiokinetic, 2017, S. 254). Zur Verwaltung

des für Audio vorgesehenen Speichers ist es möglich, im Soundbank Manager eine maximale Größe

des Speicherbudgets in Bytes festzulegen. Nach der Generierung einer Soundbank kann deren Größe

mit diesem Budget verglichen werden.

Sollte diese das Speicherbudget überschreiten, gibt es die Möglichkeit, die Audio-Files zu konvertieren.

Dafür können unterschiedliche Sharesets für Konvertierungseinstellungen für verschiedene Typen von

Sounds erstellt werden. Neben Samplerate, Anzahl der Kanäle, Dateiformat und Qualität der

62

Codierung können für bestimmte Formate weitere Einstellungen vorgenommen werden. Hier gilt es

einen Kompromiss zwischen der Größe der Dateien und der Prozessor-Nutzung für die

Dekomprimierung der komprimierten Dateien zu finden. Im Transport-Control ist es möglich, die

konvertierten Files mit den Originalen zu vergleichen.

Eine zusätzliche Möglichkeit, um speziell bei langen Files wie Musik oder Atmo Systemspeicher zu

sparen, ist das Streaming von der Festplatte, CD oder DVD (Audiokinetic, 2017, S. 271–273). Jedoch ist

dabei die benötigte Zeit für die Lokalisierung und Zugriff auf das Speichermedium und die mögliche

Bandbreite zu beachten. Um dabei Latenzen beim Beginn des Abspielvorgangs zu verhindern, ist es

möglich, den Anfang der Datei bereits zuvor in den Speicher laden zu lassen (Audiokinetic, o.J.k).

Prozessoroptimierung

Jeder abgespielte Sound stellt eine Voice dar und nutzt Prozessorzyklen (Audiokinetic, 2017, S. 273).

Da deren Anzahl sehr hoch werden kann und überlagerte Sounds trotzdem berechnet werden müssen,

kann Rechenleistung verschwendet werden. Aus diesem Grund ist es in Wwise möglich, für

verschiedene Plattformen mit unterschiedlicher Rechenleistung eine Mindest-Lautstärke für das

Rendern von Audio-Objekten zu definieren, sowie die maximale Anzahl an Voices. Außerdem können

diese Einstellungen für alle Sound-Objekte, Actor-Mixer und Audio-Busse auch separat eingestellt

werden.

Um der Gefahr vorzubeugen, dass dadurch wichtige Audio-Objekte entfernt werden, kann zusätzlich

eine Abspiel-Priorität eingestellt werden. Weiter ist es möglich, Objekten in Abhängigkeit ihrer Distanz

eine höhere beziehungsweise niedrigere Priorität zuzuordnen.

Sounds, deren Lautstärke zu gering ist, können zu einer Virtual Voice List hinzugefügt werden. Sobald

ihre Lautstärke wieder den Schwellenwert überschreitet oder die Anzahl der zeitgleich abgespielten

Audio-Objekte geringer als das Limit ist, werden diese wieder zu einer Physical Voice und gerendert.

Dabei ist es möglich, einen fortgeschrittenen Abspielvorgang zu simulieren, von der zuletzt hörbaren

Position weiter abzuspielen oder den Abspielvorgang erneut von vorne zu beginnen.

4.2.2.16 Debugging

Das Profile Layout bietet Möglichkeiten alle Vorgänge innerhalb der Sound Engine zu überwachen. Die

Nutzung von CPU, Speicher und Bandbreite für jede von der Sound-Engine durchgeführte Aktivität wird

in Echtzeit grafisch oder anhand einer Liste dargestellt. Darüber hinaus können detaillierte

Informationen über die Abläufe in der Sound-Engine angezeigt werden, wie zum Beispiel ausgelöste

Events und alle ausgeführten Aktionen oder die Anzahl an Events, Sends, Objekten, Übergängen,

Streams, sowie die Anzahl virtueller, physischer und aller Voices. Außerdem können die Lautstärke von

Voices, Bussen, der Ausgabe und vieles mehr in Echtzeit überwacht werden und Statistiken über Audio-

63

Elemente im Spiel erzeugt werden. Des Weiteren ist es durch den Voice Graph möglich, eine Bus-

Hierarchie von aktuell abgespielten Voices anhand eines Strukturdiagramms darzustellen.

Das Game Object Profiler Layout ermöglicht obendrein die Überwachung von bestimmten Objekten

im Spiel. Dabei ist es möglich, diese Objekte visuell in einer dynamischen, dreidimensionalen

Repräsentation darzustellen und ihre RTPC-Werte zu verfolgen.

64

4.2.3 FMOD Studio

FMOD Studio unterstützt eine große Anzahl unterschiedlicher Plattformen, welche in der folgenden

Tabelle 3 aufgelistet sind.

Tabelle 3: Von FMOD unterstützte Plattformen (Audiokinetic, o.J.l; Firelight Technologies, o.J.a, Firelight Technologies, o.J.b, Firelight Technologies, o.J.h, Firelight Technologies, o.J.i, Firelight Technologies, 2016)

Plattform VR Platform FMOD Studio Authoring

Application

FMOD Studio API

Unity Unreal Engine 4

Android Google Cardboard, Daydream,

Gear VR

✔ ✔ ✔

iOS ✔ ✔ ✔

Linux ✔ ✔ ✔ Mac ✔ ✔ ✔ ✔

Windows Oculus Rift, HTC Vive, Microsoft HoloLens

✔ XP/Vista /7/8/10

✔ ✔

Windows Phone 8.1

✔ ✔

PlayStation 3 ✔

PlayStation 4 PlayStation VR ✔ ✔ ✔ PlayStation Vita

✔ ✔

Xbox 360 ✔

Xbox One ✔ ✔ ✔ Wii U ✔ ✔

Nintendo Switch

✔ ✔

HTML5 ✔

Es werden die Kanalformate Mono, Stereo, 4.0, 5.0, 5.1, 7.1 und 7.1.4 unterstützt (Firelight

Technologies, o.J.g). Das für die Produktion genutzte Format kann schließlich beim Nutzer durch einen

automatischen Down- beziehungsweise Upmix auf die Lautsprecherkonfiguration des Ausgabegerätes

angepasst werden (ebd.). Neben den Audio-Dateiformaten WAV, MP3, Ogg Vorbis, AIFF und FLAC wird

eine Vielzahl spezieller Formate unterstützt, sowie MIDI und die Tracker-Module Impulse Tracker (.it),

Scream Tracker (.s3m), Extended Module File Format (.xm) und Module File Format (.mod) (Firelight

Technologies, o.J.d). Ambisonics wird in 1. Ordnung im B-Format in ambiX durch das mitgelieferte

Resonance Audio Plugin von Google unterstützt (Google Developers, 2018).

65

Des Weiteren wird die Binauralisierung von Audio für VR durch die Plugins von Oculus Spatializer,

Google Resonance Audio Spatializer, GoogleVR Spatializer (Firelight Technologies, o.J.c) und Steam

Audio ermöglicht (Valve Corporation, 2018).


Wie Wwise basiert FMOD Studio auch auf Events, die ausgelöst werden und deren Parameter vom

Spiel-Code manipuliert werden können. Diese Events triggern und manipulieren auf Event Tracks

Instruments, die Audio-Signale erzeugen, welche verändert oder umgeleitet werden können. In den

FMOD Studio Versionen 1.09 und früher wurden diese Instruments noch als Sound Module bezeichnet

(Firelight Technologies, 2018b). Um die Inhalte eines FMOD Studio Projekts in ein Spiel zu

implementieren, werden sogenannte Banks erzeugt. Diesen werden Events zugeordnet.

Im Gegensatz zu Wwise arbeitet FMOD Studio

unter anderem mit einer Spurenansicht, was an

eine DAW erinnern lässt. Events besitzen Event

Tracks, auf denen Sound-Module platziert

werden. Diese geben Audio aus, wenn sich die

Abspielposition auf der Spur in der sogenannten

Trigger Region des Instruments befindet.

4.2.3.2 Aufbau

FMOD Studio besitzt verschiedene Ansichten, um bestimmte Aufgaben durchzuführen.

Event Editor

Im Event Editor werden Events erstellt, diese mit Audio-Assets von Instruments verbunden, deren

Abspielverhalten definiert und Automationen erstellt. Diese Events werden anschließend mit Banks

verknüpft.

Mixer

Im Mixer können die erstellten Events auf Gruppen-Busse geroutet, es kann außerdem weiteres

Routing auf Gruppen-Busse vorgenommen und die erstellten Busse können mit einer Mischpult-

Ansicht gemischt werden. Ferner ist es möglich, VCAs, Sends und Returns zu erstellen, sowie Snapshots

oder Automationen für bestimmte Spielsituation.

Profiler

Durch den Profiler ist es möglich Daten und Audio im Spielbetrieb aufzuzeichnen und eine detaillierte

Fehleranalyse durchzuführen.

Abbildung 41: Event Track mit „Single Instrument“ in FMOD (Bildquelle: FMOD Studio 1.10.03)

66

Instruments

Instruments spielen mit ihnen verknüpftes Audio ab oder triggern Events oder Snapshots. Sie können

auf der Spur eines Events oder eines Spiel-Parameters platziert werden und werden getriggert, solange

sich die Abspielposition innerhalb ihrer Trigger Region befindet. Es existieren verschiedene Typen mit

verschiedenen Funktionalitäten. Diese können z.T. entweder synchron oder asynchron betrieben

werden. Synchron bedeutet in diesem Fall, dass die Länge der Trigger Region des Instruments

bestimmt wie lange das Audio-Asset abgespielt wird, was bei kurzen Assets durch den Loop-Modus

erreicht werden kann. Asynchron bedeutet hingegen, dass Audio-Assets unabhängig von der Länge der

Trigger Region immer in kompletter Länge abgespielt werden.

Single Instruments

Single Instruments spielen, wie der Name bereits erwarten lässt, ein einzelnes Audio-File ab. Sie sind

synchron, können aber auf asynchron umgeschaltet werden.

Multi Instruments

Multi Instruments können hingegen eine Playlist aus Single Instruments, Programmer Instruments und

Event Instruments enthalten. Diese können zufällig oder in fester Reihenfolge abgespielt werden. Auf

diese Weise kann eine Variation der Sounds erzeugt werden. Multi Instruments sind synchron, können

aber auf asynchron umgeschaltet werden.

Event Instruments

Event Instruments spielen die Ausgabe eines Events ab, auf das verwiesen wird. Dabei handelt es sich

bei Referenced Events um normale Events, die ihren eigenen Mixer-Bus enthalten und auf die in jedem

anderen Event verwiesen werden kann. Auf ein Nested Event kann hingegen nur von dem Eltern-Event-

Bus verwiesen werden. Dieses besitzt auch keinen eigenen Mixer-Bus und übernimmt alle

Einstellungen vom Eltern-Mixer-Bus. Event Instruments sind immer asynchron.

Scatterer Instruments

Scatterer Instruments erzeugen kontinuierlich Instanzen von 2D oder 3D Instruments in ihrer Playlist.

Dabei werden ihre Positionen bei 3D- oder 2D-Events zufällig generiert. Dies ist besonders für das

Erschaffen von Atmo nützlich. Scatterer Instruments sind immer asynchron.

Programmer Instruments

Programmer Instruments stellen ein leeres Instrument dar, das Rückrufe generiert. Durch diese

Rückrufe können alle möglichen Audio-Files abgespielt werden, unabhängig davon, ob sie ein Teil des

FMOD Studio Projekts sind oder nicht. Dies kann für viel Dialog und Lokalisierung in Kombination mit

Audio-Tabellen ein Vorteil sein (Firelight Technologies, 2018c). Programmer Instruments sind

synchron, können aber auf asynchron umgeschaltet werden.

67

Plugin Instruments

Plugin Instruments sind Instrumente, die beliebige Arten von benutzerdefiniertem Sound erzeugen,

wie zum Beispiel ein Soundgenerator oder Synthesizer. Diese können auch selbst entwickelt werden.

Sie können abhängig von ihrem Design synchron oder asynchron sein. Bei FMOD Studio sind bereits

ein Plugin Instrument für die Generierung von Motorensounds und unterschiedlichem Wetter

enthalten, welche anhand von Realtime-Parametern manipuliert werden kann.

Snapshot Instruments

Snapshots Instruments starten einen Snapshot und die damit verbundenen Einstellungen im Mixer.

Diese werden so lange angewandt, wie das Instrument getriggert wird. Da sie kein Audio abspielen,

sind sie weder synchron, noch asynchron.

4.2.3.3 Parameter und Cues

Durch Parameter und Cues ist es möglich, das Verhalten von Events zu beeinflussen. Parameter sind

numerische Variablen, die durch Spielcode upgedated werden und mit Eigenschaften von Events

verbunden sind. Sie können für Automationen von Eigenschaften von Spuren, Effekten und anderer

Module innerhalb der Signalkette eingesetzt werden und das Abspielverhalten eines Events durch

Logische Marker innerhalb der Timeline steuern. Darüber hinaus ist es möglich, anhand der Parameter-

Werte Instrumente zu triggern.

Durch Cues wird die Information übermittelt, dass der Abspielvorgang einer Event-Instanz einen

folgenden Sustain Point ignoriert und weiter abgespielt wird. Diese werden in dem später folgenden

Kapitel „4.2.3.12 Adaptive Musik“ näher erklärt.

4.2.3.4 Modulatoren

Modulatoren sind in der Lage, die Werte eines Events zeitabhängig, aber unabhängig von der Timeline

zu verändern. Dabei können durch verschiedene Modulatoren verschiedene Effekte erzeugt werden.

Random-Modulatoren

Durch Random-Modulatoren ist es möglich, Properties um einen definierbaren Wert variieren zu

lassen, wie zum Beispiel die Laustärke. In diesem Fall stellt der ursprüngliche Wert des Properties den

höchsten Wert dar und der für die Modulation definierte Wert die maximale Abweichung von diesem

nach unten. Bei der Anwendung auf ein Pitch-Property, erflogt hingegen eine Abweichung nach oben

und unten vom ursprünglichen Wert.

AHDSR-Modulatoren

Ein AHDSR-Modulator kann auf Instrumente, Events und Snapshots angewandt werden. Wird das

verknüpfte Element gestartet, werden die zu modulierenden Eigenschaften von neutralen Werten auf

68

spezifizierte erhöht. Beim Stoppen erfolgt dies in umgekehrter Reihenfolge. Dies ermöglicht den

Einsatz dieser Modulatoren für Fade-Ins und Fade-Outs, die unabhängig von der Abspielposition sind.

Side-Chain-Modulatoren

Mit Side-Chain-Modulatoren ist es möglich, Properties anhand eines Thresholds zu modulieren. Dabei

können der Wert der Modulation und Attack- und Release-Zeiten eingestellt werden.


Wenn eine Spur oder ein Bus als Stereo- oder eine höhere Lautsprecherkonfiguration eingestellt ist,

ist es möglich, die Ausgabe zwischen den vorhandenen Lautsprechern zu pannen. Dies geschieht

abhängig von der Kanal-Konfiguration durch einen Stereo-, Surround-Panner, Surround-Panner mit

LFE-Regler oder Surround-Panner mit LFE-Regler und einem Regler für Höhenkanäle (bei Surround

7.1.4). Auf diese Weise ist mit dem FMOD Spatializer eine manuelle räumliche 3D-Positionierung von

Sounds möglich. Diese haben dann ebenfalls ein Distanzverhalten wie Objekte im 3D-Raum der Game

Engine. Für individuelle Einstellungen können Lautsprecher innerhalb der Konfigurationen auch

deaktiviert werden. Obendrein ist es möglich die Richtung und den Abstand der Schallquelle zu

automatisieren oder modulieren.

Durch den FMOD Object Spatializer oder den mitgelieferten Resonance Audio Spatializer von Google

erfolgt dann die räumliche Darstellung von 3D-Objekten innerhalb der Game Engine anhand ihrer

Position.


Im Spatializer und 3D Object Spatializer sind vier Kurven-

Presets für die Abnahme der Lautstärke in Relation zu

Distanz enthalten. Außerdem kann der Minimal- und

Maximalabstand der Schallquelle für die Anwendung der

Kurve definiert werden (s. Abbildung 42). Durch die 3D-

Preview (s. Abbildung 43) ist es möglich dies zu

simulieren. Für individuelle Kurven ist es möglich,

anhand des Distanz-Parameters Automationen mit dem

Gain-Plugin zu schreiben. Dies kann dann zu einem

Preset konvertiert werden, um es auf mehrere Objekte anzuwenden. Auf diese Weise ist auch die

Automation von HPF, TPF oder beliebigen anderen Effekten, sowie Sends zu Hallgeräten möglich.

Abbildung 42: Distance Attenuation im Spatializer in FMOD (Bildquelle: FMOD Studio 1.10.03)

69


Durch den Spatializer oder 3D Object Spatializer ist es möglich die

Winkel des Abstrahlkegels eines Events zu definieren und diesen

in der 3D-Preview zu simulieren (s. Abbildung 43). Zusätzlich kann

auch die empfundene Größe des Sounds durch dessen Umhüllung

eingestellt werden.

4.2.3.8 Signalfluss & Mixing

Wie bereits erwähnt stellen Events kleine Mixer dar. Für das

Mixing müssen sie jedoch zunächst auf Gruppen-Busse geroutet

werden. Dies geschieht durch das Verschieben der Events via Drag

& Drop in jeweilige Gruppen-Busse im Routing Browser. Dabei ist

es auch möglich, unterschiedliche Sub-Gruppen aus Gruppen-

Bussen zu erstellen. Die Group-Busse in der obersten Ebene sind auf den Master-Bus geroutet.

Die erstellten Gruppen-Busse können mit dem Mixing Desk gemischt werden. Weiter ist es möglich,

VCAs, Snapshots, Sends, sowie Effekte anzuwenden oder eine Side-Chain zu erstellen. Diese

Effektmodule, Sends oder Side-Chain können immer Pre- oder Post-Fader positioniert werden. Durch

Drag & Drop lässt sich deren Reihenfolge schnell beliebig verändern. Sends werden dabei immer auf

Return-Busse geroutet.

4.2.3.9 Snapshots für verschiedene Spielsituationen

Für verschiedene Spielsituationen können im Mixer unterschiedliche Snapshots erzeugt werden, die

von Game-Code oder von Events durch Snapshot Trigger Regionen getriggert werden. Dabei können

beliebig viele, unterschiedliche Properties von Bussen und deren Effekten oder Sends ausgewählt und

von dem Snapshot eingeschlossen werden. Alle anderen Properties werden von diesen nicht

verändert. Die für einen Snapshot ausgewählten Properties können (wie die Properties eines Events)

automatisiert und moduliert werden. Durch Modulation des „Intensity“-Reglers mit zum Beispiel

einem AHDSR-Modulator, können Übergänge zwischen den Snapshots erstellt werden. 100% dieses

Reglers entsprechen dabei den Werten des Snapshots und 0% den Werten des Originals. Dazwischen

werden die Werte der betroffenen Properties jeweils auf eine dazwischenliegende Position eingestellt.

Es gibt in FMOD Overriding Snapshots und Blending Snapshots. Wenn mehrere Overriding Snapshots

dasselbe Property beeiflussen, überschreiben sich diese. Snapshots die sich im Snapshot Browser oben

befinden, haben eine höhere Priorität, werden zuletzt angewandt und überschreiben die weiter unten

angeordneten Snapshots. Jedoch ist zu beachten, dass trotzdem alle Snapshots angewandt werden,

was speziell bei Intensity-Werten größer als 0 % und kleiner als 100 % einen Unterschied macht.

Abbildung 43: 3D Preview in FMOD mit angezeigtem Abstrahlkegel und Ausbreitung (Bildquelle: FMOD Studio 1.10.03)

70

Blending Snapshots unterscheiden sich von Overriding Snapshots lediglich darin, dass Volume

Properties miteinander kombiniert und nicht überschrieben werden.


Die Sandbox ermöglicht es, Events und Snapshots in einem spielähnlichen Kontext anzuhören, ohne

das Live Update mit einem laufenden Spiel nutzen zu müssen. Auf diese Weise kann das Verhalten der

Events in 3D angehört werden und das Projekt gemischt werden.

Durch das sognannte Live Update ist es möglich, FMOD Studio mit einem laufenden Spiel zu verbinden,

Änderungen am Projekt vorzunehmen und die Ergebnisse in Echtzeit zu testen. Jedoch ist es dabei

nicht möglich, Audio-Assets hinzuzufügen oder zu entfernen. Um dies zu tun, müssen zunächst neue

Banks generiert werden. Ebenso müssen die fertigen Änderungen schließlich als neue Banks in das

Spiel importiert werden.

4.2.3.11 Effekte

In FMOD Studio ist es möglich auf Event-Tracks oder Bussen an jeder beliebigen Stelle in der

Signalkette, sowie vor als auch hinter dem Fader, Effektmodule zu positionieren (s. Abbildung 44). Des

Weiteren können diese frei zwischen anderen Effekten oder Sends eingefügt werden.

Abbildung 44: Post-Fader Send, Delay und Chorus in FMOD (Bildquelle: https://www.fmod.com/docs/studio/images/signalChainExample.png)

Neben einem 3-bandingen EQ, einem Multiband-EQ, verschiedenen Hochpass- und Tiefpass-Filtern,

einem parametrischen EQ, einem Chorus, einem Kompressor, einem Faltungshall, einem

algorithmischen Hall, einem Kanal-Mixer, Distortion, einem Delay, einem Flanger, Gain, einem Limiter,

einem Pitch Shifter, einem Tremolo, einem Loudness Meter, verschiedenen Spatializern, einem

Distanzfilter und einem binauralen Renderer, ist ein sogenannter Transceiver enthalten. Diese senden

eingehende Signale an alle anderen Transceiver-Effekte im Projekt, summieren diese und geben sie

gleichzeitig aus. Überdies ist es möglich, Preset Effekte anzulegen, die auf mehrere Events angewandt

werden können und bei Änderungen alle aktualisiert werden. Neben diesen Effekten ist es durch

71

sogenannte Event Macros möglich, den Master-Track eines Events zu pitchen oder einen Dopplereffekt

für bewegende 3D-Game-Objekte zu erstellen.

Zusätzlich ist es möglich, eigene Plugins zu entwickeln und diese in FMOD zu integrieren (Firelight

Technologies, o.J.e).


Adaptive Musik kann in FMOD Studio anhand von synchronen Instrumenten und Markern innerhalb

der Timeline erzeugt werden. Auf dem sogenannten Logic Track können logische Marker gesetzt

werden, die das Abspielverhalten innerhalb der Timeline eines Events auf unterschiedliche Weise

manipulieren.

Abbildung 45: Adaptive Musik durch Transition-Regionen in FMOD (Bildquelle: FMOD Studio 1.10.03)

Nach dem Erstellen eines Tempomarkers mit dem Tempo in BPM und der Taktart, ist es möglich, von

Parametern getriggerte Sounds quantisiert anhand von Intervallen in Takt und Tempo zu triggern.

Durch Loop-Regionen innerhalb der Timeline ist es möglich, bestimmte Sektionen der Komposition

wiederholt abzuspielen. Durch Transition-Marker und Transition-Regionen ist es möglich, innerhalb

der Timeline zu Destination-Markern zu springen. Erstere sind Zeitpunkte für einen Übergang. Letztere

beschreiben Bereiche, in denen ein Übergang stattfinden kann. Dies kann durch ein quantisiertes

Intervall für den Übergang gekoppelt werden. Für beide Transition-Arten können Bedingungen

definiert werden, welche Bereiche von Werten eines Parameters darstellen. Ferner ist es möglich,

diese durch eine prozentuale Wahrscheinlichkeit weiter zu beeinflussen. Um von Transition-Marker

oder -Region zum Destination-Marker zusätzlich einen Übergang abzuspielen, können Transition-

Timelines eingesetzt werden, welche einen extra eingefügten Bereich in der Timeline darstellen.

72

Durch Sustain-Punkte ist es möglich, den Abspielvorgang innerhalb der Timeline auf deren Position zu

pausieren. Dies bedeutet jedoch nicht, dass das Event pausiert wird, da nur synchrone Instrumente

aufhören Sound auszugeben. Ebenso werden Effekte, Modulatoren und Automationen nicht

beeinflusst. Durch Cues (s. Kapitel „4.2.3.3 Parameter und Cues“) ist es möglich, diesen Abspielvorgang

fortzusetzen.


Durch Programmer Instruments ist es möglich, anhand von Audio-Tabellen entsprechende Dialog-

Zeilen in der jeweiligen Sprache auszuwählen. Diese Tabellen werden im Quellenverzeichnis für die

jeweilige Sprache in „keys.txt“-Dateien gespeichert und entsprechend ausgewählt.


Mit der FMOD Low Level API ist es möglich, Audio mit einem Mikrofon aufzunehmen, dies bereits

während der Aufnahme abzuspielen und Echtzeit-Effekte anzuwenden (Firelight Technologies, o.J.d).

Darüber hinaus ist es möglich Audio aus dem Internet zu streamen.

4.2.3.15 Speicher- und Prozessornutzung

Speicheroptimierung

Abhängig von der Hardware und Grenzen verschiedener Plattform können in FMOD Studio

verschiedene Komprimierungs- und Codierungseinstellungen getroffen werden. Auf diese Weise ist es

möglich, ein Projekt für den Export auf verschiedene Plattformen zu nutzen. Dabei ist es möglich, eine

gleiche Plattform mehrmals hinzuzufügen, um verschiedene Hardware-Typen darzustellen, wie zum

Beispiel zwei Desktop-Plattformen für Windows und Mac (Firelight Technologies, 2018e). Abhängig

von der Plattform können jeweilige Einstellungen für das Format der Codierung und dessen Qualität

getroffen werden. Ferner kann das benötigte Kanalformat eingestellt werden.

Zusätzlich ist es möglich, maßgeschneiderte Codierungseinstellungen für individuelle Assets oder

Ordner festzulegen und damit die globalen Einstellungen der jeweiligen Plattform zu überschreiben.

Diese beinhalten das Format der Codierung, Qualität oder Samplerate und Einstellungen, ob das File

komprimiert oder dekomprimiert geladen oder gestreamt werden soll. Dieses komprimierte Asset

kann abgespielt und zur Kontrolle mit dem Original verglichen werden.

Des Weiteren ist es möglich, Effekte für bestimmte Plattformen weg zu lassen, was speziell bei

rechenintensiven Effekten wie zum Beispiel langen Hallfahnen nützlich sein kann.

Um den Speicher zu entlasten, können lange und zeitlich unkritische Audio-Assets (wie zum Beispiel

Musik oder Atmo) gestreamt werden. Standardmäßig werden alle importierten Audiodateien mit einer

73

Länge über 10 Sekunden zunächst automatisch für Streaming eingestellt, was aber gerendert werden

kann (Firelight Technologies, 2018d).

Prozessoroptimierung

Durch das Virtual Voice System in FMOD ist es möglich, eine enorme Anzahl von Sounds gleichzeitig

abzuspielen, aber nur eine begrenzte Anzahl davon tatsächlich zu rendern (Firelight Technologies,

o.J.j). Voices werden abhängig von ihrer Echtzeit-Hörbarkeit dynamisch virtuell oder gerendert. Durch

Event Macros kann für ein Event weiter eingestellt werden, wie viele Instanzen von diesem zur selben

Zeit existieren dürfen. Zusätzlich kann das Verhalten definiert werden für den Fall, dass bereits die

maximale Anzahl an Instanzen erreicht ist und eine neue Instanz erzeugt wird. In diesem Fall ist es

möglich, die älteste, die am weitesten entfernte oder die leiseste Instanz zu stoppen, die neue Instanz

zu virtualisieren oder keine neue Instanz zu erstellen. Ferner kann eingestellt werden, in was für einem

zeitlichen Abstand dieselbe Instanz erneut abgespielt werden kann, um ein zeitgleiches Abspielen

dieser zu verhindern. Überdies ist es möglich, für das Virtual Voice System die Priorität von Events zu

definieren. Auf diese Weise wird festgelegt wie wichtig es ist, dass ein Event nicht virtualisiert wird.

Instanzen mit niedriger Priorität werden dadurch schneller aussortiert. Zwischen Event-Instanzen mit

gleicher Priorität entscheidet ein effektiv höherer Lautstärkewert für das Bestehen einer Instanz

(Firelight Technologies, 2018a).

4.2.3.16 Debugging

Durch den Profiler ist es möglich, beim Live Update Sessions aufzunehmen und anhand dieser Daten

Probleme zu analysieren. Dafür können relevante Busse in die Session hinzugefügt werden. Eine solche

aufgenommene Session beinhaltet die Audio-Ausgabe des Spiels und die ausgeführten API-Calls, was

ermöglicht, die Session ohne Live Update erneut abzuspielen und zu untersuchen. Außerdem werden

alle abgespielten Events, die CPU- und Speicher-Nutzung, die benötigte Bandbreite, sowie die Anzahl

an Voices und Instanzen, die Lebensdauer von Instanzen und die Laustärke des Master-Busses grafisch

dargestellt.

Im „Playback with API Capture“-Modus ist es möglich, an dieser aufgenommenen Session Änderungen

vorzunehmen und zu testen wie diese den aufgenommenen Mix beeinflussen. Dafür werden die API-

Calls der aufgenommenen Session mit neu generiertem Ton abgespielt.

74

4.2.4 Fabric

Tazman bietet mit Fabric eine Möglichkeit, innerhalb von Unity eine Vielzahl von Audiofeatures zu

nutzen und damit Unitys Funktionsumfang für Audio zu erweitern. Dabei werden von Unity weiterhin

dieselben Plattformen, Kanalformate (Tazman-Audio, 2014) und Audio-Dateiformate unterstützt (s.

Kapitel „4.2.1 Unity“), ebenso Ambisonics 1. Ordnung im B-Format.

Für die Binauralisierung von Audio für VR ist es möglich, Oculus Spatializer, GoogleVR, RealSpace3D,

Phonon 3D oder (für bereits existierende Kunden) 3DCeption einzubringen (Tazman-Audio, o.J.a).


Fabric basiert auf Scripten, die in der Form von Components in Unity hinzugefügt werden können.

Durch Event-Trigger werden Events mit einer bestimmten Aktion an Fabric gesendet. Diese können

neben dem Abspielen, dem Stoppen oder Pausieren eines Sounds, dem Panning, dem Festlegen von

Pitch, Lautstärke, Parametern oder Switches viele weitere Befehle enthalten. Der Aufruf kann dabei

durch die Funktion eines Game-Objekts oder anhand von Code erfolgen. Jede Component, die durch

Event-Listener auf dieses Event hört, wird auf dieses antworten und eine Aktion ausführen.

Durch den Event Manager wird diese Liste aus Events und die Übermittlung von Events zwischen Spiel-

und Fabric-Components verwaltet. Für die Verwaltung der Fabric-Components wird der Fabric

Manager genutzt. Durch ihn können globale Einstellungen für Musik getroffen werden, anhand

welcher sich bestimmte Components synchronisieren können.

4.2.4.2 Components

Components können in Fabric als XML-File gespeichert oder geladen werden. Sie verfügen über eine

große Anzahl an Einstellungen, wie zum Beispiel die Anzahl ihrer Instanzen, Lautstärke, Pitch, zufälliger

Versatz für Lautstärke und Pitch, Fades, Einstellungen für ihre Virtualisierung, sowie eine Anzeige über

ihre aktuelle und maximale CPU-Auslastung. Da Components hierarchisch angeordnet sind und

Properties ihrer Eltern-Components erben, existieren auch Optionen, diese in der Kinder-Component

zu überschreiben.

Die Audio Component stellt die Basis-Component dar. Durch sie kann ein festgelegter Audio-Clip

abgespielt werden. Darüber hinaus ist es möglich, diesen zu loopen (unendlich oder bestimmte

Anzahl), den Sound zufällig im 3D-Raum zu positionieren und ihn durch globale Einstellungen für Musik

auf den Takt oder in beliebiger Form zu verzögern. Zusätzlich ist es möglich, im Audio-File Marker und

Regionen anzulegen, zu laden oder diese per Zufall zu erzeugen. Diese können für Loops oder zur

Benachrichtigung der Eltern-Component genutzt werden.

75


Variation innerhalb von Sounds können unter anderem durch die Random Component erzeugt

werden. Diese triggert ihre Kinder-Components in zufälliger Reihenfolge oder in zufälliger Reihenfolge

ohne Wiederholungen. Dabei ist es möglich, die Kinder-Components unterschiedlich zu gewichten. Sie

können geloopt werden und dabei nacheinander abgespielt oder anhand einer definierten

Verzögerung erneut getriggert werden. Ferner ist es bei mehreren Instanzen möglich, eine

gemeinsame Random-No-Repeat-History untereinander zu teilen und auf diese Weise das mehrmalige

Abspielen von gleichen Sounds zu verhindern. Zusätzlich ist es möglich, eine Verzögerung für das erste

Abspielen, jeden Abspielvorgang oder eine zufällige Verzögerung anzuwenden. Ein ähnliches Verhalten

wie die Random Component hat auch die Random Audio Clip Component, jedoch mit dem

Unterschied, dass diese direkt Audio-Clips verwendet und keine Audio Components.

Des Weiteren kann eine Sequence Component für Abwechslung sorgen. Diese spielt ihre Kinder-

Components anhand einer Playlist ab, was kontinuierlich oder in fortschreitender Form pro Event

geschehen kann. Obendrein ist ein Offset für den Übergang definierbar oder zufällig innerhalb eines

Bereichs generierbar.

Durch die Silent Component ist es außerdem möglich, eine festgelegte oder zufällige Länge von Stille

zu definieren, welche in Kombination mit anderen Components verwendet werden kann.

Mithilfe der Intro Loop Component kann nach einem Intro, eine Loop-Sektion und beim Stoppen der

Component, eine Outro-Sektion abgespielt werden. Es besitzt dieselben Properties für Übergänge wie

die Squence Component.


Runtime Parameter

Durch Runtime Parameter ist es möglich, anhand einer Vielzahl von vordefinierten oder

benutzerdefinierten Parametern des Spiels Components zu manipulieren. Durch die Kurven eines

Graphen werden die Parameter auf Properties einer Component gemappt. Überdies ist es auch

möglich, Parameter durch einen eingebauten Signalgenerator generieren zu lassen.

Zusätzlich ist es möglich, Marker auf Runtime Parameter und Timelines zu positionieren und dadurch

Parameter anhand eines Namens zu setzen. Durch globale Parameter können mehrere Components

zur selben Zeit gesteuert werden.

76

Switch Component

Durch eine Switch Component ist es möglich, eine bestimmte Kinder-Component anhand einer Option

innerhalb des Spiels zu triggern. Zudem ist es durch globale Switches möglich, mehrere Components

zur selben Zeit zu steuern.


Fabric unterstützt sowohl im 3D-Raum in Unity angeordnete Schallquellen, als auch deren statische

ursprüngliche Kanalzuordnung. Das Panorama für Stereo kann dabei auch per Zufallsgenerator

positioniert werden. Zusätzlich ist es möglich, zwischen der 3D-Engine und dem Stereosignal zu

blenden und Zwischeneinstellungen zu verwenden.


Für Components kann die Lautstärke entweder

anhand einer logarithmischen, linearen oder

maßgeschneiderten Kurve abgeschwächt

werden. Für diese Kurve kann eine minimale

und maximale Distanz definiert werden. Durch

den Custom Curve Editor wird es ermöglicht,

global und individuell für Components Kurven

anzulegen. Diese bestehen aus RollOff, Spatial

Blend, Reverb ZoneMix und Spread (s.

Abbildung 46).


Durch das Spread Level ist es innerhalb von Components möglich, einen Winkel von 0 bis 360° für die

Ausbreitung eines Sounds zu definieren.

4.2.4.8 Routing & Mixing

Die unterschiedlichen Fabric-Components können entweder direkt oder über einen Audio-Bus auf eine

Audiomixer-Group innerhalb von Unity geroutet werden. Der Umweg über den Bus bietet zusätzlich

die Möglichkeit Laustärke und Pitch zu verändern, sowie die Anzahl an Voices zu begrenzen. Die

Mischung, sowie die verschiedenen Snapshots können dann innerhalb von Unitys Audio-Mixer erzeugt

werden. Doch vor dem Routing auf eine Unity Audio-Mixer-Group können bereits innerhalb von Fabric

anhand von unterschiedlichen Components Signale gemixt werden.

Abbildung 46: Custom Curve Editor von Fabric (Bildquelle: Fabric 2.4)

77

Durch die Group Component ist es möglich, die Lautstärke und den Pitch aller Components innerhalb

ihrer Hierarchie zu steuern, diese zu muten oder sie solo zu schalten. Sie stellen eine Art Bus dar, der

in der Mixer View von Fabric angezeigt und manipuliert werden kann.

Daneben bietet das Mixer Window eine Mixer-Ansicht mit der Lautstärke und Pitch von Group

Components verändert und diese stumm oder solo geschaltet werden können. Um Components

zusammenzufassen und ihre Lautstärkeverhältnisse anzupassen, ohne diese in der Mixer-View

anzuzeigen, kann die Blend Component genutzt werden.

Mit der Sample Player Component ist es möglich, in mehrkanaligen Audiofiles die Lautstärke einzelner

Kanäle zu verändern und Marker von Loopregionen aus WAV-Dateien zu lesen oder diese manuell zu

setzen.

Durch die Volume Meter Component ist es möglich, Audio-Levels innerhalb einer Component in einem

Mixdown aller Audioquellen der Kinder-Components anzeigen zu lassen.

Durch die Side Chain Component ist es möglich, die Lautstärke einer Component anhand eines Meters

einer beliebigen anderen Component zu reduzieren. Stattdessen ist es auch möglich, eine beliebige

Component als Eingabe für die Side-Chain zu verwenden, was ungenauer ist, aber wenig CPU genötigt.

Während der Ausführung von Code in Unity können an den Fabric-Components zwar Änderungen

durchgeführt, aber nur getestet und nicht gespeichert werden, da diese nach dem Stoppen des Codes

verloren gehen.

4.2.4.9 Snapshots

Mit dem Dynamic Mixer ist es schließlich möglich, Gruppen-Presets für die Group Components zu

erzeugen, in denen Offsets für Lautstärke, Pitch, sowie Fades definiert werden können. Diese erstellten

Gruppen-Presets können anhand von Events getriggert werden. Überdies ist es möglich, durch den

Audio-Mixer-Manager anhand von Fabric-Events verschiedene Snapshots innerhalb von Unitys Audio-

Mixer auszulösen und zwischen diesen zu wechseln.


Durch den Previewer ist es möglich, Components mit angebrachten Event-Listenern abzuspielen und

diese in einer Session anzuordnen. Dadurch können die Components miteinander verglichen werden.

Basic-Properties können angepasst, sowie Parameter oder Switches der jeweiligen Components

ausgewählt werden.

78

4.2.4.11 Effekte

Durch die DSP Component ist es möglich, DSP-Effekte auf Kinder-Components anzuwenden. Zu den

von Fabric mitgelieferten Effekten gehört ein Stereo Spreader, der aus Mono-Quellen Stereo-Signale

erzeugt. Ein Audio Panner ermöglicht Änderungen der Lautstärke einzelner Kanäle einer 7.1-

Lautsprecherkonfiguration. Mit dem Sample Player Panner kann die Lautstärke einzelner Kanäle eines

mehrkanaligen Audio-Clips geändert werden. Mithilfe den Audio Capture kann abgespieltes Audio als

WAV zu exportiert werden. Innerhalb von Components kann die Lautstärke eines Doppler-Effekts

definiert werden. Zusätzlich können Effekte von Unity genutzt werden. Zu diesen gehören Chorus,

Distortion, Echo, Hall, HPF und TPF.

Ferner ist zu beachten, dass weitere Effekte von Unity eingesetzt werden können, sobald auf eine

Audio-Mixer-Group innerhalb des Audio-Mixers von Unity geroutet wurde. Zu diesen gehören ein

Flanger, Normalisierer, parametrischer EQ, Pitch Shifter, Kompressor und zwei verschiedene TPF und

HPF.

Plugin Host ermöglicht den Einsatz von VST-Plugins in Kombination mit Unitys Audio-Mixer.


Im Fabric Manager können globale Einstellungen für Musik getroffen werden, anhand welcher sich

bestimmte Components synchronisieren können. Diese Einstellungen bestehen aus dem Tempo in

BPM, der Taktart und des Zeitpunkts des Übergangs (nächste Zählzeit, nächster Takt oder das Ende des

Audio-Clips). Dadurch ist es möglich, ausgelöste Audio Components auf den Takt zu verzögern.

Mit der Music Component ist es

möglich, wie bei der Switch

Component, zwischen ihren Kinder-

Components umzuschalten, jedoch

mit dem Zusatz, dass dazwischen ein

Übergangsteil abgespielt werden

kann. Zusätzlich können die globalen

Musik-Einstellungen überschrieben

werden, um Musik in verschiedenen Tempi und Taktarten zu unterstützen und den Zeitpunkt des

Übergangs zwischen Audio Components individuell anzupassen. Dafür können neben der nächsten

Zählzeit, dem nächsten Takt und dem Ende des Audio-Clips auch im Audio-File gesetzte Marker genutzt

werden. Wie bereits im Kapitel „4.2.4.2 Components“ erwähnt, können diese Marker außerdem für

die Erstellung von Loopregionen eingesetzt werden.

Abbildung 47: Definierte Übergänge in Music Component von Fabric (Bildquelle: http://s3.amazonaws.com/screensteps_live/images/tazman-audio/288045/2/rendered/1c787f40-fd3f-4625-adcd-7ba929693b4e_display.png)

79

Anhand der Timeline Component ist es möglich, Sounds oder musikalische Elemente zu schichten und

zu überblenden. Vom Spiel übermittelte Parameter können durch diese mit Lautstärke- oder Pitch-

Kurven verbunden werden und Components anhand von Bereichen innerhalb der Timeline aktivieren.

Fabric ermöglicht den Einsatz von MIDI. Mithilfe der MIDI Component können MIDI-Dateien geladen

und als Spuren in der Fabric-Hierarchie genutzt werden. Ferner ist es durch den REX Importer möglich,

Loop-Dateien im REX-Format zu importieren und anhand des Tempos der Musik zu synchronisieren.


Die Dialog Audio Component unterstützt verschiedene Sprachen, ohne dabei Fabrics Hierarchie

duplizieren zu müssen. Dafür werden für ein Projekt zuvor die unterschiedlichen Sprachen angelegt.


Durch die Mic Audio Component ist es möglich, Signale eines Mikrofons im Spiel zu erfassen, wie jede

andere Art von Audioquelle zu behandeln und zum Beispiel Effekte auf diese anzuwenden. Mithilfe der

WWW Audio Component können durch Unitys WWW-Klasse Audio-Clips von einer http-Adresse oder

aus einem beliebigen Ordner abgespielt werden (Tazman-Audio, o.J.c).

4.2.4.15 Speicher- & Prozessoroptimierung

Für Events kann die maximale Anzahl ihrer zeitgleich vorhandenen Instanzen global im Fabric-Manager

oder lokal in Components festgelegt werden. Die Anzahl virtueller Events und den dafür genutzten

Lautstärkeschwellenwert können global definiert werden. Für Busse kann die maximale Anzahl an

Voices ebenfalls festgelegt werden. Zusätzlich ist es möglich, das Abspielen von mehreren Instanzen

auf demselben Game-Objekt zu erlauben oder zu unterbinden. Besonders wichtigen Components kann

eine hohe Priorität beigemessen werden. Dadurch werden diese gegenüber Components mit

geringerer Priorität bevorzugt.

Durch den Stealing Mode kann ein Verhalten für den Fall, dass die maximale Anzahl an Instanzen

erreicht wird, definiert werden. Es ist möglich die älteste, die neuste, die am weitesten entfernte oder

keine Instanz zu ersetzen.

Die Möglichkeit der Virtualisierung erlaubt es, den Abspielvorgang von Events außerhalb einer

bestimmten Distanz zu stoppen und die Instanz ihrer Component freizugeben, aber weiterhin die

Position zu verfolgen. Auf diese Weise können zum Beispiel bei einer großen Anzahl von Ambient-

Sounds Ressourcen geschont werden. Für die Virtualisierung können für den Abspielvorgang der

Components verschiedene Einstellungen getroffen werden. So kann dieser nach dem virtuellen Dasein

an zuvor pausierter Position fortgesetzt oder anhand der verstrichenen Zeit fortgesetzt, sowie neu

begonnen werden. Um die Speichernutzung und Performance weiter zu verbessern, können für

80

Components zusätzlich Volume-Schwellenwerte definiert werden. Liegt der Wert der Component bei

einem Event darunter, wird sie nicht abgespielt. Wird eine bereits abspielende Component leiser und

unterschreitet dabei den Schwellenwert, wird sie zu einer virtuellen Component umgewandelt. Die

Anzahl an virtuellen Components kann eingestellt werden.

Durch Dynamic AudioClip Loading kann Fabric automatisch den Ladevorgang von Audiodaten in den

Speicher verwalten. Nach dem ersten Abspielen bleibt ein Clip im Speicher, bis alle Instanzen ihren

Abspielvorgang gestoppt haben. Des Weiteren kann innerhalb von Components eingestellt werden, ob

Audiodaten asynchron im Hintergrund geladen werden ohne den Unity Thread zu blockieren oder ob

der Ladevorgang im Moment des Referenzierens durch eine Audio Component erfolgt.

Mittels Audio Spline ist es möglich, entlang eines Splines Event-Trigger mit geringster Distanz zum

Hörer zu positionieren. Dies umgeht die sonst benötigten Berechnungen mit mehreren Schallquellen

und kann zum Beispiel für einen Fluss eingesetzt werden.

4.2.4.16 Debugging

Der Debug Log kann in der Konsolenausgabe von Fabric verarbeitete Fehler, Warnungen und

Informationen anzeigen, sowie beim Auftreten eines Fehlers die Ausführung von Code stoppen. Mit

dem Event Monitor können aktive Events mit Component, zugehörigem Game-Objekt, Position,

Lautstärke, Pitch, 2D-Panner, Anzahl an Instanzen und virtueller Instanzen und Status aufgelistet

werden.

Der Event Log erlaubt die Folge von Events zu überwachen und dadurch fehlende Events und

potentielle Probleme zu erkennen.

Durch die Graph View ist es möglich, Components während der Laufzeit hierarchisch mit

Informationen über ihren Zustand in einem Strukturdiagramm darstellen zu lassen und dadurch ihre

Beziehungen zu überprüfen.

81

4.2.5 Vergleich

In der folgenden Tabelle 4 werden Wwise, FMOD, Fabric und Unity anhand ihrer Funktionsumfänge

miteinander verglichen.

Tabelle 4: Vergleich der Funktionsumfänge von Wwise, FMOD, Fabric und Unity

Wwise FMOD Fabric Unity

Aufbau Modular in Containern

Spurenbasiert mit Triggern

Unity Components

Unity Components

Kanalformate 0.1, 1.0, 2.0, 3.0, 4.0, 5.1, 7.1, Dolby 5.1.2, Dolby 7.1.2, Dolby 7.1.4, Auro 9.1, Auro 10.1, Auro 11.1 und Auro 13.1

1.0, 2.0, 4.0, 5.0, 5.1, 7.1 und 7.1.4

1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1

1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1

Mehrsprachen-Support

✔ ✔ ✔ -

MIDI ✔ ✔ ✔ ✔

Tracker-Module - ✔ ✔ ✔

Infrastruktur für Adaptive Musik

✔ ✔ ✔ -

Ambisonics (B-Format)

3. Ordnung in FuMa mit maxN-Normalisierung

1. Ordnung in ambiX

1. Ordnung in ambiX

1. Ordnung in ambiX

Verarbeitung von Mikrofonsignalen

✔ Nur mit API-Script ✔ Nur mit API-Script

Echtzeit-Mixing ✔ ✔ ✔ (mit Unity Audio-Mixer)

✔

Eingebauter Doppler-Effekt

- ✔ ✔ ✔

SC für Ducking ✔ ✔ ✔ ✔

Effekt-Plugins HPF, TPF, parametr. EQ

3-Band-EQ, Multiband-EQ, HPF, TPF, parametr. EQ,

HPF, TPF, parametr. EQ (mit Unity Audio-Mixer)

TPF, HPF, parametr. EQ

Delay, Stereo Delay, Faltungshall, zwei unterschiedliche algorithm. Halle

Delay, Faltungshall, algorithm. Hall

Echo, algorithm. Hall

Echo, algorithm. Hall

Distortion Distortion Distortion Distortion

Flanger, Tremolo, Harmonizer

Flanger, Tremolo, Chorus

Chorus, Flanger (Mit Unity Audio-Mixer)

Chorus, Flanger

82


Effekt-Plugins Pitch Shifter, Time Stretcher

Pitch Shifter Pitch Shifter (durch Unity Audio-Mixer)

Pitch Shifter

Kompressor, Expander, Peak Limiter

Kompressor, Limiter

Kompressor, Normalisierer (durch Unity Audio-Mixer)

Kompressor, Normalisierer

Recorder - Recorder -

Meter, Gain Meter, Gain - -

- Kanal-Mixer Kanal-Mixer, Stereo-Spreader

-

Soundgenerato-ren, Synthesizer

Soundgenerator - -

dynamische erste Reflektionen anhand der Geometrie des 3D-Raumes

- - -

Panning und räumliche Positionierung

Statisches 2D-Panning mit Surround-Panner

Abhängig von Kanalkonfiguration Stereo-, Surround- und 3D-Panner

Stereo-Panner Stereo-Panner

Statische oder automatisierte räumliche 3D-Positionierung (abhängig oder unabhängig von der Orientierung des Nutzers)

Statische oder automatisierte räumliche 3D-Positionierung (fest gekoppelt an Orientierung des Nutzers)

Beliebiges Blenden zwischen ursprünglicher Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum

Beliebiges Blenden zwischen ursprünglicher Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum

Spielgesteuerte Positionierung im 3D-Raum




Distanz-Verhalten Kurven für Lautstärke, Auxiliary-Sends, HPF, TPF, Ausbreitung und Fokus der Ausbreitung

Preset-Kurven für Laustärke, Distanzparameter auch für beliebige Automationen einsetzbar

Kurven für Lautstärke, Hall, Ausbreitung und Blenden zwischen Stereo und 3D-Sound-Engine

Kurven für TPF, Lautstärke, Hall, Ausbreitung, Blenden zwischen Stereo und 3D-Sound-Engine

Echtzeit-Steuerung von Parametern

✔ ✔ ✔ (Nur durch eigene Scripts)

Snapshots für Spielzustände

✔ ✔ ✔ ✔

Switches ✔ - ✔ -

83


Tools für die Variation von Sounds

Random und Sequence Container

Multi Instruments für zufälliges oder sequenziertes Abspielen

Random und Sequence Component

(Nur durch eigene Scripts)

Random-Pitch, Random-Lautstärke

Random-Modulation auf beliebigen Parametern

Random-Pitch, Random-Lautstärke


Random-HPF, Random-TPF, Random-Delay, Random-Looping

Scatterer Instruments erzeugen kontinuierlich Instanzen von 2D- oder 3D Instruments mit zufälliger Positionierung

Random-Stereo-Panning


Voice-Management-System

Maximale Anzahl an Voices definierbar (global und für Objekte)

Maximale Anzahl an Instanzen von Events definierbar

Maximale Anzahl reeller Voices in Components und Bussen, virtuelle Voices global definierbar

Anzahl an reellen und virtuellen Voices definierbar

Definierbare Prioritäten




Definierbare Mindest-Lautstärke und Distanz für reelle Voices

Definierbarer zeitlicher Mindestabstand zwischen Instanzen

Definierbare Mindestlaut-stärke

-

Abspielverhalten virtueller Voices definierbar

Verhalten für das Ersetzen von Instanzen definierbar

Verhalten für das Ersetzen von Instanzen definierbar

-

- - Mehrere Instanzen auf demselben Game-Objekt erlauben oder unterbinden

-

Möglichkeiten für Konvertierung und Streaming

✔ ✔ (Funktionalität von Unity)

✔

Möglichkeiten Timeline-basiert zu Arbeiten

(nur in Music Segment Editor)

✔ (nur in Timeline Component)

(nur in Unity Timeline)

84


Einbindung in Unity Timeline

Clips für Events und RTPC auf Spuren anlegen

- - Platzierung von Audio-Clips, definieren von Start- und Endposition, Fades, Time Stretching, Loopen

Debugging Grafische Darstellung und Auflistung von CPU-, Speichernutzung und Bandbreite

Grafische Darstellung von CPU-, Speichernutzung und Bandbreite

Auflistung der Abfolge von Events

Grafische Darstellung und Auflistung von CPU-, Speichernutzung und Anzahl abspielender Audio-Sources und Voices

Logging von ausgelösten Events und allen ausgeführten Aktionen

Logging von API-Calls und grafische Darstellung von ausgelösten Events

Auflistung aller aktiven Events mit Components, zugehörigem Game-Objekt, Position, Lautstärke, Pitch, 2D-Panner, Anzahl an Instanzen und virtueller Instanzen und Status

Tabelle mit Informationen über das Abspielverhalten aktiver Sound-Events (von Audio-Sources verwendete Audio-Clips, Lautstärke, Distanz, Abspiellänge u.v.m.)

Liste oder grafische Darstellung mit Lautstärke von Voices, Bussen, Ausgabe u.v.m.

Grafische Darstellung von Lautstärke von Master-Bus

- Tabelle mit Lautstärke an Audio-Sources, Mixers, Mixer-Groups und Audio-Listener

Liste oder grafische Darstellung mit Anzahl an Events, Sends, Objekten, Übergängen, Streams, Voices

Grafische Anzeige mit Anzahl an Voices, Instanzen, sowie die Lebensdauer von Instanzen

Anzeigen von Fehlern, Warnungen und Informationen in Konsole, Ausführung von Code bei Fehlern stoppen

Auflistung der Anzahl aller abspielenden oder pausierenden Audio-Sources und Audio-Clips, Aufschlüsselung der CPU- und Speichernutzung

85


Debugging Struktur-diagramm zur Darstellung von Beziehungen zwischen den Objekten

- Struktur-diagramm zur Darstellung hierarchischer Beziehungen zwischen den Components

Tabelle zeigt hierarchisch die zugehörigen Mixer und Mixer-Groups an

Struktur-diagramm zur Darstellung der Bus-Hierarchie von aktuell abgespielten Voices

- - -

Überwachung von Game-Objekten und deren dynamische 3D-Visualisierung

Live-Sessions aufzeichnen und analysieren, aufgezeichnete Live-Sessions mit Änderungen erneut abspielen, ohne dabei mit Game Engine verbunden zu sein

- -

Erstellung von Statistiken über Audio-Elemente

- - -

Autarkes Testen Simulation von Events und Verhalten von Sounds ohne Game Engine möglich

Simulation von Events und Snapshots in einem spielähnlichen Kontext ohne Game Engine möglich

- -

Binauralisierung Oculus Spatializer, Microsoft HRTF Spatializer, Google Resonance Audio Spatializer, RealSpace3D

Oculus Spatializer Google Resonance Audio Spatializer, GoogleVR Spatializer, Steam Audio

Oculus Spatializer, GoogleVR, RealSpace3D, Phonon 3D, 3DCeption

Oculus Spatializer, Microsoft HRTF Spatializer, Steam Audio, RealSpace3D, DearVR

86

Durch die Middlewares FMOD und Wwise wird eine klare Trennung zwischen Sounddesigner und

Programmierer erreicht, was bei Unity oder Fabric nicht der Fall ist. Wwise bietet dem Sounddesigner

durch seinen Aufbau einen hohen Grad an Unabhängigkeit, da anhand von ausgelösten Events das

Verhalten von Sounds vollständig in Wwise definiert und beliebig beeinflusst werden kann. Aus diesem

Grund reicht es aus, in der Game Engine lediglich Events auszulösen und dadurch die Position und die

benötigten Parameter zu übermitteln. FMOD ermöglicht dem Sounddesigner ebenfalls einen hohen

Grad an Unabhängigkeit, jedoch reicht es hier nicht immer aus in der Game Engine Events auszulösen.

So muss zum Beispiel ein bereits abspielender Sound durch den Einsatz der API gestoppt werden. In

Wwise ist dies durch den Aufruf eines weiteren Events möglich, wofür zusätzlich Fades definiert

werden können.

Zwar erscheint einem Sounddesigner FMOD durch das an eine DAW erinnernde Spurenprinzip

eventuell zunächst vertrauter als Wwise, jedoch bringt genau dieser Aufbau gewisse Einschränkungen

mit sich. In Wwise können zum Beispiel Sounds in einen Sequence Container mit mehreren Random

Containern aufgetrennt werden. Auf diese Weise ist es möglich, für häufig wiederkehrende Sounds

eine maximale Variation zu erzeugen. Sobald ein beliebig langer Sound aus dem ersten Random

Container fertig abgespielt wurde, wird ein Sound aus dem zweiten abgespielt. Dabei sind beliebig tiefe

Verschachtelungen von Containern möglich. Zwar bietet FMOD die Möglichkeit, durch hintereinander

platzierte Multi Instruments auf der Timeline einen ähnlichen Effekt zu erzielen, allerdings existiert in

diesem Fall beim Einsatz von unterschiedlich langen Sounds eine Einschränkung, da die Länge des

ersten Multi Instruments statisch sein muss. Dadurch wird eine fest definierte Zeit für das erste Multi

Instrument benötigt, bis das zweite Multi Instrument abgespielt werden kann. Bis auf diese

Einschränkung können in FMOD durch Kombinationen aus Multi Instruments und Event Instruments

auch beliebige Verschachtelungen erzeugt werden.

Ein Vorteil des Timeline-basierten Ansatzes von FMOD ist die Erstellung von beliebigen Timeline-

basierten Automationen auf Events, Gruppen-Bussen, Sends, Returns oder VCAs. Dies ermöglicht

speziell für filmische beziehungsweise lineare Sequenzen die einfache Veränderung von Parametern.

In Wwise ist eine derartige Funktionalität nicht vorhanden, jedoch ist es möglich in der Unity Timeline

Realtime-Parameter in Wwise zu steuern und auf diese Weise beliebige Automationen auf beliebigen

Objekten zu erstellen. Außerdem ermöglicht die Unity Timeline das Auslösen von Events in Wwise. Ein

Workaround für lineare Automationen in Wwise ohne den Einsatz der Unity Timeline kann von der

Game Engine durch die Übermittlung eines Parameters ab einem bestimmten Zeitpunkt für die

vergangene Zeit erfolgen. Auf diese Weise stellt der X-Wert des Graphen für die RTPC in Wwise die

Zeit dar und anhand des Parameters kann eine Timeline-basierte Automation erstellt werden. Dieser

Workaround ist in Fabric ebenfalls nötig, um eine derartige Funktionalität zum Beispiel mit der

87

Timeline Component zu erhalten. Fabric bietet nämlich keine Unterstützung der Unity Timeline, was

bei FMOD ebenfalls der Fall ist. In Unity selbst ist eine derartige Funktionalität für Automationen von

Audio trotz Timeline innerhalb von linearen Sequenzen nur durch selbstgeschriebene Scripte oder das

Auslösen von Snapshots möglich.

Das Auslösen und Überblenden zwischen verschiedenen Snapshots durch Events ist in Wwise, FMOD,

Fabric und Unity möglich. Dabei können Übergänge zwischen diesen definiert werden. In Unity werden

Snapshots innerhalb eines Audio-Mixers fest für alle Fader der enthaltenen Audio-Mixer-Groups

definiert. Zwischen diesen Einstellungen kann durch Events gewechselt werden. FMOD bietet durch

Overriding Snapshots die Möglichkeit, für einzelne Fader Einstellungen festzulegen und durch Blending

Snapshots Fader-Stellungen in Relation zu ihrer aktuellen Stellung zu verändern. In Wwise werden

diese anhand von States durch Offsets immer relativ verändert. Fabric erweitert Unitys Möglichkeiten

ebenfalls mit dieser Funktionalität. Jedoch ist die Erstellung dieser Einstellungen innerhalb von Fabric

nicht während der Ausführung von Code möglich, was die Anfertigung dieser Snapshots und deren

Korrekturen umständlich gestaltet. Aus diesem Grund stellt die Arbeit mit dem Audio-Mixer von Unity

auch im Zusammenhang mit Fabric ein essentielles Element dar.

In Wwise und Fabric ist es möglich, Switches anzulegen, die durch Ereignisse umgeschaltet werden

können. Anhand dieser ist es möglich, Sounds von wiederkehrenden Events auszutauschen oder zu

verändern, wie zum Beispiel Fußschritte auf verschiedenen Untergründen. Diese Funktionalität ist in

FMOD nicht vorhanden, kann jedoch durch die Übermittlung von definierten Parametern umgesetzt

werden.

Die Spatial Blend-Funktion von Fabric und Unity zum beliebigen Blenden zwischen ursprünglicher

Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum ist in FMOD und Wwise nicht

vorhanden. Ein ähnlicher Effekt kann jedoch auch durch einen Crossfade zwischen einem 3D-

positionierten und einem 2D-Sound-Objekt mit derselben, gleichzeitig abgespielten Audiodatei erzielt

werden.

Ein wichtiger Vorteil von Wwise und FMOD stellen die Tools zur autarken Erstellung einer Mischung

dar, da der Sounddesigner auf diese Weise unabhängig vom Programmierer vorarbeiten und dadurch

zu gegebener Zeit bereits vorgemischtes Sounddesign integriert werden kann. Da Wwise durch States,

Switches und Parameter die größeren Möglichkeiten bietet, innerhalb der Sound-Engine

Abhängigkeiten zu erstellen, sind die Testmöglichkeiten für diese durch den Soundcaster

dementsprechend ausführlicher. In FMODs Sandbox besteht hingegen neben der Überprüfung vom

Verhalten von Parametern die Möglichkeit, die Bewegung von Sound-Objekten sowie deren Verhalten

in Bezug auf die Distanz und Position zum Hörer zu simulieren.

88

Ein weiterer Vorteil von Wwise und FMOD ist der Einsatz von Soundgeneratoren und Synthesizern. So

können in Wwise neben den Signalen eines gewöhnlichen Signalgenerators auf eine einfache und

effiziente Weise Wind oder unterschiedliche Whooshes erzeugt und anhand von Realtime-Parametern

vom Spiel manipuliert werden. In FMOD ist dies für Motorensounds und Wetter möglich. FMOD

ermöglicht für diesen Zweck die Entwicklung eigener Synthesizer und Soundgeneratoren. In Wwise ist

zusätzlich ein Synthesizer enthalten, der tonal anhand von Realtime-Parametern gesteuert werden

kann. Unity und Fabric verfügen über keine derartige Funktionalität, jedoch können Tracker-Module

genutzt werden. Dies ist mit FMOD ebenfalls möglich, nicht aber mit Wwise.

Wwise, FMOD und Fabric bieten im Gegensatz zu Unity Möglichkeiten für die Erstellung von adaptiver

Musik. Anhand von Spielzuständen können vorkomponierte Abschnitte mit definierten Übergängen

nacheinander abgespielt, sowie einzelne Elemente innerhalb eines sich wiederholenden Loops

verändert werden. Dabei unterscheiden sich die drei Programme in der Vorgehensweise. In FMOD

werden alle Abschnitte der interaktiven Musik auf den Spuren einer Timeline angelegt. Auf dieser wird

abhängig von Spielparametern durch definierte Marker oder Regionen zu Zielpositionen gesprungen.

In Wwise werden musikalische Abschnitte als einzelne, separate Segmente mit Audio-Clips auf einer

oder mehreren Spuren erstellt und ihre Übergangspositionen definiert. Diese können durch Playlists

oder ausgelöste Spielzustände anhand definierter Übergänge nacheinander abgespielt werden. Die

Vorgehensweise von Fabric ähnelt in diesem Fall Wwise, da hierbei ebenfalls einzelne Abschnitte

erstellt und anhand von definierten Übergängen nacheinander abgespielt werden. Diese sind jedoch

nur in geringerem Ausmaß einstellbar, da beispielsweise keine Fades oder ein selbst definiertes Grid

mit Offsets möglich sind.

Abschließend bleibt festzuhalten, dass der Einsatz von Middleware für Sounddesigner große Vorteile

in Bezug auf die Unabhängigkeit, Flexibilität und die Möglichkeiten, interaktives und

abwechslungsreiches Audio zu erstellen, bietet. Weiter ist es nur durch FMOD und Wwise möglich,

bereits vor der Integration in das Spiel das Spielverhalten zu simulieren und Mischungen zu erzeugen.

Die Erstellung von adaptiver Musik wird speziell durch Fabric, FMOD und Wwise ermöglicht.

89

5. Umsetzung des interaktiven VR-Filmes „Asperity“

5.1 Beschreibung von „Asperity“

Der interaktive VR-Film “Asperity” handelt von dem Flug eines Spaceshuttles der „Asperity

Technologies Corp.“ zur ISS. Dabei ist der Nutzer ein Weltraumtourist, welcher neben dem Piloten im

Cockpit des Shuttles sitzt. Durch automatische Ansagen einer Sprecherstimme wird der Tourist im

Shuttle begrüßt und über bestimmte Zustände informiert.

Während des Fluges besteht eine audiovisuelle

Kommunikation zum Missionskontrollzentrum der „Asperity

Technologies Corp.“. Zusätzlich werden Funksprüche eines

Mitgliedes der ISS empfangen. Nach unvorhergesehenen

technischen Problemen stirbt der Pilot und der Nutzer muss

nach Anweisungen vom Missionskontrollzentrum selbst das

Shuttle zur ISS steuern und andocken.

„Asperity“ wird in Echtzeit in Unity für das HTC Vive HMD

gerendert. Dabei werden die Blickrichtung des Spielers und die

Position dessen Kopfes verfolgt. Darüber hinaus kommt für

Interaktionen ein Joystick und der HTC Vive Controller zum

Einsatz. Die Position von letzterem wird ebenfalls im Vive VR-

System überwacht. Der Nutzer sitzt dabei auf einem

spezialangefertigten Spaceshuttle-Sitz mit Anschnallgurten,

welche seinen Bewegungsfreiraum einschränken.

Abbildung 50: Nutzer auf dem spezialangefertigten Spaceshuttle-Sitz mit Beyerdynamic DT-770 Kopfhörer, HTC Vive HMD, HTC Vive Controller und Joystick

Abbildung 49: Screenshot aus „Asperity“ – Blick nach vorne mit Bildschirm für Kommunikation mit Missionskontroll-zentrum, Master-Alarm-Knopf und ISS im Hintergrund

Abbildung 48: Screenshot aus „Asperity“ – Blick des Users nach links zum Piloten des Shuttles

90

5.2 Anforderungen an den Ton

„Asperity“ besteht technisch und inhaltlich aus zwei Teilen. Im Intro wird ein Imagefilm des

Unternehmens „Asperity Technologies Corp.“ und der Start des Spaceshuttles in der Form eines reinen

360°-Videos abgespielt. Der darauffolgende eigentliche Film unterscheidet sich dann in zwei Punkten

von einem 360°-Video. Zum einen sind Momente vorhanden bei denen der Spieler mit der Umwelt

interagieren, Knöpfe drücken und das Spaceshuttle mit einem Joystick steuern muss, zum anderen ist

es für den sitzenden Spieler möglich neben dem Blickwinkel die Position seines Kopfes durch die

Bewegung des Oberkörpers in begrenztem Maße zu verändern (6DOF). Da bei 360°-Videos nur eine

Veränderung des Blickwinkels möglich und die Position des Zuschauers fest vorgegeben ist, ist es somit

selbst für die linearen Abschnitte des Films – das Intro ausgenommen – nicht möglich Audio-Software

für 360°-Videos einzusetzen. Eine derartige Veränderung des Perspektive könnte nicht wiedergegeben

werden.

Um somit diesen Anforderungen gerecht zu werden, ist es notwendig, Software für die Ton-Produktion

in Computerspielen zu verwenden. Der damit verbundene Workflow ist jedoch für die

Unberechenbarkeit in Computerspielen optimiert. Aus diesem Grund stellt es eine Herausforderung

dar, die vielseitigen Tools möglichst optimal einzusetzen und einen geeigneten Workflow mit diesen

zu entwickeln.

Obwohl der Pilot einen Helm trägt und die Kommunikation in der Realität per Funk durch Mikrofone

und Kopfhörer erfolgen würde, sollte im Film eine binaurale Lokalisation der Schallquellen im Cockpit

erfolgen. Der akustischen Immersion und dem räumlichen Klang wurde eine höhere Priorität als dem

Realismus zugesprochen.

5.3 Verwendete Technik für Audio

Für die Produktion und Wiedergabe von Audio wurde vorab die geeignete Soft-, Middle- und Hardware

zusammengestellt und mit dem Team von „Asperity“ besprochen.

5.3.1 Middleware

Bei „Asperity“ war kein Programmierer als festes Mitglied im Team vorhanden, sondern kam nur auf

Bedarf bei konkreten Problemen dazu. Aus diesem Grund war es für das Projekt essentiell, dass der

Sounddesigner möglichst unabhängig arbeiten kann. Des Weiteren war von Anfang an klar, dass der

Film iterativ umgesetzt wird und aus diesem Grund der Sounddesigner nicht erst nach einem Picture-

91

Lock mit der hauptsächlichen Arbeit beginnen kann, da es diesen nicht geben wird. Die Vertonung

musste vorab und parallel erfolgen.

Durch den Einsatz von FMOD oder Wwise sind diese Anforderungen in vergleichbarem Maße erfüllbar.

Da „Asperity“ in Unity gerendert wird und Wwise den Einsatz der Unity Timeline für das Auslösen von

Events und das Übertragen von Realtime-Parametern unterstützt, fiel die Entscheidung auf Wwise.

5.3.2 Kopfhörer

„Asperity“ soll auf Messen und in Museen ausgestellt werden. Aus diesem Grund wurden geschlossene

Kopfhörer gewählt, um eine Isolation von der Umwelt zu ermöglichen. In-Ear-Systeme kamen aufgrund

der Hygiene nicht in Frage. Um HRTFs nicht zu verfälschen, sollten Kopfhörer mit einem möglichst

linearen Frequenzgang eingesetzt werden. Aus diesem Grund wurden von Sonarworks individuell

ausgemessene Beyerdynamic DT-770 Kopfhörer angeschafft, deren Frequenzgang durch den Einsatz

von Sonarworks Reference 4 Headphone Edition kalibriert wird. Als Audio-Ausgabegerät wird ein

Focusrite Scarlett 2i4 eingesetzt.

5.3.3 Körperschallwandler

Um zusätzlich tiefe Frequenzen über den Spaceshuttle-Sitz wiedergeben zu können, wird bei

„Asperity“ ein Körperschallwandler eingesetzt. Dieser soll das VR-Erlebnis auf der haptischen Eben

bereichern. Jedoch hat sich dafür der Einsatz eines separaten LFE-Kanals in Kombination mit

Kopfhörern als komplizierteres Vorhaben erwiesen, da Wwise keine 2.1-Kanalkonfigurationen

unterstützt. Darüber hinaus wird für Kopfhörer und Lautsprecher ein unterschiedliches Panning

durchgeführt (Audiokinetic, o.J.j). Da der Einsatz des Körperschallwandlers ohne separaten Kanal,

dessen Einsatz als Effekt im Sounddesign einschränkt, ist dies als suboptimal zu betrachten. Zwar ist es

möglich, in Wwise durch selbstentwickelte Plugins, nicht standardisierte Audiogeräte zu integrieren

und diese zusätzlich als zweites Ausgabegerät zu nutzen (Audiokinetic, o.J.a, Audiokinetic, o.J.f), jedoch

war dies innerhalb des zeitlichen Rahmens des Projektes nicht durchführbar. Aus diesem Grund wurde

eine alternative Lösung für den Einsatz des Körperschallwandlers mit Hilfe eines Arduinos entwickelt.

Dieser wird von Unity angesteuert und spielt vorproduzierte Audiodateien ab. Auf diese Weise ist es

möglich, den Körperschallwandler unabhängig von den Kopfhörern mit einem separaten Signal zu

versorgen. Dafür wird ein Fischer Amps ButtKicker Mini LFE in Kombination mit einer The T.amp S-75

MK II Endstufe eingesetzt.

92

5.4 Vorproduktion

Der Ton für „Asperity“ wurde zu einem Großteil anhand des Drehbuchs, Moodboards und in Absprache

mit dem Regisseur in Pro Tools als Layouts im Stereo- und Ambisonics-Format vorproduziert. Auf diese

Weise konnten Sounds bereits als Referenz für die Erstellung von Animationen und für die Komposition

von Musik verwendet werden. So wurde der Imagefilm im Intro des Filmes zuerst vollständig auf der

Tonebene umgesetzt. Dies geschah zunächst mit einem Layout-Sprecher, damit bereits in diesem

frühen Stadium mit der Komposition von Musik begonnen werden konnte. Dieser wurde dann durch

den eigentlichen Sprecher ersetzt. Das Bild wurde erst im Nachhinein erstellt, als der Imagefilm mit

Sprecher, Musik und Sounddesign erstellt war. Dies führte zwar dazu, dass das Sounddesign erneut

angepasst werden musste, jedoch entsprachen die vom Regisseur gewählten Bewegtbilder zu einem

Großteil den durch das Sounddesign vermittelten Bildern, was dazu führte, dass die Änderungen sehr

gering waren und hauptsächlich aus dem Verschieben und Anpassen der bereits vorhandenen Sounds

bestanden. Zusätzlich konnten Probleme in der Mischung von Sounddesign und Musik bereits früh

erkannt und zum Teil durch eine Änderung der Komposition gelöst werden.

Anhand der für die Layouts verwendeten Pro Tools Session wurden schließlich die Audio-Assets für

Wwise als einzelne Clips exportiert. Auf diese Weise war es möglich die Sounds bereits vorab zu

beurteilen.

93

5.5 Produktion

5.5.1 3D-Atmo

Mit dem Schoeps ORTF-3D und dem Sennheiser AMBEO VR Mic wurden bereits während der

Vorproduktion mehrere 3D-Atmo-Aufnahmen durchgeführt. Es wurden diese beiden

Mikrofonsysteme gewählt, um einen direkten Vergleich der jeweiligen Vor- und Nachteile zu

ermöglichen. Für das Intro des Filmes wurde die Atmo in verschiedenen Gebäuden aufgenommen. Für

das Cockpit des Spaceshuttles wurden mehrere Züge und ein VW T5 mit Klimaanlage aufgenommen.

Zur Beurteilung und zum Vergleich der aufgenommenen 3D-Atmos ohne HMD vor der Integration in

Unity, wurde die Audio Ease 360pan Suite mit dem darin enthaltenen binauralen Encoder in Pro Tools

HD, im Zusammenhang mit einem Headtracker genutzt. Die mit dem ORTF-3D erstellten Aufnahmen

wurden dafür um die Hörposition in Form eines Würfels auf einem Ambisonics-Bus 3. Ordnung

angeordnet (s. Abbildung 53 und Abbildung 54).

Dabei hat das ORTF-3D klanglich und in Bezug auf die übermittelte Räumlichkeit subjektiv mehr

überzeugt. Die binaural encodierte Stereo-Basis war breiter als beim AMBEO. Zudem war der Klang

des AMBEO weniger ausgeglichen und dünner.

Abbildung 52: Atmo-Aufnahme für Raumklang in Intro Abbildung 51: Atmo-Aufnahme für Spaceshuttle

Abbildung 53: Anordnung der unteren Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)

Abbildung 54: Anordnung der oberen Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)

94

5.5.2 Dialog

Für die Stimme des Piloten wurde Matt K. Baker und für den Sprecher

des Imagefilmes und der automatischen Ansagen im Spaceshuttle

Fraser W. Deacon vom Regisseur engagiert. Die Sprachaufnahmen

wurden von beiden in ihren Home-Studios in den USA durchgeführt.

Bei den Dreharbeiten für das Video der audiovisuellen

Kommunikation zum Missionskontrollzentrum erfolgte die

Tonaufnahme am Set.

Die Sprachaufnahmen des Mitglieds der ISS wurden mit einem

studentischen Sprecher im Tonstudio der Filmakademie Baden-

Württemberg durchgeführt.

Da im Spaceshuttle die audiovisuelle Kommunikation zum Missionskontrollzentrum als Video

abgespielt wird, war es besonders wichtig dessen Synchronität von Bild und Ton bei allen Zuständen

im Film zu erhalten. Aus diesem Grund wurden vom Regisseur die einzelnen Abschnitte in einem Adobe

Premiere Projekt mit dem Video vom Missionskontrollzentrum vorbereitet, um die Timings für Dialoge

zwischen dem Piloten, dem Missionskontrollzentrum und dem ISS-Mitglied zu erstellen. Diese wurden

als OMF in Pro Tools importiert, nachbearbeitet und als einzelne Stems ab den jeweiligen Startpunkten

der Abschnitte exportiert (s. Abbildung 56).

Abbildung 56: Pro Tools Session zur Erstellung von Dialog-Stems für die einzelnen Abschnitte von „Asperity“ (Bildquelle: Pro Tools)

Abbildung 55: Dreharbeiten von im Shuttle eingeblendeten Video von Ground-Control

95

5.6 Integration

Die Audio-Clips aus der Pro Tools Session für die Sound-Layouts wurden in ein Wwise-Projekt

importiert, ihre Position definiert und alle benötigten Events erstellt. Um Pegelspitzen zu begrenzen,

wurde ein Limiter auf dem Master-Audio-Bus platziert. Des Weiteren wurden bereits States und das

Verhalten von Sounds definiert, wie zum Beispiel das Einsetzen eines TPF nach dem Zerbrechen der

Scheibe im Spaceshuttle und das Verschieben seiner Grenzfrequenz nach dem Verstopfen des Lochs.

Ebenso wurde bereits definiert, dass bestimmte Sounds durch bestimmte Events ausgefadet oder

gestoppt werden. Dieses Verhalten wurde durch das Auslösen von Events im Soundcaster überprüft

und bereits eine Mischung erstellt.

5.6.1 Binauralisierung

Für die Binauralisierung von Audio-Objekten wurde zunächst RealSpace3D von VisiSonic eingesetzt,

was klanglich überwältigende Ergebnisse lieferte. Leider führte der Einsatz von RealSpace3D aber

gleichzeitig beim Starten von „Asperity“ zu einer extremen Beanspruchung des Speichers und zu den

Fehlermeldungen „Insufficient memory in pool: Default. Attempted alloc size: 79593296 bytes“ und

„Voice Starvation“ (s. Abbildung 57). Dies führte zusätzlich dazu, dass Ton und Bild nicht mehr synchron

waren. Das Problem trat bereits bei der Binauralisierung eines einzelnen Audio-Objektes auf.

Abbildung 57: Capture Log in Wwise mit den Fehlermeldungen beim Einsatz von RealSpeace3D in „Asperity“ (Bildquelle: Wwise v2017.2.1)

96

Da zuvor bei der Integration von RealSpace3D in Unity die Default Pool Size auf 100000 Kilobyte erhöht

worden war, war die Fehlermeldung mit 79593,296 Kilobyte nicht nachvollziehbar. Der Support von

VisiSonic und der Einsatz unserer Programmierer führten zu keiner Lösung des Problems, weshalb von

dem Einsatz von RealSpace3D abgesehen

wurde. Stattdessen wurde der Oculus

Spatializer eingesetzt. Wie RealSpace3D

wird dieser in Wwise auf einem Bus als

Plugin eingebunden und besitzt ein

einstellbares Raummodell für erste und

späte Reflektionen (s. Abbildung 58).

Dessen Maße wurden an die Größe des

Cockpits in „Asperity“ angepasst. Audio-

Objekte, die binauralisiert werden sollen,

werden dafür auf diesen Bus geroutet. Der

Oculus Spatializer ist zudem in der Lage FOA

im ambiX-Format binaural zu decodieren

(Oculus, o.J.a).

5.6.2 Lineares Intro

Im Intro des Filmes befindet sich der Zuschauer vor einer Leinwand auf welcher der Imagefilm der

„Asperity Technologies Corp.“ abgespielt wird (s. Abbildung 60).

Für diese wurde eine virtuelle Stereo-Lautsprecheranordnung aus Audio-Objekten in Wwise erstellt.

Auf dieser wird der für den Imagefilm vorproduzierte Ton abgespielt. Für die Atmo des Raumes wurden

Abbildung 58: Oculus Spatializer in Wwise (Bildquelle: https://scontent-frt3-2.xx.fbcdn.net/v/t39.2365-6/18309151_1855720148014394_8182416502838788096_n.jpg?oh=742f05be7cb18d05786ac850c57f190b&oe=5B4D70E6)

Abbildung 59: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Leinwand mit Imagefilme der „Asperity Technologies Corp.“

Abbildung 60: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Starts des Spaceshuttles

97

die Signale einer ORTF-3D-Aufnahme in Wwise als einzelne Audio-Objekte in Form eines Würfels fest

im 3D-Raum um die Hörposition positioniert.

Die zunächst diegetische Musik und Booster innerhalb des auf der Leinwand gezeigten Filmes werden

dann beim Start des Spaceshuttles nicht-diegetisch. Dies wird durch eine Überblendung zwischen den

beiden fest im 3D-Raum positionierten Signalen und einem kopfbezogenen Stereo-Signal erreicht. Als

das Shuttle abhebt und der Bildausschnitt des sphärischen Videos von der Leinwand auf das ganze

360°-Bild wechselt (s. Abbildung 59), wird dieser nicht-diegetische Ton mit dem diegetischen Ton einer

FOA-Atmo und den Schreien einzelner Vögel, als bewegte Audio-Objekte, angereichert.

Der Ton des Imagefilmes und die Atmo werden gestreamt, um die langen Audiodateien nicht

vollständig in den Speicher laden zu müssen. Die Atmo wurde mithilfe von Conversion ShareSets

zusätzlich in Vorbis konvertiert. Dieser Vorgang hatte keine entscheidenden klanglichen Einbußen und

verringerte die Bandbreite beim Streaming. Um den Ton des Imagefilmes synchron mit dem Bild

abzuspielen wurde die „Zero Latency“-Option für das Streaming aktiviert und 100 ms der Datei im

Speicher vor Beginn des Abspielvorgangs bereits vorgeladen.

5.6.3 Interaktiver Film

Zunächst wurden in Unity für die benötigten Positionen von Sounds Objekte definiert, von welchen

aus Wwise-Events ausgelöst werden. Die verschiedenen Abschnitte von „Asperity“ bestehen in Unity

aus verschiedenen Zuständen. Da der Programmierer aufgrund dieses logischen Aufbaus den Einsatz

der Unity Timeline als nicht optimal befunden hat, wurde von ihm ein Script geschrieben, welches beim

Erreichen eines Zustands, Events mit der jeweiligen Position auslösen kann. Dabei ist es möglich, ein

Delay zu setzen, um speziell bei den linearen Abschnitten zwischen unterschiedlichen Zuständen

Events auslösen zu können.

Die Dialoge und das Video vom Missionskontrollzentrum haben innerhalb dieser einzelnen Abschnitte

das Timing vorgegeben. Es gibt Dialogblöcke, die ohne eine mögliche Interaktion des Nutzers zu einem

nächsten Zustand führen und Interaktionsblöcke mit Dialog, deren nächster Zustand von der

Interaktion des Nutzers abhängt.

Abbildung 61: Ausschneiden eines Dialog-Teils innerhalb eines Dialog-Stems im Source Editor in Wwise (Bildquelle: Wwise v2017.2.1)

98

Die aus Pro Tools exportierten Dialog-Stems wurden in

Wwise zugeschnitten (s. Abbildung 61) und in mehrere

Sequence Container aus Sound-Objekten und Silence-

Objekten unterteilt (s. Abbildung 62). Auf diese Weise war

es möglich das Timing zu erhalten und beim Streaming der

Sounds keine Bandbreite für Stille innerhalb der WAV-

Dateien zu verschwenden. Dies hatte den Vorteil, dass pro

Charakter innerhalb eines linearen Abschnittes nur ein

Event innerhalb von Unity ausgelöst werden musste und

alles Weitere in Wwise verarbeitet werden konnte.

Die Dialog-Teile wurden ebenfalls anhand von ShareSets in vertretbarer Qualität in Vorbis konvertiert.

Darüber hinaus werden sie auch mithilfe der „Zero Latency“-Option gestreamt. Die Signale der

ORTF3D-Atmo innerhalb des Spaceshuttles wurden genauso wie die im Intro angeordnet. Diese

werden ebenfalls im Vorbis-Format gestreamt. Die Atmo wurde zunächst noch mit einer

tieffrequenten Surround-Atmo und einzelnen Loops, tonal abgestimmter Gebläse, erweitert. Das Ziel

dieser tonalen Abstimmung war das Erzeugen von Akkorden, um die Stimmung im Shuttle subtil zu

ändern. Die vielen Sound-Objekte erhöhten die Bandbreite und Anzahl der Streams jedoch kritisch,

weshalb die Surround-Atmo vorab in Pro Tools auf die ORTF-3D-Atmo summiert werden musste.

Zusätzlich wurden die Loops der Gebläse durch von SoundSeed Air generierten Gebläse-Sound ersetzt.

Dies ermöglichte ebenfalls das Erzeugen von Akkorden und sparte CPU und Speicher. Für den Aufprall

mit der ISS wird mit dem Wwise Tone Generator ein 8,1 s langer Sweep von 60 auf 20 Hz erzeugt, um

auf ressourcenschonende Weise zusätzliches Low-End zu erzeugen.

Im Gegensatz zu Dialog und Atmo wurden die kürzeren Sound-Effekte im PCM-Format verwendet und

nicht konvertiert, um deren Qualität nicht zu verringern. Diese werden von Unity im benötigten

Moment ausgelöst.

Foleys für den Piloten konnten erst zu einem sehr späten Zeitpunkt der Produktion aufgenommen

werden, da dessen finale Bewegungen erst dann fertig animiert waren. Diese wurden ebenfalls in

Vorbis konvertiert und werden als Stream wiedergegeben.

Bis auf elektronische Alarmsounds wurden alle Sounds vom Oculus Spatializer binauralisiert. Auf diese

Weise konnten Ressourcen geschont werden, da die schmalbandigen Alarme ohnehin ein

suboptimales Signal für die Ortung darstellen.

Für Lautstärke-Automationen wurden in Wwise verschiedene States erstellt. Anhand derer wurden

Offsets für die Lautstärke von verschiedenen Sound-Objekten festgelegt. Diese werden von Events

Abbildung 62: Playlist eines Dialog-Stems im "Sequence Container" in Wwise (Bildquelle: Wwise v2017.2.1)

99

ausgelöst. Diese Offsets wurden zunächst mithilfe des Soundcasters vorab eingestellt und später beim

Mischvorgang mit laufendem Spiel optimiert. Dabei wurden die States vom Spiel ausgelöst und das

ausgewählte Offset und der Übergang vom Sounddesigner optimiert. Der Mischvorgang wurde

zunächst mithilfe einer weiteren Person durchgeführt, welche mit dem HMD und Kopfhörern

„Asperity“ anschaute. Dabei hat Sounddesigner mit zusätzlichen Kopfhörern das Geschehen auf einem

Bildschirm verfolgt und in Echtzeit Korrekturen an der Mischung durchgeführt. Auf diese Weise musste

er nicht immer das HMD auf- und abziehen. Nach dieser Vorgehensweise wurde die Mischung vom

Sounddesigner mit HMD überprüft und letzte Änderungen wurden durchgeführt.

Als die Vertonung und die Mischung fertiggestellt waren, wurden die tieffrequenten Audio-Dateien für

den vom Arduino gesteuerten Buttkicker erstellt. Dafür wurde in Wwise auf einem Auxiliary-Bus ein

Limiter und der Wwise Recorder als Effekte platziert. Dieser Recorder erzeugt aus den ankommenden

Signalen WAV-Dateien im Stereo-Format, welche in Pro Tools bearbeitet, in MP3 konvertiert und in

den Arduino eingebunden wurden.

5.7 Fazit

Mit dem Einsatz von Wwise war es möglich, binauralen Ton für den interaktiven VR-Film „Asperity“ in

hoher Qualität zu produzieren. Durch Dialoge, Foleys und die achtkanalige Atmo des ORTF-3D-

Mikrofonarrays wurde eine hohe Anzahl an Streams erreicht, was aufgrund der benötigten Bandbreite

deren Konvertierung in das Vorbis-Format verlangte. Durch Kompression wurde somit ein Kompromiss

zwischen der benötigten Dateigröße und klanglicher Qualität eingegangen.

Da die Programmierer von „Asperity“ keine Unity Timeline einsetzten, wurden anhand von States

Automationen für die Lautstärke erstellt. Die Erstellung von States und deren Verknüpfung mit Events

war zunächst mit einem erhöhten Aufwand verbunden. Nach dieser Vorarbeit war es jedoch möglich,

effizient die Lautstärke zu automatisieren.

Eine weitere Herausforderung war die Erstellung von Sounds ohne vorhandenes Bewegtbild, da das

Team vorab produzierte Sounds als Referenz für die Erstellung von Animationen verwendete. Diese

Vorgehensweise ermöglichte jedoch zugleich eine eigenständige Vorarbeit. Dabei wurde die

Möglichkeiten genutzt, das Verhalten von Sounds in Wwise vorab zu definieren und zu testen. In

Kombination stellte dies mit der iterativen Vorgehensweise des Entwicklerteams einen großen Vorteil

dar und war für die Einhaltung der Fristen essentiell, da die Entwicklung bis zum Schluss andauerte.

100

6. Zusammenfassung

In dieser Arbeit wurden die Technik und die Arbeitsabläufe untersucht, mit denen Toninhalte für

Virtual Reality produziert werden können. Dabei wurde festgestellt, dass für die Tonaufnahme für

Virtual Reality sowohl Ambisonics-Mikrofone als auch quad-binaurale oder stereophone

Mikrofonarrays eingesetzt werden können. Sie weisen jedoch jeweils unterschiedliche Vor- und

Nachteile auf.

Für lineare VR-Anwendungen ist unter anderem die Produktion im Ambisonics-Format geeignet, da

spezielle Plugins innerhalb von DAWs für einfache Arbeitsabläufe zur Verfügung stehen. Das 3D-

Panning ist dabei anhand der Rektangularprojektion des sphärischen Videos ein effizienter Ansatz für

eine akkurate Platzierung von Schallquellen. Allerdings sollte die Mischung zu einem späteren

Zeitpunkt mit einem HMD überprüft werden. Beim Panning und Schreiben von Automationen in VR ist

es hingegen direkt möglich die Mischung vollständig zu beurteilen.

Codecs wie MPEG-H bieten ebenfalls Möglichkeiten, Audio für lineare VR-Anwendungen zu

produzieren und zusätzlich Audio-Objekte mit Metadaten für den Rendering-Prozess zu versehen.

Der Einsatz von objektbasiertem Audio ist für interaktive VR-Anwendungen besonders geeignet, da

dadurch der Ton an eine Veränderung der Position im 3D-Raum angepasst werden kann. Die Erstellung

von solchen Audio-Objekten kann entweder direkt in einer Game Engine, wie beispielsweise Unity und

Unreal, erfolgen, oder mithilfe von spezieller Middleware. Unity bietet bereits Möglichkeiten, das

Verhalten und die Eigenschaften von Audio-Objekten zu definieren, in Echtzeit zu mischen, Effekte

einzusetzen und Snapshots auszulösen. Diese Werkzeuge können durch den Einsatz von Fabric

innerhalb von Unity erweitert werden. Durch die Verwendung der Middlewares FMOD oder Wwise

erlangt der Sounddesigner zusätzlich einen hohen Grad an Unabhängigkeit vom Programmierer.

Zudem erhält er die Möglichkeit, Audio auf eine einfach Weise interaktiv und abwechslungsreich zu

gestalten. Die Erstellung von adaptiver Musik wird durch Fabric, FMOD oder Wwise ermöglicht.

Mit der Hilfe von Wwise konnte für den interaktiven VR-Film „Asperity“ binauraler Ton in hoher

Qualität produziert werden. Der Ton wurden vorab produziert und als Referenz für die Erstellung von

Animationen und die Komposition von Musik verwendet. Dabei wurden in Wwise die Möglichkeiten

genutzt, vorab das Verhalten von Audio zu erstellen und unabhängig von der Game Engine zu

überprüfen. Lautstärke-Automationen wurden in Wwise anhand von States erstellt. Aufgrund einer

erhöhten Anzahl an Streams, mussten Audiodateien konvertiert werden, um die benötigte Bandbreite

zu reduzieren.

101

7. Literaturverzeichnis

AUDIO EASE B.V. (o.J.a). 360pan Suite, AUDIO EASE B.V. Zugriff am 23.01.2018. Verfügbar unter

https://www.audioease.com/360/

AUDIO EASE B.V. (o.J.b). Audio Ease online store, AUDIO EASE B.V. Zugriff am 23.01.2017. Verfügbar

unter https://www.audioease.com/store/

AUDIO EASE B.V. (o.J.c). The 360pan suite 2. AAX - Pro Tools HD for Mac manual 1.0. 360pan suite 3,

AUDIO EASE B.V. Verfügbar unter https://www.audioease.com/360/files/360pan-suite-3-Pro-

Tools-Manual-1.0.pdf

Audiokinetic. (o.J.a). Audio Device Plug-ins, Audiokinetic. Zugriff am 08.03.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=thirdparty_and_custom_audio_de

vices

Audiokinetic. (o.J.b). Audio Input Source Plug-in, Audiokinetic. Zugriff am 12.02.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=SDK&id=referencematerial__audioinput.ht

ml

Audiokinetic. (o.J.c). Audio Plug-ins, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=SDK&id=effectplugin.html

Audiokinetic. (o.J.d). Creating Audio Conversion Settings ShareSets, Audiokinetic. Zugriff am

04.03.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=creating_audio_conversion_settin

gs_sharesets

Audiokinetic (Hrsg.). (o.J.e). Downmix Tables. Zugriff am 03.03.2018. Verfügbar unter

https://www.audiokinetic.com/library/2017.2.0_6500/?source=Help&id=downmix_tables

Audiokinetic (Hrsg.). (o.J.f). Integrating Secondary Outputs. Zugriff am 08.03.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=SDK&id=integrating__secondary__outputs.

html

Audiokinetic. (o.J.g). MS HRTF, Audiokinetic. Zugriff am 28.02.2018. Verfügbar unter

https://www.audiokinetic.com/library/2016.2.1_5995/?source=Help&id=ms_hrtf_plug_in

Audiokinetic. (o.J.h). Plug-ins, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter

https://www.audiokinetic.com/products/plug-ins/

Audiokinetic. (o.J.i). Pricing | Audiokinetic, Audiokinetic. Zugriff am 09.01.2018. Verfügbar unter

https://www.audiokinetic.com/pricing/

102

Audiokinetic. (o.J.j). Speakers vs Headphones Panning Rules, Audiokinetic. Zugriff am 09.03.2018.

Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=speakers_vs_headphones_pannin

g_rules

Audiokinetic. (o.J.k). Streaming Your Media, Audiokinetic. Zugriff am 21.02.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=streaming_media

Audiokinetic. (o.J.l). Supported Platforms, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter

https://www.audiokinetic.com/products/supported-platforms/

Audiokinetic (Hrsg.). (o.J.m). Understanding Channel Configurations. Zugriff am 03.03.2018.

Verfügbar unter

https://www.audiokinetic.com/library/2017.2.0_6500/?source=Help&id=understanding_channel

_configurations

Audiokinetic. (o.J.n). Using Ambisonics, Audiokinetic. Zugriff am 19.01.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=using_ambisonics

Audiokinetic. (o.J.o). Using Ambisonics, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=using_ambisonics

Audiokinetic. (o.J.p). What Media Files are Supported?, Audiokinetic. Zugriff am 05.02.2018.

Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=what_media_files_are_supported

Audiokinetic. (o.J.q). Wwise for Games. Choose the plan that is right for your needs, Audiokinetic.

Zugriff am 11.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/

Audiokinetic. (o.J.r). Wwise for Games. The following price chart is for games projects only,

Audiokinetic. Zugriff am 11.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/for-

games/

Audiokinetic. (o.J.s). Wwise Recorder, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter

https://www.audiokinetic.com/library/edge/?source=Help&id=wwise_recorder_plug_in_effect

Audiokinetic. (o.J.t). Wwise SoundSeed, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter

https://www.audiokinetic.com/products/plug-ins/soundseed/

Audiokinetic. (2017). Wwise-101 Certification Course. 7 Lessons, 7 Quizzes, 1 Exam, Audiokinetic.

Zugriff am 28.01.2018. Verfügbar unter

https://www.audiokinetic.com/download/lessons/wwise101_en.pdf

Avid Technology. (2017). Avid Knowledge Base. Pro Tools 12.8.2 Release Info, Avid Technology.

Verfügbar unter http://avid.force.com/pkb/articles/download/Pro-Tools-12-8-2-Release-Info

Bates, E. & Boland, F. (Hrsg.). (2016). Spatial Music, Virtual Reality, and 360 Media. Verfügbar unter

http://www.aes.org/e-lib/browse.cfm?elib=18496

103

Bates, E., Dooney, S., Gorzel, M., O’Dwyer, H., Ferguson, L. & Boland, F. M. (Hrsg.). (2017). Comparing

Ambisonic Microphones—Part 2. Verfügbar unter http://www.aes.org/e-

lib/browse.cfm?elib=18607

Bates, E., Gorzel, M., Ferguson, L., O’Dwyer, H. & Boland, F. M. (Hrsg.). (2016). Comparing Ambisonic

Microphones – Part 1. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18317

Behrends, J. (2015). Interreaction (interaktive Medien und Kommunikation im Raum - eine

Einführung für Gestalter). Stuttgart: avedition.

Berg, R. (2016). PlayStation VR: Revolution oder Elektro-Schrott? Sonys VR-Brille im Test!,

Computerbild. Zugriff am 02.01.2018. Verfügbar unter http://www.computerbild.de/artikel/cbs-

News-Sony-Playstation-VR-8975488.html

Bertet, S., Daniel, J. & Moreau, S. (Hrsg.). (2006). 3D Sound Field Recording with Higher Order

Ambisonics - Objective Measurements and Validation of Spherical Microphone. Zugriff am

02.01.2018. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=13661

Blauert, J. & Braasch, J. (2008). Räumliches Hören. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik

(S. 87–121). Berlin, Heidelberg: Springer Berlin Heidelberg.

Blue Ripple Sound. (o.J.a). O3A View, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter

http://www.blueripplesound.com/products/o3a-view

Blue Ripple Sound. (o.J.b). Pro Audio Products, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar

unter http://www.blueripplesound.com/product-listings/pro-audio

Blue Ripple Sound. (2018a). O3A Core Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am


http://www.blueripplesound.com/sites/default/files/O3ACore_UserGuide_v2.1.5.pdf

Blue Ripple Sound. (2018b). O3A Manipulators Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff

am 23.01.2018. Verfügbar unter

http://www.blueripplesound.com/sites/default/files/O3AManipulators_UserGuide_v2.1.5.pdf

Blue Ripple Sound. (2018c). O3A Reverb Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am


http://www.blueripplesound.com/sites/default/files/O3AReverb_UserGuide_v2.1.5.pdf

Blue Ripple Sound. (2018d). O3A View Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am


http://www.blueripplesound.com/sites/default/files/O3AView_UserGuide_v2.1.5.pdf

Carpentier, T. (Hrsg.). (2017). Normalization Schemes in Ambisonic. Does it Matter? Verfügbar unter


104

Chapman, M., Ritsch, W., Musil, T., Zmölnig, I., Pomberger, H., Zotter, F. et al. (Hrsg.). (2009). A

stadard for interchange of ambisonic signal sets. Including a file standard with metadata. Zugriff

am 19.01.2018. Verfügbar unter

https://iem.kug.ac.at/fileadmin/media/iem/projects/2009/ambixchange09.pdf

Core Sound. (o.J.). Core Sound TetraMic. TetraMic Specifications, Core Sound. Zugriff am 04.01.2018.

Verfügbar unter http://www.core-sound.com/TetraMic/2.php

Dear Reality. (o.J.). dearVR. 3D audio virtual reality, Dear Reality. Zugriff am 27.01.2018. Verfügbar

unter http://dearvr.com/

Dear Reality. (2017). dearVR pro User Manual v1.0, Dear Reality. Zugriff am 21.01.2018. Verfügbar

unter https://files.plugin-alliance.com/products/dearvr_pro/dearvr_pro_manual_en.pdf

Dickreiter, M. (2014). Schallwahrnehmung. In M. Dickreiter, V. Dittel, W. Hoeg & M. Wöhr (Hrsg.),

Handbuch der Tonstudiotechnik. Band 1. Berlin [u.a.]: De Gruyter.

Dolby Laboratories. (o.J.). How do I distribute my content with the Atmos mix?, Dolby Laboratories.


https://kb.developer.dolby.com/support/solutions/articles/16000020268-how-do-i-distribute-

my-content-with-the-atmos-mix-

Dolby Laboratories. (2008). Technical Paper: Dolby Digital Plus, Dolby Laboratories. Zugriff am

26.02.2018. Verfügbar unter https://www.dolby.com/us/en/technologies/dolby-digital-plus-

audio-coding-tech-paper.pdf

Dolby Laboratories. (2015). Dolby AC-4: Audio Delivery for Next-Generation Entertainment Services,

Dolby Laboratories. Zugriff am 26.01.2018. Verfügbar unter

https://www.dolby.com/us/en/technologies/ac-4/Next-Generation-Entertainment-Services.pdf

Dolby Laboratories. (2017). Dolby Atmos VR Player Guide, Dolby Laboratories. Zugriff am 26.01.2018.

Verfügbar unter http://developerdownload.dolby.com/docs/Dolby_Atmos_VR_Player_Guide.pdf

Dörner, R., Jung, B., Grimm, P., Broll, W. & Göbel, M. (2013). Einleitung. In R. Dörner, W. Broll, P.

Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der

Virtuellen und Augmentierten Realität, S. 1–31). Berlin, Heidelberg: Springer Vieweg.

Engler, M. & Jacques, D. (2017). Bcom plugins, Merging Technologies. Zugriff am 26.01.2018.

Verfügbar unter https://confluence.merging.com/display/PUBLICDOC/Bcom+plugins

Facebook. (o.J.). Facebook Media - Facebook 360, Facebook. Zugriff am 30.12.2017. Verfügbar unter

https://www.facebook.com/facebookmedia/get-started/360

Facebook 360. (2017). Facebook 360 Spatial Workstation User Guide. Release 3.0.

Firelight Technologies. (o.J.a). Deployment, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar

unter http://www.fmod.org/documentation/#content/generated/engine_ue4/deployment.html

105

Firelight Technologies. (o.J.b). Firelight Technologies FMOD Studio API. Introduction, Firelight

Technologies. Zugriff am 08.02.2018. Verfügbar unter

https://www.fmod.com/resources/documentation-

api?page=content/generated/common/introduction_web.html#/

Firelight Technologies. (o.J.c). Firelight Technologies FMOD Studio API. Spatial Audio, Firelight


https://www.fmod.com/docs/api/content/generated/overview/spatialaudio.html

Firelight Technologies. (o.J.d). FMOD Low Level API - An Overview, Firelight Technologies. Zugriff am

12.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-

api?page=content/generated/common/lowlevel_introduction.html#file-formats-1

Firelight Technologies. (o.J.e). FMOD Studio Plug-in SDK, Firelight Technologies. Zugriff am


http://www.fmod.org/documentation/#content/generated/overview/plugin_api_dsp.html

Firelight Technologies. (o.J.f). Licensing - FMOD, Firelight Technologies. Zugriff am 09.01.2018.

Verfügbar unter https://www.fmod.com/licensing

Firelight Technologies. (o.J.g). Mixing, Firelight Technologies. Zugriff am 03.03.2018. Verfügbar unter

https://www.fmod.com/docs/studio/mixing.html

Firelight Technologies. (o.J.h). UE4 Integration, Firelight Technologies. Zugriff am 08.02.2018.

Verfügbar unter

http://www.fmod.org/documentation/#content/generated/engine_ue4/overview.html

Firelight Technologies. (o.J.i). Unity Integration 2, Firelight Technologies. Zugriff am 08.02.2018.

Verfügbar unter

http://www.fmod.org/documentation/#content/generated/engine_new_unity/overview.html

Firelight Technologies. (o.J.j). Virtual Voice System, Firelight Technologies. Zugriff am 08.02.2018.

Verfügbar unter https://www.fmod.com/resources/documentation-

api?page=content/generated/overview/virtualvoices.html#/

Firelight Technologies. (2016). FMOD Studio 1.08 released, Firelight Technologies. Zugriff am

08.02.2018. Verfügbar unter http://www.fmod.org/fmod-studio-1-08-released/

Firelight Technologies. (2018a). FMOD Studio 1.10.03 User Manual. 12. Event Macro Controls

Reference, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter

https://www.fmod.com/resources/documentation-studio?page=event-macro-controls-

reference.html#priority

Firelight Technologies. (2018b). FMOD Studio 1.10.03 User Manual. 2. FMOD Studio Concepts,

Firelight Technologies. Zugriff am 07.02.2018. Verfügbar unter

https://www.fmod.com/resources/documentation-studio?page=fmod-studio-concepts.html

106

Firelight Technologies. (2018c). FMOD Studio 1.10.03 User Manual. 5. Working with Instruments,


https://www.fmod.com/resources/documentation-studio?page=working-with-instruments.html

Firelight Technologies. (2018d). FMOD Studio 1.10.03 User Manual. 6. Asset Management, Firelight


https://www.fmod.com/resources/documentation-studio?page=managing-assets.html

Firelight Technologies. (2018e). FMOD Studio 1.10.03 User Manual. 7. Getting Events into Your Game,


https://www.fmod.com/resources/documentation-studio?page=getting-events-into-your-

game.html

Fleischmann, J. (2017, 14. Mai). MPEG-H – ein Audioformat der nächsten Generation (NGA), Tech-

Magazin. Zugriff am 25.01.2018. Verfügbar unter http://tech-magazin.de/2017/05/mpeg-h-ein-

audioformat-der-naechsten-generation-nga/

Frank, M. & Zotter, F. (Hrsg.). (2017). Exploring the Perceptual Sweet Area in Ambisonics. Verfügbar

unter http://www.aes.org/e-lib/browse.cfm?elib=18604

Fraunhofer IIS. (o.J.a). AES NEW YORK 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter

https://www.iis.fraunhofer.de/de/muv/2017/143-aes.html

Fraunhofer IIS. (o.J.b). IBC 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter

https://www.iis.fraunhofer.de/de/muv/2017/ibc-2017.html

Fraunhofer IIS. (o.J.c). Inter BEE 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter

https://www.iis.fraunhofer.de/en/muv/2017/interbee2017.html

Fraunhofer IIS. (o.J.d). Mobile World Congress 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar

unter https://www.iis.fraunhofer.de/de/muv/2017/mwc-2017.html?wcmmode=disabled

Fraunhofer IIS. (o.J.e). NAB Show 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter

https://www.iis.fraunhofer.de/de/muv/2017/nabshow-2017.html

Fraunhofer IIS. (2017a). Audio und Medientechnologien @IBC 2017, Fraunhofer IIS. Zugriff am

25.01.2017. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/ibc-

2017/amm_ibc2017.html

Fraunhofer IIS. (2017b). Fraunhofer IIS: Delivering a complete suite of solutIons for the next

generation of virtual realIty audio, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter

https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/wp/FraunhoferIIS_Technical-

Paper_Virtual-Reality.pdf

Fraunhofer IIS. (2017c). MPEG-H TV Audio System nun offizieller ATSC 3.0-Standard. Fraunhofer Audio

Blog, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter

http://www.audioblog.iis.fraunhofer.de/mpeg-h-standard-atsc-3-0/

107

Fraunhofer IIS. (2017d). Neues Produktionstool von Linear Acoustic unterstützt MPEG-H. Fraunhofer

Audio Blog, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter

http://www.audioblog.iis.fraunhofer.de/linear-acoustic-ams/

Fugal, H. & Nair, V. (2017). Spatial audio — bringing realistic sound to 360 video, Facebook. Zugriff

am 09.01.2018. Verfügbar unter https://code.facebook.com/posts/412047759146896/spatial-

audio-bringing-realistic-sound-to-360-video/

Geier, M., Carpentier, T., Noisternig, M. & Warusfel, O. (Hrsg.). (2017). Software tools for object-

based audio production using the Audio Definition Model. Zugriff am 26.01.2018. Verfügbar unter

http://vdt-icsa.de/program/2017-09-08-directivity-arts-foyer-ligeti-hall/10-40-geier/

Gieselmann, H. (2016). MPEG-H 3D Audio: Fraunhofer experimentiert mit 3D- und VR-Sound, Heise

Medien. Verfügbar unter https://www.heise.de/newsticker/meldung/MPEG-H-3D-Audio-

Fraunhofer-experimentiert-mit-3D-und-VR-Sound-3496079.html

Google Developers. (2018). Get started with Resonance Audio for FMOD, Google Developers. Zugriff

am 08.02.2018. Verfügbar unter https://developers.google.com/resonance-

audio/develop/fmod/getting-started

Görne, T. (2015). Tontechnik (Hören, Schallwandler, Impulsantwort und Faltung, digitale Signale,

Mehrkanaltechnik, tontechnische Praxis, mit 33 Tabellen). München: Hanser.

Grimm, P., Herold, R., Hummel, J. & Broll, W. (2013). VR-Eingabegeräte. In R. Dörner, W. Broll, P.

Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der

Virtuellen und Augmentierten Realität, S. 97–125). Berlin, Heidelberg: Springer Vieweg.

Grimm, P., Herold, R., Reiners, D. & Cruz-Neira, C. (2013). VR-Ausgabegeräte. In R. Dörner, W. Broll,

P. Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden

der Virtuellen und Augmentierten Realität, S. 127–156). Berlin, Heidelberg: Springer Vieweg.

Harvey, S. (2017). Inside Facebook’s VR Audio Initiative, NewBay Media, LLC. Zugriff am 09.01.2018.

Verfügbar unter https://www.prosoundnetwork.com/post-and-broadcast/inside-facebooks-vr-

audio-initiative

International Telecommunication Union. (2016). Recommendation ITU-R BS.2076-1. Audio Definition

Model, International Telecommunication Union. Zugriff am 26.01.2018. Verfügbar unter

https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2076-1-201706-I!!PDF-E.pdf

Kolokythas, P. (2016). Oculus Rift jetzt im deutschen Handel erhältlich, PC-Welt. Zugriff am

02.01.2018. Verfügbar unter https://www.pcwelt.de/news/Oculus-Rift-ab-20.-September-im-

deutschen-Handel-erhaeltlich-10025966.html

Lee, H. (Hrsg.). (2016). Capturing and Rendering 360º VR Audio Using Cardioid Microphones.

Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18511

108

Malham, D. (2003). Higher order Ambisonic systems. Zugriff am 19.01.2018. Verfügbar unter

https://www.york.ac.uk/inst/mustech/3d_audio/higher_order_ambisonics.pdf

Merging Technologies. (o.J.a). Pyramix 11 - New Features, Merging Technologies. Zugriff am

26.01.2018. Verfügbar unter http://www.merging.com/products/pyramix/

Merging Technologies. (o.J.b). Pyramix Key Features, Merging Technologies. Zugriff am 26.01.2018.

Verfügbar unter http://www.merging.com/products/pyramix/key-features

Merging Technologies. (2017). Pyramix 11.1 To Include Full Object Based Audio Workflow, Merging

Technologies. Zugriff am 25.01.2018. Verfügbar unter http://www.merging.com/news/news-

stories/pyramix-11-1-to-include-full-object-based-audio-workflow

Meyer, J. & Elko, G. (Hrsg.). (2016). A Qualitative Analysis of Frequency Dependencies in Ambisonics

Decoding Related to Spherical Microphone Array Recording. Verfügbar unter


MH Acoustics LLC. (o.J.). Products, MH Acoustics LLC. Zugriff am 04.01.2018. Verfügbar unter

https://mhacoustics.com/products

MH Acoustics LLC. (2013). em32 Eigenmike®microphone array release notes (v17.0), MH Acoustics

LLC. Zugriff am 05.01.2018. Verfügbar unter

https://www.mhacoustics.com/sites/default/files/ReleaseNotes.pdf

New Audio Technology. (2016). The Spatial Audio Designer Version 2, New Audio Technology.

Verfügbar unter https://www.newaudiotechnology.com/en/the-spatial-audio-designer-version-2/

Octava. (o.J.). MK-4012 4-D Ambisonic A-format Mikrofon, Octava. Zugriff am 02.01.2018. Verfügbar

unter http://www.oktava-shop.com/Kleinmembran-und-Mittelmembran-

Kondensatormikrofone/MK-012-01-Oktava-12.html

Oculus. (o.J.a). Features, Oculus. Zugriff am 09.03.2018. Verfügbar unter

https://developer.oculus.com/documentation/audiosdk/latest/concepts/audiosdk-

features/#audiosdk-features-supported

Oculus. (o.J.b). Listening Devices, Oculus. Zugriff am 30.12.2017. Verfügbar unter

https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-devices/

Orpheus. (2016). Sequoia – The main audio production tool of ORPHEUS, Orpheus. Verfügbar unter

https://orpheus-audio.eu/sequoia-the-main-audio-production-tool-of-orpheus/

Orpheus. (2017). Implementation and documentation of objectbased editing and mixing, Orpheus.

Zugriff am 27.02.2018. Verfügbar unter https://orpheus-audio.eu/wp-

content/uploads/2017/12/orpheus-d3.6_impl.doc-of-ob-editing-and-mixing.pdf

Pike, C., Taylor, R., Parnell, T. & Melchior, F. (Hrsg.). (2016). Object-Based 3D Audio Production for

Virtual Reality Using the Audio Definition Model. Zugriff am 26.01.2018. Verfügbar unter

http://www.aes.org/e-lib/online/download.cfm/18498.pdf?ID=18498

109

Plugin Alliance. (o.J.). Dear Reality dearVR pro, Plugin Alliance. Zugriff am 21.01.2018. Verfügbar

unter https://www.plugin-alliance.com/en/products/dearvr_pro.html

Ryan, R. (2016). 3DConnexion Mouse - Configuration Guide, Merging Technologies. Zugriff am


https://confluence.merging.com/display/PUBLICDOC/3DConnexion+Mouse+-

+Configuration+Guide

Schmidt, B. (2017). GameSoundCon Game Audio Industry Survey 2017, GameSoundCon. Zugriff am

09.01.2018. Verfügbar unter https://www.gamesoundcon.com/single-

post/2017/10/02/GameSoundCon-Game-Audio-Industry-Survey-2017

Schoeps. (o.J.). Plug-and-Play setup for Surround Ambience Recording ORTF Surround Outdoor Set,

Schoeps. Zugriff am 11.01.2018. Verfügbar unter http://www.schoeps.de/en/products/ortf-

surround-outdoor-set

Sengpiel, E. (o.J.a). Die Richtungswahrnehmung nicht nur in der Medianebene. Zugriff am 01.03.2018.

Verfügbar unter http://www.sengpielaudio.com/DieRichtungswahrnehmungMedianebene.pdf

Sengpiel, E. (o.J.b). Kopfbezogene Übertragungsfunktion HRTF. Zugriff am 01.03.2018. Verfügbar

unter http://www.sengpielaudio.com/KopfbezogeneUebertragungsfunktionHRTF.pdf

Sennheiser. (o.J.). TECHNISCHE DATEN, Sennheiser. Zugriff am 02.01.2018. Verfügbar unter

http://www.sennheiser-sites.com/responsive-

manuals/AMBEO_VR_MIC/DE/index.html#page/AMBEO%2520VR%2520MIC%2FVR_MIC_05_Tec

hnischedaten_DE.5.1.html%23ww1018471

Sennheiser. (2016). Shape the Future of Audio, Sennheiser. Zugriff am 04.01.2018. Verfügbar unter

https://en-us.sennheiser.com/shape-the-future-of-audio-ambeo

Sherbourne, S. (2017). Ambisonics and VR/360 Audio in Pro Tools | HD, Avid Technology. Zugriff am

21.01.2018. Verfügbar unter http://www.avidblogs.com/ambisonics-vr360-audio-pro-tools-hd/

Shivappa, S., Morrell, M., Sen, D., Peters, N. & Salehin, S. M. A. (Hrsg.). (2016). Efficient, Compelling,

and Immersive VR Audio Experience Using Scene Based Audio/Higher Order Ambisonics. Zugriff am


Slavik, K. M. & Weinzierl, S. (2008). Wiedergabeverfahren. In S. Weinzierl (Hrsg.), Handbuch der

Audiotechnik (S. 609–985). Berlin, Heidelberg: Springer Berlin Heidelberg.

Susal, J., Krauss, K., Tsingos, N. & Altman, M. (Hrsg.). (2016). Immersive Audio for VR. Zugriff am


Tazman-Audio. (o.J.a). Fabric Manual. VRAudio Overview, Tazman-Audio. Zugriff am 10.02.2018.

Verfügbar unter http://fabric-manual.com/m/Fabric/l/627716-vraudio-overview

Tazman-Audio. (o.J.b). Licensing, Tazman-Audio. Zugriff am 11.01.2018. Verfügbar unter

http://www.tazman-audio.co.uk/licensing

110

Tazman-Audio. (o.J.c). WwwAudioComponent, Tazman-Audio. Zugriff am 12.02.2018. Verfügbar

unter http://fabric-manual.com/m/Fabric/l/288076-wwwaudiocomponent

Tazman-Audio. (2014). AudioPanner, Tazman-Audio. Zugriff am 11.02.2018. Verfügbar unter

http://fabric-manual.com/m/Fabric/l/290569-audiopanner

Theile, G., Dickreiter, M., Graul, W., Camerer, F. & Spikofski, G. (2014). Tonaufnahme und

Tonwiedergabe. In M. Dickreiter, V. Dittel, W. Hoeg & M. Wöhr (Hrsg.), Handbuch der

Tonstudiotechnik. Band 1 (S. 217–369). Berlin [u.a.]: De Gruyter.

Thresh, L., Armstrong, C. & Kearney, G. (Hrsg.). (2017). A Direct Comparison of Localization

Performance When Using First, Third, and Fifth Ambisonics Order for Real Loudspeaker and Virtual

Loudspeaker Rendering. Zugriff am 04.01.2018. Verfügbar unter http://www.aes.org/e-

lib/browse.cfm?elib=19261

Travis, C. (Hrsg.). (1996). A Virtual Reality Perspective on Headphone Audio. Zugriff am 17.12.2017.

Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=7082

Unity Technologies. (o.J.a). Ein Build, Bereitstellung überall, Unity Technologies. Zugriff am

10.02.2018. Verfügbar unter https://unity3d.com/de/unity/features/multiplatform

Unity Technologies. (o.J.b). Unity User Manual (2017.3). Audio files, Unity Technologies. Zugriff am

10.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/AudioFiles.html

Unity Technologies. (2017a). Audio Settings, Unity Technologies. Zugriff am 04.03.2018. Verfügbar

unter https://docs.unity3d.com/Manual/class-AudioSettings.html

Unity Technologies. (2017b). AudioSettings.Reset, Unity Technologies. Zugriff am 04.03.2018.

Verfügbar unter https://docs.unity3d.com/ScriptReference/AudioSettings.Reset.html

Unity Technologies. (2017c). AudioSpeakerMode, Unity Technologies. Zugriff am 03.03.2018.

Verfügbar unter https://docs.unity3d.com/ScriptReference/AudioSpeakerMode.html

Unity Technologies. (2017d). Unity User Manual (2017.3). Audio Clip, Unity Technologies. Zugriff am

18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/class-AudioClip.html

Unity Technologies. (2017e). Unity User Manual (2017.3). Audio Group Inspector, Unity Technologies.


https://docs.unity3d.com/Manual/AudioMixerInspectors.html

Unity Technologies. (2017f). Unity User Manual (2017.3). Audio in Unity 5.0, Unity Technologies.

Zugriff am 18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/UpgradeGuide5-

Audio.html

Unity Technologies. (2017g). Unity User Manual (2017.3). Audio Profiler, Unity Technologies. Zugriff

am 23.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/ProfilerAudio.html

Unity Technologies. (2017h). Unity User Manual (2017.3). Tracker Modules, Unity Technologies.

Verfügbar unter https://docs.unity3d.com/Manual/TrackerModules.html

111

Unity Technologies. (2017i). Unity User Manual (2017.3). VR Audio Spatializers, Unity Technologies.


https://docs.unity3d.com/Manual/VRAudioSpatializer.html

Unity Technologies. (2017j, 10. August). Unity User Manual (2017.3). Ambisonic Audio, Unity


https://docs.unity3d.com/Manual/AmbisonicAudio.html

Valve Corporation. (o.J.). Steam Audio, Valve Corporation. Zugriff am 24.02.2018. Verfügbar unter

https://valvesoftware.github.io/steam-audio/

Valve Corporation. (2018). Steam Audio. Beta 12: FMOD Studio plugin and more, Valve Corporation.


http://steamcommunity.com/games/596420/announcements/detail/1568807608827638582

VisiSonics Corporation. (o.J.a). Products. VisiSonics 5/64 Audio/Visual Camera, VisiSonics Corporation.

Zugriff am 05.01.2018. Verfügbar unter http://visisonics.com/products-2/#camera

VisiSonics Corporation. (o.J.b). RealSpace3D Audio, VisiSonics Corporation. Zugriff am 24.02.2018.

Verfügbar unter https://realspace3daudio.com/

VisiSonics Corporation. (o.J.c). VisiSonics 5/64 Frequency Range and Resolution, VisiSonics

Corporation. Zugriff am 05.01.2018. Verfügbar unter http://visisonics.com/white-papers/

Webers, J. (2007). Handbuch der Tonstudiotechnik für Film, Funk und Fernsehen [digitales und

analoges Audio Recording]. Poing: Franzis.

Weinzierl, S. (2008). Aufnahmeverfahren. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik (S. 551–

607). Berlin, Heidelberg: Springer Berlin Heidelberg.

Wittek, H. (2015). "ORTF-3D": eine Mikrofontechnik für Atmoaufnahmen in 3D-Audio und VR. Zugriff

am 11.01.2017. Verfügbar unter https://www.hauptmikrofon.de/de/stereo-3d/3d-audio/ortf-3d

Wittek, H. & Theile, G. (Hrsg.). (2017). Development and Application of a Stereophonic Multichannel

Recording Technique for 3D Audio and VR. Zugriff am 04.01.2018. Verfügbar unter


YouTube. (o.J.). Use spatial audio in 360-degree and VR videos, YouTube. Zugriff am 30.12.2018.

Verfügbar unter

https://support.google.com/youtube/answer/6395969?hl=en&ref_topic=2888648

Zwingmann, D. (2016). HTC Vive: Vermutlich 50.000 VR-Brillen verkauft, PC-Games. Zugriff am

02.01.2016. Verfügbar unter http://www.pcgames.de/HTC-Vive-Hardware-261074/News/50000-

VR-Brillen-verkauft-1195113/

Documents

Binauraler Ton für einen interaktiven VR-Film · Eidesstaatliche Erklärung Hiermit versichere ich, Pablo Knupfer, ehrenwörtlich, dass ich die vorliegende Masterarbeit mit dem Titel: