Upload
ledieu
View
215
Download
0
Embed Size (px)
Citation preview
Binauraler Ton für einen
interaktiven VR-Film
Masterarbeit im Studiengang Audiovisuelle Medien
vorgelegt von Pablo Knupfer
am 14. März 2018
an der Hochschule der Medien Stuttgart
Fakultät Electronic Media
zur Erlangung des akademischen Grades Master of Engineering
Erstprüfer: Prof. Oliver Curdt
Zweitprüfer: Prof. Dr. Simon Wiest
Eidesstaatliche Erklärung
Hiermit versichere ich, Pablo Knupfer, ehrenwörtlich, dass ich die vorliegende Masterarbeit mit dem
Titel: „Binauraler Ton für einen interaktiven VR-Film“ selbstständig und ohne fremde Hilfe verfasst und
keine anderen als die angegebenen Hilfsmittel benutzt habe. Die Stellen der Arbeit, die dem Wortlaut
oder dem Sinn nach anderen Werken entnommen wurden, sind in jedem Fall unter Angabe der Quelle
kenntlich gemacht. Die Arbeit ist noch nicht veröffentlicht oder in anderer Form als Prüfungsleistung
vorgelegt worden.
Ich habe die Bedeutung der ehrenwörtlichen Versicherung und die prüfungsrechtlichen Folgen (§26
Abs. 2 Bachelor-SPO (6 Semester), § 24 Abs. 2 Bachelor-SPO (7 Semester), § 23 Abs. 2 Master-SPO (3
Semester) bzw. § 19 Abs. 2 Master-SPO (4 Semester und berufsbegleitend) der HdM) einer unrichtigen
oder unvollständigen ehrenwörtlichen Versicherung zur Kenntnis genommen.
Stuttgart, den 14. März 2018
________________________________
Pablo Knupfer
I
Zusammenfassung
Die vorliegende Arbeit gibt einen Überblick über unterschiedliche Techniken für die Produktion von
Audio für Virtual Reality. Neben verschiedenen Mikrofonsystemen werden für VR geeignete
Audioformate vorgestellt und Softwares zur Audioproduktion für lineare und interaktive VR-
Anwendungen verglichen. Anhand der vorgestellten Möglichkeiten wird eine geeignete
Produktionstechnik für einen interaktiven VR-Film entwickelt und deren Anwendung dokumentiert.
Abstract
This work creates an overview of technique for the production of audio for virtual reality. Various
microphone systems and audio formats for VR are introduced. Furthermore different software, which
can be used for producing linear and interactive VR experiences, is compared. Based on this research
a suitable production technique for an interactive VR movie is developed, used and documented.
II
Danksagung
Vielen Dank an das Team „Asperity“ für die Möglichkeit an dem Projekt teilhaben zu dürfen, sowie an
das Techniklager der Filmakademie Baden-Württemberg.
Vielen Dank für den Beistand und die Unterstützung durch meine Familie, Florian Beck, Siri Gögelmann,
Victor Gogröf, Marie Pattberg, Marcel Remy und Karen Schuster.
Einen besonderen Dank für das Verständnis und die Unterstützung der Kollegen beim SWR Stuttgart
Außenübertragung Hörfunk.
Weiter einen großen Dank an die folgenden Sponsoren für die Unterstützung der Produktion mit
großartigen Produkten: Audio Ease, Avid, Blue Ripple Sound, Schoeps Mikrofone, Sennheiser
Mikrofone, VisiSonics.
III
Inhaltsverzeichnis
Zusammenfassung................................................................................................................................... I
Danksagung ............................................................................................................................................ II
Abkürzungsverzeichnis ......................................................................................................................... VI
Abbildungsverzeichnis ......................................................................................................................... VII
Tabellenverzeichnis ................................................................................................................................ X
Formelverzeichnis .................................................................................................................................. X
1. Einleitung ........................................................................................................................................... 1
2. Virtual Reality ..................................................................................................................................... 2
2.1 Charakterisierung von VR ............................................................................................................. 2
2.2 Interaktive versus lineare VR ........................................................................................................ 3
2.3 Räumliches Hören ........................................................................................................................ 4
2.4 Binauraltechnik............................................................................................................................. 6
3. VR-Audio ............................................................................................................................................ 7
3.1 Anforderungen ............................................................................................................................. 7
3.2 Wiedergabe über Kopfhörer......................................................................................................... 7
3.3 Formate für VR-Audio ................................................................................................................... 8
3.3.1 Ambisonics ............................................................................................................................ 8
3.3.1.1 Grundlagen ..................................................................................................................... 9
3.3.1.2 Kodierung ..................................................................................................................... 10
3.3.1.3 Higher Order Ambisonics .............................................................................................. 11
3.3.1.4 Vorteile ......................................................................................................................... 11
3.3.1.5 Nachteile ...................................................................................................................... 12
3.3.1.6 Ambisonics-Formate ..................................................................................................... 13
3.3.2 Objektbasiertes Audio ......................................................................................................... 14
3.3.2.1 Prinzip ........................................................................................................................... 14
3.3.2.2 Vorteile ......................................................................................................................... 14
3.3.2.3 Nachteile ...................................................................................................................... 15
IV
3.3.2.4 Beispiele für Codecs mit objektbasiertem Audio .......................................................... 15
3.3.3 Quad-binaural...................................................................................................................... 16
3.4 Mikrofonsysteme für VR ............................................................................................................. 17
3.4.1 Ambisonics .......................................................................................................................... 17
3.4.1.1 First-Order-Ambisonics-Mikrofonarrays ....................................................................... 17
3.4.1.2 Higher-Order-Ambisonics-Mikrofonarrays ................................................................... 19
3.4.2 Quad-Binaural ..................................................................................................................... 21
3.4.3 Stereophone Mikrofonarrays .............................................................................................. 22
3.4.3.1 ORTF-3D ........................................................................................................................ 23
3.4.3.2 ESMA mit 3D-Erweiterung ............................................................................................ 24
4. VR-Audio-Produktion ....................................................................................................................... 26
4.1 Lineare VR .................................................................................................................................. 26
4.1.1 Software zur Produktion von Ambisonics-Tonmischungen ................................................. 26
4.1.1.1 Facebook 360 Spatial Workstation und Audio Ease 360pan ......................................... 27
4.1.1.2 DearVR .......................................................................................................................... 30
4.1.1.3 Blue Ripple Sound ......................................................................................................... 31
4.1.1.4 Vergleich ....................................................................................................................... 36
4.1.2 Software zur Produktion von objektbasierten Mischungen ................................................ 39
4.1.2.1 Merging Technologies Pyramix 11 für MPEG-H und ADM ............................................ 39
4.1.2.2 Weitere Produktions-Software für MPEG-H ................................................................. 42
4.1.2.3 Magix Sequoia für ADM ................................................................................................ 42
4.2 Interaktive VR ............................................................................................................................. 43
4.2.1 Unity .................................................................................................................................... 45
4.2.2 Wwise .................................................................................................................................. 51
4.2.3 FMOD Studio ....................................................................................................................... 64
4.2.4 Fabric ................................................................................................................................... 74
4.2.5 Vergleich .............................................................................................................................. 81
5. Umsetzung des interaktiven VR-Filmes „Asperity“ ........................................................................... 89
V
5.1 Beschreibung von „Asperity“ ...................................................................................................... 89
5.2 Anforderungen an den Ton ........................................................................................................ 90
5.3 Verwendete Technik für Audio ................................................................................................... 90
5.3.1 Middleware ......................................................................................................................... 90
5.3.2 Kopfhörer ............................................................................................................................ 91
5.3.3 Körperschallwandler ............................................................................................................ 91
5.4 Vorproduktion ............................................................................................................................ 92
5.5 Produktion .................................................................................................................................. 93
5.5.1 3D-Atmo .............................................................................................................................. 93
5.5.2 Dialog................................................................................................................................... 94
5.6 Integration .................................................................................................................................. 95
5.6.1 Binauralisierung ................................................................................................................... 95
5.6.2 Lineares Intro....................................................................................................................... 96
5.6.3 Interaktiver Film .................................................................................................................. 97
5.7 Fazit ............................................................................................................................................ 99
6. Zusammenfassung .......................................................................................................................... 100
7. Literaturverzeichnis ........................................................................................................................ 101
VI
Abkürzungsverzeichnis
3DOF – Three degrees of freedom
6DOF – Six degrees of freedom
ADM – Audio Definition Model
API - Application Programming Interface
BPM – Beats per minute
BRIR – Binaural Room Impulse Response
BWF – Broadcast Wave Format
DAW – Digital Audio Workstation
DCA – Digitally Controlled Amplifier
DSP – Digital Signal Processor
ESMA – Equal Segment Microphone Array
FOA – First Order Ambisonics
HRIR – Head-Related Impulse Response
HPF – Hochpass-Filter
HRTF – Head-Related Transfer Function
HOA – Higher Order Ambisonics
HMD – Head-Mounted Display
PCM – Pulse-Code-Modulation
RTPC – Real Time Parameter Control
SC – Side-Chain
TPF – Tiefpass-Filter
VCA – Voltage Controlled Amplifier
VR – Virtual Reality
VII
Abbildungsverzeichnis
Abbildung 1: Kategorisierung der VR-Landschaft (Bildquelle: Susal, Krauss, Tsingos & Altman, 2016,
S. 2) ................................................................................................................................................... 3
Abbildung 2: Kopfbezogenes Koordinatensystem zur Beurteilung der Hörereignisrichtung (Bildquelle:
Dickreiter, 2014, S. 128) .................................................................................................................... 4
Abbildung 3: Richtungsbasierende Frequenzbänder nach Versuchen von Blauert bei der
Richtungslokalisation auf der Medienebene (Sengpiel, o.J.a) ........................................................... 5
Abbildung 4: Six degrees of freedom (6DOF) (Bildquelle: Susal et al., 2016, S. 3) .................................. 7
Abbildung 5: Kopfbezogenes Koordinatensystem (Bildquelle: Blauert & Braasch, 2008, S. 88) ............. 9
Abbildung 6: Darstellung der winkelabhängigen Amplitude 𝑌𝑚𝑛𝜎 der sphärischen Harmonischen (0.
bis 2. Ordnung) mit den in der Fourier-Bessel-Reihe verwendeten Indizes (Slavik & Weinzierl,
2008, S. 661). (Bildquelle: https://en.wikipedia.org/wiki/Spherical_harmonics) ............................ 10
Abbildung 7: Sennheiser AMBEO VR MIC (Bildquelle: https://de-
de.sennheiser.com/img/10069/product_detail_x2_tablet_AMBEO_VR_Mic-sennheiser-01.jpg) .. 17
Abbildung 8: MH Acoustics em32 Eigenmike® (links) und VisiSonics 5/64 Audio Visual Camera (rechts)
in relativen Größenverhältnissen (Bildquellen:
https://mhacoustics.com/sites/default/files/s1_0.jpg, http://visisonics.com/wp-
content/uploads/2014/09/newcamera.jpg) ................................................................................... 20
Abbildung 9: Quad-binaurales Mikrofonarray 3Dio Omni Binaural Microphone (Bildquelle:
https://cdn.shopify.com/s/files/1/0995/9804/products/Omni_2_WebReady_grande.jpg?v=14652
82518) ............................................................................................................................................. 21
Abbildung 10: ORTF-3D in Windkorb von unten (Bildquelle:
https://www.hauptmikrofon.de/images/ORTF3D_TopView_small.jpg) ......................................... 23
Abbildung 11: Anordnung der Kapseln als vertikales XY-Mikrofonpaare (Bildquelle: Wittek & Theile,
2017, S. 6) ....................................................................................................................................... 23
Abbildung 12: ESMA mit vier vertikal ausgerichteten MS-Mikrofonanordnungen zur 3D-Aufnahme
(Bildquelle: Lee, 2016, S. 9) ............................................................................................................. 25
Abbildung 13: Einstellung des globalen Raummodells in der Facebook 360 Spatial Workstation
(Bildquelle: Facebook 360 Spatial Workstation) ............................................................................. 27
Abbildung 14: Spatialiser-Plugin der Facebook 360 Spatial Workstation zum 3D-Panning von
Schallquellen (Bildquelle: Facebook 360 Spatial Workstation)........................................................ 27
Abbildung 15: Automation der Parameter und Panning in der Rektangularprojektion des sphärischen
Videos in der Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite) ............................... 28
VIII
Abbildung 16: Radar in der Audio Ease 360pan Suite zum Anzeigen von Schallquellen (Bildquelle:
Audio Ease 360pan Suite) ................................................................................................................ 28
Abbildung 17: Metering-Plugin in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360
Spatial Workstation)........................................................................................................................ 29
Abbildung 18: dearVR von Dear Reality zum 3D-Panning von Schallquellen (Bildquelle: Dear Reality
dearVR) ........................................................................................................................................... 30
Abbildung 19: Hemisphärischer Panner (Bildquelle: Blue Ripple Sound, 2018b, S. 48) ........................ 31
Abbildung 20: O3A View beim Schreiben einer Panning-Automation innerhalb der VR mit HMD
(Bildquelle: Blue Ripple Sound, 2018d, S. 1) .................................................................................... 32
Abbildung 21: O3A MS5 algorithmisches Hall-Plugin für Ambisonics 3. Ordnung mit ausführlichen
Einstellungsmöglichkeiten (Bildquelle: Blue Ripple Sound, 2018c, S. 23) ........................................ 33
Abbildung 22: O3A Shoebox-Plugin für Raum-Modelling (Bildquelle: Blue Ripple Sound, 2018c, S. 37)
........................................................................................................................................................ 34
Abbildung 23: Pyramix 11 Track Layout mit objektbasiertem Audio (Bildquelle:
http://www.merging.com/resources/img/news/prs/Track-layout-OBA_1200px.jpg) .................... 39
Abbildung 24: Export nach ADM (Bildquelle:
http://www.merging.com/resources/img/news/prs/ADM-export_1200px.jpg) ............................ 40
Abbildung 25: Beschriftung der Achsen der Space Navigator 3D-Maus von 3DConnexion für 3D-
Panning in Pyramix 11 (Bildquelle: Ryan, 2016) .............................................................................. 41
Abbildung 26: Space Navigator 3D-Maus von 3DConnexion (Bildquelle:
https://www.3dconnexion.de/fileadmin/templates/images/SN_Gallery/01_iso_right.jpg) .......... 41
Abbildung 27: Einsatz von Audio-Middleware nach Kategorisierung in AAA, Pro Casual und Indie
Games 2017 (Schmidt) (Bildquelle:
https://static.wixstatic.com/media/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg/v1/fi
ll/w_630,h_352,al_c,q_80,usm_0.66_1.00_0.01/ebb935_43f7757147854a74bcbe9587ca0010d5~
mv2.jpg) .......................................................................................................................................... 43
Abbildung 28: Preise pro Spiel in USD in Abhängigkeit vom Budget (Audiokinetic, o.J.i; Firelight
Technologies, o.J.f; Tazman-Audio, o.J.b) ....................................................................................... 44
Abbildung 29: Distanz-Kurven in Unity. Dabei besteht die X-Achse aus der Distanz der Schallquelle
vom Hörer und die Y-Achse aus den jeweiligen Eigenschaften (Bildquelle:
https://docs.unity3d.com/uploads/Main/AudioDistanceFunctions.png) ....................................... 46
Abbildung 30: Audio-Mixer-Fenster in Unity (Bildquelle: Unity 2017.3.1f1) ........................................ 47
Abbildung 31: Definieren des Snapshot-Übergangs eines Parameters (Bildquelle:
https://docs.unity3d.com/uploads/Main/AudioMixerTransitionOverrides.png) ............................ 47
Abbildung 32: Unity Timeline mit Audio-Tracks (Bildquelle: Unity 2017.3.1f1) ................................... 48
IX
Abbildung 33: Unity Profiler in „Channel and groups“-Ansicht (Bildquelle: Unity 2017.3.1f1) ............ 49
Abbildung 34: Transport Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 37) .............................. 52
Abbildung 35: Schematic-View in Wwise (Bildquelle: Audiokinetic, 2017, S. 216) ............................... 53
Abbildung 36: Real Time Parameter Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 126) .......... 55
Abbildung 37: User Defined 3D-Panning in Wwise (Bildquelle: Audiokinetic, 2017, S. 164) ................ 56
Abbildung 38: Attenuation Curve Editor in Wwise zur Simulation von Distanz und Richtwirkung
(Bildquelle: Audiokinetic, 2017, S. 157) ........................................................................................... 57
Abbildung 39: Mischpult (oben) und Soundcaster (unten) in Wwise (Bildquelle: Audiokinetic, 2017,
S. 236) ............................................................................................................................................. 59
Abbildung 40: Music Segment Editor in Wwise (Bildquelle: Wwise v2017.2.1) ................................... 60
Abbildung 41: Event Track mit „Single Instrument“ in FMOD (Bildquelle: FMOD Studio 1.10.03) ....... 65
Abbildung 42: Distance Attenuation im Spatializer in FMOD (Bildquelle: FMOD Studio 1.10.03) ........ 68
Abbildung 43: 3D Preview in FMOD mit angezeigtem Abstrahlkegel und Ausbreitung (Bildquelle:
FMOD Studio 1.10.03) ..................................................................................................................... 69
Abbildung 44: Post-Fader Send, Delay und Chorus in FMOD (Bildquelle:
https://www.fmod.com/docs/studio/images/signalChainExample.png)........................................ 70
Abbildung 45: Adaptive Musik durch Transition-Regionen in FMOD (Bildquelle: FMOD Studio 1.10.03)
........................................................................................................................................................ 71
Abbildung 46: Custom Curve Editor von Fabric (Bildquelle: Fabric 2.4) ............................................... 76
Abbildung 47: Definierte Übergänge in Music Component von Fabric (Bildquelle:
http://s3.amazonaws.com/screensteps_live/images/tazman-
audio/288045/2/rendered/1c787f40-fd3f-4625-adcd-7ba929693b4e_display.png)...................... 78
Abbildung 48: Screenshot aus „Asperity“ – Blick des Users nach links zum Piloten des Shuttles......... 89
Abbildung 49: Screenshot aus „Asperity“ – Blick nach vorne mit Bildschirm für Kommunikation mit
Missionskontroll-zentrum, Master-Alarm-Knopf und ISS im Hintergrund....................................... 89
Abbildung 50: Nutzer auf dem spezialangefertigten Spaceshuttle-Sitz mit Beyerdynamic DT-770
Kopfhörer, HTC Vive HMD, HTC Vive Controller und Joystick ......................................................... 89
Abbildung 51: Atmo-Aufnahme für Spaceshuttle ................................................................................. 93
Abbildung 52: Atmo-Aufnahme für Raumklang in Intro ....................................................................... 93
Abbildung 53: Anordnung der unteren Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan
Suite (Bildquelle: Audio Ease 360pan Suite) .................................................................................... 93
Abbildung 54: Anordnung der oberen Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan
Suite (Bildquelle: Audio Ease 360pan Suite) .................................................................................... 93
Abbildung 55: Dreharbeiten von im Shuttle eingeblendeten Video von Ground-Control .................... 94
X
Abbildung 56: Pro Tools Session zur Erstellung von Dialog-Stems für die einzelnen Abschnitte von
„Asperity“ (Bildquelle: Pro Tools) .................................................................................................... 94
Abbildung 57: Capture Log in Wwise mit den Fehlermeldungen beim Einsatz von RealSpeace3D in
„Asperity“ (Bildquelle: Wwise v2017.2.1) ....................................................................................... 95
Abbildung 58: Oculus Spatializer in Wwise (Bildquelle: https://scontent-frt3-
2.xx.fbcdn.net/v/t39.2365-
6/18309151_1855720148014394_8182416502838788096_n.jpg?oh=742f05be7cb18d05786ac85
0c57f190b&oe=5B4D70E6) ............................................................................................................. 96
Abbildung 59: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“
– Leinwand mit Imagefilme der „Asperity Technologies Corp.“ ...................................................... 96
Abbildung 60: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“
– Starts des Spaceshuttles ............................................................................................................... 96
Abbildung 61: Ausschneiden eines Dialog-Teils innerhalb eines Dialog-Stems im Source Editor in
Wwise (Bildquelle: Wwise v2017.2.1) ............................................................................................. 97
Abbildung 62: Playlist eines Dialog-Stems im "Sequence Container" in Wwise (Bildquelle: Wwise
v2017.2.1) ....................................................................................................................................... 98
Tabellenverzeichnis
Tabelle 1: Vergleich der Funktionsumfänge verschiedener Ambisonics-Plugins .................................. 36
Tabelle 2: Von Wwise unterstützte Plattformen (Audiokinetic, o.J.l) ................................................... 51
Tabelle 3: Von FMOD unterstützte Plattformen (Audiokinetic, o.J.l; Firelight Technologies, o.J.a,
Firelight Technologies, o.J.b, Firelight Technologies, o.J.h, Firelight Technologies, o.J.i, Firelight
Technologies, 2016) ........................................................................................................................ 64
Tabelle 4: Vergleich der Funktionsumfänge von Wwise, FMOD, Fabric und Unity............................... 81
Formelverzeichnis
Formel 1: Fourier-Bessel-Reihe .............................................................................................................. 9
1
1. Einleitung
Virtual Reality könnte die Welt der Unterhaltungsindustrie in den nächsten Jahren stark verändern.
Zwar ist es fraglich, ob bestehende mediale Formate komplett verdrängt werden, doch eines ist bereits
klar: VR-Technik ermöglicht, im Vergleich zu traditionellen Medienformen, neue Darstellungsformen
und ein intensiveres Erfahren von Inhalten. Dabei spielt der Ton neben dem Bild eine zentrale Rolle.
Seit den Verkaufsstarts der HTC Vive, der Oculus Rift und PlayStation VR im Jahr 2016 (Berg, 2016;
Kolokythas, 2016; Zwingmann, 2016) können auch Privatkonsumenten1 durch Head-Mounted Displays
und Kopfhörer VR-Inhalte im eigenen Zuhause erfahren. Die Echtzeit-Binauralisierung von Toninhalten
ermöglicht dabei im Zusammenhang mit Headtracking die Wiedergabe von 3D-Sound auf
konventionellen Kopfhörern.
Abhängig vom Grad der Interaktion des Nutzers mit dem Medium ist die Produktion von diesen
Toninhalten mit speziellen Arbeitsabläufen verbunden, welche in dieser Arbeit untersucht werden
sollen. Es folgt zunächst eine Einführung in Virtual Reality, die Darlegung der damit angestrebten Ziele
und eine Kategorisierung von VR anhand der möglichen Interaktion. Nach einer Einführung über das
räumliche Hören wird die Binauraltechnik näher betrachtet, da diese die Grundlage für die
Binauralisierung von 3D-Audio darstellt. Im Anschluss werden die Anforderungen an VR-Audio, die
dafür verwendeten Formate, sowie geeignete Mikrofonsysteme behandelt. Es folgt ein Überblick über
die Produktion der Inhalte, wobei die dafür verwendbare Software gegenübergestellt wird. Das letzte
Kapitel erarbeitet eine Produktionstechnik für den interaktiven VR-Film „Asperity“ und dokumentiert
deren Umsetzung.
1 Für die Verbesserung des Textflusses und der Lesbarkeit wird in dieser Arbeit bei Personenbezeichnungen ausschließlich die grammatikalisch männliche Form verwendet, außer es handelt sich explizit um eine Aussage über eine weibliche Person. Diese Vorgehensweise impliziert keinerlei Wertung.
2
2. Virtual Reality
2.1 Charakterisierung von VR
Die Idee der virtuellen Realität ist nach Behrends (2015, S. 42) alle Eigenschaften der realen Umgebung
auszublenden und durch virtuelle Reize zu ersetzen. Wird die Simulation der virtuellen Welt von einem
Computer durchgeführt, so kann die perfekte virtuelle Realität laut Dörner, Jung, Grimm, Broll & Göbel
(2013, S. 8–9) als perfekte Benutzungsschnittstelle für Software begriffen werden. Nutzer würden
vergessen, dass sie mit einem Computer interagieren und so handeln wie sie es in der realen Welt
gewohnt sind.
VR-Systeme können folgendermaßen charakterisiert werden:
„Virtual Reality refers to immersive, interactive, multi-sensory, viewer-centered,
three-dimensional computer generated environments and the combination of
technologies required to build these environments.“ (Cruz-Neira, SIGGRAPH ’93
Course Notes „Virtual Reality Overview“ nach Dörner et al., 2013, S. 13)
Dörner, Jung et al. (2013, S. 13–14) beschreiben es so, dass 3D-Inhalte auf dreidimensionalen Displays
dargestellt und multisensorisch (zum Beispiel visuell, auditiv und taktil) präsentiert werden.
Körperbewegungen werden im dreidimensionalen Raum verfolgt, wodurch in Echtzeit 3D-
Interaktionen simuliert werden können. Zudem stellt das Tracking der Position und Orientierung des
Nutzers (Head-Tracking) die Grundlage für die blickpunktabhängige Bildgenerierung von VR-Systemen
dar. Dadurch wird es ermöglicht, in Echtzeit eine dreidimensionale Umgebung aus der Perspektive des
Nutzers darzustellen.
Verfahren zur sensorischen Erfassung von Nutzeraktionen sind unter anderem optisches Tracking, 3D-
Mäuse, mechanische Eingabegeräte, akustisches Tracking, elektromagnetisches Tracking, Inertial-
Tracker (mit Trägheits- beziehungsweise Beschleunigungssensoren), Bewegungsplattformen, Finger-
Tracking und Eye-Tracking (Grimm, Herold, Hummel & Broll, 2013).
Für die Ausgabe von Inhalten werden auf visueller Ebene Monitore, Projektionssysteme oder Head-
Mounted Displays, auf akustischer Ebene Mehrkanalsysteme oder Kopfhörer (Travis, 1996, S. 110) und
auf haptischer Ebene Vibrationsmotoren und Subwoofer verwendet (Grimm, Herold, Reiners & Cruz-
Neira, 2013).
3
Für diese Ausgabegeräte definieren Slater und Wolbur (1997 nach Dörner et al., 2013, S. 14) die
folgenden vier technischen Eigenschaften, welche die physikalische Immersion2 bilden:
1. Der Nutzer soll von der äußeren Umgebung isoliert sein und alle Sinneseindrücke sollen
ausschließlich vom Computer generiert werden.
2. Es sollen möglichst viele Sinne angesprochen werden.
3. Die Ausgabegeräte sollen den Nutzer vollständig umgeben.
4. Die Ausgabegeräte sollen durch hohe Auflösung und Qualität eine „lebendige“ Darstellung
ermöglichen.
Da beispielsweise Head-Mounted Displays (HMD) ausschließlich computergenerierte visuelle
Eindrücke ermöglichen, sind diese als immersive Displays zu betrachten, wobei HMDs mit größerem
Sichtfeld, immersiver als HMDs mit kleinem Sichtfeld sind (Dörner et al., 2013, S. 14).
Die Interaktion mit der virtuellen Realität ist jedoch bisher noch immer durch den Verlust von
Raumbezügen beschränkt, welche durch den Gleichgewichtssinn und die Tiefensensibilität vermittelt
werden (Behrends, 2015, S. 42). Es ist eine große Herausforderung das Körpergefühl des Nutzers mit
seinen visuellen und auditiven Reizen zu vereinen (Cue to Create, 2013 nach Behrends, 2015, S. 42).
2.2 Interaktive versus lineare VR
Abbildung 1: Kategorisierung der VR-Landschaft (Bildquelle: Susal, Krauss, Tsingos & Altman, 2016, S. 2)
VR-Erlebnisse können nach Susal, Krauss, Tsingos & Altman (2016, S. 2) in interaktive und lineare
Anwendungen unterteilt werden (s. Abbildung 1). Zur interaktiven VR gehören Spiele und interaktive
2 Bei dem Begriff der Immersion ist nach Sherman und Craig (2003 nach Dörner, Jung, Grimm, Broll und Göbel, 2013, S. 14) zwischen physikalischer und mentaler Immersion zu unterscheiden, wobei ersteres zum Beispiel die technische Eigenschaft eines VR-Displays darstellt und letzteres die mentale Qualität beim Erleben von VR (Dörner et al. 2013, S. 14).
4
Filme, bei denen der Zuschauer in Echtzeit das Geschehen steuert und aktiver Akteur in der Storyline
ist. Zur linearen VR gehören filmische oder experimentelle Geschehnisse, bei denen der Zuschauer
seinen Standpunkt steuern oder Verzweigungspunkte innerhalb einer linearen Zeitachse auswählen
kann. Den Inhalt an sich kann er dabei jedoch nicht verändern. Aber er kann in der Lage sein, den Ton
abhängig von der Blickrichtung zu beeinflussen, wie zum Beispiel die Verstärkung von Elementen mit
direkter Sichtverbindung (ebd.).
2.3 Räumliches Hören
Die räumliche Wahrnehmung des Gehörs besteht nach Dickreiter (2014, p. 127) aus der
Richtungswahrnehmung und der Entfernungswahrnehmung. Durch diese beiden Komponenten wird
die räumliche Ausdehnung einer Schallquelle wahrgenommen (ebd.). Für die Beschreibung der
Hörereignisrichtung vom Kopf des Hörers wird ein Koordinatensystem aus der Horizontal-, Frontal-
und Medianebene verwendet (s. Abbildung 2) (ebd.).
Abbildung 2: Kopfbezogenes Koordinatensystem zur Beurteilung der Hörereignisrichtung (Bildquelle: Dickreiter, 2014, S. 128)
Auf der horizontalen Ebene werden Hörereignisse durch Laufzeitdifferenzen und frequenzabhängige
Pegelunterschiede zwischen beiden Ohren lokalisiert (Dickreiter, 2014, S. 127–128). Auf der
Medienebene ist keine interaurale Pegel- und Laufzeitdifferenz vorhanden. Die Hörereignisrichtung
wird hierbei durch individualspezifische richtungsbestimmende Frequenzbänder für vorne, oben und
hinten ermittelt (Blauert, 1974 nach Blauert & Braasch, 2008, S. 94). Durch die charakteristische
Filterwirkung der Außenohren werden bei breitbandigen Signalen bestimmte Spektralanteile
angehoben und abgesenkt, wodurch Hörereignisse einer Schalleinfallsrichtung zugeordnet werden
können (Blauert & Braasch, 2008, S. 95) (s. Abbildung 3).
5
Abbildung 3: Richtungsbasierende Frequenzbänder nach Versuchen von Blauert bei der Richtungslokalisation auf der Medienebene (Sengpiel, o.J.a)
In Abbildung 3 lässt sich unter anderem erkennen, dass mit der größten relativen Häufigkeit das Band
um 1 kHz als „hinten“ lokalisiert wird. Der Erhebungswinkel zum Hörereignis auf der Medianebene und
die Lokalisation von vorne und hinten werden durch spektrale Veränderungen gebildet (Dickreiter,
2014, S. 128). Auf der Frontalebene erfolgt die Beurteilung der Hörereignisrichtung durch
Laufzeitdifferenzen und komplexe Klangfarben- und Pegeldifferenzen (ebd.).
Die Schallübertragung aus dem Freifeld für einen bestimmten Schalleinfallswinkel am Eingang des
Gehörgangs wird dabei durch die Außenohrübertragungsfunktion (HRTF3) beschrieben (Sengpiel,
o.J.b). Die damit verbundenen spektralen Besonderheiten werden von Görne (2015, S. 126) als „HRTF-
Kammfilter“ bezeichnet. Webers (2007, S. 232) beschreibt diese spezielle Eigenschaft des Gehörgangs
als frequenzabhängige Richtcharakteristik. Durch eine Bewegung des Kopfes und die damit
verbundene Veränderung der HRTF werden weitere Richtungsinformationen gewonnen (Görne, 2015,
S. 126).
Damit der von der HRTF erzeugte Kammfilter in Bezug auf die Richtungslokalisation eine möglichst
große Wirkung erzielen kann, ist ein breitbandiges Schallsignal mit hochfrequentem Anteil nötig
(Görne, 2015, S. 126). Schmalbandige Signale können hingegen auf der Medianebene nicht lokalisiert
3 Head-Related Transfer Function
6
werden (Dickreiter, 2014, S. 132). Weiter ist die Lokalisation zuverlässiger, wenn das Schallsignal dem
Hörer bereits bekannt ist (Blauert & Braasch, 2008, S. 95; Görne, 2015, S. 126).
2.4 Binauraltechnik
Eine Voraussetzung für die optimale Wiedergabe von Signalen über Kopfhörer ist, dass Stereosignale
gemäß dem natürlichen Hören Laufzeit- und Pegelunterschiede enthalten und beide Kanäle anhand
der HRTF gefiltert wurden (Görne, 2015, S. 131). Die binaurale Reproduktion eines Schallfeldes kann
einerseits durch die Aufnahme mit Kunstkopfmikrofonen oder sich in den Ohren befindenden
Sondenmikrofonen, andererseits durch die Faltung von raumbezogenen Aufnahmen im Computer mit
einer gespeicherten HRTF erreicht werden (ebd.). Ohne dieser Vorgehensweise kommt es beim Hören
über Kopfhörer zur sogenannten Im-Kopf-Lokalisation, da das Außenohr keinen Einfluss auf das
Schallfeld hat und dadurch Phantomschallquellen auf einer Verbindungslinie im Kopf zwischen beiden
Ohren angeordnet werden (ebd.).
Durch Messungen von Impulsantworten von Lautsprechern in bestimmten Winkeln für das linke und
rechte Ohr werden HRTFs (Head-Related Transfer Function), HRIRs (Head-Related Impulse Response)
oder BRIRs (Binaural Room Impulse Response) erstellt (Shivappa, Morrell, Sen, Peters & Salehin, 2016,
S. 3). HRTFs und HRIRs charakterisieren, wie eine Person im Freifeld einen Klang (aus einem
Lautsprecher) aus einer bestimmten Richtung und Distanz empfängt (ebd.). BRIRs erfassen zusätzlich
die akustischen Effekte eines Raumes (ebd.).
Um also ein binaurales Stereosignal für Kopfhörer aus einer VR-Audio-Repräsentation zu erstellen,
werden Datensätze von HRTFs (beziehungsweise BRIRs) genutzt, um Lautsprechersignale mit der
geeigneten Impulsantwort zu filtern (Shivappa et al., 2016, S. 3). Folglich wird für jede spezifische
Lautsprecherposition die dazugehörige HRTF (beziehungsweise BRIR) benötigt (ebd.).
Durch BRIRs werden häufig lokale Räume erfasst und simuliert, in denen mit Kopfhörern gehört
werden soll (Shivappa et al., 2016, S. 3). Dies hilft bei der Externalisierung, Immersion und Lokalisierung
von Ton (ebd.).
7
3. VR-Audio
Dieses Kapitel stellt die Anforderungen an Audio für VR heraus, geht auf die damit verbundene
Wiedergabe über Kopfhörer ein und erläutert für VR geeignete Audio-Formate.
3.1 Anforderungen
Für VR-Anwendungen wird eine flexible, räumliche
Darstellung von Audio benötigt, da der Zuschauer zu jeder
Zeit seinen Blickwinkel (3DOF4) und gegebenenfalls
zusätzlich seine Position (6DOF, s. Abbildung 4) frei
verändern kann (Susal et al., 2016, S. 3). Aus diesem Grund
ist es nötig, dass der Ton aus jeder beliebigen Richtung
nahtlos, mit gleicher Qualität und mit derselben
räumlichen Präzision dargestellt wird.
Dabei sollten nicht-diegetische Hintergrundelemente oder Musik bei der Mischung aber trotzdem
bevorzugt kopfbezogen gehalten werden (Susal et al., 2016, S. 5). Das heißt, dass Kopfbewegungen
nicht zu einem veränderten Rendering dieser Signale führen. Diegetische Soundeffekte oder Dialoge
sollten hingegen szenenbezogen sein und sich an die getrackten Kopfbewegungen des Nutzers
anpassen (ebd.). Diese Abgrenzung kann beispielsweise als künstlerisches Element für
Sprecherstimmen eingesetzt werden (Susal et al., 2016, S. 7).
3.2 Wiedergabe über Kopfhörer
Die traditionelle Wiedergabe über Lautsprechersysteme mit einem Head-Mounted Display (HMD stellt
nach Oculus (o.J.b) aufgrund von Headtracking und der Bewegung des Nutzers eine Sackgasse dar.
Kopfhörer haben hingegen die Vorteile, dass eine akustische Isolation des Hörers von der Umwelt
stattfindet, Headtracking vereinfacht wird und – im Falle von Headsets – ideal platzierte Mikrofone
eingesetzt werden können (ebd.). Zusätzlich ist eine einfache dreidimensionale Audiowiedergabe
mittels Binauraltechnik möglich.
4 Three degrees of freedom
Abbildung 4: Six degrees of freedom (6DOF) (Bildquelle: Susal et al., 2016, S. 3)
8
Weiter konnte von Hanschke et al. (2016 nach Shivappa et al., 2016, S. 4) gezeigt werden, dass über
Kopfhörer mit dynamischem Headtracking immersive, kanalbasierte Inhalte in verhältnismäßig
gleicher immersiver Qualität wiedergeben werden können, wie über Lautsprecher.
Ein VR-Audio-System mit Kopfhörern muss nach Shivappa et al. (2016, S. 3) zusätzlich zu den
generellen Qualitätsanforderungen von Ton zu Bild folgende Kriterien erfüllen: Es muss eine akkurate
Lokalisierung von Ton in alle Richtungen erfolgen und eine dynamische Binauralisierung des
Schallfeldes durch Headtracking. Dabei ist eine präzise, hochauflösende Rotation des Schallfeldes
nötig, welche mit der menschlichen Wahrnehmung in einer Auflösung von bis zu einem Grad
übereinstimmt. Weiter darf die Latenz zwischen Bewegung und Ton nicht wahrnehmbar sein.
Gleichzeitig kann es jedoch auch wünschenswert sein einige Elemente, durch das Umgehen von
binauralem Processing während der Wiedergabezeit, in höherer Klangtreue zu rendern (Susal et al.,
2016, S. 5). Dies kann speziell bei Musik sinnvoll sein, da Instrumente wie Snaredrums durch die HRTF
Präzision und Attack verlieren können (Susal et al., 2016, S. 7). In diesem Fall ist es empfehlenswert
diese von der Binauralisierungsprozess auszuschließen.
3.3 Formate für VR-Audio
Aktuell werden hauptsächlich Ambisonics und objektbasiertes Audio verwendet (Susal et al., 2016,
S. 3). Weiter kommt für lineares VR-Audio das kanalbasierte Quad-binaurale Format zum Einsatz (Lee,
2016, S. 2).
3.3.1 Ambisonics
Bereits in den 1970er Jahren wurden die theoretischen Grundlagen vom Ambisonics-Verfahren
überwiegend von dem Mathematiker Michael Gerzon entwickelt (Gerzon, 1973 nach Slavik &
Weinzierl, 2008, S. 559). Das Verfahren ermöglicht eine theoretisch beliebig genaue Übertragung von
realen, dreidimensionalen Schallfeldern sowie das Synthetisieren von virtuell erzeugten (Slavik &
Weinzierl, 2008, S. 659). Dabei nimmt die Genauigkeit mit der Anzahl der für die Übertragung
verwendeten Kanäle bei der Aufnahme und Anzahl der Lautsprecher bei der Wiedergabe zu (ebd.).
Während sich das Verfahren früher auf dem Tonträgermarkt nicht durchsetzen konnte, hat es seit Ende
der 1990er Jahre durch die Einführung von Higher Order Ambisonics (HOA) ein Revival erlebt (Nicol &
Emerit, 1999; Malham, 1999 nach Slavik & Weinzierl, 2008, S. 660). Die Aufnahme in den MPEG-H
Standard (ISO/IEC 23008-3) kann dabei als großer Erfolg bewertet werden (Meyer & Elko, 2016, S. 1).
9
3.3.1.1 Grundlagen
Ambisonics basiert auf einem physikalischen Ansatz, der die vorkommende Wellenfront am Ort des
Hörers codiert (Susal et al., 2016, S. 3). Dabei wird das dreidimensionale Schallfeld durch eine Fourier-
Bessel-Reihe beschrieben und die Richtung aus der Perspektive des Hörers durch Kugelkoordinaten
(Radius r, Azimuth φ und Elevation δ, s. Abbildung 5) angegeben (Slavik & Weinzierl, 2008, S. 660).
Abbildung 5: Kopfbezogenes Koordinatensystem (Bildquelle: Blauert & Braasch, 2008, S. 88)
Es gilt:
𝑝(𝑟) = ∑ 𝑖𝑚𝑗𝑚(𝑘𝑟) ∑ 𝐵𝑚𝑛𝜎𝑌𝑚𝑛
𝜎(𝜑, 𝛿)
0≤𝑛≤𝑚,𝜎=±1
∞
𝑚=0
Formel 1: Fourier-Bessel-Reihe
Die mit dem Faktor der Komponenten 𝐵𝑚𝑛𝜎 multiplizierten Funktionen 𝑌𝑚𝑛
𝜎 werden als sphärische
Harmonische bezeichnet (Slavik & Weinzierl, 2008, 669-661). Das Schallfeld 𝑝(𝑟) besteht aus
Überlagerung von sphärischen Harmonischen der Ordnung 𝑚, welche radial mit sphärischen
Besselfunktionen 𝑗𝑚(𝑘𝑟) und einem Phasenfaktor 𝑖𝑚 gewichtet werden (Slavik & Weinzierl, 2008,
S. 661). In Abbildung 6 wird die winkelabhängige Amplitude der sphärischen Harmonischen 𝑌𝑚𝑛𝜎
dargestellt. Anhand der sphärischen Besselfunktion lässt sich erkennen, dass der Schalldruck im
Ursprung (𝑘𝑟 = 0) bereits durch die Harmonische 0. Ordnung 𝐵001 gegeben ist (ebd.). Die
Harmonischen höherer Ordnung synthetisieren das Schallfeld dann weiter in zunehmendem Abstand
vom Ursprung (ebd.).
10
Abbildung 6: Darstellung der winkelabhängigen Amplitude 𝑌𝑚𝑛𝜎 der sphärischen Harmonischen (0. bis 2. Ordnung) mit den
in der Fourier-Bessel-Reihe verwendeten Indizes (Slavik & Weinzierl, 2008, S. 661). (Bildquelle: https://en.wikipedia.org/wiki/Spherical_harmonics)
Für die Reproduktion des Schallfeldes werden die Komponenten 𝐵𝑚𝑛𝜎 der Fourier-Bessel-Reihe (s.
Formel 1) übertragen (Slavik & Weinzierl, 2008, S. 661). Eine größere Anzahl an übermittelten
Komponenten führt dabei zu einer genaueren Synthese und Resynthese des Schallfeldes. Die
Komponente 𝐵001 stellt den Schalldruck im Ursprung dar (in Ambisonics-Terminologie W), 𝐵11
−1,
𝐵11−1 und 𝐵10
1 stellen die Druckgradienten beziehungsweise die Schnellekomponenten in die drei
Richtungen des Raumes dar (in Ambisonics-Terminologie X, Y, Z). Diese vier Komponenten bilden das
vierkanalige B-Format (FOA5).
Für die Synthese und Resynthese eines Schallfeldes mit Ambisonics 𝑚-ter Ordnung, werden (𝑚 + 1)2
Übertragungskanäle (Komponenten) benötigt (Slavik & Weinzierl, 2008, S. 662).
3.3.1.2 Kodierung
Die Encodierung bedeutet, bei Ambisonics, die Komponenten 𝐵𝑚𝑛𝜎 eines realen oder virtuellen
Schallfeldes durch ein Ambisonics-Mikrofon oder basierend auf einem Schallfeld-Modell zu gewinnen
(ebd.). Die Dekodierung und Resynthese dieser Komponenten für eine zentrale Hörposition erfolgt
dann durch Überlagerung von Lautsprechersignalen (ebd.). Eine größere Anzahl von Komponenten
führt zu einem größeren korrekt resynthetisierten Bereich (ebd.). Voraussetzend ist dabei, dass das
aufgenommene Schallfeld eine ebene Welle ist und die Lautsprecher bei der Wiedergabe ebenfalls
ebene Wellen abstrahlen (ebd.).
5 First Order Ambisonics
𝑌001 (𝑊)
𝑌11−1(𝑌) 𝑌10
1 (𝑍) 𝑌111 (𝑋)
𝑌22−1(𝑉) 𝑌21
−1(𝑇) 𝑌201 (𝑅) 𝑌21
1 (𝑆) 𝑌221 (𝑈)
1. Ordnung:
2. Ordnung:
0. Ordnung:
11
Diese ebene Welle wird anhand ihrer Einfallsrichtung durch reelle Gewichtungsfaktoren zu den
Ambisonics-Komponenten enkodiert, welche die Übertragungskanäle bilden und für eine konkrete
Lautsprecherkonfiguration bei der Wiedergabe dekodiert werden müssen (ebd.). Dabei werden die
Wiedergabesignale aus den Komponenten und der Konfiguration des Wiedergabesystems abgeleitet.
Dies setzt aber voraus, dass die Anzahl der Lautsprecher mindestens so hoch ist wie die der
Ambisonics-Komponenten. Andernfalls treten mehr mathematische Gleichungen als unbekannte
Variablen auf und es kann keine korrekte Lösung garantiert werden (Slavik & Weinzierl, 2008, S. 663).
Die räumliche Information des Schallfeldes wird bei Ambisonics direkt in den PCM-Wellenformen der
Signale codiert (Susal et al., 2016, S. 3). Die Signale können dann weiter manipuliert (zum Beispiel
rotiert) und auf einer Vielfalt von Wiedergabesystemen, inklusive binaural über Kopfhörer, decodiert
werden (ebd.).
3.3.1.3 Higher Order Ambisonics
Ordnungen höher als FOA werden als Higher Order Ambisonics (HOA) bezeichnet. Diese bieten im
Gegensatz zu FOA eine präzisere und akkuratere Darstellung des gesamten Schallfeldes in höherer
räumlicher Auflösung (Shivappa et al., 2016, S. 4). Weiter ist der Sweetspot größer als bei FOA (Bertet
et al., 2009 nach Shivappa et al., 2016, S. 4). Untersuchungen von Frank & Zotter (2017) über die Größe
dieses optimalen Hörbereichs des reproduzierten Schallfeldes bei unterschiedlichen Ambisonics
Ordnungen haben ergeben, dass der mediane Radius des Sweetspots bei Ambisonics 1. Ordnung die
Hälfte des Lautsprecherradius beträgt und bei 3. Ordnung zwei Drittel.
Hörtests von Thresh, Armstrong & Kearney (2017) mit optimierten echten und virtuellen
Lautsprecherarrays und mit Hilfe eines generischen HRTFS-Satzes haben ergeben, dass bei der
Zunahme der Ambisonics Ordnung von der 1. auf die 3. die größte Verbesserung der
Lokalisierungsschärfe, mit einer Zunahme von 7° bis 10°, auftritt. Die Zunahme auf Ambisonics 5.
Ordnung habe lediglich zu einer Zunahme von ca. 2° geführt. Das weist laut Thesh et al. (2017) darauf
hin, dass bei der Simulation mit BRIRs ohne individuelle HRTFs, der Nutzen von Ambisonics 5. Ordnung
im Vergleich zu 3. Ordnung nur einen geringen Vorteil bringt.
3.3.1.4 Vorteile
Da sphärische Harmonische die Grundlage von Ambisonics darstellen, wird eine effiziente und flüssige
Rotation des Schallfeldes ermöglicht (Shivappa et al., 2016, S. 4). Durch spezielle Algorithmen ist es
möglich die HOA-Koeffizienten, unabhängig von der Komplexität der Szene und Anzahl der für das
12
Rendering benutzten virtuellen Lautsprecher effizient zu binauralisieren (ebd.). Das stellt für eine auf
Headtracking basierende Binauralisierung von VR-Audio auf Geräten mit schwacher Rechenleistung
einen wichtigen Vorteil dar (ebd.). Da Audio auf dem Gerät des Konsumenten gerendert wird, können
von binauralen bis zu immersiven Surround Sound Systemen alle standardisierten und nicht-
standardisierten Wiedergabesetups versorgt werden (Shivappa et al., 2016, S. 4–5).
Weiter ist bei Ambisonics eine effiziente und akkurate Darstellung des Schallfeldes mit einer
begrenzten Anzahl von Komponenten möglich, welche nur von der Ordnung der Darstellung abhängt
(Shivappa et al., 2016, S. 4). Außerdem können diese Koeffizienten unabhängig von der Komplexität
der Szene auf eine feste Bandbreite komprimiert werden (ISO/IEC, 2015 nach Shivappa et al., 2016,
S. 4). Dadurch wird eine sehr hohe räumliche Auflösung und Klangtreue bereitgestellt, ohne dass deren
Komplexität durch die Bandbreite von Objekten oder Kanälen begrenzt wird (Shivappa et al., 2016,
S. 5). Ein weiterer Vorteil sind die kompakten Mikrofon-Arrays, durch welche das Schallfeld
aufgenommen wird (Shivappa et al., 2016, S. 6).
Ambisonics wird zudem bereits von Facebook und Google zur Veröffentlichung von 360°-Videos
genutzt wird (Facebook, o.J.; YouTube, o.J.), was eine kostengünstige Verbreitung ermöglicht.
3.3.1.5 Nachteile
Ein Nachteil vom HOA ist, dass eine stark steigende Anzahl von PCM-Kanälen benötigt wird, um
detailliertere räumliche Informationen zu codieren: lediglich vier Kanäle für FOA, aber bereits sechzehn
Kanäle für 3rd Order (Susal et al., 2016, S. 3). Aus diesem Grund bleibe Ambisonics hauptsächlich in
niedriger Ordnung praktikabel. Dabei kann es jedoch zu einem Qualitätsverlust kommen, was Wittek
(2015) folgendermaßen beschreibt:
„Als Speicherformat für beliebige räumliche Signale ist Ambisonics sehr gut
geeignet, aber wiederum nur, wenn die Ordnung groß genug ist. Ein
Speicherformat mit nur vier Kanälen (bei Ambisonics heißen diese 4 Kanäle erster
Ordnung W, X, Y, Z) erzeugt aus jeder 3D-Aufnahme einen Brei, denn die vormals
gute Signaltrennung im 3D-Setup wird durch die Mischung auf 4 Kanäle zerstört.“
Die niedrige Auflösung von FOA beschränkt die korrekte Resynthese des Schallfeldes, speziell für hohe
Frequenzen, auf einen kleinen Sweetspot (Bertet, Daniel & Moreau, 2006).
Weiter ist das Ambisonics-Format hauptsächlich für 3DOF-Wiedergabeszenarien geeignet (Susal et al.,
2016, S. 3). Bei 6DOF müssten für jedes Verhalten unterschiedliche Sub-Mixe erstellt werden.
13
Beim Einsatz von Ambisonics tritt in Bezug auf nicht-diegetischen Filmton das Problem auf, dass
innerhalb einer Ambisonics-Mischung nur ein Mono-Signal nicht-diegetisch platziert werden kann.
Dies stellt zum Beispiel für den Einsatz von Musik in Stereo einen Nachteil dar. Weiter ist es nicht
möglich einzelne Elemente aus dem Binauralisierungsprozess auszuschließen, da ein Decoder ohne
Meta-Daten die Binauralisierung einer Ambisonics-Mischung durchführt.
3.3.1.6 Ambisonics-Formate
Die Unterschiede der folgenden Ambisonics-Formate liegen innerhalb ihrer Kanalanordnung und
Normalisierung. Im Folgenden werden für VR relevante Formate und ihre Eigenschaften kurz
dargelegt.
ambiX
Bei ambiX sind die Kanäle nach der Ambisonics Channel Number (ACN) angeordnet, welche aus den
Koeffizienten der jeweiligen sphärischen Harmonischen abgeleitet werden (Chapman et al., 2009, S. 3).
Die daraus resultierende Kanalanordnung für die Kanäle 0 bis 15 ist (W), (Y, Z, X), (V, T, R, S, U),
(Q, O, M, K, L, N, P). Hierbei sind die jeweiligen Ordnungen von 0 bis 3 durch Klammern dargestellt. Die
sphärischen Harmonischen sind dabei nach der Schmidt Semi-Normalisierung (SN3D) normalisiert
(Carpentier, 2017, S. 2).
FuMa
Bei FuMa erfolgt die Normalisierung der sphärischen Harmonischen hingegen nach dem eigenen
Schema von Furse und Malham (ebd.), wobei zusätzlich der W-Kanal mit 1/√2 gewichtet wird und die
Kanalanordnung der ersten 16 Kanäle aus (W), (X, Y, Z), (R, S, T, U, V), (K, L,M,N, O, P, Q) besteht
(Malham, 2003, S. 3–4). Hierbei sind die jeweiligen Ordnungen von 0 bis 3 durch Klammern dargestellt.
FuMa mit MaxN-Normalisierung
Weiter gibt es noch die Variante einer FuMa-Kanalanordnung mit MaxN-Normalisierung, welche zum
Beispiel von Audiokinetic Wwise (Audiokinetic, o.J.n) genutzt wird. Diese Normalisierung
unterscheidet sich von der FuMa-Normalisierung jedoch lediglich in der Gewichtung des W-Kanals
(Carpentier, 2017, S. 2).
Hybrid Higher Order Ambisonics (Facebook)
Facebook hat für seine 360°-Videos ein achtkanaliges Format entwickelt, welches von Facebook selbst
als Hybrid Higher Order Ambisonics bezeichnet wird (Fugal & Nair, 2017; Harvey, 2017). Es wird dabei
die Soundqualität von HOA mit acht Kanälen angestrebt. Durch den Encoder der Facebook 360 Spatial
Workstation ist es möglich dieses Format zu erstellen.
14
3.3.2 Objektbasiertes Audio
3.3.2.1 Prinzip
Objektbasierte Ansätze stellen eine komplexe auditive Szene als eine Sammlung einzelner Elemente
dar, welche jeweils aus einer Audio-Wellenform und Metadaten bestehen (Susal et al., 2016, S. 3).
Diese Metadaten verkörpern die künstlerische Intention, die für die Übertragung des Audio-Elements
in das finale Reproduktionssystem spezifiziert wird. Dafür werden allgemein monophone Audiospuren
benutzt, welche als Audio-Objekte auf horizontaler Ebene oder im dreidimensionalen Raum anhand
von Metadaten positioniert werden (ebd.). Basierend auf diesen Metadaten wird die Szenerie bei der
Wiedergabe vom Konsumenten durch einen Rendering-Algorithmus konstruiert (Shivappa et al., 2016,
S. 4). Durch Audio-Objekte können zudem virtuelle 3D-Lautsprechersetups erstellt und zur binauralen
Synthese verwendet werden (Wittek, 2015; Wittek & Theile, 2017, S. 9). Auf diese Weise können zum
Beispiel auch traditionelle Surround-Anordnungen wiedergegeben werden.
Interaktive Sound-Engines von Videospielen oder Simulatoren manipulieren auf eine ähnliche Weise
Sound-Objekte zu Punktschallquellen in komplexen, dynamischen Klanglandschaften. Aus diesem
Grund sind sie in der Lage eine große Anzahl von Metadaten zu speichern, die das Verhalten der
Objekte bestimmen (Susal et al., 2016, S. 3).
3.3.2.2 Vorteile
Da positionierende Metadaten, zum Beispiel anhand von Head-Tracking, dynamisch modifiziert
werden können, eigenen sich objektbasierte Darstellungen gut für VR-Anwendungen (Susal et al.,
2016, S. 4). Im Gegensatz zu Ambisonics, bieten sie nach Susal et al. (2016, S. 4) eine bessere Mischung
aus räumlicher Treue und Interaktivität, da Objekte diskret und individuell mit Metadaten versehen
werden können, die spezifisches Verhalten im Rendering-Prozess kennzeichnen. Die räumliche
Genauigkeit ist ebenfalls nur von Metadaten abhängig und ist nicht direkt an die Anzahl von Kanäle
gebunden (ebd.). Aus diesen Gründen ist objektbasiertes Audio besonders gut für Anwendungen
geeignet, die 6DOF-Wiedergabe mit hoher räumlicher Genauigkeit benötigen (ebd.).
Objektbasiertes Audio ermöglicht Nutzern zudem eine Personalisierung von Inhalten. Neben einer
Auswahl an verschiedenen Sprachen, kann zum Beispiel die Lautstärke der Sprache einzelner
Schauspieler individuell angepasst werden, um dem Dialog folgen zu können (Susal et al., 2016, S. 7).
Objekte können entweder individuell durch eine diskrete HRTF-Faltung pro Objekt oder durch einen
Satz von virtuellen Lautsprechern binauralisiert werden. Letzteres wird dann durch eine HRTF-Faltung
pro Lautsprecher binauralisiert (Shivappa et al., 2016, S. 4).
15
3.3.2.3 Nachteile
Der objektbasierte Ansatz benötigt jedoch im Vergleich zum kanalbasierten Produktions-Workflow
einen weiteren Arbeitsschritt, in dem Metadaten für die Objekte generiert werden (Susal et al., 2016,
S. 4). Dies kann automatisch oder durch einen Mixing-Engineer geschehen und besonders in Live-
Anwendungen eine Herausforderung darstellen (ebd.). Für diese Problematik existieren jedoch
verschiedene Lösungen. Beispiele hierfür sind die Konvertierung von räumlichen Mikrofonsignalen in
Sets aus Objekten oder Kanälen (Tsingos et al., 2016; Merimaa, 2002; Meyer & Elko, 2004 nach Susal
et al., 2016, S. 4) und automatisches Panning durch Tracking (Susal et al., 2016, S. 4).
Bei der Aufnahme von objektbasiertem Audio muss akustisches Übersprechen vermieden werden, da
diese die Lokalisation und das Timbre des gerenderten Audio-Objekts beeinflussen (Shivappa et al.,
2016, S. 4). Außerdem erfordert eine rein objektbasierte Repräsentation den Einsatz von individuellen
Audiospuren. Das bedeutet, dass die benötigte Bandbreite für die Übertragung einer Klangszene zu
jedem Zeitpunkt von der Anzahl an gleichzeitig vorhandenen Objekten und somit von ihrer Komplexität
abhängt (ebd.). Da typische filmische Inhalte den gleichzeitigen Einsatz von hunderten Objekte
benötigen, ist die benötigte Bandbreite für Streaming oder Übertragung zu hoch. Lösungen, die aus
diesem Grund mehrere Objekte miteinander verbinden oder ein kanalbasiertes Bett nutzen, mindern
allerdings die hohe räumliche Auflösung und die Möglichkeit des flexiblen Renderings von
objektbasiertem Audio (ebd.).
3.3.2.4 Beispiele für Codecs mit objektbasiertem Audio
Objektbasiertes Audio wird in verschiedenen für VR geeigneten Codecs eingesetzt.
Dolby AC-4
Mit Dolby AC-4 ist es möglich kanalbasiertes und objektbasiertes Audio mit den zugehörigen
Metadaten wie Objekttyp, Position, Ausbreitung und vielen mehr in einem Bitstrom zu übertragen
(Dolby Laboratories, 2015, S. 22). Dabei können abhängig von der Codierung
Lautsprecheranordnungen bis 9.1.4 (vier Höhenkanäle) übertragen werden (Dolby Laboratories, 2015,
S. 8). Diese können dann vom Renderer für die Wiedergabe mit Kopfhörern aufbereitet werden (Dolby
Laboratories, 2015, S. 23).
Allerdings empfiehlt Dolby für VR die Verbreitung als MP4 mit dem Dolby-Digital-Plus (.ec3) Bitstrom
für Dolby Atmos for Virtual Reality Applications (Dolby Laboratories, o.J.). Durch den darin enthaltenen
Dolby Atmos Decoder und Kopfhörer-Renderer, könne auf diese Weise die beste Wiedergabequalität
erreicht werden. Außerdem unterstützt der Dolby Atmos VR Player für Android, Windows oder macOS
16
lediglich Dolby Digital (.ac3) und das auf Dolby Digital basierende Dolby-Digital-Plus (Dolby
Laboratories, 2017, S. 3). Dies bedeutet, dass es zwar möglich ist, die Kanäle für eine 7.1-
Lautsprecheranordnung zu übertragen (Dolby Laboratories, 2008) und als virtuelle
Lautsprecheranordnung abzuspielen, objektbasiertes Audio oder 3D-Lautsprecheranordnungen aber
nicht möglich sind.
MPEG-H
MPEG-H von Fraunhofer fügt kanalbasiertes Audio, Ambisonics und objektbasiertes Audio mit den
zugehörigen Metadaten in einem Audio-Bitstrom zusammen (Fraunhofer IIS, 2017b, S. 3). MPEG-H
Audio ist Teil des ATSC 3.0-Standards für Digitalfernsehen (Fraunhofer IIS, 2017c) und wird in Südkorea
bereits seit 2017 im terrestrischen 4K-Fernsehen eingesetzt (Fraunhofer IIS, 2017a). MPEG-H kann 128
Audiokanäle, 128 Audio-Objekte und HOA bis zur 29. Ordnung übertragen, wobei für den Heimbereich
eine Beschränkung auf 7.1.4 oder 5.1.4 (mit vier Höhenkanälen) als sinnvoll betrachtet wird
(Fleischmann, 2017). Während Fraunhofer zu Beginn verschiedene Standard-Hall-Algorithmen für das
Rendern auf dem Endgerät angeboten hat, ist die aktuelle Produktionsweise, dass vorproduzierte Hall-
Effekte über virtuelle Lautsprechersetups zugemischt werden (Gieselmann, 2016). Für eine binaurale
Wiedergabe in VR mit Kopfhörern wurde von Fraunhofer der Renderer Cingo entwickelt, welcher 3D-
Kanalkonfigurationen und Ambisonics unterstützt und gleichzeitig die freie Positionierung von Sound-
Objekten im virtuellen Raum um den Hörer erlaubt (Fraunhofer IIS, 2017b, S. 2–4).
ADM
Das Audio Definition Model (ADM) ist ein standardisiertes, offenes, auf XML basierendes Metadaten-
Modell für die Beschreibung von kanalbasiertem und objektbasiertem Audio und HOA innerhalb von
Wave-Files im Broadcast Wave Format (BWF) (Geier, Carpentier, Noisternig & Warusfel, 2017; Pike,
Taylor, Parnell & Melchior, 2016, S. 4). Dabei wird das objektbasierte Audio durch einen Satz von
Parametern für zum Beispiel Position und Ausdehnung im 3D-Raum, Sprache oder Lautstärke
beschrieben (International Telecommunication Union, 2016, S. 3; Pike et al., 2016, S. 4).
3.3.3 Quad-binaural
Quad-binaural besteht aus vier Paar vorgerenderten, binauralen Stereokanälen für die Orientierung
des Kopfs nach vorne, hinten, links und rechts (Lee, 2016, S. 2). Entsprechend der Kopfrotation werden
diese dann überblendet, was jedoch zu einer geringen Lokalisationsgenauigkeit und Klangver-
färbungen aufgrund von Kammfiltern führt (ebd.). Weiter unterstützt dieses System nur die Rotation
entlang der Horizontalebene und nicht alle Ebenen des dreidimensionalen Raumes.
17
3.4 Mikrofonsysteme für VR
Für die Aufnahme von VR-Audio gibt es verschiedene Ansätze, die eine Aufnahme des 3D-Schallfeldes
anstreben. Dabei wird im Folgenden von einer Wiedergabe über Kopfhörer im Zusammenhang mit
HMDs und Headtracking ausgegangen. Da eine Kunstkopfaufnahme nicht die Möglichkeit bietet den
Ton an die Blickrichtung des Nutzers anzupassen, ist diese für VR-Anwendungen nicht relevant.
3.4.1 Ambisonics
Mikrofone für Ambisonics basieren auf der „mathematischen Theorie der Schallfeldabtastung auf einer
kugelsymmetrischen Oberfläche“ (Gerzon, 1975 nach Weinzierl, 2008, S. 592) und sind im A-Format
bereits seit Mitte der 1970er erhältlich (Weinzierl, 2008, S. 592).
3.4.1.1 First-Order-Ambisonics-Mikrofonarrays
Abbildung 7: Sennheiser AMBEO VR MIC (Bildquelle: https://de-de.sennheiser.com/img/10069/product_detail_x2_tablet_AMBEO_VR_Mic-sennheiser-01.jpg)
A-Format-Mikrofone (zum Beispiel Soundfield MKV, Sennheiser AMBEO VR MIC, Core Sound TetraMic
oder Oktava MK-4012 4-D) bestehen aus vier Nieren (beziehungsweise bei Soundfield aus vier breiten
Nieren), die in der Form eines Tetraeders angeordnet sind (Bates, Gorzel, Ferguson, O’Dwyer & Boland,
2016, S. 2; Core Sound, o.J.; Octava, o.J.; Sennheiser, o.J.; Sennheiser, 2016; Weinzierl, 2008, S. 592).
Die Kapselabstände werden dabei durch elektronische Kompensation auf den Mittelpunkt des
Tetraeders interpoliert, und es wird eine Koinzidenz bis zu Frequenzen von ca. 10 kHz erreicht
(Weinzierl, 2008, S. 592).
18
Diese vier, durch ein derartiges Mikrofon erhaltenen Signale, werden als A-Format bezeichnet und
können durch Matrizierung in das B-Format umgewandelt werden (Sennheiser, o.J.; Weinzierl, 2008,
S. 593):
A-Format: 1: Front Left Up (FLU)
2: Front Right Down (FRD)
3: Back Left Down (BLD)
4: Back Right Up (BRU)
B-Format: W = FLU + FRD + BLD + BRU
X = FLU + FRD – BLD – BRU
Y = FLU – FRD + BLD – BRU
Z = FLU – FRD – BLD + BRU
Diese vier Signale im B-Format sind koinzident (Weinzierl, 2008, S. 578) und können als das Signal eines
auf drei Raumdimensionen erweiterten MS-Verfahrens verstanden werden (Weinzierl, 2008, S. 41).
Das W-Signal liefert mit einer Kugel-Mikrofoncharakteristik den Druckanteil. X, Y und Z liefern mit der
Mikrofoncharakteristik Acht Gradienten-Anteile für die Richtung entlang der X-,Y- und Z-Achse im
dreidimensionalen Raum (ebd.). Also X für vorne-hinten, Y für links-rechts und Z für oben-unten.
In von Bates & Boland (2016) und Bates et al. (2017) durchgeführten Versuchen mit Hörtests hatte das
Soundfield MKV im Vergleich zum Sennheiser AMBEO VR MIC und Core Sound TetraMic die besten
Ergebnisse in der klanglichen Qualität. In Bezug auf die Richtungsgenauigkeit lieferte das Sennheiser
AMBEO VR MIC die besten Ergebnisse. Jedoch wurde die klangliche Qualität des Sennheiser AMBEO
VR MICs im Vergleich zum Soundfield MKV und Core Sound TetraMic als geringer eingestuft.
Wittek (2015) kritisiert FOA-Mikrofone folgendermaßen:
Mit Ambisonics erster Ordnung kann keine fehlerfeie Reproduktion erreicht
werden, denn die Mathematik dahinter stimmt nur für eine Tennisball-große Hör-
zone. Deshalb gelten eher die Gesetze der Stereofonie - das heißt, ein Ambisonics-
Mikrofon erster Ordnung ist nichts anderes als ein koinzidentes Mikrofon mit den
bekannten Vorteilen (einfach, wenige Kanäle, flexibel) und Nachteilen (sehr breite,
unpräzise Phantomschallquellen, mangelhafte räumliche Qualität).
19
Aufgrund ihrer hohen Kanalkohärenz, sind FOA-Mikrofone nicht in der Lage räumliche Klangbilder zu
erzeugen (Lee, 2016, S. 2). Weiter sei es bei FOA-Mikrofonen nicht möglich alle virtuellen Lautsprecher
mit unabhängigen Signalen zu versorgen, wodurch ein kompromissbehaftetes Resultat entstehe
(Wittek, 2015). Es komme zu Übersprechen auf den virtuellen Lautsprechersignalen (Wittek & Theile,
2017, S. 4).
3.4.1.2 Higher-Order-Ambisonics-Mikrofonarrays
Durch Higher-Order-Ambisonics-Mikrofone ist es möglich räumlich höher aufgelöste Aufnahmen als
mit First-Order-Ambisonics-Mikrofonen zu erzeugen.
Das em32 Eigenmike® von MH Acoustics (s. Abbildung 8, links) besteht aus einem kreisförmigen
Mikrofonarray aus 32 14 mm große Elektret-Kondensatormikrofone mit Kugelcharakteristik, welche
sich auf einer Kugel mit einem Durchmesser von 8,4 cm befinden (Bates et al., 2016, S. 2; MH Acoustics
LLC, o.J.). In der Kugel befinden sich zusätzlich die programmierbaren Mikrofonvorverstärker und 24-
bit A/D-Wandler (Bates et al., 2016, S. 2; MH Acoustics LLC, 2013, S. 2). Diese werden durch ein CAT-
5-Kabel mit der Eigenmike® Microphone Interface Box (EMIB) verbunden, welche die Signale des
em32-Arrays in einen Firewire-Audio-Stream konvertiert (MH Acoustics LLC, 2013, S. 2). Durch die dazu
gehörende EigenStudio®-Softwareanwendung können die rohen Mikrofonsignale aufgenommen
werden, bestimmte Mikrofone kalibriert und FOA und HOA-Signale generiert werden (Bates et al.,
2016, S. 2).
Bei der verwendeten Technik handelt es sich um Beamforming, wobei das Schallfeld wie bei
Ambisonics in sphärische Harmonische zerlegt, encodiert und dann eine gewünschte Ausgabe – bei
Beamforming, ein Beampattern – erzeugt wird (Meyer & Elko, 2016, S. 1–2). Durch die hohe Anzahl an
Mikrofonen ist es möglich die Signale in Ambisonics 4. Ordnung zu konvertieren (Shivappa et al., 2016,
S. 6).
In den bereits zuvor erwähnten Versuchen von Bates & Boland (2016) und Bates et al. (2017) wurde
festgestellt, dass das em32 Eigenmike® im Vergleich zum Sennheiser AMBEO VR Mic, Core Sound
TetraMic und Soundfield MKV in Bezug auf die Richtungsgenauigkeit die besten Ergebnisse liefert, was
in Bezug auf die Klangfarbe und klangliche Qualität jedoch nicht zugetroffen hat. Diese wurde, wie
bereits erwähnt, beim Soundfield MKV als am besten eingestuft.
20
Abbildung 8: MH Acoustics em32 Eigenmike® (links) und VisiSonics 5/64 Audio Visual Camera (rechts) in relativen Größenverhältnissen (Bildquellen: https://mhacoustics.com/sites/default/files/s1_0.jpg, http://visisonics.com/wp-content/uploads/2014/09/newcamera.jpg)
VisiSonics bietet mit der VisiSonics 5/64 Audio/Visual Camera ein kreisförmiges Mikrofonarray aus 64
Mikrofonen in Kombination mit fünf Kameras an (VisiSonics Corporation, o.J.a). Diese sind auf einer
20,32 cm großen Kugel aus Aluminium befestigt (ebd.). Bei der verwendeten Technik handelt es sich
ebenfalls um Beamforming (VisiSonics Corporation, o.J.c, S. 1). Durch die hohe Anzahl an Mikrofonen
wird eine sehr hohe räumliche Auflösung von Ambisonics bis zur 7. Ordnung ermöglicht (Shivappa et
al., 2016, S. 6; VisiSonics Corporation, o.J.c, S. 1). Jedoch ist der Frequenzbereich des Mikrofons
Aufgrund der Bauweise auf 200 – 7000 Hz beschränkt (VisiSonics Corporation, o.J.c, S. 1).
Vielkanalige HOA-Mikrofonarrays scheitern nach Wittek (2015) durch zu geringe Kanaleffizienz und
klangliche Qualität. Des Weiteren sind die aktuell erhältlichen Mikrofone sehr teuer und benötigen
aufgrund der großen Anzahl an Kanälen eine erhöhte Rechenleistung bei der binauralen Synthese (Lee,
2016, S. 1–2).
21
3.4.2 Quad-Binaural
Ein quad-binaurales Mikrofonarray (s. Abbildung 9) besteht aus einem Kopf oder Würfel an dem vier
Paare künstliche Ohren um 90° versetzt und in jeweils entgegengesetzter Richtung angebracht sind. In
ihren künstlichen Gehörgängen befindet sich jeweils ein Mikrofon mit Kugelcharakteristik, welches das
Signal bereits mit der HRTF des entsprechenden Außenohres aufnimmt.
Abbildung 9: Quad-binaurales Mikrofonarray 3Dio Omni Binaural Microphone (Bildquelle: https://cdn.shopify.com/s/files/1/0995/9804/products/Omni_2_WebReady_grande.jpg?v=1465282518)
Aus diesem Grund ist bei diesem Verfahren eine nachträgliche Binauralsynthese der Signale unnötig
(Lee, 2016, S. 2). Die Technik blendet anhand der Kopfrotation die Signale der benachbarten Ohrpaare
über. Dieser Ansatz führt zu einer geringen Lokalisationsgenauigkeit und Klangverfärbungen aufgrund
von Kammfiltern (ebd.). Hinzukommt, dass die Mikrofone im Vergleich zu FOA-Mikrofonen teurer sind
(ebd.).
22
3.4.3 Stereophone Mikrofonarrays
Die Signale eines stereophonen Mikrofonarrays können für die Wiedergabe in VR als virtuelle 3D-
Lautsprechsetups binauralisiert werden (Wittek, 2015; Wittek & Theile, 2017, S. 9). Dafür werden sie
in der jeweiligen VR-Authoring-Umgebung als geeignete, headgetrackte, statische Audio-Objekte
definiert und nach einem 3D-Preset (wie zum Beispiel Dolby 5.1.4 oder Auro3D 9.1, jeweils ohne
Center-Lautsprecher) oder in der Form eines Würfels um den Hörer angeordnet (ebd.). Jedoch setzen
die meisten der standardisierten Lautsprecherkonfigurationen ihre Priorität auf die frontale
Klangbühne, um das filmische Geschehen in einem Bildschirm zu begleiten (Shivappa et al., 2016, S. 4).
Dabei werden andere Bereiche hingegen überhaupt nicht oder nur dünn abgedeckt, wodurch keine
akkurate Darstellung aus diesen Richtungen möglich sei.
Weiter sei es nach Shivappa et al. (2016, S. 4) schwierig, kanalbasiertes Audio an eine sich ändernde
Blickrichtung anzupassen, da die komplette virtuelle Lautsprecherkonfiguration virtuell, durch
Aktualisierung der HRTFs anhand der neuen Richtung jedes einzelnen Lautsprechers, versetzt werden
muss. Dies benötige einen präzisen Satz von HRTFs für alle möglichen virtuellen
Lautsprecherpositionen, sowie eine sehr genaue Signalverarbeitung in Echtzeit. Speziell bei schnellen
Kopfbewegungen ist dieser Prozess anfällig für Artefakte und Klangverfärbungen (Lindau et al., 2008,
nach Shivappa et al., 2016, S. 4). Diese Fehler können die angestrebte Illusion komplett zerstören
(Shivappa et al., 2016, S. 4). Diesem Argument gegen virtuelle Lautsprecher wiedersprechen Wittek &
Theile (2017, S. 4) mit der Begründung, dass in VR generell virtuelle Lautsprecheranordnungen
verwendet werden, um Signale binaural zu synthetisieren. Dabei erzeugen viele Renderer dünne Gitter
(zum Beispiel Ambisonics 3. Ordnung) aus virtuellen Lautsprechern auf welche sich bewegende
Objekte durch Panning geroutet werden (ebd., S.9).
Nach Theile & Wittek (2011 nach Wittek & Theile, 2017, S. 4) sind die Anforderungen an ein
stereophones Mikrofonarray für 3D dieselben wie bei zwei- oder fünfkanaliger Stereophonie:
• Um Kammfilter zu vermeiden, muss eine Signaltrennung zwischen allen Kanälen herrschen,
wobei kein Signal mit signifikantem Pegel auf mehr als zwei Kanälen anliegen darf.
• Pegel- und Laufzeitunterschiede zwischen benachbarten Kanälen erzeugen die gewünschten
Abbildungseigenschaften.
• Dekorrelation des Diffusfeldes führt zu einer optimalen Umhüllung und Klangqualität.
23
3.4.3.1 ORTF-3D
Das Schoeps ORTF-3D (s. Abbildung 10) besteht aus zwei Ebenen in denen jeweils vier Supernieren auf
einem Rechteck mit einer Kantenlänge von 10 cm auf 20 cm als ORTF-Surround angeordnet sind
(Wittek, 2015; Wittek & Theile, 2017, S. 5). Dabei betragen die horizontalen Mikrofonöffnungswinkel
100° und 80°. Dies stellt eine Abwandlung von der traditionellen ORTF-Anordnung aus Nieren mit
einem Mikrofonabstand von 17,5 cm und einem Mikrofonöffnungswinkel von 110° (Theile, Dickreiter,
Graul, Camerer & Spikofski, 2014, S. 16) dar.
Abbildung 10: ORTF-3D in Windkorb von unten (Bildquelle: https://www.hauptmikrofon.de/images/ORTF3D_TopView_small.jpg)
Die ohne Abstand direkt übereinander positionierten Mikrofone
sind als vertikales 90° X/Y-Mikrofonpaare nach oben und unten
gerichtet, um in vertikaler Ebene eine weitere Signaltrennung
zu erzeugen (Wittek, 2015; Wittek & Theile, 2017, S. 6–7). Dies
ist aufgrund der hohen Richtwirkung der Supernieren möglich
und basiert auf den Erkenntnissen von Lee & Gribben (2014
nach Wittek & Theile, 2017), dass eine Dekorrelation im
Diffusfeld in Vertikalebene für das Gehör weniger relevant ist
als in der Horizontalebene. Dadurch wird die sehr kompakte
Bauweise ermöglicht.
Abbildung 11: Anordnung der Kapseln als vertikales XY-Mikrofonpaare (Bildquelle: Wittek & Theile, 2017, S. 6)
24
Lee (2016, S. 2) stellt jedoch die Problematik heraus, dass bei einem ORTF-Surround der Stereophone
Aufnahmewinkel zwischen allen zweikanaligen stereophonen Segmenten nicht gleich groß ist und aus
diesem Grund nicht die gleichmäßige 360°-Lokalisierung einer ESMA-Anordnung (Equal Segment
Microphone Array, s. folgendes Kapitel) bei der Wiedergabe erreicht werden kann, welche für VR-
Audio wichtig ist. Schoeps (o.J.) selbst bezeichnet die klanglichen Eigenschaften und 360°-Darstellung
ihres kompakteren ORTF-Surround hingegen als wie bei einem „IRT-Kreuz“, was eine ESMA-Anordnung
darstellt.
3.4.3.2 ESMA mit 3D-Erweiterung
Lee (2016) hat nach dem ESMA6-Design von Williams (2008 Lee, 2016, S. 2) das Konzept für ein 3D-
Mikrofonarray für VR entwickelt. Dieses ist von Williams ursprünglich entwickelt worden, um ein
gleichmäßiges 360°-Abbild in der Surround-Wiedergabe zu erzeugen und stellt die Basisphilosophie für
das Design von auf Äquivalenzstereophonie basierenden Mikrofonarrays für VR-Audio dar. ESMAs
besitzen einen gleich großen Mikrofonöffnungswinkel aller nebeneinanderliegenden Mikrofone.
Dadurch wird derselbe Aufnahmewinkel zwischen allen nebeneinanderliegenden stereophonen
Mikrofonsegmenten gebildet. Dabei sollten die durch ein ESMA aufgenommenen Signale idealerweise
durch ein Lautsprecherarray mit derselben Winkelanordnung wie das Mikrofonarray wiedergegeben
werden (Lee, 2016, S. 2).
Aufgrund der Praktikabilität des Mikrofonarrays habe sich Lee auf eine quadrophone Surround-Basis
mit vier Mikrofonen beschränkt, jedoch lasse sich der ESMA-Ansatz beliebig zur Erhöhung der
Richtungsauflösung erweitern (zum Beispiel oktogonales Array). Lees (2016) Versuche mit einer
koinzidenten Anordnung und Mikrofonabständen von 24 cm, 30 cm und 50 cm zeigten, dass die
äquivalenzstereophonen Anordnungen eine höhere Lokalisierungsgenauigkeit und Gleichmäßigkeit
haben. Außerdem führe der Mikrofonabstand von 50 cm zu einer höheren Genauigkeit und
Gleichmäßigkeit als 30 cm und 24 cm, wobei die Unterschiede nicht drastisch seien.
Da vergrößerte vertikale Mikrofonabstände nicht zu einer Steigerung der wahrgenommenen Größe
des 3D-Eindrucks führen (Lee & Gribben, 2014 nach Lee, 2016, S. 9), aber Pegeldifferenzen zur
Steigerung des wahrgenommenen vertikalen Winkels (Barbour, 2003 nach Lee, 2016, S. 9), hat sich Lee
für ein vertikales MS-System zur Erweiterung des quadrophonen ESMAs auf 3D entschieden (s.
Abbildung 12).
6 Equal Segment Microphone Array
25
Abbildung 12: ESMA mit vier vertikal ausgerichteten MS-Mikrofonanordnungen zur 3D-Aufnahme (Bildquelle: Lee, 2016, S. 9)
Dieses bestehe aus vertikal ausgerichteten Mikrofonen mit Acht-Charakteristik und Nieren. Die Achten
könnten direkt auf die Höhenkanäle übertragen werden, wenn neben der horizontalen Lokalisation
nur eine Erweiterung des Höreindrucks benötigt werde. Dabei würden die Achten, durch ihre
Charakteristik und Ausrichtung, eine maximale Ausblendung von horizontalem Direktsound
ermöglichen, ohne dabei die horizontale Lokalisation von Quellen zu beeinflussen. Wenn eine vertikale
Lokalisation gewünscht sei, könnten die Paare aus Achten und Nieren anhand des MS-Verfahrens
dekodiert und in Paare, bestehend aus nach oben und unten zeigenden, gerichteten Mikrofonen
konvertiert werden. Aus der Kombination von Niere und Acht entstehe dadurch, bei einem
Mitte/Seite-Verhältnis von 1, das Äquivalent zu einem Paar Hypernieren mit einem
Mikrofonöffnungswinkel von 130°. Jedoch müsse die Performance für beide Szenarios in einer
weiteren Studie überprüft werden.
26
4. VR-Audio-Produktion
Die Produktion von VR-Audio unterscheidet sich anhand der benötigten Interaktivität. Während zum
Beispiel bei VR-Games Audio in Echtzeit in der Game Engine generiert wird, um weitere Interaktion zu
ermöglichen, werden die Inhalte bei linearen VR-Filmen offline, beziehungsweise im Fall von Live-
Events live produziert (Susal et al., 2016, S. 2). Da es bei beiden Formen der VR für den Zuschauer
möglich ist den Blick in alle Richtungen zu wenden und dadurch die Darstellung von Audio während
des Abspielvorgangs zu beeinflussen, wird die Erstellung und Bereitstellung von Inhalten in einem
flexiblen Audioformat benötigt, welches räumliche Transformationen und Modifikationen von
Elementen innerhalb des Mischvorgangs ermöglicht (ebd.).
4.1 Lineare VR
Die Audio-Produktion und Postproduktion von linearen VR-Erlebnissen ist ähnlich wie bei
traditionellen filmischen Inhalten. Aus Aufnahmen von Raum-, Ambisonics oder einzelnen Mikrofonen
wird von einem Toningenieur durch ein Mischpult oder eine DAW eine Tonmischung für die binaurale
Reproduktion über Kopfhörer erstellt. Das Monitoring kann dabei unter anderem über Kopfhörer mit
Head-Tracking erfolgen. Die finale Mischung kann dann als Kanäle, Objekte, vorgerenderte
Ambisonics-Darstellung oder einer Kombination aus allem ausgespielt werden.
Die essentielle Komponente beim Mischen für VR ist die Positionierung der verschiedenen
Soundelemente im virtuellen Raum, sodass diese mit der Video-Referenz übereinstimmen (Susal et al.,
2016, S. 4). Das 3D-Panning für lineare VR-Filme erfolgt im Gegensatz zum traditionellen
Anwendungsfall anhand der Rektangularprojektion des sphärischen Videos. In diesem egozentrischen
Bezugsrahmen werden der Horizontalwinkel, der Vertikalwinkel und die Entfernung von virtuellen
Schallquellen definiert.
4.1.1 Software zur Produktion von Ambisonics-Tonmischungen
Im Folgenden sollen verschiedene Plugin-Lösungen für die Erstellung von Ambisonics-Tonmischungen
innerhalb einer DAW vorgestellt werden. Dabei wurden aus einer Vielzahl von Produkten, eine
Auswahl aus unterschiedlichen Preisbereichen mit einem unterschiedlich großen Umfang an
Funktionen getroffen.
27
4.1.1.1 Facebook 360 Spatial Workstation und Audio Ease 360pan
Durch Plugins wie Facebook 360
Spatial Workstation und Audio
Ease 360pan Suite ist es möglich
in einer DAW wie Pro Tools HD
oder Reaper Ambisonics-
Mischungen für sphärische
Videos zu erstellen (AUDIO EASE
B.V., o.J.c, S. 1; Facebook 360,
2017, S. 8). Auf die jeweiligen
Mono-, Stereo- oder 4.0-Spuren
(bei Facebook 360 Spatial
Workstation auch 5.0, 6.0 oder
7.0) werden dazu am Ende der
Effektkette ein Plugin zum 3D-
Panning (s. Abbildung) platziert,
welches einen Ambisonics-
Output erstellt. Ebenso können auch direkt Aufnahmen von Ambisonics-Mikrofonen verwendet und
für eventuelle Korrekturen in der Ausrichtung rotiert werden. Für das Monitoring wird auf einem
Ambisonics-Master dann ein entsprechendes Plugin zur binauralen Synthese platziert, welches in
Echtzeit die binaurale Ausgabe für Kopfhörer anhand der Blickrichtung des Bildausschnitts im 360°-
Video in einem Videofenster simuliert. Dabei unterscheiden sich die Spatial Workstation und die
360pan Suite neben dem Preis – Facebook 360 Spatial Workstation ist kostenlos und Audio Ease
360pan Suite 3 kostet aktuell knapp 300 € (AUDIO EASE B.V., o.J.b) – in einigen Punkten. Die Audio
Ease 360pan Suite beinhaltet einen Faltungshall mit einer Vielzahl von, mit einem Ambisonics-
Mikrofon aufgenommenen, Impulsantworten
(AUDIO EASE B.V., o.J.c, S. 15), während die
Facebook 360 Spatial Workstation hingegen
Raum-Modelling (s. Abbildung 14) mit
Reflektionspfaden aus bis zu 3 Reflektionen
betreibt (Facebook 360, 2017, S. 7) und keinen
eigenen Hall anbietet. Bei der 360pan Suite
können verschiedene Hallräume und bei der
Spatial Workstation das globale Raummodell
direkt aus dem jeweiligen Plugin für das 3D-
Abbildung 14: Spatialiser-Plugin der Facebook 360 Spatial Workstation zum 3D-Panning von Schallquellen (Bildquelle: Facebook 360 Spatial Workstation)
Abbildung 13: Einstellung des globalen Raummodells in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation)
28
Panning angesteuert und durch einen Distanz-Regler mit beeinflusst werden (s. Abbildung 13 und
Abbildung 15) (AUDIO EASE B.V., o.J.c, S. 5; Facebook 360, 2017, S. 6). Zusätzlich ist es mit 360pan auch
möglich den Hall mit meinem konventionellen Ambisonics-Send anzusteuern (AUDIO EASE B.V., o.J.c,
S. 5).
Abbildung 15: Automation der Parameter und Panning in der Rektangularprojektion des sphärischen Videos in der Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)
Beide Anwendungen ermöglichen analog zur Positionierung auch die Automation der Position von
Schallquellen auf der Rektangularprojektion des sphärischen Videos. Bei der Spatial Workstation ist
zusätzlich ein Surround-Panner vorhanden, um den Abstand der Schallquelle zu definieren (s.
Abbildung 13). Weiter unterscheiden sich die zwei Anwendungen
darin, dass die 360pan Suite alle Schallquellen gleichzeitig in dem
Haupt-Videofenster darstellen kann und eine Automation von
Position, Lautstärke, Hallanteil, sowie der Ausbreitung des Halls der
jeweiligen Quelle ermöglicht (s. Abbildung 15) (AUDIO EASE B.V., o.J.c,
S. 5). Außerdem gibt es bei 360pan Suite die Möglichkeit mit einem
Radar die Intensität von Schallquellen unter anderem direkt auf dem
Video anzuzeigen (Abbildung 16) (ebd., S.8).
Abbildung 16: Radar in der Audio Ease 360pan Suite zum Anzeigen von Schallquellen (Bildquelle: Audio Ease 360pan Suite)
29
Darüber hinaus ermöglichen beide Anwendungen durch einen „Position Blur“- (360pan Suite)
beziehungsweise „Spread“-Regler (Spatial Workstation) eine prozentuale Einstellung von
Punktschallquellen zu diffusen und dadurch als näher empfundenen Schallquellen (AUDIO EASE B.V.,
o.J.c, S. 5; Facebook 360, 2017, S. 7). Dadurch kann in extremer Einstellung zum Beispiel eine Mono-
Erzählerstimme fest mittig im Kopf und unabhängig von Kopfbewegungen positioniert werden. Wird
eine von der Kopfbewegung unabhängige Stereo-
Wiedergabe erwünscht, muss diese Spur separat
gerendert und bei der Wiedergabe
zusammengefügt werden. In der Spatial
Workstation ist ein Metering-Plugin enthalten,
welches für diesen Zweck auf der Ambisonics-
Summe und der Stereo-Spur platziert wird und
diese in kombinierter Form und unabhängig von
der aktuell simulierten Kopfrotation misst (s.
Abbildung 17) (Facebook 360, 2017, S. 13–14).
Dabei wird die maximal mögliche Lautstärke
angegeben, so als würde der Zuschauer immer in
die „lauteste“ Richtung schauen.
Mit der 360pan Suite ist es möglich Mixe in bis zu
Ambisonics 3. Ordnung zu erstellen (AUDIO EASE
B.V., o.J.a), während bei der Spatial Workstation
dies aktuell nur bis zur 2. Ordnung (ambiX)
möglich ist (Facebook 360, 2017, S. 1). Jedoch unterstützt letztere den Einsatz von VR-Brillen (Oculus
Rift DK1 und DK2 auf macOS oder Oculus Rift und HTC Vive auf Windows) (ebd., S.2), während die
360pan Suite mit Hilfe eines an den Kopfhörern befestigten Trackers Kopfbewegungen in Echtzeit
simuliert (AUDIO EASE B.V., o.J.c, S. 16). Als weitere Features bietet die Spatial Workstation einen
eingebauten Doppler-Effekt, wodurch Schallquellen in Abhängig von ihrer Distanz verzögert werden,
als auch die Möglichkeit mit stereoskopischen Videos zu arbeiten (Facebook 360, 2017, S. 7). Weiter
ist es möglich den Winkel für den beim Monitoring verwendeten Fokus und das Pegel außerhalb dieses
Fokusbereichs individuell einzustellen (Facebook 360, 2017, S. 12).
Abbildung 17: Metering-Plugin in der Facebook 360 Spatial Workstation (Bildquelle: Facebook 360 Spatial Workstation)
30
4.1.1.2 DearVR
Ein weiteres Plugin, mit welchem innerhalb einer DAW Ambisonics-Mischungen erzeugt werden
können, ist dearVR von Dear Reality. Es stellt eine Kombination aus einem 3D-Panner, einem
Raummodell für Reflektionen und einem Faltungshall dar (s. Abbildung 18) (Dear Reality, 2017).
Abbildung 18: dearVR von Dear Reality zum 3D-Panning von Schallquellen (Bildquelle: Dear Reality dearVR)
Der Unterschied zur Facebook 360 Spatial Workstation und Audio Ease 360pan besteht jedoch darin,
dass Schallquellen ohne eine spezielle Videoreferenz mit einem 3D-Panner platziert werden. Dieser
kann zwischen einem kartesischen Koordinatensystem zum freien Verschieben der Schallquelle und
einem Polarkoordinatensystem zur Veränderung der jeweiligen Winkel und des Abstands
umgeschaltet werden. Dabei wird in einem zweidimensionalen Koordinatensystem gearbeitet,
welches zwischen X- und Z-Achse, Y- und Z-Achse, sowie X- und Y-Achse umgeschaltet werden kann.
Mit dem „Occlusion“-Regler kann eine Verdeckung von Schallquellen durch Objekte simuliert werden
(Dear Reality, 2017, S. 8). Dadurch können ähnlich wie bei der Spatial Workstation und 360pan
Punktschallquellen diffuser gemacht werden. Besonders ist an dearVR, dass ein Ambisonics-
Faltungshall und ein variables Raummodell für Reflektionen enthalten sind. Als Output-Format kann
Ambisonics in 1. bis 3. Ordnung in FuMa oder ambiX ausgewählt werden, sofern dies die genutzte DAW
ermöglicht. Mehrkanalige Signale müssen auf getrennten Mono-Spuren mit jeweils einer Instanz des
dearVR-Plugins als einzelne Punktschallquellen dargestellt werden (Dear Reality, 2017).
Der Preis von dearVR beträgt aktuell ohne Mehrwertsteuer 349 USD (Plugin Alliance, o.J.).
Das Platzieren der Schallquellen ist ohne direkte Referenz zum Video jedoch schwieriger und
ungenauer. Ferner führt die Kombination aus 3D-Panner und Hallgerät dazu, dass jedes umgewandelte
Mono-Signal eine eigene Hall-Instanz benötigt, was speziell bei langen Hallzeiten rechenintensiv
werden kann.
31
4.1.1.3 Blue Ripple Sound
Ein Anbieter einer Vielzahl an HOA-Plugins ist Blue Ripple Sound. Im Folgenden soll ein Überblick über
die Funktionen eines Teils der angebotenen Plugins gegeben werden.
O3A Core
Die kostenlose O3A Core Plugin-Library stellt für Ambisonics 3. Ordnung verschiedene 3D-Panner und
Visualisierer ohne Videobezug, Decoder,
Converter, Meter, sowie Plugins zur
Rotation des Schallfeldes und virtuelle
Mikrofone zur Verfügung (Blue Ripple
Sound, o.J.b, Blue Ripple Sound, 2018a).
Neben dem klassischen 3D-Panner aus
Azimuth und Elevation und einem
Panner mit Rektangularprojektion, gibt
es einen hemisphärischen Panner, der
ebenfalls mit Azimuth und Elevation
gesteuert werden kann (Blue Ripple
Sound, 2018d, S. 47–57).
O3A View
Das Plugin-Paket O3A View stellt für einen Preis von £349 (Blue Ripple Sound, o.J.a) eine separate
Videoanwendung für HMDs7 und konventionelle Displays zur Verfügung, welche alle Formate von
klassischem Film bis 360°-Video mit und ohne Stereographie unterstützt (Blue Ripple Sound, 2018d,
S. 1). Über eine Netzwerkschnittstelle wird die Videoanwendung mit der DAW verbunden und
gesteuert (Blue Ripple Sound, 2018d, S. 17). Weiter ist es möglich bestimmte O3A-Plugins innerhalb
dieser Videoansichten zu steuern. So können zum Beispiel Panning-Automationen mit den Controllern
der HTC Vive innerhalb der VR oder mit der Maus auf der konventionellen Videoansicht geschrieben
werden (s. Abbildung 20) (Blue Ripple Sound, 2018d, S. 1, 16). Für die Anzeige der Parameter
bestimmter Plugins innerhalb der Videoansicht, muss zuvor lediglich ein „View“-Button innerhalb der
jeweiligen Plugins aktiviert werden (Blue Ripple Sound, 2018d, S. 17). Des Weiteren kann eine
Visualisierung der Lautstärkeintensität an die Videoanzeige gekoppelt werden (ebd.). Zur Hilfe bei der
7 Es wird HTC Vive empfohlen, anderen HMDs wie zum Beispiel Oculus Rift sind auch möglich Blue Ripple Sound (2018d, S. 16).
Abbildung 19: Hemisphärischer Panner (Bildquelle: Blue Ripple Sound, 2018b, S. 48)
32
Platzierung von Schallquellen können zusätzlich Gitterlinien für Winkel oder die Kanten eines
würfelförmigen Raumes innerhalb der Videoansicht angezeigt werden (Blue Ripple Sound, 2018d,
S. 21).
Abbildung 20: O3A View beim Schreiben einer Panning-Automation innerhalb der VR mit HMD (Bildquelle: Blue Ripple Sound, 2018d, S. 1)
Da die Synchronisation anhand der Timeline des Projekts innerhalb der DAW und der Video-Zeit
erfolgt, ist es möglich einen großen Versatz einzustellen, um kein Audio direkt am Start des Projektes
platzieren zu müssen (Blue Ripple Sound, 2018d, S. 35). Weiter können Latenzen durch kleine
Verschiebungen ausgeglichen werden.
Ein weiteres nützliches Tool dieses Plugin-Pakets ist der enthaltene O3A Decoder für das Monitoring
von Ambisonics VR-Tonmischungen dritter Ordnung in binauralem Stereo für Kopfhörer. Dabei können
sechs verschiedene HRTF-Decoder von Blue Ripple Sound, ein MS-Decoder oder der von YouTube
eingesetzte Decoder für 1st Order Ambisonics ausgewählt werden (Blue Ripple Sound, 2018d, S. 31).
Durch einen „Normalise“-Schalter ist es dabei möglich die Pegel der verschiedenen Decoder
angleichen zu lassen, was einen Direktvergleich des Klangs ohne Pegelunterschiede ermöglicht. Weiter
ist es möglich die Größe des Fokusbereichs und die Intensität des Pegelunterschieds außerhalb des
Fokusbereichs einzustellen. Darüber hinaus ist optional ein Brickwall-Limiter vorhanden, um Clipping
zu verhindern.
33
O3A Reverb
Mit der O3A Reverb Plugin-Library bietet Blue Ripple Sound für £349 eine große Auswahl an
verschiedenen Hall-Plugins für Ambisonics dritter Ordnung an (Blue Ripple Sound, o.J.b).
Mit dem MS3 und MS5 sind algorithmische Hall-Plugins enthalten, die erste und späte Reflektionen
erzeugen (Blue Ripple Sound, 2018c, S. 2). Beide Plugins nutzen denselben Hall-Algorithmus und
unterscheiden sich darin, dass beim MS3 zehn Parameter für Einstellungen vorhanden sind und beim
MS5 (s. Abbildung 21) um die neunzig. Dabei ist keine Richtungssteuerung der späten Reflektionen
möglich (Blue Ripple Sound, 2018c, S. 25). Neben individuellen Einstellungen können auch Presets
ausgewählt werden. Das O3A Early Reflections-Plugin simuliert mit demselben Algorithmus wie der
MS3 und MS5 eine einzige erste Reflektion (ebd.).
Abbildung 21: O3A MS5 algorithmisches Hall-Plugin für Ambisonics 3. Ordnung mit ausführlichen Einstellungsmöglichkeiten (Bildquelle: Blue Ripple Sound, 2018c, S. 23)
34
Der O3A Reverb – Convolution stellt einen einfachen Faltungshall mit 3D-Impulsantworten dar (ebd.).
Dabei ist der Output jedoch nicht von der räumlichen Richtung der Eingabe abhängig. Er wird durch
die Richtung der verwendeten Impulsantwort bestimmt. Der O3A Reverb – Shaped Convolution nutzt
ebenfalls 3D-Impulsantworten, ermöglicht jedoch, die Richtung anhand der Eingabe zu formen (Blue
Ripple Sound, 2018c, S. 33). Diese Formung kann prozentual zwischen der Richtung der Eingabe und
der 3D-Impulsantwort eingestellt werden.
Das O3A Shoebox-Plugin fungiert im Gegensatz zu den bisher erwähnten Hall-Plugins gleichzeitig als
3D-Panner (ebd.). Aus einem Mono-Signal wird eine Ausgabe in Ambisonics dritter Ordnung erzeugt.
Dabei wird ein rechteckiger Raum als akustisches Modell benutzt, um für einen gepannten Sound
Reflektionen an den Wänden zu berechnen. Aus diesem Grund ist es nicht sinnvoll, das Plugin als
Effekt-Send einzusetzen, da in diesem Fall alles an die selbe Stelle positioniert werden würde (Blue
Ripple Sound, 2018c, S. 3).
Abbildung 22: O3A Shoebox-Plugin für Raum-Modelling (Bildquelle: Blue Ripple Sound, 2018c, S. 37)
O3A Manipulators
Blue Ripple Sound bietet mit der O3A Manipulators für £399 eine vielseitige Plugin-Library zur
Bearbeitung von Ambisonics-Tonmischungen oder Aufnahmen dritter Ordnung (Blue Ripple Sound,
o.J.b). In dieser sind unter anderem 3D-Panner enthalten, die ein Distanz-Modell, die Möglichkeit die
Größe von Schallquellen einzustellen, sowie das Erstellen von Automationen anhand eines
35
kartesischen 3D-Koordinatensystems erlauben (Blue Ripple Sound, 2018b, S. 20–25). Des Weiteren ist
ein HOA-Kompressor enthalten, welcher ermöglicht, die Dynamik einzuschränken. Dies geschieht
entweder für das gesamten Schallfeld, für bestimmte unabhängige Richtungen oder in einer
Kombination aus beidem (Blue Ripple Sound, 2018b, S. 26–27). Der O3A Diffuser erlaubt eine
„Weichzeichnung“ der Mischung durch die kontrollierbare Abschwächung von Transienten und die
Kontrolle über deren Ausbreitung im Raum (Blue Ripple Sound, 2018b, S. 29–30). O3A Directional
Emphasis und O3A Directional Mask erlauben es innerhalb eines Ambisonics-Mix dritter Ordnung Ton
aus einer bestimmten Richtung zu betonen oder abzuschwächen (Blue Ripple Sound, 2018b, S. 30–34).
Zusätzlich ist mit dem O3A Graphic Equalizer ein grafischer Terzbandequalizer mit 31 Frequenzbändern
(Blue Ripple Sound, 2018b, S. 36), mit dem O3A Parametric Equalizer ein parametrischer Equalizer
(Blue Ripple Sound, 2018b, S. 45–46) und mit dem O3A Low/High Pass Filter ein Hoch-
beziehungsweise Tiefpass Butterworth-Filter mit variabler Ordnung und Cutoff-Frequenz (Blue Ripple
Sound, 2018b, S. 38–39) enthalten. Durch O3A Move ist es möglich, Ton innerhalb eines Ambisonics-
Mixes in eine andere Richtung zu verschieben (Blue Ripple Sound, 2018b, S. 40–41) und mit O3A Portal
ist dies mit einer ganzen Region möglich (Blue Ripple Sound, 2018b, S. 47–48). Weiter können mit
letzterem Plugin auch zwei Regionen miteinander vertauscht werden. Durch O3A Reflection ist es
möglich das gesamte Schallfeld entlang einer das Zentrum kreuzenden Fläche zu spiegeln und dadurch
zum Beispiel Ton auf der rechten Seite mit Ton auf der linken Seite zu tauschen (Blue Ripple Sound,
2018b, S. 50). Mittels O3A Screen Resizer ist es möglich, Sounds an eine geänderte Bildschirmgröße
durch Streckung oder Erweiterung anzupassen und dadurch ihre zum Video relative Positionen zu
erhalten (Blue Ripple Sound, 2018b, S. 52–53). Der O3A Spatial Equalizer ermöglicht mit einem
grafischen Terzbandequalizer mit 31 Frequenzbändern Ton aus unterschiedlichen Richtungen
innerhalb eines Ambisonics-Mix zu bearbeiten (Blue Ripple Sound, 2018b, S. 54–55). Die zu
bearbeitenden Bereiche werden dafür eingefärbt. Die O3A Spatial Mask ermöglicht nach demselben
Prinzip den Pegel in bestimmten Bereichen zu verändern (Blue Ripple Sound, 2018b, S. 58). Weiter
ermöglicht O3A Spatial Mask Split durch das Einfärben eines Bereichs die Trennung einer Ambisonics-
Mischung dritter Ordnung (16 Kanäle) in zwei Ambisonics-Mischungen innerhalb einer Ausgabe mit 32
Kanälen (Blue Ripple Sound, 2018b, S. 61). Diese können nach einer getrennten Bearbeitung mit dem
O3A Join-Plugin wieder vereint werden. Mit O3A Spotlight ist es möglich nur einen bestimmten,
beliebig großen Bereich eines Schallfeldes auszuwählen und alles andere auszublenden (Blue Ripple
Sound, 2018b, S. 63). O3A Spotlight Split bietet dieselbe Funktionalität in Kombination mit einer
Auftrennung in zwei separate Ambisonics-Mischungen, im selben Prinzip wie bei O3A Spatial Mask
Split (Blue Ripple Sound, 2018b, S. 65–66). O3A Zoom und O3A Zoom XYZ bieten die Möglichkeit, durch
Manipulation den Eindruck zu erwecken, als ob sich die Perspektive des Hörers verändern
beziehungsweise sich das Schallfeld bewegen würde (Blue Ripple Sound, 2018b, S. 68–71).
36
4.1.1.4 Vergleich
In der folgenden Tabelle 1 werden die Funktionalitäten der Facebook 360 Spatial Audio Workstation,
Audio Ease 360 Pan, Dear Reality dearVR und von mehreren Produkten von Blue Ripple Sound
zusammengefasst und gegenübergestellt.
Tabelle 1: Vergleich der Funktionsumfänge verschiedener Ambisonics-Plugins
Facebook 360 Spatial Audio Workstation
Audio Ease 360 Pan
Dear Reality dearVR
Blue Rippel Sound O3A Core
Blue Rippel Sound O3A View O3A Reverb O3A Manipulators
Preis kostenlos 296,31 € 349 USD (≈ 294 €)
kostenlos View: £349 (≈ 393 €) Reverb: £349 (≈ 393 €) Manipulators: £399 (≈ 449,54 €)
Ambisonics Ordnung
2 3 3 3 3
3D-Panning mit Videoreferenz
✔ ✔ Nein, nur 3D-Panner ohne Video-referenz
Nein, nur 3D-Panner ohne Video-referenz
View: ✔ Reverb: Nein, nur 3-Panner beim O3A Shoebox-Plugin Manipulators: Nein, nur 3D-Panner
Binauraler Decoder für Monitoring
✔ ✔ - - View: ✔ (sieben verschiedene)
3D-Hall - Faltungs-hall mit einstell-barer Richt-wirkung
Faltungs-hall
- Reverb: Faltungshall mit und ohne einstellbare Richtwirkung und algorithmischer Hall
Reflektionen durch Raum-Modelling
Einstellung von Höhe, Breite und Länge des Raumes (Reflektions-pfade aus 3 Reflektionen)
- Einstellung von Abstand zu Fläche v., h., l., r., o., u.
- Reverb: Einstellung von Abstand zu individuellen Flächen v., h., l., r., o., u. und weitere Einstellungs-möglichkeiten
Erstellen diffuser Schallquellen
✔ ✔ ✔ - Manipulators: ✔
VR-Videoplayer ✔ ✔ - - View: ✔
37
Es gibt große Unterschiede im Preis und innerhalb der Funktionalität der betrachteten Plugins.
Facebook 360 Spatial Workstation ist kostenlos und bietet mit einem Raummodell für erste
Reflektionen, einem Videoplayer für HMDs und einem Decoder für binaurales Monitoring
grundlegende Tools für die Erstellung von Ambisonics-Mischungen zweiter Ordnung. Jedoch enthält
dieses Plugin-Paket keinen Ambisonics-Hall, was dazu führt, dass für eine Änderung der Position oder
der Distanz eines Objekts Automationen im Facebook 360 Spatialiser Plugin und in einem separaten
Hall-Plugin geschrieben werden müssen. Dennoch stellt die Individualisierbarkeit des Raummodells
einen besonderen Mehrwert dar für Reflektionen, die bei der 360pan Suite von Audio Ease nicht
enthalten ist. Die 360pan Suite bieten stattdessen einen simplen Workflow für die Automation von
Panning, Hall-Sends und für die Ausbreitung des Halls, mit der Verwendung eines Ambisonics-
Faltungshalles und einer Vielzahl an Impulsantworten. Durch den Decoder der 360pan Suite besteht
zudem die Möglichkeit, 3D-Mischungen mit einem Head-Tracker und ohne ein HMD zu beurteilen. Dies
stellt zwar eine gewisse Problematik dar, da nicht dieselbe Erfahrung wie mit einem HMD stattfindet.
Facebook 360 Spatial Audio Workstation
Audio Ease 360 Pan
Dear Reality dearVR
Blue Rippel Sound O3A Core
Blue Rippel Sound O3A View O3A Reverb O3A Manipulators
HMD-Support Oculus Rift DK1 und DK2 auf macOS oder Oculus Rift und HTC Vive auf Windows
Nur Head-Tracker für Kopfhörer
- - View: HTC Vive empfohlen, Oculus Rift und andere auch möglich
Visualizer - Mit und ohne Video-referenz
- Verschie-dene, aber ohne Video-referenz
-
Meter Ambisonics 2. Ordnung + Stereo-Spur in Kombination
- - ✔ -
Rotation von Ambisonics-Aufnahmen
✔ ✔ - ✔ -
Nachbearbeitung von Ambisonics-Aufnahmen
- - - - Manipulators: Kompressor, Diffuser, Richtungsbetonung, räumlicher EQ, räumliche Trennung u.v.m.
38
Dennoch kann dies als Optimierung eines Workflows betrachtet werden, bei dem die Mischung und
das Schreiben von Automationen nicht in VR erfolgen und ein HMD lediglich zur Kontrolle genutzt wird.
O3A View von Blue Ripple Sound überwindet diese Problematik dadurch, dass das Steuern von Plugin-
Parametern und das Panning von Schallquellen vollständig innerhalb der VR ermöglicht wird.
Zudem bieten die Plugin-Libraries von Blue Ripple Sound im Vergleich zu denen der anderen Anbieter
die vielfältigsten Möglichkeiten zur Erstellung und Bearbeitung von Ambisonics-Mischungen dritter
Ordnung. Bei O3A Manipulators können HOA-Aufnahmen oder Mischungen auf vielfältige Weise
nachbearbeitet und verändert werden, was bei den Plugins der anderen Hersteller – bis auf die
Rotation von Ambisonics-Aufnahmen – nicht möglich ist. Beim O3A Decoder können zudem
unterschiedliche HRTF-Decoder für das Monitoring genutzt und diese untereinander verglichen
werden.
Da dearVR von Dear Reality keine Möglichkeit für das Panning anhand eines Videos bietet, ist eine
akkurate Positionierung und Panning-Automation von Schallquellen unmöglich. Aus diesem Grund ist
das Plugin nicht für die Arbeit mit Videos zu empfehlen.
In Bezug auf die Bearbeitung von Ambisonics in DAWs bleibt es spannend, welche Möglichkeiten die
Zukunft bringen wird. Pro Tools HD bietet beispielsweise mit der Version 12.8.2 erst seit Oktober 2017
Ambisonics-Busse bis zur 3. Ordnung an (Avid Technology, 2017; Sherbourne, 2017). Komplette VR-
Workflows sind bisher selten zu finden. Der Einsatz individueller HRTFs ist aufgrund ihrer aufwändigen
Erstellung eher unwahrscheinlich, jedoch könnte dies auf Produktionsseite eine akkuratere Ortung
ermöglichen. Abzuwarten bleibt zudem, ob Mainstream-Portale wie YouTube (aktuell FOA) oder
Facebook (Hybrid-Order-Ambisonics mit 8 Kanälen) höhere Ordnungen ermöglichen oder eine
Auswahl unterschiedlicher HRTFs in ihren Decodern anbieten werden.
39
4.1.2 Software zur Produktion von objektbasierten Mischungen
Die Software für die Produktion von objektbasierten Mischungen ermöglicht das Platzieren und
Bewegen von Audio-Objekten im dreidimensionalen Raum sowie das Monitoring von diesen mit einem
Renderer. Da es sich bei Dolby Atmos for VR mit dem Dolby-Digital-Plus (.ec3) Bitstrom lediglich um
ein virtuelle Surround-Lautsprecheranordnung ohne Höhenebene und ohne Audio-Objekte handelt,
wurde bewusst auf eine Vorstellung der Produktionstechnik aus 3D-Panner, VR-Video-Player und
Renderer für die Arbeit in Pro Tools verzichtet.
4.1.2.1 Merging Technologies Pyramix 11 für MPEG-H und ADM
In der DAW Pyramix 11 von Merging Technologies wurde ein vollständiger 3D-Workflow für die
Erstellung von Masterfiles mit objektbasierten Audiometadaten entwickelt, die mit MPEG-H Audio und
dem Audio Definition Model (ADM) kompatibel sind (Merging Technologies, 2017). Dabei wurde der
zuvor für Dolby Atmos entwickelte Workflow in einen umfassenden Workflow für die TV-Produktion
mit zusätzlichem Mehrsprachen-Support abgeändert.
Abbildung 23: Pyramix 11 Track Layout mit objektbasiertem Audio (Bildquelle: http://www.merging.com/resources/img/news/prs/Track-layout-OBA_1200px.jpg)
Aus dem Pyramix 11 Projekt kann direkt nach ADM exportiert oder ein MPEG-H Authoring Tool Projekt
erstellt werden (s. Abbildung 24) (Merging Technologies, 2017). Dieses MPEG-H Authoring Tool von
Fraunhofer ermöglicht das Authoring, Monitoring und den Export in MPEG-H Audio.
40
Abbildung 24: Export nach ADM (Bildquelle: http://www.merging.com/resources/img/news/prs/ADM-export_1200px.jpg)
Weiter ist es in Pyramix 11 möglich, jedes erdenkliche Lautsprechersetup zwischen Mono und NHK
22.2 ohne zusätzliche Plugins mit den entsprechenden Bussen zu mischen und zu mastern (Merging
Technologies, o.J.b). Nach der Konfiguration der Busse, ist es möglich, Sounds durch einen 3D-Panner
im dreidimensionalen Raum zu positionieren. Da dabei die X-, Y- und Z-Koordinaten an jeden Bus
gesendet werden, ist es selbst bei unterschiedlicher Anzahl von Kanälen möglich, das Panning einer
beliebigen Anzahl von Bussen gleichzeitig zu steuern.
Darüber hinaus sind mit dem Flux Verb Full Reverb und dem Flux Verb Sessions Reverb mehrkanalige
Hallplugins in einigen Pyramix Software-Paketen8 enthalten (Merging Technologies, o.J.b).
Die Monitor-Sektion ermöglicht es, alle Kanäle der Ausgangsbusse zu verarbeiten und Down-Mixe für
jedes andere Format zu erstellen (Merging Technologies, o.J.b). Gleichzeitig sind Steuermöglichkeiten
für Lautsprecher wie Phase, mute und solo vorhanden.
Eine weitere Besonderheit von Pyramix 11 ist eine mehrkanalige, Timeline-basierte Effektverarbeitung
(Merging Technologies, o.J.a). Dafür können Signalketten aus VST (VST3) und VS3-Plugins erstellt
werden und direkt auf einen Mono- oder mehrkanaligen Clip in der Timeline angewandt werden,
während Edits und Fades erhalten bleiben. Diese Effektketten aus Plugins können mit ihren
8 Flux Verb Session Reverb ist in Pyramix Native Standard & MassCore Standard enthalten und Flux Verb Full Reverb in Native Pro, MassCore Pro & MassCore Extended (Merging Technologies (o.J.b))
41
Einstellungen in einem eigenen File gespeichert werden, um sie in anderen Pyramix 11-Projekten
aufzurufen.
Für das Arbeiten mit Ambisonics (bis zur 4. Ordnung), einen 360°-Video-Player und das Monitoring mit
verschiedenen HRTFs mit und ohne Hall (Engler & Jacques, 2017), kann die kostenpflichtige9 VST-
basierte B<>com Spatial Audio Toolbox vollständig integriert werden (Merging Technologies, o.J.a).
Zudem ist eine Steuerung des 3D-Panners durch die 3D-Mäuse Space Navigator (s. Abbildung 25) und
SpaceMouse Pro von 3DConnexion möglich (Ryan, 2016). Abbildung 26 vermittelt eine Vorstellung von
deren Bedienung.
9 Leider konnten auch durch eine Anfrage per Email keine Informationen über den Preis herausgefunden werden.
Abbildung 25: Space Navigator 3D-Maus von 3DConnexion (Bildquelle: https://www.3dconnexion.de/fileadmin/templates/images/SN_Gallery/01_iso_right.jpg)
Abbildung 26: Beschriftung der Achsen der Space Navigator 3D-Maus von 3DConnexion für 3D-Panning in Pyramix 11 (Bildquelle: Ryan, 2016)
42
4.1.2.2 Weitere Produktions-Software für MPEG-H
Das AMS™ Authoring and Monitoring System von Linear Acoustics unterstützt vollständig das MPEG-
H-TV-Audio-System (Fraunhofer IIS, 2017d). Es können für den Live-Betrieb in Echtzeit personalisierte
3D-Audioprogramme für ATSC-3.0-basiertes Digitalfernsehen erstellt, gerendert und überwacht
werden (ebd.).
Fraunhofer ist dabei, das Cingo Composer Plugin für VR-Audio zu entwickeln und hat bereits eine Beta-
Version veröffentlicht (Fraunhofer IIS, o.J.a, Fraunhofer IIS, o.J.b, Fraunhofer IIS, o.J.c, Fraunhofer IIS,
o.J.d, Fraunhofer IIS, o.J.e). Dabei handelt es sich um ein Plugin für VST und AAX mit dem es möglich
ist, einen 3D-Audio-Mix innerhalb einer DAW zu erstellen, diesen zu überwachen, mit Headtracking zu
monitoren und in MPEG-H zu exportieren.
Mit der zweiten Version von Spatial Audio Designer von New Audio Technology soll MPEG-H mit einem
kompletten Workflow, Monitoring und Export eines MPEG-H-Masters unterstützt werden (New Audio
Technology, 2016).
4.1.2.3 Magix Sequoia für ADM
Magix arbeitet aktuell in Kooperation mit dem Orpheus Projekt an der Integration eines Workflows für
objektbasiertes Audio in Form des ADM in Sequoia (Orpheus, 2016). Spuren stellen individuelle
Objekte dar und Ordner-Spuren repräsentieren die Audio-Content-Ebene der ADM-Hierarchie (ebd.).
Lautstärke- und Panning-Informationen der Objekte werden anhand von Automationskurven
dargestellt und werden mit der ADM-Datei exportiert (Orpheus, 2017, S. 11). Dabei erfolgt das Panning
mit einem 3D-Panner anhand von Koordinaten im 3D-Raum (Orpheus, 2017, S. 12). Weiter ist es
ebenfalls möglich, ADM-Dateien zu importieren (ebd.). Zusätzlich können Metadaten durch Tags in
einem Editor hinzugefügt werden, wie zum Beispiel die Sprache des Inhalts oder die Möglichkeit,
gemuted zu werden (Orpheus, 2017, S. 16).
Das Rendering von objektbasiertem Audio erfolgt aktuell durch den MPEG-H-Renderer, der bisher aber
nur eine sehr einfache Konvertierung erlaubt (Orpheus, 2017, S. 15).
Jedoch sind in diesem Zusammenhang noch keine Informationen über einen integrierten Videoplayer
für VR bekannt.
43
4.2 Interaktive VR
Für VR-Erlebnisse mit 6DOF-Interaktion werden Sounds bevorzugt in einem allozentrischen
Bezugsrahmen relativ zur Umgebung positioniert (Susal et al., 2016, S. 4). Das bedeutet, dass Sounds
direkt in der virtuellen Umgebung platziert werden. Auf diese Weise wird es ermöglicht, dass der Hörer
den Abstand und seine Position in Relation zur Schallquelle verändern kann. Weiter kommt ein
Umgebungsmodell zum Einsatz, welches durch Nachhall, Distanzdämpfung, Quellenrichtwirkung
u.v.m. charakterisiert ist (Susal et al., 2016, S. 5). Die Steuerung des Modells ist in Form von Metadaten
in den jeweiligen Inhalten inbegriffen, sodass der Rendering-Algorithmus die Mischung an die
Hörposition anpassen kann (ebd.).
Ton für interaktive VR-Erlebnisse kann einerseits direkt in Game Engines, wie zum Beispiel Unity oder
Unreal angelegt werden, andererseits durch die Zuhilfenahme einer speziellen Middleware für Audio
(auch Sound-Engine bezeichnet). Wie man in der GameSoundCon Game Audio Industry Survey 2017
(Schmidt, 2017) gut erkennen kann, sind, neben Selbstentwicklungen, Wwise und FMOD die von
Spieleherstellern im AAA-, Pro Casual- und Indie-Bereich am meisten eingesetzten Audio-Middlewares
(s. Abbildung 27).
Abbildung 27: Einsatz von Audio-Middleware nach Kategorisierung in AAA, Pro Casual und Indie Games 2017 (Schmidt) (Bildquelle: https://static.wixstatic.com/media/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg/v1/fill/w_630,h_352,al_c,q_80,usm_0.66_1.00_0.01/ebb935_43f7757147854a74bcbe9587ca0010d5~mv2.jpg)
Bei Pro Casual Games kommt Fabric verhältnismäßig viel zum Einsatz. Auffällig ist jedoch, dass bei der
Mehrzahl der Indie Games, aber auch bei Pro Casual und AAA Games, auf eine Audio-Middleware
komplett verzichtet wird. Speziell im AAA, aber auch Pro Casual Games Bereich wird auch häufig eine
eigene angepasste Audio-Engine genutzt.
44
In der folgenden Tabelle sind die Preise für Lizenzen von Fabric, FMOD und Wwise gegenübergestellt.
Abbildung 28: Preise pro Spiel in USD in Abhängigkeit vom Budget (Audiokinetic, o.J.i; Firelight Technologies, o.J.f; Tazman-Audio, o.J.b)
Für Indies mit einem Budget unter 500.000 USD bietet Firelight Technologies (o.J.f) eine freie FMOD
Lizenz für eine Spielveröffentlichung pro Jahr (sonst 2.000 USD pro Spiel). Tazman-Audio (o.J.b) bietet
Fabric für Projekte mit einem Budget unter 100.000 USD komplett frei an und bietet für Budgets
zwischen 100.000 und 400.000 USD eine freie Spielveröffentlichung (sonst 750 USD pro Spiel).
Audiokinetic (o.J.q) bietet die kostenlose Wwise „Starter“-Lizenz für kommerzielle Projekte mit einem
Budget unter 150.000 USD an, welche aber eine Limitierung auf 500 Sounds beinhaltet.
Nicht-kommerzielle und akademische Projekte erhalten von Audiokinetic (o.J.r) kostenlose Lizenzen.
Dies ist bei Firelight Technologies (o.J.f) FMOD ebenfalls der Fall. FMOD und Wwise unterscheiden sich
in Bezug auf ihr Preisangebot weiter darin, dass bei FMOD und Fabric alle unterstützenden Plattformen
im Preis inbegriffen sind. Bei Wwise kostet jede weitere Plattform abhängig vom Budget 750 USD
(Budget < 150.000 USD), 3000 USD (Budget < 1.500.000 USD) und 12.000 USD (Budget > 1.500.000
USD).
Jedoch gelten die Preise für Wwise nur für Spiele. Für andere Projekte (zum Beispiel Filmproduktionen,
Simulationen u.v.m.) gelten gesonderte Preise. Auf unterschiedliche Support-Pläne der drei Anbieter
soll hier nicht weiter eingegangen werden.
$0
$2.000
$4.000
$6.000
$8.000
$10.000
$12.000
$14.000
$16.000
$18.000
$20.000
< $150.000 $150.000 –$400.000
$400.000 –$500.000
$500.000 –$1.000.000
$1.000.000 –$1.500.000
> $1.500.000
Fabric FMOD Wwise
45
4.2.1 Unity
Da es in Game Engines möglich ist, Audio ohne die Hinzunahme einer Middleware einzusetzen, soll im
Folgenden Unity auf den Funktionsumfang für Audio untersucht werden.
Unity unterstützt die Kanalformate 1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1 (Unity Technologies, 2017c). Dabei
können nutzerseitig durch einen Down- beziehungsweise Upmix die Formate unterschiedlicher
Ausgabegeräte ausgegeben werden (Unity Technologies, 2017a, Unity Technologies, 2017b). Der
Import von Audio-Dateien ist in den Formaten MPEG layer 3 (.mp3), Ogg Vorbis (.ogg), Microsoft Wave
(.wav) und Audio Interchange File Format (.aiff /. aif) möglich (Unity Technologies, o.J.b). Weiter
werden die Tracker-Module Ultimate Soundtracker module (.mod), Impulse Tracker module (.it),
Scream Tracker module (.s3m) und FastTracker 2 module (.xm) unterstützt (Unity Technologies,
2017h), sowie Ambisonics 1. Ordnung im B-Format in ambiX (Unity Technologies, 2017j).
Unity unterstützt die Plattformen iOS, Android, Windows, Universal Windows Plattform, Mac,
Linux/Steam OS, WebGL, PlayStation 4, PlayStation Vita, Xbox One, Wii U, Nintendo 3DS, Oculus Rift,
Google Cardboard Android & iOS, Steam VR PC & Mac, PlayStation VR, Gear VR, Windows Mixed
Reality, Daydream, Android TV, Samsung SMART TV, tvOS, Nintendo Switch, Fire OS, Facebook
Gameroom, Apple ARKit, Google ARCore und Vuforia (Unity Technologies, o.J.a).
Für die Binauralisierung von Audio für VR können Oculus Spatializer, Microsoft HRTF Spatializer, (Unity
Technologies, 2017i), Steam Audio (Valve Corporation, o.J.), RealSpace3D (VisiSonics Corporation,
o.J.b) oder DearVR (Dear Reality, o.J.) verwendet werden. Letzteres bietet zusätzlich die Möglichkeit,
mit DearVR Spatial Connect in einer DAW geschriebene Automationsdaten als objektbasiertes Audio
nach Unity zu exportieren (ebd.).
4.2.1.1 Funktionsweise
In Unity werden Audio-Clips durch Audio-Sources abgespielt. Audio-Sources und Audio-Listener
werden an Objekte im 3D-Raum angebracht, wodurch deren Positionierung simuliert wird.
4.2.1.2 Abwechslungsreiche Sounds
Playlisten oder per Zufall innerhalb eines Pools ausgewählte Sounds müssen durch selbstgeschriebene
Scripts erzeugt werden. Eine vorgefertigte Component für diesen Zweck ist nicht enthalten.
4.2.1.3 Panning und räumliche Positionierung
Audio-Sources können in ihrer ursprünglichen Kanalzuordnung geroutet oder als Mono-Downmix im
3D-Raum positioniert werden. Darüber hinaus ist es möglich zwischen diesen beiden Möglichkeiten zu
überblenden und somit den Einfluss der 3D-Engine auf die Audio-Source festzulegen (Spatial Blend).
46
Dies kann unter anderem durch Distanz-Kurven geschehen. Des Weiteren ist ein Stereo-Panner
vorhanden.
4.2.1.4 Distanzverhalten
Das Verhalten von Audio-Sources bei
zunehmender Distanz kann durch eine
logarithmische, lineare oder benutzerdefinierte
Distanz-Kurve definiert werden. Durch letztere
ist es möglich, Lautstärke, Spatial Blend,
Ausbreitung, TPF und den auf Reverb-Zonen
gerouteten Signalanteil in Abhängigkeit von der
Distanz der Quelle zum Hörer beliebig
festzulegen. Reverb-Zonen ermöglichen es
Bereiche für den Einsatz von Hall, sowie deren
Radius und Übergangsbereich zu definieren.
In den Audio-Projektsettings ist es möglich, dafür
einen globalen Faktor für logarithmische
Lautstärke-Distanzkurven festzulegen.
4.2.1.5 Richtwirkung
Diese zuvor erwähnte Ausbreitung von Stereo- oder Mehrkanalton im Lautsprechersetup kann durch
einen Winkel zwischen 0° und 360° festgelegt werden und durch eine Distanzkurve gesteuert werden.
4.2.1.6 Routing & Mixing
Die Ausgänge der jeweiligen Audio-Sources werden auf Audio-Mixer-Groups innerhalb eines Audio-
Mixers geroutet, der das Signal letztendlich dem Audio-Listener ausgibt. Ein Audio-Mixer besitzt immer
eine Master-Group, innerhalb welcher eine Hierarchie aus Audio-Mixer-Groups erzeugt wird. Für eine
Audio-Mixer-Group können Änderungen an Lautstärke und Pitch vorgenommen werden. Sie besitzt
eine VU-Anzeige, kann auf solo oder stumm geschaltet werden. Des Weiteren ist es möglich per Inserts
Effekte auf Signale anzuwenden, deren Parameter zu verändern oder einen Bypass anzuwenden.
Durch Sends und Returns können Signale zwischen verschiedenen Bussen ausgetauscht und Ducking
durchgeführt werden. Zusätzlich ist es möglich mehrere Audio-Mixer zu erstellen und diese gleichzeitig
einzusetzen. Die Ausgabe eines Audio-Mixers kann auf Audio-Mixer-Groups innerhalb anderer Audio-
Mixer geroutet werden.
Abbildung 29: Distanz-Kurven in Unity. Dabei besteht die X-Achse aus der Distanz der Schallquelle vom Hörer und die Y-Achse aus den jeweiligen Eigenschaften (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioDistanceFunctions.png)
47
Abbildung 30: Audio-Mixer-Fenster in Unity (Bildquelle: Unity 2017.3.1f1)
Durch das Anlegen verschiedener Mixer-Views ist es möglich, bestimmte Audio-Mixer-Groups
auszublenden. Anhand von Snapshots können alle Parametereinstellungen innerhalb eines Mixers
festgehalten werden.
Mithilfe des „Edit in Play Mode“-Schalter ist es entweder möglich, den aktuellen Snapshot eines Audio-
Mixers während der Ausführung von Spiel-Code in Echtzeit zu bearbeiten oder dessen zu Zustand vom
Spiel steuern zu lassen.
4.2.1.7 Spielzustände
Für verschiedene Spielzustände
können verschiedenen
Snapshots erstellt werden,
welche anhand der Spiel-Logik
gewechselt werden. Diese
Übergänge erfolgen
standardmäßig durch lineare
Interpolation zwischen den Start-
und Endwerten, können aber für
alle Parameter individuell
eingestellt werden (s. Abbildung 31).
Ebenfalls können beliebige Parameter innerhalb einer Audio-Mixer-Group anhand eines Scripts
manipuliert werden. Dadurch wird der Parameter zusätzlich aus Snapshots ausgeschlossen.
Abbildung 31: Definieren des Snapshot-Übergangs eines Parameters (Bildquelle: https://docs.unity3d.com/uploads/Main/AudioMixerTransitionOverrides.png)
48
4.2.1.8 Effekte
Unity bietet verschiedene DSP-Effekte, die auf Audio-Sources, Audio-Listener und Audio-Mixer
angewandt werden können. Für diese sind ein TPF, HPF, Echo, Distortion, Chorus und ein
algorithmischer Hall enthalten. Für Audio-Mixer gibt es zusätzlich Flanger, Normalisierer,
Parametrischen EQ, Pitch Shifter, Kompressor, und weitere HPF und TPF.
Des Weiteren ist für eine Audio-Source die Intensität eines Doppler-Effektes einstellbar. Dies kann
auch global in den Audio-Projektsettings definiert werden.
4.2.1.9 Unity Timeline
Abbildung 32: Unity Timeline mit Audio-Tracks (Bildquelle: Unity 2017.3.1f1)
Für die Erstellung von filmischen Inhalten oder Spielsequenzen existiert in Unity eine Timeline. Durch
diese ist es möglich, Audio-Clips auf Audio-Tracks zu platzieren. Diese Tracks können verschiedenen
Audio-Sources zugeordnet werden. Audio-Clips auf den Tracks können anhand automatischer oder
manueller Kurven übergeblendet werden. Zusätzlich ist es möglich, sie zeitlich zu strecken oder zu
stauchen und sie zu loopen. Ferner können ihre Start- und Endposition oder ihre Dauer festgelegt
werden.
4.2.1.10 Mikrofonsignale und fremde Quellen
Unity besitzt mit der Microphone-Class eine API, um durch ein Script vorhandene Mikrofone zu finden
und Aufnahmen durchzuführen. Eine vorgefertigte Component ist dafür nicht vorhanden.
4.2.1.11 Debugging
Mit dem Unity Profiler ist es möglich die Performance des Audio-Systems zu überwachen. In einem
Graphen wird die Anzahl der insgesamt abspielenden Audio-Sources und Audio-Voices pro Frame
dargestellt, sowie der von der Audio-Engine genutzte Arbeitsspeicher und CPU. Da der „PlayOneShot“-
Befehl Audio-Voices nutzt, die nicht bei den abspielenden Audio-Sources angezeigt werden,
unterscheidet sich diese Anzahl von der Anzahl der Audio-Voices (Unity Technologies, 2017g).
49
Abbildung 33: Unity Profiler in „Channel and groups“-Ansicht (Bildquelle: Unity 2017.3.1f1)
Weitere Werte wie die Anzahl pausierter Audio-Sources, Anzahl an Audio-Clips, sowie eine
Aufschlüsselung über die Nutzung des Arbeitsspeichers und der CPU für einzelne Elemente innerhalb
der Audio-Engine werden in einer Liste Ansicht angezeigt. Zusätzlich werden in einer tabellarischen
Ansicht Informationen über das Abspielverhalten der vorhandenen Sound-Events mit den zugehörigen
Mixern und Mixer-Groups bereitgestellt, wie zum Beispiel welche Audio-Sources welche Audio-Clips
abgespielt haben, die abgespielte Lautstärke, die Distanz zum Audio-Listener und die Länge der
Abspielzeit. Durch das Klicken auf die jeweilige Zeile ist es dann möglich die zugehörigen Audio-Sources
und Clips im Projekt-Browser und Hierarchie-Fenster anzuzeigen.
4.2.1.12 Speicher- & Prozessornutzung
Für eine Audio-Source kann anhand eines numerischen Wertes von 0 bis 256 ihre Priorität gegenüber
anderen innerhalb einer Szene existierenden Audio-Sources definiert werden.
Für importierte Audio-Clips können jeweils weitere Einstellungen getroffen werden, um Speicher und
Prozessor zu entlasten. So ist es möglich, mit mehrkanaligem Audio einen Mono-Downmix mit
anschließender Peak-Normalisierung durchzuführen oder Clips verzögert auf einem separaten Thread
im Hintergrund zu laden, ohne den Haupt-Thread zu blockieren (Unity Technologies, 2017d). Per
Default werden nämlich alle Audio-Clips beim Laden einer Szene zunächst vorgeladen. Überdies ist
einstellbar, ob Audio-Dateien direkt beim Laden dekomprimiert werden, komprimiert im Speicher
gehalten und beim Abspielen dekomprimiert werden oder gestreamt werden (ebd.). Abhängig von der
Zielplattform können mit PCM, ADPCM, Vorbis/MP3 und HEVAG verschiedene Formate ausgewählt
werden, um abhängig vom jeweiligen Sound einen sinnvollen Kompromiss zwischen Qualität,
50
Dateigröße und Belastung der CPU zu finden. Zudem ist es für die PCM und ADPCM-Formate möglich,
eine automatische Optimierung oder eine manuelle Reduktion der Samplerate durchzuführen, um die
Dateigröße zu verkleinern. Für Vorbis/MP3 ist dies durch die Einstellung der Qualität der Kompression
möglich. Komprimiertes Audio ist am besten für lange Dateien wie zum Beispiel Hintergrundmusik oder
Dialog geeignet, während PCM und ADPCM besser für kurze Soundeffekte geeignet sind (Unity
Technologies, 2017d).
Audio-Mixer in Unity besitzen einen Kontrollmechanismus, der eine Sekunde nach dem Abspielen
einer Audio-Source eine Lautstärkemessung am eigenen Ausgang durchführt und anhand dieser
entscheidet, ob der Mixer deaktiviert werden kann (Unity Technologies, 2017e). Beim erneuten
Abspielen von Audio-Sources wird dieser dann wieder aktiviert. Dies geschieht anhand eines
definierbaren Schwellenwertes. Auf diese Weise wird vermieden, dass CPU-Ressourcen aufgrund einer
großen Anzahl von ungenutzten Mixern ausgeschöpft werden.
In den Audio-Projektsettings kann durch den Audio-Manager die Größe des DSP-Buffers festgelegt
werden, um eine bessere Performance oder geringere Latenzen zu erreichen. Außerdem kann die
Anzahl der gleichzeitig abgespielten, reellen Voices eingestellt werden, was die CPU-Nutzung stark
beeinflusst. Wird diese Anzahl überschritten, werden die am wenigsten hörbaren Voices zu virtuellen
Voices bis sie wieder lauter werden oder zuvor lautere Voices nicht mehr abgespielt werden (Unity
Technologies, 2017f). Dabei wird ein fortgeführter Abspielvorgang virtueller Voices simuliert. Die dafür
verwendete Anzahl virtueller Voices kann ebenfalls festgelegt werden. Wenn diese überschritten wird,
werden die am wenigsten hörbaren Voices gestoppt (ebd.).
51
4.2.2 Wwise
Wwise unterstützt eine Vielzahl an Plattformen. Diese sind in der folgenden Tabelle 2 aufgelistet.
Tabelle 2: Von Wwise unterstützte Plattformen (Audiokinetic, o.J.l)
Plattform VR Platform
Wwise Authoring
Application
Wwise SDK
Unity Unreal Engine 3
Unreal Engine 4
Android Google Cardboard, Daydream,
Gear VR
✔ ✔ ✔
iOS ✔ ✔ ✔ Linux ✔ ✔ ✔
Mac ✔ ✔ ✔ ✔ Windows Oculus
Rift, HTC Vive,
Microsoft HoloLens
7/8/10 XP/Vista /7/8/10
✔ Certified Epic
developers only
✔
Windows Phone 8
✔
Nintendo 3DS ✔ ✔ ✔
PlayStation 3 ✔ ✔
PlayStation 4 PlayStation VR
✔ ✔ ✔
PlayStation Vita ✔ ✔ ✔
Xbox 360 ✔ ✔ ✔
Xbox One ✔ ✔ ✔
Wii U ✔ ✔
Nintendo Switch ✔ ✔ ✔
Wwise unterstützt mit 0.1, 1.0, 2.0, 3.0, 4.0, 5.1, 7.1, Dolby 5.1.2, Dolby 7.1.2, Dolby 7.1.4, Auro 9.1,
Auro 10.1, Auro 11.1 und Auro 13.1. eine Vielzahl an Kanalkonfigurationen (Audiokinetic, o.J.m). Dabei
können Audiodateien mit Sampleraten bis 96 kHz und Bittiefen bis 32 Bit (werden jedoch auf 24 Bit
konvertiert) in AMB oder WAV eingesetzt werden (Audiokinetic, o.J.p). Abhängig vom Quellmaterial,
Ausgabegerät und Plattform kann ein Downmix nach dem AC3-Standard (Audiokinetic, o.J.e,
Audiokinetic, o.J.m), sowie ein Upmix erfolgen (Audiokinetic, o.J.d). Ambisonics wird im B-Format bis
zur 3. Ordnung mit 16 Kanälen in FuMa mit maxN-Normalisierung unterstützt (Audiokinetic, o.J.o).
Weiter wird auch MIDI unterstützt.
Darüber hinaus ist es möglich, Ausgabegeräte mit nicht-standardisierter Hardware in der Form von
selbst entwickelten Plugins zu integrieren (Audiokinetic, o.J.a). Diese können auch als zusätzliches,
zweites Ausgabegerät genutzt werden (Audiokinetic, o.J.f).
52
Für die Binauralisierung von Audio für VR können Microsoft HRTF (Audiokinetic, o.J.g), RealSpace3D,
Oculus Spatializer und Google Resonance Audio als Plugin eingebunden werden, sowie in Zukunft
Steam Audio (Audiokinetic, o.J.h).
Hinzukommend ist es möglich, die DAW Nuendo von Steinberg mit Wwise zu verbinden und auf diese
Weise Audio direkt zu importieren.
4.2.2.1 Funktionsweise
Die Kommunikation von Wwise und der Game Engine erfolgt durch sogenannte Game Calls, die von
der Game Engine gesendet werden. Diese lösen in der Sound Engine Events aus, die in dieser
weiterverarbeitet werden. Durch diese werden Sounds gestartet. Dabei kann das Abspielverhalten von
weiteren Parametern beeinflusst werden. Der Export von Wwise-Projekten in die Game Engine erfolgt
durch die Generierung von Soundbanks. Diese werden in der Game Engine geladen und beinhalten
Sounds und das zuvor definierte Abspielverhalten.
4.2.2.2 Aufbau
In Wwise sind spezielle Funktionen in verschiedenen Fenstern, sogenannten Views zu finden. Diese
sind für jeweils unterschiedliche Aufgaben anhand von Presets in Layouts kombiniert, können aber
auch individuell geöffnet oder kombiniert werden. Im Folgenden sollen lediglich grundlegende Layouts
mit ihrer Funktionalität vorgestellt werden.
Profile Layout
Das Profile Layout bietet Möglichkeiten während des Spielbetriebs alle Vorgänge innerhalb der Sound
Engine und die Performance zu überwachen.
Designer Layout
Das Designer Layout ermöglicht im Project Explorer die Erstellung und Organisation von Events und
Sound-Objekten, sowie Bussen. Zur Organisation dieser verschiedenen Objekte können Work-Units
angelegt werden, welche aus XML-Files bestehen.
Abbildung 34: Transport Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 37)
In diesem Layout befindet sich auch die Transport Control, wodurch Sound-Objekte abgespielt werden
können. Ferner kann das Abspielverhalten im Zusammenhang mit Switches, States und RTPCs getestet
53
und konvertierte Audiofiles mit den Originalen verglichen werden. Auf diese wird in dem später
folgenden Kapiteln eingegangen.
Interactive Music Layout
Das Interactive Music Layout stellt ein Layout für die Erstellung von interaktiver Musik dar. Es besitzt
viele Elemente die ebenfalls im Designer Layout vorhanden sind und spezielle Views für interaktive
Musik.
Mixer Layout
Das Mixing Layout beinhaltet ein Mischpult-Übersicht, in welche beliebig Objekte und Busse
angeordnet werden können. Events gehören dabei nicht dazu, da diese als Trigger für Sound-Objekte
fungieren und selbst nicht gemischt werden können. Die Ansicht ermöglicht individuelle Anpassungen.
Soundbank Layout
Im Soundbank Layout werden für das Spiel anhand der Events Soundbanks generiert. Diese beinhalten
Audio-Assets und Anweisungen, wie diese abgespielt werden sollen.
Schematic View
In der Schematic View (s. Abbildung 35) ist es möglich, anhand eines Strukturdiagramms einen
Überblick über die Beziehungen der Objekte innerhalb eines Projekts zu erhalten. Durchgehende Linien
zeigen die Struktur der Beziehungen an, gestrichelte Linien das Routing. Durch groß-gestrichelte Linien
wird angezeigt, wenn innerhalb eines Objekts der Output des Eltern-Outputs überschrieben wurde.
Überdies kann die Ansicht angepasst und Eigenschaften der Objekte wie zum Beispiel Lautstärke, Pitch,
TPF, HPF u.a. angezeigt und verändert werden.
Abbildung 35: Schematic-View in Wwise (Bildquelle: Audiokinetic, 2017, S. 216)
54
4.2.2.3 Abwechslungsreiche Sounds
Die Kunst beim Sound Design für Computerspiele besteht darin, aus einer begrenzten Anzahl an
Sounds für maximale Abwechslung zu sorgen und eine vielfältige Klanglandschaft zu erstellen, die bei
langem Spielen nicht repetitiv wirkt. Dies ist speziell für häufig erklingende Sounds wichtig und kann in
Wwise durch eine Kombination aus Pitching und dem Abspielen von in Stücke aufgeteilte,
randomisierten Audiofiles erreicht werden (Audiokinetic, 2017, S. 80–98).
Im Sound Property Editor ist es möglich, die Werte wie Pitch, HPF, TPF oder Lautstärke per Zufall zu
variieren. Dafür werden Bereiche definiert, innerhalb dieser die nach dem Zufallsprinzip ausgewählten
Werte liegen.
Durch das Anlegen von Objekten in Random Containern können diese randomisiert abgespielt werden.
Dabei ist es möglich, Regeln für Randomisierung zu definieren, wie zum Beispiel, dass die letzten
beiden ausgewählten Objekte gemieden werden müssen oder, dass erst die komplette Liste von
Objekten abgearbeitet sein muss, bevor ein Objekt erneut abgespielt wird.
Mithilfe von Squence Containern ist es möglich, darin befindliche Objekte in einer schrittweisen oder
kontinuierlichen Sequenz abzuspielen. Schrittweise bedeutet in diesem Fall, dass bei einem Event
immer nur ein einzelnes Objekt abgespielt wird und die definierte Reihenfolge auf diese Weise bei
einem erneuten Eintreten des Events Schritt für Schritt durchgearbeitet wird. Kontinuierlich bedeutet
hingegen, dass bei einem Event die gesamte definierte Reihenfolge aus Objekten in kontinuierlicher
Form abgespielt wird. Für Momente der Stille innerhalb einer kontinuierlichen Sequenz gibt es ein
dafür vorgesehenes Silence-Objekt, dessen Länge ebenfalls randomisiert werden kann.
Auf diese Weise ist es möglich, Sounds in einen Sequence Container mit einer kontinuierlichen Sequenz
aus einzelnen Random Containern aufzuteilen. Diese können zusätzlich noch randomisierte
Eigenschaften enthalten, wodurch eine maximale Varianz erreicht wird (Audiokinetic, 2017, S. 80–97).
Importierte Audiodateien können für diesen Zweck in Wwise zugeschnitten und als unterschiedliche
Objekte gespeichert werden.
4.2.2.4 Spielzustände
Für die Anpassung von Sounds an Gegebenheiten innerhalb des Spiels können Switches, Parameter
und States eingesetzt werden. Diese werden bei Wwise als Game Syncs bezeichnet.
Switches
Um zum Beispiel Fußschritte für verschiedene Untergründe einzusetzen, können Switches verwendet
werden. Für die Kommunikation mit der Game Engine wird dafür eine Switch Group erstellt, die als
eine Art Schalter fungiert. Innerhalb dieser werden verschiedene Switches erzeugt, welche
55
verschiedene Schalterstufen repräsentieren. Die Audio-Objekte für diese Schalterstellungen werden
dann mit diesen Schalterstellungen verknüpft.
Parameter
Um zum Beispiel die Beschleunigung eines Fahrzeugs zu simulieren, ist es möglich numerische Game
Parameter aus der Game Engine zu übertragen und anhand dieser Sounds zu modifizieren. Diese
stellen Zahlenwerte innerhalb eines definierten Bereichs dar. Durch die sogenannte Real Time
Parameter Control (RTPC) können Eigenschaften eines Objekts wie Lautstärke, Pitch, LPF, HPF, aber
auch der Output-Bus, Aux-Sends oder andere Werte beeinflusst werden. Das jeweilige Verhalten wird
anhand eines Graphen definiert. Die X-Achse besteht aus dem Game Parameter und die Y-Achse aus
der jeweiligen Eigenschaft des Objekts (s. Abbildung 36).
Abbildung 36: Real Time Parameter Control in Wwise (Bildquelle: Audiokinetic, 2017, S. 126)
Mittels Blend Containern können mehrere Objekte gleichzeitig abgespielt werden. Diesen können auf
Blend-Tracks angeordnet werden, um sie anhand von Game-Parametern ineinander zu überblenden
oder Lautstärke, Pitch, HPF oder TPF zu verändern.
States
Für globale Events wie zum Beispiel das Schwimmen unter Wasser können in Wwise States eingesetzt
werden, um zum Beispiel einen TPF anzuwenden. Diese werden innerhalb einer State Group erstellt.
In dieser kann dann die Dauer eines Übergangs zwischen States definiert werden. Darüber hinaus kann
anhand des States für beliebige Objekte zum Beispiel ein Offset für Lautstärke, Pitch, TPF und HPF
eingestellt, Effekte auf Bypass geschalten, Sends manipuliert oder ihre Priorität geändert werden.
56
4.2.2.5 Panning und räumliche Positionierung
In Wwise existieren drei verschiedene Arten der
Positionierung von Schallquellen. Diese können
anhand des Spiels oder manuell im 3D-Raum
positioniert werden oder anhand von 2D-
Panning. Zudem ist die ursprüngliche
Kanalanordnung der Audiodatei möglich.
Bei „3D Game Defined“-Positionierung erfolgen
beispielsweise Panning, Lautstärke, Hall mit
Mono-Schallquellen anhand der Position von
Objekten im 3D-Raum der Game Engine.
Wenn keine Game-Objekte für das 3D-Panning
vorhanden sind, ist es möglich, diese mit der
„3D User Defined“-Positionierung zu
simulieren. Dafür können Schallquellen innerhalb des 3D-Raumes anhand von unterschiedlichen
Pfaden positioniert und automatisiert werden (s. Abbildung 37). Sie haben dann ebenfalls ein
Distanzverhalten wie Objekte im 3D-Raum der Game Engine und können ihre Position mit der
Orientierung des Hörers verändern oder unabhängig von dieser positioniert bleiben. Weiter ist mit
einem 2D-Panner auch konventionelles, statisches Surround -Panning möglich.
Zusätzlich kann anhand eines Parameters per RTPC zwischen 2D und 3D-Positionierung gewechselt
werden, was aber keinen weichen Übergang ermöglicht.
Abbildung 37: User Defined 3D-Panning in Wwise (Bildquelle: Audiokinetic, 2017, S. 164)
57
4.2.2.6 Distanzverhalten
Abbildung 38: Attenuation Curve Editor in Wwise zur Simulation von Distanz und Richtwirkung (Bildquelle: Audiokinetic, 2017, S. 157)
Für die Simulation von Distanz bietet Wwise die Möglichkeit Veränderungen von Sounds in Relation
zur Distanz in Dämpfungskurven zu definieren. Dies erfolgt analog zur RTPC über einen Graphen mit
der Distanz als Parameter (s. Abbildung 38). Durch diesen kann das Verhalten von Lautstärke, Auxiliary
Sends, TPF, HPF, Ausbreitung und eine Art Fokus der Ausbreitung eingestellt werden (s. Abbildung 38).
Um diese Kurven auf mehrere Objekte gleichzeitig anwenden zu können, ist es möglich, aus ihnen
Sharesets anzulegen.
4.2.2.7 Richtwirkung
Das Abstrahlverhalten von Schallquellen kann durch einen Winkel für den Fokus, einen Winkel für eine
Übergangszone, den maximalen Lautstärkeverlust im Offset, TPF und HPF definiert und simuliert
werden (s. Abbildung 38, rechts unten).
4.2.2.8 Effekte
Auf Audio-Objekte oder Busse können verschiedene Effekte angewandt werden. Nützlich ist dabei für
von Interaktion unabhängige Effekte die Möglichkeit diese bereits vorab zu rendern, um CPU zu
sparen. Ferner ist es möglich Sharesets anzulegen, um Eigenschaften auf mehrere Objekte zu
übertragen.
58
Wwise bietet eine große Anzahl an integrierten Plugin-Effekten wie Delay, Guitar Distortion, Pitch
Shifter, Time Stretcher, Flanger, Harmonizer, Stereo Delay, Tremolo, Kompressor, Expander, Gain,
Meter, Peak Limiter, parametrischer EQ, Recorder und zwei unterschiedlich rechenintensive,
algorithmische Halle (Audiokinetic, o.J.h). Mit dem Recorder ist es möglich, Aufnahmen von AMB, WAV
oder WEM-Files innerhalb von Wwise zu erstellen (Audiokinetic, o.J.s). Für Premium-Entwickler wird
ein Faltungshall, ein Tool zur Erstellung von haptischem Feedback von Eingabegeräten, sowie Wwise
Reflect (Audiokinetic, o.J.h) angeboten. Mit letzterem ist es möglich, dynamisch zwischen der Position
der Schallquelle und des Empfängers anhand von reflektierenden Oberflächen und der vorhandenen
Raumgeometrie erste Reflektionen zu erzeugen. Zusätzlich sind verschiedene Soundgeneratoren
vorhanden, die neben verschiedenen Wellenformen, Sweeps und Rauschen auch Wind und Whooshes
generieren und durch Realtime-Parameter von der Game Engine manipuliert werden können. Durch
ihren Einsatz ist es zusätzlich möglich, CPU und Speicher zu sparen (Audiokinetic, o.J.t). Außerdem ist
ein Synthesizer mit zwei Oszillatoren enthalten, welcher über Midi oder anhand einer Basis-Frequenz
gesteuert werden kann. Letztere kann auch durch Realtime-Parameter manipuliert werden. Überdies
ist durch SoundSeed Impact möglich, eine enorme Anzahl an klanglichen Variationen eines einzigen
Audiofiles zu erstellen und diese mit Realtime-Parametern zu beeinflussen. Weiter gibt es eine große
Anzahl kommerzieller Partner-Plugins, sowie kommerzielle und nichtkommerzielle Community-
Plugins. Ferner unterstützt Wwise die Entwicklung eigener Plugins für Effekte, Klangerzeuger oder
Modelling (Audiokinetic, o.J.c).
4.2.2.9 Signalfluss & Mixing
In Wwise gibt es Busse, Auxiliary Busse und sogenannte Actor Mixer. In letzteren können Audiofiles im
Project Explorer organisiert werden. Daneben kann ein Actor Mixer als eine Art VCA beziehungsweise
DCA betrachtet werden, da die Addition beziehungsweise Subtraktion eines Offsets mit Werten wie
zum Beispiel der Lautstärke, Pitch, HPF und TPF auf die darin befindlichen Objekte ermöglicht wird.
Dabei sind Verschachtelungen mehrerer Actor Mixers möglich. Außerdem ist es in einem Actor Mixer
möglich, einen Output-Bus festzulegen.
In Bussen kann neben der Lautstärke für den Output der Summe – wie bei einem Actor Mixer – ein
Versatz für beispielsweise Lautstärke und Pitch der auf den Bus gerouteten Objekte eingestellt werden.
Ebenfalls ist es möglich, eine Side-Chain für Ducking auszuwählen.
Der Pegel für Auxiliary-Sends kann manuell oder spieldefiniert eingestellt werden. Bei letzterem wird
der Pegel durch Game-Calls innerhalb der Game Engine von der Seite des Programmierers gesteuert.
Durch einen Regler in Wwise sind feine Nachjustierungen dieser Werte möglich. Auf diese Weise ist es
möglich, Effekte wie beispielsweise Hall und Delay auf einem Auxiliary-Bus einzusetzen und zum
Beispiel Übergänge zwischen verschiedenen Räumen innerhalb eines Computerspiels zu simulieren.
59
Durch einen Master Secondary Bus ist es möglich, bestimmte Geräte mit sekundären Audio-
Ausgabepfaden wie zum Beispiel PlayStation 4-Controller anzusteuern. Ferner können mithilfe des
Master Motion Busses Motion-Effekte wie Vibration in bestimmten Controllern ausgelöst werden.
Wwise ermöglicht in dem sogenannten Soundcaster mehrere Sounds gleichzeitig abzuspielen und
Events und deren Abspielverhalten zu simulieren (s. Abbildung 39, unten). Dem Sounddesigner wird
dadurch ermöglicht, unabhängig von der Game Engine bereits eine Mischung zu erstellen.
In Kombination dazu können mit dem Mischpult des Mixing Layouts die verschiedenen Eigenschaften
von Objekte und Bussen eingestellt werden (s. Abbildung 39, oben). Darüber hinaus ist es möglich,
Einstellungen für bestimmte States vorzunehmen und somit anhand dieser verschiedene Snapshots zu
erstellen.
Abbildung 39: Mischpult (oben) und Soundcaster (unten) in Wwise (Bildquelle: Audiokinetic, 2017, S. 236)
Obendrein ist der Einsatz von Hardware-Controllern möglich. Dafür können dessen Elemente mit
beliebigen Funktionen und Objekt-Eigenschaften belegt werden.
4.2.2.10 Testen des Verhaltens von Audio
Nachdem mittels bereits erwähntem Soundcaster Events und deren Abspielverhalten unabhängig von
der Game Engine simuliert wurden, ist es für die Feinabstimmung der Mischung möglich, Wwise mit
60
dem Videospiel zu verbinden, Änderungen in Echtzeit durchzuführen und diese im Spiel zu testen.
Wwise kann dafür in bestimmte States springen oder sich diese vom Spiel vorgeben lassen.
4.2.2.11 Adaptive Musik
Wwise beinhaltet spezielle Strukturen und Funktionen für adaptive Musik. Aus einer begrenzten
Anzahl von musikalischen Fragmenten kann ein abwechslungsreicher Soundtrack erschaffen werden,
der die Stimmung des Spielgeschehens unterstreicht. Durch Music Switch Container kann Musik
anhand von States oder Switches ausgewählt und einzelne Music Segments oder Music Segments
innerhalb eines Music Playlist Containers abgespielt werden. Ein Music Segment besteht aus einem
oder mehreren Music Tracks auf welchen Audio-Clips innerhalb einer Timeline platziert werden
(Abbildung 40).
Abbildung 40: Music Segment Editor in Wwise (Bildquelle: Wwise v2017.2.1)
Für diese Segmente werden Zeit-Einstellungen angelegt, welche das Tempo in BPM, die Taktart, eine
zusätzliche Methode zur Unterteilung in ein Grid (zum Beispiel vier Takte oder ganze Note) und ein
Offset für diese Unterteilung in Millisekunden beinhalten. Weiter werden ein Entry Cue und Exit Cue
als Marker für den Beginn und Schluss innerhalb eines Segments platziert, um dieses beim
Abspielvorgang mit anderen Segmenten zu synchronisieren. Für zusätzliche Flexibilität bei Übergängen
können außerdem Custom Cues gesetzt werden.
Innerhalb eines Music Switch Containers oder Music Playlist Containers können zwischen den
Segmenten verschiedene Übergänge definiert werden. Es ist zum Beispiel einstellbar, ob ein Übergang
sofort, zum nächsten Grid, zum nächsten Takt, zur nächsten Zählzeit, zum nächsten Cue, zum nächsten
Custom Cue oder zum nächsten Exit Cue eintritt. Dabei können für das Quell- und das Ziel-Segment
eingestellt werden, ob diese nach dem Exit Cue weiter oder bereits vor dem Entry Cue abgespielt
werden sollen. Ebenfalls können Fades definiert oder ein zusätzliches Segment als Übergangspassage
abgespielt werden. Auf diese Weise ist es möglich, nahtlose Übergänge zu erzeugen.
61
Music Tracks, Music Segments, Music Playlist Container und Music Switch Container können außerdem
durch Realtime-Parameter vom Spiel manipuliert werden. Dies ermöglicht zum Beispiel den Mix von
Music Tracks innerhalb von Music Segments anhand von Spielparametern zu verändern.
Darüber hinaus unterstützt Wwise den Einsatz von MIDI und ermöglicht die Erstellung von MIDI
Instrumenten.
4.2.2.12 Mehrsprachen-Unterstützung
In Wwise können innerhalb eines Projekts mehrere Sprachen erstellt und eine Referenz-Sprache
definiert werden. Für Dialog existiert das Sound Voice-Objekt, welches mit Audio-Dateien in
unterschiedlicher Sprache verknüpft wird. Es ist zu jeder Zeit der Entwicklung möglich, zwischen den
Sprachen umzuschalten, diese anzuhören und zu simulieren.
4.2.2.13 Mikrofonsignale und fremde Quellen
Durch das Audio Input Source Plugin ist es möglich, Audio einer externen Quelle wie einem Netzwerk-
Stream, einem angeschlossenen Mikrofon oder von einer Datei auf der Festplatte, die nicht Teil des
Wwise-Projekts ist, zu nutzen (Audiokinetic, o.J.b).
4.2.2.14 Unity Timeline Integration
Unity besitzt für die Erstellung von filmischen Inhalten oder Spielsequenzen eine Timeline, welche von
Wwise in Form von einer Event-Spur und RTPC-Spur unterstützt wird. Diese Spuren können an
beliebige Game-Objekte gebunden werden. Auf der jeweiligen Spur werden anschießend Clips für zu
übermittelnde Events und RTPCs platziert. Die RTPC-Werte können mit dem Unity Curve Editor anhand
von Keyframes definiert werden.
4.2.2.15 Speicher- und Prozessornutzung
Speicheroptimierung
Da der für ein Computerspiel genutzte Speicher begrenzt ist und dieser mit oft aufwendiger Grafik
geteilt werden muss, gibt es in Wwise speziell vorgesehene Funktionen. Prinzipiell ist zu empfehlen,
dass mehrere Soundbanks für Sounds erstellt werden, welche nicht in jedem Level benötigt werden,
um somit nur die nötigen Sounds in den Speicher zu laden (Audiokinetic, 2017, S. 254). Zur Verwaltung
des für Audio vorgesehenen Speichers ist es möglich, im Soundbank Manager eine maximale Größe
des Speicherbudgets in Bytes festzulegen. Nach der Generierung einer Soundbank kann deren Größe
mit diesem Budget verglichen werden.
Sollte diese das Speicherbudget überschreiten, gibt es die Möglichkeit, die Audio-Files zu konvertieren.
Dafür können unterschiedliche Sharesets für Konvertierungseinstellungen für verschiedene Typen von
Sounds erstellt werden. Neben Samplerate, Anzahl der Kanäle, Dateiformat und Qualität der
62
Codierung können für bestimmte Formate weitere Einstellungen vorgenommen werden. Hier gilt es
einen Kompromiss zwischen der Größe der Dateien und der Prozessor-Nutzung für die
Dekomprimierung der komprimierten Dateien zu finden. Im Transport-Control ist es möglich, die
konvertierten Files mit den Originalen zu vergleichen.
Eine zusätzliche Möglichkeit, um speziell bei langen Files wie Musik oder Atmo Systemspeicher zu
sparen, ist das Streaming von der Festplatte, CD oder DVD (Audiokinetic, 2017, S. 271–273). Jedoch ist
dabei die benötigte Zeit für die Lokalisierung und Zugriff auf das Speichermedium und die mögliche
Bandbreite zu beachten. Um dabei Latenzen beim Beginn des Abspielvorgangs zu verhindern, ist es
möglich, den Anfang der Datei bereits zuvor in den Speicher laden zu lassen (Audiokinetic, o.J.k).
Prozessoroptimierung
Jeder abgespielte Sound stellt eine Voice dar und nutzt Prozessorzyklen (Audiokinetic, 2017, S. 273).
Da deren Anzahl sehr hoch werden kann und überlagerte Sounds trotzdem berechnet werden müssen,
kann Rechenleistung verschwendet werden. Aus diesem Grund ist es in Wwise möglich, für
verschiedene Plattformen mit unterschiedlicher Rechenleistung eine Mindest-Lautstärke für das
Rendern von Audio-Objekten zu definieren, sowie die maximale Anzahl an Voices. Außerdem können
diese Einstellungen für alle Sound-Objekte, Actor-Mixer und Audio-Busse auch separat eingestellt
werden.
Um der Gefahr vorzubeugen, dass dadurch wichtige Audio-Objekte entfernt werden, kann zusätzlich
eine Abspiel-Priorität eingestellt werden. Weiter ist es möglich, Objekten in Abhängigkeit ihrer Distanz
eine höhere beziehungsweise niedrigere Priorität zuzuordnen.
Sounds, deren Lautstärke zu gering ist, können zu einer Virtual Voice List hinzugefügt werden. Sobald
ihre Lautstärke wieder den Schwellenwert überschreitet oder die Anzahl der zeitgleich abgespielten
Audio-Objekte geringer als das Limit ist, werden diese wieder zu einer Physical Voice und gerendert.
Dabei ist es möglich, einen fortgeschrittenen Abspielvorgang zu simulieren, von der zuletzt hörbaren
Position weiter abzuspielen oder den Abspielvorgang erneut von vorne zu beginnen.
4.2.2.16 Debugging
Das Profile Layout bietet Möglichkeiten alle Vorgänge innerhalb der Sound Engine zu überwachen. Die
Nutzung von CPU, Speicher und Bandbreite für jede von der Sound-Engine durchgeführte Aktivität wird
in Echtzeit grafisch oder anhand einer Liste dargestellt. Darüber hinaus können detaillierte
Informationen über die Abläufe in der Sound-Engine angezeigt werden, wie zum Beispiel ausgelöste
Events und alle ausgeführten Aktionen oder die Anzahl an Events, Sends, Objekten, Übergängen,
Streams, sowie die Anzahl virtueller, physischer und aller Voices. Außerdem können die Lautstärke von
Voices, Bussen, der Ausgabe und vieles mehr in Echtzeit überwacht werden und Statistiken über Audio-
63
Elemente im Spiel erzeugt werden. Des Weiteren ist es durch den Voice Graph möglich, eine Bus-
Hierarchie von aktuell abgespielten Voices anhand eines Strukturdiagramms darzustellen.
Das Game Object Profiler Layout ermöglicht obendrein die Überwachung von bestimmten Objekten
im Spiel. Dabei ist es möglich, diese Objekte visuell in einer dynamischen, dreidimensionalen
Repräsentation darzustellen und ihre RTPC-Werte zu verfolgen.
64
4.2.3 FMOD Studio
FMOD Studio unterstützt eine große Anzahl unterschiedlicher Plattformen, welche in der folgenden
Tabelle 3 aufgelistet sind.
Tabelle 3: Von FMOD unterstützte Plattformen (Audiokinetic, o.J.l; Firelight Technologies, o.J.a, Firelight Technologies, o.J.b, Firelight Technologies, o.J.h, Firelight Technologies, o.J.i, Firelight Technologies, 2016)
Plattform VR Platform FMOD Studio Authoring
Application
FMOD Studio API
Unity Unreal Engine 4
Android Google Cardboard, Daydream,
Gear VR
✔ ✔ ✔
iOS ✔ ✔ ✔
Linux ✔ ✔ ✔ Mac ✔ ✔ ✔ ✔
Windows Oculus Rift, HTC Vive, Microsoft HoloLens
✔ XP/Vista /7/8/10
✔ ✔
Windows Phone 8.1
✔ ✔
PlayStation 3 ✔
PlayStation 4 PlayStation VR ✔ ✔ ✔ PlayStation Vita
✔ ✔
Xbox 360 ✔
Xbox One ✔ ✔ ✔ Wii U ✔ ✔
Nintendo Switch
✔ ✔
HTML5 ✔
Es werden die Kanalformate Mono, Stereo, 4.0, 5.0, 5.1, 7.1 und 7.1.4 unterstützt (Firelight
Technologies, o.J.g). Das für die Produktion genutzte Format kann schließlich beim Nutzer durch einen
automatischen Down- beziehungsweise Upmix auf die Lautsprecherkonfiguration des Ausgabegerätes
angepasst werden (ebd.). Neben den Audio-Dateiformaten WAV, MP3, Ogg Vorbis, AIFF und FLAC wird
eine Vielzahl spezieller Formate unterstützt, sowie MIDI und die Tracker-Module Impulse Tracker (.it),
Scream Tracker (.s3m), Extended Module File Format (.xm) und Module File Format (.mod) (Firelight
Technologies, o.J.d). Ambisonics wird in 1. Ordnung im B-Format in ambiX durch das mitgelieferte
Resonance Audio Plugin von Google unterstützt (Google Developers, 2018).
65
Des Weiteren wird die Binauralisierung von Audio für VR durch die Plugins von Oculus Spatializer,
Google Resonance Audio Spatializer, GoogleVR Spatializer (Firelight Technologies, o.J.c) und Steam
Audio ermöglicht (Valve Corporation, 2018).
4.2.3.1 Funktionsweise
Wie Wwise basiert FMOD Studio auch auf Events, die ausgelöst werden und deren Parameter vom
Spiel-Code manipuliert werden können. Diese Events triggern und manipulieren auf Event Tracks
Instruments, die Audio-Signale erzeugen, welche verändert oder umgeleitet werden können. In den
FMOD Studio Versionen 1.09 und früher wurden diese Instruments noch als Sound Module bezeichnet
(Firelight Technologies, 2018b). Um die Inhalte eines FMOD Studio Projekts in ein Spiel zu
implementieren, werden sogenannte Banks erzeugt. Diesen werden Events zugeordnet.
Im Gegensatz zu Wwise arbeitet FMOD Studio
unter anderem mit einer Spurenansicht, was an
eine DAW erinnern lässt. Events besitzen Event
Tracks, auf denen Sound-Module platziert
werden. Diese geben Audio aus, wenn sich die
Abspielposition auf der Spur in der sogenannten
Trigger Region des Instruments befindet.
4.2.3.2 Aufbau
FMOD Studio besitzt verschiedene Ansichten, um bestimmte Aufgaben durchzuführen.
Event Editor
Im Event Editor werden Events erstellt, diese mit Audio-Assets von Instruments verbunden, deren
Abspielverhalten definiert und Automationen erstellt. Diese Events werden anschließend mit Banks
verknüpft.
Mixer
Im Mixer können die erstellten Events auf Gruppen-Busse geroutet, es kann außerdem weiteres
Routing auf Gruppen-Busse vorgenommen und die erstellten Busse können mit einer Mischpult-
Ansicht gemischt werden. Ferner ist es möglich, VCAs, Sends und Returns zu erstellen, sowie Snapshots
oder Automationen für bestimmte Spielsituation.
Profiler
Durch den Profiler ist es möglich Daten und Audio im Spielbetrieb aufzuzeichnen und eine detaillierte
Fehleranalyse durchzuführen.
Abbildung 41: Event Track mit „Single Instrument“ in FMOD (Bildquelle: FMOD Studio 1.10.03)
66
Instruments
Instruments spielen mit ihnen verknüpftes Audio ab oder triggern Events oder Snapshots. Sie können
auf der Spur eines Events oder eines Spiel-Parameters platziert werden und werden getriggert, solange
sich die Abspielposition innerhalb ihrer Trigger Region befindet. Es existieren verschiedene Typen mit
verschiedenen Funktionalitäten. Diese können z.T. entweder synchron oder asynchron betrieben
werden. Synchron bedeutet in diesem Fall, dass die Länge der Trigger Region des Instruments
bestimmt wie lange das Audio-Asset abgespielt wird, was bei kurzen Assets durch den Loop-Modus
erreicht werden kann. Asynchron bedeutet hingegen, dass Audio-Assets unabhängig von der Länge der
Trigger Region immer in kompletter Länge abgespielt werden.
Single Instruments
Single Instruments spielen, wie der Name bereits erwarten lässt, ein einzelnes Audio-File ab. Sie sind
synchron, können aber auf asynchron umgeschaltet werden.
Multi Instruments
Multi Instruments können hingegen eine Playlist aus Single Instruments, Programmer Instruments und
Event Instruments enthalten. Diese können zufällig oder in fester Reihenfolge abgespielt werden. Auf
diese Weise kann eine Variation der Sounds erzeugt werden. Multi Instruments sind synchron, können
aber auf asynchron umgeschaltet werden.
Event Instruments
Event Instruments spielen die Ausgabe eines Events ab, auf das verwiesen wird. Dabei handelt es sich
bei Referenced Events um normale Events, die ihren eigenen Mixer-Bus enthalten und auf die in jedem
anderen Event verwiesen werden kann. Auf ein Nested Event kann hingegen nur von dem Eltern-Event-
Bus verwiesen werden. Dieses besitzt auch keinen eigenen Mixer-Bus und übernimmt alle
Einstellungen vom Eltern-Mixer-Bus. Event Instruments sind immer asynchron.
Scatterer Instruments
Scatterer Instruments erzeugen kontinuierlich Instanzen von 2D oder 3D Instruments in ihrer Playlist.
Dabei werden ihre Positionen bei 3D- oder 2D-Events zufällig generiert. Dies ist besonders für das
Erschaffen von Atmo nützlich. Scatterer Instruments sind immer asynchron.
Programmer Instruments
Programmer Instruments stellen ein leeres Instrument dar, das Rückrufe generiert. Durch diese
Rückrufe können alle möglichen Audio-Files abgespielt werden, unabhängig davon, ob sie ein Teil des
FMOD Studio Projekts sind oder nicht. Dies kann für viel Dialog und Lokalisierung in Kombination mit
Audio-Tabellen ein Vorteil sein (Firelight Technologies, 2018c). Programmer Instruments sind
synchron, können aber auf asynchron umgeschaltet werden.
67
Plugin Instruments
Plugin Instruments sind Instrumente, die beliebige Arten von benutzerdefiniertem Sound erzeugen,
wie zum Beispiel ein Soundgenerator oder Synthesizer. Diese können auch selbst entwickelt werden.
Sie können abhängig von ihrem Design synchron oder asynchron sein. Bei FMOD Studio sind bereits
ein Plugin Instrument für die Generierung von Motorensounds und unterschiedlichem Wetter
enthalten, welche anhand von Realtime-Parametern manipuliert werden kann.
Snapshot Instruments
Snapshots Instruments starten einen Snapshot und die damit verbundenen Einstellungen im Mixer.
Diese werden so lange angewandt, wie das Instrument getriggert wird. Da sie kein Audio abspielen,
sind sie weder synchron, noch asynchron.
4.2.3.3 Parameter und Cues
Durch Parameter und Cues ist es möglich, das Verhalten von Events zu beeinflussen. Parameter sind
numerische Variablen, die durch Spielcode upgedated werden und mit Eigenschaften von Events
verbunden sind. Sie können für Automationen von Eigenschaften von Spuren, Effekten und anderer
Module innerhalb der Signalkette eingesetzt werden und das Abspielverhalten eines Events durch
Logische Marker innerhalb der Timeline steuern. Darüber hinaus ist es möglich, anhand der Parameter-
Werte Instrumente zu triggern.
Durch Cues wird die Information übermittelt, dass der Abspielvorgang einer Event-Instanz einen
folgenden Sustain Point ignoriert und weiter abgespielt wird. Diese werden in dem später folgenden
Kapitel „4.2.3.12 Adaptive Musik“ näher erklärt.
4.2.3.4 Modulatoren
Modulatoren sind in der Lage, die Werte eines Events zeitabhängig, aber unabhängig von der Timeline
zu verändern. Dabei können durch verschiedene Modulatoren verschiedene Effekte erzeugt werden.
Random-Modulatoren
Durch Random-Modulatoren ist es möglich, Properties um einen definierbaren Wert variieren zu
lassen, wie zum Beispiel die Laustärke. In diesem Fall stellt der ursprüngliche Wert des Properties den
höchsten Wert dar und der für die Modulation definierte Wert die maximale Abweichung von diesem
nach unten. Bei der Anwendung auf ein Pitch-Property, erflogt hingegen eine Abweichung nach oben
und unten vom ursprünglichen Wert.
AHDSR-Modulatoren
Ein AHDSR-Modulator kann auf Instrumente, Events und Snapshots angewandt werden. Wird das
verknüpfte Element gestartet, werden die zu modulierenden Eigenschaften von neutralen Werten auf
68
spezifizierte erhöht. Beim Stoppen erfolgt dies in umgekehrter Reihenfolge. Dies ermöglicht den
Einsatz dieser Modulatoren für Fade-Ins und Fade-Outs, die unabhängig von der Abspielposition sind.
Side-Chain-Modulatoren
Mit Side-Chain-Modulatoren ist es möglich, Properties anhand eines Thresholds zu modulieren. Dabei
können der Wert der Modulation und Attack- und Release-Zeiten eingestellt werden.
4.2.3.5 Panning und räumliche Positionierung
Wenn eine Spur oder ein Bus als Stereo- oder eine höhere Lautsprecherkonfiguration eingestellt ist,
ist es möglich, die Ausgabe zwischen den vorhandenen Lautsprechern zu pannen. Dies geschieht
abhängig von der Kanal-Konfiguration durch einen Stereo-, Surround-Panner, Surround-Panner mit
LFE-Regler oder Surround-Panner mit LFE-Regler und einem Regler für Höhenkanäle (bei Surround
7.1.4). Auf diese Weise ist mit dem FMOD Spatializer eine manuelle räumliche 3D-Positionierung von
Sounds möglich. Diese haben dann ebenfalls ein Distanzverhalten wie Objekte im 3D-Raum der Game
Engine. Für individuelle Einstellungen können Lautsprecher innerhalb der Konfigurationen auch
deaktiviert werden. Obendrein ist es möglich die Richtung und den Abstand der Schallquelle zu
automatisieren oder modulieren.
Durch den FMOD Object Spatializer oder den mitgelieferten Resonance Audio Spatializer von Google
erfolgt dann die räumliche Darstellung von 3D-Objekten innerhalb der Game Engine anhand ihrer
Position.
4.2.3.6 Distanzverhalten
Im Spatializer und 3D Object Spatializer sind vier Kurven-
Presets für die Abnahme der Lautstärke in Relation zu
Distanz enthalten. Außerdem kann der Minimal- und
Maximalabstand der Schallquelle für die Anwendung der
Kurve definiert werden (s. Abbildung 42). Durch die 3D-
Preview (s. Abbildung 43) ist es möglich dies zu
simulieren. Für individuelle Kurven ist es möglich,
anhand des Distanz-Parameters Automationen mit dem
Gain-Plugin zu schreiben. Dies kann dann zu einem
Preset konvertiert werden, um es auf mehrere Objekte anzuwenden. Auf diese Weise ist auch die
Automation von HPF, TPF oder beliebigen anderen Effekten, sowie Sends zu Hallgeräten möglich.
Abbildung 42: Distance Attenuation im Spatializer in FMOD (Bildquelle: FMOD Studio 1.10.03)
69
4.2.3.7 Richtwirkung
Durch den Spatializer oder 3D Object Spatializer ist es möglich die
Winkel des Abstrahlkegels eines Events zu definieren und diesen
in der 3D-Preview zu simulieren (s. Abbildung 43). Zusätzlich kann
auch die empfundene Größe des Sounds durch dessen Umhüllung
eingestellt werden.
4.2.3.8 Signalfluss & Mixing
Wie bereits erwähnt stellen Events kleine Mixer dar. Für das
Mixing müssen sie jedoch zunächst auf Gruppen-Busse geroutet
werden. Dies geschieht durch das Verschieben der Events via Drag
& Drop in jeweilige Gruppen-Busse im Routing Browser. Dabei ist
es auch möglich, unterschiedliche Sub-Gruppen aus Gruppen-
Bussen zu erstellen. Die Group-Busse in der obersten Ebene sind auf den Master-Bus geroutet.
Die erstellten Gruppen-Busse können mit dem Mixing Desk gemischt werden. Weiter ist es möglich,
VCAs, Snapshots, Sends, sowie Effekte anzuwenden oder eine Side-Chain zu erstellen. Diese
Effektmodule, Sends oder Side-Chain können immer Pre- oder Post-Fader positioniert werden. Durch
Drag & Drop lässt sich deren Reihenfolge schnell beliebig verändern. Sends werden dabei immer auf
Return-Busse geroutet.
4.2.3.9 Snapshots für verschiedene Spielsituationen
Für verschiedene Spielsituationen können im Mixer unterschiedliche Snapshots erzeugt werden, die
von Game-Code oder von Events durch Snapshot Trigger Regionen getriggert werden. Dabei können
beliebig viele, unterschiedliche Properties von Bussen und deren Effekten oder Sends ausgewählt und
von dem Snapshot eingeschlossen werden. Alle anderen Properties werden von diesen nicht
verändert. Die für einen Snapshot ausgewählten Properties können (wie die Properties eines Events)
automatisiert und moduliert werden. Durch Modulation des „Intensity“-Reglers mit zum Beispiel
einem AHDSR-Modulator, können Übergänge zwischen den Snapshots erstellt werden. 100% dieses
Reglers entsprechen dabei den Werten des Snapshots und 0% den Werten des Originals. Dazwischen
werden die Werte der betroffenen Properties jeweils auf eine dazwischenliegende Position eingestellt.
Es gibt in FMOD Overriding Snapshots und Blending Snapshots. Wenn mehrere Overriding Snapshots
dasselbe Property beeiflussen, überschreiben sich diese. Snapshots die sich im Snapshot Browser oben
befinden, haben eine höhere Priorität, werden zuletzt angewandt und überschreiben die weiter unten
angeordneten Snapshots. Jedoch ist zu beachten, dass trotzdem alle Snapshots angewandt werden,
was speziell bei Intensity-Werten größer als 0 % und kleiner als 100 % einen Unterschied macht.
Abbildung 43: 3D Preview in FMOD mit angezeigtem Abstrahlkegel und Ausbreitung (Bildquelle: FMOD Studio 1.10.03)
70
Blending Snapshots unterscheiden sich von Overriding Snapshots lediglich darin, dass Volume
Properties miteinander kombiniert und nicht überschrieben werden.
4.2.3.10 Testen des Verhaltens von Audio
Die Sandbox ermöglicht es, Events und Snapshots in einem spielähnlichen Kontext anzuhören, ohne
das Live Update mit einem laufenden Spiel nutzen zu müssen. Auf diese Weise kann das Verhalten der
Events in 3D angehört werden und das Projekt gemischt werden.
Durch das sognannte Live Update ist es möglich, FMOD Studio mit einem laufenden Spiel zu verbinden,
Änderungen am Projekt vorzunehmen und die Ergebnisse in Echtzeit zu testen. Jedoch ist es dabei
nicht möglich, Audio-Assets hinzuzufügen oder zu entfernen. Um dies zu tun, müssen zunächst neue
Banks generiert werden. Ebenso müssen die fertigen Änderungen schließlich als neue Banks in das
Spiel importiert werden.
4.2.3.11 Effekte
In FMOD Studio ist es möglich auf Event-Tracks oder Bussen an jeder beliebigen Stelle in der
Signalkette, sowie vor als auch hinter dem Fader, Effektmodule zu positionieren (s. Abbildung 44). Des
Weiteren können diese frei zwischen anderen Effekten oder Sends eingefügt werden.
Abbildung 44: Post-Fader Send, Delay und Chorus in FMOD (Bildquelle: https://www.fmod.com/docs/studio/images/signalChainExample.png)
Neben einem 3-bandingen EQ, einem Multiband-EQ, verschiedenen Hochpass- und Tiefpass-Filtern,
einem parametrischen EQ, einem Chorus, einem Kompressor, einem Faltungshall, einem
algorithmischen Hall, einem Kanal-Mixer, Distortion, einem Delay, einem Flanger, Gain, einem Limiter,
einem Pitch Shifter, einem Tremolo, einem Loudness Meter, verschiedenen Spatializern, einem
Distanzfilter und einem binauralen Renderer, ist ein sogenannter Transceiver enthalten. Diese senden
eingehende Signale an alle anderen Transceiver-Effekte im Projekt, summieren diese und geben sie
gleichzeitig aus. Überdies ist es möglich, Preset Effekte anzulegen, die auf mehrere Events angewandt
werden können und bei Änderungen alle aktualisiert werden. Neben diesen Effekten ist es durch
71
sogenannte Event Macros möglich, den Master-Track eines Events zu pitchen oder einen Dopplereffekt
für bewegende 3D-Game-Objekte zu erstellen.
Zusätzlich ist es möglich, eigene Plugins zu entwickeln und diese in FMOD zu integrieren (Firelight
Technologies, o.J.e).
4.2.3.12 Adaptive Musik
Adaptive Musik kann in FMOD Studio anhand von synchronen Instrumenten und Markern innerhalb
der Timeline erzeugt werden. Auf dem sogenannten Logic Track können logische Marker gesetzt
werden, die das Abspielverhalten innerhalb der Timeline eines Events auf unterschiedliche Weise
manipulieren.
Abbildung 45: Adaptive Musik durch Transition-Regionen in FMOD (Bildquelle: FMOD Studio 1.10.03)
Nach dem Erstellen eines Tempomarkers mit dem Tempo in BPM und der Taktart, ist es möglich, von
Parametern getriggerte Sounds quantisiert anhand von Intervallen in Takt und Tempo zu triggern.
Durch Loop-Regionen innerhalb der Timeline ist es möglich, bestimmte Sektionen der Komposition
wiederholt abzuspielen. Durch Transition-Marker und Transition-Regionen ist es möglich, innerhalb
der Timeline zu Destination-Markern zu springen. Erstere sind Zeitpunkte für einen Übergang. Letztere
beschreiben Bereiche, in denen ein Übergang stattfinden kann. Dies kann durch ein quantisiertes
Intervall für den Übergang gekoppelt werden. Für beide Transition-Arten können Bedingungen
definiert werden, welche Bereiche von Werten eines Parameters darstellen. Ferner ist es möglich,
diese durch eine prozentuale Wahrscheinlichkeit weiter zu beeinflussen. Um von Transition-Marker
oder -Region zum Destination-Marker zusätzlich einen Übergang abzuspielen, können Transition-
Timelines eingesetzt werden, welche einen extra eingefügten Bereich in der Timeline darstellen.
72
Durch Sustain-Punkte ist es möglich, den Abspielvorgang innerhalb der Timeline auf deren Position zu
pausieren. Dies bedeutet jedoch nicht, dass das Event pausiert wird, da nur synchrone Instrumente
aufhören Sound auszugeben. Ebenso werden Effekte, Modulatoren und Automationen nicht
beeinflusst. Durch Cues (s. Kapitel „4.2.3.3 Parameter und Cues“) ist es möglich, diesen Abspielvorgang
fortzusetzen.
4.2.3.13 Mehrsprachen-Unterstützung
Durch Programmer Instruments ist es möglich, anhand von Audio-Tabellen entsprechende Dialog-
Zeilen in der jeweiligen Sprache auszuwählen. Diese Tabellen werden im Quellenverzeichnis für die
jeweilige Sprache in „keys.txt“-Dateien gespeichert und entsprechend ausgewählt.
4.2.3.14 Mikrofonsignale und fremde Quellen
Mit der FMOD Low Level API ist es möglich, Audio mit einem Mikrofon aufzunehmen, dies bereits
während der Aufnahme abzuspielen und Echtzeit-Effekte anzuwenden (Firelight Technologies, o.J.d).
Darüber hinaus ist es möglich Audio aus dem Internet zu streamen.
4.2.3.15 Speicher- und Prozessornutzung
Speicheroptimierung
Abhängig von der Hardware und Grenzen verschiedener Plattform können in FMOD Studio
verschiedene Komprimierungs- und Codierungseinstellungen getroffen werden. Auf diese Weise ist es
möglich, ein Projekt für den Export auf verschiedene Plattformen zu nutzen. Dabei ist es möglich, eine
gleiche Plattform mehrmals hinzuzufügen, um verschiedene Hardware-Typen darzustellen, wie zum
Beispiel zwei Desktop-Plattformen für Windows und Mac (Firelight Technologies, 2018e). Abhängig
von der Plattform können jeweilige Einstellungen für das Format der Codierung und dessen Qualität
getroffen werden. Ferner kann das benötigte Kanalformat eingestellt werden.
Zusätzlich ist es möglich, maßgeschneiderte Codierungseinstellungen für individuelle Assets oder
Ordner festzulegen und damit die globalen Einstellungen der jeweiligen Plattform zu überschreiben.
Diese beinhalten das Format der Codierung, Qualität oder Samplerate und Einstellungen, ob das File
komprimiert oder dekomprimiert geladen oder gestreamt werden soll. Dieses komprimierte Asset
kann abgespielt und zur Kontrolle mit dem Original verglichen werden.
Des Weiteren ist es möglich, Effekte für bestimmte Plattformen weg zu lassen, was speziell bei
rechenintensiven Effekten wie zum Beispiel langen Hallfahnen nützlich sein kann.
Um den Speicher zu entlasten, können lange und zeitlich unkritische Audio-Assets (wie zum Beispiel
Musik oder Atmo) gestreamt werden. Standardmäßig werden alle importierten Audiodateien mit einer
73
Länge über 10 Sekunden zunächst automatisch für Streaming eingestellt, was aber gerendert werden
kann (Firelight Technologies, 2018d).
Prozessoroptimierung
Durch das Virtual Voice System in FMOD ist es möglich, eine enorme Anzahl von Sounds gleichzeitig
abzuspielen, aber nur eine begrenzte Anzahl davon tatsächlich zu rendern (Firelight Technologies,
o.J.j). Voices werden abhängig von ihrer Echtzeit-Hörbarkeit dynamisch virtuell oder gerendert. Durch
Event Macros kann für ein Event weiter eingestellt werden, wie viele Instanzen von diesem zur selben
Zeit existieren dürfen. Zusätzlich kann das Verhalten definiert werden für den Fall, dass bereits die
maximale Anzahl an Instanzen erreicht ist und eine neue Instanz erzeugt wird. In diesem Fall ist es
möglich, die älteste, die am weitesten entfernte oder die leiseste Instanz zu stoppen, die neue Instanz
zu virtualisieren oder keine neue Instanz zu erstellen. Ferner kann eingestellt werden, in was für einem
zeitlichen Abstand dieselbe Instanz erneut abgespielt werden kann, um ein zeitgleiches Abspielen
dieser zu verhindern. Überdies ist es möglich, für das Virtual Voice System die Priorität von Events zu
definieren. Auf diese Weise wird festgelegt wie wichtig es ist, dass ein Event nicht virtualisiert wird.
Instanzen mit niedriger Priorität werden dadurch schneller aussortiert. Zwischen Event-Instanzen mit
gleicher Priorität entscheidet ein effektiv höherer Lautstärkewert für das Bestehen einer Instanz
(Firelight Technologies, 2018a).
4.2.3.16 Debugging
Durch den Profiler ist es möglich, beim Live Update Sessions aufzunehmen und anhand dieser Daten
Probleme zu analysieren. Dafür können relevante Busse in die Session hinzugefügt werden. Eine solche
aufgenommene Session beinhaltet die Audio-Ausgabe des Spiels und die ausgeführten API-Calls, was
ermöglicht, die Session ohne Live Update erneut abzuspielen und zu untersuchen. Außerdem werden
alle abgespielten Events, die CPU- und Speicher-Nutzung, die benötigte Bandbreite, sowie die Anzahl
an Voices und Instanzen, die Lebensdauer von Instanzen und die Laustärke des Master-Busses grafisch
dargestellt.
Im „Playback with API Capture“-Modus ist es möglich, an dieser aufgenommenen Session Änderungen
vorzunehmen und zu testen wie diese den aufgenommenen Mix beeinflussen. Dafür werden die API-
Calls der aufgenommenen Session mit neu generiertem Ton abgespielt.
74
4.2.4 Fabric
Tazman bietet mit Fabric eine Möglichkeit, innerhalb von Unity eine Vielzahl von Audiofeatures zu
nutzen und damit Unitys Funktionsumfang für Audio zu erweitern. Dabei werden von Unity weiterhin
dieselben Plattformen, Kanalformate (Tazman-Audio, 2014) und Audio-Dateiformate unterstützt (s.
Kapitel „4.2.1 Unity“), ebenso Ambisonics 1. Ordnung im B-Format.
Für die Binauralisierung von Audio für VR ist es möglich, Oculus Spatializer, GoogleVR, RealSpace3D,
Phonon 3D oder (für bereits existierende Kunden) 3DCeption einzubringen (Tazman-Audio, o.J.a).
4.2.4.1 Funktionsweise
Fabric basiert auf Scripten, die in der Form von Components in Unity hinzugefügt werden können.
Durch Event-Trigger werden Events mit einer bestimmten Aktion an Fabric gesendet. Diese können
neben dem Abspielen, dem Stoppen oder Pausieren eines Sounds, dem Panning, dem Festlegen von
Pitch, Lautstärke, Parametern oder Switches viele weitere Befehle enthalten. Der Aufruf kann dabei
durch die Funktion eines Game-Objekts oder anhand von Code erfolgen. Jede Component, die durch
Event-Listener auf dieses Event hört, wird auf dieses antworten und eine Aktion ausführen.
Durch den Event Manager wird diese Liste aus Events und die Übermittlung von Events zwischen Spiel-
und Fabric-Components verwaltet. Für die Verwaltung der Fabric-Components wird der Fabric
Manager genutzt. Durch ihn können globale Einstellungen für Musik getroffen werden, anhand
welcher sich bestimmte Components synchronisieren können.
4.2.4.2 Components
Components können in Fabric als XML-File gespeichert oder geladen werden. Sie verfügen über eine
große Anzahl an Einstellungen, wie zum Beispiel die Anzahl ihrer Instanzen, Lautstärke, Pitch, zufälliger
Versatz für Lautstärke und Pitch, Fades, Einstellungen für ihre Virtualisierung, sowie eine Anzeige über
ihre aktuelle und maximale CPU-Auslastung. Da Components hierarchisch angeordnet sind und
Properties ihrer Eltern-Components erben, existieren auch Optionen, diese in der Kinder-Component
zu überschreiben.
Die Audio Component stellt die Basis-Component dar. Durch sie kann ein festgelegter Audio-Clip
abgespielt werden. Darüber hinaus ist es möglich, diesen zu loopen (unendlich oder bestimmte
Anzahl), den Sound zufällig im 3D-Raum zu positionieren und ihn durch globale Einstellungen für Musik
auf den Takt oder in beliebiger Form zu verzögern. Zusätzlich ist es möglich, im Audio-File Marker und
Regionen anzulegen, zu laden oder diese per Zufall zu erzeugen. Diese können für Loops oder zur
Benachrichtigung der Eltern-Component genutzt werden.
75
4.2.4.3 Abwechslungsreiche Sounds
Variation innerhalb von Sounds können unter anderem durch die Random Component erzeugt
werden. Diese triggert ihre Kinder-Components in zufälliger Reihenfolge oder in zufälliger Reihenfolge
ohne Wiederholungen. Dabei ist es möglich, die Kinder-Components unterschiedlich zu gewichten. Sie
können geloopt werden und dabei nacheinander abgespielt oder anhand einer definierten
Verzögerung erneut getriggert werden. Ferner ist es bei mehreren Instanzen möglich, eine
gemeinsame Random-No-Repeat-History untereinander zu teilen und auf diese Weise das mehrmalige
Abspielen von gleichen Sounds zu verhindern. Zusätzlich ist es möglich, eine Verzögerung für das erste
Abspielen, jeden Abspielvorgang oder eine zufällige Verzögerung anzuwenden. Ein ähnliches Verhalten
wie die Random Component hat auch die Random Audio Clip Component, jedoch mit dem
Unterschied, dass diese direkt Audio-Clips verwendet und keine Audio Components.
Des Weiteren kann eine Sequence Component für Abwechslung sorgen. Diese spielt ihre Kinder-
Components anhand einer Playlist ab, was kontinuierlich oder in fortschreitender Form pro Event
geschehen kann. Obendrein ist ein Offset für den Übergang definierbar oder zufällig innerhalb eines
Bereichs generierbar.
Durch die Silent Component ist es außerdem möglich, eine festgelegte oder zufällige Länge von Stille
zu definieren, welche in Kombination mit anderen Components verwendet werden kann.
Mithilfe der Intro Loop Component kann nach einem Intro, eine Loop-Sektion und beim Stoppen der
Component, eine Outro-Sektion abgespielt werden. Es besitzt dieselben Properties für Übergänge wie
die Squence Component.
4.2.4.4 Spielzustände
Runtime Parameter
Durch Runtime Parameter ist es möglich, anhand einer Vielzahl von vordefinierten oder
benutzerdefinierten Parametern des Spiels Components zu manipulieren. Durch die Kurven eines
Graphen werden die Parameter auf Properties einer Component gemappt. Überdies ist es auch
möglich, Parameter durch einen eingebauten Signalgenerator generieren zu lassen.
Zusätzlich ist es möglich, Marker auf Runtime Parameter und Timelines zu positionieren und dadurch
Parameter anhand eines Namens zu setzen. Durch globale Parameter können mehrere Components
zur selben Zeit gesteuert werden.
76
Switch Component
Durch eine Switch Component ist es möglich, eine bestimmte Kinder-Component anhand einer Option
innerhalb des Spiels zu triggern. Zudem ist es durch globale Switches möglich, mehrere Components
zur selben Zeit zu steuern.
4.2.4.5 Panning und räumliche Positionierung
Fabric unterstützt sowohl im 3D-Raum in Unity angeordnete Schallquellen, als auch deren statische
ursprüngliche Kanalzuordnung. Das Panorama für Stereo kann dabei auch per Zufallsgenerator
positioniert werden. Zusätzlich ist es möglich, zwischen der 3D-Engine und dem Stereosignal zu
blenden und Zwischeneinstellungen zu verwenden.
4.2.4.6 Distanzverhalten
Für Components kann die Lautstärke entweder
anhand einer logarithmischen, linearen oder
maßgeschneiderten Kurve abgeschwächt
werden. Für diese Kurve kann eine minimale
und maximale Distanz definiert werden. Durch
den Custom Curve Editor wird es ermöglicht,
global und individuell für Components Kurven
anzulegen. Diese bestehen aus RollOff, Spatial
Blend, Reverb ZoneMix und Spread (s.
Abbildung 46).
4.2.4.7 Richtwirkung
Durch das Spread Level ist es innerhalb von Components möglich, einen Winkel von 0 bis 360° für die
Ausbreitung eines Sounds zu definieren.
4.2.4.8 Routing & Mixing
Die unterschiedlichen Fabric-Components können entweder direkt oder über einen Audio-Bus auf eine
Audiomixer-Group innerhalb von Unity geroutet werden. Der Umweg über den Bus bietet zusätzlich
die Möglichkeit Laustärke und Pitch zu verändern, sowie die Anzahl an Voices zu begrenzen. Die
Mischung, sowie die verschiedenen Snapshots können dann innerhalb von Unitys Audio-Mixer erzeugt
werden. Doch vor dem Routing auf eine Unity Audio-Mixer-Group können bereits innerhalb von Fabric
anhand von unterschiedlichen Components Signale gemixt werden.
Abbildung 46: Custom Curve Editor von Fabric (Bildquelle: Fabric 2.4)
77
Durch die Group Component ist es möglich, die Lautstärke und den Pitch aller Components innerhalb
ihrer Hierarchie zu steuern, diese zu muten oder sie solo zu schalten. Sie stellen eine Art Bus dar, der
in der Mixer View von Fabric angezeigt und manipuliert werden kann.
Daneben bietet das Mixer Window eine Mixer-Ansicht mit der Lautstärke und Pitch von Group
Components verändert und diese stumm oder solo geschaltet werden können. Um Components
zusammenzufassen und ihre Lautstärkeverhältnisse anzupassen, ohne diese in der Mixer-View
anzuzeigen, kann die Blend Component genutzt werden.
Mit der Sample Player Component ist es möglich, in mehrkanaligen Audiofiles die Lautstärke einzelner
Kanäle zu verändern und Marker von Loopregionen aus WAV-Dateien zu lesen oder diese manuell zu
setzen.
Durch die Volume Meter Component ist es möglich, Audio-Levels innerhalb einer Component in einem
Mixdown aller Audioquellen der Kinder-Components anzeigen zu lassen.
Durch die Side Chain Component ist es möglich, die Lautstärke einer Component anhand eines Meters
einer beliebigen anderen Component zu reduzieren. Stattdessen ist es auch möglich, eine beliebige
Component als Eingabe für die Side-Chain zu verwenden, was ungenauer ist, aber wenig CPU genötigt.
Während der Ausführung von Code in Unity können an den Fabric-Components zwar Änderungen
durchgeführt, aber nur getestet und nicht gespeichert werden, da diese nach dem Stoppen des Codes
verloren gehen.
4.2.4.9 Snapshots
Mit dem Dynamic Mixer ist es schließlich möglich, Gruppen-Presets für die Group Components zu
erzeugen, in denen Offsets für Lautstärke, Pitch, sowie Fades definiert werden können. Diese erstellten
Gruppen-Presets können anhand von Events getriggert werden. Überdies ist es möglich, durch den
Audio-Mixer-Manager anhand von Fabric-Events verschiedene Snapshots innerhalb von Unitys Audio-
Mixer auszulösen und zwischen diesen zu wechseln.
4.2.4.10 Testen des Verhaltens von Audio
Durch den Previewer ist es möglich, Components mit angebrachten Event-Listenern abzuspielen und
diese in einer Session anzuordnen. Dadurch können die Components miteinander verglichen werden.
Basic-Properties können angepasst, sowie Parameter oder Switches der jeweiligen Components
ausgewählt werden.
78
4.2.4.11 Effekte
Durch die DSP Component ist es möglich, DSP-Effekte auf Kinder-Components anzuwenden. Zu den
von Fabric mitgelieferten Effekten gehört ein Stereo Spreader, der aus Mono-Quellen Stereo-Signale
erzeugt. Ein Audio Panner ermöglicht Änderungen der Lautstärke einzelner Kanäle einer 7.1-
Lautsprecherkonfiguration. Mit dem Sample Player Panner kann die Lautstärke einzelner Kanäle eines
mehrkanaligen Audio-Clips geändert werden. Mithilfe den Audio Capture kann abgespieltes Audio als
WAV zu exportiert werden. Innerhalb von Components kann die Lautstärke eines Doppler-Effekts
definiert werden. Zusätzlich können Effekte von Unity genutzt werden. Zu diesen gehören Chorus,
Distortion, Echo, Hall, HPF und TPF.
Ferner ist zu beachten, dass weitere Effekte von Unity eingesetzt werden können, sobald auf eine
Audio-Mixer-Group innerhalb des Audio-Mixers von Unity geroutet wurde. Zu diesen gehören ein
Flanger, Normalisierer, parametrischer EQ, Pitch Shifter, Kompressor und zwei verschiedene TPF und
HPF.
Plugin Host ermöglicht den Einsatz von VST-Plugins in Kombination mit Unitys Audio-Mixer.
4.2.4.12 Adaptive Musik
Im Fabric Manager können globale Einstellungen für Musik getroffen werden, anhand welcher sich
bestimmte Components synchronisieren können. Diese Einstellungen bestehen aus dem Tempo in
BPM, der Taktart und des Zeitpunkts des Übergangs (nächste Zählzeit, nächster Takt oder das Ende des
Audio-Clips). Dadurch ist es möglich, ausgelöste Audio Components auf den Takt zu verzögern.
Mit der Music Component ist es
möglich, wie bei der Switch
Component, zwischen ihren Kinder-
Components umzuschalten, jedoch
mit dem Zusatz, dass dazwischen ein
Übergangsteil abgespielt werden
kann. Zusätzlich können die globalen
Musik-Einstellungen überschrieben
werden, um Musik in verschiedenen Tempi und Taktarten zu unterstützen und den Zeitpunkt des
Übergangs zwischen Audio Components individuell anzupassen. Dafür können neben der nächsten
Zählzeit, dem nächsten Takt und dem Ende des Audio-Clips auch im Audio-File gesetzte Marker genutzt
werden. Wie bereits im Kapitel „4.2.4.2 Components“ erwähnt, können diese Marker außerdem für
die Erstellung von Loopregionen eingesetzt werden.
Abbildung 47: Definierte Übergänge in Music Component von Fabric (Bildquelle: http://s3.amazonaws.com/screensteps_live/images/tazman-audio/288045/2/rendered/1c787f40-fd3f-4625-adcd-7ba929693b4e_display.png)
79
Anhand der Timeline Component ist es möglich, Sounds oder musikalische Elemente zu schichten und
zu überblenden. Vom Spiel übermittelte Parameter können durch diese mit Lautstärke- oder Pitch-
Kurven verbunden werden und Components anhand von Bereichen innerhalb der Timeline aktivieren.
Fabric ermöglicht den Einsatz von MIDI. Mithilfe der MIDI Component können MIDI-Dateien geladen
und als Spuren in der Fabric-Hierarchie genutzt werden. Ferner ist es durch den REX Importer möglich,
Loop-Dateien im REX-Format zu importieren und anhand des Tempos der Musik zu synchronisieren.
4.2.4.13 Mehrsprachen-Unterstützung
Die Dialog Audio Component unterstützt verschiedene Sprachen, ohne dabei Fabrics Hierarchie
duplizieren zu müssen. Dafür werden für ein Projekt zuvor die unterschiedlichen Sprachen angelegt.
4.2.4.14 Mikrofonsignale und fremde Quellen
Durch die Mic Audio Component ist es möglich, Signale eines Mikrofons im Spiel zu erfassen, wie jede
andere Art von Audioquelle zu behandeln und zum Beispiel Effekte auf diese anzuwenden. Mithilfe der
WWW Audio Component können durch Unitys WWW-Klasse Audio-Clips von einer http-Adresse oder
aus einem beliebigen Ordner abgespielt werden (Tazman-Audio, o.J.c).
4.2.4.15 Speicher- & Prozessoroptimierung
Für Events kann die maximale Anzahl ihrer zeitgleich vorhandenen Instanzen global im Fabric-Manager
oder lokal in Components festgelegt werden. Die Anzahl virtueller Events und den dafür genutzten
Lautstärkeschwellenwert können global definiert werden. Für Busse kann die maximale Anzahl an
Voices ebenfalls festgelegt werden. Zusätzlich ist es möglich, das Abspielen von mehreren Instanzen
auf demselben Game-Objekt zu erlauben oder zu unterbinden. Besonders wichtigen Components kann
eine hohe Priorität beigemessen werden. Dadurch werden diese gegenüber Components mit
geringerer Priorität bevorzugt.
Durch den Stealing Mode kann ein Verhalten für den Fall, dass die maximale Anzahl an Instanzen
erreicht wird, definiert werden. Es ist möglich die älteste, die neuste, die am weitesten entfernte oder
keine Instanz zu ersetzen.
Die Möglichkeit der Virtualisierung erlaubt es, den Abspielvorgang von Events außerhalb einer
bestimmten Distanz zu stoppen und die Instanz ihrer Component freizugeben, aber weiterhin die
Position zu verfolgen. Auf diese Weise können zum Beispiel bei einer großen Anzahl von Ambient-
Sounds Ressourcen geschont werden. Für die Virtualisierung können für den Abspielvorgang der
Components verschiedene Einstellungen getroffen werden. So kann dieser nach dem virtuellen Dasein
an zuvor pausierter Position fortgesetzt oder anhand der verstrichenen Zeit fortgesetzt, sowie neu
begonnen werden. Um die Speichernutzung und Performance weiter zu verbessern, können für
80
Components zusätzlich Volume-Schwellenwerte definiert werden. Liegt der Wert der Component bei
einem Event darunter, wird sie nicht abgespielt. Wird eine bereits abspielende Component leiser und
unterschreitet dabei den Schwellenwert, wird sie zu einer virtuellen Component umgewandelt. Die
Anzahl an virtuellen Components kann eingestellt werden.
Durch Dynamic AudioClip Loading kann Fabric automatisch den Ladevorgang von Audiodaten in den
Speicher verwalten. Nach dem ersten Abspielen bleibt ein Clip im Speicher, bis alle Instanzen ihren
Abspielvorgang gestoppt haben. Des Weiteren kann innerhalb von Components eingestellt werden, ob
Audiodaten asynchron im Hintergrund geladen werden ohne den Unity Thread zu blockieren oder ob
der Ladevorgang im Moment des Referenzierens durch eine Audio Component erfolgt.
Mittels Audio Spline ist es möglich, entlang eines Splines Event-Trigger mit geringster Distanz zum
Hörer zu positionieren. Dies umgeht die sonst benötigten Berechnungen mit mehreren Schallquellen
und kann zum Beispiel für einen Fluss eingesetzt werden.
4.2.4.16 Debugging
Der Debug Log kann in der Konsolenausgabe von Fabric verarbeitete Fehler, Warnungen und
Informationen anzeigen, sowie beim Auftreten eines Fehlers die Ausführung von Code stoppen. Mit
dem Event Monitor können aktive Events mit Component, zugehörigem Game-Objekt, Position,
Lautstärke, Pitch, 2D-Panner, Anzahl an Instanzen und virtueller Instanzen und Status aufgelistet
werden.
Der Event Log erlaubt die Folge von Events zu überwachen und dadurch fehlende Events und
potentielle Probleme zu erkennen.
Durch die Graph View ist es möglich, Components während der Laufzeit hierarchisch mit
Informationen über ihren Zustand in einem Strukturdiagramm darstellen zu lassen und dadurch ihre
Beziehungen zu überprüfen.
81
4.2.5 Vergleich
In der folgenden Tabelle 4 werden Wwise, FMOD, Fabric und Unity anhand ihrer Funktionsumfänge
miteinander verglichen.
Tabelle 4: Vergleich der Funktionsumfänge von Wwise, FMOD, Fabric und Unity
Wwise FMOD Fabric Unity
Aufbau Modular in Containern
Spurenbasiert mit Triggern
Unity Components
Unity Components
Kanalformate 0.1, 1.0, 2.0, 3.0, 4.0, 5.1, 7.1, Dolby 5.1.2, Dolby 7.1.2, Dolby 7.1.4, Auro 9.1, Auro 10.1, Auro 11.1 und Auro 13.1
1.0, 2.0, 4.0, 5.0, 5.1, 7.1 und 7.1.4
1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1
1.0, 2.0, 3.0, 4.0, 5.0, 5.1 und 7.1
Mehrsprachen-Support
✔ ✔ ✔ -
MIDI ✔ ✔ ✔ ✔
Tracker-Module - ✔ ✔ ✔
Infrastruktur für Adaptive Musik
✔ ✔ ✔ -
Ambisonics (B-Format)
3. Ordnung in FuMa mit maxN-Normalisierung
1. Ordnung in ambiX
1. Ordnung in ambiX
1. Ordnung in ambiX
Verarbeitung von Mikrofonsignalen
✔ Nur mit API-Script ✔ Nur mit API-Script
Echtzeit-Mixing ✔ ✔ ✔ (mit Unity Audio-Mixer)
✔
Eingebauter Doppler-Effekt
- ✔ ✔ ✔
SC für Ducking ✔ ✔ ✔ ✔
Effekt-Plugins HPF, TPF, parametr. EQ
3-Band-EQ, Multiband-EQ, HPF, TPF, parametr. EQ,
HPF, TPF, parametr. EQ (mit Unity Audio-Mixer)
TPF, HPF, parametr. EQ
Delay, Stereo Delay, Faltungshall, zwei unterschiedliche algorithm. Halle
Delay, Faltungshall, algorithm. Hall
Echo, algorithm. Hall
Echo, algorithm. Hall
Distortion Distortion Distortion Distortion
Flanger, Tremolo, Harmonizer
Flanger, Tremolo, Chorus
Chorus, Flanger (Mit Unity Audio-Mixer)
Chorus, Flanger
82
Wwise FMOD Fabric Unity
Effekt-Plugins Pitch Shifter, Time Stretcher
Pitch Shifter Pitch Shifter (durch Unity Audio-Mixer)
Pitch Shifter
Kompressor, Expander, Peak Limiter
Kompressor, Limiter
Kompressor, Normalisierer (durch Unity Audio-Mixer)
Kompressor, Normalisierer
Recorder - Recorder -
Meter, Gain Meter, Gain - -
- Kanal-Mixer Kanal-Mixer, Stereo-Spreader
-
Soundgenerato-ren, Synthesizer
Soundgenerator - -
dynamische erste Reflektionen anhand der Geometrie des 3D-Raumes
- - -
Panning und räumliche Positionierung
Statisches 2D-Panning mit Surround-Panner
Abhängig von Kanalkonfiguration Stereo-, Surround- und 3D-Panner
Stereo-Panner Stereo-Panner
Statische oder automatisierte räumliche 3D-Positionierung (abhängig oder unabhängig von der Orientierung des Nutzers)
Statische oder automatisierte räumliche 3D-Positionierung (fest gekoppelt an Orientierung des Nutzers)
Beliebiges Blenden zwischen ursprünglicher Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum
Beliebiges Blenden zwischen ursprünglicher Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum
Spielgesteuerte Positionierung im 3D-Raum
Spielgesteuerte Positionierung im 3D-Raum
Spielgesteuerte Positionierung im 3D-Raum
Spielgesteuerte Positionierung im 3D-Raum
Distanz-Verhalten Kurven für Lautstärke, Auxiliary-Sends, HPF, TPF, Ausbreitung und Fokus der Ausbreitung
Preset-Kurven für Laustärke, Distanzparameter auch für beliebige Automationen einsetzbar
Kurven für Lautstärke, Hall, Ausbreitung und Blenden zwischen Stereo und 3D-Sound-Engine
Kurven für TPF, Lautstärke, Hall, Ausbreitung, Blenden zwischen Stereo und 3D-Sound-Engine
Echtzeit-Steuerung von Parametern
✔ ✔ ✔ (Nur durch eigene Scripts)
Snapshots für Spielzustände
✔ ✔ ✔ ✔
Switches ✔ - ✔ -
83
Wwise FMOD Fabric Unity
Tools für die Variation von Sounds
Random und Sequence Container
Multi Instruments für zufälliges oder sequenziertes Abspielen
Random und Sequence Component
(Nur durch eigene Scripts)
Random-Pitch, Random-Lautstärke
Random-Modulation auf beliebigen Parametern
Random-Pitch, Random-Lautstärke
(Nur durch eigene Scripts)
Random-HPF, Random-TPF, Random-Delay, Random-Looping
Scatterer Instruments erzeugen kontinuierlich Instanzen von 2D- oder 3D Instruments mit zufälliger Positionierung
Random-Stereo-Panning
(Nur durch eigene Scripts)
Voice-Management-System
Maximale Anzahl an Voices definierbar (global und für Objekte)
Maximale Anzahl an Instanzen von Events definierbar
Maximale Anzahl reeller Voices in Components und Bussen, virtuelle Voices global definierbar
Anzahl an reellen und virtuellen Voices definierbar
Definierbare Prioritäten
Definierbare Prioritäten
Definierbare Prioritäten
Definierbare Prioritäten
Definierbare Mindest-Lautstärke und Distanz für reelle Voices
Definierbarer zeitlicher Mindestabstand zwischen Instanzen
Definierbare Mindestlaut-stärke
-
Abspielverhalten virtueller Voices definierbar
Verhalten für das Ersetzen von Instanzen definierbar
Verhalten für das Ersetzen von Instanzen definierbar
-
- - Mehrere Instanzen auf demselben Game-Objekt erlauben oder unterbinden
-
Möglichkeiten für Konvertierung und Streaming
✔ ✔ (Funktionalität von Unity)
✔
Möglichkeiten Timeline-basiert zu Arbeiten
(nur in Music Segment Editor)
✔ (nur in Timeline Component)
(nur in Unity Timeline)
84
Wwise FMOD Fabric Unity
Einbindung in Unity Timeline
Clips für Events und RTPC auf Spuren anlegen
- - Platzierung von Audio-Clips, definieren von Start- und Endposition, Fades, Time Stretching, Loopen
Debugging Grafische Darstellung und Auflistung von CPU-, Speichernutzung und Bandbreite
Grafische Darstellung von CPU-, Speichernutzung und Bandbreite
Auflistung der Abfolge von Events
Grafische Darstellung und Auflistung von CPU-, Speichernutzung und Anzahl abspielender Audio-Sources und Voices
Logging von ausgelösten Events und allen ausgeführten Aktionen
Logging von API-Calls und grafische Darstellung von ausgelösten Events
Auflistung aller aktiven Events mit Components, zugehörigem Game-Objekt, Position, Lautstärke, Pitch, 2D-Panner, Anzahl an Instanzen und virtueller Instanzen und Status
Tabelle mit Informationen über das Abspielverhalten aktiver Sound-Events (von Audio-Sources verwendete Audio-Clips, Lautstärke, Distanz, Abspiellänge u.v.m.)
Liste oder grafische Darstellung mit Lautstärke von Voices, Bussen, Ausgabe u.v.m.
Grafische Darstellung von Lautstärke von Master-Bus
- Tabelle mit Lautstärke an Audio-Sources, Mixers, Mixer-Groups und Audio-Listener
Liste oder grafische Darstellung mit Anzahl an Events, Sends, Objekten, Übergängen, Streams, Voices
Grafische Anzeige mit Anzahl an Voices, Instanzen, sowie die Lebensdauer von Instanzen
Anzeigen von Fehlern, Warnungen und Informationen in Konsole, Ausführung von Code bei Fehlern stoppen
Auflistung der Anzahl aller abspielenden oder pausierenden Audio-Sources und Audio-Clips, Aufschlüsselung der CPU- und Speichernutzung
85
Wwise FMOD Fabric Unity
Debugging Struktur-diagramm zur Darstellung von Beziehungen zwischen den Objekten
- Struktur-diagramm zur Darstellung hierarchischer Beziehungen zwischen den Components
Tabelle zeigt hierarchisch die zugehörigen Mixer und Mixer-Groups an
Struktur-diagramm zur Darstellung der Bus-Hierarchie von aktuell abgespielten Voices
- - -
Überwachung von Game-Objekten und deren dynamische 3D-Visualisierung
Live-Sessions aufzeichnen und analysieren, aufgezeichnete Live-Sessions mit Änderungen erneut abspielen, ohne dabei mit Game Engine verbunden zu sein
- -
Erstellung von Statistiken über Audio-Elemente
- - -
Autarkes Testen Simulation von Events und Verhalten von Sounds ohne Game Engine möglich
Simulation von Events und Snapshots in einem spielähnlichen Kontext ohne Game Engine möglich
- -
Binauralisierung Oculus Spatializer, Microsoft HRTF Spatializer, Google Resonance Audio Spatializer, RealSpace3D
Oculus Spatializer Google Resonance Audio Spatializer, GoogleVR Spatializer, Steam Audio
Oculus Spatializer, GoogleVR, RealSpace3D, Phonon 3D, 3DCeption
Oculus Spatializer, Microsoft HRTF Spatializer, Steam Audio, RealSpace3D, DearVR
86
Durch die Middlewares FMOD und Wwise wird eine klare Trennung zwischen Sounddesigner und
Programmierer erreicht, was bei Unity oder Fabric nicht der Fall ist. Wwise bietet dem Sounddesigner
durch seinen Aufbau einen hohen Grad an Unabhängigkeit, da anhand von ausgelösten Events das
Verhalten von Sounds vollständig in Wwise definiert und beliebig beeinflusst werden kann. Aus diesem
Grund reicht es aus, in der Game Engine lediglich Events auszulösen und dadurch die Position und die
benötigten Parameter zu übermitteln. FMOD ermöglicht dem Sounddesigner ebenfalls einen hohen
Grad an Unabhängigkeit, jedoch reicht es hier nicht immer aus in der Game Engine Events auszulösen.
So muss zum Beispiel ein bereits abspielender Sound durch den Einsatz der API gestoppt werden. In
Wwise ist dies durch den Aufruf eines weiteren Events möglich, wofür zusätzlich Fades definiert
werden können.
Zwar erscheint einem Sounddesigner FMOD durch das an eine DAW erinnernde Spurenprinzip
eventuell zunächst vertrauter als Wwise, jedoch bringt genau dieser Aufbau gewisse Einschränkungen
mit sich. In Wwise können zum Beispiel Sounds in einen Sequence Container mit mehreren Random
Containern aufgetrennt werden. Auf diese Weise ist es möglich, für häufig wiederkehrende Sounds
eine maximale Variation zu erzeugen. Sobald ein beliebig langer Sound aus dem ersten Random
Container fertig abgespielt wurde, wird ein Sound aus dem zweiten abgespielt. Dabei sind beliebig tiefe
Verschachtelungen von Containern möglich. Zwar bietet FMOD die Möglichkeit, durch hintereinander
platzierte Multi Instruments auf der Timeline einen ähnlichen Effekt zu erzielen, allerdings existiert in
diesem Fall beim Einsatz von unterschiedlich langen Sounds eine Einschränkung, da die Länge des
ersten Multi Instruments statisch sein muss. Dadurch wird eine fest definierte Zeit für das erste Multi
Instrument benötigt, bis das zweite Multi Instrument abgespielt werden kann. Bis auf diese
Einschränkung können in FMOD durch Kombinationen aus Multi Instruments und Event Instruments
auch beliebige Verschachtelungen erzeugt werden.
Ein Vorteil des Timeline-basierten Ansatzes von FMOD ist die Erstellung von beliebigen Timeline-
basierten Automationen auf Events, Gruppen-Bussen, Sends, Returns oder VCAs. Dies ermöglicht
speziell für filmische beziehungsweise lineare Sequenzen die einfache Veränderung von Parametern.
In Wwise ist eine derartige Funktionalität nicht vorhanden, jedoch ist es möglich in der Unity Timeline
Realtime-Parameter in Wwise zu steuern und auf diese Weise beliebige Automationen auf beliebigen
Objekten zu erstellen. Außerdem ermöglicht die Unity Timeline das Auslösen von Events in Wwise. Ein
Workaround für lineare Automationen in Wwise ohne den Einsatz der Unity Timeline kann von der
Game Engine durch die Übermittlung eines Parameters ab einem bestimmten Zeitpunkt für die
vergangene Zeit erfolgen. Auf diese Weise stellt der X-Wert des Graphen für die RTPC in Wwise die
Zeit dar und anhand des Parameters kann eine Timeline-basierte Automation erstellt werden. Dieser
Workaround ist in Fabric ebenfalls nötig, um eine derartige Funktionalität zum Beispiel mit der
87
Timeline Component zu erhalten. Fabric bietet nämlich keine Unterstützung der Unity Timeline, was
bei FMOD ebenfalls der Fall ist. In Unity selbst ist eine derartige Funktionalität für Automationen von
Audio trotz Timeline innerhalb von linearen Sequenzen nur durch selbstgeschriebene Scripte oder das
Auslösen von Snapshots möglich.
Das Auslösen und Überblenden zwischen verschiedenen Snapshots durch Events ist in Wwise, FMOD,
Fabric und Unity möglich. Dabei können Übergänge zwischen diesen definiert werden. In Unity werden
Snapshots innerhalb eines Audio-Mixers fest für alle Fader der enthaltenen Audio-Mixer-Groups
definiert. Zwischen diesen Einstellungen kann durch Events gewechselt werden. FMOD bietet durch
Overriding Snapshots die Möglichkeit, für einzelne Fader Einstellungen festzulegen und durch Blending
Snapshots Fader-Stellungen in Relation zu ihrer aktuellen Stellung zu verändern. In Wwise werden
diese anhand von States durch Offsets immer relativ verändert. Fabric erweitert Unitys Möglichkeiten
ebenfalls mit dieser Funktionalität. Jedoch ist die Erstellung dieser Einstellungen innerhalb von Fabric
nicht während der Ausführung von Code möglich, was die Anfertigung dieser Snapshots und deren
Korrekturen umständlich gestaltet. Aus diesem Grund stellt die Arbeit mit dem Audio-Mixer von Unity
auch im Zusammenhang mit Fabric ein essentielles Element dar.
In Wwise und Fabric ist es möglich, Switches anzulegen, die durch Ereignisse umgeschaltet werden
können. Anhand dieser ist es möglich, Sounds von wiederkehrenden Events auszutauschen oder zu
verändern, wie zum Beispiel Fußschritte auf verschiedenen Untergründen. Diese Funktionalität ist in
FMOD nicht vorhanden, kann jedoch durch die Übermittlung von definierten Parametern umgesetzt
werden.
Die Spatial Blend-Funktion von Fabric und Unity zum beliebigen Blenden zwischen ursprünglicher
Kanalanordnung und spielgesteuerter Positionierung im 3D-Raum ist in FMOD und Wwise nicht
vorhanden. Ein ähnlicher Effekt kann jedoch auch durch einen Crossfade zwischen einem 3D-
positionierten und einem 2D-Sound-Objekt mit derselben, gleichzeitig abgespielten Audiodatei erzielt
werden.
Ein wichtiger Vorteil von Wwise und FMOD stellen die Tools zur autarken Erstellung einer Mischung
dar, da der Sounddesigner auf diese Weise unabhängig vom Programmierer vorarbeiten und dadurch
zu gegebener Zeit bereits vorgemischtes Sounddesign integriert werden kann. Da Wwise durch States,
Switches und Parameter die größeren Möglichkeiten bietet, innerhalb der Sound-Engine
Abhängigkeiten zu erstellen, sind die Testmöglichkeiten für diese durch den Soundcaster
dementsprechend ausführlicher. In FMODs Sandbox besteht hingegen neben der Überprüfung vom
Verhalten von Parametern die Möglichkeit, die Bewegung von Sound-Objekten sowie deren Verhalten
in Bezug auf die Distanz und Position zum Hörer zu simulieren.
88
Ein weiterer Vorteil von Wwise und FMOD ist der Einsatz von Soundgeneratoren und Synthesizern. So
können in Wwise neben den Signalen eines gewöhnlichen Signalgenerators auf eine einfache und
effiziente Weise Wind oder unterschiedliche Whooshes erzeugt und anhand von Realtime-Parametern
vom Spiel manipuliert werden. In FMOD ist dies für Motorensounds und Wetter möglich. FMOD
ermöglicht für diesen Zweck die Entwicklung eigener Synthesizer und Soundgeneratoren. In Wwise ist
zusätzlich ein Synthesizer enthalten, der tonal anhand von Realtime-Parametern gesteuert werden
kann. Unity und Fabric verfügen über keine derartige Funktionalität, jedoch können Tracker-Module
genutzt werden. Dies ist mit FMOD ebenfalls möglich, nicht aber mit Wwise.
Wwise, FMOD und Fabric bieten im Gegensatz zu Unity Möglichkeiten für die Erstellung von adaptiver
Musik. Anhand von Spielzuständen können vorkomponierte Abschnitte mit definierten Übergängen
nacheinander abgespielt, sowie einzelne Elemente innerhalb eines sich wiederholenden Loops
verändert werden. Dabei unterscheiden sich die drei Programme in der Vorgehensweise. In FMOD
werden alle Abschnitte der interaktiven Musik auf den Spuren einer Timeline angelegt. Auf dieser wird
abhängig von Spielparametern durch definierte Marker oder Regionen zu Zielpositionen gesprungen.
In Wwise werden musikalische Abschnitte als einzelne, separate Segmente mit Audio-Clips auf einer
oder mehreren Spuren erstellt und ihre Übergangspositionen definiert. Diese können durch Playlists
oder ausgelöste Spielzustände anhand definierter Übergänge nacheinander abgespielt werden. Die
Vorgehensweise von Fabric ähnelt in diesem Fall Wwise, da hierbei ebenfalls einzelne Abschnitte
erstellt und anhand von definierten Übergängen nacheinander abgespielt werden. Diese sind jedoch
nur in geringerem Ausmaß einstellbar, da beispielsweise keine Fades oder ein selbst definiertes Grid
mit Offsets möglich sind.
Abschließend bleibt festzuhalten, dass der Einsatz von Middleware für Sounddesigner große Vorteile
in Bezug auf die Unabhängigkeit, Flexibilität und die Möglichkeiten, interaktives und
abwechslungsreiches Audio zu erstellen, bietet. Weiter ist es nur durch FMOD und Wwise möglich,
bereits vor der Integration in das Spiel das Spielverhalten zu simulieren und Mischungen zu erzeugen.
Die Erstellung von adaptiver Musik wird speziell durch Fabric, FMOD und Wwise ermöglicht.
89
5. Umsetzung des interaktiven VR-Filmes „Asperity“
5.1 Beschreibung von „Asperity“
Der interaktive VR-Film “Asperity” handelt von dem Flug eines Spaceshuttles der „Asperity
Technologies Corp.“ zur ISS. Dabei ist der Nutzer ein Weltraumtourist, welcher neben dem Piloten im
Cockpit des Shuttles sitzt. Durch automatische Ansagen einer Sprecherstimme wird der Tourist im
Shuttle begrüßt und über bestimmte Zustände informiert.
Während des Fluges besteht eine audiovisuelle
Kommunikation zum Missionskontrollzentrum der „Asperity
Technologies Corp.“. Zusätzlich werden Funksprüche eines
Mitgliedes der ISS empfangen. Nach unvorhergesehenen
technischen Problemen stirbt der Pilot und der Nutzer muss
nach Anweisungen vom Missionskontrollzentrum selbst das
Shuttle zur ISS steuern und andocken.
„Asperity“ wird in Echtzeit in Unity für das HTC Vive HMD
gerendert. Dabei werden die Blickrichtung des Spielers und die
Position dessen Kopfes verfolgt. Darüber hinaus kommt für
Interaktionen ein Joystick und der HTC Vive Controller zum
Einsatz. Die Position von letzterem wird ebenfalls im Vive VR-
System überwacht. Der Nutzer sitzt dabei auf einem
spezialangefertigten Spaceshuttle-Sitz mit Anschnallgurten,
welche seinen Bewegungsfreiraum einschränken.
Abbildung 50: Nutzer auf dem spezialangefertigten Spaceshuttle-Sitz mit Beyerdynamic DT-770 Kopfhörer, HTC Vive HMD, HTC Vive Controller und Joystick
Abbildung 49: Screenshot aus „Asperity“ – Blick nach vorne mit Bildschirm für Kommunikation mit Missionskontroll-zentrum, Master-Alarm-Knopf und ISS im Hintergrund
Abbildung 48: Screenshot aus „Asperity“ – Blick des Users nach links zum Piloten des Shuttles
90
5.2 Anforderungen an den Ton
„Asperity“ besteht technisch und inhaltlich aus zwei Teilen. Im Intro wird ein Imagefilm des
Unternehmens „Asperity Technologies Corp.“ und der Start des Spaceshuttles in der Form eines reinen
360°-Videos abgespielt. Der darauffolgende eigentliche Film unterscheidet sich dann in zwei Punkten
von einem 360°-Video. Zum einen sind Momente vorhanden bei denen der Spieler mit der Umwelt
interagieren, Knöpfe drücken und das Spaceshuttle mit einem Joystick steuern muss, zum anderen ist
es für den sitzenden Spieler möglich neben dem Blickwinkel die Position seines Kopfes durch die
Bewegung des Oberkörpers in begrenztem Maße zu verändern (6DOF). Da bei 360°-Videos nur eine
Veränderung des Blickwinkels möglich und die Position des Zuschauers fest vorgegeben ist, ist es somit
selbst für die linearen Abschnitte des Films – das Intro ausgenommen – nicht möglich Audio-Software
für 360°-Videos einzusetzen. Eine derartige Veränderung des Perspektive könnte nicht wiedergegeben
werden.
Um somit diesen Anforderungen gerecht zu werden, ist es notwendig, Software für die Ton-Produktion
in Computerspielen zu verwenden. Der damit verbundene Workflow ist jedoch für die
Unberechenbarkeit in Computerspielen optimiert. Aus diesem Grund stellt es eine Herausforderung
dar, die vielseitigen Tools möglichst optimal einzusetzen und einen geeigneten Workflow mit diesen
zu entwickeln.
Obwohl der Pilot einen Helm trägt und die Kommunikation in der Realität per Funk durch Mikrofone
und Kopfhörer erfolgen würde, sollte im Film eine binaurale Lokalisation der Schallquellen im Cockpit
erfolgen. Der akustischen Immersion und dem räumlichen Klang wurde eine höhere Priorität als dem
Realismus zugesprochen.
5.3 Verwendete Technik für Audio
Für die Produktion und Wiedergabe von Audio wurde vorab die geeignete Soft-, Middle- und Hardware
zusammengestellt und mit dem Team von „Asperity“ besprochen.
5.3.1 Middleware
Bei „Asperity“ war kein Programmierer als festes Mitglied im Team vorhanden, sondern kam nur auf
Bedarf bei konkreten Problemen dazu. Aus diesem Grund war es für das Projekt essentiell, dass der
Sounddesigner möglichst unabhängig arbeiten kann. Des Weiteren war von Anfang an klar, dass der
Film iterativ umgesetzt wird und aus diesem Grund der Sounddesigner nicht erst nach einem Picture-
91
Lock mit der hauptsächlichen Arbeit beginnen kann, da es diesen nicht geben wird. Die Vertonung
musste vorab und parallel erfolgen.
Durch den Einsatz von FMOD oder Wwise sind diese Anforderungen in vergleichbarem Maße erfüllbar.
Da „Asperity“ in Unity gerendert wird und Wwise den Einsatz der Unity Timeline für das Auslösen von
Events und das Übertragen von Realtime-Parametern unterstützt, fiel die Entscheidung auf Wwise.
5.3.2 Kopfhörer
„Asperity“ soll auf Messen und in Museen ausgestellt werden. Aus diesem Grund wurden geschlossene
Kopfhörer gewählt, um eine Isolation von der Umwelt zu ermöglichen. In-Ear-Systeme kamen aufgrund
der Hygiene nicht in Frage. Um HRTFs nicht zu verfälschen, sollten Kopfhörer mit einem möglichst
linearen Frequenzgang eingesetzt werden. Aus diesem Grund wurden von Sonarworks individuell
ausgemessene Beyerdynamic DT-770 Kopfhörer angeschafft, deren Frequenzgang durch den Einsatz
von Sonarworks Reference 4 Headphone Edition kalibriert wird. Als Audio-Ausgabegerät wird ein
Focusrite Scarlett 2i4 eingesetzt.
5.3.3 Körperschallwandler
Um zusätzlich tiefe Frequenzen über den Spaceshuttle-Sitz wiedergeben zu können, wird bei
„Asperity“ ein Körperschallwandler eingesetzt. Dieser soll das VR-Erlebnis auf der haptischen Eben
bereichern. Jedoch hat sich dafür der Einsatz eines separaten LFE-Kanals in Kombination mit
Kopfhörern als komplizierteres Vorhaben erwiesen, da Wwise keine 2.1-Kanalkonfigurationen
unterstützt. Darüber hinaus wird für Kopfhörer und Lautsprecher ein unterschiedliches Panning
durchgeführt (Audiokinetic, o.J.j). Da der Einsatz des Körperschallwandlers ohne separaten Kanal,
dessen Einsatz als Effekt im Sounddesign einschränkt, ist dies als suboptimal zu betrachten. Zwar ist es
möglich, in Wwise durch selbstentwickelte Plugins, nicht standardisierte Audiogeräte zu integrieren
und diese zusätzlich als zweites Ausgabegerät zu nutzen (Audiokinetic, o.J.a, Audiokinetic, o.J.f), jedoch
war dies innerhalb des zeitlichen Rahmens des Projektes nicht durchführbar. Aus diesem Grund wurde
eine alternative Lösung für den Einsatz des Körperschallwandlers mit Hilfe eines Arduinos entwickelt.
Dieser wird von Unity angesteuert und spielt vorproduzierte Audiodateien ab. Auf diese Weise ist es
möglich, den Körperschallwandler unabhängig von den Kopfhörern mit einem separaten Signal zu
versorgen. Dafür wird ein Fischer Amps ButtKicker Mini LFE in Kombination mit einer The T.amp S-75
MK II Endstufe eingesetzt.
92
5.4 Vorproduktion
Der Ton für „Asperity“ wurde zu einem Großteil anhand des Drehbuchs, Moodboards und in Absprache
mit dem Regisseur in Pro Tools als Layouts im Stereo- und Ambisonics-Format vorproduziert. Auf diese
Weise konnten Sounds bereits als Referenz für die Erstellung von Animationen und für die Komposition
von Musik verwendet werden. So wurde der Imagefilm im Intro des Filmes zuerst vollständig auf der
Tonebene umgesetzt. Dies geschah zunächst mit einem Layout-Sprecher, damit bereits in diesem
frühen Stadium mit der Komposition von Musik begonnen werden konnte. Dieser wurde dann durch
den eigentlichen Sprecher ersetzt. Das Bild wurde erst im Nachhinein erstellt, als der Imagefilm mit
Sprecher, Musik und Sounddesign erstellt war. Dies führte zwar dazu, dass das Sounddesign erneut
angepasst werden musste, jedoch entsprachen die vom Regisseur gewählten Bewegtbilder zu einem
Großteil den durch das Sounddesign vermittelten Bildern, was dazu führte, dass die Änderungen sehr
gering waren und hauptsächlich aus dem Verschieben und Anpassen der bereits vorhandenen Sounds
bestanden. Zusätzlich konnten Probleme in der Mischung von Sounddesign und Musik bereits früh
erkannt und zum Teil durch eine Änderung der Komposition gelöst werden.
Anhand der für die Layouts verwendeten Pro Tools Session wurden schließlich die Audio-Assets für
Wwise als einzelne Clips exportiert. Auf diese Weise war es möglich die Sounds bereits vorab zu
beurteilen.
93
5.5 Produktion
5.5.1 3D-Atmo
Mit dem Schoeps ORTF-3D und dem Sennheiser AMBEO VR Mic wurden bereits während der
Vorproduktion mehrere 3D-Atmo-Aufnahmen durchgeführt. Es wurden diese beiden
Mikrofonsysteme gewählt, um einen direkten Vergleich der jeweiligen Vor- und Nachteile zu
ermöglichen. Für das Intro des Filmes wurde die Atmo in verschiedenen Gebäuden aufgenommen. Für
das Cockpit des Spaceshuttles wurden mehrere Züge und ein VW T5 mit Klimaanlage aufgenommen.
Zur Beurteilung und zum Vergleich der aufgenommenen 3D-Atmos ohne HMD vor der Integration in
Unity, wurde die Audio Ease 360pan Suite mit dem darin enthaltenen binauralen Encoder in Pro Tools
HD, im Zusammenhang mit einem Headtracker genutzt. Die mit dem ORTF-3D erstellten Aufnahmen
wurden dafür um die Hörposition in Form eines Würfels auf einem Ambisonics-Bus 3. Ordnung
angeordnet (s. Abbildung 53 und Abbildung 54).
Dabei hat das ORTF-3D klanglich und in Bezug auf die übermittelte Räumlichkeit subjektiv mehr
überzeugt. Die binaural encodierte Stereo-Basis war breiter als beim AMBEO. Zudem war der Klang
des AMBEO weniger ausgeglichen und dünner.
Abbildung 52: Atmo-Aufnahme für Raumklang in Intro Abbildung 51: Atmo-Aufnahme für Spaceshuttle
Abbildung 53: Anordnung der unteren Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)
Abbildung 54: Anordnung der oberen Kanal-Ebene der ORTF-3D-Aufnahme in Audio Ease 360pan Suite (Bildquelle: Audio Ease 360pan Suite)
94
5.5.2 Dialog
Für die Stimme des Piloten wurde Matt K. Baker und für den Sprecher
des Imagefilmes und der automatischen Ansagen im Spaceshuttle
Fraser W. Deacon vom Regisseur engagiert. Die Sprachaufnahmen
wurden von beiden in ihren Home-Studios in den USA durchgeführt.
Bei den Dreharbeiten für das Video der audiovisuellen
Kommunikation zum Missionskontrollzentrum erfolgte die
Tonaufnahme am Set.
Die Sprachaufnahmen des Mitglieds der ISS wurden mit einem
studentischen Sprecher im Tonstudio der Filmakademie Baden-
Württemberg durchgeführt.
Da im Spaceshuttle die audiovisuelle Kommunikation zum Missionskontrollzentrum als Video
abgespielt wird, war es besonders wichtig dessen Synchronität von Bild und Ton bei allen Zuständen
im Film zu erhalten. Aus diesem Grund wurden vom Regisseur die einzelnen Abschnitte in einem Adobe
Premiere Projekt mit dem Video vom Missionskontrollzentrum vorbereitet, um die Timings für Dialoge
zwischen dem Piloten, dem Missionskontrollzentrum und dem ISS-Mitglied zu erstellen. Diese wurden
als OMF in Pro Tools importiert, nachbearbeitet und als einzelne Stems ab den jeweiligen Startpunkten
der Abschnitte exportiert (s. Abbildung 56).
Abbildung 56: Pro Tools Session zur Erstellung von Dialog-Stems für die einzelnen Abschnitte von „Asperity“ (Bildquelle: Pro Tools)
Abbildung 55: Dreharbeiten von im Shuttle eingeblendeten Video von Ground-Control
95
5.6 Integration
Die Audio-Clips aus der Pro Tools Session für die Sound-Layouts wurden in ein Wwise-Projekt
importiert, ihre Position definiert und alle benötigten Events erstellt. Um Pegelspitzen zu begrenzen,
wurde ein Limiter auf dem Master-Audio-Bus platziert. Des Weiteren wurden bereits States und das
Verhalten von Sounds definiert, wie zum Beispiel das Einsetzen eines TPF nach dem Zerbrechen der
Scheibe im Spaceshuttle und das Verschieben seiner Grenzfrequenz nach dem Verstopfen des Lochs.
Ebenso wurde bereits definiert, dass bestimmte Sounds durch bestimmte Events ausgefadet oder
gestoppt werden. Dieses Verhalten wurde durch das Auslösen von Events im Soundcaster überprüft
und bereits eine Mischung erstellt.
5.6.1 Binauralisierung
Für die Binauralisierung von Audio-Objekten wurde zunächst RealSpace3D von VisiSonic eingesetzt,
was klanglich überwältigende Ergebnisse lieferte. Leider führte der Einsatz von RealSpace3D aber
gleichzeitig beim Starten von „Asperity“ zu einer extremen Beanspruchung des Speichers und zu den
Fehlermeldungen „Insufficient memory in pool: Default. Attempted alloc size: 79593296 bytes“ und
„Voice Starvation“ (s. Abbildung 57). Dies führte zusätzlich dazu, dass Ton und Bild nicht mehr synchron
waren. Das Problem trat bereits bei der Binauralisierung eines einzelnen Audio-Objektes auf.
Abbildung 57: Capture Log in Wwise mit den Fehlermeldungen beim Einsatz von RealSpeace3D in „Asperity“ (Bildquelle: Wwise v2017.2.1)
96
Da zuvor bei der Integration von RealSpace3D in Unity die Default Pool Size auf 100000 Kilobyte erhöht
worden war, war die Fehlermeldung mit 79593,296 Kilobyte nicht nachvollziehbar. Der Support von
VisiSonic und der Einsatz unserer Programmierer führten zu keiner Lösung des Problems, weshalb von
dem Einsatz von RealSpace3D abgesehen
wurde. Stattdessen wurde der Oculus
Spatializer eingesetzt. Wie RealSpace3D
wird dieser in Wwise auf einem Bus als
Plugin eingebunden und besitzt ein
einstellbares Raummodell für erste und
späte Reflektionen (s. Abbildung 58).
Dessen Maße wurden an die Größe des
Cockpits in „Asperity“ angepasst. Audio-
Objekte, die binauralisiert werden sollen,
werden dafür auf diesen Bus geroutet. Der
Oculus Spatializer ist zudem in der Lage FOA
im ambiX-Format binaural zu decodieren
(Oculus, o.J.a).
5.6.2 Lineares Intro
Im Intro des Filmes befindet sich der Zuschauer vor einer Leinwand auf welcher der Imagefilm der
„Asperity Technologies Corp.“ abgespielt wird (s. Abbildung 60).
Für diese wurde eine virtuelle Stereo-Lautsprecheranordnung aus Audio-Objekten in Wwise erstellt.
Auf dieser wird der für den Imagefilm vorproduzierte Ton abgespielt. Für die Atmo des Raumes wurden
Abbildung 58: Oculus Spatializer in Wwise (Bildquelle: https://scontent-frt3-2.xx.fbcdn.net/v/t39.2365-6/18309151_1855720148014394_8182416502838788096_n.jpg?oh=742f05be7cb18d05786ac850c57f190b&oe=5B4D70E6)
Abbildung 59: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Leinwand mit Imagefilme der „Asperity Technologies Corp.“
Abbildung 60: Screenshot der Rektangularprojektion des sphärischen Videos im Intro von „Asperity“ – Starts des Spaceshuttles
97
die Signale einer ORTF-3D-Aufnahme in Wwise als einzelne Audio-Objekte in Form eines Würfels fest
im 3D-Raum um die Hörposition positioniert.
Die zunächst diegetische Musik und Booster innerhalb des auf der Leinwand gezeigten Filmes werden
dann beim Start des Spaceshuttles nicht-diegetisch. Dies wird durch eine Überblendung zwischen den
beiden fest im 3D-Raum positionierten Signalen und einem kopfbezogenen Stereo-Signal erreicht. Als
das Shuttle abhebt und der Bildausschnitt des sphärischen Videos von der Leinwand auf das ganze
360°-Bild wechselt (s. Abbildung 59), wird dieser nicht-diegetische Ton mit dem diegetischen Ton einer
FOA-Atmo und den Schreien einzelner Vögel, als bewegte Audio-Objekte, angereichert.
Der Ton des Imagefilmes und die Atmo werden gestreamt, um die langen Audiodateien nicht
vollständig in den Speicher laden zu müssen. Die Atmo wurde mithilfe von Conversion ShareSets
zusätzlich in Vorbis konvertiert. Dieser Vorgang hatte keine entscheidenden klanglichen Einbußen und
verringerte die Bandbreite beim Streaming. Um den Ton des Imagefilmes synchron mit dem Bild
abzuspielen wurde die „Zero Latency“-Option für das Streaming aktiviert und 100 ms der Datei im
Speicher vor Beginn des Abspielvorgangs bereits vorgeladen.
5.6.3 Interaktiver Film
Zunächst wurden in Unity für die benötigten Positionen von Sounds Objekte definiert, von welchen
aus Wwise-Events ausgelöst werden. Die verschiedenen Abschnitte von „Asperity“ bestehen in Unity
aus verschiedenen Zuständen. Da der Programmierer aufgrund dieses logischen Aufbaus den Einsatz
der Unity Timeline als nicht optimal befunden hat, wurde von ihm ein Script geschrieben, welches beim
Erreichen eines Zustands, Events mit der jeweiligen Position auslösen kann. Dabei ist es möglich, ein
Delay zu setzen, um speziell bei den linearen Abschnitten zwischen unterschiedlichen Zuständen
Events auslösen zu können.
Die Dialoge und das Video vom Missionskontrollzentrum haben innerhalb dieser einzelnen Abschnitte
das Timing vorgegeben. Es gibt Dialogblöcke, die ohne eine mögliche Interaktion des Nutzers zu einem
nächsten Zustand führen und Interaktionsblöcke mit Dialog, deren nächster Zustand von der
Interaktion des Nutzers abhängt.
Abbildung 61: Ausschneiden eines Dialog-Teils innerhalb eines Dialog-Stems im Source Editor in Wwise (Bildquelle: Wwise v2017.2.1)
98
Die aus Pro Tools exportierten Dialog-Stems wurden in
Wwise zugeschnitten (s. Abbildung 61) und in mehrere
Sequence Container aus Sound-Objekten und Silence-
Objekten unterteilt (s. Abbildung 62). Auf diese Weise war
es möglich das Timing zu erhalten und beim Streaming der
Sounds keine Bandbreite für Stille innerhalb der WAV-
Dateien zu verschwenden. Dies hatte den Vorteil, dass pro
Charakter innerhalb eines linearen Abschnittes nur ein
Event innerhalb von Unity ausgelöst werden musste und
alles Weitere in Wwise verarbeitet werden konnte.
Die Dialog-Teile wurden ebenfalls anhand von ShareSets in vertretbarer Qualität in Vorbis konvertiert.
Darüber hinaus werden sie auch mithilfe der „Zero Latency“-Option gestreamt. Die Signale der
ORTF3D-Atmo innerhalb des Spaceshuttles wurden genauso wie die im Intro angeordnet. Diese
werden ebenfalls im Vorbis-Format gestreamt. Die Atmo wurde zunächst noch mit einer
tieffrequenten Surround-Atmo und einzelnen Loops, tonal abgestimmter Gebläse, erweitert. Das Ziel
dieser tonalen Abstimmung war das Erzeugen von Akkorden, um die Stimmung im Shuttle subtil zu
ändern. Die vielen Sound-Objekte erhöhten die Bandbreite und Anzahl der Streams jedoch kritisch,
weshalb die Surround-Atmo vorab in Pro Tools auf die ORTF-3D-Atmo summiert werden musste.
Zusätzlich wurden die Loops der Gebläse durch von SoundSeed Air generierten Gebläse-Sound ersetzt.
Dies ermöglichte ebenfalls das Erzeugen von Akkorden und sparte CPU und Speicher. Für den Aufprall
mit der ISS wird mit dem Wwise Tone Generator ein 8,1 s langer Sweep von 60 auf 20 Hz erzeugt, um
auf ressourcenschonende Weise zusätzliches Low-End zu erzeugen.
Im Gegensatz zu Dialog und Atmo wurden die kürzeren Sound-Effekte im PCM-Format verwendet und
nicht konvertiert, um deren Qualität nicht zu verringern. Diese werden von Unity im benötigten
Moment ausgelöst.
Foleys für den Piloten konnten erst zu einem sehr späten Zeitpunkt der Produktion aufgenommen
werden, da dessen finale Bewegungen erst dann fertig animiert waren. Diese wurden ebenfalls in
Vorbis konvertiert und werden als Stream wiedergegeben.
Bis auf elektronische Alarmsounds wurden alle Sounds vom Oculus Spatializer binauralisiert. Auf diese
Weise konnten Ressourcen geschont werden, da die schmalbandigen Alarme ohnehin ein
suboptimales Signal für die Ortung darstellen.
Für Lautstärke-Automationen wurden in Wwise verschiedene States erstellt. Anhand derer wurden
Offsets für die Lautstärke von verschiedenen Sound-Objekten festgelegt. Diese werden von Events
Abbildung 62: Playlist eines Dialog-Stems im "Sequence Container" in Wwise (Bildquelle: Wwise v2017.2.1)
99
ausgelöst. Diese Offsets wurden zunächst mithilfe des Soundcasters vorab eingestellt und später beim
Mischvorgang mit laufendem Spiel optimiert. Dabei wurden die States vom Spiel ausgelöst und das
ausgewählte Offset und der Übergang vom Sounddesigner optimiert. Der Mischvorgang wurde
zunächst mithilfe einer weiteren Person durchgeführt, welche mit dem HMD und Kopfhörern
„Asperity“ anschaute. Dabei hat Sounddesigner mit zusätzlichen Kopfhörern das Geschehen auf einem
Bildschirm verfolgt und in Echtzeit Korrekturen an der Mischung durchgeführt. Auf diese Weise musste
er nicht immer das HMD auf- und abziehen. Nach dieser Vorgehensweise wurde die Mischung vom
Sounddesigner mit HMD überprüft und letzte Änderungen wurden durchgeführt.
Als die Vertonung und die Mischung fertiggestellt waren, wurden die tieffrequenten Audio-Dateien für
den vom Arduino gesteuerten Buttkicker erstellt. Dafür wurde in Wwise auf einem Auxiliary-Bus ein
Limiter und der Wwise Recorder als Effekte platziert. Dieser Recorder erzeugt aus den ankommenden
Signalen WAV-Dateien im Stereo-Format, welche in Pro Tools bearbeitet, in MP3 konvertiert und in
den Arduino eingebunden wurden.
5.7 Fazit
Mit dem Einsatz von Wwise war es möglich, binauralen Ton für den interaktiven VR-Film „Asperity“ in
hoher Qualität zu produzieren. Durch Dialoge, Foleys und die achtkanalige Atmo des ORTF-3D-
Mikrofonarrays wurde eine hohe Anzahl an Streams erreicht, was aufgrund der benötigten Bandbreite
deren Konvertierung in das Vorbis-Format verlangte. Durch Kompression wurde somit ein Kompromiss
zwischen der benötigten Dateigröße und klanglicher Qualität eingegangen.
Da die Programmierer von „Asperity“ keine Unity Timeline einsetzten, wurden anhand von States
Automationen für die Lautstärke erstellt. Die Erstellung von States und deren Verknüpfung mit Events
war zunächst mit einem erhöhten Aufwand verbunden. Nach dieser Vorarbeit war es jedoch möglich,
effizient die Lautstärke zu automatisieren.
Eine weitere Herausforderung war die Erstellung von Sounds ohne vorhandenes Bewegtbild, da das
Team vorab produzierte Sounds als Referenz für die Erstellung von Animationen verwendete. Diese
Vorgehensweise ermöglichte jedoch zugleich eine eigenständige Vorarbeit. Dabei wurde die
Möglichkeiten genutzt, das Verhalten von Sounds in Wwise vorab zu definieren und zu testen. In
Kombination stellte dies mit der iterativen Vorgehensweise des Entwicklerteams einen großen Vorteil
dar und war für die Einhaltung der Fristen essentiell, da die Entwicklung bis zum Schluss andauerte.
100
6. Zusammenfassung
In dieser Arbeit wurden die Technik und die Arbeitsabläufe untersucht, mit denen Toninhalte für
Virtual Reality produziert werden können. Dabei wurde festgestellt, dass für die Tonaufnahme für
Virtual Reality sowohl Ambisonics-Mikrofone als auch quad-binaurale oder stereophone
Mikrofonarrays eingesetzt werden können. Sie weisen jedoch jeweils unterschiedliche Vor- und
Nachteile auf.
Für lineare VR-Anwendungen ist unter anderem die Produktion im Ambisonics-Format geeignet, da
spezielle Plugins innerhalb von DAWs für einfache Arbeitsabläufe zur Verfügung stehen. Das 3D-
Panning ist dabei anhand der Rektangularprojektion des sphärischen Videos ein effizienter Ansatz für
eine akkurate Platzierung von Schallquellen. Allerdings sollte die Mischung zu einem späteren
Zeitpunkt mit einem HMD überprüft werden. Beim Panning und Schreiben von Automationen in VR ist
es hingegen direkt möglich die Mischung vollständig zu beurteilen.
Codecs wie MPEG-H bieten ebenfalls Möglichkeiten, Audio für lineare VR-Anwendungen zu
produzieren und zusätzlich Audio-Objekte mit Metadaten für den Rendering-Prozess zu versehen.
Der Einsatz von objektbasiertem Audio ist für interaktive VR-Anwendungen besonders geeignet, da
dadurch der Ton an eine Veränderung der Position im 3D-Raum angepasst werden kann. Die Erstellung
von solchen Audio-Objekten kann entweder direkt in einer Game Engine, wie beispielsweise Unity und
Unreal, erfolgen, oder mithilfe von spezieller Middleware. Unity bietet bereits Möglichkeiten, das
Verhalten und die Eigenschaften von Audio-Objekten zu definieren, in Echtzeit zu mischen, Effekte
einzusetzen und Snapshots auszulösen. Diese Werkzeuge können durch den Einsatz von Fabric
innerhalb von Unity erweitert werden. Durch die Verwendung der Middlewares FMOD oder Wwise
erlangt der Sounddesigner zusätzlich einen hohen Grad an Unabhängigkeit vom Programmierer.
Zudem erhält er die Möglichkeit, Audio auf eine einfach Weise interaktiv und abwechslungsreich zu
gestalten. Die Erstellung von adaptiver Musik wird durch Fabric, FMOD oder Wwise ermöglicht.
Mit der Hilfe von Wwise konnte für den interaktiven VR-Film „Asperity“ binauraler Ton in hoher
Qualität produziert werden. Der Ton wurden vorab produziert und als Referenz für die Erstellung von
Animationen und die Komposition von Musik verwendet. Dabei wurden in Wwise die Möglichkeiten
genutzt, vorab das Verhalten von Audio zu erstellen und unabhängig von der Game Engine zu
überprüfen. Lautstärke-Automationen wurden in Wwise anhand von States erstellt. Aufgrund einer
erhöhten Anzahl an Streams, mussten Audiodateien konvertiert werden, um die benötigte Bandbreite
zu reduzieren.
101
7. Literaturverzeichnis
AUDIO EASE B.V. (o.J.a). 360pan Suite, AUDIO EASE B.V. Zugriff am 23.01.2018. Verfügbar unter
https://www.audioease.com/360/
AUDIO EASE B.V. (o.J.b). Audio Ease online store, AUDIO EASE B.V. Zugriff am 23.01.2017. Verfügbar
unter https://www.audioease.com/store/
AUDIO EASE B.V. (o.J.c). The 360pan suite 2. AAX - Pro Tools HD for Mac manual 1.0. 360pan suite 3,
AUDIO EASE B.V. Verfügbar unter https://www.audioease.com/360/files/360pan-suite-3-Pro-
Tools-Manual-1.0.pdf
Audiokinetic. (o.J.a). Audio Device Plug-ins, Audiokinetic. Zugriff am 08.03.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=thirdparty_and_custom_audio_de
vices
Audiokinetic. (o.J.b). Audio Input Source Plug-in, Audiokinetic. Zugriff am 12.02.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=SDK&id=referencematerial__audioinput.ht
ml
Audiokinetic. (o.J.c). Audio Plug-ins, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=SDK&id=effectplugin.html
Audiokinetic. (o.J.d). Creating Audio Conversion Settings ShareSets, Audiokinetic. Zugriff am
04.03.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=creating_audio_conversion_settin
gs_sharesets
Audiokinetic (Hrsg.). (o.J.e). Downmix Tables. Zugriff am 03.03.2018. Verfügbar unter
https://www.audiokinetic.com/library/2017.2.0_6500/?source=Help&id=downmix_tables
Audiokinetic (Hrsg.). (o.J.f). Integrating Secondary Outputs. Zugriff am 08.03.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=SDK&id=integrating__secondary__outputs.
html
Audiokinetic. (o.J.g). MS HRTF, Audiokinetic. Zugriff am 28.02.2018. Verfügbar unter
https://www.audiokinetic.com/library/2016.2.1_5995/?source=Help&id=ms_hrtf_plug_in
Audiokinetic. (o.J.h). Plug-ins, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter
https://www.audiokinetic.com/products/plug-ins/
Audiokinetic. (o.J.i). Pricing | Audiokinetic, Audiokinetic. Zugriff am 09.01.2018. Verfügbar unter
https://www.audiokinetic.com/pricing/
102
Audiokinetic. (o.J.j). Speakers vs Headphones Panning Rules, Audiokinetic. Zugriff am 09.03.2018.
Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=speakers_vs_headphones_pannin
g_rules
Audiokinetic. (o.J.k). Streaming Your Media, Audiokinetic. Zugriff am 21.02.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=streaming_media
Audiokinetic. (o.J.l). Supported Platforms, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter
https://www.audiokinetic.com/products/supported-platforms/
Audiokinetic (Hrsg.). (o.J.m). Understanding Channel Configurations. Zugriff am 03.03.2018.
Verfügbar unter
https://www.audiokinetic.com/library/2017.2.0_6500/?source=Help&id=understanding_channel
_configurations
Audiokinetic. (o.J.n). Using Ambisonics, Audiokinetic. Zugriff am 19.01.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=using_ambisonics
Audiokinetic. (o.J.o). Using Ambisonics, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=using_ambisonics
Audiokinetic. (o.J.p). What Media Files are Supported?, Audiokinetic. Zugriff am 05.02.2018.
Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=what_media_files_are_supported
Audiokinetic. (o.J.q). Wwise for Games. Choose the plan that is right for your needs, Audiokinetic.
Zugriff am 11.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/
Audiokinetic. (o.J.r). Wwise for Games. The following price chart is for games projects only,
Audiokinetic. Zugriff am 11.01.2018. Verfügbar unter https://www.audiokinetic.com/pricing/for-
games/
Audiokinetic. (o.J.s). Wwise Recorder, Audiokinetic. Zugriff am 05.02.2018. Verfügbar unter
https://www.audiokinetic.com/library/edge/?source=Help&id=wwise_recorder_plug_in_effect
Audiokinetic. (o.J.t). Wwise SoundSeed, Audiokinetic. Zugriff am 04.03.2018. Verfügbar unter
https://www.audiokinetic.com/products/plug-ins/soundseed/
Audiokinetic. (2017). Wwise-101 Certification Course. 7 Lessons, 7 Quizzes, 1 Exam, Audiokinetic.
Zugriff am 28.01.2018. Verfügbar unter
https://www.audiokinetic.com/download/lessons/wwise101_en.pdf
Avid Technology. (2017). Avid Knowledge Base. Pro Tools 12.8.2 Release Info, Avid Technology.
Verfügbar unter http://avid.force.com/pkb/articles/download/Pro-Tools-12-8-2-Release-Info
Bates, E. & Boland, F. (Hrsg.). (2016). Spatial Music, Virtual Reality, and 360 Media. Verfügbar unter
http://www.aes.org/e-lib/browse.cfm?elib=18496
103
Bates, E., Dooney, S., Gorzel, M., O’Dwyer, H., Ferguson, L. & Boland, F. M. (Hrsg.). (2017). Comparing
Ambisonic Microphones—Part 2. Verfügbar unter http://www.aes.org/e-
lib/browse.cfm?elib=18607
Bates, E., Gorzel, M., Ferguson, L., O’Dwyer, H. & Boland, F. M. (Hrsg.). (2016). Comparing Ambisonic
Microphones – Part 1. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18317
Behrends, J. (2015). Interreaction (interaktive Medien und Kommunikation im Raum - eine
Einführung für Gestalter). Stuttgart: avedition.
Berg, R. (2016). PlayStation VR: Revolution oder Elektro-Schrott? Sonys VR-Brille im Test!,
Computerbild. Zugriff am 02.01.2018. Verfügbar unter http://www.computerbild.de/artikel/cbs-
News-Sony-Playstation-VR-8975488.html
Bertet, S., Daniel, J. & Moreau, S. (Hrsg.). (2006). 3D Sound Field Recording with Higher Order
Ambisonics - Objective Measurements and Validation of Spherical Microphone. Zugriff am
02.01.2018. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=13661
Blauert, J. & Braasch, J. (2008). Räumliches Hören. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik
(S. 87–121). Berlin, Heidelberg: Springer Berlin Heidelberg.
Blue Ripple Sound. (o.J.a). O3A View, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar unter
http://www.blueripplesound.com/products/o3a-view
Blue Ripple Sound. (o.J.b). Pro Audio Products, Blue Ripple Sound. Zugriff am 23.01.2018. Verfügbar
unter http://www.blueripplesound.com/product-listings/pro-audio
Blue Ripple Sound. (2018a). O3A Core Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am
23.01.2018. Verfügbar unter
http://www.blueripplesound.com/sites/default/files/O3ACore_UserGuide_v2.1.5.pdf
Blue Ripple Sound. (2018b). O3A Manipulators Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff
am 23.01.2018. Verfügbar unter
http://www.blueripplesound.com/sites/default/files/O3AManipulators_UserGuide_v2.1.5.pdf
Blue Ripple Sound. (2018c). O3A Reverb Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am
23.01.2018. Verfügbar unter
http://www.blueripplesound.com/sites/default/files/O3AReverb_UserGuide_v2.1.5.pdf
Blue Ripple Sound. (2018d). O3A View Plugins User Guide v2.1.5, Blue Ripple Sound. Zugriff am
23.01.2018. Verfügbar unter
http://www.blueripplesound.com/sites/default/files/O3AView_UserGuide_v2.1.5.pdf
Carpentier, T. (Hrsg.). (2017). Normalization Schemes in Ambisonic. Does it Matter? Verfügbar unter
http://www.aes.org/e-lib/browse.cfm?elib=18645
104
Chapman, M., Ritsch, W., Musil, T., Zmölnig, I., Pomberger, H., Zotter, F. et al. (Hrsg.). (2009). A
stadard for interchange of ambisonic signal sets. Including a file standard with metadata. Zugriff
am 19.01.2018. Verfügbar unter
https://iem.kug.ac.at/fileadmin/media/iem/projects/2009/ambixchange09.pdf
Core Sound. (o.J.). Core Sound TetraMic. TetraMic Specifications, Core Sound. Zugriff am 04.01.2018.
Verfügbar unter http://www.core-sound.com/TetraMic/2.php
Dear Reality. (o.J.). dearVR. 3D audio virtual reality, Dear Reality. Zugriff am 27.01.2018. Verfügbar
unter http://dearvr.com/
Dear Reality. (2017). dearVR pro User Manual v1.0, Dear Reality. Zugriff am 21.01.2018. Verfügbar
unter https://files.plugin-alliance.com/products/dearvr_pro/dearvr_pro_manual_en.pdf
Dickreiter, M. (2014). Schallwahrnehmung. In M. Dickreiter, V. Dittel, W. Hoeg & M. Wöhr (Hrsg.),
Handbuch der Tonstudiotechnik. Band 1. Berlin [u.a.]: De Gruyter.
Dolby Laboratories. (o.J.). How do I distribute my content with the Atmos mix?, Dolby Laboratories.
Zugriff am 20.01.2018. Verfügbar unter
https://kb.developer.dolby.com/support/solutions/articles/16000020268-how-do-i-distribute-
my-content-with-the-atmos-mix-
Dolby Laboratories. (2008). Technical Paper: Dolby Digital Plus, Dolby Laboratories. Zugriff am
26.02.2018. Verfügbar unter https://www.dolby.com/us/en/technologies/dolby-digital-plus-
audio-coding-tech-paper.pdf
Dolby Laboratories. (2015). Dolby AC-4: Audio Delivery for Next-Generation Entertainment Services,
Dolby Laboratories. Zugriff am 26.01.2018. Verfügbar unter
https://www.dolby.com/us/en/technologies/ac-4/Next-Generation-Entertainment-Services.pdf
Dolby Laboratories. (2017). Dolby Atmos VR Player Guide, Dolby Laboratories. Zugriff am 26.01.2018.
Verfügbar unter http://developerdownload.dolby.com/docs/Dolby_Atmos_VR_Player_Guide.pdf
Dörner, R., Jung, B., Grimm, P., Broll, W. & Göbel, M. (2013). Einleitung. In R. Dörner, W. Broll, P.
Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der
Virtuellen und Augmentierten Realität, S. 1–31). Berlin, Heidelberg: Springer Vieweg.
Engler, M. & Jacques, D. (2017). Bcom plugins, Merging Technologies. Zugriff am 26.01.2018.
Verfügbar unter https://confluence.merging.com/display/PUBLICDOC/Bcom+plugins
Facebook. (o.J.). Facebook Media - Facebook 360, Facebook. Zugriff am 30.12.2017. Verfügbar unter
https://www.facebook.com/facebookmedia/get-started/360
Facebook 360. (2017). Facebook 360 Spatial Workstation User Guide. Release 3.0.
Firelight Technologies. (o.J.a). Deployment, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar
unter http://www.fmod.org/documentation/#content/generated/engine_ue4/deployment.html
105
Firelight Technologies. (o.J.b). Firelight Technologies FMOD Studio API. Introduction, Firelight
Technologies. Zugriff am 08.02.2018. Verfügbar unter
https://www.fmod.com/resources/documentation-
api?page=content/generated/common/introduction_web.html#/
Firelight Technologies. (o.J.c). Firelight Technologies FMOD Studio API. Spatial Audio, Firelight
Technologies. Zugriff am 24.02.2018. Verfügbar unter
https://www.fmod.com/docs/api/content/generated/overview/spatialaudio.html
Firelight Technologies. (o.J.d). FMOD Low Level API - An Overview, Firelight Technologies. Zugriff am
12.02.2018. Verfügbar unter https://www.fmod.com/resources/documentation-
api?page=content/generated/common/lowlevel_introduction.html#file-formats-1
Firelight Technologies. (o.J.e). FMOD Studio Plug-in SDK, Firelight Technologies. Zugriff am
04.03.2018. Verfügbar unter
http://www.fmod.org/documentation/#content/generated/overview/plugin_api_dsp.html
Firelight Technologies. (o.J.f). Licensing - FMOD, Firelight Technologies. Zugriff am 09.01.2018.
Verfügbar unter https://www.fmod.com/licensing
Firelight Technologies. (o.J.g). Mixing, Firelight Technologies. Zugriff am 03.03.2018. Verfügbar unter
https://www.fmod.com/docs/studio/mixing.html
Firelight Technologies. (o.J.h). UE4 Integration, Firelight Technologies. Zugriff am 08.02.2018.
Verfügbar unter
http://www.fmod.org/documentation/#content/generated/engine_ue4/overview.html
Firelight Technologies. (o.J.i). Unity Integration 2, Firelight Technologies. Zugriff am 08.02.2018.
Verfügbar unter
http://www.fmod.org/documentation/#content/generated/engine_new_unity/overview.html
Firelight Technologies. (o.J.j). Virtual Voice System, Firelight Technologies. Zugriff am 08.02.2018.
Verfügbar unter https://www.fmod.com/resources/documentation-
api?page=content/generated/overview/virtualvoices.html#/
Firelight Technologies. (2016). FMOD Studio 1.08 released, Firelight Technologies. Zugriff am
08.02.2018. Verfügbar unter http://www.fmod.org/fmod-studio-1-08-released/
Firelight Technologies. (2018a). FMOD Studio 1.10.03 User Manual. 12. Event Macro Controls
Reference, Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter
https://www.fmod.com/resources/documentation-studio?page=event-macro-controls-
reference.html#priority
Firelight Technologies. (2018b). FMOD Studio 1.10.03 User Manual. 2. FMOD Studio Concepts,
Firelight Technologies. Zugriff am 07.02.2018. Verfügbar unter
https://www.fmod.com/resources/documentation-studio?page=fmod-studio-concepts.html
106
Firelight Technologies. (2018c). FMOD Studio 1.10.03 User Manual. 5. Working with Instruments,
Firelight Technologies. Zugriff am 07.02.2018. Verfügbar unter
https://www.fmod.com/resources/documentation-studio?page=working-with-instruments.html
Firelight Technologies. (2018d). FMOD Studio 1.10.03 User Manual. 6. Asset Management, Firelight
Technologies. Zugriff am 08.02.2018. Verfügbar unter
https://www.fmod.com/resources/documentation-studio?page=managing-assets.html
Firelight Technologies. (2018e). FMOD Studio 1.10.03 User Manual. 7. Getting Events into Your Game,
Firelight Technologies. Zugriff am 08.02.2018. Verfügbar unter
https://www.fmod.com/resources/documentation-studio?page=getting-events-into-your-
game.html
Fleischmann, J. (2017, 14. Mai). MPEG-H – ein Audioformat der nächsten Generation (NGA), Tech-
Magazin. Zugriff am 25.01.2018. Verfügbar unter http://tech-magazin.de/2017/05/mpeg-h-ein-
audioformat-der-naechsten-generation-nga/
Frank, M. & Zotter, F. (Hrsg.). (2017). Exploring the Perceptual Sweet Area in Ambisonics. Verfügbar
unter http://www.aes.org/e-lib/browse.cfm?elib=18604
Fraunhofer IIS. (o.J.a). AES NEW YORK 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter
https://www.iis.fraunhofer.de/de/muv/2017/143-aes.html
Fraunhofer IIS. (o.J.b). IBC 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter
https://www.iis.fraunhofer.de/de/muv/2017/ibc-2017.html
Fraunhofer IIS. (o.J.c). Inter BEE 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter
https://www.iis.fraunhofer.de/en/muv/2017/interbee2017.html
Fraunhofer IIS. (o.J.d). Mobile World Congress 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar
unter https://www.iis.fraunhofer.de/de/muv/2017/mwc-2017.html?wcmmode=disabled
Fraunhofer IIS. (o.J.e). NAB Show 2017, Fraunhofer IIS. Zugriff am 26.01.2018. Verfügbar unter
https://www.iis.fraunhofer.de/de/muv/2017/nabshow-2017.html
Fraunhofer IIS. (2017a). Audio und Medientechnologien @IBC 2017, Fraunhofer IIS. Zugriff am
25.01.2017. Verfügbar unter https://www.iis.fraunhofer.de/de/muv/2017/ibc-
2017/amm_ibc2017.html
Fraunhofer IIS. (2017b). Fraunhofer IIS: Delivering a complete suite of solutIons for the next
generation of virtual realIty audio, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter
https://www.iis.fraunhofer.de/content/dam/iis/de/doc/ame/wp/FraunhoferIIS_Technical-
Paper_Virtual-Reality.pdf
Fraunhofer IIS. (2017c). MPEG-H TV Audio System nun offizieller ATSC 3.0-Standard. Fraunhofer Audio
Blog, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter
http://www.audioblog.iis.fraunhofer.de/mpeg-h-standard-atsc-3-0/
107
Fraunhofer IIS. (2017d). Neues Produktionstool von Linear Acoustic unterstützt MPEG-H. Fraunhofer
Audio Blog, Fraunhofer IIS. Zugriff am 25.01.2018. Verfügbar unter
http://www.audioblog.iis.fraunhofer.de/linear-acoustic-ams/
Fugal, H. & Nair, V. (2017). Spatial audio — bringing realistic sound to 360 video, Facebook. Zugriff
am 09.01.2018. Verfügbar unter https://code.facebook.com/posts/412047759146896/spatial-
audio-bringing-realistic-sound-to-360-video/
Geier, M., Carpentier, T., Noisternig, M. & Warusfel, O. (Hrsg.). (2017). Software tools for object-
based audio production using the Audio Definition Model. Zugriff am 26.01.2018. Verfügbar unter
http://vdt-icsa.de/program/2017-09-08-directivity-arts-foyer-ligeti-hall/10-40-geier/
Gieselmann, H. (2016). MPEG-H 3D Audio: Fraunhofer experimentiert mit 3D- und VR-Sound, Heise
Medien. Verfügbar unter https://www.heise.de/newsticker/meldung/MPEG-H-3D-Audio-
Fraunhofer-experimentiert-mit-3D-und-VR-Sound-3496079.html
Google Developers. (2018). Get started with Resonance Audio for FMOD, Google Developers. Zugriff
am 08.02.2018. Verfügbar unter https://developers.google.com/resonance-
audio/develop/fmod/getting-started
Görne, T. (2015). Tontechnik (Hören, Schallwandler, Impulsantwort und Faltung, digitale Signale,
Mehrkanaltechnik, tontechnische Praxis, mit 33 Tabellen). München: Hanser.
Grimm, P., Herold, R., Hummel, J. & Broll, W. (2013). VR-Eingabegeräte. In R. Dörner, W. Broll, P.
Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden der
Virtuellen und Augmentierten Realität, S. 97–125). Berlin, Heidelberg: Springer Vieweg.
Grimm, P., Herold, R., Reiners, D. & Cruz-Neira, C. (2013). VR-Ausgabegeräte. In R. Dörner, W. Broll,
P. Grimm & B. Jung (Hrsg.), Virtual und Augmented Reality (VR / AR) (Grundlagen und Methoden
der Virtuellen und Augmentierten Realität, S. 127–156). Berlin, Heidelberg: Springer Vieweg.
Harvey, S. (2017). Inside Facebook’s VR Audio Initiative, NewBay Media, LLC. Zugriff am 09.01.2018.
Verfügbar unter https://www.prosoundnetwork.com/post-and-broadcast/inside-facebooks-vr-
audio-initiative
International Telecommunication Union. (2016). Recommendation ITU-R BS.2076-1. Audio Definition
Model, International Telecommunication Union. Zugriff am 26.01.2018. Verfügbar unter
https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2076-1-201706-I!!PDF-E.pdf
Kolokythas, P. (2016). Oculus Rift jetzt im deutschen Handel erhältlich, PC-Welt. Zugriff am
02.01.2018. Verfügbar unter https://www.pcwelt.de/news/Oculus-Rift-ab-20.-September-im-
deutschen-Handel-erhaeltlich-10025966.html
Lee, H. (Hrsg.). (2016). Capturing and Rendering 360º VR Audio Using Cardioid Microphones.
Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18511
108
Malham, D. (2003). Higher order Ambisonic systems. Zugriff am 19.01.2018. Verfügbar unter
https://www.york.ac.uk/inst/mustech/3d_audio/higher_order_ambisonics.pdf
Merging Technologies. (o.J.a). Pyramix 11 - New Features, Merging Technologies. Zugriff am
26.01.2018. Verfügbar unter http://www.merging.com/products/pyramix/
Merging Technologies. (o.J.b). Pyramix Key Features, Merging Technologies. Zugriff am 26.01.2018.
Verfügbar unter http://www.merging.com/products/pyramix/key-features
Merging Technologies. (2017). Pyramix 11.1 To Include Full Object Based Audio Workflow, Merging
Technologies. Zugriff am 25.01.2018. Verfügbar unter http://www.merging.com/news/news-
stories/pyramix-11-1-to-include-full-object-based-audio-workflow
Meyer, J. & Elko, G. (Hrsg.). (2016). A Qualitative Analysis of Frequency Dependencies in Ambisonics
Decoding Related to Spherical Microphone Array Recording. Verfügbar unter
http://www.aes.org/e-lib/browse.cfm?elib=18316
MH Acoustics LLC. (o.J.). Products, MH Acoustics LLC. Zugriff am 04.01.2018. Verfügbar unter
https://mhacoustics.com/products
MH Acoustics LLC. (2013). em32 Eigenmike®microphone array release notes (v17.0), MH Acoustics
LLC. Zugriff am 05.01.2018. Verfügbar unter
https://www.mhacoustics.com/sites/default/files/ReleaseNotes.pdf
New Audio Technology. (2016). The Spatial Audio Designer Version 2, New Audio Technology.
Verfügbar unter https://www.newaudiotechnology.com/en/the-spatial-audio-designer-version-2/
Octava. (o.J.). MK-4012 4-D Ambisonic A-format Mikrofon, Octava. Zugriff am 02.01.2018. Verfügbar
unter http://www.oktava-shop.com/Kleinmembran-und-Mittelmembran-
Kondensatormikrofone/MK-012-01-Oktava-12.html
Oculus. (o.J.a). Features, Oculus. Zugriff am 09.03.2018. Verfügbar unter
https://developer.oculus.com/documentation/audiosdk/latest/concepts/audiosdk-
features/#audiosdk-features-supported
Oculus. (o.J.b). Listening Devices, Oculus. Zugriff am 30.12.2017. Verfügbar unter
https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-devices/
Orpheus. (2016). Sequoia – The main audio production tool of ORPHEUS, Orpheus. Verfügbar unter
https://orpheus-audio.eu/sequoia-the-main-audio-production-tool-of-orpheus/
Orpheus. (2017). Implementation and documentation of objectbased editing and mixing, Orpheus.
Zugriff am 27.02.2018. Verfügbar unter https://orpheus-audio.eu/wp-
content/uploads/2017/12/orpheus-d3.6_impl.doc-of-ob-editing-and-mixing.pdf
Pike, C., Taylor, R., Parnell, T. & Melchior, F. (Hrsg.). (2016). Object-Based 3D Audio Production for
Virtual Reality Using the Audio Definition Model. Zugriff am 26.01.2018. Verfügbar unter
http://www.aes.org/e-lib/online/download.cfm/18498.pdf?ID=18498
109
Plugin Alliance. (o.J.). Dear Reality dearVR pro, Plugin Alliance. Zugriff am 21.01.2018. Verfügbar
unter https://www.plugin-alliance.com/en/products/dearvr_pro.html
Ryan, R. (2016). 3DConnexion Mouse - Configuration Guide, Merging Technologies. Zugriff am
26.01.2018. Verfügbar unter
https://confluence.merging.com/display/PUBLICDOC/3DConnexion+Mouse+-
+Configuration+Guide
Schmidt, B. (2017). GameSoundCon Game Audio Industry Survey 2017, GameSoundCon. Zugriff am
09.01.2018. Verfügbar unter https://www.gamesoundcon.com/single-
post/2017/10/02/GameSoundCon-Game-Audio-Industry-Survey-2017
Schoeps. (o.J.). Plug-and-Play setup for Surround Ambience Recording ORTF Surround Outdoor Set,
Schoeps. Zugriff am 11.01.2018. Verfügbar unter http://www.schoeps.de/en/products/ortf-
surround-outdoor-set
Sengpiel, E. (o.J.a). Die Richtungswahrnehmung nicht nur in der Medianebene. Zugriff am 01.03.2018.
Verfügbar unter http://www.sengpielaudio.com/DieRichtungswahrnehmungMedianebene.pdf
Sengpiel, E. (o.J.b). Kopfbezogene Übertragungsfunktion HRTF. Zugriff am 01.03.2018. Verfügbar
unter http://www.sengpielaudio.com/KopfbezogeneUebertragungsfunktionHRTF.pdf
Sennheiser. (o.J.). TECHNISCHE DATEN, Sennheiser. Zugriff am 02.01.2018. Verfügbar unter
http://www.sennheiser-sites.com/responsive-
manuals/AMBEO_VR_MIC/DE/index.html#page/AMBEO%2520VR%2520MIC%2FVR_MIC_05_Tec
hnischedaten_DE.5.1.html%23ww1018471
Sennheiser. (2016). Shape the Future of Audio, Sennheiser. Zugriff am 04.01.2018. Verfügbar unter
https://en-us.sennheiser.com/shape-the-future-of-audio-ambeo
Sherbourne, S. (2017). Ambisonics and VR/360 Audio in Pro Tools | HD, Avid Technology. Zugriff am
21.01.2018. Verfügbar unter http://www.avidblogs.com/ambisonics-vr360-audio-pro-tools-hd/
Shivappa, S., Morrell, M., Sen, D., Peters, N. & Salehin, S. M. A. (Hrsg.). (2016). Efficient, Compelling,
and Immersive VR Audio Experience Using Scene Based Audio/Higher Order Ambisonics. Zugriff am
16.12.2017. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18493
Slavik, K. M. & Weinzierl, S. (2008). Wiedergabeverfahren. In S. Weinzierl (Hrsg.), Handbuch der
Audiotechnik (S. 609–985). Berlin, Heidelberg: Springer Berlin Heidelberg.
Susal, J., Krauss, K., Tsingos, N. & Altman, M. (Hrsg.). (2016). Immersive Audio for VR. Zugriff am
16.12.2017. Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=18512
Tazman-Audio. (o.J.a). Fabric Manual. VRAudio Overview, Tazman-Audio. Zugriff am 10.02.2018.
Verfügbar unter http://fabric-manual.com/m/Fabric/l/627716-vraudio-overview
Tazman-Audio. (o.J.b). Licensing, Tazman-Audio. Zugriff am 11.01.2018. Verfügbar unter
http://www.tazman-audio.co.uk/licensing
110
Tazman-Audio. (o.J.c). WwwAudioComponent, Tazman-Audio. Zugriff am 12.02.2018. Verfügbar
unter http://fabric-manual.com/m/Fabric/l/288076-wwwaudiocomponent
Tazman-Audio. (2014). AudioPanner, Tazman-Audio. Zugriff am 11.02.2018. Verfügbar unter
http://fabric-manual.com/m/Fabric/l/290569-audiopanner
Theile, G., Dickreiter, M., Graul, W., Camerer, F. & Spikofski, G. (2014). Tonaufnahme und
Tonwiedergabe. In M. Dickreiter, V. Dittel, W. Hoeg & M. Wöhr (Hrsg.), Handbuch der
Tonstudiotechnik. Band 1 (S. 217–369). Berlin [u.a.]: De Gruyter.
Thresh, L., Armstrong, C. & Kearney, G. (Hrsg.). (2017). A Direct Comparison of Localization
Performance When Using First, Third, and Fifth Ambisonics Order for Real Loudspeaker and Virtual
Loudspeaker Rendering. Zugriff am 04.01.2018. Verfügbar unter http://www.aes.org/e-
lib/browse.cfm?elib=19261
Travis, C. (Hrsg.). (1996). A Virtual Reality Perspective on Headphone Audio. Zugriff am 17.12.2017.
Verfügbar unter http://www.aes.org/e-lib/browse.cfm?elib=7082
Unity Technologies. (o.J.a). Ein Build, Bereitstellung überall, Unity Technologies. Zugriff am
10.02.2018. Verfügbar unter https://unity3d.com/de/unity/features/multiplatform
Unity Technologies. (o.J.b). Unity User Manual (2017.3). Audio files, Unity Technologies. Zugriff am
10.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/AudioFiles.html
Unity Technologies. (2017a). Audio Settings, Unity Technologies. Zugriff am 04.03.2018. Verfügbar
unter https://docs.unity3d.com/Manual/class-AudioSettings.html
Unity Technologies. (2017b). AudioSettings.Reset, Unity Technologies. Zugriff am 04.03.2018.
Verfügbar unter https://docs.unity3d.com/ScriptReference/AudioSettings.Reset.html
Unity Technologies. (2017c). AudioSpeakerMode, Unity Technologies. Zugriff am 03.03.2018.
Verfügbar unter https://docs.unity3d.com/ScriptReference/AudioSpeakerMode.html
Unity Technologies. (2017d). Unity User Manual (2017.3). Audio Clip, Unity Technologies. Zugriff am
18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/class-AudioClip.html
Unity Technologies. (2017e). Unity User Manual (2017.3). Audio Group Inspector, Unity Technologies.
Zugriff am 18.02.2018. Verfügbar unter
https://docs.unity3d.com/Manual/AudioMixerInspectors.html
Unity Technologies. (2017f). Unity User Manual (2017.3). Audio in Unity 5.0, Unity Technologies.
Zugriff am 18.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/UpgradeGuide5-
Audio.html
Unity Technologies. (2017g). Unity User Manual (2017.3). Audio Profiler, Unity Technologies. Zugriff
am 23.02.2018. Verfügbar unter https://docs.unity3d.com/Manual/ProfilerAudio.html
Unity Technologies. (2017h). Unity User Manual (2017.3). Tracker Modules, Unity Technologies.
Verfügbar unter https://docs.unity3d.com/Manual/TrackerModules.html
111
Unity Technologies. (2017i). Unity User Manual (2017.3). VR Audio Spatializers, Unity Technologies.
Zugriff am 24.02.2018. Verfügbar unter
https://docs.unity3d.com/Manual/VRAudioSpatializer.html
Unity Technologies. (2017j, 10. August). Unity User Manual (2017.3). Ambisonic Audio, Unity
Technologies. Zugriff am 11.02.2018. Verfügbar unter
https://docs.unity3d.com/Manual/AmbisonicAudio.html
Valve Corporation. (o.J.). Steam Audio, Valve Corporation. Zugriff am 24.02.2018. Verfügbar unter
https://valvesoftware.github.io/steam-audio/
Valve Corporation. (2018). Steam Audio. Beta 12: FMOD Studio plugin and more, Valve Corporation.
Zugriff am 24.02.2018. Verfügbar unter
http://steamcommunity.com/games/596420/announcements/detail/1568807608827638582
VisiSonics Corporation. (o.J.a). Products. VisiSonics 5/64 Audio/Visual Camera, VisiSonics Corporation.
Zugriff am 05.01.2018. Verfügbar unter http://visisonics.com/products-2/#camera
VisiSonics Corporation. (o.J.b). RealSpace3D Audio, VisiSonics Corporation. Zugriff am 24.02.2018.
Verfügbar unter https://realspace3daudio.com/
VisiSonics Corporation. (o.J.c). VisiSonics 5/64 Frequency Range and Resolution, VisiSonics
Corporation. Zugriff am 05.01.2018. Verfügbar unter http://visisonics.com/white-papers/
Webers, J. (2007). Handbuch der Tonstudiotechnik für Film, Funk und Fernsehen [digitales und
analoges Audio Recording]. Poing: Franzis.
Weinzierl, S. (2008). Aufnahmeverfahren. In S. Weinzierl (Hrsg.), Handbuch der Audiotechnik (S. 551–
607). Berlin, Heidelberg: Springer Berlin Heidelberg.
Wittek, H. (2015). "ORTF-3D": eine Mikrofontechnik für Atmoaufnahmen in 3D-Audio und VR. Zugriff
am 11.01.2017. Verfügbar unter https://www.hauptmikrofon.de/de/stereo-3d/3d-audio/ortf-3d
Wittek, H. & Theile, G. (Hrsg.). (2017). Development and Application of a Stereophonic Multichannel
Recording Technique for 3D Audio and VR. Zugriff am 04.01.2018. Verfügbar unter
http://www.aes.org/e-lib/browse.cfm?elib=19266
YouTube. (o.J.). Use spatial audio in 360-degree and VR videos, YouTube. Zugriff am 30.12.2018.
Verfügbar unter
https://support.google.com/youtube/answer/6395969?hl=en&ref_topic=2888648
Zwingmann, D. (2016). HTC Vive: Vermutlich 50.000 VR-Brillen verkauft, PC-Games. Zugriff am
02.01.2016. Verfügbar unter http://www.pcgames.de/HTC-Vive-Hardware-261074/News/50000-
VR-Brillen-verkauft-1195113/