24
Wien am 16. 11. 2001 Ao. Univ.-Prof. Dr. Michael Trimmel Proseminar: Technikpsychologie I WS 2001/2002 Seminararbeit: Audiotechnik Christoph Goger 9402621

Proseminar: Technikpsychologie I W S 2001/2002

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Proseminar: Technikpsychologie I W S 2001/2002

Wien am 16. 11. 2001

Ao. Univ.-Prof. Dr . M ichael Tr immel

Proseminar :Technikpsychologie I

WS 2001/2002

Seminararbeit:Audiotechnik

Chr istoph Goger 9402621

Page 2: Proseminar: Technikpsychologie I W S 2001/2002

2

Inhaltsverzeichnis:

1. Einleitung 3

2. Audio – Grundlagen 3

2.1. Akustik und Audiotechnik 32.2. Psychophysik 42.2.1. Weber´sches Gesetz 52.2.2. Fechner´sches Gesetz 52.2.3. Stevens Gesetz 52.3. Audiotechnische Grundlagen 62.3.1. Ton 62.3.2. Klang 72.3.3. Schallfrequenz 82.3.4. Schallintensität 82.3.5. Partitur 8

3. Biologische Grundlagen des Hörens 11

3.1. Die Anatomie des Ohres 113.2. Theorien zur Tonhöhenwahrnehmung 123.3. Der Signalweg der Audio-Impulse im Gehirn 123.4. Schallrichtung (Lokalisation und Abstand) 13

4. Menschliche Sprache 13

4.1. Grundlagen 134.2. Sprachausgabe 144.2.1. Auditive Parameter 144.2.2. Arten der Sprachausgabe 154.3. Maschinelle Spracherkennung 15

5. Computerrepräsentation 16

5.1. Rohsound Daten 165.2. PCM (Pulse Code Modulation) bei Digital Audio 175.3. ADPCM (Adaptive Difference – PCM) bei Digital Audio 185.4. GSM – Standard 185.5. µ - Law – Codierung 18

6. Audio-File-Formate 19

6.1. Wavelet (WAV) Files 196.2. MIDI – File – Format 196.3. AU – Dateien 206.4. MPEG 216.4.1. MPEG 1 für Audio 216.4.2. Prinzip der MPEG – Audio – Codierung 216.5. MP3 22

7. Schnittstelle zwischen Mensch und Computer 22

7.1. Soundkarte 227.2. Kriterien einer Soundkarte 227.2.1. Anatomie einer Soundkarte 23

8. L iteratur 24

Page 3: Proseminar: Technikpsychologie I W S 2001/2002

3

1. Einleitung

Mit der Wiedergabe von Tönen, Geräuschen, Soundeffekten und vor allem Sprache undMusik können multimediale Informationssysteme relativ leicht erweitert bzw. unterstütztwerden. Durch das Unterlegen von auditiven Hintergründen zu bestimmtenBildschirminhalten können etwa gewisse Stimmungen suggeriert werden.Diese auditive Unterstützung wird zusammenfassend als Audio (lat.: „ ich höre“) bezeichnet(zitiert nach Holzinger, 2000).In dieser Arbeit sollen die technologischen und psychophysikalischen Grundlagen derAudiotechnik beschrieben werden.

2. Audio- Grundlagen

2.1. Akustik und Audiotechnik

Die Akustik ist die Lehre von mechanischen Schwingungen, also dem Schall, der sich inForm von Longitudinalwellen ausbreitet (Abb. 1). Auf Meereshöhe breitet sich der Schall mit1200 km/h bzw. 330 m/s aus (1 Mach).

Abb 1.

Schall lässt sich in vier verschiedene Frequenzbereiche unterteilen:

a) Infraschall (0-20 Hz)b) Hörschall (20 Hz – 20kHz)c) Ultraschall (20 kHz – 1GHz)d) Hyperschall (1GHz – 10 THz)

Akustische Signale sind Druckschwellenschwankungen (Schalldruckänderungen), die sich inFestkörpern, Flüssigkeiten, Gasen, nicht aber im Vakuum ausbreiten (zitiert nach Holzinger,2000).

Audio ist eine Sammelbezeichnung für alle akustischen Signale im Hörfrequenzbereich(vergleiche Holzinger, 2000).

Page 4: Proseminar: Technikpsychologie I W S 2001/2002

4

Audiosignale sind die akustischen Signale im Hörschallbereich, die vom Menschenwahrgenommen werden können (zitiert nach Holzinger, 2000).

Unter Audiotechnik versteht man die Be- und Verarbeitung von Audiosignalen. WichtigePunkte sind hierbei Grundlagen der Akustik, Psychophysik, Digital Audio und unter anderemauch die Musikverarbeitung mit Music Instrument Digital Interface (MIDI). Auch diesynthetische und analytische Sprachverarbeitung werden zum immer wichtigeren Bereich(vergleiche Holzinger, 2000).

2.2. Psychophysik

Die Psychophysik untersucht die gesetzmäßigen Beziehungen zwischen dem physikalischenStimulus, der auf die Sinnesorgane einwirkt, und der dadurch hervorgerufenenVerhaltensweise und Erfahrung, und sie versucht sie zu quantifizieren (vergleiche Zimbardo,1995).In den Sinnesorganen befinden sich spezifische Rezeptoren, die als Signalwandler fungierenund die physikalischen Reize (Schall, Licht, ...) in chemisch elektrische Signale umwandeln,die wiederum zu den spezifischen Gehirnarealen zwecks weiterer Verarbeitung weitergeleitetwerden (vergleiche Holzinger, 2000).Die Psychophysik misst die Stärke der Empfindungen, die ein aufnahmefähiger, normalerOrganismus bei Reizen unterschiedlicher Stärke erfährt. Dabei werden Schwellen festgelegtund psychophysische Skalen konstruiert, die die Stärke der Empfindung zur Reizstärke inBeziehung setzen (zitiert nach Zimardo, 1995).

Man unterscheidet drei Arten von Schwellen:• Qualitätsschwelle: Die Qualitätsschwellen decken jenen Bereich ab, innerhalb

welchem Reize Empfindungen auslösen können (20 – 20 000 Hz im akustischenBereich).

• Absolute Schwelle: Sie gibt an, ab welchem Niveau ein sensorisches System dieAnwesenheit eines Stimulus bemerkt, d.h. den geringsten Betrag physikalischerReizung der überhaupt eine Empfindung hervorruft (zitiert nach Zimbardo, 1995).

• Unterschiedsschwelle: Sie bezeichnet die kleinste Differenz zwischen zwei Reizen,die ein sensorisches System ermitteln kann.

Man kann zwischen Reiz, Empfindung und Wahrnehmung unterscheiden:a) Der Reiz (stimulus) wird als eine physikalische Erregung eines Sinnesorgans

verstanden. Jeder Reiz braucht eine gewisse Reizschwelle (stimulus threshold), umüberhaupt wirksam zu werden. Beim Überschreiten der Schmerzschwelle werdenauch Schmerzrezeptoren mitgereizt (vergleiche Holzinger, 2000).

b) Unter Empfindung (sensation) versteht man einen neurophysiologischen Prozess(Hören, Riechen, ...), der aufgrund eines Reizes ausgelöst wird (zitiert nach Holzinger,2000).

c) Unter Wahrnehmung (perception) versteht man schließlich eine ArtErkenntnisprozess. In Interaktion zwischen der realen-objektiven Welt und internenAspekten einer Person („Innenwelt“) werden die Empfindungen zusammengefasst(vergleiche Holzinger, 2000).

Drei fundamentale Gesetze der Psychophysik:

Page 5: Proseminar: Technikpsychologie I W S 2001/2002

5

2.2.1. Weber´sches Gesetz

Ernst Heinrich Weber (1795-1878) schenkte bei Studien über den Tastsinn derUnterschiedsschwelle besondere Aufmerksamkeit. Im Mittelpunkt des Interesses stand dieFrage, wie sehr ein Ausgangsreiz verändert werden muss, damit die Versuchsperson dieseVeränderung eben noch merkt. Weber zeigte, dass der Reizzuwachs, der eine eben nochmerkliche Veränderung der Empfindung bewirkt, in einem näherungsweise konstantenVerhältnis zum Ausgangsreiz steht. Das heißt, dass die relative Unterschiedsschwellekonstant ist. Die absolute Unterschiedsschwelle nimmt mit der Reizintensität zu: ein Reizmuss um einen bestimmten konstanten Wert (Prozentsatz) vergrößert oder verkleinert werden,damit ein eben merklicher Unterschied empfunden wird (vergleiche Holzinger, 2000).

0

0)(

s

ssk i −

=

si – s0 ... eben merklicher Unterschieds0 .........Ausgangsreizk ..........Weber´sche Konstante

Webersche Konstanten bezüglich Schall- bzw. Tonempfindung: Tonhöhe: k = 0.003 (0,3%), Lautstärke: 0,09 (9%)

2.2.2. Fechner´sches Gestz

Das Weber´sche Gesetz bildete die Grundlage für die Überlegungen Fechners. Er fügte nochdas theoretische Postulat hinzu, dass eben merkliche Unterschiede (just noticeabledifferences) gleich große subjektive Einheiten seien. Von diesen beiden Annahmen ausgehendleitete er sein Gesetz ab:

CScSfR +== ln)(

R ... EmpfindungsstärkeS ....Reizintensitätc .....beliebige MaßstabskonstanteC.....Integrationskonstante

Dieses Gesetz besagt, dass eine logarithmische Zunahme der Reizintensität zu einer linearenZunahme der Empfindungsstärke führt. Für extrem kleine und extrem große Reizintensitätentrifft das Fechner´sche Gesetz allerdings nicht zu (zitiert nach Holzinger, 2000).

2.2.3. Stevens Gesetz

Stevens konnte, sich auf den belgischen Physiker Plateau beziehend, 1953 daspsychophysische Potenzgesetz nachweisen. Stevens nähert sich diesem Problem nicht überden Weg der indirekten Skalierung bzw. Unterschiedsschwellen, sondern über direkteSkalierung. Er bestimmt also direkt die Empfindungsstärke. Das Stevens sche Gesetzbeschreibt den Zusammenhang zwischen Reiz- und Empfindungsgröße folgendermaßen:

Page 6: Proseminar: Technikpsychologie I W S 2001/2002

6

kSnR

kSR n

lnlnln +==

R......ErlebnisstärkeS.......Reizstärkek.......Maßstabskonstanten.......von der jeweiligen Sinnesmodalität abhängiger Exponent

Bsp.: n Wert für Lautstärke: n = 0.67, für Helligkeit: n = 0,33

2.3. Audiotechnische Grundlagen

2.3.1. Ton

Ein Ton kann durch Vibration eines Materials (z.B. Geigenseite, Lautsprechermembran,Stimmbänder, ...) entstehen. Die Moleküle des Übertragungsmediums (meistens Luft) werdendurch die Schwingungen des Schallsenders zu Pendelschwingungen um ihre Ruhelageveranlasst. Dadurch werden Luftschwankungen ausgelöst und werden als longitudinaleDruckwellen (d.h. parallel zur Ausbreitungsrichtung der Welle) in der Luft fortgeleitet. Durchelektroakustische Schallwandler (Mikrofone) können diese Schalldruckänderungen inentsprechende analoge Signale umgewandelt und anschließend für Multimedia-Systeme indigitale umgewandelt werden (zitiert nach Holzinger, 2000).Bei einem Ton handelt es sich um eine harmonische Schwingung einer mehr oder wenigergleichbleibenden Frequenz (vergleiche Holzinger, 2000).Die Qualitäten eines Tons sind die Frequenz (Tonhöhe) und die Amplitude (Lautstärke)(zitiert nach Holzinger, 2000).Ein Ton braucht in der Natur eine gewisse Einschwingzeit. Diese besteht aus zwei Teilen,dem Attack (Zeit, bis der Ton seine maximale Lautstärke erreicht hat) und dem Decay (Zeit,bis der ton auf einen quasistationären Zustand (Sustain-Pegel) eingeschwungen ist. Nach demEnde der Anregungsphase benötigt der Ton ein gewisse Ausschwingzeit (Release), die zumTeil auch mit der Raumakustik zusammenhängt (Abb.2.) (vergleiche Holzinger, 2000).Die Nachhalldauer definiert sich diejenige Zeit, in der nach Abschalten der Schallquelle derSchallpegel um 60 dB gegenüber seinem Anfangswert absinkt (vergleiche Födermayr, 1994).

Page 7: Proseminar: Technikpsychologie I W S 2001/2002

7

Abb. 2.

2.3.2. Klang

Reine Sinustöne (einfache Sinusschwingung) kommen in der Natur sehr selten vor. Setzt manSchwingungen zusammen, spricht man physikalisch von einem Klang (sound), den man ineine Grund- und eine Oberschwingung zerlegen kann (vergleiche Holzinger, 2000). Bildendie Obertonreihen, auch Teilschwingungen genannt, ganzzahlige Vielfache derGrundschwingung (harmonische Verhältnisse zwischen den Teilbereichen), spricht man aufder Wahrnehmungsebene physikalisch gesehen von einem Klang; musikalisch gesehen voneinem Ton (vergleiche Födermayr, 1994).Bilden die Teilschwingungen keine harmonischen Verhältnisse zwischen den Teilfrequenzen,spricht man auf physikalischer Ebene von einem Tongemisch (nicht harmonische Teiltöne)(vergleiche Födermayr, 1994). Bilden sich über der Grundschwingung 2 oder mehrharmonische Reihen von Teiltönen, spricht man auf physikalischer Ebene von einemKlanggemisch, auf musikalischer Ebene von einem Zusammenklang. Die Struktur derObertöne ist also für psychophysikalische Empfindung eines Klanges (musikalisch: Ton)entscheidend (zitiert nach Holzinger, 2000).Nichtperiodische Schwingungen mit zahlreichen Teilschwingungen, zwischen denen keingesetzmäßiger Zusammenhang besteht und deren Frequenzen, Amplituden und Phasen stetig,nichtstetig oder stoßartig schwanken, nennt man Geräusche (weißes Rauschen, farbigesRauschen, stimmlose Sprachkonsonanten, ...) (vergleiche Födermayr, 1994).Schließt man periodische Schwingungen in nicht periodische ein, spricht man von einerMischform, d.h. man hört dann Geräusche mit mehr oder weniger deutlicher Tonhöhe(vergleiche Födermayr, 1994).

Mit Hil fe der Klangfarbe (timbre) ist es möglich, verschiedene Musikinstrumente undverschiedene Stimmen von Personen zu erkennen und zu unterscheiden (zitiert nachHolzinger, 2000).

Page 8: Proseminar: Technikpsychologie I W S 2001/2002

8

2.3.3. Schallfrequenz

Die Einstufung der Tonhöhen durch das menschliche Gehör ist weitgehend proportional zurSchall frequenz (zitiert nach Holzinger, 2000). Die Schall frequenz wird logarithmisch inOktaven skaliert. Eine Verdoppelung der Tonfrequenz ergibt einen Oktavschritt (Verhältnisvon 2:1) (vergleiche Holzinger, 2000). Die Oktave wird bei der chromatischen Tonleiter inzwölf Tonintervalle konstanten Frequenzverhältnissen (Halbtonschritten) unterteilt(vergleiche Holzinger, 2000). Ein Tonunterschied von einem Halbtonschritt entspricht einemVerhältnis von 1: 1,0595 (12. Wurzel aus 2), ein Ganzton entspricht einem Verhältnis von1:1,222 (6. Wurzel aus 2) (vergleiche Holzinger, 2000). (vergleiche J. S. BachsWohltemperiertes Klavier).

2.3.4. Schalli ntensität

Um subjektive Lautstärkenempfindungen quantitativ erfassen zu können, wurde neben derphysikalischen Größe Dezibel (dB), die den Schalldruckpegel erfasst, diepsychophysikalische Größe Phon (dBA) eingeführt. Die Ermittlung der Lautstärke wird aufeinen subjektiven Vergleich mit einem Normschall von 1000 Hz und 30 dB (vergleicheHolzinger, 2000).Eine Erhöhung der Lautstärke um 10 Phon bewirkt eine Verdoppelung des subjektivenLautstärkeneidrucks (vergleiche Holzinger, 2000).Die Empfindlichkeit des Ohres ist bei 3500 Hz am größten (zitiert nach Holzinger, 2000).

2.3.5. Partitur

Die Informationsvermittlung bzw. –darstellung erfolgt in der Musik meist über dasNotensystem. Die festgelegte Abfolge von Noten, Notenwerten und Takten von einemgesamten Musikstück inklusiver diverser Stimmen nennt man Partitur (vergleiche Holzinger,2000). Zur Illustration einer Partitur ist in Abb. 3. ein Auszug von W. A. MozartsKlavierkonzert, C-Dur, KV 467, 1. Satz zu sehen (aus Kühn, 1993).

Page 9: Proseminar: Technikpsychologie I W S 2001/2002

9

Abb. 3.

Page 10: Proseminar: Technikpsychologie I W S 2001/2002

10

Die Tonleiter (scale) ist eine leitermäßige Aneinanderreihung von musikalischen Töneninnerhalb eines Intervalls, die einen kognitiven Rahmen für das Musikhören bildet (zitiertnach Födermayr,1994). Die Frage der kleinsten Intervalleinheit ist nicht durch diepsychophysische Unterschiedsschwelle, sondern kognitiv bestimmt. In der europäischenKultur stellt die chromatische 12Tonskala eine praktische Grenze dar. Vierteltonmusik isttheoretisch möglich. Der Halbton dürfte aber in der melodischen Aufeinanderfolge der Tönedie kleinste Einheit sein (vergleiche Födermayr, 1994), im Gegensatz zu andren Kulturkreisen(z.B. Indische Melodie- und Rhythmussysteme: Talas und Ragas).Es gibt verschiedene Tonleitern mit unterschiedlicher Tonanzahl und Schrittfolge.

Aufgrund der Anordnung ihrer Halbtonschritte unterscheidet man Dur-(3. & 4. Stufe und 7. &8. Stufe), Moll- (2. & 3. Stufe und 5. & 6. Stufe; bei natürlichem Moll) und Kirchentonarten.

Moll- und Durtonarten sind in Quintenzirkel angelegt (Abb. 4.) .

Abb. 4.

Harmonie bzw. Disharmonie entwickelt sich aus dem zeitlichen Miteinander von einzelnenTönen. Nacheinader erklingende Töne heißen Tonreihe oder auch Melodie. Zwei Tönegleichzeitig werden Intervall und drei Töne oder mehr als Akkord bezeichnet.Das Tempo bestimmt die Geschwindigkeit der zeitlichen Abfolge von Tönen und somit auchderen Dauer. Der Takt (beat) legt das numerische Verhältnis (bpm) von betonten undunbetonten Zählzeiten fest. Die Dynamik beschreibt den Verlauf der Lautstärke in derzeitlichen Abfolge der Einzeltöne und die Lautstärkenverhältnisse untereinander (zitiert nachHolzinger, 2000).

Page 11: Proseminar: Technikpsychologie I W S 2001/2002

11

3. Biologische Grundlagen des Hörens

3.1. Die Anatomie des Ohres

Als erstes gelangt eine Schallwelle in den Gehörgang, an dessen Ende das Trommelfell mitder gleichen Frequenz wie die Schallquelle mitschwingt. Das Trommelfell schließt an dreiKnöchelchen im Mittelohr an, dem Hammer (malleus), Amboss (incus) und dem Steigbügel(stapes), deren Aufgabe darin besteht, die Intensität der Schwingungen zu verstärken unddiese am ovalen Fenster zur scala vestibuli der Cochlea (Schnecke) im Innenohr zuübertragen. Die Schnecke besteht aus drei Tunneln (scala vestibuli, scala medea und scalatympani), die mit zäher Flüssigkeit gefüllt sind. Diese Flüssigkeit fungiert alsÜbertragungsmedium des Schalls und versetzt auch die Basilarmembran in der scala medeain Schwingung, die wiederum die Haarzellen im Cortischen Organ stimulieren. DieseHaarzellen stimulieren letztlich jene Neuronen, die den Hörnerv (nervus acusticus) bilden undInformationen ins Gehirn leiten (vergleiche Kalat, 1995).

Abb. 5.

Page 12: Proseminar: Technikpsychologie I W S 2001/2002

12

3.2. Theorien zur Tonhöhenwahrnehmung

Zur Erklärung der Umwandlung von Schallwellen in Empfindungen von Tonhöhen durch dasauditive System wurden zwei Theorien postuliert.Einerseits besagt die Einortstheorie von Hermann Helmholtz, dass die Wahrnehmung derTonhöhe abhängig ist vom Teil bzw. Ort des Rezeptors der stimuliert wird. UnterschiedlicheFrequenzen verursachen die stärkste Aktivierung an unterschiedlichen Stellen entlang derBasilarmembran, hohe Töne aktivieren die Basis der Cochlea (beim ovalen Fenster) amstärksten, tiefe Töne aktivieren das entgegengesetzte Ende der Cochlea am stärksten. Der Ortder stärksten Schwingung könnte folglich die Verschlüsselung der Information über dieTonhöhe beherbergen (vergleiche Zimbardo, 1995).Die Periodizitätstheorie besagt andererseits, dass die Häufigkeit, also die zeitliche Steuerung,mit der neuronale Reaktionen ausgelöst werden, für die Entschlüsselung der Tonhöheverantwortlich ist. Eine Erweiterung der Periodizitätstheorie stellt die Salventheorie dar.Wenn die Spitzen einer Schallwelle so schnell kommen, dass ein einzelnes Neuron aufgrundder Refraktärphase nicht mehr in der Lage ist, diese Frequenz zu übernehmen, so sindGruppen von Neuronen komplementär in der Lage, Reizen bis zu 4000 Hz synchron zu folgen(vergleiche Zimbardo, 1995).Früher standen diese beiden Theorien im Gegensatz, erst in letzter Zeit hat sich herausgestellt,dass beide angemessen sind, jeweils einen Teil des hörbaren Frequenzbereiches zu erklären.Die Periodizitätstheorie erklärt die Kodierung von einer Frequenz bis zu 5000 Hz am besten.Bei höheren Frequenzen können die Neuronen und Neuronensalven nicht schnell und genaugenug feuern, um die Information genau genug kodieren zu können. Die Einortstheorie lieferteine gute Erklärung für die Wahrnehmung von Töne über 1000 Hz. Unterhalb dieserFrequenz ist die Schwingung der Basilarmembran zu breit, um die Information adäquatkodieren zu können. Zwischen 1000 und 5000 Hz sind beide Mechanismen wirksamvergleiche Zimbardo, 1995).

3.3. Der Signalweg der Audio-Impulse im Gehirn

Die Information aus jedem Ohr wird im Gehirn sowohl ipsi- als auch kontralateral verarbeitet.Den einseitigen Signalweg der akustischen Information im Gehirn nennt man lemniscuslateralis.Zunächst durchläuft die akustische Information einige subkortikale Strukturen. Die ersteStation des nervus acusticus stellt der ipsilaterale und folglich auch kontralaterale Nucleuscochlearis in der medulla oblongata dar. Als nächstes durchläuft der Hörnerv zuerst dieOliva superior in der pons, mündet dann über den Colliculus Inferior zum Corpusgeniculatum mediale des Thalamus. Vom Corpus geniculatum mediale zum transversalentemporalen gyrus des primären Auditoren Kortex findet dann schließlich die sogenannte„auditory radiation“ statt (vergleiche Kalat, 1995) (Abb. 6).

Page 13: Proseminar: Technikpsychologie I W S 2001/2002

13

Abb. 6.

3.4. Schallrichtung (Lokalisation und Abstand)

Räumliches Hören wird durch Nachhall, Schallabsorption, Schallschatten, Signallaufzeit unddie Richtungsempfindlichkeit der Außenohren ermöglicht (zitiert nach Holzinger, 2000).Daraus kann man auch Informationen über die Größe des Raumes und etwaige Hindernisseerfahren („Fledermaus – Effekt“ bei Blinden) (vergleiche Holzinger, 2000).

Nur durch binaurales Hören sind Schallquellen im Raum lokalisierbar (zitiert nach Holzinger,2000).Eine Methode zur Lokalisation ist der wahrgenommene Lautstärkenunterschied zwischen denOhren, verursacht dadurch, dass das Ohr, das näher zur Schallquelle liegt, logischerweise denSchall lauer wahrnimmt und jenes Ohr auf der anderen Seite in einem Schallschatten liegt(gilt für höhere Frequenzen, deren Wellenlänge kleiner als die Kopfbreite ist).Eine weitere Methode zur Lokalisation einer Schallquelle liegt im Laufzeitunterschied.Damit die Laufzeitdifferenz der Schallquelle ermittelt werden kann müssen die beiden Signalevom linken und vom rechten Ohr im Gehirn miteinander verglichen werden (vergleicheHolzinger, 2000; Kalat, 1995).In der Audiotechnik werden Lautstärkenunterschiede benutzt, um einen räumlichenHöreindruck zu vermitteln (Stereo Technik, Surround Technik) (vergleiche Holzinger, 2000).

4. Menschliche Sprache

4.1. Grundlagen

Sprache ist eine auf auditiven Signalen basierende Informationsart. Über das Ohr werden dieSprachsignale aufgenommen und vom Hörzentrum als ein system von Zeichen interpretiert(zitiert nach Holzinger, 2000).

Page 14: Proseminar: Technikpsychologie I W S 2001/2002

14

Als Kommunikationsorgan fungiert die menschliche Stimme, die am menschlichenHörvermögen ausgerichtet ist. Durch das unterschiedliche Verformen des Luftraums immenschlichen Stimmapparat kommt es bei fast gleicher Grundfrequenz zur Bildung vonhohen Tönen, den Formanten. Diese bilden unterschiedliche Laute (z.B. Vokale) (vergleicheHolzinger, 2000).Die Aktivität der Stimmbänder und Stimmritze werden durch Signale aus demmotosensorischen Kortex über den nervus vagus gesteuert. Den primären Sprachzentreninnerhalb des motosensorischen Kortrx ist das Brocasche Sprachzentrum übergeordnet.(vergleiche Holzinger, 2000).Bei Ausfall des Brocaschen Areals kommt es trotz intakter primärer Sprachzentren zurSprechunfähigkeit, einer motorischen Aphasie (Störung im Output) (vergleiche Holzinger,2000). Bei Ausfall des sekundären Areals der Hörbahn (Wernickesches Areal) fehlt es anSprachverständnis (sensorische Aphasie, Störung im Input).

4.2. Sprachausgabe

Auf Digitalrechnern kann eine synthetische Spracherzeugung realisiert werden, die zwarmeist verständlich ist, ihr mangelt es aber oft an Natürlichkeit. Verständlichkeit ist hierbeieine Grundvoraussetzung, Natürlichkeit erhöht die Akzeptanz bei den Benutzern (zitiert nachHolzinger, 2000).

4.2.1. Audiditve Parameter

Sprachgrundfrequenz: Der niedrigste periodische Signalanteil bei stimmhaften Lauten imSprechsignal.

Phonem: die kleinste bedeutungsunterscheidende Sprachliche Einheit („tsch, ts, pf, au, oi, ai).

Morphem: die kleinste bedeutungstragende sprachliche Einheit.

Laut: Ausprägung eines Phonems.

Gesprochen werden Laute, nicht Phoneme (zitiert nach Holzinger, 2000).

Bei den Lauten unterscheidet man zwischen

Vokal („a“ in Papst)Stimmhafter Konsonant (m in „müde“)Frikativer Konsonant (w in „Wurm“)Frikativer stimmloser Konsonant (k in „Konsonant“)Explosiver Konsonant (k in „Kassa“)Affrikater Konsonant (pf in „Pfund“).

Diphon ist die Zusammenfassung von je zwei Phonemen.

Prosodie ist die Sprachmelodie und hängt von der Semantik (Bedeutung) der Sprache ab.

Page 15: Proseminar: Technikpsychologie I W S 2001/2002

15

4.2.2. Arten der Sprachausgabe

Für Multimedia- Anwendungen kann man technisch zwischen vier Arten der Sprachausgabeunterscheiden (vergleiche Holzinger, 2000):

a) Bei der reproduzierenden Sprachwiedergabe werden die benötigten Sprachelementeeinfach von einer Person gesprochen, aufgezeichnet, codiert und zum Zeitpunkt derAusgabe wiedergegeben.

b) Bei einer Lautverkettung im Zeitbereich werden einzelne Sprachkomponenten wieBausteine zusammengesetzt. Es wird versucht, Laute, Wörter und Sätze aus Silbenoder Bruchteilen von Silben zusammenzusetzen. Die Übergänge zwischen denPhonemen klingen meist sehr unnatürlich und holprig.

c) Bei der Lautverkettung im Frequenzbereich wird sehr oft die Formantsyntheseangewandt. Durch eine Synthese von Formanten (Teiltöne von Lauten) wird dermenschliche Sprachtrakt durch elektronische Filter simuliert. KennzeichnendeKriterien sind hierbei die Filtermittensequenz und die Filterbandbreite.Für stimmhafte Laute verwendet man ein Pulssignal mit Sprachgrundfrequenz, fürstimmlose Laute einen Rauschgenerator.

Eine andere Möglichkeit ergibt sich im Linear Predictive Coding, wobei dermenschliche Sprachtrakt durch einen mehrpoligen Lattrice-Filter nachgebildet wird.Die Stimmbänder werden hier durch einen Rauschgenerator und einen tongeneratorsimuliert (vergleiche Holzinger, 2000).

Weiters kann der menschliche Sprechtrakt über ein mechanisches Röhrenmodellzusammen mit einem Wellendigitalfilter nachgebildet werden (vergleiche Holzinger,2000).

d) Die Sprachsynthese transformiert gedruckten Text in akustische Signale. Meist wirdein Text eingescannt und dann eine Schriftzeichenerkennung durchgeführt (opticalcharacter recognition, OCR). Dann erfolgt eine Übersetzung des Textes in eineLautschrift (Transkription) unter Verwendung eines Lexikons, das ständigbenutzerdefiniert erweitert und verbessert werden kann (durch Software). Dann wirddie Lautschrift mit Hilfe von Lautelementen zu einem akustischen Sprachsignalumgewandelt (durch Hardware).Ein Problem stellt hier meist die Semantik dar.

4.3. Maschinelle Spracherkennung

Der Mensch kann über das Gehör wahrgenommene Sprache sehr gut den jeweil igenSprechern und deren Eigenheiten zuordnen. Auch Störende Hintergrundgeräusche werdenherausgefiltert bzw. diskriminiert. Im Gehirn erfolgt eine permanente unbewusste Korrekturvon erkannten Sprachfehlern und Hintergrundgeräuschen. Dies ist möglich, weil für denMenschen viele Fehler aufgrund grammatikalischer und lexikalischer Regeln oder aus demSinnzusammenhang erkennbar sind (vergleiche Holzinger, 2000).In einem System für Spracheingabe muss ein beträchtlicher Aufwand betrieben werden, umeine annähernde Erkennungsrate zu erreichen.

Page 16: Proseminar: Technikpsychologie I W S 2001/2002

16

• Sprechererkennung: individuelle Sprecherunterschiede werden ausgewertet, Inhalt istunwichtig.

• Spracherkennung: Inhalt des Gesprochenen ist wichtig, Sprechervielfalt wirkterschwerend.

• Sprecheranalyse: Inhalt des Gesprochenen ist unwichtig, wichtig ist, wie etwas gesagtwird (Analyse des Gemütszustandes und der Intentionen des Sprechers).

Ad Spracherkennung:

Computerbasierende Umwandlung von gesprochener Sprache in Text: ASR (automaticspeech recognition).

Spracherkennung kann grob unterteilt werden in:

1) nach der Komplexität der Sprache: Einzelwörter, Verbundwörter, Kommandos,einfachen Sätzen, komplexen Sätzen)

2) nach Sprecherabhängigkeit:• sprecherabhängig (System erkennt bestimmte Sprecher)

• sprecheradaptiv (System adaptiert sich während derSpracherkennung an neue Sprecher)

• sprecherunabhängig (System erkennt beliebige Sprecher)

3) nach dem Störeinfluss: ungestört, normale Umgebungsgeräusche, hoherGeräuschpegel

4) nach dem Vokabularumfang: klein (bis 100 Wörter), mittel (100 – 2000 Wörter) ,hoch (2000 – 100 000 Wörter).

Aktuelle Spracherkennungsprogramme arbeiten mit einer Lernphase und einer Arbeitsphase.In der Lernphase spricht der Benutzer das gewünschte Vokabular. Aus den Sprachsignalenwerden Parameter abgeleitet, aus welchen dann wiederum ein Merkmalsvektor der imMerkmalsspeicher abgelegt wird zusammengestell t wird (vergleiche Holzinger, 2000).

Arbeitsphase:Durch eine akustische und phonetische Analyse werden die Merkmalsvektoren dergesprochenen Worte ermittelt. Anhand der gespeicherten Merkmalsvektoren wird eine Listederer Worte erstellt, die am wahrscheinlichsten zutreffen (vergleiche Holzinger, 2000).Anhand einer syntaktischen und einer semantischen Analyse werden dann etwaige Fehlernoch behoben (vergleiche Holzinger, 2000).

5. Computerrepräsentation von Audio

5.1. Rohsound Daten

Ein analoges, stetiges und kontinuierliches Audiosignal (etwa von einem Musikinstrument)muss, bevor es in einem Digitalrechner repräsentiert werden kann, digitalisiert (abgetastet,quantisiert und codiert) werden.

Page 17: Proseminar: Technikpsychologie I W S 2001/2002

17

Folgende Komponenten sind bei der Digitalisierung von Audiosignalen zu beachten:• Abtastfrequenz• Amplitude• Sound-Kanäle (Mono oder Stereo)

Im Bereich Multimedia gibt es drei Standard – Abtastfrequenzen:• 11, 025 kHz• 22.05 kHz• 44.1 kHz

Audio CDs werden mit 44,1 kHz abgetastet, es werden also Frequenzen von 0 bis 22,05 kHzabgetastet (Abtasttheorem non Nyquist).

Die Festplatten der Digitalrechner werden zwar immer größer, die Datenkomprimierung beiAudiodateien ist aber dennoch ein wichtiges Thema.

Die File-Größe (file size) kann man durch folgende Gleichung berechnen (vergleicheHolzinger, 2000):

btscF ⋅⋅⋅=

F: File-Größec: Anzahl der Kanäle (Mono c = 1; Stereo c = 2)s: Sampling-Rate in Hzt: Zeit in Sekundenb: Anzahl der Bytes (8 Bit = 1 Byte; 16 Bit = 2 Byte)

Zur Reduzierung der Audio-File - Datengröße können mehrere Verfahren eingesetzt werden(vergleiche Holzinger, 2000):

• Downsampling auf 22 kHz oder 11 kHz• Reduzierung der Auflösung auf 1 Byte• Verzicht auf Stereo• Datenkompression (ADPCM, MPEG)

5.2. PCM (Pulse Code Modulation) bei Digital Audio

Das analoge Audiosignal wird zuerst in einzelne Zeitpakete (pulse) zerhackt und danndigitalisiert.Zur Zeit der Entwicklung dieser Methode gab es außer Magnetbänder keine preiswertenAufnahmemedien. PCM-Tonsignale wurden daher im 50- (PAL) bzw. 60 Bilder/sec Takt aufnormales Videoband aufgezeichnet. Diese Methode wurde als PCM-1630- bzw. ADAT-Standard für die Audio-CD Aufnahme übernommen (vergleiche Holzinger, 2000).Auch DAT – Aufnahmen beruhen auf PCM-Codierung. Bei DAT – Aufnahmen ist außer demStandard von 44,1 kHz noch eine hochwertigere Sampling – Rate von 48 kHz möglich. Beialten DAT – Geräten findet man noch manchmal einen alten Frequenzstandard von 32 kHz.In der ISDN-Telephonie wird vom PCM-Format, mit einer Abtastfrequenz von 8 kHz undeiner Auflösung von 8 Bit Gebrauch gemacht.

Page 18: Proseminar: Technikpsychologie I W S 2001/2002

18

Im PC-Bereich ist PCM als „Sub-Dateiformat“ unter WAV zu finden. Eine Samplingrate von44,1 kHz und eine Auflösung von 16 Bit bringt zwar hohe Qualität, aber das File beanspruchteine sehr große Datenmenge (172 kByte/s) (vergleiche Holzinger, 2000).

5.3. ADPCM (Adaptive Difference – PCM) bei Digital Audio

Das Verfahren bei ADPCM beruht auf der Ähnlichkeit (nicht Gleichheit!) benachbarterSignale. Es wird versucht aus dem bisherigen Signalverlauf durch Prädiktorkoeff izienzen aufden zukünftigen zu schließen. Wegen der ständigen Adaption erhält dieses Codierverfahrendie Bezeichnung adaptive Differenz – PCM (ADPCM) (zitiert nach Holzinger, 2000).

In der Praxis erfolgt alle 20 ms eine Neuberechnung der Prädiktorkoeff izienzen.

Pro Abtastwert kommt man nun auf etwa 4 Bit, jedoch ist im Vergleich zum PCM – Formatauch ein Qualitätsverlust festzustellen.

5.4. GSM-Standard

GSM (Global System for Mobile communication) beschreibt eine europaweite Festlegung fürdas paneuropäische Autotelefon.GSM basiert auf digitaler Übertragung im Zeitvielfach mit acht Kanälen je Radioträger, einerBandbreite von 200 kbit/s und einer Sprachkodierung mit 13 kbit/s (zitiert nach Holzinger,2000).GSM eignet sich sehr gut zur Komprimierung von Sprache (daher auch die Verwendung imMobilfunk), lässt sich aber nur mit hohem Aufwand in Software realisieren.

Viele Soundkarten unterstützen auch die Abspeicherung von WAV Dateien im GSM-Format.Bei einer Abtastrate von 44,1 kHz und einer Auflösung von 16 Bit, ergibt sich eine Datenratevon 18 kByte/s. Allerdings ist die Qualität bei GSM noch schlechter als bei ADPCM(vergleiche Holzinger, 2000).

5.5. µ-Law-Codierung

Die µ-Law –Codierung ist eine grundsätzliche Audiokompressionstechnik und wurde bereitsim Jahre 1969 beschrieben und international standardisiert (vergleiche Holzinger, 2000).

Hier wird von einer logarithmischen Umsetzung und einer Wandlerauflösung von 13 Bit, dienach der Wandlung auf 8 Bit reduziert wird, ausgegangen (zitiert nach Holzinger, 2000). DieUmwandlung erfolgt über eine fest vorgeschriebenen, logarithmischen 13- zu 8- Bit und 8- zu13-Bit Tabellen (vergleiche Holzinger, 2000).

Diese Art der Umwandlung ermöglicht die Anpassung der Kodierung an das logarithmischeHörvermögen des Menschen (vergleiche Holzinger, 2000).

Die µ-law-Codierung wird generell i n Nordamerika und Japan für die Übertragung überISDN benutzt.

Für hochqualitative Audiodaten ist das µ-law-Format jedoch nicht geeignet.

Page 19: Proseminar: Technikpsychologie I W S 2001/2002

19

6. Audio-File-Formate

Durch die Vielzahl der vielen verschiedenen Rechensystemen wurden im Verlauf der Zeitauch immer wieder verschiedene Audio-File-Formate entwickelt, die wenigsten konnten sichaber durchsetzen. Besonders fürs Internet eignen sich nur sehr wenige Formate (vergleicheHolzinger, 2000).

Man unterscheidet bei Audio – Files hinsichtlich der Übertragung grundsätzlich zwischenstatischen Dateien, die auf dem PC gespeichert werden und gestreamten Dateien, die, nachErstellen eins Puffers ,sukzessive, nahezu in Echtzeit übertragen werden (vergleicheHolzinger, 2000).

Nach Holzinger (2000) sind die beiden wichtigsten Audioformate für Multimedia Wavelet(WAV) und Musical Instrument Digital Interface (MIDI). Beide können die Informationencodieren und haben eine recht gute Wiedergabequalität.Eine Wave – Datei speichert im Prinzip den Formverlauf des Klanges, eine MIDI - Dateidagegen den musikalischen Inhalt (zitiert nach Holzinger, 2000).

6.1. Wavelet (WAV) Files

Die Abkürzung WAV (auch für Dateiendung; datei.wav) steht für wavelet („kleine Welle“)und wurde ursprünglich von Microsoft und IBM in den 80ern als binäre Audiodateientwickelt, ist aber auch Apple und LINUX (mit „playwav“) kompatibel. Eine WAV - Datei ist eine „digitale Kopie“ des Schalldrucks am Mikrophon während einerAufnahme oder beim Überspielen einer Audio – CD (Rippen). WAV – Dateien sind nicht,wie etwa MIDI – Dateien auf Musik beschränkt (vergleiche Holzinger, 2000).

Die WAV Formate (eigentlich RIFF WAVE, ein von Microsoft Windows definiertesResource Interchange Format) teilen sich in einzelne Chunks auf.Der oberste Chunk der RIFF - Datei umfasst die ganze Datei und trägt immer die Kennung„RIFF“ und die ersten 4 Bytes des Datenbereichs geben den Typ der Datei, in diesem Fallalso „Wave“ an. Von einer WAV - Datei wird erwartet, dass sie unkommentierte Daten imPCM – Format enthält (zitiert nach Holzinger, 2000).Ein WAV- Format enthält also in der Regel immer ein Format – Chunk, der die Parameterder Audiodatei enthält und einem Data – Chunk, der die Audiodateien im PCM – Formatenthält (vergleiche Holzinger, 2000).

6.2. MIDI – File – Format

MIDI ist• ein standardisiertes Datenformat zur Steuerung elektronischer Musikinstrumente und

Musikeffektgeräte,• eine diesem Standard entsprechende Schnittstelle (Hardware)• der Überbegriff von Musik, die diesem Standard entspricht (zitiert nach Holzinger,

2000).

Seit Anfang der 80er Jahre ermöglicht MIDI eine Übertragung codierter Musiksignalezwischen Computern und elektronischen Musikinstrumenten mittels einer sogenannten

Page 20: Proseminar: Technikpsychologie I W S 2001/2002

20

Sequenzer – Technik. Hierbei werden analoge Klangsequenzen digitalisiert oder direkt digitalerzeugt (vergleiche Holzinger, 2000).Mit einem Sequenzer kann ein MIDI – Musikstück als Notenstück oder MIDI - Ereignislistedargestellt werden, wobei auch Zuordnungen zu den einzelnen Stimmen und auch Klängeverändert werden können (vergleiche Holzinger, 2000).Das MIDI – Format versteht sich als „Fernsteuerung von Musikinstrumenten“, sei es nun inForm von tatsächlichen „externen“ MIDI – Musikinstrumenten oder –Modulen, oder in Formvon den mehr oder minder qualitativen „ internen“ Modulen der Soundkarte.

Die instrumentenbezogene MIDI – Codierung umfasst drei grundlegende Aspekte:• die Lautstärke,• die Grundfrequenz und• die Bezeichnung des Instruments

Steht ein Musikinstrument in Verbindung mit MIDI, dann werden• der Beginn des Anschlags,• die Anschlagstärke und• das Ende der Note

übertragen (vergleiche Holzinger, 2000).

Weiters ist mit MIDI eine Codierung von 10 Oktaven (128 Töne) möglich.

Für 10 Minuten Musik werden nur 200 KB Speicherplatz beansprucht, im Gegensatz zu 105MB bei einer Abtastung von 44,1 kHz (vergleiche Holzinger, 2000).

Besonders in der Verwendung für den Musikbereich ergeben sich einige Vorteile von MIDI:• MIDI – Dateien sind plattformübergreifend, d. h. sie können auf verschieden

Betriebssystemen verwendet werden,• MIDI – Dateien sind sehr klein• MIDI entspricht der Vorgehendweise beim klassischen Komponieren (Aufzeichnen

der Noten und Wiedergabe mit unterschiedlichen Instrumenten und deren spezifischenKlangqualitäten) (vergleiche Holzinger, 2000).

Nachteile von MIDI:• ohne guter Instrumente kein guter Klang, da synthetische Klangerzeugung (FM –

Synthese),• keine Sprache oder sonstige Geräusche und• MIDI – Dateien klingen auf unterschiedlichen Systemen, je nach verwendeter

Soundkarte, unterschiedlich (vergleiche Holzinger, 2000).

6.3. AU – Dateien

Dateien mit der Endung „datei.au“ wurden von der Firma Sun entwickelt und werdenhauptsächlich unter Java eingesetzt (vergleiche Holzinger, 2000).

Java – Applets ermöglichen die Ausgabe von gesampelten Sounds, die im AU – Formatvorliegen müssen. Das Au – Format basiert auf 8 Bit Mono, einer Sampling – Rate von 8kHz und auf µ - law – Codierung.

Page 21: Proseminar: Technikpsychologie I W S 2001/2002

21

6.4. MPEG

MPEG steht für Moving Pictures Expert Group und beschließt Codec – Standards(Coder/Decoder) für Audio- und Video – Dateien (vergleiche Holzinger, 2000).

6.4.1. MEPEG 1 für Audio

MPEG – Audio – Kompression lässt die File – Größe einer Audio – CD (44,1 kHz, 16 – Bit –Samples; d. h.. ca. 1,4 Mbit/s) um den Faktor 12, ohne merkliche Qualitätseinbußenschrumpfen. Sogar Kompressionsfaktoren von 24 und mehr können eine akzeptable Qualitätliefern (vergleiche Holzinger, 2000). Das dahinterstehende Verfahren nennt man PerceptualAudio Coding. Es werden dabei für das menschliche Gehör nicht wahrnehmbare Frequenzenherausgefiltert (vergleiche Holzinger, 2000).

6.4.2. Prinzip der MPEG – Audio – Codierung

Ziel dieses Verfahrens ist es, die 1,5 Mbit/s der Studioqualität auf 384 kbit/s zu reduzieren,und dabei eine der Audio – CD ebenbürtige Qualität zu behalten (vergleiche Holzinger,2000).

In der Codierung kann man vier Modi unterscheiden (vergleiche Holzinger, 2000):• Single Channel Coding für Monosignale,• Dual Channel Coding, z.B. für Codierung von bilingualen Monosuígnalen

(Zweikanalton),• Stereo Coding zur Codierung eines Stereosignals, bei dem die beiden Kanäle separat

codiert werden,• Joint Stereo Coding, wobei hier die Datenredundanz und Datenirrelevanz zwischen

den beiden Kanälen ausgenutzt und damit eine noch höhere Kompressionsrate erreichtwird.

Bei der Zeit – Frequenz – Umsetzung wird das digitale Eingangssignal in 32 gleichförmigeSpektralkomponenten (Frequenzgruppen, Teilbänder) zerlegt. Dieses Procedere entsprichtauch dem Vorgang im menschlichen Gehör (psychoakustische Kompression) (vergleicheHolzinger, 2000).Viele Töne werden auch durch andere überlagert (Maskierung). Dies ermöglicht einezusätzliche Komprimierung (vergleiche Holzinger, 2000).Die jeweil igen Frequenzgruppen werden in Abstimmung auf das menschliche Gehör codiert.Die letztendliche Codierung geschieht in einer der drei definierten Schichten (Layer)(vergleiche Holzinger, 2000). Effektivität und Kompressionsrate nehmen von Layer I bisLayer II I sukzessive zu.

• Layer I: 384 Abtastpunkte je Frame; vor der Quantisierung wird skaliert,gleichförmige Quantisierung.

• Layer II : 1152 Abtastpunkte je Frame, gleichförmige Quantisierung.• Layer III : 1152 Abtastpunkte je Frame, ungleichförmige Quantisierung.

Page 22: Proseminar: Technikpsychologie I W S 2001/2002

22

6.5. MP 3

Das MPEG 2.5 Audio Layer III (MP3) – Format ermöglicht eine hohe Kompression vonAudiodateien bei sehr geringem Qualitätsverlust. Der Frequenzumfang und Rauschabstandbleiben mehr oder weniger erhalten (vergleiche Holzinger, 2000).Sogar auf einer guten HIFI – Anlage können eventuelle Verluste kaum wahrgenommenwerden.Beim MP3 Format lässt sich Stereomusik von Studioqualität um den Faktor 1:10 verkleinern.Eine Minute von MP3 Format belegt nur 1 MB an Speicherplatz, und das bei CD – Qualität.MP3 Dateien sind daher auch für das Internet von größerer Relevanz als WAV – Dateien(vergleiche Holzinger, 2000).Da MP3 Dateien auch sogenannte Headerless – File – Formate sind, ist es möglich, Teile vonDateien auszuschneiden und abzuspielen. Dadurch wird bei MP3 auch das Streaming möglich(vergleiche Holzinger, 2000).

MP3 können mit dem Windows Media Player, Quicktime von Apple, verschieden Freewareund Shareware Programmen und auch von portablen MP3 Playern abgespielt werden.Aufgrund von noch nicht vorhandenem Kopierschutz für MP3, ist dieses Format in derMusikbranche sehr umstritten (vergleiche Holzinger, 2000).

7. Schnittstelle zwischen Mensch und Computer

Um mit einem Computer Audiosignale aufnehmen, bearbeiten und Wiedergeben zu können,werden außer dem Computer eine Soundkarte, Lautsprecher bzw. Kopfhörer, Mikrofon undgegebenenfalls ein CD-Laufwerk benötigt (zitiert nach Holzinger, 2000).

Das System Soundkarte – Lautsprecher stellt letztendlich die Schnittstelle zwischen Menschund Computer dar. Die schlechtere der beiden Komponenten entscheidet über die Qualität desGesamtsystems (vergleiche Holzinger, 2000).

7.1. Soundkarten

Soundkarten sind Steckkarten für PCs, die mit verschieden Schnittstellen ausgerüstet sind unddie Eingabe und Ausgabe von Audiosignalen erlauben (zitiert nach Holzinger, 2000).

7.1.1. Kriterien einer Soundkarte (vergleiche Holzinger, 2000)

• Ausgangsspannung am Line-Ausgang. Die nutzbare Signalspannung liegt imBereich von 1000mV.

• Linearität. Dieser Wert gibt an, wie unverfälscht Signale wechselnder Intensitätumgesetzt werden. Ein optimaler Wert liegt bei 0 dB.

• Störabstand. Das ist der Unterschied zwischen Nutzsignal und Störsignal(unerwünschtes Brummen, Rauschen, ...). Je größer die Störsignale sind, destogeringer ist der Abstand zum Nutzsignal. Der Störabstand sollte idealerweiseunendlich groß sein. Im Durchschnittswerte liegen bei 80 dBA.

• Klirr faktor . Diese Größe kennzeichnet den Wert einer nicht linearen Verzerrung(Abweichungen von der Signalkurvenform). Heute Typische Werte liegen bei 0,02%.Erlaubt ist ein Wert von 1%.

Page 23: Proseminar: Technikpsychologie I W S 2001/2002

23

• Dynamik. Kennzeichnet den nutzbaren Dynamikumfang.• Frequenzgang. Kennzeichnet den Übertragungsbereich und ist ein Maß für die

linearen Verzerrungen. Je linearer der Frequenzbereich innerhalb der erwünschtenBandbreite ist, desto besser.

7.1.2. Anatomie einer Soundkarte

Die analogen Signalquellen werden vom Analog Digital Converter (ADC) in digitale Signalegewandelt. Der digitale Signalprozessor kann dann die Eingangssignale in verschiedene weiseverändern (Lautstärke, Klangfarbe, Dateigröße und Mischung). Die so veränderten Dateienwerden dann als WAV-Dateien gespeichert.Gespeicherte WAV-Dateien können dann zum Digitalen Signalprozessor geleitet, der z.B. diegewünschten Einstellungen zur Wiedergabe übernimmt, werden. Die verändertenWiedergabesignale werden dann vom Digital Analog Converter (DAC) analogisiert, so dasssie im Lautsprecher hörbar gemacht werden können (Abb. 7.) (vergleiche Holzinger, 2000).

Abb. 7.

Typische Soundkarten erzeugen Klänge nach dem Verfahren der Frequenz – Modulations –Synthese (FM – Synthese) und nach dem Wavetable – Verfahren. Bei der FM – Synthesewerden mehrere Schwingungen überlagert, um unterschiedliche Klänge zu synthetisieren(vergleiche Holzinger, 2000). Beim Wavetable – Verfahren wird auf ROMs abgespeichertenOriginalsounds von echten Instrumenten zurückgegriffen. Dadurch wird ein nahezuauthentischer Klang ermöglicht (vergleiche Holzinger, 2000).

Page 24: Proseminar: Technikpsychologie I W S 2001/2002

24

8. L iteratur:

Födermayr, F. (1994). Grundlagen der vergleichend-systematischen Musikwissenschaft.

Lernbehelf zur Vorlesung. Institut für Musikwissenschaft, Universität Wien.

Holzinger, A. (2000). Basiswissen Multimedia: technologische Grundlagen multimedialerInformationssysteme. Band 1: Technik. Würzburg: Vogel.

Kalat, J. W. (1995). Biological Psychology (5th ed.). Cali fornia: Brooks, Cole.

Kühn, C. (1993). Gehörbildung im Selbststudium. Kassel: Bärenreiter.

Zimbardo, P. G. (1995). Psychologie. Berlin: Springer.