A/D- und D/A-Wandlung A/D-Wandlung = Digitalisierung analoges Signal wird in ein digitales Signal...

Preview:

Citation preview

A/D- und D/A-Wandlung

A/D-Wandlung = Digitalisierunganaloges Signal wird in ein digitales Signal umgewandelt = Sampling und Quantisierung mittels A/D-Wandler (A/D-Converter = ADC)

Auflösung in Bit Geschwindigkeit

um digitale Weiterverarbeitung und Speicherung zu ermöglichen

Gegenstück D/A-Wandlung mittels D/A-Wandler (D/A-Converter = DAC)

Vom analogen zum digitalen Signal

analoges Signal

Abtastung Zeit wird diskret

Quantisierung Werte werden diskret

Abtastung (Sampling)

Input: zeitkontinuierliches und wertekontinierliches Signal

Output: zeitdiskretes, wertekontinuierliches Signal

Abtastrate = Anzahl der Abtastungen pro Sekunde

Abtastrate / Samplingfrequenz

Abtasttheorem

nach Nyquist/Shannon besagt, dass ein analoges Signal nach einer Digitalisierung

wieder vollständig rekonstruierbar ist, wenn die Abtastfrequenz mindestens doppelt so hoch wie die größte enthaltene Signalfrequenz ist

fabtast > 2 fmax sonst tritt Aliasing auf (hohe Frequenzen werden als

niedrigere Frequenzen interpetiert)

für Sprachanalysen übliche Abtastfrequenz: 16 kHz weil das Sprachsignal nur Frequenzen bis etwa 7 kHz enthält

Quantisierung

Quantisierungsfehler

Spektrum

(meist grafische) Darstellung der Eigenschaften eines Signals spektrale Eigenschaften = Energie aller enthaltenen

Frequenzen eines Signals

200 Hz

100 Hz

Spektren verschiedener

Signale

aua

Beispiele Signal und Wasserfallspektrogramm

Beispiel Spektrogramm

Akustische Modelle der Sprachproduktion

Quelle-Filter-Modell

Röhrenmodell

Perturbation Model (Formantverschiebung)

Quelle–Filter–ModellSchematische Darstellung

Quelle-Filter-Modell

Quelle = Anregungssignal oder Primärsignal im Kehlkopf erzeugter Primärschall Grundfrequenz mit ihren Vielfachen (Obertöne, Harmonische) Spektrum ähnelt dem Spektrum der Sägezahnschwingung

(Dämpfung von -12 dB / Oktave) Filter = Artikulationstrakt

Veränderung der Anregungssignals durch Resonanzfrequenzen (Dämpfung bestimmter Frequenzbereiche)

Filterfunktion verändert sich ständig mit der Artikulation(aber: Gesamtverstärkung von +6 dB / Oktave)

Engstellen wirken als zusätzliche Rauschgeneratoren (nicht-periodische Schwingungen)

an den Lippen abgestrahltes Schallsignal = Ergebnis der Faltung von Quellsignal und Filterfunktion

gewöhnlich: spectral slope von –6 dB / Oktave

Quelle-Filter-Modell

Literatur zum Quelle-Filter-Modell

Gunnar Fant (1960): Acoustic theory of speech production

Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation

Röhrenmodell

Modellierung des Vokaltrakts aus Rohrstücken mit verschiedenen Durchmessern

vereinfachtes Röhrenmodell

Annahme: gesamter Vokaltrakt ist eine homogene Röhre von 17cm Länge Durchmesser ist relativ gering zur Länge gleichbleibender Querschnitt Glottis = schallhartes, geschlossenes Ende totale Reflexion Lippen = offenes Ende

Stehende Wellen

entstehen durch Überlagerung von 2 gegenläufigen Wellen (gleiche f, gleiche A) aus 2 Quellen durch Reflexion einer Welle an einem Hindernis

Beispiel: einseitig geschlossenes Rohr geschlossene Seite ist Hindernis Reflexion

Anwendung: Musikinstrumente

Vermeidung: Konzertsaal

Formanten

sind Energiemaxima im Spektrum entstehen aufgrund der Resonanzeigenschaften des

Artikulationstraktes abhängig von Größe und Form des Artikulationstraktes

sind unabhängig von der Grundfrequenz kennzeichnend für Vokale sind der 1. und 2. Formant

bestimmen die Klangfarbe und damit den Vokal sind am stärksten variabel abhängig von Kieferöffnung (F1) und Artikulationsstelle

(vorn-hinten, F2)

Bandbreite Mittenfrequenz wird als Formantfrequenz angegeben

Berechnung des 1. Formanten des schwa-Lautes (im vereinfachten Röhrenmodell)

= 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¼ der Wellenlänge

f = c / λ = 340 m/s : (17cm * 4) = 500 Hz

2. Formant

= 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¾ der Wellenlänge

f = c / λ = 340 m/s : (17cm * 4/3) = 1500 Hz

Rohr mit 1.3.5. stehender Welle

3. Formant sowie alle weiteren

= 3. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei 5/4 der Wellenlänge

F3 = c / λ = 340 m/s : (17cm * 4/5) = 2500 Hz F4 = c / λ = 340 m/s : (17cm * 4/7) = 3500 Hz F5 = c / λ = 340 m/s : (17cm * 4/9) = 4500 Hz

allgemeine Formel: Fn = c (n-1) / 4 L

Dynamische Querschnittsveränderungen

Resonanzfrequenzen des nicht querschnittsneutralen Artikulationstraktes lassen sich nicht wie beim neutralen Rohr veranschaulichen

beim Sprechen: dynamische Veränderungen des Querschnitts beeinflussen die Frequenzen

der Resonanzen Verengung an den Lippen oder

Erweiterung an der Glottis: Absenkung der Frequenz des

1. Formanten

Einfluss lokaler Querschnittsveränderungenauf die Lage der Formanten

nach Tillmann (1980)

Sigma Querschnittsfläche, L Rohrlänge

Formantverschiebung(Perturbation Model)

Erhöhung (+) bzw. Verminderung (-) der ersten drei Formanten aufgrund der Verschiebung der lokalen Verengung des Artikulationstraktes

Spektrale Eigenschaften: Vokale

Formanten Einfluss Kieferöffnung auf 1. Formanten:

große Öffnung hoher F1z.B. / a /

kleine Öffnung niedriger F1z.B. / i /

Einfluss Artikulationsstelle auf den 2. Formanten: vorn an den Lippen hoher F2

z.B. / i / hinten am Rachen niedriger F2

z.B. / u /

Sonagramme i, u, a

Zusammenhang zwischen artikulatorischen und akustischen Eigenschaften der Vokale

Spektrale Eigenschaften: Glides und Liquide

sind Sonoranten und damit den Vokalen sehr ähnlich periodisch, energiereich, aber etwas schwächer als Vokale größter Teil der Energie steckt in den unteren Formanten

Glides = Halbvokale, z.B. /j/ sind transient, haben kürzere stationäre Phase als Vokale

Liquide, z.B. /l/ und /r/ sehr ähnlich zu Vokalen, nur sind ihre Formanten etwas

schwächer /l/ hat Antiresonanz im Bereich von F2-F4

Beispiele Liquide, Glides - Sonagramme

Spektrale Eigenschaften: Nasale

Ähnlichkeit zu Vokalspektren, aber schwächer weil zusätzliche Dämpfung im Nasenraum

Formanten erscheinen nicht nur in 1-kHz-Abständen, sondern etwa alle 850 Hz weil insgesamt größere Länge des Artikulationstraktes F1 bei 250 Hz dominiert, F2 ist sehr schwach, F3 bei 2200 Hz

„Antiformanten“ (keine Energie) zwischen 750-1250 Hz bei /m/ 1450-2200 bei /n/ über 3 kHz bei //

Sprünge im Spektrum bei Zu- und Abschaltung des Nasenraumes (Änderung der

Stellung des Gaumensegels = Velum)

Beispiele Nasale - Sonagramme

Spektrale Eigenschaften: Frikative

Spektren sind sehr verschieden von denen der Sonoranten: aperiodisch geringere Intensität

aufgrund einer starken Verengung im Vokaltrakt, an der starke Verwirbelungen (Turbulenzen) auftreten, die sich in Rauschen äußern

größter Teil der Energie in den hohen Frequenzen

mit oder ohne Stimmbeteiligung voice bar

Stimmlose Frikative

keine Stimmbeteiligung kein Primärschall Rauschquelle im Artikulationstrakt

nur der Teil des Artikulationstraktes, der zwischen Engstelle und Lippenöffnung liegt, wird zum Schwingen angeregt

wenig tieffrequente Anteile im Signal Hochpass-Spektren mit Grenzfrequenz, die ungefähr

umgekehrt proportional zur Länge des angeregten Mundraumes ist

Intensität: palatale Frikative (s, ) sind am energiereichsten dentale und labiale Frikative besitzen die geringste Energie alveolare Frikative liegen dazwischen /h/ hat ebenfalls wenig Energie, da an der Glottis

normalerweise ein schwächeres Rauschen als bei oralen Konstriktionen erzeugt wird

Stimmhafte Frikative

mit Stimmbeteiligung 2 akustische Quellen Primärschall und Rauschen aufgrund der oralen Verengung

Voice-bar (Stimmbalken) = energiereiches Frequenzband bei etwa 150 Hz (F0) und

können Formantstrukturen aufweisen, falls die stimmliche Anregung alle Resonanzen des Vokaltraktes anregt

weitere Eigenschaften: /v/ ist fast periodisch, mit nur geringem Rauschanteil /z/ und // weisen starke Energie besonders im

hochfrequenten Bereich auf (wie /s/ und //)

Beispiele Frikative - Sonagramme

Spektrale Eigenschaften: Plosive

akustisch komplex, kein stationäres Spektrum Phasen:

Verschluss, Burst, (Friktion), Aspiration

Verschlussphase ist entweder ruhig (keine Energie im Spektrum sichtbar) oder deutliche Voicebar (bei stimmhaften Plosiven) meist geringe Energie für 20-120 ms während des

Verschlusses

Phase der Verschlusslösung kurze Geräusch-Explosionsphase

regt alle Resonanzfrequenzen an, am stärrksten die, die denen eines Frikativs am gleichen Artikulationsort entsprechen

Plosive II

Friktionsphase Friktionsgeräusch an der sich öffnenden Verengung für

weitere 10-40 ms (stimmhaft, bei stimmlosen länger) Anregung höherer Resonanzfrequenzen, weil die

Artikulationsposition für den nachfolgenden Sonoranten eingenommen wird

Aspirationsphase normalerweise nur bei stimmlosen Plosiven (kann in einigen

Sprachen auch bei stimmhaften Plosiven auftreten) nicht-aspirierte Plosive weisen bei tiefen Frequenzen geringe

periodische Energie auf

Beispiele Plosive - Sonagramme

Spektralanalyse

Grundlage:jedes beliebige komplexe Signal kann in Komponenten zerlegt werden, die nur aus Sinusschwingungen bestehenSumme der Sinusanteile = Gesamtsignal

Fourier-Analyse:= schrittweises Abtasten des Signals nach Komponentfrequenzen Vorgehen: 1. Fensterung

2. syst. Vergleich mit Sinusschwingungen derFrequenzen, die in das Fenster passen

Abhängigkeit von Frequenz- und Zeitauflösung

Ergebnis: Kurz- oder Langzeitspektrum

Überlagerung von Sinuswellen

Überlagerung von Sinustönen verschiedener Frequenz Addition der Einzeltöne = komplexes Signal

Einfluss der Phasenlage

Spektrogramm

Aneinanderreihung vieler Kurzzeitspektren zusätzlich zeitliche Dimension Darstellung quasi-dreidimensional (oder seltener als

Wasserfallspektrogramm = perspektivisch)

dazu notwendig: viele Spektralanalysen in kurzen, sich leicht überlappenden

Zeitintervallen Fensterung

Ergebnis: je nach gewählter Zeit- und Frequenzauflösung

Schmalbandspektrogramm oder Breitbandspektrogramm

Breitbandspektrogramm zeigt Eigenschaften des

Filters = Resonanzfunktion des Artikulationstraktes Formanten

Schmalbandspektrogramm zeigt Eigenschaften des

Quellsignals = Harmonische

Fensterung

notwendig, weil das Signal (normalerweise) nicht periodisch ist, aber nur periodische Signale per Fourieranalyse in ihre Komponenten zerlegt werden können

Fensterung = zeitliche Aufteilung des Signals in gleich große Abschnitte, von denen jeder als periodisch angesehen wird

Analyse wird für jedes Fenster durchgeführt, sodass für jeden Abschnitt als Ergebnis ein Spektrum vorliegt

Fensterbreite = zeitliche Auflösung bestimmt die Frequenzauflösung (indirekt proportional) nicht frei wählbar muss Zweierpotenz sein

an den Rändern des Fensters kommt es zu Störungen

Fensterfunktionen

Arten Rechteck Dreieck Hamming Hanning Blackman sowie weitere, aber am besten ist Gauß

Kriterien Symmetrie Breite der Hauptkeule (möglichst schmal) Anzahl und Amplituden der Nebenkeulen (mögl. niedrige Ampl.) Maximaler Abtastfehler

Bild Fenstertypen

Recommended