Was sind einige der effektivsten Formen der Stimmverstellung? LMU München – WiSe 2007/ 08 Hauptseminar: Forensische Phonetik Dozent: Prof. Dr. Jonathan

Was sind einige der effektivsten Formen der

Stimmverstellung?

LMU München – WiSe 2007/ 08

Hauptseminar: Forensische Phonetik

Dozent: Prof. Dr. Jonathan Harrington

Referentin: Aysen Demir

Datum: 08.01.2008

1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung

Sprecher und Spektrogramme

40 erwachsene, männliche Sprecher (Durchschnittsalter: 27,3Jahre)

2 Sitzungen für Aufnahmen: - Reihe von 4 Sätzen für 1.Sitzung

- andere Reihe von 3Sätzen für 2.Sitzung

9 Schlüsselwörter in diesen Sätzen: it, is, on, you, and, the, I, to, me

6 verschiedene Arten der Stimmverstellung:

1.normal, 2.alt, 3.heiser, 4.hypernasal, 5.extrem langsam, 6.freie Wahl

Sprachaufnahmen in schalldichtem Raum

Breitband – Spektrogramme (Frequenzbereich 80-8000Hz)



Aufbau des Experiments

4 unabhängig arbeitende spektrografische Untersucher

(2 Sprachwissenschaftler + 2 Sprachpathologen) erhielten ca. 4 Wochen Training (10-15h/Woche)

Identifikations- Diskriminationsaufgaben 30 Sprecher willkürlich in Sprechergruppe 1 + 2 aufgeteilt Ausstattung der Untersucher mit 15bekannten („Referenz-“)

Spektrogrammen (unverstellte Schlüsselwörter aus 2.Sitzung) Repräsentation v.15unbekannten („matching“) Spektrogrammen

(verstellte/ unverstellte Schlüsselwörter aus 1.Sitzung) 7 verschiedene Arten v. „matching tasks“:

1.unverstellt-unverstellt, 2.alt-unverstellt, 3.heiser-unverstellt, 4.hypernasal-unverstellt, 5.extrem langsam-unverstellt, 6.freie Wahl-unverstellt, 7.willkürlich gewählte Verstellung-unverstellt


Aufbau des Experiments

Nur 11 v.15 unbekannten Spektrogrammen passten zu gegebenen 15 bekannten Spektrogrammen (4 „non-matches“ in jeder Aufgabe des Experiments)

Einschätzung und Bewertung folgender Faktoren: Entscheidungssicherheit auf 5 Pkt.- Skala

(1: „sehr unsicher“, 5: „sehr sicher) Schwierigkeitsgrad der 7 Aufgabenarten auf 7Pkt.- Skala

(1: „nicht sehr schwer“, 7: „sehr schwer“) Nützlichkeit der 9 Stimulus- Wörter für Identifikation der Sprecher auf

7Pkt.- Skala

(1: „nicht sehr nützlich“, 7: „sehr nützlich“)


Ergebnisse

Aufgaben- und Untersucherunterschiede Tabelle 1: Durchschnitt korrekter Identifikationen v. jeder

Stimmverstellung Zeigt, dass unverstellte Stimme signifikant höhere, korrekte Prozentzahlen

hat als die anderen Verstellungen Nasale und langsame Sprechweise die am wenigsten effektiven

Verstellungen, während freie Wahl am effektivsten

Tabelle 1


Ergebnisse

Aufgaben- und Untersucherunterschiede Tabelle 2: Durchschnitt korrekter Identifikationen v. jedem Untersucher

AI signifikant besser als die übrigen Untersucher Anderen drei Untersucher unterscheiden sich nicht bedeutsam

voneinander

Tabelle 2


Ergebnisse

Aufgaben- und Untersucherunterschiede Tabelle 3: Durchschnitt korrekter Identifikationen v. jeder

Stimmverstellung mit Entscheidungssicherheit v. 3, 4 und 5 Ausschluss v. Entscheidungen mit geringer Sicherheitseinschätzung

veränderte Wert der gesamten Entscheidungen nicht merklich Selbe Muster v. Unterschieden wie bei gesamten Entscheidungen der

Untersucher Unverstellte Stimme hat signifikant höheren Durchschnitt v. korrekten

Identifikationen Nasal und langsame Sprechweise am uneffektivsten, während freie Wahl

am effektivsten

Tabelle 3


Ergebnisse

Sprecherunterschiede 6 Stimmverstellungen, die verstellte Sprache beinhalteten wurden

zusammengelegt, um Durchschnittswert v. korrekten Identifikationen für alle 30Sprecher zu erhalten

Ermittlung, ob Sprecherunterschiede hauptsächlich mit Einfachheit der Stimmverstellung oder mit gesamter Sprechererkennbarkeit zusammenhängen: Vergleich des Sprecherdurchschnitts für vereinte verstellte und unverstellte Stimmen

Bestimmte Sprecher schwieriger identifizierbar in verstellten und unverstellten Sprechweisen


Ergebnisse

Fehlerartverteilung In Identifikations- Diskriminationsaufgaben für Sprecheridentifizierung

3Arten von Fehlern möglich: 1. Fehler ID: Verstellung existierte, aber Untersucher wählte falsche

(falsche Identifizierung) 2. Fehler EL: Verstellung existierte, aber Untersucher erkannte sie nicht

( falsche Eliminierung) 3. Fehler INC: Verstellung existierte nicht, aber Untersucher wählte sie

(falsche Einbeziehung) Untersuchung der Fehlerartverteilung durch Analyse der

Wechselwirkungen zw. Verstellungsart, Fehlerart und Untersucher: Wechselwirkung v. Verstellung + Fehlerart: Verteilung der Fehlerarten

abhängig v. bestimmten Verstellungen Wechselwirkung v. Fehlerart + Untersucher: Fehlerartverteilung gemäß der

Tätigkeit eines bestimmten Untersuchers variierte-> Untersucher hatten „charakteristische“ Arten Fehler zu machen


Ergebnisse

Wahrgenommene Schwierigkeit der Stimmverstellung Tabelle4: Durchschnitt der empfundenen Stimmverstellungsschwierigkeit

Untersucher fanden bestimmte Verstellungen schwieriger Unverstellte Stimme am einfachsten Nasal wurde unter verstellten Stimmen am leichtesten empfunden Freie Wahl, willkürlich gewählte Verstellung und heiser am schwierigsten

-> diese Ergebnisse bestätigen Ergebnisse aus Tab.1:

je schwieriger Untersucher Verstellungen empfanden, desto niedriger war ihre Leistung in Identifikation dieser Verstellungen

Tabelle 4


Ergebnisse

Empfundene Nützlichkeit der Schlüsselwörter für Sprecheridentifikation Tabelle5: Durchschnitt der empfundenen Nützlichkeit jedes Stimulus- Wortes

Untersucher empfanden bestimmte Wörter nützlicher als andere für Sprecheridentifikation

Offensichtlich, dass Stimulus- Wörter, die nasale Phoneme enthalten

(z.B. me, on, and), für ziemlich nützlich für Sprecheridentifikation gehalten wurden

Tabelle 5


Diskussion

Verringerung in Sprecheridentifizierung reichte v. 14,17%(langsam) bis 35%(freie Wahl) zeigt, dass spektrografische Sprecheridentifizierung durch Versuche die Stimme zu verstellen beeinflusst wird

Interessant, dass nur Ausführung eines Untersuchers sich bedeutsam v. dem der anderen unterschied -> Übung der Untersucher relativ gleich; Untersucher AI besaß vermutlich vor Übungsprogramm ähnliche Sprachanalysefähigkeiten

Fehlen bedeutsamer Wechselwirkung zw. Verstellung und Untersucher zeigt Einheitlichkeit der Übungsprozeduren für alle Verstellungen und Untersucher


Diskussion

Bestimmte Stimmverstellungen weniger effektiv als andere nasal eine der uneffektivsten Verstellungen

Energiespektrum während nasaler Phonation stark sprecherabhängig Koartikulierte Nasalspektra liefern verlässlichere Hinweise für

Identifizierung als Nasalspektra allein -> mag empfundene Nützlichkeit v. nasalen Schlüsselwörtern erklären

langsam: relative Unwirksamkeit dieser Verstellung Relativ unveränderte spektrale Hinweise Vokal- und Wortdauern merklich erhöht -> direkte Beziehung zw.

Durchführung der Sprecheridentifizierung und der Dauer des Hinweismaterials hatten möglicherweise vereinfachenden Einfluss

alt und heiser: geringer Durchschnittswert richtiger Identifikationen Signifikanter Wechsel in relativer Anzahl und Verteilung der „glottal zeros“

und „masking“- Effekte von der hohen Geräuschenergie


Diskussion

Willkürlich gewählte und freie Wahl v. Verstellung: Merkliche Verschlechterung der Sprecheridentifizierbarkeit durch mehrere

verschiedene Verstellungen innerhalb einer Versuchsaufgabe Große Entscheidungsschwierigkeiten der Untersucher, welche Hinweise zu

ignorieren und welche zu berücksichtigen sind Interessant, dass Schwierigkeit verschiedener Verstellungen ziemlich

realistisch empfunden wurden bestärkende Bedeutung der hohen Wechselwirkung zw. Einschätzung

der Verstellungsschwierigkeit und den falschen Identifikationen Urteil, dass bestimmte Schlüsselwörter nützlicher waren als andere für

Sprecheridentifizierung, hat wichtige Bedeutung falls bestimmte Wörter tatsächlich wirksame Hinweise für

spektrografische Sprecheridentifizierung sind, könnten diese Wörter in Polizeiinterviews hervorgelockt werden

2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören

Sprecher und Stimulus Materialien

40 erwachsene, männliche Sprecher (Durchschnittsalter: 27,3Jahre) 2 Sitzungen für Aufnahmen: - Reihe von 4 Sätzen für 1.Sitzung

- andere Reihe v. 3 Sätzen für 2.Sitzung 9 Schlüsselwörter in diesen Sätzen: it, is, on, you, and, the, I, to, me 6 verschiedene Arten der Stimmverstellung:

1.normal, 2.alt, 3.heiser, 4.hypernasal, 5.extrem langsam, 6. frei Wahl Aufnahmen in schalldichtem Raum Aufgenommene Sätze auf folgende Art angeordnet, um 480

Paardiskriminationsversuche herzustellen: 1.Glied des Stimulus- Paares unverstellter Satz aus 2.Sitzung 2.Glied verstellter/ unverstellter Satz aus 1.Sitzung


Sprecher und Stimulus Materialien

Jeder Sprecher durch 12unverstellte Sätze aus 2.Situng repräsentiert, die 2 mal mit jeden 6Sprechweisen aus 1.Sitzung paarweise angeordnet wurden

Hälfte der Stimuluspaare v. selben Sprechern („matches“) und andere Hälfte v. 2 verschiedenen Sprechern produziert („nonmatches“)

Alle Sprechweisen gleichermaßen in match- und nonmatch- Versuchen repräsentiert

Insg. 480 Satzpaare (40Sprecher* 6Sprechweisen* 1match* 1nonmatch) 120 Stimuluspaare v.10 willkürlich gewählten Sprechern für Übung

verwendet Restl. 360 Satzpaare dann willkürlich 3 Tonbändern für eigentliches

Experiment zugewiesen


Übungsprozeduren

2 Hörergruppen wurden trainiert für Sprecherdiskriminationsaufgaben: Naive Gruppe v. Studenten Anspruchsvolle Gruppe v. 3 Doktoranten und Professoren der Sprech- und

Hörwissenschaften Übung beinhaltete 120 Paardiskriminationsversuche 2 Sätze pro Stimuluspaar 1,5s voneinander getrennt und gefolgt v. 7s

Antwortintervall Hörer mussten entscheiden, ob 2 Sätze ähnlich genug waren, um v. selben

Sprecher produziert worden zu sein oder Gegenteil Gleich-/ Unterschiedlich – Urteile jedes Versuchs auf Antwortbögen

festgehalten Hörer mussten Entscheidungszuversicht auf 5Pkt.- Skala einschätzen

(1: „sehr unsicher“ , 5: „sehr sicher“)


Experimentsablauf

Bestand aus 360 Paardiskriminationsaufgaben

Experimentelle Hören in 3 aufeinanderfolgenden, tägl. 45min.- Sitzungen mit 120 Satzpaaren pro Sitzung durchgeführt

Stimuluspaare über Kopfhörer (Telephonics TDH-39 in an MX-41/AR cushion) präsentiert

Jeder Hörer arbeitete unabhängig und schätzte seine Sicherheit ein

2 Tage darauf musste anspruchsvolle Gruppe Stimuluspaare 1-40 auf 2.experimentellem Tonband wiederholen, um zu einigen Messungsverlässlichkeiten v. „Test- Retest“ zu gelangen


Ergebnisse

„Test- Retest“- Reliabilität Tabelle 6: „Test- Retest“- Übereinstimmungen für anspruchsvolle Gruppe,

die 40 Stimuluspaare wiederholt beantwortet haben Durchschnittswert der Übereinstimmung für die 6 Hörer: 82,5%

Tabelle 6


Ergebnisse

Verteilungseffekte Tabelle 7: Durchschnittswerte korrekter Entscheidungen für jede

Sprechweise und Hörergruppe Unverstellte Sprechweise signifikant höhere Werte als andere Sprechweisen Für naive Hörer nasal und frei Verstellung effektivsten Verstellungen Für anspruchsvolle Hörergruppe nur nasal bedeutsam effektiver als

bestimmte andere Verstellungen

Tabelle 7


Ergebnisse

Verteilungseffekte Tabelle 8: Durchschnittswerte korrekter Entscheidungen für jede

Sprechweise und Hörergruppe mit Sicherheitsrate v. 3, 4 und 5 Naive Hörer: unverstellte Sprechweise höhere Werte als alle anderen und

nasal und freie Verstellung effektivste Verstellung Anspruchsvolle Hörer: unverstellte Sprechweise bedeutsam höhere Werte

als nasal, langsam und freie Verstellung

Tabelle 8


Ergebnisse

Verteilungseffekte

Ausschluss der Entscheidungen mit geringer Sicherheitseinschätzungsrate würde nicht zu bedeutsam höheren korrekten Werten führen


Ergebnisse

Fehlerartverteilung

Bei Diskriminationsversuchen 2 Fehlerarten möglich: 1. falsche Identifizierung: Hörer entscheidet, dass beide „samples“ zum

selben Sprecher gehören, obwohl sie v. 2 verschiedenen sind

2. falsche Eliminierung: Hörer entscheidet, dass „samples“ zu 2 verschiedenen Sprechern gehören, obwohl sie vom selben Sprecher produziert wurden


Ergebnisse

Fehlerartverteilung Tabelle 9: Prozentzahlen falscher Identifikationen und falscher

Eliminierungen für jede Sprechweise, Übungs- und Experimentaufgaben beider Hörergruppen Unverstellte Sprechweise hat höhere Prozentzahl an falschen

Identifikationen als verstellten Sprechweisen

-> Hörer antworteten bei verstellten Sprechweisen vorsichtiger, d.h. sie wollten Sprecher nicht falsch identifizieren, wenn einer der Sätze verstellt war

-> wurde dadurch bestärkt, dass verstellte Sprechweisen im Experiment geringere falsche Identifikationen aufwiesen als in den Übungen


Ergebnisse

Fehlerartverteilung Tabelle 9

Tabelle 9


Ergebnisse

Fehlerartverteilung Tabelle 10: Prozentzahlen falscher Identifikationen und falscher

Eliminierungen für jede Sprechweise, Übungs- und Experimentaufgaben beider Hörergruppen mit Sicherheitseinschätzungen v. 3, 4 und 5 Zeigt, dass Befunde aus Tabelle 9 zu selbem Grad bestehen bleiben,

wenn falsche Entscheidungen mit geringer Sicherheitseinschätzung ausgeschlossen werden

Langsame Sprechweise für beide Gruppen und nasale Verstellung für anspruchsvolle Gruppe zeigen größere Prozentzahlen v. falschen Identifikationen als falsche Eliminierungen

Anspruchsvolle Gruppe zeigte große Zunahme v. falschen Identifikationen v. unverstellter Sprechweise nach der Übung im eigentlichen Experiment


Ergebnisse

Fehlerartverteilung Tabelle 10

Tabelle 10


Ergebnisse

Sicherheitseinschätzungen

Unverstellte Sprechweise bedeutsam höhere Sicherheitseinschätzung (ca.4,5) als alle anderen Sprechweisen außer langsame Sprechweise

Verstellte Sprechweise (3,3- 3,8) unterschied sich nicht merklich

Durchschnitte der Sicherheitseinschätzungen und der korrekten Werte der anspruchsvollen Gruppe wurden verglichen

-> es existierte schwache – mäßige Tendenz dafür, dass die Sprechweisen, die höheren Durchschnitt an Sicherheitseinschätzungen hatten, auch höhere korrekte Werte zeigten


Diskussion

Verringerung in Sprecheridentifizierung reichte v. 22,0%(langsam) bis 32,9%(nasal) für die naive Gruppe und für die anspruchsvolle Gruppe von 11,3%(heiser) bis 20,3%(nasal)

Während alle Paardiskriminationsaufgaben mit verstellter Sprechweise die Sprecheridentifikation beeinträchtigten, waren bestimmte Verstellungen effektiver als andere

Nasale Verstellung am effektivsten in dieser Höruntersuchung, wohingegen sie in vorherigen spektrografischen Untersuchung am uneffektivsten war

Freie Verstellung in beiden Untersuchungen (Spektrogramme+ Hören) lieferte Ergebnis einer sehr effektiven Verstellung

Quellen

Reich, A., Moll, K., Curtis, J. (1976). Effects of selected vocal disguises upon spectrographic speaker identification, Journal of the Acoustical Society of America, 60, 919-925.

Reich, A. R. and Duke, J. (1979). Effects of selected vocal disguises upon speaker identification by listening. Journal of the Acoustical Society of America, 66, 1023-1028.

Danke für die Aufmerksamkeit

Documents

Was sind einige der effektivsten Formen der Stimmverstellung? LMU München – WiSe 2007/ 08 Hauptseminar: Forensische Phonetik Dozent: Prof. Dr. Jonathan