Upload
agneth-dreher
View
102
Download
0
Embed Size (px)
Citation preview
Was sind einige der effektivsten Formen der
Stimmverstellung?
LMU München – WiSe 2007/ 08
Hauptseminar: Forensische Phonetik
Dozent: Prof. Dr. Jonathan Harrington
Referentin: Aysen Demir
Datum: 08.01.2008
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Sprecher und Spektrogramme
40 erwachsene, männliche Sprecher (Durchschnittsalter: 27,3Jahre)
2 Sitzungen für Aufnahmen: - Reihe von 4 Sätzen für 1.Sitzung
- andere Reihe von 3Sätzen für 2.Sitzung
9 Schlüsselwörter in diesen Sätzen: it, is, on, you, and, the, I, to, me
6 verschiedene Arten der Stimmverstellung:
1.normal, 2.alt, 3.heiser, 4.hypernasal, 5.extrem langsam, 6.freie Wahl
Sprachaufnahmen in schalldichtem Raum
Breitband – Spektrogramme (Frequenzbereich 80-8000Hz)
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Aufbau des Experiments
4 unabhängig arbeitende spektrografische Untersucher
(2 Sprachwissenschaftler + 2 Sprachpathologen) erhielten ca. 4 Wochen Training (10-15h/Woche)
Identifikations- Diskriminationsaufgaben 30 Sprecher willkürlich in Sprechergruppe 1 + 2 aufgeteilt Ausstattung der Untersucher mit 15bekannten („Referenz-“)
Spektrogrammen (unverstellte Schlüsselwörter aus 2.Sitzung) Repräsentation v.15unbekannten („matching“) Spektrogrammen
(verstellte/ unverstellte Schlüsselwörter aus 1.Sitzung) 7 verschiedene Arten v. „matching tasks“:
1.unverstellt-unverstellt, 2.alt-unverstellt, 3.heiser-unverstellt, 4.hypernasal-unverstellt, 5.extrem langsam-unverstellt, 6.freie Wahl-unverstellt, 7.willkürlich gewählte Verstellung-unverstellt
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Aufbau des Experiments
Nur 11 v.15 unbekannten Spektrogrammen passten zu gegebenen 15 bekannten Spektrogrammen (4 „non-matches“ in jeder Aufgabe des Experiments)
Einschätzung und Bewertung folgender Faktoren: Entscheidungssicherheit auf 5 Pkt.- Skala
(1: „sehr unsicher“, 5: „sehr sicher) Schwierigkeitsgrad der 7 Aufgabenarten auf 7Pkt.- Skala
(1: „nicht sehr schwer“, 7: „sehr schwer“) Nützlichkeit der 9 Stimulus- Wörter für Identifikation der Sprecher auf
7Pkt.- Skala
(1: „nicht sehr nützlich“, 7: „sehr nützlich“)
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Aufgaben- und Untersucherunterschiede Tabelle 1: Durchschnitt korrekter Identifikationen v. jeder
Stimmverstellung Zeigt, dass unverstellte Stimme signifikant höhere, korrekte Prozentzahlen
hat als die anderen Verstellungen Nasale und langsame Sprechweise die am wenigsten effektiven
Verstellungen, während freie Wahl am effektivsten
Tabelle 1
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Aufgaben- und Untersucherunterschiede Tabelle 2: Durchschnitt korrekter Identifikationen v. jedem Untersucher
AI signifikant besser als die übrigen Untersucher Anderen drei Untersucher unterscheiden sich nicht bedeutsam
voneinander
Tabelle 2
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Aufgaben- und Untersucherunterschiede Tabelle 3: Durchschnitt korrekter Identifikationen v. jeder
Stimmverstellung mit Entscheidungssicherheit v. 3, 4 und 5 Ausschluss v. Entscheidungen mit geringer Sicherheitseinschätzung
veränderte Wert der gesamten Entscheidungen nicht merklich Selbe Muster v. Unterschieden wie bei gesamten Entscheidungen der
Untersucher Unverstellte Stimme hat signifikant höheren Durchschnitt v. korrekten
Identifikationen Nasal und langsame Sprechweise am uneffektivsten, während freie Wahl
am effektivsten
Tabelle 3
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Sprecherunterschiede 6 Stimmverstellungen, die verstellte Sprache beinhalteten wurden
zusammengelegt, um Durchschnittswert v. korrekten Identifikationen für alle 30Sprecher zu erhalten
Ermittlung, ob Sprecherunterschiede hauptsächlich mit Einfachheit der Stimmverstellung oder mit gesamter Sprechererkennbarkeit zusammenhängen: Vergleich des Sprecherdurchschnitts für vereinte verstellte und unverstellte Stimmen
Bestimmte Sprecher schwieriger identifizierbar in verstellten und unverstellten Sprechweisen
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Fehlerartverteilung In Identifikations- Diskriminationsaufgaben für Sprecheridentifizierung
3Arten von Fehlern möglich: 1. Fehler ID: Verstellung existierte, aber Untersucher wählte falsche
(falsche Identifizierung) 2. Fehler EL: Verstellung existierte, aber Untersucher erkannte sie nicht
( falsche Eliminierung) 3. Fehler INC: Verstellung existierte nicht, aber Untersucher wählte sie
(falsche Einbeziehung) Untersuchung der Fehlerartverteilung durch Analyse der
Wechselwirkungen zw. Verstellungsart, Fehlerart und Untersucher: Wechselwirkung v. Verstellung + Fehlerart: Verteilung der Fehlerarten
abhängig v. bestimmten Verstellungen Wechselwirkung v. Fehlerart + Untersucher: Fehlerartverteilung gemäß der
Tätigkeit eines bestimmten Untersuchers variierte-> Untersucher hatten „charakteristische“ Arten Fehler zu machen
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Wahrgenommene Schwierigkeit der Stimmverstellung Tabelle4: Durchschnitt der empfundenen Stimmverstellungsschwierigkeit
Untersucher fanden bestimmte Verstellungen schwieriger Unverstellte Stimme am einfachsten Nasal wurde unter verstellten Stimmen am leichtesten empfunden Freie Wahl, willkürlich gewählte Verstellung und heiser am schwierigsten
-> diese Ergebnisse bestätigen Ergebnisse aus Tab.1:
je schwieriger Untersucher Verstellungen empfanden, desto niedriger war ihre Leistung in Identifikation dieser Verstellungen
Tabelle 4
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Ergebnisse
Empfundene Nützlichkeit der Schlüsselwörter für Sprecheridentifikation Tabelle5: Durchschnitt der empfundenen Nützlichkeit jedes Stimulus- Wortes
Untersucher empfanden bestimmte Wörter nützlicher als andere für Sprecheridentifikation
Offensichtlich, dass Stimulus- Wörter, die nasale Phoneme enthalten
(z.B. me, on, and), für ziemlich nützlich für Sprecheridentifikation gehalten wurden
Tabelle 5
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Diskussion
Verringerung in Sprecheridentifizierung reichte v. 14,17%(langsam) bis 35%(freie Wahl) zeigt, dass spektrografische Sprecheridentifizierung durch Versuche die Stimme zu verstellen beeinflusst wird
Interessant, dass nur Ausführung eines Untersuchers sich bedeutsam v. dem der anderen unterschied -> Übung der Untersucher relativ gleich; Untersucher AI besaß vermutlich vor Übungsprogramm ähnliche Sprachanalysefähigkeiten
Fehlen bedeutsamer Wechselwirkung zw. Verstellung und Untersucher zeigt Einheitlichkeit der Übungsprozeduren für alle Verstellungen und Untersucher
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Diskussion
Bestimmte Stimmverstellungen weniger effektiv als andere nasal eine der uneffektivsten Verstellungen
Energiespektrum während nasaler Phonation stark sprecherabhängig Koartikulierte Nasalspektra liefern verlässlichere Hinweise für
Identifizierung als Nasalspektra allein -> mag empfundene Nützlichkeit v. nasalen Schlüsselwörtern erklären
langsam: relative Unwirksamkeit dieser Verstellung Relativ unveränderte spektrale Hinweise Vokal- und Wortdauern merklich erhöht -> direkte Beziehung zw.
Durchführung der Sprecheridentifizierung und der Dauer des Hinweismaterials hatten möglicherweise vereinfachenden Einfluss
alt und heiser: geringer Durchschnittswert richtiger Identifikationen Signifikanter Wechsel in relativer Anzahl und Verteilung der „glottal zeros“
und „masking“- Effekte von der hohen Geräuschenergie
1. Effekte von Stimmverstellung auf spektrografische Sprecheridentifizierung
Diskussion
Willkürlich gewählte und freie Wahl v. Verstellung: Merkliche Verschlechterung der Sprecheridentifizierbarkeit durch mehrere
verschiedene Verstellungen innerhalb einer Versuchsaufgabe Große Entscheidungsschwierigkeiten der Untersucher, welche Hinweise zu
ignorieren und welche zu berücksichtigen sind Interessant, dass Schwierigkeit verschiedener Verstellungen ziemlich
realistisch empfunden wurden bestärkende Bedeutung der hohen Wechselwirkung zw. Einschätzung
der Verstellungsschwierigkeit und den falschen Identifikationen Urteil, dass bestimmte Schlüsselwörter nützlicher waren als andere für
Sprecheridentifizierung, hat wichtige Bedeutung falls bestimmte Wörter tatsächlich wirksame Hinweise für
spektrografische Sprecheridentifizierung sind, könnten diese Wörter in Polizeiinterviews hervorgelockt werden
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Sprecher und Stimulus Materialien
40 erwachsene, männliche Sprecher (Durchschnittsalter: 27,3Jahre) 2 Sitzungen für Aufnahmen: - Reihe von 4 Sätzen für 1.Sitzung
- andere Reihe v. 3 Sätzen für 2.Sitzung 9 Schlüsselwörter in diesen Sätzen: it, is, on, you, and, the, I, to, me 6 verschiedene Arten der Stimmverstellung:
1.normal, 2.alt, 3.heiser, 4.hypernasal, 5.extrem langsam, 6. frei Wahl Aufnahmen in schalldichtem Raum Aufgenommene Sätze auf folgende Art angeordnet, um 480
Paardiskriminationsversuche herzustellen: 1.Glied des Stimulus- Paares unverstellter Satz aus 2.Sitzung 2.Glied verstellter/ unverstellter Satz aus 1.Sitzung
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Sprecher und Stimulus Materialien
Jeder Sprecher durch 12unverstellte Sätze aus 2.Situng repräsentiert, die 2 mal mit jeden 6Sprechweisen aus 1.Sitzung paarweise angeordnet wurden
Hälfte der Stimuluspaare v. selben Sprechern („matches“) und andere Hälfte v. 2 verschiedenen Sprechern produziert („nonmatches“)
Alle Sprechweisen gleichermaßen in match- und nonmatch- Versuchen repräsentiert
Insg. 480 Satzpaare (40Sprecher* 6Sprechweisen* 1match* 1nonmatch) 120 Stimuluspaare v.10 willkürlich gewählten Sprechern für Übung
verwendet Restl. 360 Satzpaare dann willkürlich 3 Tonbändern für eigentliches
Experiment zugewiesen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Übungsprozeduren
2 Hörergruppen wurden trainiert für Sprecherdiskriminationsaufgaben: Naive Gruppe v. Studenten Anspruchsvolle Gruppe v. 3 Doktoranten und Professoren der Sprech- und
Hörwissenschaften Übung beinhaltete 120 Paardiskriminationsversuche 2 Sätze pro Stimuluspaar 1,5s voneinander getrennt und gefolgt v. 7s
Antwortintervall Hörer mussten entscheiden, ob 2 Sätze ähnlich genug waren, um v. selben
Sprecher produziert worden zu sein oder Gegenteil Gleich-/ Unterschiedlich – Urteile jedes Versuchs auf Antwortbögen
festgehalten Hörer mussten Entscheidungszuversicht auf 5Pkt.- Skala einschätzen
(1: „sehr unsicher“ , 5: „sehr sicher“)
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Experimentsablauf
Bestand aus 360 Paardiskriminationsaufgaben
Experimentelle Hören in 3 aufeinanderfolgenden, tägl. 45min.- Sitzungen mit 120 Satzpaaren pro Sitzung durchgeführt
Stimuluspaare über Kopfhörer (Telephonics TDH-39 in an MX-41/AR cushion) präsentiert
Jeder Hörer arbeitete unabhängig und schätzte seine Sicherheit ein
2 Tage darauf musste anspruchsvolle Gruppe Stimuluspaare 1-40 auf 2.experimentellem Tonband wiederholen, um zu einigen Messungsverlässlichkeiten v. „Test- Retest“ zu gelangen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
„Test- Retest“- Reliabilität Tabelle 6: „Test- Retest“- Übereinstimmungen für anspruchsvolle Gruppe,
die 40 Stimuluspaare wiederholt beantwortet haben Durchschnittswert der Übereinstimmung für die 6 Hörer: 82,5%
Tabelle 6
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Verteilungseffekte Tabelle 7: Durchschnittswerte korrekter Entscheidungen für jede
Sprechweise und Hörergruppe Unverstellte Sprechweise signifikant höhere Werte als andere Sprechweisen Für naive Hörer nasal und frei Verstellung effektivsten Verstellungen Für anspruchsvolle Hörergruppe nur nasal bedeutsam effektiver als
bestimmte andere Verstellungen
Tabelle 7
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Verteilungseffekte Tabelle 8: Durchschnittswerte korrekter Entscheidungen für jede
Sprechweise und Hörergruppe mit Sicherheitsrate v. 3, 4 und 5 Naive Hörer: unverstellte Sprechweise höhere Werte als alle anderen und
nasal und freie Verstellung effektivste Verstellung Anspruchsvolle Hörer: unverstellte Sprechweise bedeutsam höhere Werte
als nasal, langsam und freie Verstellung
Tabelle 8
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Verteilungseffekte
Ausschluss der Entscheidungen mit geringer Sicherheitseinschätzungsrate würde nicht zu bedeutsam höheren korrekten Werten führen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Fehlerartverteilung
Bei Diskriminationsversuchen 2 Fehlerarten möglich: 1. falsche Identifizierung: Hörer entscheidet, dass beide „samples“ zum
selben Sprecher gehören, obwohl sie v. 2 verschiedenen sind
2. falsche Eliminierung: Hörer entscheidet, dass „samples“ zu 2 verschiedenen Sprechern gehören, obwohl sie vom selben Sprecher produziert wurden
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Fehlerartverteilung Tabelle 9: Prozentzahlen falscher Identifikationen und falscher
Eliminierungen für jede Sprechweise, Übungs- und Experimentaufgaben beider Hörergruppen Unverstellte Sprechweise hat höhere Prozentzahl an falschen
Identifikationen als verstellten Sprechweisen
-> Hörer antworteten bei verstellten Sprechweisen vorsichtiger, d.h. sie wollten Sprecher nicht falsch identifizieren, wenn einer der Sätze verstellt war
-> wurde dadurch bestärkt, dass verstellte Sprechweisen im Experiment geringere falsche Identifikationen aufwiesen als in den Übungen
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Fehlerartverteilung Tabelle 9
Tabelle 9
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Fehlerartverteilung Tabelle 10: Prozentzahlen falscher Identifikationen und falscher
Eliminierungen für jede Sprechweise, Übungs- und Experimentaufgaben beider Hörergruppen mit Sicherheitseinschätzungen v. 3, 4 und 5 Zeigt, dass Befunde aus Tabelle 9 zu selbem Grad bestehen bleiben,
wenn falsche Entscheidungen mit geringer Sicherheitseinschätzung ausgeschlossen werden
Langsame Sprechweise für beide Gruppen und nasale Verstellung für anspruchsvolle Gruppe zeigen größere Prozentzahlen v. falschen Identifikationen als falsche Eliminierungen
Anspruchsvolle Gruppe zeigte große Zunahme v. falschen Identifikationen v. unverstellter Sprechweise nach der Übung im eigentlichen Experiment
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Fehlerartverteilung Tabelle 10
Tabelle 10
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Ergebnisse
Sicherheitseinschätzungen
Unverstellte Sprechweise bedeutsam höhere Sicherheitseinschätzung (ca.4,5) als alle anderen Sprechweisen außer langsame Sprechweise
Verstellte Sprechweise (3,3- 3,8) unterschied sich nicht merklich
Durchschnitte der Sicherheitseinschätzungen und der korrekten Werte der anspruchsvollen Gruppe wurden verglichen
-> es existierte schwache – mäßige Tendenz dafür, dass die Sprechweisen, die höheren Durchschnitt an Sicherheitseinschätzungen hatten, auch höhere korrekte Werte zeigten
2.Effekte von Stimmverstellungen auf die Sprecheridentifizierung durch Hören
Diskussion
Verringerung in Sprecheridentifizierung reichte v. 22,0%(langsam) bis 32,9%(nasal) für die naive Gruppe und für die anspruchsvolle Gruppe von 11,3%(heiser) bis 20,3%(nasal)
Während alle Paardiskriminationsaufgaben mit verstellter Sprechweise die Sprecheridentifikation beeinträchtigten, waren bestimmte Verstellungen effektiver als andere
Nasale Verstellung am effektivsten in dieser Höruntersuchung, wohingegen sie in vorherigen spektrografischen Untersuchung am uneffektivsten war
Freie Verstellung in beiden Untersuchungen (Spektrogramme+ Hören) lieferte Ergebnis einer sehr effektiven Verstellung
Quellen
Reich, A., Moll, K., Curtis, J. (1976). Effects of selected vocal disguises upon spectrographic speaker identification, Journal of the Acoustical Society of America, 60, 919-925.
Reich, A. R. and Duke, J. (1979). Effects of selected vocal disguises upon speaker identification by listening. Journal of the Acoustical Society of America, 66, 1023-1028.
Danke für die Aufmerksamkeit