10.10.2002 Ingmar Steiner: Prosodie und HCI 1
Prosodie und Human-Computer Interaction (HCI)
Ein Überblick über Merkmale, Probleme und Lösungsansätze
HS ProsodieLeitung: Prof. Dr. W. HessSS 2002
10.10.2002 Ingmar Steiner: Prosodie und HCI 2
Aufbau
1. SUI-Design
2. Erkennung von Korrekturen
3. WOZ-Experimente
4. Weitere prosodische Informationen
5. Zusammenfassung
6. Literatur
10.10.2002 Ingmar Steiner: Prosodie und HCI 3
1. SUI Design(Yankelovich 1995)
• Speech User Interface (SUI): Ein- und Ausgabe mittels gesprochener Sprache
• Typischerweise telefonbasierte Anwendungen
• Benutzereingaben entweder durch einzelne Schlüsselwörter (discrete speech) oder natürliche Sprache (continuous speech)
10.10.2002 Ingmar Steiner: Prosodie und HCI 4
SUI-Grundbegriffe
• prompt (explizit vs. implizit)
• cue phrase
• progressive assistance
• directive prompt
• tapered presentation
• barge-in
10.10.2002 Ingmar Steiner: Prosodie und HCI 5
SpeechActs-Beispieldialog• System: You have 14 new messages and 47 old messages. The
first new message is from Eric Baatz regarding “report completed.”• User: Let me hear it.• System: “The first draft is ready for your comments. Eric.”• User: Reply and include the current message.• System: Preparing message to Eric Baatz. Begin recording after
the tone. When finished, pause for several seconds.• User: Eric, I’ll get those to you this afternoon.• System: Say cancel, send, or review.• User: Send.• System: Message sent. What now?• User: Next message.• System: New message two from Stuart Adams, subject “Can we
meet at 3:00 today?”• User: Switch to calendar...
10.10.2002 Ingmar Steiner: Prosodie und HCI 6
Fehlertypen bei der Erkennung
• rejection error
• substitution error (= misrecognition error)
• insertion error
Je mehr Fehler passieren, desto mehr Fehler passieren (error spirals)
10.10.2002 Ingmar Steiner: Prosodie und HCI 7
2. Erkennung von KorrekturenLevow (1998, 1999)
Revidierte Fehlertypen:
• OK (Erkennung korrekt, Handlung korrekt)
• error minor (Erkennung ungenau, Handlung korrekt)
• error (Erkennung fehlerhaft, Handlung nicht korrekt) (=misrecognition error)
• rejection (keine Erkennung, keine Aktion)
10.10.2002 Ingmar Steiner: Prosodie und HCI 8
Beispiel (mit „Debug-Info“)• System Said: Please say mail, calendar, weather, stock quotes or
start over to begin again.• User Said: mail• System Heard: mail <OK>• System Said: Switching to mail. Your first message is ...• User Said: Read message four eight nine• System Heard: "nothing“ <REJECTION>• System Said: Sorry?• User Said: Read message four eight nine• System Heard: "nothing“ <REJECTION>• System Said: Still no luck. Speak clearly, but don’t over emphasize.• User Said: Go to message four eight nine• System Heard: Go to message four please umm <ERROR>• System Said: I heard go to new message 4.
10.10.2002 Ingmar Steiner: Prosodie und HCI 9
Erste Ergebnisse zur Prosodie von Korrekturen
Repetitionen unterscheiden sich durch
• größere Dauer
• längere Pausen
• niedrigere F0 (bei CREs)
• steilere F0-Konturen
• sorgfältigere Artikulation
von den Originaläußerungen.
10.10.2002 Ingmar Steiner: Prosodie und HCI 10
Lösungsversuch per Entscheidungsbaum
Entscheidungsbaum
• erkennt Korrekturversuche und
• paßt den Spracherkenner an die „Korrekturprosodie“ an, mit
• 75% Erfolgsrate
10.10.2002 Ingmar Steiner: Prosodie und HCI 11
Exkurs: Entscheidungsbäume(Breiman 1984)
CART (Classification and Regression Tree)
• Flußdiagramme
• trainierbar
• transparent
10.10.2002 Ingmar Steiner: Prosodie und HCI 12
Beispiel: CART(Salford Systems)
10.10.2002 Ingmar Steiner: Prosodie und HCI 13
3. WOZ-Experimente (Wizard of Oz)(Oviatt 1996, Pirker 1999, Fischer 1999)
Versuchspersonen sollen glauben, sie würden mit einer Maschine interagieren, während heimlich ein Mensch (der „Wizard“) die „Maschine“ steuert.
10.10.2002 Ingmar Steiner: Prosodie und HCI 14
Ergebnisse der WOZ-Experimente
• Oviatt: Wortdauer, mehr und längere Pausen, Amplitude gleich, F0-Minimum niedriger, weniger reduzierte Segmente, weniger disfluencies (Stocken)
• Pirker: Amplitude größer, mehr und längere Pausen, CME steilere F0-Konturen, CRE flachere
• Fischer: Hyperartikulation wird häufiger, individuelle Strategien
10.10.2002 Ingmar Steiner: Prosodie und HCI 15
Ungeschickter WOZ
© Metro-Goldyn-Mayer, Inc.
10.10.2002 Ingmar Steiner: Prosodie und HCI 16
4. Weitere prosodische Informationen
Erkennung von Emotion (Ang 2002):
Sprache Frustrierter Benutzer hat
• längere Dauer
• langsamere Sprechgeschwindigkeit
• große F0-Spanne (pitch range)
bis zu 93% Übereinstimmung bei Erkennung mittels Entscheidungsbaum und Sprachmodell
10.10.2002 Ingmar Steiner: Prosodie und HCI 17
Stille und EOUs(Levow 1997, Shriberg 2002)
Stille und Verzögerungen stören die HCI erheblich.
EOUs (End of Utterance) nicht lexikalisch sondern prosodisch zu erkennen verbessert Genauigkeit und verkürzt Wartezeiten
(4,9% Fehlerrate bei 135 ms Verzögerung)
10.10.2002 Ingmar Steiner: Prosodie und HCI 18
Entscheidungsbaum für EOUs
Wordsequencewith
timemarksRecognizer(1-besthyp)
Pauseduration>DPi ?
Decisiontreefor DPi
andlanguagemodel
Pauseduration>pausethreshold?
Pause?
set i=1
TakethenextDP(i ++)
Classify
asEOU
Score >scorethreshold?
Classify
asEOU
Yes No
No
Yes
Yes
No
wait for thenext frame
wait for thenext frame
wait for thenext frame
Score
No Yes
Acousticsignal
(onlineinput) Prosodicfeatures
computation(only if i=1)
10.10.2002 Ingmar Steiner: Prosodie und HCI 19
Prosodische Erkennung von disfluencies(Shriberg 1997)
Mittels Entscheidungsbäumen automatische Erkennung von:
• filled pauses (z.B. he uh * liked it): 89,7%
• repetitions (z.B. he * he liked it): 77,5%
• repairs (z.B. it was * he liked it): 75,5%
• false starts (z.B. he * she liked it): 74%
10.10.2002 Ingmar Steiner: Prosodie und HCI 20
5. Zusammenfassung
Prosodische Merkmale enthalten wichtige Informationen über
• Korrekturen,
• Emotionen,
• Diskurssteuerung, etc.
Ihre Erkennung erhöht die Qualität von SUIs erheblich und ermöglicht effizientes Arbeiten mit Dialogsystemen.
10.10.2002 Ingmar Steiner: Prosodie und HCI 21
6. Literatur (1)• Ang, J., Dhillon, R., Krupski, A., Schriberg, Elizabeth, & Stolcke, A. (2002)
“Prosody-Based Automatic Detection of Annoyance and Frustration in Human-Computer Dialog”, Proceedings of ICSLP’02, Denver, CO: 2037-2040.
• Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. (1984), Classification and Regression Trees. Wadsworth, Belmont, 1984 [zit. n. Shriberg et. al. (1997)].
• Ferrer, Luciana, Shriberg, Elizabeth & Stolcke, A. (2002), “Is the Speaker Done Yet? Faster and More Accurate End-of-Utterance Detection Using Prosody in Human-Computer Dialog.”, Proceedings of ICSLP’02, Denver, CO: 2061-2064.
• Fischer, Kerstin (1999): “Discourse Effects on the Prosodic Properties of Repetitions in Human-Computer Interaction”, Proceedings of the ESCA International Workshop on Dialogue and Prosody, Veldhoven, Niederlande: 123-128.
10.10.2002 Ingmar Steiner: Prosodie und HCI 22
Literatur (2)• Levow, Gina-Anne (1997): “Making Sense of Silence”, CHI’97 Workshop on
Speech User Interface Design Challenges, Atlanta, GA.
• Levow, Gina-Anne (1998): “Characterizing and Recognizing Spoken Corrections in Human-Computer Dialogue”, Proceedings of COLING-ACL’98, Montréal.
• Levow, Gina-Anne (1999): “Understanding Recognition Failures in Spoken Corrections in Human-Computer Dialog”, Proceedings of the ESCA International Workshop on Dialogue and Prosody, Veldhoven, Niederlande: 193-198.
• Oviatt, Sharon, Levow, Gina-Anne, MacEachern, Margaret, & Kuhn, Karen (1996): “Modeling Hyperarticulate Speech During Human-Computer Error Resolution”, Proceedings of ICSLP’96, Philadelphia, PA.
10.10.2002 Ingmar Steiner: Prosodie und HCI 23
Literatur (3)• Pirker, H. & Loderer, G. (1999): “‘I Said Two Ti-ckets’: How to Talk
to a Deaf Wizard”, Proceedings of the ESCA International Workshop on Dialogue and Prosody, Veldhoven, Niederlande: 181-185.
• Shriberg, Elizabeth, Bates, Rebecca, & Stolcke, A. (1997): “A Prosody-Only Decision-Tree Model for Disfluency Detection”, Proceedings of Eurospeech’97, Rhodos: 2383-2386.
• Yankelovich, Nicole, Levow, Gina-Anne & Marx, M. (1995): “Designing SpeechActs: Issues in Speech User Interfaces”, CHI’95, Denver, CO.
10.10.2002 Ingmar Steiner: Prosodie und HCI 24
Albtraum eines SUI-Entwicklers
+ =