Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln...

Gregor ErbachInterprice Technologies

Sprachdialogsystemefür Telefondienste

INHALT

1. Automatische Spracherkennung2. Diktiersysteme und Dialogsysteme3. Grundlagen der Spracherkennung4. Dialogsysteme5. Dialogbeschreibungssprachen6. Sprachausgabe7. Sprechererkennung8. Dialogsystem für Postgebührenauskunft9. Ausblick

AUTOMATISCHE SPRACHERKENNUNG

• Forschungen seit den 50er Jahren• Breiter Kommerzieller Einsatz erst seit einigen Jahren• Grund: fallende Kosten für Prozessorleistung und

Speicherplatz• Spracherkenner können auf PCs als reine Software-

Lösungen realisiert werden

DIKTIERSYSTEME UND DIALOGSYSTEME

Diktiersystem Dialogsystem

Sprecherabhängigkeit

sprecherabhängig bzw. sprecheradaptiv (muss für jeden Sprecher neu trainiert werden)

sprecherunabhängig

Größe des Vokabulars

bis 60.000 Wörter, die immer aktiv sind

einige tausend Wörter, von denen immer nur eine Teilmenge aktiv ist

Art der Eingabe unbeschränkt, auch komplexe Sätze sind möglich

nur bestimmte Muster werden bei jedem Dialogschritt erkannt

GRUNDLAGEN DER SPRACHERKENNUNG

• Digitalisierung des Sprachsignals• Signalanalyse: Verteilung der akustischen Energie über

Frequenz und Zeit• Vergleich mit gespeicherten Mustern (akustische

Modelle)• Auswahl der am besten passenden Muster durch

sprachliches Wissen und Weltwissen

SIGNALANALYSE

SCHWIERIGKEITEN DER SPRACHERKENNUNG

• sprecherabhängig - sprecherunabhängig

• Variation der Sprecher (Alter, Dialekt, Gesundheit ...)

• kontinuierliche Sprache

• Vokabulargröße

• Spontansprache

• Umgebungsgeräusche

• gestörte Sprachübertragung

SCHWIERIGKEIT vs. VOKABULAR

10 100 1000 10000 100000 1M

Telefon-anwendung

Diktiersystem

Schwierigkeit

Geräte-steuerung

Sprachwahlim Handy

Vokabular

EVALUATION VON SPRACHDIALOGSYSTEMEN

Maßeinheit Bedeutung Anwendung

Wortfehlerrate (word error rate)

Anteil der vom Benutzer gesprochenen Wörter, die vom System falsch erkannt werden

Beurteilung der Leistungsfähigkeit des Spracherkenners

Erfolgsrate (task success rate)

Anteil der Transaktionen, die der Benutzer erfolgreich zu Ende führt

Beurteilung der Benutzbarkeit von Dialogsystemen

Produktivität Für die Durchführung einer Transaktion benötigte Zeit

Beurteilung der Effizienz für den Benutzer

Benutzer-zufriedenheit

subjektives Maß für die Zufriedenheit mit einem Sprachdialogsystem

Beurteilung des Gesamteindrucks

AUFBAU EINES DIALOGSYSTEMS

Sprach-ausgabe

Dialog-steuerung

Anwendungs-system

Datenbank

Sprach-erkennung

DIALOGINITIATIVE

1. Systeminitiative

• bei Systemen, die nur unregelmäßig benutzt werden

2. Benutzerinitiative

• erfahrene Benutzer können ohne Aufforderungen des Systems Kommandos eingeben

3. gemischte Initiative

• beispielsweise für Rückfragen des Benutzers oder Aktivierung einer Hilfefunktion

• Überbeantwortung von Fragen durch den Benutzer

BARGE-IN

• "Barge-In" ist die Unterbrechung der Ausgabe eines Dialogsystems durch eine neue Eingabe des Benutzers

• Vorteile: – Möglichkeit der Unterbrechung langer Ausgaben (z.B.

umfangreiche Fahrplanauskünfte, Vorlesen von e-mail)

– Zeitersparnis durch schnellere Beantwortung von Fragen

• Probleme:– Unterbrechung der Systemsausgabe durch

Störgeräusche und Störung des Dialogablaufs

VERIFIKATION

• Verifikation ist Bestätigung von Benutzereingaben• Explizite Verifikation: Eingabe muss ausdrücklich

bestätigt werden.• Implizite Verifikation: Eingabe wird wiederholt und gilt

als akzeptiert, wenn der Benutzer nicht widerspricht.

Explizite Verifikation Implizite Verifikation

System (S): Wollen Sie ein Paket oder eine Briefsendung schicken?Benutzer (B): ein Paket S: Sie wollen also ein Paket schicken? B: ja

S: Wollen Sie ein Paket oder eine Briefsendung schicken B: ein Paket S: In welches Land wollen Sie das Paket schicken? B: nein, kein Paket sondern einen Brief

DIALOGBESCHREIBUNGSSPRACHEN

• Programmierung des Dialogablaufs ist ein kritischer Faktor bei der Entwicklung von Dialogsystemen

• Drei Ansätze für die Programmierung von Dialogsystemen:– VoiceXML– Bedingung-Aktion-Regeln– SpeechObjects

VoiceXML

• Mit VoiceXML können Sprachdialogsysteme spezifiziert werden.

• VoiceXML ist eine XML-Applikation und wird durch eine DTD (Document Type Description) definiert.

• Dialogführung durch "slot-filling" (Form Interpretation Algorithm)

• Verarbeitung ist mit dem Ausfüllen von Formularen in HTML-Seiten vergleichbar.

• VoiceXML ist beim WWW Consortium als Standard eingereicht worden und wird von zahlreichen Firmen unterstützt.

VoiceXML: Beispiel

<?xml version="1.0"?><vxml version="1.0"> <form> <field name="drink"> <prompt>Would you like coffee, tea, milk, or nothing?</prompt> <grammar src="drink.gram" type="application/x-jsgf"/> </field> <block> <submit next="http://www.drink.example/drink2.asp"/> </block> </form></vxml>

VoiceXML Beispieldialog

S (System): Would you like coffee, tea, milk, or nothing?B (Benutzer): Orange juice.S: I did not understand what you said.S: Would you like coffee, tea, milk, or nothing?B: TeaS: (setzt den Dialog mit dem VoixeXML-Programm

drink2.asp fort)

Bedingung-Aktion-Regeln in HDDL

• HDDL wird im Dialogsystem SpeechMania von Philips verwendet

• Eine HDDL-Regel besteht aus einem Bedingungsteil (COND) und einem Aktionsteil

• Slot-filling kann mit HDDL leicht realisiert werden• Überbeantwortung kann gut behandelt werden

Beispiel: Bedingung-Aktion-Regel

COND( art == "paket" && !^gewicht )

QUESTION(gewicht)

"Geben Sie bitte das Gewicht des Pakets an";

SpeechObjects

• SpeechObjects sind wiederverwendbare Dialogmodule• SpeechObjects erfüllen bestimmte Funktionen wie

Abfrage von Datum und Uhrzeit oder Abfrage einer Kreditkartennummer

• Fehlerbehandlung und Verifikation ist in den SpeechObjects eingebaut

• Entwickler können eigene Bibliotheken von wiederverwendbaren SpeechObjects aufbauen

SPRACHAUSGABE

• Gesprochene vs. synthetisierte Ausgaben• Gesprochene Ausgaben werden von Benutzern besser

akzeptiert.• Beim Zusammensetzen von Sprachaufnahmen auf

fließende Übergänge achten.• Bei großem oder häufig wechselndem Vokabular ist

Sprachsynthese unvermeidlich.• Evaluation von Sprachsynthese nach den Kriterien der

Verständlichkeit und Natürlichkeit

SPRECHERERKENNUNG

• Sprecherverifikation: Identität eines Sprechers überprüfen

• Sprecheridentifikation: Erkennung eines Sprechers aus einer Anzahl möglicher Sprecher

• Evaluation anhand der Verhältniszahlen "falsche Akzeptanz" und "falsche Zurückweisung"

• Ein Maß kann auf Kosten des anderen verbessert werden

• Wird große Sicherheit gefordert, muss Sprecherer-kennung mit anderen Verfahren (Passwort, Chipkarte ...) kombiniert werden

DIALOGSYSTEM FÜR POSTGEBÜHREN

• Technische Basis– Philips SpeechMania mit österreichischen

akustischen Modellen– Windows NT 4.0– Pentium III (Minimum: Pentium II, 300 MHz)– 256 MB RAM (Minimum: 64 MB)– ISDN-Karte

• Zusammenarbeit zwischen Forschungszentrum Tele-kommunikation Wien (ftw.) und Österreichische Post AG

KRITERIEN BEIM SYSTEMENTWURF

• Hauptsächlich Gelegenheitsnutzer• Dialogführung durch das System• Überbeantwortung ist möglich• Kein Barge-In

ENTWICKLUNGSPROZESS

• Rapid Prototyping, Spezifikation der Anforderungen• Definition des Dialogflusses• Wizard-of-Oz Experiment• Erstes System mit vollständiger Preisauskunft• Interne Tests• Optimierung der Funktionalität• Tests mit externen Benutzern• Weiterentwicklung des Systems• Interne Tests• Externe Tests

DIALOGBEISPIEL (Teil 1)

S1 (System): Möchten Sie ein Paket oder eine Briefsendung verschicken?

B2 (Benutzer): eine BriefsendungS3: Möchten Sie|den Brief|ins Inland oder ins Ausland

verschicken?B4: ins AuslandS5: In welches Zielland wollen Sie|den Brief|schicken?B6: nach ItalienS7: Soll der Brief|nach Italien|als Priority versendet

werden?B8: nein danke bitte ich richtig (nein danke, das ist nicht

nötig)S9: Bitte geben Sie das Gewicht des Briefes an

DIALOGBEISPIEL (Teil 1)

B10: Niue Chile Sudan Bermuda zwanzig Gramm (na ich schätz so zwei hundert zwanzig Gramm)

S11: nach Italien|sind folgende Sonderbehandlungen zulässig: Einschreiben, Eilsendung und Nachnahme. Wollen Sie eine dieser Sonderbehandlungen nutzen, wenn ja, welche?

B12: nein richtig bitte kostet hier (nein das ist mir zu kompliziert)

versendet wird, kostet|7|SchillingS15: Benötigen Sie eine weitere Auskunft?B16: nein danke

AUSBLICK

• Verbindung von Sprachdialog und Multimedia in 3G-Anwendungen (GPRS, UMTS)

• Kombination von Spracheingabe und Zeigen auf den Bildschirm

• Kombination von Sprachausgabe und animierter Graphik oder Video

• Anpassung an Benutzer und Kommunikationssituation• Multimodale Dialoge für e-commerce

(www.interprice.com)

Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln...

Documents

Konzertnachmittag - Kiwanis Club Erbach/Odenwald · 2015-02-01 · Konzertnachmittag „Odenwälder Talente“ Der Kiwanis Club Erbach/Odenwald präsentiert Pause „Suggestion“

- Thema: Gregor Mendel: der Begründer der …...zu haben) war Gregor Mendel. Er gilt als Begründer der klassischen Genetik. Um das Wissen über Gregor Mendel zu wiederholen, dient

Von Manfred Uhrig, 16. August 2010 Regelmäßige Aktivitäten des RC Erbach-Michelstadt

Gregor Hartmann Verdufte

burkle-hahnemann.com · Wettbewerbsergebnisse 30 - 9/1993 Städtebaulicher Ideen- und Realisierungswettbewerb zur Neugestaltung der Ortsmitte Erbach Auslober: Gemeinde Erbach

II - Gregor & Taube

Die Sportlerehrung des Odenwaldkreises am 15. Juni 2018 in ...€¦ · Adrian Knapp, Breuberg Ju-Jutsu Silber JC Erbach Geehrt werden aus Erbach . Seite 24 Tanika Rundel, Oberzent

Gregor Kaiser: Lizenzen für Saatgut

Die Märchen des Gregor Marcovitsch

EWU -Tu rnie r: B Erbach - westernreiter.comwesternreiter.com/wp-content/uploads/2016/...Erbach-20.-23.07.2017.pdf2 166 Volmer, Katharina HES 22374 GW Specialist Glo 24115 4 69 3445

Coban, Sappho - polizei.rlp.de · 13 1 Gregor, Sarah min 2 Gregor, Sarah 11 Habermann, Ronja Gregor, Sarah 3 Gärner, Kristin 4 Bazynski, Michelle 12 Bazynski, Michelle Gregor, Sarah

Artikel Gregor Zoller

AEM Technologies Holding AG The Embedded Solution House Integration von Embedded Computing Technologies und Security Solutions AEM Technologies Holding

GREGOR - aip.de · 1 GREGOR Perspektiven für die deutsche Sonnenforschung Carsten Denker Sonnenobservatorium Einsteinturm Optische Sonnenphysik 5. November 2007

Wanted Technologies (WT) – Erfolgsfaktor für komplexe ...wanted-technologies.de/Über+uns/Was+ist+Wanted+Technologies/_/Fluid_VT... · Wanted Technologies (WT) – Erfolgsfaktor

© QuadraVis.de – Erbach Michael Lendvay Marketing

(Hrsg.) | Gregor Slavicek

Gregor Johann Mendel (1822-1884)

Gregor der Grosse - Cisterciácký klášter Vyšší Brod · GREGOR DER GROSSE (540 – 604) BIBLISCHE MYSTIK UND MISSIONARISCHE AKTION Gregor, Mönch und Papst, Biograph des heiligen

Thalia-Ensemble verblüfft mit Präzision Erbach.pdf · Schwäbische Zeitung ERBACH/SCHELKLINGEN/OBERDISCHINGEN/ÖPFINGEN Dienstag, 29. Juli 2014 Bäder Erbach Badesee, 9-20 Uhr Büchereien