23
4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in Frankfurt/M.

4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

Embed Size (px)

Citation preview

Page 1: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 1

G.-U. Tolkiehn, Tolkiehn & Partner

Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in

Frankfurt/M.

Page 2: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 2

G.-U. Tolkiehn, Tolkiehn & Partner

Inhalte des Vortrags:

Stand der Technik, aktuelle Entwicklungen: Voice-Portale - mehr als nur Automatisierung zur Senkung der Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu Web-Portalen Spracherkennung und –synthese: Perfektionierung, z. B. durch phonetische Transskriptionsverzeichnisse, Grammatiken, KI Konzentration bei den großen Basistechnologie-Anbietern: Wenig Hoffnung auf Preissenkungen

Trends und Perspektiven: Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce erobern Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und Überweisungen - Sprachtechnologie kann viel mehr Immer wichtiger für innovative Lösungen: Software- und Systemhäuser Wie steht es mit plug-and-play-Lösungen für KMU’s?

Page 3: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 3

G.-U. Tolkiehn, Tolkiehn & Partner

Stand der Technik: IVR, Voice-PortaleQuelle: GartnerGroup„The Implicationsof the 2001 CRMHype Cycle“vom 3. 4. 2001

Page 4: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 4

G.-U. Tolkiehn, Tolkiehn & Partner

Kleine Systematik: Elemente von Sprachsystemen Sprachaufnehmende Systeme

Sprache Sprachdaten (Mikrofon, ADC, Codec)

Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet) Sprachdaten Übertragung Sprachdaten

Sprachspeicherung Sprachdaten Speichersystem/-medium Sprachdaten

Sprachanalysierende Systeme Sprache Sprachdaten Text Daten Bedeutung (Spracherkennung (Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation) Geräusche Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-, Besetzt-Erkenner, noise-reduction)

Sprache erzeugende Systeme Daten Text Sprachdaten Sprache (sprechende Systeme, TTS, Reading)

Sprachausgabesysteme Sprachdaten Sprache (Codec, DAC, Lautsprecher)

Page 5: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 5

G.-U. Tolkiehn, Tolkiehn & Partner

Sprachaufnehmende und -ausgebende Systeme

„der“ Standard: „Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder neuerdings: GSM-Qualität Endgerät „knochenförmig“, schnurgebunden oder schnurlos Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche Funktionstasten, meist kleines alphanumerisches Display, andere Bauformen sind möglich (Headset, Speakerphone, Soundkarte), jedoch bisher nur in Nischen verbreitet Umwandlung von Sprache in Sprachdaten und umgekehrt

besondere Qualitäten: Höhere Bandbreiten, zusätzliches Video, Außenmikrophone ...

Page 6: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 6

G.-U. Tolkiehn, Tolkiehn & Partner

Bereiche der Sprachqualität

Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000

GSM

Voice over Internet

ISDN

Page 7: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 7

G.-U. Tolkiehn, Tolkiehn & Partner

Sprachspeicher, Verwendung in Systemen

ADC DEE DÜE DEE DACNetz

DÜE

Sprachspeicher

Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP, als Komponenten von:• Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN)

• Voice-Logging-Systemen im (öffentlichen) Netz • Voice-Message-Systemen im (öffentlichen) Netz• Voice-Message-Systemen auf der Teilnehmerseite• Anrufbeantwortern (analog und digital, beim B-Teilnehmer)• Benachrichtigungssystemen (outbound)• Ansagesystemen, IVR-Systemen, auto-attendants, voice portals

E/A-Elementeund UI

E/A-Elementeund UI

Page 8: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 8

G.-U. Tolkiehn, Tolkiehn & Partner

Sprachanalysierende Systeme (ASR) Spracherkennung

• Diktiersysteme (Sprache Text, großer Wortschatz, i.d.R. sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten)

• Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise: – Sprache Text Daten oder – Sprache Text einfache Grammatik Daten,

• meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“

Sprach-Authentifizierung• Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000)• Sprechererkennung (ebenfalls 1 aus einige 1000)

Geräuschanalyse• DTMF-Erkennung für Dialogsysteme mit Sprachausgabe• Pausen-Erkenner zur Datenkompression• grunt-detection, AB-Erkennung, Besetzt-Erkenner• noise- und distortion-Analyse und -Reduktion

Page 9: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 9

G.-U. Tolkiehn, Tolkiehn & Partner

Spracherzeugende Systeme

Umwandlung von Textdaten oder anderen nicht-Sprachdaten in Sprachdaten Anwendung:

Reading (TTS, Vorlesen von gespeichertem Fließtext) Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft)

Funktionen: ggf. Textgenerierung (Komponente von NL-Dialogsystemen, erfordert semantische und grammatische Synthese) Umwandlung von Text in Phonem-Fluss, heute mit Betonung und Tonhöhenverlauf (erfordert eine „relativ einfache“ Grammatikevaluation) Umwandlung des Phonemflusses in Sprachdaten

Page 10: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 10

G.-U. Tolkiehn, Tolkiehn & Partner

Top-View:

Was will der Betreiber? Kosten sparen durch Verlagerung von so viel Dialog wie möglich vom live agent in die Maschine. Die Schallmauer 1€/Call durchbrechen V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten schaffen – aber zu geringen Kosten. Webserver können viel, sind aber nicht immer das Optimum.

Was will der User? In erster Linie, dass er

• das bekommt, was er haben will, • dann, wenn er es haben will, • ohne Risiken und • zu bekannten und akzeptablen Kosten.

Einfach, verfügbar, klar, verlässlich, preiswert, sicher.

Page 11: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 11

G.-U. Tolkiehn, Tolkiehn & Partner

Vergleich mit Webserver und Call Center

Also: Call Center-Funktionalität zu Transaktionskosten von Webservern. In USA wurden vor Jahren Webserver (Shops und Helpdesks) mit der Dialogstruktur der bereits erprobten IVR-Systeme ausgestattet. Ein Fehlschlag. Wer heute versucht, Voice-Portale mit der Dialogstruktur von Web-Shops aufzubauen begibt sich ebenfalls in Gefahr. Die Dialogstruktur von IVR-Systemen tut es natürlich auch nicht mehr Ist das alles? Gute Dialoge aus den Call Center Erfahrungen ableiten und gute Technik einsetzen? Sollte doch gehen. Oder?

Page 12: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 12

G.-U. Tolkiehn, Tolkiehn & Partner

Gefahrenpotentiale

Lehrsatz: Automatisierung senkt Kosten zu Risiken und Nebenwirkungen fragen Sie Ihren

Vertriebsleiter oder Unternehmensberater

Negativ-Beispiel: Geldautomaten der Banken Kommunikation mit Menschen ist eine komplexe Angelegenheit. Sachebene - Beziehungsebene Was kommuniziert Ihr Voice-Portal eigentlich auf der Beziehungsebene? a b Selbst für eine „relativ einfache“ Kommunikation auf der Sachebene benötigen wir aber bereits

Page 13: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 13

G.-U. Tolkiehn, Tolkiehn & Partner

Komplexe integrierte Systeme

Quelle: Philips (www.speech.philips.com)

Grammatik-Analyse

Page 14: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 14

G.-U. Tolkiehn, Tolkiehn & Partner

Komplexe integrierte Systeme

„Alte Technik“: IVR-Systeme (Interactive Voice Response oder VRU), auto attendant, UM: Meist nur DTMF-Erkennung und Konservenausgabe, Sprachspeicher, spezielle einfache Transaktionen „Neue Technik“: Voice-portals, integrativer Ansatz

ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion? Welche Sprachen? Wieviel simultane Kanäle? Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung? Guter Dialoggenerator? Auswertungen und Änderungen der Dialoge während der Laufzeit einfach durch Anwender möglich? Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung, Bedienung VM-System, e-Mail-Abruf)? Datenschnittstelle für Transaktionssysteme und Webserver Brauchbare Voice-Message-Funktionen, auch ACD-fähig? Contact Center und CRM-Integration?

Page 15: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 15

G.-U. Tolkiehn, Tolkiehn & Partner

IVR-Technik in deutschen Contact Centern 2002

Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003

Summe: 47%

Page 16: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 16

G.-U. Tolkiehn, Tolkiehn & Partner

Investitionsabsichten in Contact Centern 2002

17,6% der befragten Unternehmen planten in 2002 bis 2004 in IVR-Technologie investieren 5,9% der befragten Unternehmen planten in 2002 bis 2004 in Voice-Logging-Systemen zu investieren Keiner der Teilnehmer wollte in Voice-Mail Systeme investieren Die Studie wird ab Oktober erneut durchgeführt. Wir werden dann auch explizit nach Voice-Portalen fragen

Page 17: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 17

G.-U. Tolkiehn, Tolkiehn & Partner

Voice-Portal-taugliche Bereiche identifizieren!

Quelle: White Paper von Concerto Software

Page 18: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 18

G.-U. Tolkiehn, Tolkiehn & Partner

Was können wir demnächst erwarten?

Trotz aller Schwierigkeiten: V-Commerce erhält durch Automatisation „zweite Luft“ als wesentliche Komponente von e-commerce. Einige Einzelbelege:

steigende Anzahl von Webseiten zu v-commerce (26. 9. in Google allein auf deutsch 410 Treffer!) Nuance hat seinen Webauftritt in www.v-commerce.com umbenannt, nicht zu verwechseln mit www.vcommerce.com Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem Absterben vieler „alter“ Voice Events

Aber es dauert! Wer hat schon mal in einem vollautomatisierten v-shop eingekauft? Wo bleiben v-government und v-administration?

Page 19: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 19

G.-U. Tolkiehn, Tolkiehn & Partner

Was können wir demnächst erwarten?

Weitere Perfektionierung der Basis-Technologie, auch neue kleine Anbieter beachten! Weiterentwicklung der SW-Komponenten (Grammatik, KI, Dialoggeneratoren etc.) Neue Hardware (Hochleistungsfähige, preiswerte CAPI und VoIP-Komponenten) SW- und Systemhäuser spezialisieren sich auf Voice-Portal-Lösungen und Anwendungsintegration Weitere Verbesserung der Flexibilität und Handhabbarkeit der Lösungen durch den Anwender Kleine Ready-to-Run-Lösungen out-of-the-box Preissenkungen für SW leider eher nicht

Page 20: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 20

G.-U. Tolkiehn, Tolkiehn & Partner

Gartner Hype Cycle 2003

Trough ofDisillusionment

Slope ofEnlightenment

Plateau ofProductivity

Maturity

TechnologyTrigger

Peak of Inflated

Expectations

VisibilityKey: Time to “Plateau”

Less than two years

Two to five years

Five to 10 years

Beyond 10 years

Wireless LANs/802.11Text-to-

Speech

VPN

Grid ComputingBiometrics

WAP/ WirelessWeb

Location Sensing

P2P

Web Services

PDA Phones

Speech Recognition on Desktop

PersonalFuel Cells

Identity Services

E-Tags

Natural Language Search

Nanocomputing

VoIPBluetooth

Speech Recognition in Call Center

PKI

E-Payments

Page 21: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 21

G.-U. Tolkiehn, Tolkiehn & Partner

Fazit: Es wird sich noch einiges tun

in den nächsten fünf Jahren sind für Voice-Portale also noch

erhebliche technische Weiterentwicklungen die Erprobung neuer Einsatzgebiete und erhebliche Zunahme der Marktdurchdringung zu erwarten

Wir bleiben dran. Tun Sie es auch!

Page 22: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 22

G.-U. Tolkiehn, Tolkiehn & Partner

Vielen Dank für Ihre Aufmerksamkeit!

Fragen und Anmerkungen bitte!

Datenversion anfordern von:

[email protected]

Page 23: 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr

4. 1

0. 0

4: V

oice

200

4 23

G.-U. Tolkiehn, Tolkiehn & Partner

Einfaches Beispiel für eine Grammatik

Quelle: Philips (www.speech.philips.com