Eine experimentelle Untersuchung zum Einfluss ...Multimodalität ist ein vielversprechendes Konzept, um die Bedienung techni-scher Systeme zu erleichtern und Nutzer nicht nur zufriedenzustellen,

Modalitätenwahl bei multimodaler Interaktion.

Eine experimentelle Untersuchung

zum Einfluss fehlerbehafteter Eingabenerkennung

auf Nutzungsverhalten und subjektive Bewertung.

vorgelegt von

Michael Minge

Matrikelnummer: 310466

Masterarbeit zur Erlangung des akademischen Grades

Master of Science (M.Sc.)

im Studiengang

Human Factors

an der Technischen Universität Berlin

Fakultät V für Verkehrs- und Maschinensysteme

Institut für Psychologie und Arbeitswissenschaft

Erstgutachter: Prof. Dr. Manfred Thüring

Zweitgutachter: M.Sc. Stefan Schaffer

Berlin, im August 2012

Erklärung

Hiermit erkläre ich die selbstständige und eigenständige Anfertigung der vorliegenden

Masterarbeit im Studiengang Human Factors an Eides statt.

Berlin, den 24.08.2012 …...….……………………………… Michael Minge

Zusammenfassung ______________________________________________________________________________

I

Zusammenfassung

Bei der Multimodalität handelt es sich um ein aktuell weit verbreitetes und viel

umworbenes Bedienkonzept zur Gestaltung von Mensch-Maschine-Interaktionen, das

vor allem darauf abzielt, eine verbesserte Anpassung der Systemsteuerung an die

menschlichen Leistungsvoraussetzungen zu gewährleisten. Um dies zu erreichen, bieten

multimodale Geräte verschiedene Wahrnehmungs- und Aktionsmodalitäten alternativ

oder kombiniert an, damit Nutzer über unterschiedliche Kanäle Informationen von der

Maschine registrieren bzw. Systemeingaben an die Maschine vornehmen können.

Bietet das technische Gerät seinen Anwendern verschiedene Aktionsmodalitäten

an, welche alternativ für eine Systemeingabe verwendet können, so ist der Nutzer ge-

fordert, sich für eine der zur Verfügung stehenden Alternativen zu entscheiden und so-

mit eine Modalitätenwahl zu treffen. Häufig kann die Wahl der Modalität jederzeit,

auch innerhalb einer Aufgabe, angepasst bzw. revidiert werden, sodass in diesem Zu-

sammenhang auch von einem Modalitätenwechsel gesprochen wird (vgl. Jöckel, 2010).

Das Ziel der vorliegenden Arbeit besteht darin, im Rahmen einer experimentel-

len Untersuchung ausgewählte Faktoren, die die Modalitätenwahl beeinflussen können,

systematisch zu variieren und Auswirkungen auf das Nutzungsverhalten und subjektive

Bewertungen zu studieren. Als Untersuchungsgegenstand dient in dieser Masterarbeit

ein prototypisches Testprogramm in Form eines Listenauswahlsystems, das auf einem

mobilen Endgerät (Smartphone) präsentiert wird. Dieses System kann sowohl über ei-

nen Touchscreen (manuell) als auch über Spracherkennung (auditiv) gesteuert werden.

Der theoretische Teil dieser Arbeit definiert die grundlegenden Begriffe und

stellt ausgewählte ingenieurspsychologische Konzepte vor, welche aus kognitiver Sicht

beleuchten, wie Menschen Entscheidungen treffen. Aus der Diskussion möglicher Ein-

flussfaktoren für die Modalitätenwahl werden die Untersuchungsfrage und Forschungs-

hypothesen abgeleitet, welche mit dem empirischen Teil dieser Arbeit beantwortet wer-

den. Zusammenfassend zeigen die Ergebnisse, dass sowohl die Modalitätenwahl als

auch subjektive Bewertungen durch erlebte fehlerhafte Systemeingaben und durch un-

terschiedlich erwartete Effizienzvorteile beeinflusst werden.

Schlagworte: Mensch-Technik-Interaktion, Multimodalität, Modalitätenwahl, Spracher-

kennung, Nutzungserleben, Usability.

Vorwort ______________________________________________________________________________

II

Vorwort

Mein Dank gilt allen, die den Entstehungsprozess dieser Arbeit ermöglicht, motiviert

und hinterfragt haben. Dazu gehören allen voran die Mitglieder des Graduiertenkollegs

prometei (Prospektive Mensch-Technik-Interaktion) sowie des Fachgebiets Kognitions-

psychologie und Kognitive Ergonomie der Technischen Universität Berlin.

Zudem danke ich der Deutschen Forschungsgemeinschaft (DFG), die die Realisierung

der empirischen Datenerhebung finanziell förderte sowie allen Studienteilnehmerinnen

und Studienteilnehmern für ihre Zuverlässigkeit, ihre Neugier und ihr Engagement bei

der Durchführung der Untersuchung.

Inhaltsverzeichnis ______________________________________________________________________________

III

Inhaltsverzeichnis Zusammenfassung …………………………………………………………….. I

Vorwort ………………………………...………………………………………. II

Inhaltsverzeichnis ……………………………………………………………... III

Abbildungsverzeichnis ………………………………………………………… V

Tabellenverzeichnis …………………………………………………………… VI

1 Einführung …………………………………………………………….. 1

1.1 Ausgangslage und Zielsetzung ………………………………….. 1 1.2 Aufbau der Arbeit ……………………………………………...... 3

2 Theoretischer Hintergrund …………………………………………… 4

2.1 Grundlegende Begriffe …………………………………………. 4 2.1.1 Mensch-Technik-Interaktion …..………..…………….. 4 2.1.2 Modalität ……………………………..………............... 6 2.1.2.1 Wahrnehmungsmodalitäten …………………………… 7 2.1.2.2 Aktionsmodalitäten …………………………………… 8 2.1.3 Multimodale Mensch-Maschine-Interaktion ………….. 10 2.2 Modalitätenwahl ……………………………………………….. 13 2.2.1 Entscheidungen ……………………………………….. 13 2.2.1.1 Merkmale von Entscheidungen ……………………….. 13 2.2.1.2 Klassen der Entscheidungsforschung …………………. 14 2.2.2 Informationsverarbeitungsmodell der Entscheidung ….. 15 2.2.3 Modell der multiplen Ressourcen ……………………... 19 2.2.4 Heuristiken …………………………………………….. 21 2.2.4.1 Verankerungsheuristik …………………………………. 21 2.2.4.2 Verfügbarkeitsheuristik ………………………………... 22 2.2.4.3 Repräsentativitätsheuristik …………………………….. 22 2.2.5 Zusammenfassung …………………………………....... 23 2.3 Einflussfaktoren für die Modalitätenwahl ……………................. 23 2.3.1 Effektivität …………………………………………….. 23 2.3.2 Effizienz ……………………………………………….. 24 2.3.3 Zeitdruck und mentale Beanspruchung ……………….. 25

Inhaltsverzeichnis ______________________________________________________________________________

IV

2.3.4 Hedonische Qualität …………………………………… 26 2.3.5 Präferenzen und statische Benutzerattribute ..……..…... 26 2.3.6 Umgebungsfaktoren ………………………………..…. 27 2.4 Fragestellung und experimentelle Hypothesen …………………. 27 2.4.1 Forschungsfrage ……………………………………….. 27 2.4.2 Experimentelle Hypothesen …………………………… 28

3 Methode …………………………………………………………….……. 30

3.1 Untersuchungsdesign und unabhängige Variablen ……………… 30 3.2 Untersuchungsmaterial …………….……………………………. 30 3.2.1 Manipulation der fehlerbehafteten Erkennung von Eingaben ………………………………………………. 33 3.2.1.1 Fehlerbehaftete Sprachinteraktion …………………….. 33 3.2.1.2 Fehlerbehaftete Touchinteraktion ……………………... 34 3.3 Versuchsaufbau …………………………………………………. 34 3.4 Abhängige Variablen und Messinstrumente ……………………. 37 3.5 Datenaufbereitung ……………………………………………… 37 3.6 Untersuchungsablauf ………………..………………………….. 38 3.7 Stichprobenbeschreibung ……………………………………….. 40 4 Ergebnisse …………………………………………………………...…. 42

4.1 Prüfung der statistischen Voraussetzungen ……..………………. 42 4.2 Analyse der Modalitätenwahl …………………………………… 43 4.2.1 Modalitätenwahl auf dem Startbildschirm ..…………….. 44 4.2.2 Modalitätenwahl auf den Listenbildschirmen …………. 45 4.3 Analyse der subjektiv erlebten Anstrengung (SEA) ……………. 48 4.4 Wahrgenommene Produktqualitäten (AttrakDiff) ……………… 50 4.5 Zusammenfassung ………………………………………………. 53

5 Diskussion ……………………………………………………………… 55

5.1 Hypothesen zur Modalitätenwahl ………………………………. 55 5.2 Hypothesen zur subjektiv erlebten Anstrengung ……………….. 58 5.3 Hypothesen zu wahrgenommenen Produktqualitäten …………... 59 5.4 Kritische Würdigung und Limitation …………………………… 62

6 Ausblick ………………………………………………………………… 64

Literaturverzeichnis …………………………………………………………... 65 Anhang …………………………………………………………………………. 72

Abbildungsverzeichnis ______________________________________________________________________________

V

Abbildungsverzeichnis 1: Potentiale der Multimodalität …………………………………………... 1

2: Strukturmodell eines Mensch-Maschine-Systems ……………………... 5

3: Technische Komponenten einer multimodalen Schnittstelle …………… 9

4: Informationsverarbeitungsmodell der Entscheidung …………………… 16

5: Prozess der Informationsintegration …………………………………… 18

6: Dimensionale Repräsentation der Struktur multipler Ressourcen ……… 20

7: Startbildschirm der Anwendung …………………………………....…… 31

8: Listenbildschirm für die Subaufgabe „Stadt auswählen“ ……….………. 32

9: Startbildschirm bei fortschreitendem Bearbeitungsstand …………….…. 32

10: Feedback in der Bedingung fehlerbehafteter Eingaben bei der Sprachinteraktion ………………………………………………………. 33

11: Wizard-of-Oz Versuchsaufbau ………………………………………….. 35

12: Systemansicht für den zweiten Versuchsleiter (Wizard) ………………... 36

13: Schematischer Versuchsablauf ……………...…………………………… 40

14: Mittelwerte und Standardabweichungen der Modalität Sprache auf dem Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen ……. 44

15: Mittelwertverläufe der Modalitätenwahl Sprache auf dem jeweils ersten Listenbildschirm einer Subaufgabe ……………………………………… 47

16: Mittelwertverläufe der subjektive erlebten Anstrengung (SEA) auf dem jeweils ersten Listenbildschirm einer Subaufgabe ……………………… 50

17: Mittelwerte und Standardabweichungen der wahrgenommenen pragmatischen Qualität ………………………………………………….. 51

18: Mittelwerte und Standardabweichungen der wahrgenommenen hedonischen Qualität (Stimulation) ……………………….…………….. 52

19: Mittelwerte und Standardabweichungen der wahrgenommenen pragmatischen Qualität (Identifikation) ……………………...………….. 52

20: Mittelwerte und Standardabweichungen der wahrgenommenen Attraktivität ………………………………..…………………………….. 53

Tabellenverzeichnis ______________________________________________________________________________

VI

Tabellenverzeichnis 1: Sinnesmodalitäten des Menschen …………………………………..……. 7

2: Übersicht über die cooperation types nach Martin (1998) …………….... 12

3: Varianzanalyse zur Sprachnutzung auf der Startseite …………………… 44

4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbild- schirm einer Subaufgabe ………………………………………………… 45

5: Varianzanalyse zur subjektiv erlebten Anstrengung (SEA) …………….. 48

Einführung ______________________________________________________________________________

1

1 Einführung 1.1 Ausgangslage und Zielsetzung

Multimodalität ist ein vielversprechendes Konzept, um die Bedienung techni-

scher Systeme zu erleichtern und Nutzer nicht nur zufriedenzustellen, sondern auch zu

begeistern. Insbesondere im Bereich mobiler Anwendungen werden viele Produkte

heutzutage mit „multimodaler Bedienbarkeit“ beworben. So ist zum Beispiel in aktuel-

len Smartphones die Spracheingabe als alternative Möglichkeit zur Eingabe von Nutzer-

intentionen mittlerweile standardmäßig integriert. Im Bereich stationärer Systeme er-

freuen sich vor allem Blickbewegungsmessungen einem sprunghaft ansteigendem Inte-

resse, teils als vollständige Alternative zur taktilen Eingabe, um entsprechend körperlich

eingeschränkten Personen die Interaktion mit Technik zu ermöglichen (z.B. Bates &

Istance, 2005), teils als Kombination mit der taktilen Eingabe, um die jeweiligen Vortei-

le beider Interaktionsmodalitäten zusammenzuführen (z.B. Aula et al., 2005).

Tatsächlich eröffnet das Konzept Multimodalität bei einem erhöhten technischen

Aufwand und einer verlängerten Entwicklungszeit zahlreiche Potenziale, um die

Mensch-Maschine-Interaktion effizienter, effektiver, robuster und natürlicher zu gestal-

ten (vgl. Maybury & Stock, 1999; Oviatt 1999). Abbildung 1 fasst diese Potentiale

überblicksartig zusammen. Sie konnten bereits mehrfach in Studien experimentell

nachgewiesen werden (z.B. Hauptmann, 1989; Vo & Waibel, 1993; Oviatt, 1996; Alt-

hoff et al., 2001).

Abb. 1: Potenziale der Multimodalität (nach Niedermaier, 2003).

Potenziale Multimodalität

Effizienz Effektivität

Robustheit Natürlichkeit

möglichst schnelle Aufgabenbearbeitung bei geringem Aufwand

Unempfindlichkeit gegenüber Bedien- und Erkennungsfehlern

Benutzer macht in der je-weiligen Dialogsituation

das Richtige

Nachahmung zwischenmenschlicher

Kommunikationsformen

Einführung ______________________________________________________________________________

2

Ein weit verbreiteter Irrglaube ist es jedoch, Multimodalität als Selbstzweck zu

betrachten. Die Konzeption multimodaler Benutzungsschnittstellen erfordert ein schlüs-

siges Gesamtbedienkonzept, sodass in der jeweiligen Dialogsituation die spezifischen

Vorteile einer Modalität dem Nutzer optimal zur Verfügung gestellt werden können

(Niedermeier, 2003). Ebenso sollte nicht die technologische Realisierbarkeit einer Mo-

dalität im Vordergrund stehen, sondern die Berücksichtigung wahrnehmungspsycholo-

gischer und kognitiver Grundlagen des Nutzers (Oviatt, 1999). Alternativ angebotene

Modalitäten zur Eingabe von Nutzerintentionen sind nur dann zweckmäßig, wenn sie

sich im längerfristigen Systemgebrauch durch eine hohe Akzeptanz und eine entspre-

chende Nutzung auszeichnen. So beschreibt beispielsweise Buxton (2007) die Güte ei-

nes Systems nicht nur dadurch, dass dieses sowohl nützlich (useful) als auch benutzbar

(usable) ist, sondern dass es auch tatsächlich benutzt wird (used).

Die Wahl einer Modalität und ggf. der Wechsel zur alternativ angebotenen Mo-

dalität innerhalb der Bearbeitung einer Aufgabe ist von verschiedenen Faktoren abhän-

gig, so zum Beispiel von persönlichen Präferenzen des Nutzers und seinem Grad an

mentaler Beanspruchung, von der umgebenden Situation oder von den Vorteilen, die

sich ein Anwender in einer bestimmten Dialogsituation von einer Modalität erhofft (vgl.

Abschnitt 2.3). Aufbauend auf frühere Studien, in denen der auch in dieser Arbeit ver-

wendete Untersuchungsgegenstand bereits zum Einsatz kam, liegt der Fokus in der vor-

liegenden Arbeit auf Effizienzüberlegungen aus Nutzersicht, die sich exemplarisch auf

die nötigen Interaktionsschritte zur Erledigung von Bedienaufgaben sowie auf die Feh-

lerbehaftung der angebotenen Modalitäten einer mobilen Anwendung beziehen.

Der innovative Aspekt dieser Arbeit besteht darin, erstmalig die Fehlerbehaftung

beider Modalitäten, der Spracherkennung und der Eingabe per Touchscreen, experimen-

tell zu manipulieren und Auswirkungen sowohl auf das Nutzungsverhalten als auch auf

subjektive Bewertungen zu erheben. Damit wird einerseits das Ziel verfolgt, die Studi-

energebnisse der vorliegenden Arbeit in die Resultate der bisher durchgeführten Unter-

suchungsreihe einzuordnen und vor diesem Hintergrund zu interpretieren. Auf der ande-

ren Seite ist beabsichtigt, durch die fehlerbehaftete Manipulation beider Eingabemodali-

täten einen zusätzlichen unabhängigen Untersuchungsfaktor zu produzieren, um eine

erhöhte Varianzaufklärung auf Seiten der abhängigen Variablen zu ermöglichen. Zudem

stellt sich die generelle Frage, inwieweit die zusätzliche Manipulation bisherige Ergeb-

nisse verstärkt oder sich aus den vorliegenden Resultaten etwaig ein differenzierteres

Verständnis der Modalitätenwahl bei multimodaler Interaktion ableiten lässt.

Einführung ______________________________________________________________________________

3

1.2 Aufbau der Arbeit Die vorliegende Arbeit ist wie folgt aufgebaut: Im folgenden Kapitel werden zu-

nächst die grundlegenden Begriffe der in dieser Masterarbeit behandelten Konzepte

erläutert. Hierzu zählt insbesondere die Definition der Mensch-Maschine-Interaktion

und eines Mensch-Maschine-Systems sowie der Begriffe Modalität und Multimodalität.

In diesem Zusammenhang wird auch ein Überblick über den Stand der Technik zur

Nutzung ausgewählter Modalitäten gegeben. Anschließend wird im zweiten Abschnitt

des Kapitels die Modalitätenwahl als entscheidungstheoretisches Problem thematisiert.

Als Schwerpunkt in der Argumentation wird das kognitive Informationsverarbeitungs-

modell der Entscheidung nach Wickens und Hollands (2000) ausführlich vorgelegt.

Zudem geht dieser Abschnitt auf Entscheidungsroutinen, sogenannte Heuristiken, und

auf Faktoren, welche die Modalitätenwahl beeinflussen können, ein. Aus den hier dis-

kutierten empirischen Befunden werden abschließend die Fragestellung und die experi-

mentellen Hypothesen als Basis der durchgeführten Untersuchung abgeleitet.

Im dritten Kapitel werden zunächst das Versuchsdesign und das Untersu-

chungsmaterial dargelegt. Einen wesentlichen Stellenwert nimmt in diesem Zusammen-

hang die Operationalisierung der Manipulation fehlerbehafteter Eingabenerkennungen

in den zur Verfügung gestellten Modalitäten ein. Die Beschreibung des Versuchsauf-

baus und -ablaufs, der abhängigen Variablen und der verwendeten Messinstrumente

sowie der akquirierten Stichprobe schließen den Methodenteil ab.

Die Ergebnisse der Hauptuntersuchung werden im vierten Kapitel vorgestellt.

Dabei werden zuvorderst Voraussetzungen geprüft, deren Erfüllung für die statistischen

Analysen von Bedeutung sind. Anschließend werden Berechnungen zu den Ausprä-

gungsunterschieden der abhängigen Variablen zur Modalitätenwahl, zur subjektiv erleb-

ten Anstrengung (SEA) sowie zu wahrgenommenen Produktqualitäten dargestellt.

Die Beantwortung der Fragestellungen und Hypothesen, der Bezug zur aktuellen

Literatur und zu vorliegenden Befunden sowie eine Kritik der Methoden und Anmer-

kungen zu Limitationen der durchgeführten Studie werden schließlich im fünften Kapi-

tel diskutiert. Ein Ausblick zur multimodalen Mensch-Maschine-Interaktion schließt die

vorliegende Masterarbeit ab.

Theoretischer Hintergrund ______________________________________________________________________________

4

2 Theoretischer Hintergrund

Im folgenden Kapitel werden die theoretischen Grundlagen für das Verständnis

dieser Arbeit vorgestellt. Dazu werden zunächst die zentralen Begriffe um das Thema

multimodaler Mensch-Maschine-Interaktion erläutert. Anschließend werden ingenieurs-

psychologische Theorien und empirische Befunde zur Modalitätenwahl skizziert, auf

deren Basis dann die Fragestellungen und die Forschungshypothesen der durchgeführ-

ten experimentellen Untersuchung abgeleitet werden.

2.1 Grundlegende Begriffe

Obwohl multimodale Mensch-Maschine-Interaktion heutzutage eine weite Ver-

breitung und Akzeptanz erfährt, mangelt es bislang sowohl an einer einheitlichen Defi-

nition als auch an einem integrativen Modell zur Gestaltung und Umsetzung von Sys-

temen, die Multimodalität für einen erweiterten Austausch von Informationen zwischen

einem technischen System und einem Nutzer anbieten (Neuss, 2000). Erschwerend

kommt hinzu, dass die zahlreichen Disziplinen, die sich mit Multimodalität beschäfti-

gen, zentrale Begriffe häufig mit unterschiedlichen Bedeutungshöfen versehen. Aus

diesem Grund dient der folgende Abschnitt vorab einer sorgfältigen Klärung der ver-

wendeten grundlegenden Begriffe dieser Arbeit.

2.1.1 Mensch-Maschine-Interaktion

Unter Mensch-Maschine-Interaktion wird der wechselseitige Austausch von In-

formationen zwischen einem menschlichen Nutzer und einem maschinellen Teilsystem

verstanden (Charwat, 1994). Wirkt die Person bzw. die Personengruppe mit der Ma-

schine zusammen, um zielgerichtet einen bestimmten Auftrag zu erledigen, welcher

entweder selbst- oder fremdgestellt sein kann, wird von einem Mensch-Maschine-

System gesprochen (Timpe & Kolrep, 2000). Mensch-Maschine-Systeme weisen stets

eine rückgekoppelte Struktur auf, da steuernde bzw. regelnde Eingriffe des Menschen

den Zustand und damit die Rückmeldungen der Maschine beeinflussen (siehe Abbil-

dung 2). Der wechselseitige Austausch von Informationen erfolgt in Mensch-Maschine-

Systemen über eine sogenannte Benutzungsschnittstelle, die einerseits Informationen

über den Zustand der Maschine für den Menschen wahrnehmbar vermitteln und ihm

andererseits Möglichkeiten einräumen soll, Eingriffe in den technischen Prozess der


5

Maschine vorzunehmen. Im Vergleich zur Maschine, die grundsätzlich auf eine klar

definierte Benutzungsschnittstelle angewiesen ist, ist es dem Menschen aufgrund seines

deutlich facettenreicheren Wahrnehmungsvermögens darüber hinaus auch möglich, di-

rekte Informationen über den Zustand der Maschine jenseits der Benutzungsschnittstelle

sensorisch zu registrieren. Als Beispiel nennen die Autoren einen Wasserkessel, an wel-

chem der Zustand des kochenden Wassers sowohl durch ein Anzeigeelement auf der

Benutzungsschnittstelle (indirekt) als auch durch den austretenden Wasserdampf bzw.

die zunehmende Wärme an der Außenseite des Kessels (direkt) erkannt werden kann.

Abbildung 2: Strukturmodell eines Mensch-Maschine-Systems (entnommen aus Timpe und Kolrep (2000, S 3).

Die Benutzungsschnittstelle stellt heutzutage ein zentrales Element in der Ver-

mittlung von Informationen in Mensch-Maschine-Systemen dar, sodass ihrer Gestaltung

eine besondere Bedeutung zukommt (Streitz, 1990). Die Güte der Aufgabenerledigung

wird maßgeblich durch die Gebrauchstauglichkeit (Usability) der Schnittstelle in Rela-

tion zu den Kenntnissen und Fertigkeiten der Nutzer sowie vor dem Hintergrund limi-

tierender Faktoren aufgrund des Nutzungskontextes bestimmt. Als Kriterien für eine

hohe Gebrauchstauglichkeit haben sich die Begriffe Effektivität, Effizienz und Zufrie-

denheit etabliert (ISO 9241-210, 2010, S. 7), wobei unter Effektivität verstanden wird,

dass ein Mensch-Maschine-System die intendierten Zielen genau und vollständig er-

reicht. Als effizient wird das System bezeichnet, wenn die intendierten Ziele im Ver-

hältnis zu den Kosten, der Zeit und/ oder dem Aufwand einfach erreicht werden können

und zufriedenstellend bedeutet, dass sich Nutzer durch die Interaktion subjektiv wenig


6

beansprucht erleben und dem technischen System gegenüber eine positive Gesamtein-

stellung entwickeln (Bevan, 1995).

Effektive Mensch-Maschine-Systeme erfordern vor diesem Hintergrund somit

eine Benutzungsschnittstelle, die jederzeit einen reibungslosen wechselseitigen Aus-

tausch von Informationen gewährleistet. Da der Mensch, wie bereits erwähnt, über viel-

fältige spezialisierte Interaktionsformen verfügt, kann der Austausch von Informationen

für ihn auf einer ebenso breiten Vielfalt unterschiedlicher Kanäle stattfinden. Die

Grundidee multimodaler Systeme zielt darauf ab, eine möglichst große Bandbreite an

menschlichen Interaktionsformen zur Ein- und Ausgabe von Informationen technisch zu

realisieren und nutzbar zu machen. Die technische Umsetzung solch eines Kanals wird

als „Modalität“ bezeichnet. Eine Definition des Begriffs und der Zusammenhang zwi-

schen menschlicher Sinneswahrnehmung und technischer Realisierbarkeit bei der Ge-

staltung von Benutzungsschnittstellen werden im folgenden Abschnitt näher ausgeführt.

2.1.2 Modalität

Unter dem Begriff „Modalität“ kann im Allgemeinen die zu spezifizierende Art

und Weise verstanden werden, wie bestimmte Informationen zwischen einem Sender

und einem Empfänger vermittelt bzw. ausgetauscht werden. Eine von Beuter (2007)

übernommene Definition des Begriffs Modalität lautet:

„Eine Modalität bezeichnet ein kommunikatives System, das durch die Art und Weise, wie In-

formationen kodiert und interpretiert werden, gekennzeichnet ist“ (Beuter, 2007, S. 7).

Während sich der Begriff Modalität im technischen Sinn am konkreten Zusam-

menschluss eines Interaktionsgerätes mit einer Interaktionssprache orientiert (Engesser,

1993), werden unter dem Begriff Modalität im physiologischen Sinn die Möglichkeiten

der menschlichen Wahrnehmung (Sensorik) und des menschlichen Handelns (Motorik)

verstanden. In diesem Zusammenhang unterscheidet Hedicke (2000) zwischen soge-

nannten Aktionsmodalitäten und Wahrnehmungsmodalitäten. Aktionsmodalitäten be-

zieht er dabei auf die verfügbaren Eingabeformen zur Vermittlung von Informationen

des Menschen an die Maschine, wohingegen die Wahrnehmungsmodalitäten im Sinne

von Systemausgaben die Informationsübertragung von der Maschine zum Menschen

betreffen. Vereinfacht, jedoch unspezifischer, werden die Wahrnehmungsmodalitäten

von einigen Autoren auch als Ausgabemodalitäten und die Aktionsmodalitäten als Ein-

gabemodalitäten bezeichnet (Engesser, 1993). Das Konzept des User-Centered Design


7

geht davon aus, dass der Mensch als Nutzer im Mittelpunkt der Gestaltung von Technik

steht (ISO 9242-210, 2010). Demzufolge sollten bei der Konzeption multimodaler Be-

nutzungsschnittstellen nicht technologische Fragen im Vordergrund stehen, wie es häu-

fig der Fall ist, sondern wahrnehmungspsychologische und kognitive Grundlagen des

Nutzers (Oviatt, 1999). Aus diesem Grund werden im folgenden Abschnitt die Mög-

lichkeiten menschlicher Wahrnehmung und damit die für die Realisierung multimodaler

Schnittstellen potentiell nutzbaren Wahrnehmungsmodalitäten charakterisiert.

2.1.2.1 Wahrnehmungsmodalitäten

Als Wahrnehmungsmodalitäten bezeichnen Roetting und Seifert (2005) alle

menschlichen Sinneskanäle, die über spezialisierte Wahrnehmungsorgane bestimmte

physikalische Umgebungsreize registrieren können. Neben den klassischen Wahrneh-

mungsmodalitäten Sehen, Hören, Fühlen, Riechen und Schmecken, verfügt der Mensch

nach heutigem Wissensstand jedoch noch über eine Reihe weiterer Sinne, wie z.B. dem

Gleichgewichtssinn, dem Schmerzsinn und dem Temperatursinn, wobei die genaue An-

zahl und eine exakte Abgrenzung noch nicht endgültig geklärt zu sein scheint (vgl.

Schmidt & Thews, 1997). Eine Übersicht über die Sinnesmodalitäten nach Luczak

(1998) wurde mit Tabelle 1 aus Roetting und Seifert (2005) übernommen.

Tabelle 1: Sinnesmodalitäten des Menschen (vgl. Luczak, 1998; entnommen aus Roetting & Seifert, 2005, S. 284).

Wahrnehmungs-system

Reiz Organ Empfindung

visuell elektromagnetische Strah-lung

Auge Farbe, Helligkeit

auditiv periodische Luftschwankungen

Ohr Tonhöhe, Lautstärke

vestibulär Flüssigkeitsverschiebung und Statolithen (Schwerkraft)

Vestibulärapparat im Mittelohrbereich

Lineare und Winkel-beschleunigung

olfaktorisch Moleküle in Gasen Schleimhautstücke im oberen Nasenraum

Geruch

gustatorisch Moleküle in Flüssigkeiten

Zungenoberfläche Geschmack

taktil Verformungen der Haut Haut Druck, Berührung, Vibration

kinästhetisch Dehnung der Muskeln und Bänder, Gelenkbewegungen

Muskelspindeln Stellung der Körperteile zueinander

thermisch Temperatur Haut warm, kalt Schmerz Verletzung und

Belastung alle freien Nervenenden

Schmerz


8

Betrachtet man, welche dieser vielfältigen Wahrnehmungskanäle bei der Gestal-

tung von Mensch-Maschine-Interaktion explizit berücksichtigt werden, um Informatio-

nen von der Maschine an den Menschen zu übermitteln, fällt auf, dass die menschliche

Wahrnehmung meist auf eine kleine und begrenzte Auswahl an Sinneskanälen reduziert

wird (Roetting & Seifert, 2005). Im Kontext der Informationsdarstellung definieren ei-

nige Autoren lediglich optische, akustische und haptische Anzeigeelemente (z.B. Gei-

ser, 1990). Verschiedene Autoren vermuten, dass erst die zunehmende Techno-

logisierung unseres Alltags in Leben und Arbeit zu einem Verlust des direkten Kontakts

zum Gerät bzw. zur Maschine führte und dadurch eine schrittweise Verdrängung der

Sinnesvielfalt somit sogar begünstigt worden ist (z.B. Norman, 1990).

Tatsächlich findet der größte Anteil der spezifizierten Informationsübertragung

bis dato unter Nutzung der visuellen Modalität statt (Norman, 1990). Hierbei werden

meist über Monitore, Displays, Dioden, etc. elektromagnetische Strahlungen unter-

schiedlicher Wellenlänge versendet, welche Nutzer in Form von Licht wahrnehmen und

zu den Charakteristika Helligkeit, Farbigkeit, Größe, Form, Orientierung, Entfernung,

Bewegung und Richtung verarbeiten (Muthig, 1990). Zur Nutzung der auditiven Wahr-

nehmungsmodalität werden durch Lautsprecher Informationen an den Menschen über

Luftschwingungen in Form von Schallwellen kodiert. Diese können von Nutzern so-

wohl als nonverbale Töne oder Tonfolgen, als bedeutungsbehaftete Geräusche oder als

verbale Sprachinformation wahrgenommen und verarbeitet werden. Taktile Reize ge-

winnen vor allem im Bereich mobiler Anwendungen zunehmend an Einfluss. Hierbei

werden über Bewegungsmotoren bzw. Aktoren bestimmte Kräfte an den Nutzer in

Form von Schwingungen (Vibrationen) oder Druck (Kraftrückkoppelungen) abgegeben.

Die vestibuläre Wahrnehmung wird hauptsächlich in größeren technischen Systemen,

z.B. Auto- oder Flugzeugsimulatoren gezielt für Ausgaben des Systems genutzt (Shoe-

maker et al., 1995). Gustatorische oder olfaktorische Simulatoren spielen ebenso wie

thermische oder Schmerzsimulatoren bis auf wenige Ausnahmen (z.B. Iwata et al.,

2004) bislang eine geringe Rolle bei der Gestaltung von Mensch-Maschine-Systemen.

2.1.2.2 Aktionsmodalitäten

Aktionsmodalitäten beschreiben maschinenseitig, wie ein technisches System

Informationen registriert und auf welche Art und Weise Eingriffsmöglichkeiten durch

den Nutzer vorgenommen werden können. Während sich die Anzahl und die Beschaf-

fenheit der Wahrnehmungsmodalitäten trotz der sensorischen Vielfalt vergleichbar ein-


9

fach kategorisieren lassen, fällt dies für die Aktionsmodalitäten deutlich schwerer. Eini-

ge Autoren betonen sogar, dass sich insbesondere die Aktionsmodalitäten an der tech-

nologischen Realisierbarkeit orientieren, den aktuellen Stand der Technik widerspiegeln

und daher per se nicht a priori begrenzend kategorisieren lassen (Vilimek, 2007).

Im einfachsten Fall können Aktionsmodalitäten analog zu den Wahrnehmungs-

kanälen des Menschen klassifiziert werden. So unterscheidet Hedicke (2000) zwischen

einer auditiven, einer visuellen und einer haptischen Benutzungsschnittstelle (siehe Ab-

bildung 3). Während die auditive Schnittstelle zur Eingabe von Informationen Klänge

per Mikrofon aus der Umgebung registriert, welche sowohl verbaler (z.B. Spracheinga-

be) als auch non-verbaler (z.B. Händeklatschen) Natur sein können, erkennen visuelle

Schnittstellen Informationen über Gestik und Mimik des Nutzers mittels Kamerasyste-

me. Hierunter fallen für den Autor beispielsweise auch Kameras, deren elektromagneti-

sche Strahlung im für den Menschen nicht-sichtbaren Bereich liegt (z.B. Infrarot-

Bewegungssensoren). Haptische Schnittstellen beziehen Informationen aus der Regist-

ration der Lageveränderung von Teilen eines Gerätes (z.B. beim Drücken von Tasten,

beim Betätigen von Stellteilen, beim Bewegen von Geräten bzw. Geräteteilen oder beim

Verformen von Körpern).

Abbildung 3: Technische Komponenten einer multimodalen Schnittstelle (entnommen aus Hedicke, 2000, S. 210).

Liegen in diesen drei Bereichen aus technologischer Sicht bereits zahlreiche

Interaktionsmöglichkeiten und Innovationspotentiale vor und stellen sie vermutlich

auch den größten und wichtigsten Bereich einer gezielten und intendierten Übertragung

auditives Interface

visuelles Interface

haptisches Interface

Ausgabe von Sprache, Tönen, Klängen

Ausgabe von Text, Grafik, Bildern, Videos

Ausgabe von Druck, Vibration, Kraftrück-

koppelungen

Registrierung von Spra-che, Tönen, Klängen

Registrierung von Gestik, Mimik, Blick-

bewegungen

Registrierung von Kraft, manueller

Betätigung

Wahrnehmungs- modalitäten

Schnittstelle

Aktions- modalitäten


10

von Informationen eines Menschen an ein System dar, bestehen darüber hinaus jedoch

noch weitere Möglichkeiten, um sowohl explizite als auch implizite Informationen über

den Nutzer für eine Systemeingabe verwertbar zu machen. So hat sich insbesondere die

Nutzung neuro- oder peripherphysiologischer Signale mittlerweile zu einer bedeutenden

Möglichkeit entwickelt, um Informationen über den Zustand des Nutzers oder seinen

intendierten Systemeingaben abzuleiten. Wesentliche Forschungsthemen liegen hierbei

auf den Gebieten der Brain-Computer-Interfaces (vgl. Walpow & Winter Walpow,

2012), der Emotionsdetektion (vgl. Mahlke & Minge, 2008) und der mentalen Bean-

spruchung (vgl. Nickel et al., 2002).

Neben den klassischen Schnittstellen sind auch olfaktorische und gustatorische

Schnittstellen denkbar. So sind Sensoren zur Registrierung von Geruch bereits in ver-

schiedenen Anwendungen, beispielsweise zur Überwachung von Biogasanlagen oder

Lüftungssystemern im Einsatz (z.B. Technoplus, 2012). Ebenso gibt es prototypische

Konzeptionen von mobilen Robotern, die Sensoren verwenden, um die Herkunft be-

stimmter Gerüche, wie z.B. Sprengstoff oder Drogen, zu lokalisieren (Lochmatter et al.,

2007). Da die Verwertbarkeit der interpretierten Informationen jedoch für die Gestal-

tung der Mensch-Technik-Interaktion stark kontextbezogen ist, bleiben solche Realisie-

rungen vermutlich auch in Zukunft für solch spezielle Anwendungszwecke beschränkt.

Wie dieser Abschnitt aufgezeigt hat, existieren sowohl auf der Wahrnehmungs-

seite als auch auf der Aktionsseite vielfältige Möglichkeiten, um Informationen in der

Mensch-Maschine-Interaktion auszutauschen. Nachdem die einzelnen Modaltäten be-

nannt und beschrieben wurden, widmet sich der folgende Abschnitt der kombinierten

Nutzung parallel angebotener Modalitäten und damit dem Begriff Multimodalität.

2.1.3 Multimodale Mensch-Maschine-Interaktion

Ginge es bei Multimodalität lediglich darum, verschiedene Interaktionsmodalitä-

ten für Systemeingaben oder -ausgaben zu verwenden bzw. Informationen auf unter-

schiedlichen Kanälen auszutauschen, so führte dies zu einer eklatanten Unschärfe in der

Definition des Begriffs, worauf bereits Schomaker et al. (1995) hingewiesen haben:

“In this sense every human-computer-interaction has to be considered as multimodal, because

the user looks at the monitor, types in some commands or moves the mouse and clicks at certain

positions, hears the reaction (beeps, key clicks, etc.) and so on” (Schomaker et al., 1995, S. 6).


11

Um diese triviale Form der Multimodalität einzuschränken, ging das European

Telecommunications Standards Institute (ETSI) dazu über, von Multimodalität nur dann

zu sprechen, wenn verschiedene Interaktionsmodalitäten sowohl für Systemeingaben als

auch für -ausgaben bzw. zumindest für eine Kommunikationsrichtung vorliegen:

“[Multimodal is an] adjective that indicates that at least one of the directions of a two-way com-

munication uses two sensory modalities (vision, touch, hearing, olfaction, speech, gestures, etc.).

[That means, that]

a) more than one sensory modality is available for the channel (e.g. output can be visual or au-

ditory) or

b) within a channel, a particular piece of information is represented in more than one sensory

modality (e.g. the command to open can be visual or typed)” (ETSI EG 202 191, 2003, S. 7)

In diesem Zusammenhang betont Vilimek (2007), dass nicht allein die Anzahl

an Geräten bzw. Sensoren entscheidend ist, um von Multimodalität zu sprechen. So

werden beispielsweise auch bereits durch einen Lautsprecher sowohl akustische als

auch vibrotaktile haptische Informationen gleichzeitig ausgesendet. Vielmehr sei es

erforderlich, die explizite Gestaltungsintention der verwendeten Schnittstelle im Kon-

text einer effektiven und effizienten Mensch-Maschine-Interaktion zu berücksichtigen.

Bezogen auf die Systemausgaben bedeutet dies, dass bei Multimodalität

“[…] eine durch den Systemdesigner manipulierbare aktive, technisch vermittelte Rückmeldung

einer Nutzerreaktion über mehrere Signale vorliegt [und nicht lediglich] eine passive, rein me-

chanische Auswirkung dieser Nutzerreaktion“ (Vilimek, 2007, S. 14)

Aus Sicht der Medienpsychologie wird der Begriff Multimodalität häufig mit

den Wahrnehmungsmodalitäten des Menschen in Verbindung gebracht, wobei darunter

verstanden wird, dass zur Informationsübertragung verschiedene Sinneskanäle gleich-

zeitig angesprochen werden (Weidenmann, 1995). Ingenieurspsychologische Bestre-

bungen im Bereich multimodaler Mensch-Maschine-Systeme zielen heutzutage jedoch

vor allem darauf ab, ein breites Angebot an parallel zur Verfügung stehenden Aktions-

modalitäten zu realisieren, um Nutzern verschiedene Varianten zur Eingabe von Infor-

mationen zu ermöglichen. In Anlehnung an die aktuell mit am häufigsten vorzufindende

Definition von Multimodalität nach Oviatt (2003) werden parallel angebotene Wahr-

nehmungskanäle in Abgrenzung zum Begriff multimodal als multimedial bezeichnet:


12

”Multimodal system process combined natural input modes – such as speech, pen, touch, manual

gestures, gaze, and head and body movements – in a coordinated manner with multimedia sys-

tem ouptut“ (Oviatt, 2003, S. 286)

In Anlehnung an diese Definition von Oviatt (2003) wird in der vorliegenden

Arbeit unter Multimodalität verstanden, dass ein Mensch-Maschine-System zum Aus-

tausch von Informationen mindestens zwei Aktionsmodalitäten und eine oder mehrere

Wahrnehmungsmodalitäten kombiniert. Um die unter 2.1.1 geforderte hohe Gebrauchs-

tauglichkeit der Benutzungsschnittstelle zu gewährleisten, muss das Zusammenspiel aus

Aktions- und Wahrnehmungsmodalitäten so ausgelegt sein, dass das Mensch-Maschine-

System seine fremd- bzw. selbstgestellten Ziele effektiv und effizient erreichen kann

(Nigay, Jambon & Coutaz, 1995). Zahlreiche Autoren haben bereits detaillierte Vor-

schläge unterbreitet, wie verschiedene Modalitäten sinnvoll aufeinander abgestimmt

werden können (Neuss, 2000; Nigay & Coutaz, 1993; Oviatt, 2003).

Martin (1998) unterscheidet dabei zum Beispiel sechs verschiedene Formen, so-

genannte cooperation types, die er als Äquivalenz, Spezialisierung, Redundanz, Kom-

plementarität, Übertragung und Simultanität bezeichnet (siehe Tabelle 2).

Tabelle 2: Übersicht über die cooperation types (nach Martin, 1998).

cooperation type Äquivalenz (equivalence)

verschiedene Modalitäten sind zueinander gleichwertig und können al-ternativ für eine Information verwendet, z.B. Eingabe über Touchscreen oder Spracherkennung

Spezialisierung (specialization)

für eine bestimmte Eingabe wird exklusiv eine bestimmte Modalität verwendet, z.B. Ton als Warnsignal

Redundanz (redundancy)

dieselbe Information wird über mehrere Modalitäten zeitgleich übermit-telt, z.B. verbale Tonausgabe und Lippenbewegungen

Komplementarirät (complementarity)

die Gesamtinteraktion ist auf mehrere Modalitäten verteilt, z.B. Blick-bewegung, um ein bestimmtes Objekt auszuwählen und Spracheingabe, um eine bestimmte Aktion an diesem Objekt vorzunehmen

Übertragung (transfer)

Informationen, die in einer Modalität erzeugt wurden, werden in einer anderen Modalität genutzt

Simultanität (concurrency)

unterschiedliche Arten von Informationen werden über mehrere Modali-täten gleichzeitig verarbeitet, z.B. taktile Steuerung eines Kraftfahrzeugs über Lenkrad, Pedal, Schaltknauf und Bedienung des Navigationssys-tems über Spracheingabe

Die vorliegende Arbeit widmet sich dem Thema der Modalitätenwahl und mög-

lichen Faktoren, die diese Wahl des Nutzers bei verschiedenen alternativ angebotenen

Aktionsmodalitäten beeinflussen können. Im Sinne Martins (1998) wird somit der

cooperation type der Äquivalenz näher untersucht.


13

2.2 Modalitätenwahl

Werden durch ein technisches System verschiedene Aktionsmodalitäten zur Ver-

fügung gestellt, die ein Nutzer für seine beabsichtigten Eingaben alternativ verwenden

kann, so ist er gefordert, sich für oder gegen eine bestimmte Modalität zu entscheiden.

Diese Modalitätenwahl basiert auf der Wahrnehmung und Verarbeitung von Hinweis-

reizen, die durch eine bestimmte Aufgabe vorgegeben werden und den jeweils aktuellen

Handlungszielen des Nutzers, nämlich der erfolgreichen Erledigung der Aufgabe unter

Nutzung einer der alternativ zur Verfügung stehenden Modalitäten, gegenübergestellt

werden (Jöckel, 2010). Somit kann die Modalitätenwahl als ein entscheidungstheoreti-

sches Problem verstanden werden (Schmid & Kindsmüller, 1996). Im folgenden Ab-

schnitt werden deshalb als theoretische Grundlage für die Modalitätenwahl entschei-

dungswissenschaftliche Modelle aus ingenieurspsychologischer Perspektive erläutert

und anschließend mögliche Einflussfaktoren sowie empirische Befunde aus bereits vor-

liegenden Untersuchungen zur Modalitätenwahl skizziert.

2.2.1 Entscheidungen

Wie Menschen Entscheidungen treffen und welche Mechanismen dabei eine

Rolle spielen, ist für viele Disziplinen von Interesse. Vor allem in den Wirtschafts-, So-

zial- und Politikwissenschaften hat die Entwicklung und die empirische Validierung

von Entscheidungstheorien bereits eine lange Tradition. Seitdem der Faktor Mensch an

Beachtung gewonnen hat, werden jedoch auch in den Ingenieurwissenschaften Erkennt-

nisse aus der Entscheidungsforschung zunehmend für die Gestaltung von Mensch-

Maschine-Systemen berücksichtigt (Wickens & Hollands, 2000).

2.2.1.1 Merkmale von Entscheidungen

Entscheidungen beschreiben die Wahl zwischen mindestens zwei Optionen bzw.

Alternativen auf der Basis persönlicher Präferenzen. Diese Präferenzen können entwe-

der bewusst-abwägend (deliberativ), bewusst-heuristisch (regelbehaftet) oder intuitiv

(spontan) ermittelt werden (Ostermann, 2010). Einige charakteristische Merkmale von

Entscheidungen sind unter anderem, ob ein Problem mit binären oder multiplen Hand-

lungsalternativen vorliegt, ob es sich um einen einmaligen oder einen iterativen Ent-

scheidungsprozess handelt oder ob Entscheidungen durch eine Einzelperson oder durch

eine Gruppe getroffen werden (vgl. Duffy, 1993).


14

Stets werden Entscheidungen auch in Hinblick auf die Konsequenzen einer Op-

tion getroffen (Tversky & Kahneman, 1992). Da der Zusammenhang zwischen Option

und Konsequenz häufig probabilistischer Natur ist, stellt der Grad an Unsicherheit über

die möglichen Konsequenzen ein weiteres wichtiges Merkmal von Entscheidungen dar.

In der Entscheidungsforschung wird in diesem Zusammenhang auch von einer Ent-

scheidung unter Risiko (wenn die Wahrscheinlichkeiten für die möglichen Konsequen-

zen bekannt sind) bzw. einer Entscheidung unter Ungewissheit (wenn die Wahrschein-

lichkeiten nicht bekannt sind), gesprochen (Jungermann, Pfister & Fischer, 2006).

Die Entscheidung beim Kauf eines Autos, wenn zwei Typen zur Auswahl ste-

hen, stellt nach genauer Vorinformation über Vor- und Nachteile beider Fahrzeuge zum

Beispiel eine vergleichbar sichere Entscheidungssituation dar: Im Sinne einer multiat-

tributiven Kosten-Nutzen-Analyse können die einzelnen Eigenschaften für jedes Auto

separat bewertet, nach etwaigen persönlichen Präferenzen gewichtet und anschließend

für die zwei zur Verfügung stehenden Optionen aufsummiert werden. Das Endergebnis

sind Summenwerte, auf deren Basis eine Entscheidung getroffen werden kann (Wickens

& Hollands, 2000).

In zahlreichen Entscheidungssituationen, insbesondere im Umgang mit komple-

xen, dynamischen technischen Systemen sind jedoch entweder die Konsequenzen oder

die Wahrscheinlichkeiten ihres Auftretens unbekannt. Entscheidungen werden vor allem

dann als „risikoreich“ bezeichnet, wenn einige der möglichen, aber unsicheren Ergeb-

nisse besonders unangenehm oder mit hohen Kosten verbunden sind (Tversky &

Kahneman, 1992). Als Beispiel für ein komplexes, unsicheres Entscheidungsproblem

nennen Wickens und Hollands (2000) die Entscheidung eines Piloten, seinen Flug bei

unsicherem Wetter fortzusetzen oder sich zum Umkehren zu entscheiden. In diesem Fall

sind die Konsequenzen ausschließlich probabilistisch, d.h. dass es schwer vorherzuse-

hen ist, welchen Einfluss das Wetter auf die Sicherheit des Flugs tatsächlich haben wird.

2.2.1.2 Klassen der Entscheidungsforschung

Nach Wickens und Hollands (2000) können drei Klassen der Entscheidungsfor-

schung unterschieden werden: das rationale, das kognitive und das naturalistische Ent-

scheiden. Während sich die rationale bzw. normative Entscheidungsforschung dafür

interessiert, wie Menschen Entscheidungen entsprechend eines optimalen Rahmens,

eines „goldenen Standards“ und unter Maximierung von Gewinnen und Minimierung

von Verlusten, treffen sollten, betrachtetet die kognitive bzw. informationsverarbeitende


15

Entscheidungsforschung, inwieweit Fehler bzw. Verzerrungen im Entscheidungsprozess

auf begrenzte menschliche Aufmerksamkeit, Arbeitsgedächtnis oder Auswahlstrategien

bzw. vertraute Entscheidungsroutinen (siehe „Heuristiken“ in Abschnitt 2.2.4) zurück-

zuführen sind. Die naturalistische Entscheidungsforschung schließlich interessiert sich

für das Entscheiden in realen Anwendungsbereichen und berücksichtigt dabei bedeut-

same Kontextfaktoren aus der wirklichen Welt, wie z.B. domänenspezifische Expertise,

Zeitdruck, Umweltdynamiken, hohe Risiken und Zielkonflikte (Zsambok, 1997).

Die normative Entscheidungsforschung bietet mit der hier kurz skizzierten mul-

tiattributiven Kosten-Nutzen-Analyse ein rational begründetes Entscheidungsinstru-

ment, jedoch erweist sie sich gegenüber der naturalistischen Entscheidungsforschung

häufig nur als begrenzt gültig. Beispielsweise streben Menschen nicht immer nach Ge-

winnmaximierung bzw. Verlustminimierung und es liegen Unterschiede zwischen ob-

jektiven und subjektiven Werten bzw. Wahrscheinlichkeitsschätzungen vor, die zu Ur-

teilsverzerrungen führen, welche teilweise durch bestimmte kognitive Entscheidungs-

routinen (Heuristiken) erklärt werden können (vgl. Abschnitt 2.2.4).

Die Beantwortung der in dieser Arbeit entwickelten Fragestellung erfolgt unter

Berücksichtigung menschlicher Informationsverarbeitungsroutinen und orientiert sich

damit am kognitiven Entscheidungsprozess. Dies hat einerseits zur Folge, dass nicht die

objektiv beste Entscheidung bei der Modalitätenwahl von Interesse sein wird, sondern

das tatsächliche Nutzungs- und Akzeptanzverhalten der Anwender. Andererseits wird

nur eine begrenzte Auswahl an Einflussfaktoren für die Modalitätenwahl systematisch

untersucht, welche im Rahmen einer kontrollierten Laborstudie einer experimentellen

Manipulation zugeführt wird. Um die bei einer Entscheidung relevanten Informations-

verarbeitungsprozesse zu erläutern, wird im folgenden Abschnitt das kognitive Informa-

tionsverarbeitungsmodell der Entscheidung nach Wickens und Hollands (2000) näher

spezifiziert.

2.2.2 Informationsverarbeitungsmodell der Entscheidung

Bei diesem Modell handelt es sich um ein Perzeptions-Aktions-Schema, worin

die Autoren Wickens und Hollands (2000) die zentralen Elemente menschlicher Infor-

mationsverarbeitung aus ihrem Informationsverarbeitungsmodell integriert haben

(Wickens & Hollands, 2000, S. 11). Als die drei Hauptschritte einer Entscheidung wer-

den in diesem Modell insbesondere die selektive Aufmerksamkeit, die Diagnose und die

Auswahl einer Reaktion betrachtet (siehe Abbildung 4).


16

Abbildung 4: Informationsverarbeitungsmodell der Entscheidung (nach Wickens & Hollands, 2000).

Als Grundlage einer jeden Entscheidung werden zunächst Hinweisreize (cues) in

ihrer entsprechenden Modalität aus der Systemumgebung (Umwelt) aufgenommen und

kurz zwischengespeichert. Anschließend werden die sensorisch aufgenommen Reize

gefiltert. Hierbei führt ein Selektionsprozess (clue filtering) nur solche Reize einer be-

wussten Verarbeitung (Wahrnehmung) weiter, welche aufgrund der Expertise des Ent-

scheiders als momentan für die Situation relevant eingeschätzt werden. Diese „selektive

Aufmerksamkeit“ wird zentral gesteuert, bindet in Abhängigkeit zur Komplexität des

Problems Aufmerksamkeitsressourcen und stellt für Wickens und Hollands (2000) ei-

nen ersten zentralen Schritt beim Treffen von Entscheidungen dar. Da der Mensch kein

passiver Empfänger von Reizen oder Informationen, sondern ein aktives dynamisches

System ist, das Information mit Flexibilität aufsucht, aufnimmt, verarbeitet und umsetzt

(Muthig, 1990), kann die Filterung sowohl Bottom-Up, also durch die Reize selbst,

oder Top-Down, also durch Beiträge des Langzeitgedächtnisses, gesteuert werden. Die

anschließende Wahrnehmung der selektiv aufgenommenen Reize dient ihrer Identifika-

tion und Interpretation.

Auf Basis der selektiv aufgenommenen und verarbeiteten Informationen wird

daraufhin ein Verständnis bzw. eine Einschätzung der Entscheidungssituation im Sinne

einer Diagnose abgeleitet und entwickelt (Rasmussen & Rouse, 1981). In Anlehnung an

das Arbeitsgedächtnismodell von Baddeley (1986) fassen Wickens und Hollands (2000)

zur Unterstützung der Planungs- und Diagnoseabläufe Kognition und Arbeitsgedächtnis

als eine zentrale Exekutive zusammen, welche darüber hinaus einen wechselseitigen

Informationsaustausch zum Langzeitgedächtnis organisiert. Ein wesentliches Ziel in

Aufmerksamkeit, Ressourcen,

Aufwand

Langzeit-gedächtnis

Langzeit-Arbeits-

Gedächtnis

Arbeits- Gedächtnis-

Mustererkennung

Diagnose: H1, H2, …

Umwelt Entscheidung Auswahl der

Reaktion

Ausführung der Reaktion

Reize (cues)

=

Sinnes-empfindung

Wahr-nehmung

Selektive Aufmerksamkeit

clue filtering Situations-bewusstsein

Bestätigung

Meta-Kognition

Optionen Risiken (Werte)


17

dieser Diagnosephase besteht in der Ableitung von Hypothesen über den Zustand der

Welt bzw. des Entscheidungsraumes, auf deren Grundlage anschließend eine adäquate

Handlungsauswahl erfolgen kann. Da viele Diagnosen iterativ sind, d.h. dass zum Be-

kräftigen oder Wiederlegen anfänglicher Hypothesen die Suche nach weiteren Informa-

tion angestoßen werden muss, existiert ein Pfeil von der zentralen Exekutive zur selek-

tiven Aufmerksamkeit (clue filtering), der als „Bestätigung“ bezeichnet ist.

Zur Entwicklung einer Diagnose messen Wickens und Hollands (2000) dem

Konzept des Situationsbewusstseins nach Endsley (1995) eine besondere Bedeutung zu,

die hierbei drei Stufen unterscheidet. Zu Beginn steht zunächst die Wahrnehmung aller

relevanten Informationen aus der Umgebung (Stufe 1). Die wahrgenommenen Informa-

tionen werden anschließend Top-Down oder Bottom-Up zu einem angemessenen Ver-

ständnis der gegenwärtigen Situation integriert (Stufe 2), sodass daraus die weitere dy-

namische Entwicklung der gegenwärtigen Situation korrekt vorhergesagt und eine Anti-

zipation zukünftiger Informationen abgeleitet werden kann (Stufe 3). Über alle Stufen

hinweg wird somit ein allgemeines Systemverständnis aufgebaut, woraus sich Hypothe-

sen zum Systemverhalten und Diagnosen ableiten lassen.

Auf der Grundlage der Diagnose wird anschließend in Relation zu den erwarte-

ten Konsequenzen und den damit verbundenen Werten einer Entscheidung (Kosten-

Nutzen-Abwägung) der Prozess der Handlungsauswahl eingeleitet, welcher wiederum

die Handlungsausführung anstößt. Ein bedeutsamer Einflussfaktor für die Handlungs-

auswahl ist dabei auch das Bewusstsein über das eigene Wissen (Meta-Kognition nach

Reder, 1988). So zeigten Orasanu und Fischer (1997), dass sich gute Entscheidungsträ-

ger einer Informationsunterversorgung bewusst sind und daher besonders aufmerksam

suchen bzw. falls nötig, auf wesentliche Informationen warten, bevor sie eine Entschei-

dung treffen. Da die Situation, der man sich bewusst ist, den sich entwickelnden Ent-

scheidungsprozess beinhaltet, zeigt die Meta-Kognition auch eine deutliche Verbindung

zum Situationsbewusstsein (Endsley, 1995). Die allgemeine Feedbackschleife ermög-

licht Lernprozesse und erhöht damit die Qualität zukünftiger Entscheidungen. Wird

Feedback ins Langzeitgedächtnis übertragen, können zum einen die selektive Aufmerk-

samkeit für Hinweisreize, aber auch Risikoeinschätzungen und interne Entscheidungs-

regeln modifiziert werden.

Betrachtet man den Prozess der Informationsintegration über alle Instanzen des

Modells hinweg (siehe Abbildung 5), können drei Eigenschaften von Hinweisreizen und

wie diese potentiell auf eine getroffene Hypothese einwirken, identifiziert werden.


18

Abbildung 5: Prozess der Informationsintegration (von unten nach oben), um sich für eine von zwei Hypothesen zu entscheiden (nach Wickens und Hollands, 2000).

Die Diagnostizität (Eindeutigkeit) beschreibt, wie eindeutig der beobachtete

Hinweisreiz ist bzw. wieviel Evidenz er für die vorliegende Hypothese liefert, so ist z.B.

ein Regentropfen ein sicherer diagnostischer Hinweisreiz für die Hypothese „Es reg-

net“, jedoch nur ein probabilistischer für die die Hypothese „Ein schweres Unwetter

naht“ (vgl. Wickens und Hollands, 2000). Die Reliabilität gibt unabhängig von der Ein-

deutigkeit die Wahrscheinlichkeit an, mit dem einem Reiz geglaubt werden kann. Lie-

fert z.B. ein Alarmsystem in einer Leitwarte einen bestimmten Anteil an Fehlalarmen,

so ist dieses System auch nur bis zu diesem Grad als reliabel zu betrachten. Als Infor-

mationswert eines Reizes bezeichnen Wickens und Hollands (2000) das Produkt aus

Diagnostizität und Reliabilität. Eine dritte Charakteristik von Reizen sind physikalische

Eigenschaften und die Frage, wie auffällig bzw. herausragend die Hinweisreize sind.

Entscheidend nach dem Informationsverarbeitungsmodell der Entscheidung ist,

dass die Verarbeitungsvorgänge in der zentralen Exekutive zur Diagnosebildung be-

wusst ablaufen, ressourcenlimitiert und hochanfällig für Interferenzen sind (Wickens &

Hollands, 2000). Das bedeutet, dass zwischen der ressourcenfordernden selektiven

Aufmerksamkeit und Wahrnehmung auf der einen Seite und der Schaffung des Situati-


19

onsbewusstseins auf der anderen Seite eine Interferenz vorliegt, wenn beide Vorgänge

zur Speicherung und Manipulation von Informationen auf das Arbeitsgedächtnis zugrei-

fen. Tatsächlich konnten solche Interferenzen experimentell belegt werden (Wickens,

2002). Da solche Interferenzen dazu führen können, dass der Informationsaustausch in

Mensch-Maschine-Systemen nicht oder nicht effizient genug gewährleistet werden

kann, setzt eine erfolgreiche Umsetzung multimodaler Interaktion voraus, dass Interfe-

renzen möglichst ausgeschlossen bzw. minimiert werden.

2.2.3 Modell der multiplen Ressourcen

Um sowohl Interferenzen frühzeitig zu identifizieren als auch unterschiedliche

Modalitäten in einem Mensch-Maschine-System sinnvoll aufeinander abzustimmen,

kann das Modell der multiplen Ressourcen nach Wickens & Hollands (2000) als ein

erster Ansatz dienen. Eine Grundidee dabei ist, dass der menschliche Systemnutzer

prinzipiell über verschiedene Ressourcen zur simultanen Durchführung kognitiver Pro-

zesse verfügt. Je unterschiedlicher die beanspruchten Ressourcenanteile bei der Bearbei-

tung einer Doppelaufgabe sind, desto besser können die entsprechenden Einzelaufgaben

zeitgleich bearbeitet werden (Wickens, 2002). Die zur Verfügung stehenden Ressourcen

werden entsprechend dem Modell nach drei dichotomen Dimensionen klassifiziert,

nämlich den Verarbeitungsstufen (stages), den Modalitäten (modalities) und dem Ver-

arbeitungstyp (codes bzw. responses; siehe Abbildung 6). Auf Seiten der Modalitäten

unterscheiden die Autoren zwischen auditiven und visuellen Ressourcen, wobei zur

ausführlichen Darstellung und Diskussion der experimentellen Belege für diese Modell-

annahme auf Wickens und Hollands (2000) verwiesen wird. Beim Verarbeitungstyp

werden verschiedene Ebenen sowohl auf der Eingabeseite des menschlichen Nutzers

(räumliche oder sprachliche Wahrnehmung) als auch auf der Ausgabenseite (manuelle

oder sprachliche Aktionen) unterschieden. Auch die Phasen der Informationsverarbei-

tung differenzieren lediglich zwischen zwei Dimensionen, da davon ausgegangen wird,

dass die Ressourcen für perzeptive und kognitive Prozesse der zentralen Exekutive

identisch sind. Aufgrund der Ergebnisse zahlreicher Studien wurde im Bereich der visu-

ellen Wahrnehmung eine weitere Modellannahme hinzugefügt, welche das foveale Se-

hen (focal) zur aufmerksamkeitsgesteuerten und fokussierten Informationsaufnahme

vom peripherem Sehen (ambient) angrenzt, welches Orientierungs- und Bewegungs-

wahrnehmung und visuelle Reize aus dem Umfeld zu detektieren unterstützt (z.B.

Previc, 1998).


20

Abbildung 6: Dimensionale Repräsentation der Struktur multipler Ressourcen (entnommen aus Wickens und Hollands, 2000, S. 449).

Das Informationsverarbeitungsmodell und das Modell der mutiplen Ressourcen

beschreiben aus kognitionspsychologischer Sicht, wie Menschen multimodale Informa-

tionen im Rahmen eines Mensch-Maschine-Systems aufnehmen und auf Basis des vor-

liegenden Wissens Hypothesen über die Angemessenheit bestimmter Handlungsmög-

lichkeiten und damit Handlungsentscheidungen, z.B. für die Nutzung einer Modalität

bei äquivalent angebotenen Modalitäten auf Basis selektiv wahrgenommener und inter-

pretierter Hinweisreize, treffen. Wie bereits in 2.2.1.1 bereits erwähnt wurde, können

jedoch viele Entscheidungssituationen dadurch charakterisiert werden, dass der aktuelle

Zustand des Entscheidungsraumes unbekannt ist, da nicht alle relevanten Informationen

genau und vollständig zur Verfügung stehen bzw. die beste Entscheidung nicht durch

einen Abruf von Informationen aus dem Langzeitgedächtnis ermittelt werden können

(Kahneman, Slovic & Tversky, 1982). Dennoch sind Menschen auch in solchen Situati-

onen, in denen die Konsequenz einer Entscheidung mit Unsicherheit behaftet sind, in

der Lage, mit begrenzten geistigen und zeitlichen Ressourcen gute und brauchbare Ent-

scheidungen zu treffen (Gigerenzer & Brighton, 2009). Solche Strategien, einfache

„Faustregeln“, die auf leicht zu erhaltende Informationen angewendet werden können,

werden auch als Heuristiken bezeichnet. Die wichtigsten Heuristiken, auf die Menschen

für ihre Entscheidungen und Urteile zugreifen, stellt der folgende Abschnitt vor.


21

2.2.4 Heuristiken

Heuristiken ermöglichen es dem Menschen, in Situationen nicht alle für eine

Entscheidungsoption notwendigen Informationen aufzunehmen und zu verarbeiten,

sondern lediglich einen hinreichend notwendigen Anteil, um mit diesen begrenzten In-

formationen trotzdem ein gutes Entscheidungsergebnis zu erzielen (Kahneman et al.,

1982). Heuristiken wirken dabei als Annahmen, die sich in früheren Entscheidungssitu-

ationen als erfolgreich bewährt haben. Drei zentrale Heuristiken sind die Verankerungs-

heuristik, die Verfügbarkeitsheuristik und die Repräsentativitätsheuristik.

2.2.4.1 Verankerungsheuristik

Als Verankerungsheuristik wird die Tendenz beschrieben, bei einem Urteil oder

im Rahmen einer Entscheidungssituation zunächst einen groben Ausgangspunkt in

Form einer ersten Hypothese zu finden und diesen als Anker für den weiteren Verlauf

zu verwenden (Tversky & Kahneman, 1974). Die Autoren gehen davon aus, dass eine

Adjustierung des Ankers (adjustment) prinzipiell möglich ist, die endgültigen Urteile

jedoch grundsätzlich in Richtung des Ausgangswertes (anchor) verzerrt sind. Charakte-

ristisch ist zudem, dass zur Verarbeitung der Ankerinformation bevorzugt diejenigen

Informationen gesucht und verarbeitet werden, welche die zuvor aufgestellte Hypothese

bestätigen. In diesem Zusammenhang wird auch von einer positiven Teststrategie

(Liberman & Trope, 1996) oder vom Confirmation Bias (Jones & Roelofsma, 2000)

gesprochen. Ebenso konnte gezeigt werden, dass die Informationssuche zur Prüfung

eines Urteils bzw. zur Verifikation einer Handlungsauswahl häufig vorzeitig eingestellt

wird, da das subjektive Gefühl über die Richtigkeit der eigenen Hypothese größer ist als

die Wahrscheinlichkeit für die adäquate Urteils- bzw. Handlungsoption (Kruger &

Dunning, 1999). Dies wird auch als Overconfidence Bias bezeichnet. Für die Wahl einer

Interaktionsmodalität bei alternativ angebotenen Aktionsmodalitäten bedeutet die Ver-

ankerungsheuristik, dass Anwender schnell eine erste Hypothese über die Brauchbarkeit

der zur Verfügung stehenden Modalitäten treffen und sich daraufhin für eine bestimmte

Modalität zur Bearbeitung einer Aufgabe entscheiden. Der bewusste Wechsel zu einer

anderen Modalität im Laufe der Aufgabenbearbeitung dürfte hingegen, insbesondere bei

geringer Erfahrung mit dem technischen System erschwert sein, da Personen an ihrer

ersten Entscheidung festhalten und dadurch die Kosten für einen Modalitätenwechsel

vermeiden, welcher mit einem kognitiven Aufwand verbunden wäre.


22

2.2.4.2 Verfügbarkeitsheuristik

Die Verfügbarkeitsheuristik beschreibt die Leichtigkeit mit der Informationen

aus dem Langzeitgedächtnis abgerufen werden können: Je verfügbarer Informationen

sind, d.h. je leichter sie einfallen oder je geringer der kognitive Aufwand ist, um sich ein

bestimmtes Ereignis oder eine bestimmte Handlungsauswahl vorzustellen, desto höher

wird die Häufigkeit des Auftretens dieses Ereignisses geschätzt bzw. desto eher wird die

Auswahl des entsprechenden Handlungsmusters vorgenommen (Tversky & Kahneman,

1973). Wie Greening, Dollinger und Pitz (1996) aufgezeigt haben, sind vor allem solche

Ereignisse verfügbarer, welche Menschen aus persönlicher Erfahrung heraus kennen.

Dies impliziert, dass Anwender zunächst Erfahrungen mit der Ausführung von Akti-

onsmodalitäten, insbesondere wenn diese für sie innovativ sind, erleben müssen, um

sich die Nutzung dieser Modalitäten in zukünftigen Situationen leicht vorstellen zu

können. Ebenso sollten die zur Verfügung stehenden Aktionsmodalitäten präsent ge-

macht werden, z.B. durch das Aufleuchten eines Mikrofon-Icons, wenn zu bestimmten

Interaktionszeitpunkten die Spracheingabe eine sinnvolle Alternative darstellt. Entste-

hen bei der Nutzung einer bestimmten Interaktionsmodalität nachteilige Erfahrungen,

erlebt der Anwender beispielsweise mehrere fehlerhafte Spracherkennungssituationen,

so wird ihm der Verfügbarkeitsheuristik entsprechend jedoch auch die Handlungsaus-

wahl zur Nutzung diese Modalität zukünftig weniger leicht verfügbar ins Bewusstsein

gebracht werden können.

2.2.4.3 Repräsentativitätsheuristik

Die Repräsentativitätsheuristik bezieht sich darauf, wie typisch ein wahrgenom-

menes Element für eine Kategorie, eine Population oder eine Wirkung für eine Ursache

ist: Je besser der konkrete Fall das im Langzeitgedächtnis gespeicherte abstrakte Modell

repräsentiert, desto größer wird die Wahrscheinlichkeit eingeschätzt, dass der Fall dem

Modell zugehörig ist (Kahneman & Tversky, 1972). Liegt demnach eine große Überein-

stimmung zwischen Hinweismuster und gespeichertem Muster vor, wird die entspre-

chende Handlungsanweisung gewählt. Hat ein Anwender beispielsweise die Erfahrung

gemacht, dass bestimmte Systemeingaben unter Nutzung einer bestimmten Interaktions-

modalität schneller und einfacher vorgenommen werden können, so werden ihm bei

alternativ angebotenen Aktionsmodalitäten genau diese Situationen zukünftig besonders

repräsentativ für die Nutzung dieser Modalität erscheinen.


23

2.2.5 Zusammenfassung

Sowohl das kognitive Informationsverarbeitungsmodell (vgl. 2.2.3) als auch die

im vorigen Abschnitt aufgezeigten Heuristiken (vgl. 2.2.4) beschreiben, wie die Modali-

tätenwahl bei multimodaler Interaktion aus entscheidungstheoretischer Sicht nachvoll-

zogen und verstanden werden kann: Anwender nutzen die Informationen aus einer Auf-

gabe als Hinweisreize und bilden auf dieser Basis Hypothesen darüber, welche der zur

Verfügung stehenden Modalitäten am geeignetsten erscheint, um die Aufgabe vollstän-

dig und unter geringem Aufwand zu erfüllen. Bei der Bildung von Hypothesen werden

die Informationen unter Einbezug von Kosten-Nutzen-Überlegungen, persönlichen Prä-

ferenzen und externen Parametern gewichtet (Jöckel, 2010). Mögliche Faktoren, die

diese Gewichtung umsetzen, werden im folgenden Abschnitt 2.3 vorgestellt. Aus dem

Ergebnis wird schließlich eine Handlungsauswahl getroffen, welche in wiederholten

Nutzungssituationen evaluiert und ggf. korrigiert werden kann. Heuristiken vereinfa-

chen und beschleunigen den Entscheidungsprozess sowohl zu frühen Nutzungszeit-

punkten (z.B. Ankerheuristik) als auch deutlich spezialisierter bei erfahrener Benutzung

(z.B. Repräsentativitätsheuristik).

2.3 Einflussfaktoren für die Modalitätenwahl

In diesem Abschnitt werden zentrale Einflussfaktoren für die Modalitätenwahl

vorgestellt, auf deren Basis eine Gewichtung zur Integration der Hinweisreize vorge-

nommen wird. Neben der Effektivität und Effizienz, welche in der hier vorliegenden

Arbeit als Einflussfaktoren systematisch manipuliert und untersucht werden, werden

auch Zeitdruck und mentale Beanspruchung, hedonische Qualitäten, Präferenzen und

statische Benutzerattribute sowie Umgebungsfaktoren thematisiert.

2.3.1 Effektivität

Unter Effektivität wird die Vollständigkeit und Genauigkeit verstanden, mit der

geplante Aufgabenziele erreicht werden können (ISO 9241-210, 2010). Thomas et al.

(1996) sprechen in diesem Zusammenhang auch von Quantität und Qualität der Zielfin-

dung. Im Bereich interaktiver Produkte wird die Effektivität vor allem durch die Fehler-

anfälligkeit einer Modalität sowie durch die Genauigkeit bestimmt, mit der Systemein-

gaben vorgenommen werden können (Card et al., 1990). In einem multimodalen Ver-

suchsaufbau zeigten Bilici et al. (2000), dass eine eingeschränkte Effektivität, operatio-


24

nalisiert über Fehler in der automatischen Spracherkennung, signifikant dazu beiträgt,

dass Personen von der auditiven zur manuellen Systemeingabe wechseln. Ebenso stell-

ten Suhm et al. (1999) fest, dass Nutzer bei mehrfacher Verwendung eines multimoda-

len Systems dazu tendieren, diejenige Modalitäten zu benutzen, welche weniger fehler-

anfällig sind. Als fehlerhafte Eingaben können bei der automatischen Spracherkennung

Einfügungen (insertions), Ersetzungen (substitutions) und Auslassungen (deletions)

unterschieden werden (Hunt, 1990). Während bei Einfügungen Wörter erkannt werden,

obwohl keine intendierte Eingabe durch den Nutzer erfolgte, werden bei Ersetzungen

Systemeingaben falsch wiedergegeben. Unter Auslassungen wird das reine Nichterken-

nen von Eingaben verstanden. Um in der vorliegenden Arbeit eine ebenso praktikable

wie plausibel vermittelbare Fehlermanipulation zu untersuchen, welche sich zudem zwi-

schen der auditiven und der manuellen Systemeingabe vergleichbar operationalisieren

lässt, wird der Fokus ausschließlich auf Auslassungen beschränkt sein (vgl. Abschnitt

3.2.1.1). Ebenso wurden Fehler in früheren Studien mit dem Untersuchungsgegenstand

über Auslassungen in der Spracherkennung operationalisiert. Dass sich die Spracher-

kennungsfehlerrate auf die Modalitätenwahl auswirkt, konnte bereits durchweg belegt

werden. Verglichen wurden dabei meist sehr hohe (30 %) mit geringeren Fehlerraten

(10 %, Schaffer et al., 2011a) bzw. sehr hohe Fehlerraten (30 %t) mit einer Kontrollbe-

dingung (0 %). Bei einer dreifachgestuften Aufteilung der Fehlerrate (bis zu 10 %, 10-

25 %, über 25 %) konnte eine bedeutsame Erhöhung der Wechselbereitschaft zur manu-

ellen Eingabe nur zwischen den Extrembedingungen nachgewiesen werden (Joeckel,

2010). Um mit der vorliegenden Untersuchung Daten zu Versuchsbedingungen zu erhe-

ben, die mit den bereits vorliegenden Ergebnissen zusammenhängend interpretiert wer-

den können, soll in dieser Arbeit neben der Kontrollbedingung mit einer Fehlerrate von

0 Prozent eine nicht extreme, jedoch praxisrelevante Fehlerrate von durchschnittlich 20

Prozent gegenübergestellt werden. Diese wird sowohl für die auditive (Spracherken-

nung) als auch für die manuelle Modalität (Touchscreen-Eingabe) umgesetzt (vgl. Ab-

schnitt 3.2.1).

2.3.2 Effizienz

Als Effizienz wird das Verhältnis aus Genauigkeit und Vollständigkeit der Ziel-

erreichung zum eingesetzten Aufwand beschrieben, den ein Nutzer aufbringen muss,

um eine bestimmte Aufgabe zu erfüllen (ISO 9241-210, 2010). Als Aufwand können

verschiedene Maße herangezogen werden. So zum Beispiel die erforderliche Zeit zum


25

Lösen einer Aufgabe (Task Completion Time), monetäre Kosten, die kognitive Bean-

spruchung des Nutzers oder die Anzahl an Interaktionsschritten, die zur Erledigung ei-

ner Aufgabe notwendig sind (Bevan, 1995). Bedienzeiten werden häufig miteinander

verglichen, um Aussagen über die Effizienz eines multimodalen Systems zu treffen. So

konnten Perakakis et al. (2008) aufzeigen, dass die Nutzung der Modalität Sprache

sprunghaft ansteigt, wenn diese im Vergleich zu einer manuellen Eingabe effizienter im

Sinne einer höheren Informationsdatenrate ausfällt. Demgegenüber zeigte Rudnicky

(1993), das Nutzer diejenigen Modalitäten bevorzugen, mit denen zusätzliche oder um-

ständliche Interaktionsschritte eingespart werden können, sogar wenn die Bedienzeiten

dadurch länger ausfallen. Auf ähnliche Ergebnisse bezüglich der Effizienzmetrik weisen

auch Wechsung et al. (2010) hin. Aus diesem Grund und vor dem Hintergrund der bis-

her mit dem Untersuchungsgegenstand durchgeführten Versuchsreihe wird Effizienz in

der vorliegenden Studie über das Einsparen von Bedienschritten operationalisiert.

Durch mehrere Experimente konnte bereits die Hypothese gestützt werden, dass

sich Nutzer äußerst sensitiv an der erwarteten notwendigen Anzahl an Interaktions-

schritten zur Erledigung einer Aufgabe orientieren und daraufhin diejenige Modalität

für eine Eingabe auswählen, welche die erforderliche Anzahl an Interaktionsschritten

minimal hält (Jöckel, 2010; Schaffer et al., 2011b).

2.3.3 Zeitdruck und mentale Beanspruchung

Mentale Beanspruchung beschreibt das Verhältnis aus Anforderungen aus der

Umgebung und den Informationsverarbeitungskapazitäten des Anwenders (Kantowitz et

al., 1996). Meist werden unter mentaler Beanspruchung Leistungseinbußen aufgrund

von Monotonie, Stress, psychischer Sättigung oder Ermüdung untersucht (Wickens &

Hollands, 2000). Mit dem Modell der multiplen Ressourcen nach Wickens & Hollands

(2000) wurde in Abschnitt 2.3.3 ein Kapazitätsmodell der Informationsverarbeitung

vorgestellt, anhand dessen mentale Beanspruchung operationalisiert werden kann. Ent-

sprechend dieses Modells lassen sich auf der einen Seite Interferenzen zwischen Aufga-

benanteilen, die auf identische Ressourcen zugreifen und somit eine hohe mentale Be-

anspruchung induzieren, und andererseits Möglichkeiten zur Beschleunigung von Pro-

zessen, wenn Wahrnehmungsprozesse und Informationsverarbeitung zur Verringerung

der mentalen Beanspruchung auf distinkte Ressourcen verteilt werden, identifizieren.

Schaffer et al. (2011b) konnte zeigen, dass zunehmende Aufgabenkomplexität

im Rahmen multimodaler Systeme mit einem Ansteigen der subjektiv erlebten Bean-


26

spruchung verbunden ist. Demgegenüber entscheiden sich Probanden für die jeweils

effizientere Modalität, wenn sie dadurch die Aufgabenkomplexität reduzieren können

(Schaffer et al., 2011a). Durch solch einen spezifischen Modalitäteneinsatz im Laufe

eines Versuchs bzw. einer Aufgabenbearbeitung ist es Probanden zusammenfassend

möglich, ihr Niveau an subjektiv erlebter Anstrengung trotz steigender Aufgabenkom-

plexität konstant zu halten. Obwohl es Hinweise darauf gibt, dass der Wechsel zwischen

Modalitäten mit Kosten auf Seiten der mentalen Beanspruchung verbunden sein können

(Spence et al., 2001), konnte dies für den vorliegenden multimodalen Untersuchungsge-

genstand bislang nicht aufgezeigt werden (Joeckel, 2010).

2.3.4 Hedonische Qualität

Mit der hedonischen Qualität wird beschrieben, dass ein interaktives Produkt

Nutzer nicht nur zufriedenstellt, sondern Begeisterung bei ihnen auszulösen vermag

(Jordan, 2000). Im Gegensatz zur sogenannten pragmatischen Qualität und dem Fokus

auf den Aufgaben und darauf, wie gut man diese mit dem Gerät erledigen kann, geht es

bei der hedonischen Qualität darum, was das Produkt symbolisiert bzw. an neuen Mög-

lichkeiten für seine Anwender bereithält (Hassenzahl et al., 2008).

„Erweitert ein interaktives Produkt durch neue Funktionen die Möglichkeiten des Benutzers, stellt neue Herausforderungen, stimuliert durch visuelle Gestaltung und neuartige Interaktions-formen oder kommuniziert eine gewünschte Identität, z.B. indem es professionell, cool, modern, anders wirkt, besitzt es hedonische Qualität.“ (Hassenzahl et al., 2003, S. 188).

Hedonische Qualitäten beziehen sich direkt auf die psychologischen Bedürfnis-

sen des Benutzers und spielen heutzutage vor allem bei Produkten eine Rolle, für die es

ein gesättigtes Angebot auf dem Markt gibt, wie es für mobile Endgeräte bereits seit

längerem der Fall ist (Kreuzbauer & Malter, 2005). Die Nachahmung zwischenmensch-

licher Kommunikation stellt bereits einen wesentlichen Aspekt hedonischer Qualität

von multimodalen Systemen dar. Doch auch die Wahl einer bestimmten Modalität kann

dadurch beeinflusst werden, dass diese als innovativ und originell wahrgenommen wird

bzw. Nutzer erwarten, dadurch neue Handlungsmöglichkeiten offeriert zu bekommen.

2.3.5 Präferenzen und statische Benutzerattribute

Bei Benutzertests zur Modalitätenwahl liegen häufig erhöhte Varianzen in der

Wahl einer bestimmten Modalität vor (z.B. Schaffer & Reitter, 2012). Diese Varianzen

lassen sich zu einem vermutlich großen Teil auf persönliche Präferenzen der Nutzer


27

zurückführen. Als sogenannte statische Benutzerattribute zählen beispielsweise auch

körperliche Eigenarten, Einstellungen, Charakterzüge, Bildung, Expertise und Affinitä-

ten (vgl. Jöckel, 2010).

2.3.6 Umgebungsfaktoren

Insbesondere bei Multimodalität in mobilen Endgeräten, deren Nutzung in sehr

unterschiedlichen und teilweise nur schwer vorhersehbaren Situationen erfolgen kann,

spielen Umgebungsfaktoren für die Modalitätenwahl eine entscheidende Rolle. Nach

Rohs (2009) können in diesem Bereich physische, psychische und soziale Einflussfakto-

ren unterschieden werden. Darunter fallen Aspekte wie Lichtverhältnisse, Umgebungs-

lautstärke, Temperatur, Verbote oder soziale (Un-)Erwünschtheit (vgl. Jöckel, 2010).

2.4 Fragestellung und experimentelle Hypothesen

In diesem Abschnitt werden die drei zentralen Forschungsfragen der vorliegen-

den Arbeit und die darauf aufbauenden Hypothesen vorgestellt. Falls nötig, wird im

Rahmen der Forschungsfragen auf entsprechende Abschnitt des Theorieteils verwiesen.

2.4.1 Forschungsfragen

Die leitende Forschungsfrage für die vorliegende Untersuchung lautet, welchen

Einfluss die fehlerbehaftete Erkennung von Nutzereingaben bei einem multimodalen

System (manuelle Eingabe und Spracherkennung) auf das Nutzungsverhalten und die

Modalitätenwahl, auf die subjektiv erlebte Anstrengung und auf subjektive Bewertun-

gen von Produktqualitäten hat. Wie bereits dargestellt wurde (vgl. Abschnitt 2.3.1), ba-

sieren bisherige Untersuchungen ausschließlich auf der Manipulation von Spracherken-

nungsfehlern, jedoch wurde die äquivalente manuelle Modalität bislang nicht mit mani-

pulierten Erkennungsfehlern untersucht.

Die zweite Fragestellung zielt darauf ab, zu untersuchen, inwieweit sich Effizi-

enzvorteile einer Modalität im Sinne einer geringen Anzahl an Interaktionsschritten zur

Bearbeitung einer Aufgabe auf die Modalitätenwahl auswirken. Auch in diesem Bereich

konnte bereits gezeigt, dass eine Reduktion an Interaktionsschritten bei der Sprachma-

nipulation dazu führt, dass die Modalität Sprache häufiger verwendet wird (vgl. Ab-

schnitt 2.3.2). Der Fokus in der vorliegenden Untersuchung liegt in einer Replikation


28

und einer möglichen Erweiterung dieser Befunde, da durch die Manipulation der

Touchinteraktion erstmals ein zweifaktorielles Versuchsdesign umgesetzt wird.

Abschließend interessiert sich die Studie dafür, ob zeitbezogene Veränderungen

in der Modalitätenwahl, in der mentalen Beanspruchung und in Produktbewertungen

auftreten, wenn Probanden Gelegenheit haben, zwei Aufgabenblöcke im Rahmen einer

Untersuchungseinheit zu bearbeiten. Bezüglich der Modalitätenwahl wird eine höhere

Nutzung der Sprache im zweiten Block erwartet, da Probanden diese eher innovative

Aktionsmodalität als Alternative zunehmend verfügbarer wird (vgl. Abschnitt 2.2.4.2).

Auf Seiten der pragmatischen Qualität wird ebenfalls bei sinkender mentaler Beanspru-

chung ein Ansteigen erwartet, da fortschreitende Nutzung bei diesem einfachen proto-

typischen Gerät Lerneffekte begünstigen sollte und eine zunehmend spezialisierte Ver-

wendung der Sprachmodalität die Interaktion effizienter machen sollte (vgl. Abschnitt

2.2.4.3, Hornbaek, 2006). Auf Seiten der Attraktivitätsdimension wird davon ausgegan-

gen, dass aufgrund von Familiarität durch die fortschreitende Darbietung des Untersu-

chungsgegenstandes die Einstellung der Probanden zum interaktiven Gerät im Sinne

eines mere exposure Effekts positiv beeinflusst werden sollte (Zajonc, 1968).

2.4.2 Experimentelle Hypothesen

Zur Beantwortung der Fragestellungen wurden vor der experimentellen Untersu-

chung die folgenden Hypothesen aufgestellt, die entsprechend der betrachteten abhängi-

gen Variablen zu drei Blöcken zusammengefasst werden:

Hypothesenblock 1: Einflüsse auf das Nutzungsverhalten und die Modalitätenwahl

Die Modalität Sprache wird bei Interaktion mit einem multimodalen System häufiger

angewendet, wenn

H1.1 die Spracherkennung einwandfrei funktioniert.

H1.2 die Toucherkennung fehlerbehaftet ist.

H1.3 die Anwender mit der Nutzung von Sprache vertrauter sind.

H1.4 Interaktionsziele bei Nutzung der Modalität Sprache effizienter erreicht

werden können als bei Nutzung der Modalität Touch.

H1.5 Während die Modalität Sprache bei einwandfreier Erkennung von Spracheinga-

ben bereits bei geringen Effizienzvorteilen zur Modalität Touch verstärkt genutzt


29

wird, führt eine Fehlerbehaftung dazu, dass eine vermehrte Nutzung von Sprache

erst bei hohen Effizienzvorteilen vorliegt.

H1.6 Während die Modalität Sprache bei fehlerbehafteter Erkennung von Touch-

eingaben bereits bei geringen Effizienzvorteilen zur Modalität Touch häufiger

genutzt wird, führt eine einwandfreie Touchfunktionalität dazu, dass eine ver-

mehrte Nutzung von Sprache erst bei hohen Effizienzvorteilen auftritt.

Hypothesenblock 2: Einflüsse auf die subjektiv erlebte Anstrengung

Nutzer erleben bei Interaktion mit einem multimodalen System eine geringere Bean-

spruchung, wenn


H2.2 die Toucherkennung einwandfrei funktioniert.

H2.3 die Systemnutzung ihnen vertrauter ist.

H2.4 Zunehmende Aufgabenkomplexität, die durch eine Effizienzsteigerung in der

Modalität Sprache kompensiert werden kann, führt zu keiner bedeutsamen Stei-

gerung in der subjektiv erlebten Anstrengung.

Hypothesenblock 3: Einflüsse auf die Wahrnehmung von Produktqualitäten

Die pragmatische Qualität eines multimodalen Systems wird höher bewertet, wenn



H3.3 die Systemnutzung Nutzern vertrauter ist.

Die globale Produktgüte (Attraktivität) eines multimodalen Systems wird höher bewer-

tet, wenn



H3.6 die Systemnutzung Nutzern vertrauter ist.

Methoden ______________________________________________________________________________

30

3 Methoden

3.1 Untersuchungsdesign und unabhängige Variablen

Im vorliegenden Experiment wurde im Rahmen eines multimodalen Systems un-

tersucht, welchen Einfluss die fehlerbehaftete Erkennung von Eingaben sowohl auf die

Wahl der Modalität als auch auf subjektive Bewertungen ausübt. Der Untersuchung

liegt ein vierfaktorieller 2x2x6x2-Versuchsplan mit Messwiederholung zugrunde.

Als jeweils zweifachgestufte Zwischensubjektfaktoren wurden die beiden unab-

hängigen Variablen ‚fehlerbehaftete Spracherkennung‘ (keine Fehler, 20% Fehlerrate)

sowie ‚fehlerbehaftete Toucherkennung‘ (keine Fehler, 20% Fehlerrate) manipuliert.

Darüber hinaus wurde die Effizienzsteigerung der Spracheingabe gegenüber der

Toucheingabe systematisch variiert. Hierzu wurde es Probanden ermöglicht, unter-

schiedlich aufwändige Touchinteraktionen (0 bis 5 zusätzliche Klicks) durch eine

Sprachinteraktion (Nennung eines ein- bis mehrsilbigen Wortes) zu ersetzen. Diese un-

abhängige Variable wurde als Innersubjektfaktor umgesetzt und zeigte sich aufgrund

der Einsparung von 0 bis 5 zusätzlichen Interaktionsschritten bei Nutzung der Sprach-

eingabe als sechsfach gestuft. Komplettiert wird das Versuchsdesign durch einen weite-

ren zweifachgestuften Innersubjektfaktor, welcher eine Messwiederholung aller abhän-

gigen Variablen in einem ersten und einem zweiten Aufgabenblock repräsentiert.

3.2 Untersuchungsmaterial

Als Untersuchungsmaterial wurde eine von Schaffer et al. (2011a) vorgeschla-

gene Simulationsumgebung weiterentwickelt und verwendet, welche ein interaktives

Restaurantbuchungssystem als mobile Anwendung (Smartphone App) im Zustand eines

Prototypen darstellt. Die Simulation wurde in Java für Android-Systeme programmiert

und erlaubt, freie Variationen u.a. in der Ausgestaltung des Systems und in der Fehler-

rate von Eingaben vorzunehmen. Für den Probanden sichtbar wird das Restaurantbu-

chungssystem auf einem mobilen Endgerät mit Touchscreen Funktionalität präsentiert.

Die Buchung eines Restaurants erfolgt über Subaufgaben, nämlich die Wahl der

Stadt, in der ein Tisch gebucht werden soll (z.B. „Berlin“), der Kategorie des Restau-

rants (z.B. „indisch“), der Uhrzeit (z.B. „18:00 Uhr“) und der Anzahl der anwesenden

Personen (z.B. „4 Personen“). Welche Angaben Probanden jeweils genau auszuwählen

haben, wurde ihnen in Form von prototypischen Bedienaufgaben stets vorgegeben.

Methoden ______________________________________________________________________________

31

Um Eingaben im Restaurantbuchungssystem vorzunehmen, ist auf der Startseite

der Anwendung zunächst das Kriterium der entsprechenden Subaufgabe auszuwählen

(siehe Abbildung 7). Hierfür kann ein Nutzer jederzeit frei wählen, ob er die Auswahl

per Touchscreen, also durch Drücken eines der grau unterlegten Buttons, oder per

Spracheingabe vornimmt. Als Kommandos für die Spracheingabe sind die unmittelba-

ren Beschriftungen an den Buttons zu verwenden (z.B. „Stadt“ oder „Stadt auswählen“).

Abbildung 7: Startbildschirm der Anwendung. Bei jeder Aufgabe sind Eingaben für die vier Subauf-gaben: (1) Suche nach Stadt (2) nach der Kategorie (3) der Uhrzeit und (4) der Personenanzahl zu tätigen.

Nach der Wahl des Suchkriteriums auf der Startseite erscheint für jede Subauf-

gabe anschließend der erste von insgesamt sechs Listenbildschirmen mit Auswahlmög-

lichkeiten zur erfolgreichen Bearbeitung der jeweiligen Subaufgabe (siehe Abbildung

2). Die Sortierung der Auswahlmöglichkeiten erfolgt über alle sechs Listenbildschirme

in erwarteter alphanumerischer Reihenfolge. Um die konkrete Eingabe vorzunehmen,

werden Probanden instruiert, dass sie jederzeit frei entscheiden können, ob sie den

Touchscreen oder die Spracheingabe verwendet möchten. Während über die Sprachein-

gabe bereits auf dem ersten Listenbildschirm alle verfügbaren Eingaben auch von weiter

hinten liegenden Listenbildschirmen erkannt werden, können per Toucheingabe nur

Eingaben ausgewählt werden, die unmittelbar sichtbar sind und direkt angeklickt wer-

den können. Um bei der Touchinteraktion also Eingaben von weiter hinten liegenden

Listenbildschirmen auszuwählen, ist ein Klick auf die Taste mit dem blauen Pfeil am

rechten unteren Rand der Anwendung notwendig, um zum jeweils nächsten Listenbild-

schirm geführt zu werden – und zwar solange bis der entsprechende Eintrag als grau

unterlegter Button auf dem Listenbildschirm erscheint. Dessen Auswahl ist dann durch

einen Klick zu bestätigen.

Methoden ______________________________________________________________________________

32

a)

b)

Abbildung 2: Listenbildschirme für die Subaufgabe „Stadt auswählen“. Während per Spracheingabe alle verfügbaren Eingaben bereits auf dem ersten Listenbildschirm erkannt werden (a), erfordert es die Toucheingabe, durch alle Listenbildschirme bis zur entsprechenden Eingabe zu klicken (b).

Hat der Nutzer einen Eintrag für die Subaufgabe per Spracheingabe oder per

Touchscreen ausgewählt, gelangt er automatisch zur Startseite zurück, auf dem nun die

entsprechende Auswahl als übernommen angezeigt wird (siehe Abbildung 3a). Sind alle

vier Subaufgaben entsprechend der Vorgaben einer Aufgabe bearbeitet, kann die Suche

per Spracheingabe oder per Klick auf den Button „Restaurant suchen“ auf der Startseite

abschließend initiiert werden (siehe Abbildung 3b). Damit ist die Aufgabe erfolgreich

erledigt, und es erscheint ein Abschlussbildschirm mit der Möglichkeit, die nächste Su-

che zu starten (siehe Abbildung 3c).

a) b) c)

Abbildung 3: Startbildschirm bei fortschreitendem Bearbeitungsstand: (a) eine bearbeitete Subauf-gabe (Stadtauswahl), (b) alle Subaufgaben bearbeitet, anschließend erfolgt der Start zur Suche mit dem Button „Restaurant suchen“, (c) Abschluss der Aufgabe (Endbildschirm).

Aachen

Augsburg

Berlin

Bremen

Aachen

Augsburg

Berlin

Bremen

Chemnitz

Cottbus

Dortmund

Düsseldorf

Essen

Erfurt

Frankfurt

Freiburg

Hamburg

Hannover

Kiel

Köln

Leipzig

Lübeck

Mannheim

München

Osnabrück

Rostock

Stuttgart

Wiesbaden

Berlin Berlin

indisch

18:00 Uhr

4 Personen

Methoden ______________________________________________________________________________

33

3.2.1 Manipulation der fehlerbehafteten Erkennung von Eingaben

Im vorliegenden Versuch wurde die Erkennung sowohl von Spracheingaben als

auch von Toucheingaben durch fehlerbehaftete Interaktionen systematisch manipuliert.

Wie bereits in Abschnitt 2.3.1 erwähnt, werden als Fehler sogenannte „Auslassungen“

verstanden, d.h. dass das System getätigte Eingaben des Nutzers nicht verarbeitet und

Probanden somit gefordert sind, die entsprechende Eingabe erneut vorzunehmen. Um an

bisherige Versuche anzuknüpfen und sowohl für die auditive als auch für die manuelle

Eingabe vergleichbare und plausible Situationen realisieren zu können, wurden in der

vorliegenden Untersuchungen weder Ergänzungen noch Ersetzungen als mögliche Feh-

ler einbezogen (vgl. Hunt, 1990). Sowohl bei der Spracheingabe als auch bei der

Touchinteraktion lag die Rate fehlerhafter Auslassungen in den entsprechenden Ver-

suchsbedingungen bei jeweils 20 Prozent, sodass durchschnittlich jeder fünfte Aktions-

schritt des Nutzers zu einer fehlenden Reaktion des Systems führte.

3.2.1.1 Fehlerbehaftete Sprachinteraktion

Im Fall der Sprachinteraktion erlebten Probanden fehlerhafte Auslassungen da-

durch, dass sie grundsätzlich auf den Startbildschirm zurückgelangten und im unteren

Bereich der Anwendung die Rückmeldung „Die Spracheingabe wurde nicht verstanden“

für ca. 700 ms wahrnehmen konnten (siehe Abbildung 4). Die Fehlerrate wurde automa-

tisch durch einen Wahrscheinlichkeitsalgorithmus erzeugt, sodass fehlerhafte Auslas-

sungen in keinen regelmäßigen Abständen im Lauf der Interaktion auftraten.

Abbildung 4: Feedback in der Bedingung fehlerbehafteter Eingaben bei der Sprachinteraktion.

Methoden ______________________________________________________________________________

34

3.2.1.2 Fehlerbehaftete Touchinteraktion

Fehlerhafte Auslassungen bei der Touchinteraktion nahmen Probanden dadurch

wahr, dass sie den Touchscreen zwar berührten, das Gerät jedoch keine Reaktion zeigte

und für 1.4 Sekunden nicht bedient werden konnte. Im Gegensatz zur Sprachinteraktion

wurde bei fehlerhaften Auslassungen in der Touchinteraktion auf eine verbalisierte

Rückmeldung an die Probanden verzichtet, da es äußerst unwahrscheinlich erschien,

dass ein reales System solche Rückmeldungen beim Nicht-Erkennen einer

Toucheingabe produzieren würde. Bereits im Rahmen unsystematisch durchgeführter

Vorbefragungen und Experteneinschätzungen zeigte sich, dass ein verbalisiertes Feed-

back für die Fehlermanipulation der Touchinteraktion aus anwendungsorientierter Sicht

nicht überzeugend vermittelbar gewesen wäre.

Zudem wurde bei der Ermittlung der Fehlerrate kein statistischer Algorithmus

verwendet, sondern es wurde exakt jede fünfte Touchinteraktion mit einer fehlerbehaf-

teten Auslassung versehen. Dies wiederum hat zur Folge, dass das Zurückwerfen auf

die Startseite analog zur fehlerbehafteten Spracheingabe nicht umgesetzt werden konn-

te. In diesem Fall wären nämlich Subaufgaben, bei denen Zieleingaben auf dem vierten,

fünften oder sechsten Listenbildschirm zu finden sind, durch die reine Touchinteraktion

allein nicht mehr lösbar gewesen. Um den entstehenden Zeitvorteil bei fehlerbehafteten

Eingaben in der Touchvariante auszugleichen, wurde die bereits erwähnte zeitliche Ver-

zögerung von 1.4 Sekunden im Anschluss an den fehlerhaften Klick eingesetzt, in wel-

cher das Gerät nicht bedient werden konnte. Diese Zeitspanne wurde empirisch ermittelt

und entsprach der durchschnittlichen Zeit, die ein Nutzer benötigt, um vom Startbild-

schirm per Sprachinteraktion auf den ersten Listenbildschirm zu wechseln, von wo aus

er per Sprachinteraktion alle verfügbaren Eingabeelemente auswählen kann. Durch die-

se Verzögerung zeigen sich beide fehlerbehafteten Modalitäten bezüglich des zeitlichen

Aufwandes der Aufgabenlösung wiederum miteinander vergleichbar.

3.3 Versuchsaufbau

Das vorliegende Experiment wurde als Wizard-of-Oz Versuch mit zwei Ver-

suchsleitern umgesetzt. Hierbei betreut ein Versuchsleiter jeweils die Probanden und

organisiert den Versuchsablauf, wohingegen der zweite Versuchsleiter für die Proban-

den nicht erkennbar im Hintergrund agiert und Systemreaktionen einleitet. Solche Ver-

Methoden ______________________________________________________________________________

35

suchsaufbauten werden im Bereich der Mensch-Maschine-Interaktion immer dann ver-

wendet, wenn nicht die technische Realisierung einer Systemkomponente im Vorder-

grund steht, sondern vielmehr das Nutzerverhalten und die Akzeptanz für bestimmte

Gestaltungslösungen. Da Wizard-of-Oz Versuche bereits mit vereinfachten Prototypen

durchgeführt werden können, stellen sie eine effektive Möglichkeit dar, um die Erfül-

lung von Nutzerbedürfnissen bereits in frühen Phasen der Produktentwicklung evaluie-

ren und absichern zu können. Im vorliegenden Fall wurde die Spracherkennung durch

einen zweiten Versuchsleiter simuliert. Die Entscheidung wurde zugunsten eines Wi-

zard-of-Oz Versuchsaufbaus getroffen, da die gängige Spracherkennungstechnik keine

absolut zuverlässige Versuchsbedingung (0% Fehlerrate) hätte garantieren können. Für

den berichteten Versuch ist der Aufbau in Abbildung 5 dargestellt. Der Proband saß zur

Bearbeitung der Aufgaben in einer schallisolierten Akustikkabine, welche mit einer

Mikrofonverbindung zum zweiten Versuchsleiter (Wizard) präpariert war. Der Wizard

befand sich während des gesamten Versuchs außerhalb der Kabine und war für den

Probanden auch beim Betreten des Versuchsraumes durch eine abgetrennte Wandver-

kleidung nicht sichtbar. Über einen Kopfhörer vernahm der Wizard die Sprachbefehle

des Probanden, die er an das System stellte. Als mobiles Endgerät wurde ein Google G1

Mobiltelefon von HTC mit Android 1.6 als Betriebssystem verwendet. Dieses wiede-

rum war mittels einer TCP/IP-Verbindung über ein separates W-Lan-Netz und einer

Übertragungsrate von 54 Mbit/s mit einem Rechner verbunden, an welchem der Wizard

die gewünschten Eingaben des Probanden durch einen Klick direkt vornehmen konnte.

Abbildung 5: Wizard-of-Oz Versuchsaufbau. Während der Proband in der Akustikkabine am Gerät arbeitet, wurden Spracheingaben vom zweiten Versuchsleiter (Wizzard) außerhalb der Kabine simuliert.

Methoden ______________________________________________________________________________

36

Da bei der Spracheingabe der Proband bereits auf dem ersten Listenbildschirm

alle verfügbaren Elemente einer Subaufgabe nennen konnte, verfügte der Wizard über

eine erweiterte Benutzerschnittstelle, die auf seinem Monitor sämtliche Eingabe-

möglichkeiten auf einen Blick darstellte. Da Nutzer auch jederzeit selbstständig per

Toucheingabe mit dem Gerät interagieren konnten, zeigte eine rote Markierung jeweils,

in welcher Subaufgabe sich ein Nutzer gerade befindet (siehe Abbildung 6). Zu bemer-

ken ist an der Stelle, dass Fehler bei der Spracherkennung wie bereits im Abschnitt

4.2.1 beschrieben, durch einen statistischen Wahrscheinlichkeitsalgorithmus automati-

siert in die Interaktion eingebracht wurden. Somit reagierte der Wizard ausschließlich

auf die Sprachkommandos des Probanden, wohingegen ihm die Manipulation der Fehler

nicht zugänglich war.

Abbildung 6: Systemansicht für den zweiten Versuchsleiter (Wizard). Rot markiert ist zur besseren Übersichtlichkeit die aktuell dem Probanden zur Verfügung stehende Auswahl an möglichen Eingaben.

Insgesamt haben am Versuch vier verschiedene Versuchsleiter teilgenommen,

wobei ein Versuchsleiter durchweg als erster Versuchsleiter fungierte und drei Ver-

suchsleiter sich als Wizard unsystematisch abwechselten. Die drei Wizards wurden in

einem vorherigen Versuchsleitertraining auf ihren Einsatz vorbereitet und übten in ver-

schiedenen Testläufen die Normalbedienung als auch ein konsistentes Reagieren auf

kritische Bedienvorgänge, wie beispielsweise unverständliche oder unvollständige

Sprachkommandos.

Methoden ______________________________________________________________________________

37

3.4 Abhängige Variablen und Messinstrumente

Als abhängige Variablen wurden Verhaltensdaten und subjektive Bewertungen

erhoben. Im Bereich des Nutzerverhaltens diente die relative Nutzungshäufigkeit von

Sprache als Kennwert für die Wahl der Eingabemodalität. Als subjektive Bewertung

wurde die erlebte Beanspruchung und die wahrgenommene Produktqualität als Gesamt-

urteil über die Interaktion erhoben. Zur Messung der Beanspruchungshöhe diente im

Anschluss an jede Aufgabe die eindimensionale Skala zur Erfassung der subjektiv er-

lebten Anstrengung (SEA) nach Eilers, Nachreiner & Hänecke (1986). Die Produktqua-

lität wurde im Anschluss an jeden Aufgabenblock mit Hilfe des AttrakDiff nach

Hassenzahl, Burmester & Koller (2003) erhoben. Dieser Fragebogen besteht aus insge-

samt 28 Items in Form eines semantischen Differentials, welche zu den vier Dimensio-

nen (1) pragmatische Qualität, (2) hedonische Qualität – Identifikation, (3) hedonische

Qualität – Stimulation und (4) Attraktivität aggregiert werden. Während die pragmati-

sche Qualität vor allem Aspekte der Zielerreichung (Einfachheit, Übersichtlichkeit und

Erwartungskonformität) betreffen, beschreiben die Dimensionen zur hedonischen Quali-

tät vor allem nicht-aufgabenbezogene Systemeigenschaften, wie soziale Verbundenheit,

Integration, Prestige (Identifikation) oder Originalität, Neuartigkeit und Motivation

(Stimulation). Mit der Dimension Attraktivität wird ein globales Gesamturteil zum Pro-

dukt (Sympathie, Schönheit) erfasst.

3.5 Datenaufbereitung

Um die unmittelbare Interaktion mit dem mobilen Endgerät zu erheben, wurde

für jede Versuchsperson ein Logfile in Form eines Excel-Dokumentes erstellt, in wel-

ches folgende Angaben automatisch abgespeichert wurden: (1) die Aufgabe, die die

Person bearbeitete, (2) den Ausgangszustand des Systems vor der Interaktion, (3) die

Modalität, mit der die Interaktion stattfand, (4) die Eingabe, die gemacht wurde und ob

diese gegebenfalls mit einer fehlerbehaften Auslassung versehen wurde, (5) die Anzahl

getätigter Interaktionsschritte seit Beginn einer Subaufgabe, (6) ein Systemzeitstempel

und (7) der Druck in g/mm², mit dem eine Eingabe im Fall einer Touchinteraktion vor-

genommen wurde. Im Rahmen der vorliegenden Arbeit wurden ausschließlich aus der

aufgezeichneten Modalitätenwahl relative Prozentangaben der Nutzung von Sprache für

die beiden Bildschirmansichten Startseite und erster Listenbildschirm einer Subaufgabe

ermittelt. Um die Angaben aus den aufgezeichneten Logfiles zu erhalten, wurde ein

Methoden ______________________________________________________________________________

38

mathematischer Algorithmus in MatLAB ® verwendet, der die Werte für alle Subauf-

gaben sortierte und aggregierte. In Folge, lagen für jeden Probanden pro Aufgabenblock

genau sechs Kennwerte vor, welche der jeweiligen Listenbildschirmtiefe der Subaufga-

be entsprechen. Somit geben diese Werte die prozentuale Nutzung von Sprache an unter

Berücksichtigung, auf welchem Listenbildschirm die konkreten Auswahlmöglichkeiten

zu finden waren. Zur Analyse wurden die Kennwerte in die Statistiksoftware SPSS ®

exportiert.

Die Angaben zum subjektiven Erleben (Beanspruchung und Systembewertun-

gen) wurden manuell in die Datenmaske übertragen. Hierbei wurden die SEA-Werte als

Rohwerte ausgewertet, wohingegen die Items des AttrakDiff zu den unter 4.5 erwähnten

Dimensionen aggregiert wurden.

3.6 Untersuchungsablauf

Nach dem Betreten des Untersuchungslabors führte der erste Versuchsleiter die

Probanden unmittelbar in die Akustikkabine, wo sie auf einem bequemen Bürosessel

Platz nehmen konnten. Die Akustikkabine wurde den Probanden als optimale Umge-

bung für die Untersuchung der Spracheingabemodalität eingeführt. Wie bereits in Ab-

schnitt 4.3 erläutert, lag der Arbeitsplatz des zweiten Versuchsleiters, des Wizard, au-

ßerhalb der Akustikkabine durch mehrere Sichtschutzwände abgetrennt.

Zu Beginn des Versuchs erklärten die Probanden ihr Einverständnis zur Teil-

nahme an der Untersuchung, und sie füllten einen kurzen Fragebogen zur Erhebung

soziodemografischer Daten sowie ihrer Vorerfahrung mit Touchdisplays bzw. Sprach-

dialogsystemen aus. Anschließend wurden die Teilnehmer schriftlich über den Verlauf

der Untersuchung sowie über die Bedienmöglichkeiten des Prototypen informiert. Hier-

bei wurde ihnen erklärt, dass sie im Laufe der Untersuchung eine Reihe prototypischer

Bedienaufgaben bearbeiten werden und dass der Prototyp sowohl per Toucheingabe als

auch per Spracheingabe bedient werden kann. Die Probanden wurden instruiert, dass sie

sich selbst für eine Eingabemodalität entscheiden können und ein Modalitätenwechsel

jederzeit, auch innerhalb einer Aufgabe, möglich ist. Es wurde darauf hingewiesen,

dass, egal welche Modalität genutzt wird, auf der Startseite zunächst das Kriterium

(Stadt, Kategorie, Uhrzeit, Personen) auszuwählen ist, bevor die eigentliche Eingabe

vorgenommen werden kann. Ebenso wurde erwähnt, dass per Spracheingabe bereits auf

dem ersten Listenbildschirm alle verfügbaren Auswahlelemente aufgerufen werden

können, während per Toucheingabe nur die unmittelbar angezeigten Elemente auf den

Methoden ______________________________________________________________________________

39

Listenbildschirmen angeklickt werden können. Für die genauen Instruktionen sei an

dieser Stelle auf den Anhang dieser Arbeit (Abschnitt B) verwiesen.

Daraufhin startete der Versuchsleiter eine der vier Anwendungsversionen auf

dem Smartphone, zu der die Probanden zuvor randomisiert zugeordnet wurden (Sprache

einwandfrei/ Touch einwandfrei, Sprache einwandfrei/ Touch fehlerbehaftet, Sprache

fehlerbehaftet/ Touch einwandfrei, Sprache fehlerbehaftet/ Touch fehlerbehaftet). Um

die Probanden mit dem Versuchsablauf vertraut zu machen und weitere standardisierte

Instruktionen zu vermitteln, wurden zunächst drei Übungsdurchgänge unter Anwesen-

heit des Versuchsleiters durchgeführt. Hierzu bekamen die Probanden das Smartphone

in die Hand unter Beachtung, dass sie das Gerät während des Versuchs stets in der lin-

ken Hand halten mögen, um Eingaben per Touch jederzeit mit der rechten Hand vor-

nehmen zu können; keinesfalls sollte das Gerät während der Aufgabenbearbeitung un-

berührt auf dem Tisch liegen. Die Übungsdurchgänge bestanden aus drei Aufgaben, die

den Probanden in Papierform vorgelegt wurden. Um beide Eingabemodalitäten mit ih-

ren Vor- und Nachteilen (Effizienzsteigerung durch Spracheingabe, manipulierte Feh-

lerbedingungen) kennenzulernen, war die erste Aufgabe ausschließlich per Touch zu

erledigen und die zweite ausschließlich per Sprache. Die dritte Aufgabe konnte, wie

instruiert, mit der präferierten Modalität bzw. unter einer jederzeit vorliegenden Wech-

selmöglichkeit bearbeitet werden. Nach jeder Aufgabe bewerteten die Probanden ihre

subjektiv erlebte Anstrengung auf der SEA-Skala, die ihnen als Stift-Papier-Version

vorgelegt wurde. Für einen geregelten Ablauf wurden Teilnehmer instruiert, den bereit-

gelegten Stift nur zum Ankreuzen in die Hand zu nehmen und diesen während der Auf-

gabenbearbeitung frei auf dem Tisch liegen zu lassen. Nach dem Training bestand die

Möglichkeit, noch offene Fragen zum Versuch zu klären.

Anschließend wurde die Akustikkabine geschlossen und die Probanden konnten

die zwölf Aufgaben des ersten Blockes alleine und in ihrem eigenen Arbeitstempo erle-

digen. Die Aufgaben wurden den Teilnehmern einzeln und nacheinander auf einem 14‘‘

Monitor präsentiert und waren während der Bearbeitung für die Probanden jederzeit

sichtbar. Bei der Aufgabenkonstruktion wurde im Vorfeld darauf geachtet, dass sechs

der zwölf Aufgaben subaufgabenkonsistent waren, d.h. dass die Auswahlelemente für

alle vier Subaufgaben einer Gesamtaufgabe auf einer bestimmten Listentiefe liegen (al-

so alle vier Elemente auf dem jeweils ersten, zweiten, dritten, vierten, fünften oder

sechsten Listenbildschirm). Für die übrigen sechs Aufgaben des Blockes wurde die Lis-

tentiefe bei den Subaufgaben systematisch variiert (siehe Abschnitt C.II im Anhang).

Methoden ______________________________________________________________________________

40

Zudem wurde die Präsentationsreihenfolge der zwölf Aufgaben für alle Probanden in-

nerhalb einer Versuchsbedingung systematisch ausbalanciert, um mögliche Reihenfol-

geeffekte zu vermeiden (siehe Abschnitt D im Anhang). Nach jeder Aufgabe bewerteten

die Probanden selbstständig die subjektiv erlebte Anstrengung, worauf sie zusätzlich

über den Präsentationsbildschirm hingewiesen wurden. Nach Bearbeitung des ersten

Blockes betrat der Versuchsleiter die Akustikkabine und überreichte den Probanden den

Fragebogen AttrakDiff mit der Bitte, damit das Gesamtsystem zu bewerten. Während-

dessen startete der Versuchsleiter die Anwendung erneut, wobei jeder Proband im zwei-

ten Aufgabenblock dieselbe Versuchsbedingung zugewiesen bekam wie im ersten

Block. Ebenso waren Instruktionen und Ablauf für den zweiten Block identisch. Teil-

nehmer bearbeiteten auch dieselben zwölf Aufgaben, jedoch wurden diese in einer an-

deren Reihenfolge präsentiert. Entgegen des ersten Aufgabenblockes erhielten alle Pro-

banden im zweiten Aufgabenblock jedoch keine ausbalancierten Reihenfolgen, sondern

es gab nur eine für alle Probanden zugewiesene Reihenfolge. Nach Erledigung des

zweiten Blocks wurde auch der Fragebogen AttrakDiff ein zweites Mal vorgelegt.

Abbildung 7: Schematischer Versuchsablauf.

Zum Abschluss wurde die Teilnahmevergütung von 10 Euro ausbezahlt, und die

Probanden wurden vor der Verabschiedung ausführlich über den Wizard-of-Oz Ver-

suchsaufbau aufgeklärt. Je nach Versuchsbedingung dauerte eine Untersuchungseinheit

zwischen 30 und 45 Minuten. Der schematische Versuchsablauf ist in Abbildung 7 gra-

fisch zusammengefasst.

3.7 Stichprobenbeschreibung

An der Untersuchung haben insgesamt 48 Probanden teilgenommen, darunter 24

Frauen und 24 Männer, welche gleichmäßig auf die vier Untersuchungsbedingungen

Ein

vers

tänd

nis

Inst

rukt

ione

n

Tra

inin

gs-

aufg

aben

SE

A-S

kala

drei Aufgaben: (1) nur Touch (2) nur Sprache (3) multimodal

12 Aufgaben

ausbalancierte Reihenfolgen

Auf

gabe

n im

1.

Blo

ck

S

EA

-Ska

la

Att

rakD

iff

Beg

rüßu

ng

Auf

gabe

n im

2.

Blo

ck

S

EA

-Ska

la

12 Aufgaben

unbalancierte Reihenfolgen

Att

rakD

iff

Auf

klär

ung

Ver

absc

hied

ung

Methoden ______________________________________________________________________________

41

verteilt wurden. Das Alter der Personen lag zwischen 19 und 40 Jahren mit einem

Durchschnittsalter von M = 25.2 Jahren (s = 3.73). Die Akquise der Teilnehmer erfolgte

über die Probandenserver der Humboldt-Universität (PESA) und des Zentrums Mensch-

Maschine-Systeme sowie über die eMail-Verteiler der Studenten im Fach Human

Factors an der Technischen Universität Berlin und der Studenten in Psychologie an der

Freien Universität Berlin. Die Stichprobe bestand aus 44 Studenten unterschiedlicher

Fachrichtungen, zwei Selbstständigen, einer Berufstätigen sowie einer Abiturientin.

Bei der Rekrutierung wurden Personen ausgeschlossen, die an früheren Versu-

chen mit dem Restaurantbuchungssystem teilgenommen haben. Dennoch wiesen acht

Probanden (17 Prozent) darauf hin, dass sie bereits aus anderen Untersuchungen Erfah-

rungen zum Einsatz von Sprachsteuerungssystemen mitbrachten.

Die Hälfte aller Teilnehmer (n = 24) gab an, ein Mobiltelefon mit Touchscreen

Display zu besitzen, welches in drei von vier Fällen (n = 18) zusätzlich auch über eine

Funktion zur Spracheingabe verfügt. Bemerkenswert ist, dass nur ein Proband ein-

schätzte, diese Funktion „oft“ zu verwenden, wohingegen fünf Probanden sie lediglich

„selten“ und zwölf Probanden „nie“ benutzen. Darüber hinaus gab ein großer Teil der

Stichprobe (n = 40 bzw. 83 Prozent) an, zumindest über gelegentliche Erfahrungen mit

Sprachdialogsystemen (z.B. Hotline, Callcenter, etc.) zu verfügen. Ebenso werden in-

teraktive Geräte mit Touchscreen Funktionalität von den meisten Teilnehmern (n = 39

bzw. 81 Prozent) mindestens ein Mal pro Woche verwendet.

Zusammenfassend kann somit festgehalten werden, dass die Teilnehmer des vor-

liegenden Experimentes hauptsächlich junge Studenten aus unterschiedlichen Fachdis-

ziplinen sind, deren Verteilung im Bereich selbst eingeschätzter Nutzungserfahrung für

ein insgesamt technikaffin ausgeprägtes Nutzungsverhalten sprechen.

Ergebnisse ______________________________________________________________________________

42

4 Ergebnisse

Im folgenden Kapitel werden die Ergebnisse der experimentellen Untersuchung

berichtet. Begonnen wird mit der Prüfung der statistischen Voraussetzungen in den Ver-

teilungen der abhängigen Variablen. Im zweiten Abschnitt werden anschließend die

Ergebnisse zur Modalitätenwahl vorgestellt. Die Prüfung der statistischen Bedeutsam-

keit von Unterschieden in der subjektiv erlebten Anstrengung fasst der dritte Abschnitt

zusammen, diejenigen zur wahrgenommenen Produktqualität sodann der vierte Ab-

schnitt.

4.1 Prüfung der statistischen Voraussetzungen

Bevor die durchgeführten Analysen dargelegt werden, sind zunächst die statisti-

schen Voraussetzungen in den Verteilungen der abhängigen Variablen zu betrachten.

Als wichtigste Merkmale bei der Durchführung von (multivariaten) Varianzanalysen

mit Messwiederholung sind die Annahmen zur Normalverteilung, zur Varianzhomoge-

nität und ggf. zur Sphärizität zu überprüfen (Backhaus et al., 2011).

Der Test auf Normalverteilung der Variablen wurde aufgrund der vorliegenden

Stichprobengröße (n = 48) mit dem Shapiro-Wilk-Test durchgeführt, der sich für Stich-

proben bis zu n < 50 eignet. Ist der Shapiro-Wilk-Test signifikant (p < .05), weicht die

untersuchte Variable von der Normalverteilung ab. Es zeigte sich, dass für den überwie-

genden Teil der abhängigen Variablen signifikante Werte im Shapiro-Wilk-Test vorlie-

gen, sodass in diesen Fällen nicht von einer Normalverteilung ausgegangen werden

kann (siehe Tabelle im Anhang). Bei dem Shapiro-Wilk-Test handelt es sich um ein

sehr sensitives Maß für die Nicht-Normalverteilung (Hopkins & Weeks, 1990). Einige

Autoren betrachten Abweichungen von der Normalverteilung als unproblematisch,

wenn die Schiefe der Verteilung einen Betrag von unter drei und eine Kurtosis von

nicht größer als zehn aufweist (z.B. Kline, 1998). Die Betrachtung der entsprechenden

Kennwerte zeigt, dass diese Kriterien durchweg für sämtliche kritische Verteilungen

erfüllt sind (siehe Abschnitt F.I im Anhang). Aus diesem Grund wurde von einer Trans-

formation der berichteten Variablen abgesehen.

Die Homogenität der Varianz für jede abhängige Variable über alle Stufenkom-

binationen der Zwischensubjektfaktoren wurde mit dem Levene-Test auf Gleichheit der

Kovarianzen überprüft. Ist der Levene-Test signifikant (p < .05), muss davon ausgegan-

Ergebnisse ______________________________________________________________________________

43

gen werden, dass die Varianzhomogenität verletzt ist. Die Ergebnisse zeigen, dass der

Levene-Test in mehreren Fällen (bei 47 Prozent aller Überprüfungen) zu signifikanten

Resultaten führt (siehe Abschnitt F.II Anhang). Da im vorliegenden Versuchsdesign

jedoch alle Zellen vollständig und gleichmäßig besetzt sind und inhomogene Varianzen

die Interpretation der Varianzanalyse nur dann ernsthaft in Frage stellen, wenn die

Gruppengröße der verglichenen Zellen ungleich groß bzw. das Verhältnis zwischen

größter und kleinster Zellenbesetzung größer als 1.5 ist (Tinsley & Brown, 2000), wur-

de auch in diesem Fall von einer Transformation der Werte abgesehen.

Die Voraussetzung der Sphärizität wurde mit dem Mauchly-Test geprüft. Dieser

Test analysiert, ob die Varianzen der Differenzen zwischen Messwertpaaren in Mess-

wiederholungsdesigns gleich groß sind. Da die Überprüfung der Sphärizität erst für In-

nersubjektfaktoren relevant wird, die mindestens dreifach gestuft sind, wurde der

Mauchly-Test nur für den Faktor Listentiefe und nicht für den Faktor Aufgabenblock

angewendet. In einer durchgeführten Varianzanalyse lieferte der Mauchly-Test für den

Faktor Listentiefe ein signifikantes Ergebnis (p < .05), sodass angenommen werden

muss, dass die Voraussetzung der Sphärizität verletzt ist (siehe Abschnitt 5.3). In einer

weiteren Varianzanalyse erwies sich die Annahme der Sphärizität für den Interaktions-

term Listentiefe x Aufgabenblock als nicht erfüllt (siehe Abschnitt 5.4). In beiden Fäl-

len wurde für die Bestimmung der Signifikanz eine Adjustierung der Zähler- und

Nennerfreiheitsgrade mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen. Bei

der Vorstellung der Analyseverfahren in der Einleitung dieser Abschnitte wird auf diese

Anpassung erneut hingewiesen.

4.2 Analyse der Modalitätenwahl

Um zu überprüfen, inwieweit fehlerhafte Auslassungen in den Eingabemodalitä-

ten einerseits und der manipulierte Effizienzvorteil von Sprache gegenüber Touch-

eingaben andererseits zu systematischen Veränderungen in der Modalitätenwahl führ-

ten, wurden die relativen Häufigkeiten der Sprachnutzung auf dem Startbildschirm so-

wie die nach Subaufgaben aggregierten relativen Häufigkeiten der Nutzung von Sprache

auf dem jeweils ersten Listenbildschirm einer Subaufgabe ausgewertet. Beide Analysen

werden in den folgenden Abschnitten berichtet.

Ergebnisse ______________________________________________________________________________

44

4.2.1 Modalitätenwahl auf dem Startbildschirm

Zur Analyse der Modalitätenwahl auf dem Startbildschirm der Anwendung wur-

de eine 2x2x2 Varianzanalyse mit einfacher Messwiederholung und den beiden unab-

hängigen Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft: S-) sowie Touch-

erkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet. Die inferenzstatistischen Ergeb-

nisse der Analyse sind in Tabelle 3 zusammengefasst.

Tabelle 3: Varianzanalyse zur Sprachnutzung auf der Startseite. Anmerkung: (*) p < .1; ** p < .01.

Quelle der Varianz F df1 df2 p part. η

2

Spracherkennung (S) - between 2.967 1 44 .092 (*) 0.063

Toucherkennung (T) - between 18.049 1 44 < .001 ** 0.291

Aufgabenblock (B) - within 0.009 1 44 .923 < 0.001

S x T 0.579 1 44 .451 0.013

B x T 1.444 1 44 .236 0.032

B x S 0.723 1 44 .400 0.016

B x S x T 0.858 1 44 .359 0.019

Für Interaktionen auf dem Startbildschirm zeigt sich, dass die Präferenz für die

Verwendung der Modalität Sprache bedeutsam von Fehlern in der Toucherkennung,

jedoch nur tendenziell von Fehlern in der Spracherkennung beeinflusst wird (siehe Ta-

belle 3). Entsprechend der Mittelwerte in Abbildung 8 ist ersichtlich, dass fehlerhafte

Auslassungen in der Modalität Touch (T-) erwartungsgemäß dazu führen, dass Sprache

signifikant häufiger gewählt wird. Ebenfalls erwartungskonform ist die Tendenz zur

geringeren Sprachnutzung, wenn das System Spracherkennungsfehler (S-) produziert.

Zwischen den zwei Aufgabenblöcken liegen keine relevanten Unterschiede vor.

0

0,2

0,4

0,6

0,8

1

keine Touchfehler (T+) Touchfehler (T-)

Sprachnutzung auf dem Startbildschirm

Spracherkennungsfehler (S-)

keine Spracherkennungsfehler (S+)

Abbildung 8: Mittelwerte und Standardabweichungen der Modalitätenwahl Sprache (relative Häu-figkeiten) auf dem Startbildschirm in Abhängigkeit zu den vier Versuchsbedingungen.

Ergebnisse ______________________________________________________________________________

45

4.2.2 Modalitätenwahl auf den Listenbildschirmen

Um zu überprüfen, inwieweit die Modalität Sprache auf dem jeweils ersten Lis-

tenbildschirm einer Subaufgabe unterschiedlich häufig in Abhängigkeit zu den fehler-

behafteten Eingabemodalitäten und zur manipulierten Listentiefe der auszuwählenden

Einträge verwendet wird, wurde eine 2x2x6x2 Varianzanalyse mit einfacher Messwie-

derholung sowie der fehlerbehafteten Spracherkennung (einwandfrei: S+/ fehlerhaft: S-)

und der fehlerbehafteten Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet.

Als sechsfachgestufter Innersubjektfaktor gingen in die Analyse die nach Listentiefe

sortierten und aggregierten Werte der Sprachnutzung für alle 48 Subaufgaben eines

Aufgabenblockes ein. Jede Faktorstufe wird somit durch einen Mittelwert aus acht Ein-

zelmessungen präsentiert. Die Resultate der Varianzanalyse zeigt Tabelle 4. Zu beach-

ten ist hierbei, dass sich für den Innersubjektfaktor Listentiefe (L) die

Sphärizitätsannahme als Voraussetzung für die Interpretation der Ergebnisse einer Va-

rianzanalyse mit Messwiederholung als verletzt zeigt (p < .01), sodass die

Signifikanzprüfung in diesen Fällen nach einer Adjustierung der Zähler- und Nenner-

freiheitsgrade mit Hilfe der Greenhouse-Geisser Korrektur vorgenommen wurde.

Tabelle 4: Varianzanalyse zur Sprachnutzung auf dem jeweils ersten Listenbildschirm einer Sub-aufgabe. Anmerkung: 1 = Greenhouse-Geisser korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01.


2

Spracherkennung (S) - between 0.149 1 44 .701 0.003

Toucherkennung (T) - between 11.994 1 44 .001 ** 0.214

Listentiefe (L) – within 30.837 2.381 104.581 < .001 ** 0.412

Aufgabenblock (B) - within 9.977 1 44 < .003 ** 0.185

S x T 0.534 1 44 .469 0.012

S x L 1.793 2.381 104.581 .165 0.039

S x B 0.035 1 44 .853 0.001

T x L 4.100 2.381 104.581 .014 * 0.085

T x B 3.674 1 44 .062 (*) 0.019

L x B 1.288 3.451 151.951 .280 0.028

S x T x B 0.907 1 44 .346 0.020

S x L x B 0.366 3.451 151.951 .805 0.008

T x L x B 0.258 3.451 151.951 .881 0.006

S x T x L 0.625 2.381 104.581 .564 0.014

S x T x L x B 1.739 3.451 151.951 .153 0.038

Ergebnisse ______________________________________________________________________________

46

Analog zum Interaktionsverhalten auf dem Startbildschirm beeinflusste das Vor-

liegen von Fehlern in der Modalität Touch die Präferenz für die Nutzung von Sprache

signifikant, wohingegen Spracherkennungsfehler keinen bedeutsamen Einfluss auf die

Nutzung der Sprachmodalität ausübten. Die vorliegenden Unterschiede in der Häufig-

keit der Sprachnutzung visualisiert Abbildung 9 grafisch. Bereits deskriptiv ist zur er-

kennen, dass die Systemvarianten mit Touchfehlern (blaue und violette Kurven: T-) in

beiden Aufgabenblöcken mit einer deutlich erhöhten Sprachnutzung einhergehen.

Zudem konnte beobachtet werden, dass die Modalitätenwahl auf den jeweils ers-

ten Listenbildschirmen bedeutsam davon abhängt, auf welchem Listenbildschirm das

entsprechende Auswahlelement zu finden war: Je höher die Listentiefe ist und je mehr

Klickinteraktionen per Toucheingabe erforderlich wären, um die Aufgabe erfolgreich zu

bearbeiten, desto wahrscheinlicher wird es, dass Nutzer den Interaktionsvorteil der di-

rekten Spracheingabe auf dem ersten Listenbildschirm akzeptieren (siehe Abbildung 9).

Bonferroni korrigierte post Hoc Einzelpaarvergleiche1 zeigen auf, dass die relative Häu-

figkeit der Sprachnutzung zwischen den beiden Bedingungen der Touchfunktionalität

(einwandfrei: T+ und fehlerhaft: T-) im ersten Aufgabenblock signifikant unterschied-

lich ausfällt, wenn die Eingaben auf dem ersten, zweiten oder dritten Listenbildbild-

schirm zu finden sind. Demnach verwenden Nutzer die Modalität Touch häufiger, wenn

der Vorteil gegenüber Sprache eine Einsparung von bis zu zwei Interaktionsschritten

beinhaltet, allerdings nur, wenn die Modalität Touch nicht fehlerbehaftet ist. Im zweiten

Aufgabenblock zeigen die Bonferroni post Hoc Einzelpaarvergleiche1, dass die fehler-

frei funktionierende Modalität Touch lediglich bei Eingaben auf dem ersten Listenbild-

schirm verwendet wird, also nur dann, wenn kein direkter Effizienzvorteil der Modalität

Sprache im Sinne eingesparter Interaktionsschritte vorliegt.

1 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von αlok = αglobal / k herabgesetzt, wobei αglobal dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten Einzelpaarvergleichen präsentiert.

Ergebnisse ______________________________________________________________________________

47

.

Abbildung 9: Mittelwertverläufe der Modalitätenwahl Sprache (relative Häufigkeiten) auf dem jeweils ersten Listenbildschirm einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im ersten (oben) bzw. zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlele-mente abgetragen, der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu finden ist.

Die signifikante Interaktion zwischen der Listentiefe und der Versuchsbedin-

gung Touch zeigt darüber hinaus, dass die Zunahme der Sprachnutzung über die Listen-

tiefe hinweg für die Bedingungen mit fehlerbehafteter Toucheingabe (blaue und violette

Kurven in Abbildung 9) auf bereits hohem Niveau eher flach ausfällt, wohingegen der

Interaktionsvorteil bei einwandfreier Toucherkennung (orange und grün) bedeutsam

steiler verläuft. Inhaltlich bedeutet dies, dass Probanden für die Auswahl von Elemen-

ten, welche bereits direkt auf dem ersten bzw. noch auf dem zweiten Listenbildschirm

zu finden waren, eher die Modalität Touch verwendet haben und zwar insbesondere

dann, wenn diese Modalität nicht mit fehlerhaften Auslassungen versehen war.

Wie Tabelle 3 zudem darstellt, entschieden sich die Probanden im zweiten Auf-

gabenblock signifikant öfter für die Modalität Sprache als im ersten Block (M = .82,

s = 0.22 versus M = .78 s = 0.24).

Listentiefe

Listentiefe

rela

tive

Hä

ufi

gke

it d

er

Sp

rach

nu

tzu

ng

1. Aufgabenblock

2. Aufgabenblock

Ergebnisse ______________________________________________________________________________

48

4.3 Analyse der subjektiv erlebten Anstrengung (SEA)

Die Werte zur wahrgenommenen Beanspruchung wurden ebenfalls in einer

2x2x6x2 Varianzanalyse mit Messwiederholung ausgewertet. Da die Bewertungen ret-

rospektiv, also nach Abschluss jeder Aufgabe, erhoben worden sind, konnten nur dieje-

nigen sechs Beanspruchungsurteile pro Aufgabenblock in die Analyse aufgenommen

werden, für die die Aufgaben aus konsistenten Subaufgaben bestanden. Konsistent be-

deutet an dieser Stelle, dass alle vier Subaufgaben, auf die sich das eine Abschlussurteil

bezieht, eine identische Listentiefe aufweisen. Im Gegensatz zur Modalitätenwahl, bei

der alle Subaufgaben berücksichtigt werden konnten, werden die Faktorstufen der Lis-

tentiefe in der Messung der subjektiv erlebten Anstrengung somit jeweils durch genau

eine Einzelmessung präsentiert. Während die Sphärizitätsannahme für den Faktor Lis-

tentiefe nicht mit ausreichender Sicherheit verworfen kann, erzielte der Mauchly-Test

für die Interaktion der Innersubjektfaktoren Aufgabenblock x Listentiefe (B x L) ein

signifikantes Ergebnis (p < .01), sodass die Freiheitsgrade für diesen Fall korrigiert

worden sind (vgl. Abschnitt 5.1). Die Resultate der Varianzanalyse fasst Tabelle 5 zu-

sammen, die deskriptiven Daten werden in Abbildung 10 grafisch dargestellt.

Tabelle 5: Varianzanalyse zur subjektiv erlebten Anstrengung. Anmerkung: 1 = Greenhouse-Geisser korrigierte Freiheitsgrade; (*) p < .1; * p < .05; ** p < .01.


2

Spracherkennung (S) - between 16.898 1 44 < .001 ** 0.277

Toucherkennung (T) - between 5.036 1 44 .030 * 0.103

Listentiefe (L) – within 1.170 5 220 .325 0.026

Aufgabenblock (B) - within 6.214 1 44 .017 * 0.124

S x T 3.378 1 44 .073 (*) 0.071

S x L 0.591 5 220 .707 0.013

S x B 0.401 1 44 .530 0.090

T x L 2.232 5 220 .052 (*) 0.048

T x B 0.277 1 44 .601 0.006

L x B 1.490 3.111 137.031 .219 0.033

S x T x B 0.210 1 44 .649 0.005

S x L x B 1.378 3.111 137.031 .251 0.030

T x L x B 0.766 3.111 137.031 .519 0.017

S x T x L 1.706 5 220 .134 0.037

S x T x L x B 0.833 3.111 137.031 .481 0.019

Ergebnisse ______________________________________________________________________________

49

Wie aus Abbildung 10 deutlich wird, liegen die SEA-Bewertungen insgesamt in

einem Bereich geringer Beanspruchung; zur besseren Übersichtlichkeit ist die Ordinate

daher verkürzt dargestellt. Die Varianzanalyse zeigt signifikante Effekte aufgrund der

Manipulation von Fehlern sowohl in der Spracherkennung als auch in der

Touchbedienung (siehe Tabelle 4). Erwartungsgemäß nahmen Probanden höhere Bean-

spruchung wahr, wenn fehlerhafte Auslassungen in der Modalität Sprache (M = 31.39,

s = 20.71 versus M = 12.91, s = 11.37 bei einwandfreier Funktionalität) oder in der

Modalität Touch (M = 27.20, s = 22.49 versus M = 17.10, s = 13.62 bei einwandfreier

Funktionalität) vorlagen. Besonders hohe Werte in der Beanspruchung liegen in der

Versuchsbedingung vor, welche fehlerhafte Auslassungen sowohl in der Modalität

Sprache als auch in der Modalität Touch aufweist (siehe violette Kurve in Abbildung

10). Bonferroni post hoc Paarvergleiche2 zwischen den vier Systemvarianten zeigen auf,

dass die subjektiv erlebte Anstrengung in dieser Bedingung über den Faktor Listentiefe

hinweg signifikant von allen anderen drei Systemen abweicht (p < .05).

Neben den Zwischensubjektfaktoren weist auch der Innersubjektfaktor Aufga-

benblock einen signifikanten Einfluss auf die Beanspruchungswerte auf, dahingehend,

dass im zweiten Aufgabenblock durchschnittlich geringere Werte in der subjektiv erleb-

ten Anstrengung angegeben werden (M = 24.92, s = 22.36 im ersten Block versus

M = 19.38, s = 19.25 im zweiten Block).

2 Zur Bonferroni-Korrektur wurden die relevanten Mittelwerte auf der Basis von t-Tests verglichen und die Grenze zur Signifikanzprüfung auf das lokale Alpha-Niveau von αlok = αglobal / k herabgesetzt, wobei αglobal dem in den t-Tests ermittelten Signifikanzniveau entspricht und k die Anzahl an durchgeführten Einzelpaarvergleichen präsentiert.

Ergebnisse ______________________________________________________________________________

50

Abbildung 10: Mittelwertverläufe der subjektiv erlebten Anstrengung auf dem jeweils ersten Listen-bildschirm einer Subaufgabe für die vier verschiedenen Versuchsbedingungen im ersten (oben) bzw. zweiten Aufgabenblock (unten). Auf der Abszisse ist die Listentiefe der Auswahlelemente abgetragen, der Wert „5“ bedeutet demnach, dass das Element auf dem fünften Listenbildschirm zu finden ist.

4.4 Wahrgenommene Produktqualitäten (AttrakDiff)

Für die Analyse des Fragebogens zu wahrgenommenen Produktqualitäten

(AttrakDiff) wurde eine 2x2x2 multivariate Varianzanalyse mit einfacher Messwieder-

holung auf den unabhängigen Variablen Spracherkennung (einwandfrei: S+/ fehlerhaft:

S-) und Toucherkennung (einwandfrei: T+/ fehlerhaft: T-) gerechnet. Als abhängige

Messwerte wurden die vier Dimensionen des Fragebogens (pragmatische Qualität, Iden-

tifikation, Stimulation und Attraktivität) in die Analyse einbezogen. Aus Gründen der

Übersichtlichkeit werden in diesem Abschnitt nur die signifikanten Ergebnisse nach den

vier Dimensionen sortiert, vorgestellt. Für eine Gesamtübersicht der Varianzanalyse

wird auf die entsprechende Tabelle im Anhang verwiesen.

Bei den Bewertungen zur pragmatischen Qualität stellte sich heraus, dass die

Systemvarianten mit fehlerhaften Auslassungen in der Modalität Sprache (S-) durchweg

Listentiefe

Listentiefe

SE

A-B

ew

ert

un

ge

n [

0-2

20

]

1. Aufgabenblock

2. Aufgabenblock

Ergebnisse ______________________________________________________________________________

51

geringer bewertet werden (F(1,44) = 13.768, p < .01, η p2= 0.238), wie aus den Mittel-

wertunterschieden in Abbildung 11 grafisch deutlich wird. In Abhängigkeit zu den

Faktorstufen der manipulierten Touchfunktionalität fällt dieser Unterschied beim Vor-

liegen von fehlerhaften Auslassung in der Touchbedienung (T-) signifikant stärker auf,

als bei der einwandfrei funktionierenden Modalität Touch (T+), was am Interaktionsef-

fekt zwischen den beiden unabhängigen Faktoren deutlich wird (F(1,44) = 4.856, p <

.05, η p2= 0.099). Im Sinne eines generellen Haupteffekts beeinflussen die Fehler in der

Touchbedienung die abschließenden Gesamturteile jedoch nicht bedeutsam, ebenso

zeigten sich die Unterschiede zwischen den Aufgabenblöcken als nicht signifikant.

-3

-2

-1

0

1

2

3

Touchfehler (T-)

keine Touchfehler (T+)

Touchfehler (T-)


Pragmatische Qualität



Abbildung 11: Mittelwerte und Standardabweichung der wahrgenommenen pragmatischen Quali-tät in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.

Bezüglich der hedonischen Qualität Identifikation zeigte sich analog zur prag-

matischen Qualität, dass die fehlerbehaftete Modalität Sprache (S-) zu geringeren Be-

wertungen führte (F(1,44) = 4.955, p < .05, η p2= 0.101). Darüber hinaus liegen keine

weiteren bedeutsamen Haupteffekte bzw. Interaktionseffekte auf diese abhängige Vari-

able vor. Die Mittelwertunterschiede sind der Abbildung 12 zu entnehmen.

1. Aufgabenblock 2. Aufgabenblock

Ergebnisse ______________________________________________________________________________

52

-3

-2

-1

0

1

2

3

Touchfehler (T-)


Touchfehler (T-)


Hedonische Qualität: Identifikation



Abbildung 12: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität Identifikation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.

Während für die hedonische Qualität Stimulation keine bedeutsamen Hauptef-

fekte beobachtet werden konnten, zeigt der signifikante Interaktionseffekt zwischen den

unabhängigen Variablen auf, dass hohe Werte vor allem dann vorliegen, wenn entweder

beide Eingabemodalitäten fehlerbehaftet sind oder beide Modalitäten einwandfrei funk-

tionieren. Geringe Werte in der Stimulation liegen hingegen vor, wenn lediglich eine

Modalität fehlerbehaftet ist und diese durch die jeweils andere kompensiert werden

kann (F(1,44) = 4.259, p < .05, η p2= 0.088, siehe Abbildung 13).

-3

-2

-1

0

1

2

3

Touchfehler (T-)


Touchfehler (T-)


Hedonische Qualität: Stimulation



Abbildung 13: Mittelwerte und Standardabweichung der wahrgenommenen hedonischen Qualität Stimulation in Abhängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.

Die Bewertungen zur allgemeinen Produktattraktivität fallen für die Varianten

mit einwandfreier Sprachinteraktion (S+) besser aus, als für die Varianten, in denen die

Sprachinteraktion fehlerbehaftet ist (S-); (F(1,44) = 4.093, p < .05, η p2= 0.085, siehe



Ergebnisse ______________________________________________________________________________

53

Abbildung 14). Unterschiede aufgrund der experimentellen Manipulation der

Touchmodalität oder aufgrund des Aufgabenblockes sind ebenso wie vorliegende Inter-

aktionen für die Varianzaufklärung der abschließenden Attraktivitätsurteile statistisch

nicht relevant.

-3

-2

-1

0

1

2

3

Touchfehler (T-)


Touchfehler (T-)


Attraktivität



Abbildung 14: Mittelwerte und Standardabweichung der wahrgenommenen Attraktivität in Ab-hängigkeit zu den drei jeweils zweifachgestuften unabhängigen Variablen.

4.5 Zusammenfassung

Die Ergebnisse der experimentellen Untersuchung zeigen zusammenfassend auf,

dass die Qualitätsmanipulation in der Erkennung von Toucheingaben die Modalitäten-

wahl und damit das Nutzungsverhalten direkt beeinflusst, und dass Probanden bei feh-

lerhaften Auslassungen in der Modalität Touch signifikant häufiger die Modalität Spra-

che verwenden, um Systemeingaben vorzunehmen. Zudem wird diese Bedingung als

subjektiv beanspruchender wahrgenommen. Die abschließenden Urteile zu den Pro-

duktqualitäten zeigen sich von der Manipulation der Toucheingabe nicht beeinflusst.

Für fehlerhafte Auslassungen in der Modalität Sprache kann kein Einfluss auf

die Modalitätenwahl nachgewiesen werden. Hingegen nehmen Probanden bei vorlie-

gender fehlerbehafteter Spracherkennung eine erhöhte subjektive Anstrengung wahr

und bewerten sowohl die pragmatische Qualität, die Identifikation und die Attraktivität

bei Interaktion mit dem System als geringer.

Für den manipulierten Effizienzvorteil der Modalität Sprache in Form von Ein-

sparungen an Interaktionsschritten gegenüber der Modalität Touch kann gezeigt werden,

dass Sprache signifikant häufiger verwendet wird, wenn die Listentiefe einer Eingabe

hoch ist und damit der Interaktionsvorteil besonders groß ist. In Abhängigkeit zur Funk-


Ergebnisse ______________________________________________________________________________

54

tionalität der Modalität Touch wird dieser Interaktionsvorteil von Probanden sogar dif-

ferenziert umgesetzt: Ist der Vorteil gering, wird eher die Modalität Touch genutzt, al-

lerdings auch nur dann, wenn diese Modalität nicht fehlerbehaftet ist. Für die zuneh-

mende Listentiefe können in der vorliegenden Untersuchung keine erhöhten Beanspru-

chungswerte beobachtet werden.

Zwischen den beiden Aufgabenblöcken zeigen sich Unterschiede in der Modali-

tätenwahl. Während auf der Startseite zur Auswahl der Subaufgaben die Modalität

Sprache ähnlich oft verwendet wird, benutzen Probanden Sprache im zweiten Aufga-

benblock auf dem jeweils ersten Listenbildschirm einer Subaufgabe zur Auswahl einer

konkreten Eingabe signifikant häufiger. Darüber hinaus liegen für die subjektiv erlebte

Anstrengung im zweiten Block durchgängig geringere Urteile vor. Die Produktqualitä-

ten werden nach Abschluss der beiden Aufgabenblöcke nicht systematisch unterschied-

lich bewertet.

Diskussion ______________________________________________________________________________

55

5 Diskussion

Entsprechend der drei aufgestellten Hypothesenblöcke (vgl. Abschnitt 2.4.2)

werden die im vorigen Kapitel dargestellten und zusammengefassten Ergebnisse in drei

Abschnitten diskutiert. Zunächst werden die Untersuchungsannahmen zur Modalitäten-

wahl behandelt. Daraufhin werden die Hypothesen zur subjektiv erlebten Anstrengung

und abschließend diejenigen zu den wahrgenommenen Produktqualitäten betrachtet. Die

Diskussion endet mit einer kritischen Würdigung der Ergebnisse und etwaiger Limita-

tionen bei der Generalisierung der Befunde aufgrund des verwendeten methodischen

Vorgehens.

5.1 Hypothesen zur Modalitätenwahl

Mit den ersten Hypothesen in diesem Bereich wurde angenommen, dass die Mo-

dalitätenwahl zugunsten der Sprache sowohl durch eine einwandfreie Spracherkennung

(H1.1) als auch durch eine fehlerbehaftete Toucherkennung (H1.2) beeinflusst wird.

Aus den vorliegenden Ergebnissen geht hervor, dass hierbei nur die Hypothese H1.2

empirisch gestützt werden kann: Das Vorliegen von Touchfehlern führte sowohl bei der

Auswahl der Subaufgaben auf dem Startbildschirm als auch zur Eingabe von Elementen

innerhalb einer Subaufgabe auf dem jeweils ersten Listenbildschirm zu einer signifikant

häufigeren Nutzung der Spracherkennung und somit zu einem erhöhten Wechsel von

der Modalität Touch zur Modalität Sprache. Auf Seiten der Sprachnutzung ließ sich ein

entsprechender Effekt jedoch nicht nachweisen, gleichwohl für Interaktionen auf der

Startseite zumindest tendenziell gezeigt werden konnte, dass Nutzer bei Spracherken-

nungsfehlern vermehrt auf die Modalität Touch auswichen. Dieser Befund steht in Kon-

trast zu bisherigen Studien, in denen das Vorliegen von Spracherkennungsfehlern

nachweislich zu einem erhöhten Ausweichen auf die alternative manuelle Modalität

führte (Schaffer et al., 2011a). Jedoch wurden in der eben genannten Studie extremere

Fehlerraten von durchschnittlich 10 Prozent mit durchschnittlich 30 Prozent miteinander

verglichen. Ebenso ließen sich unter Bezugnahme auf Joeckel (2010) in post Hoc Ver-

gleichen Unterschiede in der Häufigkeit der Nutzung der manuellen Modalität nur zwi-

schen den Bedingungen geringer Fehler (0-10%) und extrem erhöhter Fehlerraten

(>25%) nachweisen. Somit lässt sich nicht ausschließen, dass die in der vorliegenden

Untersuchung vorgenommenen Manipulationsunterschiede nicht hinreichend waren, um

einen signifikanten Effekt für den Bereich von Spracherkennungsfehlern zu produzie-

Diskussion ______________________________________________________________________________

56

ren. Jedoch muss nach den Erfahrungen aus den Benutzertests und den geschilderten

Berichten der Probanden durchaus zugestanden werden, dass es sich bei einer Fehlerrate

von 20 Prozent um eine anwendungsorientiert relevante und überzeugend vermittelbare

Faktorstufe handelte. Als überraschend erweist sich in diesem Zusammenhang zudem,

dass sich, verglichen mit früheren Versuchen, Probanden im Fall einwandfrei funktio-

nierender Modalitäten deskriptiv deutlich seltener für die Modalität Sprache entschieden

als für die Modalität Touch. Auf der anderen Seite lässt sich die Kurve mit fehlerbehaf-

teter Spracherkennung und funktionierender Touchbedienung weitestgehend in die bis-

herige Versuchsreihe einordnen. Da sowohl der Untersuchungsgegenstand als auch die

Instruktionen und die Aufgaben von ihrem Wesen her nicht unterschiedlich waren, ist

die Abweichung für den ersten Fall entweder zufallsbedingt zu erklären oder dem Ein-

satz der Akustikkabine geschuldet. Während in früheren Versuchen der erste Versuchs-

leiter mit dem Probanden in einem Raum anwesend war und ihm die Aufgaben sukzes-

siv präsentierte, musste für die vorliegende Untersuchung die Akustikkabine aus organi-

satorischen Gründen gewählt werden, in der die Probanden die Aufgabenbearbeitung

allein durchführten und sich entsprechend unbeobachtet fühlen konnten. Das perfekt

funktionierende System mag unter diesen Umständen entweder dazu geführt haben,

dass Probanden aus einer motivierten Testbereitschaft heraus die Grenzen des Systems

durch häufigere Modalitätenwechsel stärker herausfordern wollten oder die Entwick-

lung von Heuristiken durch die Nichtanwesenheit weiterer Personen verbessert werden

konnte, sodass sich Probanden in bestimmten Dialogsituationen verstärkt für die manu-

elle Bedienung entschieden haben, da sie hierdurch Effizienzvorteile erwartet haben.

Mit der Hypothese H1.3 wurde angenommen, dass Aktionsmodalitäten mit ei-

nem höheren Innovationsgrad, wie die Spracherkennung, zunächst eine gewisse Ge-

wöhnungszeit benötigen, um für den Nutzer im Sinne einer Entscheidungsheuristik

kognitiv verfügbarer zu werden. Zur Beantwortung dieser Annahme zeigte sich ein inte-

ressanter Befund. Während die Spracherkennung auf dem Startbildschirm nicht bedeut-

sam unterschiedlich verwendet wird, kann die Hypothese durch die Daten aus der Bear-

beitung der ersten Listenbildschirmen bekräftigt werden. Dieser Befund ist insofern

erstaunlich, als dass zwischen diesen beiden Dialogsituationen tatsächlich ein elementa-

rer Unterschied vorliegt. Während die Startseite eine Auswahlsituation bereithält, die

mit der Erledigung eines Interaktionsschrittes auditiv oder manuell erledigt werden

kann, treten die in der Studie manipulierten Effizienzvorteile durch verkürzte Interakti-

onsschritte durch die Sprachinteraktion erst auf dem jeweils ersten Listenbildschirm

Diskussion ______________________________________________________________________________

57

einer Subaufgabe zu Tage. In diesem Zusammenhang geht das von McCrasken und

Aldrich (1984) entwickelte Kapazitätenmodell davon aus, dass Spracherkennung zur

Erledigung eines Interaktionsschrittes kognitiv beanspruchender sein kann, als eine ma-

nuelle Interaktionsform. Wie Bierbaum et al. (1987) aufgezeigt haben, ist der kognitive

Vorbereitungsprozess für die sprachliche Produktion eines Satzes in der Regel aufwen-

diger als der entsprechende Prozess für eine manuelle Produktion zur Auswahl einer

Bedienung per Touchscreen. Die Probanden des vorliegenden Experiments verhielten

sich vor diesem Hintergrund äußerst effizient: Für die mit einem Interaktionsschritt zu

erledigende Aufgabe auf dem Startbildschirm nutzten sie auch nach längerer Gewöh-

nung mit dem System die manuelle Interaktion, da diese weniger beanspruchend war

und vermutlich auch in Form von Bedienzeiten schneller als die Spracherkennung zum

Ergebnis geführt hat. Auf den Listenbildschirmen hingegen setzten sie die Spracherken-

nung zunehmend häufig ein, sparten damit vor allem bei Auswahlelementen mit einer

hohen Listentiefe unnötige manuelle Interaktionsschritte und festigten die kognitive

Verfügbarkeit der sprachlichen Eingabe als Entscheidungsheuristik für die Modalitä-

tenwahl. Dass das Lernen bezüglich der Modalitätenwahl ausschließlich auf den Listen-

bildschirmen nachgewiesen werden kann, spricht dafür, dass sich Probanden über die

jeweiligen Vor- und Nachteile beider Aktionsmodalitäten bewusst zeigten.

Wie bereits in früheren Studien mit dem hier verwendeten Untersuchungsgegen-

stand gezeigt werden konnte, stützen auch die Daten aus der vorliegenden Untersuchung

die Hypothese, dass Aufgabeneffizienz, im Sinne einer geringen Anzahl an Interakti-

onsschritten, ein entscheidender Einflussfaktor für die Modalitätenwahl darstellt (vgl.

Schaffer et al., 2011a). Nutzer verwendeten die Modalität Sprache auf den Listenbild-

schirmen verstärkt dann, wenn die Eingabe der Elemente über die alternative Modalität

Touch besonders viele zusätzliche Interaktionsschritte erfordert hätte, was das Zutreffen

der Hypothese H1.4 bekräftigt.

Die letzten beiden zu prüfenden Hypothesen in diesem Block nahmen Interakti-

onseffekte an, welche davon ausgingen, dass die Effizienzvorteile der Sprache in Ab-

hängigkeit zur Fehlerbehaftung der Sprachererkennung (H1.5) bzw. der Modalität

Touch (1.6) differenziert zu Tage treten. Auf der Datenbasis der vorliegenden Untersu-

chung kann die Hypothese H1.6 als gestützt betrachtet werden: Während bei dem Vor-

liegen von Touchfehlern bereits für Eingaben mit einer geringen Listentiefe die Sprach-

erkennung bevorzugt genutzt wird, verhalten sich Nutzer bei einwandfreier Touch-

bedienung und einer geringen Listentiefe so, als sei die Touchinteraktion für diese Zwe-

Diskussion ______________________________________________________________________________

58

cke effizienter bzw. ebenso effizient wie die Spracherkennung. Diese Ergebnisse unter-

stützen die bereits diskutierten Annahmen zu möglichen Vertrautheitseffekten, welche

zu einer verstärkten Nutzung der Sprachmodalität führen sollten. Auch dabei zeigte sich

für die Interaktion auf den Startbildschirmen, dass keine wesentliche Veränderung in

der Modalitätenwahl auftrat. Auch hier ließ sich das Ziel durch einen Interaktionsschritt

in der auditiven oder der manuellen Modalität erreichen und Personen entschieden sich

aus dem vermuteten Grund, dass die Touchinteraktion weniger aufwendiger sei als die

Sprachinteraktion (vgl. McCrasken et al., 1984) für die Wahl der manuellen Modalität.

Äquivalent scheint dies auch für den ersten Listenbildschirm zuzutreffen, wenn das ent-

sprechende Auswahlelement bereits darauf angezeigt wird. Jedoch kann an dieser Stelle

auch gezeigt werden, dass Probanden auch mögliche Effektivitätseinbußen in ihre Ent-

scheidung einbeziehen und sich auch in dieser Dialogsituation für die Sprachinteraktion

entscheiden, wenn die Touchinteraktion mit fehlerbehafteten Auslassung versehen ist.

Diese Erklärung wird auch dadurch bekräftig, dass Nutzer entgegen der Hypothese H1.5

bei einwandfreier Spracherkennung nicht bedeutsam öfter die Modalität Sprache ver-

wendeten, um Eingaben mit einer geringen Listentiefe vorzunehmen, z.B. um bereits

sichtbare Elemente auf dem ersten Listenbildschirm auszuwählen. An dieser Stelle er-

scheint ihnen der einfache Klick, vorausgesetzt die Touchinteraktion funktioniert ein-

wandfrei, kognitiv oder motorisch weniger aufwändig.

5.2 Hypothesen zur subjektiv erlebten Anstrengung

Die ersten beiden Hypothesen in diesem Bereich nahmen an, dass eine geringe

Effektivität in einer der zur Verfügung stehenden Modalitäten zu erhöhten Werten in

der subjektiv erlebten Anstrengung führen. Mit den vorliegenden Ergebnissen können

entsprechende Auswirkungen auf die Beanspruchung sowohl für das Vorliegen von

Spracherkennungsfehlern als auch für das Vorliegen von Touchfehlern gezeigt werden

und somit die Hypothesen H2.1 und H2.2 als gestützt betrachtet werden. Dies zeigt,

dass Probanden bei den unmittelbar nach jeder Aufgabe abzugebenen Beanspruchungs-

urteilen sensitiv auf das Vorliegen von Effektivitätseinschränkungen reagieren, auch

falls sie aufgrund von Fehlern diese Modalität tatsächlich nur selten benutzt haben soll-

ten.

Im Sinne der zunehmenden Etablierung einer Verfügbarkeitsheuristik zur Aus-

wahl der eher innovativen Sprachmodalität ging die Hypothese H2.3 davon aus, dass

Probanden im zweiten Durchgang eine geringere Beanspruchung erleben sollten als im

Diskussion ______________________________________________________________________________

59

ersten Durchgang. Auch diese Hypothese kann durch die vorliegenden Ergebnisse be-

kräftigt werden. Etwaig mag dieser Effekt jedoch auch dadurch verstärkt worden sein,

dass das Bearbeiten der standardisierten Aufgaben von einer hohen Routine geprägt

war. Die Aufgaben waren insgesamt von äußerst geringer Komplexität, wofür das gene-

rell geringe Werteniveau spricht, und hielten keine sonderlich unerwarteten Überra-

schungen für die Probanden parat. Auch die Systembedienung und die Effizienz- und

Effektivitätscharakteristika änderten sich nicht im Laufe einer Untersuchungseinheit.

Inwieweit dieser Effekt somit tatsächlich auf die Etablierung einer Entscheidungsheuris-

tik zur vereinfachten Modalitätenwahl oder auf die Gewöhnung an den ohnehin sehr

einfach gehaltenen Nutzungskontext zurückzuführen ist, bleibt somit teilweise offen.

Mit der diesen Bereich abschließenden Hypothese H2.4 wurde davon ausgegan-

gen, dass es bei ansteigender Listentiefe auf Seiten der Auswahlelemente nicht zu einer

erhöhten subjektiv erlebten Anstrengung bei den Probanden kommen sollte, da diese

zunehmende Aufgabenkomplexität sich lediglich auf die Touchinteraktion bezieht und

durch die effizientere Spracherkennung unmittelbar kompensiert werden kann (vgl.

Schaffer et al., 2011a). Die vorliegenden Daten stützen diese Nullhypothese, auch bei

einem entsprechend heraufgesetzten Alpha-Niveau. An dieser Stelle sei auf eine weitere

von Schaffer et al. (2011b) durchgeführte Studie verwiesen, in welcher die erforderli-

chen Interaktionsschritte zur Erledigung der Subaufgaben zwischen der Touch- und der

Sprachinteraktion gleich gehalten wurden. Aufgaben mit einer erhöhten Listentiefe er-

forderten somit auch unter Nutzung der Spracherkennung zunächst ein sukzessives

Blättern in den Listbildschirmen, bevor die Auswahl des Elementes getroffen werden

konnte. Die Ergebnisse dieser Studie bestätigen, dass sich die dadurch ansteigende Auf-

gabenschwierigkeit in entsprechend erhöhten Werten subjektiv erlebter Anstrengung

widerspiegeln.

5.3 Hypothesen zu wahrgenommenen Produktqualitäten

Im Bereich der wahrgenommenen Produktqualitäten wurden Hypothesen zur

pragmatischen Qualität und zur globalen Produktgüte (Attraktivität) aufgestellt, dahin-

gehend, dass erlebte fehlerbehaftete Eingabenerkennungen zu geringeren Pragmatik-

urteilen (H3.1 und H3.2) sowie zu geringeren Werten in der Produktgüte führen (H3.4

und H3.5). Durch die Daten bekräftigt wird, dass Spracherkennungsfehler zu geringeren

Bewertungen der pragmatischen Qualität (H3.1) und der abschließenden Systemattrak-

tivität führen (H3.4). Nicht bekräftigen lassen sich jedoch diejenigen Hypothesen, die

Diskussion ______________________________________________________________________________

60

Einflüsse aufgrund der fehlerbehafteten Touchinteraktion angenommen haben. Da sich

demgegenüber die Modalitätenwahl deutlich durch Touchfehler, jedoch nicht nachweis-

lich durch Spracherkennungsfehler beeinflusst zeigte, dissoziieren die subjektiven Be-

wertungen auf den ersten Blick vom tatsächlich gezeigten Verhalten der Nutzer, was für

den Bereich von Fragebogendaten in aktueller Literatur häufiger thematisiert wird (z.B.

Konerding, 2006). Die vorliegenden Verzerrungen lassen sich jedoch insoweit erklären,

als dass die Sprachnutzung in dieser Untersuchung deutlich überdurchschnittlich ver-

wendet worden ist und Probanden sich somit bei der abschließenden Produktbewertung

mehr Interaktionssituationen in Zusammenhang mit der Spracherkennung ins Bewusst-

sein rufen konnten. Unter diesen Umständen erscheint es nicht verwunderlich, dass Un-

terschiede zwischen der einwandfreien und der fehlerbehafteten Spracherkennung stär-

ker ins Gewicht fallen als die Unterschiede aufgrund der Touchmanipulation. Aus theo-

retischer Sicht erklären lässt sich dies wiederum mit der Verfügbarkeitsheuristik (vgl.

Abschnitt 2.2.4.2), anhand derer Personen Urteile auf Basis der Leichtigkeit ihres Erin-

nerns bzw. Vorstellens treffen. Da die Wahrscheinlichkeit für das Erleben von

Touchfehlern aufgrund der erhöhten Wahl für die Modalität Sprache reduziert ist, beein-

flussen entsprechende Situationen zwar das unmittelbare Nutzungsverhalten, jedoch

zeigen sich die entsprechend wenigen, jedoch ausschlaggebenden Situationen mit

Touchfehlern beim abschließenden Urteil weniger präsent.

Diese Erklärung kann dadurch bekräftigen werden, dass sich die unterschiedli-

chen pragmatischen Bewertungen in Interaktion mit der Effektiviät der Spracherken-

nung beim Vorliegen von Touchfehlern deutlicher niederschlagen als wenn die

Touchinteraktion einwandfrei funktioniert. Bei den Ergebnissen zur Modalitätenwahl

wurde diskutiert, dass sich Probanden ausschließlich auf Basis der Effektivitätsmanipu-

lation der manuellen Interaktion für die Aktionsmodalität Sprache entscheiden. Vor

diesem Hintergrund erscheint es einleuchtend, dass Unterschiede in den pragmatischen

Bewertungen aufgrund von Spracherkennungsfehlern vor allem beim Vorliegen von

Touchfehlern auftreten, da diese ein Ausweichen auf die Spracherkennung begünstigen.

Auf der anderen Seite wird die funktionierende Touchinteraktion für diejenigen Dialog-

situationen eingesetzt, in denen ihr Probanden eine höhere Effizienz zusprechen (z.B.

Auswahl auf dem Startbildschirm, Auswahl auf Listenbildschirmen, wenn Elemente

eine geringe Listentiefe haben), sodass Fehler in der Spracherkennung für das abschlie-

ßende Gesamturteil weniger stark ins Gewicht fallen.

Diskussion ______________________________________________________________________________

61

Mit den Hypothesen H3.3 und H3.6 wurden zeitbezogene Veränderungen in den

Urteilen zur pragmatischen Qualität sowie zur globalen Produktgüte vorhergesagt, wel-

che durch die vorliegenden Daten nicht gestützt werden können. Da die Probanden be-

reits im ersten Aufgabenblock das nicht sonderlich komplexe System, welches zudem

als reduzierter Prototyp konzipiert war, sehr gut selbstständig bedienen konnten und die

prototypischen Bedienaufgaben standardmäßig ohne unerwartete Überraschungen für

die Probanden konzipiert waren, erscheint nachvollziehbar, dass eine subjektiv erlebte

Performanzsteigerung im Sinne eines Lerneffektes auf Seiten der Benutzbarkeit zum

zweiten Aufgabenblock nur sehr unwahrscheinlich zu erzielen gewesen ist (vgl.

Hornbaek, 2006). Ebenso liefern die Daten keine Stütze für das Vorliegen einer Attrak-

tivitätssteigerung aufgrund zunehmender Nutzungszeit. Jedoch erwiesen sich bereits in

früheren Studien Ergebnisse zum mere exposure Effekt (Zajonc, 1968) vor dem Hinter-

grund interaktiver Untersuchungsgegenstände als durchaus divergent (Minge, 2011).

Die Dimensionen des AttrakDiff zu den hedonischen Produktqualitäten Identifi-

kation und Stimulation wurden explorativ in die Auswertung aufgenommen. Hinsicht-

lich der Identifikation zeigte sich analog zur pragmatischen Qualität ein bedeutsamer

Haupteffekt aufgrund der Fehlermanipulation in der Sprachererkennung. Da dieser Fak-

tor aufgrund der zugrundeliegenden Items vor allem erfasst, ob Technik als wertvoll,

vorzeigbar und menschenverbindend betrachtet wird, erscheinen die Ergebnisse nach-

vollziehbar, jedoch deutlicher von pragmatischen Qualitäten beeinflusst, als es für diese

von der pragmatischen Qualität unabhängigen hedonischen Qualität vorab zu erwarten

gewesen wäre. Eine Erklärung für dieses Ergebnis kann somit in der Überstrahlung der

aufgabenbezogenen Urteile auf nicht-aufgabenbezogene Bewertungen der Identifikation

im Sinne eines pragmatischen Halo-Effektes gefunden werden (Minge, 2011).

Die Ergebnisse zur Stimulation liefert mit ihren Items zur Originalität, Neuheit

und Motivation zunächst das Bild einer unabhängigen Dimension zur pragmatischen

Qualität, da sich erhöhte Ausprägungen in den beiden Extremvarianten zeigten, d.h.

wenn beide Modalitäten entweder einwandfrei funktionierten oder beide Modalitäten

fehlerbehaftet waren. Dieses Ergebnis könnte dem Rahmen der Untersuchungssituation

geschuldet sein, welches das Restaurantbuchungssystem als einen Prototypen vorstellte.

Probanden könnten dazu tendiert haben, nicht nur das perfekt funktionierende System

als besonders stimulierend erlebt zu haben, sondern auch das hoch fehleranfällige, da

sich dieses mit einer deutlich früheren Phase der Produktentwicklung assoziiert zeigt

und eine entsprechende Forschungsarbeit notwendig macht.

Diskussion ______________________________________________________________________________

62

5.4 Kritische Würdigung und Limitation

Die Ergebnisse dieses Experimentes zeigen auf, dass sowohl die Modalitäten-

wahl als auch subjektive Bewertungen in Form von erlebter Beanspruchung und wahr-

genommener Produktqualitäten durch die Manipulation der Effektivität und Effizienz

alternativ angebotener Aktionsmodalitäten beeinflusst werden. Während eine fehlerhaf-

te manuelle Aktionsmodalität den Wechsel zur automatischen Spracherkennung förderte

und die subjektiv erlebte Anstrengung erhöhte, wirkten sich die erlebten Touchfehler,

vermutlich aufgrund der verringerten Nutzung dieser Modalität, nicht bedeutsam auf

abschließenden Gesamturteile aus. Spracherkennungsfehler führten zwar nicht zu einer

reduzierten Nutzung der Sprachmodalität, wurden jedoch mit erhöhter Beanspruchung

und schlechteren Abschlussurteilen bewertet.

Die Resultate dieser Arbeit sind vor einer Verallgemeinerung aus mehrfacher

Sicht kritisch zu betrachten. Zunächst orientieren sich die Befunde am verwendeten

Untersuchungsmaterial, welches ausschließlich aus einer Kombination von Listenbild-

schirmen bestand und speziell für die zu bearbeitenden Aufgaben konstruiert war. Als

Folge handelte es sich in der Untersuchungssituation um ein deutlich komplexitätsredu-

zierendes Szenario, sodass mögliche Unterschiede in der manipulierten Effektivität und

Effizienz für die Probanden offensichtlicher zu Tage traten, als dies in realen Anwen-

dungen der Fall gewesen wäre.

Methodisch ist zudem kritisch im Auge zu behalten, dass sich die eingesetzte

Stichprobe hauptsächlich aus Studenten unterschiedlicher Fachrichtungen zusammen-

setzte und sich bei den Probanden ein deutlich technikaffin ausgeprägtes Interesse zeig-

te. Die Stichprobe kann daher ausdrücklich nicht als repräsentativ bezeichnet werden

und trifft insbesondere keine Aussagen für spezielle Personengruppen, die von multi-

modaler Interaktion unter Umständen besonders profitieren würden, wie z.B. Nutzer

sehr geringen oder sehr hohen Alters, körperlich eingeschränkte Anwender, etc.

Die in diesem Experiment verwendeten Aktionsmodalitäten, die sprachliche und

die manuelle Interaktionsform, stellen insbesondere für den mobilen Anwendungsbe-

reich eine zur Zeit besonders häufig eingesetzte multimodale Kombination dar. Darüber

hinaus sind selbstverständlich zahlreiche weitere Aktionsmodalitäten denkbar (z.B.

Gesteninteraktion, Tastenbedienung, etc.). Die Ergebnisse beziehen sich explizit auf die

in dieser Untersuchung verwendeten Aktionsmodalitäten und halten einer direkten

Übertragbarkeit auf eine andere Klassifikation (z.B. innovativer versus konservative

Diskussion ______________________________________________________________________________

63

Modalität) nicht stand. Wie bereits Vilimek (2007) feststellte, präsentieren multimodale

Geräte immer den Einzelfall einer technischen Systemrealisierung und müssen daher

auch separat evaluiert und auf Verwendbarkeit getestet werden.

Bezüglich der abhängigen Variablen wäre es zum einen wünschenswert, subjek-

tive Beanspruchungswerte durch objektivere Verfahren, wie z.B. Maße zur Herzfre-

quenzvariabilität, zu validieren (vgl. Nickel et al., 2002). Diese wären insbesondere für

die Verwendung in zeitlich kurzen Untersuchungseinheiten von vielversprechendem

Wert. Zum anderen erscheint es zukünftig zweckmäßig, den Bereich der Performanz-

messung durch weitere objektive Maße des Nutzerverhaltens abzudecken. Die vorlie-

gende Masterarbeit fokussierte aus Kapazitätsgründen ausschließlich auf die Modalitä-

tenwahl und die prozentuale Nutzungshäufigkeit der Modalität Sprache. Darüber hinaus

sind Maße, wie z.B. Bearbeitungszeiten (Task Completion Time), Reaktionszeitmessun-

gen in spezifischen Dialogsituationen oder der Werte zum Tastendruck, mit dem eine

manuelle Eingabe getätigt wird, von zusätzlichem Interesse.

Abschließend sei kritisch auf das Versuchsdesign hingewiesen, in welchem eine

vollständige Balancierung der Aufgabenreihenfolgen lediglich im ersten, jedoch nicht

im zweiten Aufgabenblock umsetzte. Während für den ersten Block gewährleistet wur-

de, dass jede Aufgabe an jeder Stelle innerhalb des Versuchsablaufs gleich häufig ver-

treten war, erhielten Probanden im zweiten Aufgabenblock eine grundsätzlich andere,

jedoch für alle Personen identische Reihenfolge (vgl. Anhang D.I). Zudem waren die

Aufgaben im ersten und im zweiten Aufgabenblock identischen Inhalts. Vermutlich

sind die mit der fehlenden Balancierung im zweiten Block verbundenden Auswirkungen

auf die Modalitätenwahl und die Bewertungen eher gering, jedoch können sie an dieser

Stelle nicht zweifelsfrei quantifiziert bzw. ausgeschlossen werden. Eine Alternative für

die Optimierung des Versuchsaufbaus wäre es, zum einen auch für den zweiten Block

eine Balancierung der Aufgaben vorzunehmen und zum anderen äquivalente Aufgaben

zu konstruieren, deren Schwierigkeit und Komplexität nicht signifikant von den im ers-

ten Block verwendeten Aufgaben abweicht. Dies würde maßgeblich dazu beitragen,

Übertragungseffekte bei identisch verwendeten Aufgaben zukünftig zu reduzieren.

Ausblick ______________________________________________________________________________

64

8 Ausblick

Es gibt nicht viele Konzepte im Bereich der Mensch-Technik-Interaktion, die

wie die Multimodalität eine solch rasante Entwicklung durchlaufen haben und als Hoff-

nungsträger gehandelt werden, um Technik einfacher und natürlicher zu machen. Die

vielen unterschiedlichen Innovationsmöglichkeiten, Systemausgaben auf der einen Seite

wahrzunehmen und Systemeingaben auf der anderen Seite vorzunehmen, sind eine

durchaus vielversprechende Begleiterscheinung, die es zukünftig einem noch breiteren

Anwenderkreis möglich machen wird, mit Technik zu interagieren. Multimodalität er-

reicht diese Ziele allerdings nur, wenn sie unter dem Fokus einer menschzentrierten

bzw. interaktionszentrierten Entwicklung von Technik beachtet und umgesetzt wird.

Nur dann werden nicht nur Wettbewerbsvorteil am Markt gesichert, sondern auch posi-

tive Effekte langfristig für den Anwender nutzbar gemacht

Mit der vorliegenden Arbeit wurde die Modalitätenwahl bei multimodaler Inter-

aktion untersucht. Das Ziel lag darin, für eine spezielle Anwendungssituation Aussagen

über den Einfluss verschiedener Faktoren auf das Nutzungsverhalten und subjektive

Bewertungen zu treffen. Ein größerer Hintergrund der Arbeit liegt jedoch darin, die

Untersuchungsergebnisse in die Resultate der bisherigen Versuchsreihe einzuordnen

und somit Aussagen zur Modalitätenwahl zu verallgemeinern. Aus den gewonnen Daten

soll unter Nutzung einer kognitiven Architektur ein Modell der Modalitätenwahl gene-

riert und anschließend durch weitere Nutzertests validiert werden. Die Vorteile solcher

Modellierungsansätze liegen klar auf der Hand: Zum einen erlauben sie ein tieferes Ver-

ständnis über die kognitiv ablaufenden Informationsverarbeitungsprozesse, die bei der

Modalitätenwahl stattfinden, zum anderen lässt sich der Aufwand bei der erforderlichen

Evaluation multimodaler Systeme zukünftig drastisch reduzieren, vorausgesetzt das

Modell würde auch in neuen Situationen brauchbare Vorhersagen liefern. Gezielt unter-

sucht werden könnten somit auch kleinere Veränderungen in der Systemgestaltung oder

in der Abstimmung der verschiedenen Modalitäten.

Der Ansatz der kognitiven Modellierung würde somit dem generellen Ziel von

Multimodalität, Mensch-Technik-Interaktion ein Stück weit menschlicher und dadurch

einfacher zu machen, gerecht werden.

Literaturverzeichnis ______________________________________________________________________________

65

Literaturverzeichnis Althoff, F., McGlaun, G. & Lang, M. (2001). Combining Multiple Input Modalities for

Virtual Reality Navigation – A user study. In Proceedings of HCII 2001: 9th

Inter-

national Conference on Human Computer Interaction. New Orleans, USA. Aula, A., Majaranta, P. and Räihä, K.-J. (2005). Eye-tracking Reveals the Personal

Styles for Search Result Evaluation. Human-Computer Interaction - INTERACT

2005, Lecture Notes in Computer Science. Heidelberg: Springer. (S. 1058-1061). Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2011). Multivariate Analyseme-

thoden. 11. Auflage. Berlin: Springer Verlag. Baddeley, A.D. (1986). Working memory. Oxford, UK: Oxford University Press. Bates, R. & Istance, H.O. (2005). Towards eye based virtual environment interaction for

users with high-level motor disabilities. International Journal of Disability & Hu-

man Development: The International Conference Series on Disability, Virtual Real-

ity and Associated Technologies, 4(3), 161-169. Beuter, N. (2007). Gestenbasierte Positionsreferenzierung für die multimodale Interak-

tion mit einem anthropomorphen Robotersystem. Diplomarbeit im Fach Angewand-te Informatik an der Technischen Universität Bielefeld.

Bevan, N. (1995). Usability is Quality of Use. In Proceedings of the 6

th International

Conference on Human Computer Interaction, Yokohama. Amsterdam: Elsevier. Bierbaum, C.R., Szabo, S.M. & Aldrich, T.B. (1987). A comprehensive task analysis oft

he UH-60 mission with crew workload estimates and preliminary decision rules for

developing a UH-60 workload prediction model (Technical Report ASI690-302-87[B], Vol. I., II, III, IV). Fort Rucker, AL.

Bilici, V., Krahmer, E., te Riele, S. & Veldhuis, R. (2000). Preferred Modalities in Dia-

logue Systems, Proceedings of ICSLP2000, 727-730. Buxton, B. (2007). Sketching User Experience – Getting the Design Right and the Right

Design. Toronto: Morgan Kaufmann Publishers. Card, S.K., Mackinlay, J.D. & Robertson, G.G. (1990). The design space of input de-

vices, Proceedings of SIGCHI’90, ACM Press, 117-124. Charwat, H.J. (1994). Lexikon der Mensch-Maschine-Kommunikation (2. Auflage).

München: Oldenbourg Verlag. Duffy, L. (1993). Team decision making biases: An information processing perspective.

In: G.A. Klein, J. Orasanu, R. Calderwodd & C.E. Zsmabok (Hrsg.). Decision Mak-

ing in Action: Models and Methods (S. 346-359). Norwood, NJ, Ablex.


66

Eilers, K., Nachreiner, F. & Hänecke, K. (1986). Entwicklung und Überprüfung einer Skala zur Erfassung subjektiv erlebter Anstrengung. Zeitschrift für Arbeitswissen-

schaft, 40 (4), 215-224. Endsley, M.R. (1995). Toward a theory of situation awareness in dynamic systems.

Human Factors, 37(1), 32-64. Engesser, H. (1993). Duden “Informatik” (2. Auflage). Mannheim: Duden Verlag. ETSI EG 202 191 (2003). Human Factors (HF); Multimodal interaction, communica-

tion and navigation guidelines. Sophia-Antipolis Cedex, France: ETSI. http://docbox.etsi.org/EC_Files/EC_Files/eg_202191v010101p.pdf vom 09.08.2012.

Geiser, G. (1990) Mensch-Maschine-Kommunikation. München: Oldenbourg Verlag. Greening, L., Dollinger, S.J. & Pitz, G. (1996). Adolescents’ perceived risk and person-

al experience with natural disasters: An evaluation of cognitive heuristics. Acta

Psychologica, 91, 27-38. Hassenzahl, M., Burmester, M. & Koller, F. (2003). AttrakDiff: Ein Fragebogen zur

Messung wahrgenommener hedonischer und pragmatischer Qualität. In G. Szwillus & J. Ziegler (Hrsg.), Mensch & Computer 2003: Interaktion in Bewegung (S. 187-196). Stuttgart: B.G. Teubner.

Hauptmann, A.G. (1989). Speech and gestures for graphic image manipulation. In: M.

Helander (Hrsg.). Proceedings of ACM CHI ’89 Conference of Human Factors in

Computing Systems. ACM Press (S. 241-245). Hedicke, V. (2000). Multimodalität in Mensch-Maschine-Schnittstellen (S. 203-232).

In. K.P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-Maschine-

Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag. Hopkins, K.D. & Weeks, D.L. (1990). Tests for normality and measures of skewness

and kurtosis: Their place in research reporting. Educational and Psychological

Measurement, 50, 717-729. Hornbaek, K. (2006). Current practice in measuring usability: Challenges to usability

studies and research. Journal of Human-Computer Studies, 64, 79-102. Hunt, M.J. (1990). Figures of Merit for Assessing Connected Word Recognisers.

Speech Communication, 9, 239-336. ISO 9241-210 (2010). Ergonomics of human-computer interaction – Part 210: Human-

centered design process for interactive systems. Geneva: International Standardiziation Organization (ISO).

Iwata, H., Yano, I., Uemura, T. & Moriya, T. (2004). Food Simulator. A Haptic Inter-

face for Biting. VR 2004: 51-58.


67

Jöckel, B. (2010). Ermittlung von Schwellenwerten für Modalitätenwechsel in multimo-

daler Mensch-Maschine-Interaktion. Masterarbeit im Studiengang Human Factors an der Technischen Universität Berlin.

Jones, P.E. & Roelofsma, P.H.M.P. (2000). The potential for social contextual and

group biases in team decision-making: biases, conditions and psychological mechanisms. Ergonomics, 43(8), 1129-1152.

Jordan, P.W. (2000). Designing pleasurable products. London: Taylor & Francis. Jungermann, H., Pfister, H.R. & Fischer, K. (2005). Die Psychologie der Entscheidung

(2. Auflage). Heidelberg: Spektrum Akademischer Verlag. Kahneman, D., Slovic, P. & Tversky, A. (1982). Jugdment under uncertainty: Heuris-

tics and biases. Cambridge, New York. Cambridge University Press. Kahneman, D. & Tversky, A. (1972). Subjective probability: A judgment of representa-

tiveness. Cognitive Psychology, 3, 430-454. Kantowitz, B.H. & Campbell, J.L. (1996). Pilot workload and flight-deck automation.

In: R. Parasuraman & M. Mouloua (Hrsg.). Automation and human performance:

Theory and applications (S. 117-136). Lawrence Erlbaum: NJ. Kline, R.B. (1998). Structure equation modeling. New York: Guilford. Konerding, U. (2006). Theorie und Methoden zur Vorhersage und Erklärung von Ver-

halten aufgrund von Fragebogendaten. Habilitationsschrift an der Technischen Universität Berlin.

Kreuzbauer, R. & Malter, A.J. (2005). Embodied cognition and new product design:

Changing product form to influence brand categorization. In: Journal of Product In-

novation Management, 22(5), 165-176. Kruger, J. & Dunning, D. (1999). Unskilled and unaware of it. How difficulties in rec-

ognizing one’s own incompetence lead to inflated self-assessments. Journal of Per-

sonality and Social Psychology, 77(6), 1121-1134. Liberman, A. & Trope, Y. (1996). Social hypothesis testing: Cognitive and motivational

mechanisms. In E.T. Higgins & A.W. Kruglanski (Hrsg.). Social psychology:

Handbook of basic principles (S. 239-270). New York: Guilford. Lochmatter, T., Raemy, X. & Martinoli, A. (2007). Geruchslokalisation mit mobilen

Robotern. IT Business, 1/2007, 40-41. Luczak, H. (1998). Arbeitswissenschaft. 2. Auflage. Berlin: Springer Verlag. Mahlke, S. & Minge, M. (2008). Consideration of Multiple Components of Emotions in

Human-Technology Interaction. In C. Peter & R. Beale (Hrsg.), Affect and Emotion

in HCI, LNCS 4868. Berlin: Springer.


68

Martin, J.-C. (1998). Types of cooperation and referenceable objects: Implications on

annotation schemas for multimodal language resources. Paper presented at the LREC 1000 pre-conference workshop, Athen, Griechenland.

Maybury, M.T. & Stock, O. (1999). Multimedia Communication, including Text. In: E.

Hovy, N. Ide, R. Frederking, J. Mariani & A. Zampolli (Hrsg.). Multilingual Infor-

mation Management: Current Levels and Future Abilities. A study commissioned by the US National Science Foundation and also delivered to European Commission Language Engineering Office and the US Defense Advanced Research Projects Agency.

McCrasken, J.H. & Aldrich, T.B. (1984). Analysis of selected LHX mission functions:

workload. Proceedings of 34th conference on Winter simulation: exploring new

frontiers, 157-162. Minge, M. (2011). Dynamische Aspekte des Nutzungserlebens der Interaktion mit tech-

nischen Systemen. Dissertation an der Fakultät V der Technischen Universität Ber-lin.

Muthig, K.-P. (1990). Informationsaufnahme und Informationsverarbeitung. In: C.G.

Hoyos & B. Zimolong (Hrsg.). Ingenieurpsychologie (S. 92-114). Göttingen: Hogrefe.

Neuss, R. (2000). Usability Engineering als Ansatz zum Multimodalen Mensch-

Maschine-Dialog. Dissertationsschrift an der Technischen Universität München. Nickel, P., Eilers, K., Seehase, L. & Nachreiner, F. (2002). Zur Reliabilität, Validität,

Sensitivität und Diagnostizität von Herzfrequenz- und Herzfrequenzvariabilitätsma-

ßen als Indikatoren psychischer Beanspruchung. Zeitschrift für Arbeitswissenschaft, 56(1), 22-36.

Niedermeier,F.B. (2003). Entwicklung und Bewertung eines Rapid-Prototyping Ansat-

zes zur multimodalen Mensch-Maschine-Interaktion im Kraftfahrzeug. Genehmigte Dissertation der Fakultät für Elektrotechnik und Informationstechnik der Techni-schen Universität München.

Nigay, L. & Courtaz, J. (1993). A design space for multimodal systems – concurrent

processing and data fusion (S. 172-178). In: INTERCHI ’93, Proceedings of the

Conference on Human Factors and Computing Systems. New York: ACM Press. Nigay, L., Jambon, F. & Coutaz, J. (1995). Formal specification of multimodality. Paper

presented at the CHI’95 workshop on formal specification of user interfaces, Den-ver, Colorado.

Norman, D.A. (1990). The ‘problem‘ with automation: Inappropriate feedback and in-

teraction, not ‘over-automation’. In: D.E. Broadbent, J. Reason & A.D. Baddeley (Hrsg.). Human factors in hazardous situations (S. 137-145). New York: Clarendon Press.


69

Orasanu, J., & Fischer, U. (1997). Finding decisions in natural environments: The view from the cockpit. In C. Zsambok & G. Klein (Eds.). Naturalistic Decision Making (pp. 343-357). Hillsdale, NJ: Erlbaum.

Ostermann, T. (2010). Das Streben nach Konsistenz im Entscheidungsprozess. Eine

Untersuchung möglicher Enflussfaktoren. Dissertation an der Erziehungswissen-schaftlichen Fakultät der Universität Erfurt.

Oviatt, S.L. (1996). Multimodal Interfaces for Dynamic Interactive Maps. In Proceed-

ings of CHI ’96: Conference of Human Factors in Computing Systems (New York, USA). ACM Press (S. 415-422).

Oviatt, S.L. (1999). Ten myths of multimodal interaction. Communications of the ACM,

42(11), 74-81. Perakakis, M. & Potamianos, A. (2008). Multimodal system evaluation using modality

efficiency and synergy metrics. Proceedings of ICMI’08, ACM Press, 9-16. Previc, F. H. (1998). The neuropsychology of 3-D space. Psychological Bulletin, 124,

123–164. Rasmussen, J., & Rouse, W. (1981). Human Detection and Diagnosis of System Fail-

ures. New York: Plenum Press. Reder, L. M. (1988). Strategic control of retrieval strategies. The Psychology of Learn-

ing and Motivation, 22, 227-259. Roetting, M. & Seifert, K. (2005). Multimodale Mensch-Maschine Interaktion (S. 283-

300). In: K. Karrer, B. Gauss & C. Steffens (Hrsg.). Beiträge zur Mensch-Maschine-

Systemtechnik. Düsseldorf: Symposion Verlag. Rohs, M. (2009). Mobile and Physical Interaction. Skriptum zur Vorlesung am Institut

für Softwaretechnik und Theoretische Informatik der Technischen Universität Ber-lin.

Rudnicky, A.I. (1993). Mode preference in a simple data-retrieval task. Proceedings of

the workshop on Human Language Technology (SLT 2010,. Stroudsberg, PA, 364-369.

Schaffer, S., Jöckel, B., Wechsung, I., Schleicher, R. & Möller, S. (2011a). Modality

Selection and Perceived Mental Effort in a Mobile Application. Proc. 12th Ann.

Conf. of the Int. Speech Communication Assoc. (Interspeech 2011). International Speech Communication Association (ISCA), 2253-2256.

Schaffer, S. & Reitter, D. (2012). Modeling Efficiency-guided Modality Choice in

Voice and Graphical User Interfaces. Proceedings of ICCM 2012, Berlin, 253-254. Schaffer, S., Schleicher, R. & Möller, S. (2011b). Measuring Cognitive Load for differ-

ent Input Modalities. 9. Berliner Werkstatt Mensch-Maschine-Systeme. VDI Verlag, 287-292.


70

Schmid, U. & Kindsmüller, M.C. (1996). Kognitive Modellierung. Eine Einführung in

die logischen und algorithmischen Grundlagen. Heidelberg: Spektrum Akademi-scher Verlag.

Schomaker, L., Nijtmans, J., Camurri, A., Lavagetto, F., Morasso, P., Benoît, C.,

Guiard-Marigny, T., le Goff, B., Robert-Ribes, J., Adjoudani, A., Defée, I., Münch, S., Hartung, K. & Blauert, J. (1995). A taxonomy of multimodal interaction in the

human information processing system. Multimodal integration for advanced multi-

media interfaces (Report of the Esprit Project 8579 MIAMI No. WP 1). Nijmegen, Netherlands: University of Nijmegen.

Spence, C., Nicholls, M.E. & Driver, J. (2001). The cost of expecting events in the

wrong sensory modality. Perception & Psychophysics, 63(2), 330-336. Streitz, N.A. (1990). Psychologische Aspekte der Mensch-Computer-Interaktion (S.

240-284). In: C. Graf Hoyos (Hrsg.). Enzyklopädie der Psychologie. Ingenieurpsy-

chologie, D/III/2. Göttingen: Verlag für Psychologie, Hogrefe. Suhm, B., Myers, B. & Waibel, A. (1999). Model-based and empirical evaluation of

multimodal interactive error correction, Proceedings of CHI’99, ACM Press, 123-133.

Technoplus GmbH (2012). Geruchssensor. Innovative Technologien. http://www. tech-

noplus-gmbh.de/pdf/Produktblatt_tp_geruchssensor2_hg.pdf vom 09.08.2012. Thomas, C. & Curson, I. (1996). Performance measurement handbook, 3. Auflage. Na-

tional Physical Laboratory. Teddington, UK. Timpe, K.-P. & Kolrep, H. (2000). Das Mensch-Maschine-System als interdisziplinärer

Gegenstand (S. 9-40). In: K.-P. Timpe, T. Jürgensohn & H. Kolrep (Hrsg.). Mensch-

Maschine-Systemtechnik, 2. Auflage. Düsseldorf: Symposion Verlag. Tinsley , H.E.A. & Brown, S.D. (2000). Handbook of Applied Multivariate Statistics

and Mathematical Modelling. San Diego: Academic Press. Tversky, A. & Kahneman, D. (1973). Availability: A heuristic for judging frequency

and probability. Cognitive Psychology, 42, 207-232. Tversky, A. & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and bias-

es. Science, 185, 1124-1131. Tversky, A. & Kahneman, D. (1992). Advances in prospect theory: Cumulative repre-

sentation of uncertainty. In: D. Kahneman & A. Tversky (Hrsg.). Choices, values,

and frames (S. 44-66). Cambridge: Cambridge University Press. Vilimek, R. (2007). Gestaltungsaspekte multimodaler Interaktion im Fahrzeug. Ein Bei-

trag aus ingenieurpsychologischer Perspektive. Inaugural-Dissertation an der Uni-versität Regensburg.


71

Vo, M.T. & Waibel, A. (1993). Multimodal Human-Computer Interaction. In: Proceed-

ings of ISSD’93: International Symposium on Spoken Dialogue: New Directions in

Human and ManMachine Communication (Tokyo), 95-101. Walpow, J. & Winter Walpow, E. (2012). Brain-Computer Interfaces. Principles and

Practices. Oxford: Oxford University Press. Wechsung, I., Engelbrecht, K.-P., Naumann, A., Möller, S., Schaffer, S. & Schleicher,

R. (2010). Investigating Modality Selection Strategies. Workshop on Spoken Lan-

guage Technology (SLT). Weidenmann, B. (1995). Multicodierung und Multimodalität im Lernprozess. In: L.J.

Issing & P. Klimsa (Hrsg.). Informationen und Lernen mit Multimedia. Weinheim: Psychologische Verlagsunion.

Wickens, C.D. (2002). Multiple ressources and performance prediction. Theoretical

Issues in Ergonomics Science, 3(2), 159-177. Wickens, C.D. & Hollands, J.G. (2000). Engineering psychology and human perfor-

mance (3rd edition). Upper Saddle River, NJ: Prentice Hall. Zajonc, R. (1968). Attitudinal Effects of Mere Exposure. Journal of Personality and

Social Psychology, (9)2, 1–27. Zsambok, C.E. (1997). Naturalistic Decision Making: Where are we now? In: C.E.

Zsmabok & G.A. Klein (Hrsg.). Naturalistic Decision Making (S. 3-16). Mahwah: Lawrence Erlbaum.

Anhang ______________________________________________________________________________

72

Anhang A Einverständniserklärung

Einverständniserklärung

Hiermit erkläre ich mich einverstanden, an der Studie

Restaurantbuchungssystem

teilzunehmen. Für meine Teilnahme erhalte ich eine Vergütung von 10 €. Die in diesem Zusammenhang erhobenen Daten werden aufgezeichnet, in anonymisierter Form gespeichert und zu wissenschaftlichen Zwecken ausgewertet. Meine Daten werden streng vertraulich behandelt und können nur von entsprechend autorisier-ten Personen eingesehen werden. Meine Teilnahme an der Studie erfolgt freiwillig. Mir ist bewusst, dass ich die Studie zu jedem Zeitpunkt abbrechen kann. In diesem Fall verliere ich jedoch den Anspruch auf die oben genannte Vergütung. ________________________ _________________________________

Ort, Datum Unterschrift

Anhang ______________________________________________________________________________

73

B Instruktionen

Herzlich Willkommen! Vielen Dank, dass Sie sich die Zeit für diese Untersuchung nehmen. Sie werden heute den mobilen Prototypen eines Restaurantbuchungssystems testen. Mit die-sem Prototypen können Sie online einen Tisch in einem bestimmten Restaurant reservieren. Die Suche nach einem Restaurant erfolgt über folgende vier Kriterien:

o die Stadt, in der ein Restaurant liegen soll (z.B. Berlin)

o die Kategorie des Restaurants (z.B. italienisch)

o die Uhrzeit, zu der ein Tisch gewünscht wird (z.B. 18:00 Uhr) und

o die Anzahl der Personen, für die ein Tisch benötigt wird (z.B. zwei Personen).

Für den Test geben wir Ihnen zwei Blöcke mit je 12 Bedienaufgaben vor, die Ihnen einzeln auf dem Bildschirm präsentiert werden. Jede Aufgabe nennt Ihnen die jeweiligen Eingaben, die Sie für eine Restaurantsuche vornehmen sollen, z.B. „ein Restaurant mit italienischer Küche in Ber-lin um 18:00 Uhr für zwei Personen“. Nach jeder Aufgabe werden Sie die Interaktion auf einem kurzen Fragebogen bewerten. Die Bedienung des Prototypen erfolgt wahlweise über Touchscreen oder über Sprache. Sie selbst entscheiden, wie sie das System bedienen möchten, und Sie können jederzeit – auch innerhalb einer Restaurantsuche – zwischen den Eingabeformen wechseln. Zur Eingabe über Touchscreen klicken Sie bitte mit dem Finger auf die entsprechenden But-tons im Display des Prototypen (siehe Startbildschirm in Abbildung 1). Die Bedienung über Spracherkennung erfolgt mittels Sprachkommandos, die im Wesentlichen den Displaybeschriftungen entsprechen, z.B. „Stadt auswählen“, „Berlin“ oder „Restaurant su-chen“. Bitte beachten Sie bei der Spracherkennung, dass Sie auf dem Startbildschirm (Abbildung 1) zunächst das jeweilige Kriterium nennen müssen, das Sie auswählen möchten (also z.B. „Stadt auswählen“), bevor Sie die eigentliche Eingabe, z.B. „Mannheim“ direkt nennen können. Das gleiche gilt für die anderen drei Kriterien Kategorie, Uhrzeit und Personenanzahl.

. Abbildung 1: Startbildschirm des Prototypen

Haben Sie alle vier Kriterien erfolgreich eingegeben, schicken Sie bitte eine Reservierungsan-frage über „Restaurant suchen“ ab. Damit ist eine Testaufgabe erledigt. Sie werden die Bedienung des Prototypen nun zunächst an einigen Beispielaufgaben kennen-lernen. Haben Sie vorab noch Fragen zum Versuch oder zur Bedienung?

Anhang ______________________________________________________________________________

74

C Aufgaben und Aufgabenkonstruktion

I. Trainingsaufgaben

Aufgabe 1 „Suchen Sie ein Fischrestaurant in Kiel ab 20:00 Uhr für 10 Personen.“ Bearbeitung erfolgte unimodal nur über den Touchscreen.

Aufgabe 2 „Suchen Sie ein Sushi-Restaurant in Wiesbaden ab 21:00 Uhr für 2 Personen.“ Bearbeitung erfolgte unimodal nur über die Spracherkennung. Aufgabe 3 „Suchen Sie ein orientalisches Restaurant in Dortmund ab 13:00 Uhr für 18

Personen.“ Bearbeitung erfolgte multimodal nach individueller Präferenz und jederzeitiger

Wahlmöglichkeit zwischen Touchscreen und Spracherkennung

II. Aufgaben des Hauptversuchs

No. Aufgabe Listentiefe „Stadt“

Listentiefe „Kategorie“

Listentiefe „Uhrzeit“

Listentiefe „Personen“

1 „Suchen Sie ein Restaurant mit amerikanischer Küche in Freiburg ab 16:00 Uhr für 13 Personen.“

1

2

3

4

2 „Suchen Sie ein Restaurant mit griechischer Küche in Erfurt ab 20:00 Uhr für 9 Personen.“

3

3

3

3

3 „Suchen Sie ein Restaurant mit mediterraner Küche in Bremen ab 10:00 Uhr für 6 Personen.“

5

1

6

2

4 „Suchen Sie ein Restaurant mit chinesischer Küche in Dortmund ab 18:00 Uhr für 5 Personen.“

2

2

2

2

5 „Suchen Sie ein Restaurant mit indischer Küche in München ab 01:00 Uhr für 21 Personen.“

3

5

4

6

6 „Suchen Sie ein Restaurant mit portugiesischer Küche in Stuttgart ab 11:00 Uhr für 22 Personen.“

6

6

6

6

7 „Suchen Sie ein Restaurant japa-nischer Küche in Düsseldorf ab 22:00 Uhr für 4 Personen.“

4

2

3

1

8 „Suchen Sie ein Restaurant mit brasilianischer Küche in Augsburg ab 12:00 Uhr für 2 Personen.“

1

1

1

1

9 „Suchen Sie ein Restaurant mit deutscher Küche in Rostock ab 13:00 Uhr für 18 Personen.“

2

6

1

5

10 „Suchen Sie ein Restaurant mit italienischer Küche in Köln ab 00:00 Uhr für 14 Personen.“

4

4

4

4

11 „Suchen Sie ein Restaurant mit russischer Küche in Hannover ab 06:00 Uhr für 10 Personen.“

6

5

4

3

12 „Suchen Sie ein Restaurant mit mexikanischer Küche in Leipzig ab 07:00 Uhr für 17 Personen.“

5

5

5

5

Grau unterlegte Zeilen präsentieren die sechs „subaufgabenkonsistenten Hauptaufgaben“, in denen die Listentiefe also für alle vier Subaufgaben identisch ist.

Anhang ______________________________________________________________________________

75

D Balancierung der Aufgabenreihenfolgen

I. Aufgabenblock 1

Versuchsbedingung: Touch einwandfrei (T+) / Sprache einwandfrei (S+)

VP01 1 3 5 7 9 11 12 10 8 6 4 2

VP02 3 5 7 9 11 12 10 8 6 4 2 1

VP03 5 7 9 11 12 10 8 6 4 2 1 3

VP04 7 9 11 12 10 8 6 4 2 1 3 5

VP05 9 11 12 10 8 6 4 2 1 3 5 7

VP06 11 12 10 8 6 4 2 1 3 5 7 9

VP07 12 10 8 6 4 2 1 3 5 7 9 11

VP08 10 8 6 4 2 1 3 5 7 9 11 12

VP09 8 6 4 2 1 3 5 7 9 11 12 10

VP10 6 4 2 1 3 5 7 9 11 12 10 8

VP11 4 2 1 3 5 7 9 11 12 10 8 6

VP12 2 1 3 5 7 9 11 12 10 8 6 4

Versuchsbedingung: Touch fehlerbehaftet (T-) / Sprache einwandfrei (S+)

VP13 1 3 5 7 9 11 12 10 8 6 4 2

VP14 3 5 7 9 11 12 10 8 6 4 2 1

VP15 5 7 9 11 12 10 8 6 4 2 1 3

VP16 7 9 11 12 10 8 6 4 2 1 3 5

VP17 9 11 12 10 8 6 4 2 1 3 5 7

VP18 11 12 10 8 6 4 2 1 3 5 7 9

VP19 12 10 8 6 4 2 1 3 5 7 9 11

VP20 10 8 6 4 2 1 3 5 7 9 11 12

VP21 8 6 4 2 1 3 5 7 9 11 12 10

VP22 6 4 2 1 3 5 7 9 11 12 10 8

VP23 4 2 1 3 5 7 9 11 12 10 8 6

VP24 2 1 3 5 7 9 11 12 10 8 6 4

Anhang ______________________________________________________________________________

76

Versuchsbedingung: Touch einwandfrei (T+) / Sprache fehlerbehaftet (S-)

VP25 1 3 5 7 9 11 12 10 8 6 4 2

VP26 3 5 7 9 11 12 10 8 6 4 2 1

VP27 5 7 9 11 12 10 8 6 4 2 1 3

VP28 7 9 11 12 10 8 6 4 2 1 3 5

VP29 9 11 12 10 8 6 4 2 1 3 5 7

VP30 11 12 10 8 6 4 2 1 3 5 7 9

VP31 12 10 8 6 4 2 1 3 5 7 9 11

VP32 10 8 6 4 2 1 3 5 7 9 11 12

VP33 8 6 4 2 1 3 5 7 9 11 12 10

VP34 6 4 2 1 3 5 7 9 11 12 10 8

VP35 4 2 1 3 5 7 9 11 12 10 8 6

VP36 2 1 3 5 7 9 11 12 10 8 6 4

Versuchsbedingung: Touch fehlerbehaftet (T-) / Sprache fehlerbehaftet (S-)

VP37 1 3 5 7 9 11 12 10 8 6 4 2

VP38 3 5 7 9 11 12 10 8 6 4 2 1

VP39 5 7 9 11 12 10 8 6 4 2 1 3

VP40 7 9 11 12 10 8 6 4 2 1 3 5

VP41 9 11 12 10 8 6 4 2 1 3 5 7

VP42 11 12 10 8 6 4 2 1 3 5 7 9

VP43 12 10 8 6 4 2 1 3 5 7 9 11

VP44 10 8 6 4 2 1 3 5 7 9 11 12

VP45 8 6 4 2 1 3 5 7 9 11 12 10

VP46 6 4 2 1 3 5 7 9 11 12 10 8

VP47 4 2 1 3 5 7 9 11 12 10 8 6

VP48 2 1 3 5 7 9 11 12 10 8 6 4

II. Aufgabenblock 2

alle VPn

11 9 7 5 3 1 12 2 4 6 8 10

Anhang ______________________________________________________________________________

77

E Fragebögen

I. Soziodemografie

Geschlecht: O weiblich O männlich Alter: _________________________________________ Beruf (wenn Student, mit Fachrichtung): __________________________________________

Haben Sie in der Vergangenheit bei Versuchen mit Sprach-steuerungssystemen teilgenommen?

O ja O nein

Besitzen Sie ein Handy mit Touchscreen Funktionalität?

O ja O nein

Wie oft nutzen Sie Touchscreen Eingabesysteme (z.B. Smartphones, Fahrkartenautomaten, Bankautomaten, u.ä.)?

O täglich O wöchentlich O seltener O nie

Hat ihr Handy eine Sprachfunktion?

O ja O nein

Wenn ja, benutzen Sie diese?

O immer O oft O selten O nie

Sprechen Sie auf Anrufbeantworter/Mailboxes?

O immer O oft O selten O nie

Haben Sie Erfahrungen mit Sprachdialogsyste-men/Spracheingabesystemen? (z.B. automatische Hotlines der Bahn, von Versicherungen, Telefonanbietern, Navi-Eingabe über Sprache u.ä.)

O ja O nein

Wie oft nutzen Sie Sprachdialogsysteme?

O täglich O wöchentlich O seltener O nie

Anhang ______________________________________________________________________________

78

II. Skala zur subjektiv erlebten Anstrengung (SEA)

Beanspruchungshöhe Bitte kreuzen Sie auf der folgenden Skala Ihre Gesamtbewertung für die gerade absolvierte Aufgabe an.

Anhang ______________________________________________________________________________

79

III. Bewertung der wahrgenommenen Produktqualitäten (AttrakDiff)

Nachfolgend finden Sie einige Wortpaare, mit deren Hilfe Sie das System bewerten können. Die Wortpaare stellen jeweils extreme Gegensätze dar, zwischen denen eine Abstufung möglich ist.

Zum Beispiel:

unsympathisch

� � � � � �� sympathisch

Diese Bewertung bedeutet, dass das System eher sympathisch, aber noch verbesserungs-bedürftig ist.

Denken Sie nicht lange über die Wortpaare nach, sondern geben Sie bitte die Einschätzung ab, die Ihnen spontan in den Sinn kommt. Vielleicht passen einige Wortpaare nicht so gut auf das System kreuzen Sie aber trotzdem bitte immer eine Antwort an. Denken Sie daran, dass es keine "richtigen" oder "falschen" Antworten gibt - nur Ihre persönliche Meinung zählt!

menschlich

� � � � � � � technisch

isolierend

� � � � � � � verbindend

angenehm

� � � � � � � unangenehm

originell

� � � � � � � konventionell

einfach

� � � � � � � kompliziert

fachmännisch

� � � � � � � laienhaft

hässlich

� � � � � � � schön

praktisch

� � � � � � � unpraktisch

sympathisch

� � � � � � � unsympathisch

umständlich

� � � � � � � direkt

stilvoll

� � � � � � � stillos

voraussagbar

� � � � � � � unberechenbar

minderwertig

� � � � � � � wertvoll

ausgrenzend

� � � � � � � einbeziehend

nicht vorzeigbar

� � � � � � � vorzeigbar

zurückweisend

� � � � � � � einladend

phantasielos

� � � � � � � kreativ

gut

� � � � � � � schlecht

verwirrend

� � � � � � � übersichtlich

Anhang ______________________________________________________________________________

80

abstoßend

� � � � � � � anziehend

mutig

� � � � � � � vorsichtig

innovativ

� � � � � � � konservativ

lahm

� � � � � � � fesselnd

bringt mich Leuten näher

� � � � � � � trennt mich von Leuten

motivierend

� � � � � � � entmutigend

neuartig

� � � � � � � herkömmlich

widerspenstig

� � � � � � � handhabbar

harmlos

� � � � � � � herausfordernd

Anhang ______________________________________________________________________________

81

F Prüfung der statistischen Voraussetzungen

I. Verteilungsform der abhängigen Variablen

Kennwerte zur Prüfung der Verteilungsform der abhängigen Variablen. Angegeben sind die de-skriptiven Kennwerte der Verteilungen sowie die Größen zur Prüfung der Normalverteilung anhand des Shapiro-Wilk-Tests; * p < .05.

abhängige Variable M s Schiefe Kurtosis Shapiro-

Wilk

df p

Sprache auf Startseite, Block 1 .55 0.32 -0.40 -0.89 .928 48 .006*

Sprache Listentiefe 1, Block 1 .58 0.36 -0.18 -1.49 .878 48 < .000*

Sprache Listentiefe 2, Block 1 .76 0.30 -1.30 0.61 .776 48 < .000*





SEA Listentiefe 1, Block 1 23.65 26.25 2.58 9.64 .761 48 < .000*






Pragmatik, Block 1 5.54 0.87 -1.27 2.79 .909 48 .001*

Identifikation, Block 1 4.60 0.93 -0.65 0.47 .957 48 .077*

Stimulation, Block 1 4.54 0.88 -0.35 -0.09 .983 48 .706*

Attraktivität, Block 1 5.23 0.96 -1.04 1.19 .926 48 .005*

Sprache auf Startseite, Block 2 .55 0.36 -0.36 -1.28 .891 48 < .000*

Sprache Listentiefe 1, Block 2 .56 0.37 -0.19 -1.45 .879 48 < .000*












Pragmatik, Block 2 5.58 0.86 -1.09 0.96 .906 48 .001*

Identifikation, Block 2 4.54 0.92 -0.53 0.15 .972 48 .315*

Stimulation, Block 2 4.63 0.85 -0.33 -0.12 .979 48 .541*

Attraktivität, Block 2 5.22 0.92 -.094 0.77 .932 48 .008*

Anhang ______________________________________________________________________________

82

II. Homogenität der Fehlervarianzen (Levene-Test)

Levene-Tests zur Prüfung der Varianzhomogenität; * p < .05.

Quelle der Varianz F df1 df2 p

Sprache auf Startseite, Block 1 2.352 3 44 .085

Sprache auf Startseite, Block 2 3.425 3 44 .025*

Sprache Listentiefe 1, Block 1 1.462 3 44 .238

Sprache Listentiefe 2, Block 1 7.481 3 44 .000*











SEA Listentiefe 1, Block 1 2.561 3 44 .067

SEA Listentiefe 2, Block 1 5.308 3 44 .003*











Pragmatik, Block 1 1.297 3 44 .287

Identifikation, Block 1 2.814 3 44 .050

Stimulation, Block 1 0.598 3 44 .620

Attraktivität, Block 1 2.268 3 44 .094

Pragmatik, Block 2 2.556 3 44 .067

Identifikation, Block 2 3.674 3 44 .019*

Stimulation, Block 2 3.290 3 44 .029*

Attraktivität, Block 2 4.410 3 44 .009*

Anhang ______________________________________________________________________________

83

G Deskriptive Ergebnisse

I. Sprachnutzung auf der Startseite

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf der Startseite.

Spracherkennungsfehler (S-) keine Spracherkennungsfehler (S+)

Touchfehler (T-) keine Touchfehler (T+) Touchfehler (T-) keine Touchfehler (T+)

M s M s M s M s

Block 1 .67 0.21 .75 0.25 .31 0.34 .48 0.29

Block 2 .70 0.19 .77 0.26 .25 0.35 .49 0.37

II. Sprachnutzung auf dem jeweils ersten Listenbildschirm

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem je-weils ersten Listenbildschirm einer Subaufgabe im ersten Aufgabenblock.



M s M s M s M s

Listentiefe 1 .71 0.25 .84 0.24 .37 0.34 .39 0.37

Listentiefe 2 .88 0.16 .90 0.19 .72 0.29 .55 0.40

Listentiefe 3 .96 0.08 .89 0.22 .71 0.25 .68 0.37

Listentiefe 4 .94 0.14 .93 0.16 .80 0.29 .74 0.33

Listentiefe 5 .95 0.14 .87 0.25 .73 0.33 .79 0.32

Listentiefe 6 .92 0.18 .97 0.11 .86 0.30 .69 0.35

Mittelwerte und Standardabweichungen der relativen Häufigkeit von Sprachnutzung auf dem je-weils ersten Listenbildschirm einer Subaufgabe im zweiten Aufgabenblock.



M s M s M s M s

Listentiefe 1 .67 0.26 .80 0.29 .37 0.30 .42 0.46

Listentiefe 2 .87 0.22 .90 0.18 .75 0.34 .59 0.42

Listentiefe 3 .99 0.03 .94 0.12 .88 0.28 .71 0.34

Listentiefe 4 .94 0.16 .97 0.15 .85 0.31 .81 0.31

Listentiefe 5 .95 0.11 1.00 0.13 .86 0.29 .78 0.29

Listentiefe 6 .96 0.06 .96 0.18 .90 0.29 .85 0.29

Anhang ______________________________________________________________________________

84

III. SEA-Werte auf dem jeweils ersten Listenbildschirm

Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im ersten Auf-gabenblock. Anmerkungen: Die Skala reicht von [0-220].



M s M s M s M s

Listentiefe 1 35.25 40.60 14.25 11.53 28.75 23.74 16.33 16.44

Listentiefe 2 46.42 34.14 19.67 15.83 31.75 30.27 11.50 11.11

Listentiefe 3 50.50 31.70 14.08 11.58 20.17 14.60 17.25 24.29

Listentiefe 4 47.33 43.97 14.50 12.09 24.25 19.96 8.42 8.12

Listentiefe 5 44.42 31.70 16.67 12.92 27.25 23.29 17.92 20.44

Listentiefe 6 39.92 28.74 9.58 8.70 22.42 18.54 19.50 19.39

Mittelwerte und Standardabweichungen der subjektiv erlebten Anstrengung (SEA) im zweiten Aufgabenblock. Anmerkungen: Die Skala reicht von [0-220].



M s M s M s M s

Listentiefe 1 37.83 31.51 12.33 11.53 29.25 28.96 10.08 19.26

Listentiefe 2 41.33 24.90 13.17 11.15 17.67 16.29 10.67 12.20

Listentiefe 3 30.83 17.94 12.75 11.15 9.75 13.73 6.58 7.45

Listentiefe 4 34.25 22.57 15.33 11.70 18.25 14.21 10.58 14.12

Listentiefe 5 35.33 32.43 10.42 9.85 18.25 19.41 8.17 11.61

Listentiefe 6 43.50 27.56 13.08 11.63 18.83 16.29 6.92 12.07

Anhang ______________________________________________________________________________

85

IV. Wahrgenommene Produktqualitäten (AttrakDiff)

Mittelwerte und Standardabweichungen des AttrakDiff nach dem ersten Aufgabenblock. Anmer-kungen: Das semantische Differential reicht von [-3] bis [3].



M s M s M s M SD

Pragmatik 0.90 0.71 2.13 0.44 1.39 1.12 1.75 .60

Identifikation 0.19 0.95 1.01 0.55 0.37 1.20 0.84 .76

Stimulation 0.79 0.78 0.31 0.73 0.24 1.08 0.83 .84

Attraktivität 0.81 1.22 1.67 0.54 1.15 1.12 1.30 .71 Mittelwerte und Standardabweichungen des AttrakDiff nach dem zweiten Aufgabenblock. Anmer-kungen: Das semantische Differential reicht von [-3] bis [3].



M SD M SD M SD M SD

Pragmatik 4.90 .89 6.15 .43 5.50 .97 5.77 .57

Identifikation 4.26 .94 4.88 .45 4.34 1.14 4.69 .96

Stimulation 4.81 .82 4.45 .60 4.34 1.21 4.90 .62

Attraktivität 4.77 1.10 5.67 .30 5.12 1.14 5.32 .76

Anhang ______________________________________________________________________________

86

H Inferenzstatistische Ergebnisse

I. Wahrgenommene Produktqualitäten (AttrakDiff)

2x2x2 Varianzanalyse zur Pragmatischen Qualität; (*) p < .1; * p < .05; ** p < .01.

Quelle der Varianz F df1 df2 p part. η2

Spracherkennung (S) - between 13.768 1 44 .001** .238

Toucherkennung (T) - between 0.147 1 44 .703** .003

Aufgabenblock (B) - within 0.400 1 44 .531** .009

S x T 4.856 1 44 .033** .099

S x B 0.059 1 44 .809** .001

T x B 0.192 1 44 .664** .004

S x T x B 0.192 1 44 .664** .004 2x2x2 Varianzanalyse zur Hedonischen Qualität: Identifikation; (*) p < .1; * p < .05; ** p < .01.





S x T 0.371 1 44 .546** .008

S x B 2.016 1 44 .163** .044

T x B 0.257 1 44 .615** .006

S x T x B 0.093 1 44 .762** .002 2x2x2 Varianzanalyse zur Hedonischen Qualität: Stimulation; (*) p < .1; * p < .05; ** p < .01.





S x T 4.259 1 44 .045** .088

S x B 0.128 1 44 .722** .003

T x B 0.003 1 44 .959** .000

S x T x B 0.441 1 44 .510** .010 2x2x2 Varianzanalyse zur Attraktivität; (*) p < .1; * p < .05; ** p < .01.


Spracherkennung (S) - between 4.093 1 44 .049* .085

Toucherkennung (T) - between 0.001 1 44 .982* .000

Aufgabenblock (B) - within 0.052 1 44 .820* .001

S x T 1.840 1 44 .182* .040

S x B 0.209 1 44 .649* .005

T x B 0.013 1 44 .909* .000

S x T x B 0.013 1 44 .909* .000

Documents

Eine experimentelle Untersuchung zum Einfluss ...Multimodalität ist ein vielversprechendes Konzept, um die Bedienung techni-scher Systeme zu erleichtern und Nutzer nicht nur zufriedenzustellen,