Usabilitybewertung von Telematiksystemen · 2019. 8. 23. · Usabilitybewertung von Telematiksystemen Testmethoden und Ergebnisse zum Deutschen Telematik Preis 2016 Maximilian Köppel

Usabilitybewertung von Telematiksystemen Testmethoden und Ergebnisse zum Deutschen Telematik Preis 2016

Maximilian Köppel (M.Sc.)

Prof. Dr.-Ing. Heinz-Leo Dudek

IWT Wirtschaft und Technik GmbH

Friedrichshafen, den 30. September 2015

Usabilitybewertung von Telematiksystemen Seite I Maximilian Köppel / Heinz-Leo Dudek

Übersicht Ein Forschungsschwerpunkt an der DHBW Ravensburg und ihrem zugehörigen Institut für

Weiterbildung, Wissens- und Technologietransfer (IWT) beschäftigt sich mit der „Validation

und Verifikation von bedienergeführten IT-Systemen“. Insbesondere die Usabilitybewertung

von Telematiksystemen für den Einsatz in Nutzfahrzeugen war bisher einer der

Schwerpunkte der Arbeiten.

Hierfür wurde im Jahr 2014 ein umfangreiches Verfahren erarbeitet, siehe [KOE1], und im

Jahr 2015 verifiziert, siehe [KOE2].

Im Auftrag des ETM-Verlags wurden im IWT dann im Zeitraum April bis Juli 2015 zwölf

verschiedene Telematiksysteme auf ihre Usability hin untersucht und bewertet.

Die vorliegende Dokumentation beschreibt den Hintergrund, die verwendeten Methoden und

die Ergebnisse der Usabilitybewertung dieser Telematiksysteme.

Usabilitybewertung von Telematiksystemen Seite II Maximilian Köppel / Heinz-Leo Dudek

Inhaltsverzeichnis

1. Hintergrund und Aufgabenstellung ............................................................................... 1

1.1. Der Deutsche Telematik Preis 2016 .......................................................................... 1

1.2. Preiskategorien und nominierte Systeme .................................................................. 1

2. Testmethoden zur Usabilitybewertung ....................................................................... 13

2.1. Testaufgabenkatalog ............................................................................................... 13

2.2. Laborsystem Dikablis der DHBW ............................................................................. 17

2.2.1. Systembeschreibung Dikablis Professional von Ergoneers ............................. 17

2.2.2. Kennzahlen in der Analysesoftware D-LAB ...................................................... 18

2.3. Testdurchführung mit Eyetracking ........................................................................... 23

2.3.1. Verwendete Kennzahlen ................................................................................... 23

2.3.2. Korrelationsanalyse der verwendeten Kennzahlen .......................................... 23

2.3.3. Extremwertbestimmung der Kennzahlen .......................................................... 30

2.4. Testdurchführung mit Fragen und Kriterienkatalog .................................................. 32

2.5. Testdurchführung mit Zeitmessung ......................................................................... 35

2.6. Methodenvalidation und Beschreibung der Tests .................................................... 36

2.6.1. Aspekte beim Test mit Eyetracking .................................................................. 36

2.6.2. Aspekte beim Test mit Userfragen ................................................................... 38

2.6.3. Aspekte beim Test mit Kriterienkatalog ............................................................ 39

2.6.4. Sonstige Hinweise ............................................................................................ 40

3. Testdurchführung und Ergebnisse ............................................................................. 42

3.1. Beschreibung der Testumgebung und -ablauf ......................................................... 42

3.1.1. Testaufgaben .................................................................................................... 42

3.1.2. Notenbildung ..................................................................................................... 44

3.1.3. Testablauf ......................................................................................................... 47

3.2. Ergebnisübersicht .................................................................................................... 50

3.3. Detailergebnisse je Kategorie .................................................................................. 55

3.3.1. Ergebnisse OEM-Telematik .............................................................................. 55

Usabilitybewertung von Telematiksystemen Seite III Maximilian Köppel / Heinz-Leo Dudek

3.3.2. Ergebnisse Nachrüst-Telematik für LKW .......................................................... 56

3.3.3. Ergebnisse Telematik für leichte Nutzfahrzeuge .............................................. 57

3.3.4. Ergebnisse Trailer-Telematik ............................................................................ 58

3.3.5. Ergebnisse Telematik für Sonderfahrzeuge ..................................................... 59

3.3.6. Ergebnisse Telematik für Container und Wechselbrücken ............................... 60

4. Zusammenfassung ....................................................................................................... 61

5. Abbildungsverzeichnis ................................................................................................. 62

6. Tabellenverzeichnis ...................................................................................................... 64

7. Literaturverzeichnis zu „Usability von Telematik“ .................................................... 66

8. Anhang ........................................................................................................................... 74

Usabilitybewertung von Telematiksystemen Seite 1 Maximilian Köppel / Heinz-Leo Dudek

1. Hintergrund und Aufgabenstellung

1.1. Der Deutsche Telematik Preis 2016 Der Deutsche Telematik Preis wurde vom EuroTransportMedia Verlag (ETM), Stuttgart,

erstmals im Jahr 2015 (für das Jahr 2016, nachfolgend mit „DTP16“ abgekürzt) in sechs

verschiedenen Kategorien ausgelobt. Die sich um den Preis bewerbenden

Telematikhersteller bzw. deren Telematiksysteme wurden einem zweistufigen

Bewertungsverfahren unterzogen. In einer ersten Runde wurden technische Details und

Funktionalitäten der Telematiksysteme in einem Fragebogen erfasst. Auf dieser Basis

wurden die Systeme nach einem von der Jury festgelegten Bewertungs- und

Gewichtungsverfahren in eine Rangfolge gebracht. Die „Top 3“ jeder Kategorie wurden mit

dem Prädikat „Nominiert für den Deutschen Telematikpreis 2016“ ausgezeichnet.

Die zweite Stufe auf dem Weg zur Preisverleihung war die Bewertung der

Gebrauchsfähigkeit („Usability“). Dabei stand im Fokus, wie bedienerfreundlich die Systeme

im Alltagsgebrauch sind. Es wurde dabei rein die Back-Office-Bedienung, also der Gebrauch

durch den Fuhrparkleiter, Disponenten, o.ä., betrachtet. Die Bedienungsfreundlichkeit im

Fahrzeug wurde nicht untersucht, da diese auch stark von der Einbausituation abhängt und

in einigen der Kategorien ohnehin keine Anzeige-/Bedieneinheit für den Fahrer vorhanden ist

(z.B. beim Trailer). Mit der Durchführung der Usabilitytests wurde das Institut für

Weiterbildung, Wissens- und Technologietransfer („IWT“) an der DHBW Ravensburg

Campus Friedrichshafen beauftragt.

1.2. Preiskategorien und nominierte Systeme Nachfolgend werden die sechs Preiskategorien beschrieben sowie exemplarische

Darstellungen der jeweiligen Einsatzgebiete gezeigt. Zusätzlich werden die jeweils

nominierten Systeme genannt und es sind beispielhafte Screenshots von eingesetzten

Telematik-Oberflächen abgebildet.

OEM Telematik „OEM-Telematik“ bezeichnet Telematiksysteme der Fahrzeughersteller, die beim

Fahrzeugkauf ab Werk serienmäßig oder als Zusatzausstattung angeboten werden. Mit

Übergabe eines neuen Fahrzeuges stehen dem Nutzer die Funktionen des

Telematiksystems sofort zur Verfügung. Bestandsflotten können in der Regel trotzdem

markenübergreifend nachgerüstet werden.


Abbildung 1: Einsatzmöglichkeit für OEM-Telematik mit gleichen Zugfahrzeugen (Quelle: Spedition Oehrle)

Der Vorteil der OEM-Telematik liegt in der Regel beim flächendeckenden Support durch

speziell für die Telematikanwendungen zertifizierten Fahrzeugniederlassungen (vgl. [FB1]).

In dieser Kategorie wurden folgende Systeme für den DTP16 nominiert und damit auf

Usability getestet:

Daimler Fleetboard

Scania Fleet Management & Tachograph Services

Abbildung 2: Beispieldarstellung eines Portals für OEM-Telematik (Quelle: Daimler AG)


Abbildung 3: Beispieldarstellung eines Portals mit Auswertungsmöglichkeiten für OEM-Telematik (Quelle: Daimler

AG)

Nachrüst-Telematik für LKW Neben der auch von den Fahrzeugherstellern angebotenen Nachrüstung gibt es

Telematikanbieter, die sich speziell auf dieses Geschäftsmodell spezialisiert haben und

markenübergreifend Telematiklösungen in vorhandene Flotten integrieren. Die Vorteile sind

dabei bspw. die völlige Unabhängigkeit von spezieller Hardware und die meist flexible

Integration von bereits vorhandenen und auch anderweitig genutzten Endgeräten oder

ähnlichen Einheiten (z.B. Android-Smartphone im LKW: Navigation und Flottentelematik).

Über standardisierte Schnittstellen sind auch hier Anbindungen an die technischen Systeme

des Zugfahrzeuges möglich – so können etwa CAN-Daten ausgewertet oder

Betriebskennlinien einzelner Fahrzeugkomponenten für die spätere Optimierung erfasst

werden (vgl. [CO1] und [ZF1]). Ein weiterer Ansatz dieser Nachrüster ist der Zuschnitt der

Funktionsumfänge auf Kundenspezifika – zum Teil orientiert man sich hier sogar an dem aus

der Consumer-Elektronik bekannten „App“-Konzept der Smartphones und bietet sogar

eigene Software-Developer-Kits an (siehe auch hierzu [ZF1]). Als Testsysteme in dieser

Kategorie waren nominiert:

couplinkyourfleet von der Couplink Group AG

GPS Auge und GPS Explorer der GPSoverIP GmbH

Openmatics vom gleichnamigen Tochterunternehmen der ZF Friedrichshafen AG

Nachfolgend dargestellte Abbildung zeigt ein denkbares Szenario für eine Telematiklösung

zum Nachrüsten – eine LKW-Flotte mit Fahrzeugen verschiedener Hersteller.


Abbildung 4: Einsatzszenario für Nachrüst-Telematik bei inhomogenen Flotten (Quelle: Erdtrans GmbH)

Abbildung 5: Portalübersicht mit einem ausgewählten Fahrzeug im Bereich der Nachrüst-Telematik (Quelle:

GPSoverIP)

Telematik für leichte Nutzfahrzeuge Bei den Angeboten für leichte Nutzfahrzeuge steht die Steuerung von Flotten kleinerer

Fahrzeuge, wie etwa Lkw kleiner 7,5 to., Transporter und gewerblich genutzte Pkw, im

Vordergrund. Die Funktionalitäten sind vorrangig auf die Prozesse des Fahrzeugbetreibers

ausgerichtet, daneben werden Navigationsfunktionen geboten, ebenso wie die Optimierung


von Routen (Verkehrsstörungen, etc.) oder Rückmeldungen über Fahrverhalten und

Kraftstoffverbräuche (vgl. hierzu [TO1]). In diese Kategorie fallen folgende Systeme:



Webfleet von TomTom Telematics

Cargofleet VAN Cool von IDEM Telematics GmbH

(Hinweis: In dieser DTP16-Kategorie waren vier Systeme nominiert, da die aus Stufe 1 auf

Platz 3 und 4 platzierten Systeme nur unwesentlich unterschiedliche Bewertungen erhalten

hatten.)

Abbildung 6: Portaloberfläche eines Telematiksystems für leichte Nutzfahrzeuge (Quelle: IDEM)

Leichte Nutzfahrzeuge kommen beispielsweise im Lieferverkehr zum Einsatz. Kurierfahrten

auch von sensiblen Gütern mit erhöhten Anforderungen an die Nachweisbarkeit und

Transparenz der Auftragsbearbeitung gehören hier zum möglichen Einsatzspektrum. Der

Fokus kann aber auch auf der Ortung (für schnelle Disposition von z.B. Serviceaufträgen)

und Navigation liegen (Routenoptimierung).


Abbildung 7: Kurierfahrt als Szenario für den Einsatz von Telematik für leichte Nutzfahrzeuge (Quelle: Hermes

Europe GmbH)

Telematik für Sonderfahrzeuge Diese Systeme bringen meist spezielle Funktionalitäten für besondere Einsätze im Fahrzeug

mit – so können etwa weitere Schnittstellen (Waagen für Container o.ä.) angebunden und

zugehörige Daten übermittelt werden. Weiterhin können Sonderanwendungen spezielle

Funktionen zur Routenplanung und –optimierung erfordern oder spezielle Anforderungen an

Nachweisbarkeit und Transparenz stellen. Etwa bei medizinischen Transporten oder

Schwerlastgütern mit Sondergenehmigungen und Einschränkungen bei den erlaubten

Fahrzeiten (siehe hierzu auch [CO2]). Zum Test in dieser Kategorie standen diese Systeme

bereit:



ATP Telematik Plattform von der mm-lab GmbH


Abbildung 8: Erstellen einer Tour für ein Sonderfahrzeug per Mausklick in eine hinterlegte Karte (Quelle:

GPSoverIP)

Bei Sonderfahrzeugen rücken beispielsweise kommunale Entsorgungsbetriebe als

Zielgruppe in den Fokus. Hier sollen Routen mit einer Vielzahl von Halte- und Ladepunkten

optimiert werden, um bspw. Leerfahrten oder Fahrten mit Teilbeladung zu reduzieren.

Abbildung 9: Fahrzeug der kommunalen Abfallentsorgung als Zielgruppe für den Einsatz von Telematiksystemen

für Sonderfahrzeuge (Quelle: MAN)


Abbildung 10: Nachbearbeitung der ausgewählten Tour (vorangegangene Grafik) in einer tabellarischen

Übersicht (Quelle: GPSoverIP)


Trailer-Telematik Da in heutigen Logistikprozessen vermehrt mit Auflieger und Zugfahrzeug gearbeitet wird,

besteht der Wunsch, die Auflieger („Trailer“) separat zu überwachen.

Gerade im Begegnungsverkehr sind die Kombinationen aus Zugfahrzeug und Trailer nicht

von Belade- bis Entladepunkt identisch. Ggf. kann auch unterwegs der Trailer auf anderen

Transportmitteln befördert werden (siehe nachfolgende Abbildung). Aus diesem Grund

verfügen die Einheiten oftmals über eigene Telematiksysteme.

Abbildung 11: Kühltrailer ohne Zugfahrzeug beim Transport über die Schiene (Quelle: Cargobeamer)

Die Funktionalitäten fokussieren dabei vor allem auf die Nachverfolgung von Standorten,

Kühltemperaturen oder unbefugten Zugriffen. Dies kann von der Kontrolle der Ladetüren bis

hin zu Gebietsüberwachungen für abgestellte Trailer reichen (vgl. hierzu [KR1]). Die Daten

müssen ggf. länger im mobilen Gerät selbst gespeichert werden, auch die Stromversorgung

unterliegt höheren Anforderungen hinsichtlich der Ausfallsicherheit, sodass oft auf interne

Batterien als Backup zurückgegriffen wird.

An Trailersystemen waren im Rahmen der Usabilitytests folgende Teststellungen verfügbar:

Cargofleet Trailer COOL Set + temprecorder Hub von der IDEM Telematics GmbH

Krone Telematics von der Fahrzeugwerk Bernard KRONE GmbH

Schmitz Cargobull Telematics der Schmitz Cargobull AG


Abbildung 12: Portalübersicht Trailertelematik mit tabellarischer Darstellung des Positionsverlaufes einer Einheit

(Quelle: Krone)


Telematik für Container und Wechselbrücken Ähnlich wie bei der Telematik für Trailer fokussieren die Lösungen für Container und

Wechselbrücken auf Ortungsfunktionen und artverwandte Funktionalitäten. Da

Standardcontainer ebenso wie Kühl- oder Tankcontainer mit verschiedenen Transportmitteln

befördert werden (bspw. Schiff, Güterzug, LKW) kommt es hier auf eine robuste und

unabhängige Lösung an. Die montierten Endgeräte sind daher solarbetrieben und fähig, bis

zu sieben Jahre wartungsfrei unterwegs zu sein (siehe hierzu [AG1]). Backendseitig wird wie

bei den vorangegangenen Systemen meist auf eine webbasierte Lösung zurückgegriffen, die

alle notwendigen Funktionalitäten beinhaltet. In diese Kategorie fallen folgende

Teststellungen:

GPS Solar und TRACK Agheera Telematics Platform von der Agheera GmbH

Krone Telematics von der Fahrzeugwerk Bernard KRONE GmbH


Die robusten und von externer Energieversorgung autarken On-Board-Units für die

Container-Telematik werden vorzugsweise auf der Oberseite eines Standardcontainers

befestigt. Auch bei Loslösung von Fahrgestellen oder ähnlichem besteht die Möglichkeit zur

Ortung und Routenverfolgung der Transporteinheiten.

Abbildung 13: Darstellung mit dem Modell einer Kombination aus Standardcontainer (auch für den Seeverkehr)

und Fahrgestell für den Straßentransport (Quelle: Tamiya)


Abbildung 14: Auszug eines Telematiksystems für Container und Wechselbrücken, hier mit Anzeige der

Containertemperatur (Quelle: Krone)


2. Testmethoden zur Usabilitybewertung Das nachfolgend beschriebene Verfahren zur Usabilitybewertung beruht im Wesentlichen

auf den Usabilitykriterien aus dem Evaluationsleitfaden zur Bewertung der Mensch-

Computer-Schnittstelle EVADIS II (siehe [OPP]), welche wiederum auf der DIN EN ISO 9241

aufbaut. Diese Usabilitykriterien umfassen:

Verfügbarkeit

Aufgabenangemessenheit

Übersichtlichkeit

Selbstbeschreibungsfähigkeit

Erlernbarkeit

Erwartungskonformität

Fehlerrobustheit

Individualisierbarkeit

Steuerbarkeit

Die genannten Kriterien werden anhand typischer Telematik-Back-Office Aufgaben bewertet,

wobei folgende Methoden eingesetzt werden:

Zeitmessung

Userbefragung (nach Durchführung der jeweiligen Aufgaben)

Expertenbefragung (mit so genannten Kriterienkatalogen)

Blickbewegungsmessung („Eyetracking“)

In [KOE1] finden sich eine nähere Beschreibung der Usabilitykriterien sowie die Ansätze zur

Operationalisierung durch vorstehend genannte Methoden.

In den folgenden Abschnitten werden der Katalog der repräsentativen Back-Office-Aufgaben

sowie die User- und Expertenfragen vorgestellt. Ebenso erfolgt in diesem Kapitel eine

Einführung in das Laborsystem der DHBW (Dikablis Professional der Firma Ergoneers) und

in die Auswertung der Eyetrackingdaten.

(Hinweis: Diese Unterkapitel entstammen [KOE1] und sind zur Vereinfachung für den Leser

hier übernommen.)

2.1. Testaufgabenkatalog Die Erhebung von repräsentativen Testaufgaben aus dem Anwendungsbereich eines

Telematiksystems bildet die Grundlage für den Usability-Test. Die Aufgaben oder

Nutzungsszenarios müssen dabei mehrere Bedingungen erfüllen. Zum einen bspw. muss die

Testperson die Aufgabenstellung auch ohne Vorkenntnisse lösen können. Unabhängig


davon muss die Komplexität ausreichend gering sein, um den Tätigkeitsverlauf in der

Aufgabe nachvollziehen zu können. Nur so können z.B. Fehler im Portal als solche zu

erkannt werden. Ist diese Erkennung nicht mehr möglich, werden die Fehler ggf. als

Usability-Problem wahrgenommen und verzerren die Bewertung. Zusammenfassend gibt es

fünf wesentliche Merkmale zur Erstellung von Testszenarien:

Realistische und motivierende Szenarien

Reihenfolge für die Szenarien festlegen

Szenarien an Fähigkeiten der Probanden anpassen

Fachsprache und Stichwörter vermeiden

Inhalt sollte zeitlich gut zu bewältigen sein ([NAU], S. 53f)

Im Bereich der Telematik gibt es drei wesentliche Tätigkeitsbereiche im Back-Office. Diese

Bereiche sind zusammen mit einigen ihrer jeweils möglichen Aufgaben nachfolgend

aufgelistet:

Administrative Aufgaben, wie etwa

o das Anlegen eines neuen Fahrzeugs im System, o das Verwalten von Points of Interest (POI), oder o die so genannte Gebietsüberwachung.

Dispositive Aufgaben, z.B.: o die Ortung eines Fahrzeuges, o das Erstellen und Zuweisen von Transportaufträgen oder o Freitextnachrichten, sowie o das Abrufen des Fahrzeugstatus.

Analyseaufgaben, wie etwa: o die Auswertung des Kraftstoffverbrauchs auf einer bestimmte Fahrt, oder o die Fahrtstreckenauswertung.

([MAR], S. 26 f, [DUD])

Diese Use-Cases sollen also ein möglichst ein reales Abbild der Tätigkeiten eines

Disponenten wiedergeben und dabei von täglich auftretenden Routinen, wie etwa der

Vergabe eines Transportauftrages oder dem Auffinden eines Fahrzeuges bis hin zu eher

selten vorkommenden, administrativen Aufgaben, wie dem Anlegen eines

Fahrzeugdatensatzes reichen. Die Gewichtung der einzelnen Teilnoten der Aufgaben sollte


dabei analog zur Eintrittswahrscheinlichkeit der modellierten Arbeitssituation erfolgen. Häufig

wiederkehrende Tätigkeiten sollten stark gewichtet werden, da hier eine unzureichende

Usability in Summe stärkere Auswirkungen erzeugt, als bei seltenen Aufgaben.

Der für diese Bewertungsmethode verwendete Aufgabenkatalog ist nachfolgend dargestellt.

Die Buchstaben in Klammern geben an, ob es sich um eine administrative (A), dispositive

(D) oder analytische Tätigkeit (R) handelt.

A1 Anlegen eines Fahrzeuges. (A)

A2 Vergabe eines Transportauftrages. (D)

A3 Versenden einer Nachricht. (D)

A4 Auswerten der Fahrtstrecke. (R)

A5 Ortung eines Fahrzeuges. (D)

A6 Report Geschwindigkeitsverlauf. (R)

A7 Report Kraftstoffverbrauch.(R)

A8 POI anlegen. (A)

A9 Gebietsüberwachung einrichten. (A)

Nach der Erhebung wurden die Aufgaben auf die ausgewählten Kriterien für die Usability

verteilt. Dabei wurde darauf geachtet, dass zum einen die Häufigkeitsverteilung der realen

Tätigkeit entspricht. Zum anderen sollen die pro Kriterium gewählten Aufgaben auch für

diesbezügliche Aussagen geeignet sein. Die nachfolgende Abbildung zeigt diese Zuordnung

der Aufgaben zu den Kriterien. In der Summenzeile ist dargestellt, wie oft die jeweilige

Aufgabe zur Bewertung herangezogen wird. Der Aufgabe „Transportauftrag vergeben“

kommt von der Anzahl her die höchste Bedeutung zu. Dahinter folgen die „Ortung eines

Fahrzeuges“ sowie das „Auswerten der Fahrtstrecke“. Diese Funktionen entsprechen sehr

stark dem Arbeitsalltag eines Disponenten, untergeordnete Tätigkeiten wie das „Anlegen

eines Fahrzeuges“ oder den „Report Kraftstoffverbrauch“ erhalten auch innerhalb dieser

Bewertungsmethode eine geringeres Gewicht.


A1 A2 A4 A5 A7 A9

Verfügbarkeit x x xNützlichkeit x x xÜbersichtlichkeit x x xSelbstbeschreibungsfähigkeit x x xErlernbarkeit x x xErwartungskonformität x x xFehlerrobustheit x x xIndividualisierbarkeit x x xSteuerbarkeit x x x

Summe 3 8 6 6 2 2

Abbildung 15: Aufgabenverlauf und Zugehörigkeit zu Kriterien (Quelle: Eigene Darstellung)


2.2. Laborsystem Dikablis der DHBW

2.2.1. Systembeschreibung Dikablis Professional von Ergoneers

Das Akronym „Dikablis“ für das Messgerät der Firma Ergoneers lässt sich von „Digitales

Kabelloses Blickbewegungsmesssystem“ ableiten ([BAM], S. 11). Aus den verschiedenen

Varianten des Eye-Tracking wurde für das Telematiklabor ein Gerät in der Ausführung „Eye-

Tracking Head Mounted“ angeschafft. Die nachfolgende Abbildung zeigt das Herzstück des

Blickmessgerätes an der DHBW in Friedrichshafen, nämlich die Dikablis Professional

Glasses. [ER2]

Abbildung 16: Dikablis Professional Eye-Tracking Head Mounted (Quelle: Ergoneers [ER2])

Die wesentlichen technischen Daten des Dikablis Professional Eye-Tracking Systems sind

nachfolgend aufgelistet:

Binokulares System, über Brillen, Kontaktlinsen und Shutter-Brillen tragbar

Szenenkamera: 1920 x 1080 Pixel (Full HD), 30fps

Trackingfrequenz je Augenkamera: 60 Hz

Öffnungswinkel Szenenkamera: 40°- 90° (über verschiedene Objektive)

Da das Laborsystem ein Gerät der Variante Dikablis Cable ist, also kabelgebunden, gehören

weitere Komponenten zum Versuchsaufbau. Die Dikablis Glasses werden direkt mit dem

Rechner verbunden, auf dem die Software D-Lab zur Aufnahme und Auswertung des


Blickverhaltens installiert ist. Es ist hier dem Anwender überlassen, welche Hardware er

verwendet. Im Falle des Telematiklabors an der DHBW Friedrichshafen steht ein Hewlett-

Packard HP EliteBook 8570w mit 8 GB Arbeitsspeicher, Intel Core i5-3360M CPU mit 2,8

Ghz und 64 Bit-Betriebssystem zur Verfügung. Notebooks mit Komponenten geringerer

Leistung sind für Eyetracking-Anwendungen nicht zu empfehlen, da durch die Live-

Funktionen und die HD-Frontkamera des Eyetrackers große Datenmengen verarbeitet

werden müssen. Durch die Anbindung des Eyetrackers an den Laptop kann in Echtzeit

bspw. nachkalibriert oder die Qualität des Videos hinsichtlich erkannter Marker sichergestellt

werden. Eine weitere Systemvariante die aktuell in der Markteinführungsphase ist, stellt das

System Dikablis Mobile dar. Die Datenaufzeichnung erfolgt mobil über ein Tablet, auf dem

die Daten lokal gespeichert werden. Komplett kabellos ist die Ausführung Dikablis Wireless.

Hier werden die Daten über W-LAN zur Analyse an den Aufnahmerechner übermittelt.

Sämtliche Einstellungen können dort in Realtime vorgenommen werden während sich die

Testperson frei bewegt.

2.2.2. Kennzahlen in der Analysesoftware D-LAB

Die Software D-LAB der Firma Ergoneers bietet die Möglichkeit zum Aufzeichnen,

Nachkalibrieren und Auswerten der Blickdaten von Probanden. Speziell zur Auswertung

steht eine Vielzahl an Kennzahlen zur Verfügung. Die nachfolgende Abbildung 17 gibt einen

ersten Überblick über die möglichen Auswertungen und Kennzahlen.

Im Anschluss daran soll auf einige ausgewählte Kennzahlen (hervorgehoben in der

Abbildung 17) näher eingegangen werden. Sie werden hinsichtlich ihrer benötigten

Datengrundlage (z.B. AOI1) beschrieben und auf ihre Eignung in der Usability-Bewertung am

IWT untersucht. Außerdem werden die Berechnungsgrundlagen dargestellt, soweit sie vom

Systemhersteller dem Anwender zugänglich gemacht sind.

1 „Areas of Interest (AOI) werden definiert, um die Bereiche, für die das Blickverhalten von Interesse

ist, zu kennzeichnen.“ ([ER1], S. 44) Ein solcher Bereich kann bspw. als beliebiger Polygonzug

gezeichnet werden. Die Positionsreferenz im Video erfolgt über einen am Testbildschirm

angebrachten und von der Umgebungskamera des Eyetrackers mitaufgezeichneten Marker mit

Hexacode. Klassische AOI-Beispiele sind Menüs und Schaltflächen oder Eingabefelder.


Abbildung 17: Überblick über Auswertemetriken in D-LAB (Quelle: D-LAB Analyse, eigene Darstellung)


Duration [s] Dieser Wert stellt im „Entire Data Session“ Modus schlicht die Laufzeit der Aufzeichnung dar.

Der Wert wird in Sekunden angegeben und dient zur Relativierung von bspw. kumulierten

Kennwerten.

AOI Attention Ration [%] Diese Aufmerksamkeitsrate für einen Interessensbereich (AOI) gibt den prozentualen Anteil

der Blicke auf ein gewähltes AOI in einem einstellbaren Zeitintervall an. Dieser Prozentsatz

berechnet sich wie folgt:

∑ ⋯ ∗ 100% (6.1)

Glance Location Probability [%] Dieser Wert gibt die Wahrscheinlichkeit in Prozent an, dass der Blick während eines

Zeitintervalls auf ein AOI oder ein AOI-Set fixiert ist. Er berechnet sich wie folgt:

, ∗ 100% (6.2)

Link Value Probability [%] Hier wird die Wahrscheinlichkeit in Prozent eines Blickwechsels zwischen zwei

unterschiedlichen AOI’s in einem gewählten Zeitintervall berechnet. Die LVP von AOI A nach

AOI B berechnet sich daher folgendermaßen:

_ _

∗ 100% (6.3)

Percentage Transition Times [%] Dieser Prozentsatz bezieht sich auf den Zeitanteil der Blickwechsel zwischen AOI’s am

Messzeitraum. Der Kennzahl liegt zugrunde, dass in dieser Zeit keine Information

aufgenommen werden kann. Je höher also dieser Prozentsatz, desto weniger

Informationsaufnahme durch den User.

∑ ⋯ ∗ 100% (6.4)


Horizontal Eye Activity (analog: Vertical Eye Activity) [pixel] Diese Kennzahlen sind ebenfalls ein Maß für die Suchaktivität des Blickes. Die Werte in

[pixel] bezogen auf das Bild der Frontkamera entsprechen der Standardabweichung der

Pupille von der mittleren Blickachse. Je höher beide Werte, desto höher die Suchaktivität des

Blickes.

Number of fixations (left/right) Unter dieser Kennzahl wird die Anzahl an Fixationen (auf ein AOI) pro Auge im gewählten

Zeitraum angegeben. Die Darstellung dieser Kennzahl in verschiedenen Extremfällen findet

sich in der Korrelationsanalyse im Kapitel 2.3.2.

Number of saccades (left/right) Unter dieser Kennzahl wird die analog zu den Fixationen im Absatz oben die Anzahl an

Sakkaden pro Auge im gewählten Zeitraum angegeben. Analog zur Fixationskennzahl finden

sich Darstellungen zum Verhalten der Sakkadenanzahl über die Aufnahmedauer im Kapitel

2.3.2. Auch bei den Sakkaden gilt: Sie sind ein Maß für die Suchaktivität – je mehr

Sakkaden, desto weniger Information findet der User an einer Stelle.

Eine grundlegende Herausforderung bei der Nutzung von Eyetrackingdaten zur

Usabilitybewertung stellen die Kennzahlen dar, die auf systemspezifischen AOI beruhen.

Systemspezifisch deshalb, da davon auszugehen ist, dass sich die Testsysteme doch eher

stark unterscheiden hinsichtlich ihrer Oberflächenstruktur. Das heißt, bei ca. 15

Testsystemen ergeben sich unter der Annahme, dass alle Aufgaben in den Systemen

verschieden dargestellt werden, bereits 90 AOI-Sets (Annahme: 6 Eyetrackingaufgaben pro

Systemtest). Des Weiteren ist davon auszugehen, dass pro Aufgabe verschiedene Frames

durchlaufen werden, innerhalb derer sich die AOI-Lage wieder ändert. Mit der Annahme von

3 Frames pro Aufgabe ergeben sich so 270 einzelne AOI-Konstellationen. Zwar können

diese Bereiche bei Aufzeichnung der Eyetracking-Messungen mit Markern auch nachträglich

eingefügt werden, aber grundsätzlich ist das AOI-Management mit erheblichem

Mehraufwand verbunden. Deswegen wurde in der hier beschriebenen Usabilityuntersuchung

im Rahmen DTP16 darauf verzichtet.

Eine Alternative zu den im D-LAB Programm definierten AOI’s für z.B. Schalt- und

Eingabeflächen wäre die Unterteilung des im Test verwendeten Bildschirms in aufgaben-

und systemunabhängige Quadrate. Beispielweise wird der Bildschirm mit einer Anordnung

aus 12 aneinander gelegenen AOI’s versehen (Skizze in Abbildung 18). Werden dann die

Koordinaten der einzelnen Fixationen aus der Analysesoftware ausgelesen und in bspw. in

einer Tabelle ausgelesen, können die Orte mit Anhäufungen von Fixationen bestimmt


werden. Es kann ausgewertet werden, ob z.B. Fixationen nur in 6 von 12 Feldern

vorkommen und das getestete System somit ein gewisses Maß an Übersichtlichkeit aufweist,

da der Proband nicht in allen Bildschirmfeldern nach Informationen sucht.

Die aktuell verfügbare SW-Version des Ergoneers Systems bietet diese Möglichkeit leider

noch nicht. Diese Auswertemöglichkeit sollte zukünftig aber nochmals aufgegriffen werden.

Abbildung 18: Überlagern eines Telematikportals (ZF Openmatics) mit AOI-Raster (Quelle: eigene Darstellung)

Wie bereits in vorangegangenen Unterabschnitten (siehe hierzu auch [GOL] S. 501)

beschrieben, eignen sich die „number of saccades“ und „number of fixations“ für die

Bewertung von Usability. Beide Kennzahlen sind in D-Lab verfügbar. Eine „scanpath length“

bietet das Programm noch nicht, dieses Feature ist jedoch für kommende Releases

eingeplant2. Möglich und in eine ähnliche Richtung zielend (s.o.) ist die Auswertung von

„horizontal/vertical eye activity“ als Maß für die Suchaktivität.

2 Aussage Firma Ergoneers: Anfang des kommenden Jahres wird voraussichtlich automatisch der

Sakkadenwinkel berechnet werden, was wiederum durch Umrechnung in Pixel (der Frontkamera) und

Summe über die Sakkaden zur Pfadlänge führen würde.

AOI 1 AOI 2

… AOI 11 AOI 12

…


2.3. Testdurchführung mit Eyetracking

2.3.1. Verwendete Kennzahlen

Aufgrund der schnell steigenden Aufwände beim Verwalten und Anlegen von AOI’s in

Studien mit mehreren Testsystemen, sollen an dieser Stelle vorerst Kennzahlen verwendet

werden, die sich direkt aus der Blickmessung ableiten lassen. Hierzu gehören die „number of

fixations“ sowie die „number of saccades“. Auch die „horizontal eye activity“ soll zusammen

mit der „vertical eye activity“ zur Bewertung verwendet werden, da die Operationalisierung

der Kriterien gezeigt hat, dass beim Eyetracking meist Indikatoren für die Suchaktivität

gemessen werden müssen. Unabhängig davon muss auch die Dauer der

Aufgabenbearbeitung bzw. der Aufzeichnung ausgewertet werden („duration“). Gerade über

diese Kenngröße könnte ein Lerneffekt ermittelt werden, der sich bspw. in der schneller

werdenden Bearbeitung einer Aufgabe und somit kürzeren Aufzeichnung niederschlägt.

Außerdem muss geklärt werden, wie die Messdaten im Eyetracking miteinander über die

Durchläufe verrechnet werden. Die Messungen zeigen hin und wieder Extremwerte

innerhalb, was z.T. an schlechten Erkennungsraten liegt. Beispiele für solche Ausreißer

finden sich in den Rohdaten zur Extremwertbestimmung sowie in den Daten zur horizontalen

und vertikalen Korrelationsanalyse. Da das arithmetische Mittel sehr stark anfällig ist für

Ausreißer, sollte ein eher von Extremwerten unabhängiger Mittelwert verwendet werden. Die

Wahl fällt also auf den Median.

2.3.2. Korrelationsanalyse der verwendeten Kennzahlen

Um die Abhängigkeiten oder ggf. Unabhängigkeiten unter den verschiedenen Kennzahlen in

D-LAB zu erkennen, ist die Korrelationsanalyse3 ein geeignetes Mittel. Das nachfolgende

Kapitel behandelt verschiedene Konstellationen der unter 2.3.1 ausgewählten Kennzahlen.

Es wurden drei Szenarien, bzw. „Extremfälle im Blickverhalten“ berücksichtigt.

Diese sind angelehnt an die Bewegungsfälle, wie sie Duchowski (2007) beschreibt (siehe

hierzu [DUC] S. 42 f).

3 „Das Ziel der Korrelationsanalyse ist, die Strenge des Zusammenhanges zwischen […] einzelnen

Variablen zu ermitteln. Bestimmt wird […] der Grad des linearen Zusammenhanges. Betrachtet man

die Verteilung zweier Variabler, so stellt man häufig fest, daß die Veränderung der einen Variablen

einen Einfluß auf die Veränderung der anderen Variablen besitzt. Das Maß für den Grad der

Beeinflussung ist der sog. Korrelationskoeffizient. Dieser variiert (im Intervall [-1,0; 1,0]) […] womit

nicht nur die Stärke des Zusammenhanges, sondern auch die Richtung angezeigt wird.“ [WIL] Ein

positiver Koeffizient nahe dem Wert 1,0 ist ein Indikator für hohe Korrelation der verglichenen

Variablen.


Fall 1: Fixieren eines Punktes In diesem Fall fixiert der Proband einen Punkt auf dem Bilschirm, bspw. die Schaltfläche zum

Schließen eines Fensters. Der Kopf wird dabei der Situation entsprechend nicht bewegt.

Aufgezeichnet wird der Fall jeweils mit 5 sec, 10 sec, und 20 sec Aufnahmedauer um das

Verhalten der Kennzahlen beim Fixieren eines Punktes auch in Abhängigkeit von der Zeit

darstellen zu können.

Fall 2: Smooth Pursuit Dieser Fall stellt einen Kompromiss aus den beiden Extremfällen (Fall 1 und Fall 3) dar. Der

Proband fixiert nun seinen Blick auf ein langsam bewegtes Objekt. In diesem Fall den Zeiger

der Maus. Dieser wird vom Probanden willkürlich über den Bildschirm bewegt. Der

menschliche Blick ist nun in der Lage dieses Objekt noch zu fixieren, es entstehen noch

keine Sakkaden. Trotzdem sollte dieser Fall einer realen Arbeitssituation am Bildschirm nahe

kommen und mit seinen Ergebnissen innerhalb des durch die Extremfälle aufgespannten

Intervalls bleiben.

Fall 3: Sprunghafter Blick Dieser Fall ist das Gegenteil von Fall 1, dem Fixieren eines Punktes. Hier ist der Proband

nun dazu angehalten, den Blick willkürlich und sprunghaft über den Bildschirm zu bewegen,

ohne konkrete Grafikelemente zu fixieren. So soll ein durch Sakkaden geprägtes

Testergebnis zu Stande kommen. Auch in diesem Fall werden Aufnahmen von 5 sec, 10 sec

und 20 sec Dauer aufgezeichnet.

Eine erste Korrelationsanalyse befasst sich mit dem Zusammenhang zwischen der „number

of saccades“ und der „number of fixations“, die innerhalb der Aufzeichnungen zu Stande

kommen. Die Abbildung 19 zeigt diese Untersuchung. Der Korrelationskoeffizient zwischen

Sakkaden und Fixationen ist im Fall 1: 0,98. Im Fall 2 beträgt 0,91 und schließlich im Fall 3: 0,99. Abgesehen von einer unwesentlich geringeren Korrelation im Fall 2 hängen die Kennzahlen stark voneinander ab. Ein Erklärungsversuch: Eine Sakkade erfolgt

bei einem Wechsel der Aufmerksamkeit hin zu einem anderen Punkt, bzw. bei der Suche

nach einer Information. Am Ende der Sakkade wird das erreichte Gebiet auf Informationen

hin überprüft, es kommt zu einer Fixation. Diese Erkenntnis führt dazu, lediglich die von der

Literatur empfohlenen „number of saccades“ in den Auswertungen zu berücksichtigen.

Ein weiterer Punkt begünstig diese Auswahl: Während einer Sakkade kann das menschliche

Gehirn keine Information aufnehmen. Die umgekehrte Annahme, während einer Fixation

immer Informationen zu verarbeiten, ist jedoch nicht richtig, da Fixationen (z.B. unterbewusst

auf eine leere Fläche) nicht zwangsläufig mit Informationsverarbeitung einhergehen.


Abbildung 19: Darstellung der Number of Saccades über der Number of Fixations (Quelle: eigene Darstellung)

Ein weiterer Aspekt, der an dieser Stelle aufgegriffen werden soll, ist das Verhalten der

„number of fixations“ über die Zeit. Eine Darstellung der Fixationskennzahl über alle drei

Fälle und alle drei Aufnahmedauern zeigt die Abbildung 20. Diese Grafik zeigt, dass mit

zunehmender Aufnahmedauer auch der Wertebereich der Messungen der Anzahl an

Fixationen ansteigt. Dieses Maß ist also eine Art „Streckenmaß“, nämlich abhängig vom

Messzeitraum.

Analog zum zeitlichen Verhalten der „number of fixations“ wurden auch die „number of

saccades“ betrachtet – vor dem Hintergrund der hohen Korrelation zwischen diesen

Kennzahlen aus Abbildung 19 ist ein ähnlicher Verlauf eher zu erwarten. Eine Darstellung zu

diesem Sachverhalt findet sich in Abbildung 21. Die Grafik ähnelt folgerichtig der

vorangegangenen Betrachtung der Fixationen. Auch die Sakkaden sind somit ein

anwachsendes „Streckenmaß“.

Zwar verhält sich bei beiden Darstellungen der Fall 2 nicht entsprechend der

Wachstumstheorie – liegt der Wertebereich der 20-sec-Aufnahmen hier doch wieder deutlich

niedriger als noch bei 10 sec. Der von 5-sec-Aufnahmen zu 10-sec-Aufnahmen beobachtete

Trend wird also gestört. Allerdings bewegen sich die Werte immer noch innerhalb des durch

die Extremfälle aufgespannten Rahmens und könnten so auf die willkürliche

Bewegungssituation und individuellen Eigenschaften der Probanden zurückgeführt werden.


Abbildung 20: Darstellung der Number of Fixations über der Aufnahmedauer (Quelle: eigene Darstellung)

Abbildung 21: Darstellung der Number of Saccades über der Aufnahmedauer (Quelle: eigene Darstellung)

Im weiteren Verlauf dieser Analyse soll nun das Verhältnis von „eye activity“ (horizontal und

vertikal) zu den „number of saccades“ dargestellt werden. Hierzu findet sich die Darstellung

mit der Horizontalkennzahl in der Abbildung 22.

In dieser Darstellung sind die Korrelationskoeffizienten wie folgt: Für den Fall 1 ist 0,69 und für den Fall 2 ist 0,55. Weiter ab nimmt der Wert hin zum dritten Fall, wo 0,28 ist. Diese Werteentwicklung zeigt eine schwache Korrelation im recht statischen

Fixationsszenario (Fall 1). Mit zunehmender Bewegung von Augen und Kopf nimmt die

Korrelation ab bis hin zu einem stark negativen linearen Zusammenhang. Ähnlich gestalten

sich die Werte in Abbildung 23 bei der Vertikalkennzahl ( 0,85; 0,15; 0,13). Im Fazit bedeutet dies, dass beide Arten der „eye activity“ als unabhängig von der „number

of saccades“ anzusehen sind.


Abbildung 22: Darstellung der Number of Saccades über der Horizontal Eye Activity (Quelle: eigene Darstellung)

Nach der Korrelationsbetrachtung zwischen Augenaktivität und Sakkadenkennzahl

interessiert nun der Zusammenhang zwischen den beiden Ausprägungsarten der „eye

activity“ (vertikal oder horizontal). Die nachfolgende Abbildung 24 zeigt die Darstellung der

vertikalen über der horizontalen „eye activity“. Für die Extremfälle liegt der

Korrelationskoeffizient im Fall 1 bei 0,72 und im Fall 3 bei 0,45. Diese Werte sind zwar noch im Bereich positiven linearen Zusammenhangs, jedoch eher nur schwach

korreliert. Im Fall 2 ist der Koeffizient 0,21 was bereits einem negativen Zusammenhang entspricht. Insgesamt können also die beiden Ausprägungsarten der „eye

activity“ aufgrund der schwach positiven bis eher negativen Zusammenhänge ebenfalls als

voneinander unabhängig betrachtet werden.


Abbildung 23: Darstellung der Number of Saccades über der Vertical Eye Activity (Quelle: eigene Darstellung)

Abbildung 24: Darstellung der Vertical Eye Activity über der Horizontal Eye Activity (Quelle: eigene Darstellung)

Den Schlusspunkt innerhalb der Korrelationsanalyse markiert die Einordnung der

Augenaktivität in den zeitlichen Bezug verschiedener Messdauern analog der Betrachtung in

den vorangegangenen Abbildungen zu Fixations- und Sakkadenkennzahl. Im Gegensatz zu


den dortigen Ergebnissen zeigt sich bei der „eye activity“ im horizontalen wie vertikalen Fall

eben kein Anstieg mit zunehmender Aufnahmedauer. Die Werte der Fälle 1 bis 3 bewegen

sich für alle Aufnahmezeiten auf einem jeweils ähnlichen Niveau (vgl. hierzu Abbildung 25

und Abbildung 26). Die „eye activity“ kann also in beiden Fällen als ein zeitunabhängiges

„Geschwindigkeitsmaß“ angesehen werden.

Abbildung 25: Darstellung der Horizontal Eye Activity über der Aufnahmedauer (Quelle: eigene Darstellung)

Abbildung 26: Darstellung der Vertical Eye Activity über der Aufnahmedauer (Quelle: eigene Darstellung)


2.3.3. Extremwertbestimmung der Kennzahlen

Nach der Vorauswahl möglicher Kennzahlen der Blickbewegungsmessung und der

Korrelationsanalyse sollen an dieser Stelle die Extremwerte ermittelt werden, die zur

Notenbildung herangezogen werden. Die dafür notwendige Datengrundlage kann direkt der

Korrelationsanalyse entnommen werden, da hier anhand der drei oben beschriebenen Fälle

(fixierender Blick, sprunghafter Blick, langsam folgender Blick) die Extremwertbereiche

bereits erfasst wurden.

„number of saccades“ Wie die Korrelationsanalyse gezeigt hat, entwickelt sich diese Kennzahl sehr ähnlich wie die

„number of fixations“ und wird daher alleinig weiter als Metrik zur Bewertung verwendet. Die

Auswertung der Extremfälle in der Korrelationsanalyse zeigt für den Fall 1 und somit für

einen Fall der Systeminteraktion mit sehr wenig Suchaktivität einen Wert von 0,35 Sakkaden

pro Sekunde (Note 1,0). Im Fall 3 mit sehr hoher Suchaktivität kommen ca. 3 Sakkaden pro

Sekunde zu Stande (Note 5,0).

Abbildung 27: Linearer Verlauf der Bewertung der Sakkadenanzahl pro Sekunde (Quelle: eigene Darstellung)

„horizontal eye activity” Über alle drei zeitlich verschiedenen Aufzeichnungsserien ergibt sich im Fall 1 ein Wert für

die horizontale Aktivität von rund 45 Pixeln. Damit ist diese Zahl der Eckpunkt für die Note

1,0. Im Fall 3 liefert die Betrachtung über alle zugehörigen Aufzeichnungen einen Wert von

etwa 310 Pixeln und ergibt so die Note 5,0.

1,0

5,0

0,01,02,03,04,05,06,0

0,00 1,00 2,00 3,00

Note

saccades / second

Number of Saccades per Sec.

Number ofSaccades per Sec.


Abbildung 28: Linearer Verlauf der Bewertung der horizontalen Augenaktivität (Quelle: eigene Darstellung)

„vertical eye activity“ Über die verschiedenen Aufzeichnungsserien ergibt sich für die vertikale Augenaktivität im

Fall 1 ein Wert von rund 20 Pixeln, was im Folgenden den Bestfall und somit die Note 1,0

repräsentiert. Im Fall 3 liefert die Betrachtung der Aufzeichnungen einen Wert von etwa 220

Pixeln für die Note 5,0. An dieser Stelle ist festzuhalten, dass die horizontale Suchaktivität

höhere Extremwerte annimmt, als die vertikale. Empirische Untersuchungen haben ergeben,

dass die Achse für horizontale Drehungen des Auges senkrecht durch den Augenmittelpunkt

verläuft. Die Drehachse für vertikale Drehungen allerdings geht durch einen um einen

Abstand d nach vorne verschobenen Punkt senkrecht zur Drehachse für horizontale

Drehungen. Durch diese Asymmetrie bezogen auf den Augenmittelpunkt fallen dem

Menschen horizontale Bewegungen leichter (vgl. hierzu [SCH], S. 4).

Abbildung 29: Linearer Verlauf der Bewertung der vertikalen Augenaktivität (Quelle: eigene Darstellung)

5,0

1,00,01,02,03,04,05,06,0

0,0 100,0 200,0 300,0 400,0

Note

Pixel

Horizontal Eye Activity

Horizontal EyeActivity

5,0

1,00,01,02,03,04,05,06,0

0,0 50,0 100,0 150,0 200,0 250,0

Note

Pixel

Vertical Eye Activity

Vertical EyeActivity


Abschließend soll an dieser Stelle eine exemplarische Berechnung einer Teilnote für eine

Eyetracking-Aufgabe gezeigt werden (siehe nachfolgende Abbildung). Ausgewählt wurde die

meistgenutzte Aufgabe „Vergabe eines Transportauftrages“, hier im Usabilitykriterium

„Übersichtlichkeit“. Die Datengrundlage stammt aus einem Test an einem System im

Telematiklabor der DHBW. Anhand der gemittelten Werte über mehrere Durchläufe wird eine

Note für jede Kennzahl berechnet und zur Bestimmung einer Teilnote für diese Aufgabe

herangezogen.

Aufgabe A2 Vergabe eines Transportauftrages.

NOS_LR/sec HEA VEA

Median 1,22 80,69 59,90 GesamtGewichtungNote Berech 2,31 1,54 1,80Note 2,31 1,54 1,80 1,9

Abbildung 30: Beispielhafte Darstellung der Eyetracking-Note für die Aufgabe A2 im Kriterieum "Übersichtlichkeit"

(Quelle: eigene Darstellung)

2.4. Testdurchführung mit Fragen und Kriterienkatalog Nachdem detailliert auf die Kennzahlen bei der Blickbewegungsmessung mitsamt ihrer

zugehörigen Extremwerte und die Notenbildung eingegangen wurde, erfolgt an dieser Stelle

ein Blick auf die Bewertung von Usability mittels Fragen und Kriterienkatalogen. Die

Abbildung 31 auf der nachfolgenden Seite zeigt beispielhaft die Erfassung der Usermeinung

für die Verfügbarkeit – respektive die Performance – eines Systems. Hier ebenfalls zu sehen

ist die Gewichtung der Aufgaben zueinander in diesem konkreten Kriterium. Der User hat in

der Studie mehrere Aufgaben in Serien bearbeitet. Die Userfragen werden immer nach

Abschluss der übrigen Messverfahren als Evaluation am Ende der Tests mit einem

Probanden gestellt. Der Proband gibt seine Einschätzung zum jeweiligen Kriterium direkt als

Note auf einer Skala von 1,0 bis 5,0 zu Protokoll. Entsprechend der Gewichtung werden die

einzelnen Bewertungen verrechnet und über alle Usernoten das arithmetische Mittel

gebildet.


Frage

Ergebnisse Gewichtung User 1 User 2 User 3

30% 1,0 1,0 1,0

35% 3,0 3,0 3,0

35% 1,0 1,0 1,0

1,7 1,7 1,7Note Userfrage 1,7

Wie haben Sie die Performance bzw. Verfügbarkeit des Systems bei den verschiedenen Aufgaben wahrgenommen? Bitte beurteilen Sie für jede Aufgabe auf einer Skala von 1 bis 5 (Schulnoten).

Vergabe eines Transportauftrages.

Auswerten der Fahrtstrecke.

Ortung eines Fahrzeuges.

Abbildung 31: Beispiel einer Userfrage - hier für das Kriterium Verfügbarkeit (Quelle: eigene Darstellung)

Nach der Betrachtung der Userfragen soll eine Beschreibung der Kriterienkataloge erfolgen.

Eine Beispielbewertung der Individualisierbarkeit ist in Abbildung 33 dargestellt. Diese

Kataloge sind grundsätzlich für alle Kriterien, bei denen sie zum Einsatz kommen, gleich

aufgebaut. Das bedeutet, die Maximalpunktzahl ist für jeden Katalog identisch und beträgt 26

Punkte. In Anlehnung an die Bewertung an Hochschulen wird die Noten 1,0 bei Erreichen

der Maximalpunktzahl vergeben. Die Note 4,0 wird vergeben, wenn 50% der Punkte

vergeben werden.

Abbildung 32: Linearer Verlauf der Notenskala für einen Kriterienkatalog mit max. 26 Punkten (Quelle: eigene

Darstellung)

4,0

1,0

0,0

1,0

2,0

3,0

4,0

5,0

0 10 20 30

Note

Punkte

Kriterienkatalog

Kriterienkatalog ‐26P


Erfüllt (x) Punkte ErgebnisKann die Sprache für diese Aufgabe variiert werden?

Nein 0Ja, und zwar… x 1 1DE, EN x 2 2Andere x 1 1

Wie sind die Berechtigungen zum Verändern der Sprache?Jeder User kann seine Sprache einstellen x 2 2Nur ein Admin kann Einstellung für User machen. 0

Kann die Größe der Darstellung verändert werden?Einstellungen im Portal 2Strg + Mausrad x 1 1

Sind bei dieser Aufgabe individuelle Shortcuts möglich?Ja x 1 1Nein 0

Hat der User weitere Anpassungsmöglichkeiten?Keine 0Maßeinheiten (metrisch/imperial) x 1 1Währungseinheit x 1 1Zahlen‐ und Datumsformate 1Andere 1

Kann der User Voreinstellungen vornehmen?Nein. 0Eingaben als Vorlagen speichern. 1Verwaltung beliebiger Defaultwerte. x 2 2

Sind Einstellungen bei der Komplexität möglich?Nein. 0Eigene Funktionen hinzu. x 2 2Funktionsfolgen ändern/zsf. x 2 2Einsteiger oder fortgeschrittener User. x 2 2Andere 1

Usersettings werden gespeichert.Ja x 2 2Nein 0

Punktesumme Kriterienkatalog Max. 26 20Note (Berechnet) 2,4Note Kriterienkatalog 2,4

Checkliste

Abbildung 33: Beispielbewertung der Individualisierbarkeit mit Hilfe eines Kriterienkataloges (Quelle: eigene

Darstellung)

Der Ablauf der Validation mit einem Kriterienkatalog ist recht einfach gehalten. Der

Versuchsleiter bzw. ein Experte nimmt den Abgleich der Antwortmöglichkeiten mit dem

Testsystem vor. Die zutreffende Antwort wird mit einem Kreuz vermerkt, woraufhin

automatisch die Punkte vergeben werden und sich eine Note errechnet. Eine Übersicht über

alle Kriterien mit Kriterienkatalog und deren konkrete Ausformulierung findet sich im Anhang.


2.5. Testdurchführung mit Zeitmessung Abschließend zu den Ausführungen zur Testdurchführung und Notenbildung soll noch kurz

auf die Berechnungsvariante für die Antwortzeiten eingegangen werden. Gemessen werden

die Gesamtbearbeitungszeit T (Ges.) sowie die Antwortzeit des Systems T (Ant.). Zur

Berechnung wird jedoch lediglich die Antwortzeit herangezogen, da sie unabhängig von der

Bearbeitungszeit ist. Bei der Berechnung eines Quotienten würden längere

Gesamtbearbeitungszeiten das Ergebnis schönen und kürzere Aufgaben es im Gegenzug

verschlechtern.

Aufgabe A5 Ortung eines Fahrzeuges.

T (Ges.) T (Ant.)22,10 0,40 Gesamt

1,001,0

Mittel (Arithm.)Note Berechnet

Note

Abbildung 34: Antwortzeit bei der Aufgabe "Fahrzeugortung" aus dem Kriterium „Verfügbarkeit“ (Quelle: eigene

Darstellung)

Die Messungen von verschiedenen Antwortzeiten im Zuge der Labortests haben meistens

Werte kleiner 1 sec ergeben. Wie auch oben stehende Abbildung 34 beispielhaft zeigt, sind

Werte im Bereich von 0,4 sec durchaus möglich. Um eine Spreizung der Ergebnisse zu

erreichen wird die Noten 1,0 mit Erreichen einer Antwortzeit von einer halben Sekunde

vergeben. Wenn die Antwortzeit 5 sec überschreitet wird eine Note 5,0 vergeben.

Grundsätzlich muss festgehalten werden, dass die Antwortzeit bspw. bei der Auswertung

von umfangreichen Fahrten technisch bedingt ansteigen wird. Statistisch belastbare

Versuchsreihen zu diesem Effekt stehen jedoch derzeit noch aus. Daher wird bis auf

weiteres eine für alle Aufgaben aus dem Testaufgabenkatalog gültige Skala verwendet.


Abbildung 35: Linearer Verlauf der Notenskala für die Antwortzeit des Systems (Quelle: eigene Darstellung)

2.6. Methodenvalidation und Beschreibung der Tests

Wie in der Zielsetzung zu dieser Arbeit formuliert, soll die aufgestellte Methode zur

Bewertung von Usability in ihren Grundzügen validiert werden. Diese Anwendung der

gewählten Messmethoden, Fragen und Kriterienkataloge zur Beurteilung einzelner

Teilbereiche der Usability fand im Rahmen des ersten Teils einer Projektaufgabe von

Studenten im Studiengang Wirtschaftsingenieurwesen statt. Dabei wurden an den Systemen

im Telematiklabor der DHBW am Campus Friedrichshafen Usabilitybewertungen unter

realen Bedingungen durchgeführt. Im Folgenden sind wichtige Aspekte bei der Durchführung

dargestellt. Das sind etwa Störgrößen zu den einzelnen Versuchsaufbauten und erste

Lessons Learned bei den einzelnen Testmethoden.

2.6.1. Aspekte beim Test mit Eyetracking

Nach der Erläuterung der Überlegungen zur Testplanung soll nachfolgend kurz auf die für

das Eyetracking-Messverfahren notwendigen Hilfsmittel eingegangen werden. Eine Liste gibt

einen ersten Überblick, was vor Testbeginn vorbereitet sein muss:

1 Blickmessgerät „Ergoneers Dikablis Cable Professional“

1 Labor-Laptop zur Messdatenerfassung mit lauffähiger D-LAB Umgebung

1 Datei in Excel zur Erfassung und Verarbeitung der systemspezifischen Messdaten

1 Aufgabenliste (Beispielaufgaben)

1 Testperson (3 je System)

1 Versuchsleiter

1 Protokollant

5,0

1,00,01,02,03,04,05,06,0

0,0 2,0 4,0 6,0

Note

T in Sekunden

Antwortzeit

T (Ant.)


Bei der Versuchsdurchführung mit einem Blickmessgerät müssen im Vorfeld mögliche

Störfaktoren überlegt und mögliche Gegenmaßnahmen formuliert werden. Gerade durch die

sehr feinfühlige Messung der visuellen Wahrnehmung haben hier Fremdeinflüsse große

Auswirkungen auf die Ergebnisse. Die bisher bekannten Einflussfaktoren stellt die Tabelle 1

auf der folgenden Seite dar.

Zuerst ist die Ablenkung der Testperson als Einflussgröße zu nennen. Unterbewusst neigt

der Mensch dazu, seinen Blick immer in Richtung eines Reizes zu richten. Daher sollte

derartigen Einflüssen vorgebeugt werden, in dem z.B. ein ruhiger Raum ohne Zuschauer

gewählt wird. Auch sollten potentielle Lärmquellen wie Mobiltelefone oder anderweitige

visuelle Reize wie ein Fenster im zentralen oder peripheren Sehfeld des Probanden

vermieden werden. Eine Konzentration des Probanden auf den Bildschirm und nicht auf die

Aufgabenstellung oder den Versuchsleiter wird erreicht durch ein ausführliches Briefing

sowie das Vorlesen der Aufgaben.

Auf technischer Seite ist hauptsächlich die Kalibiergenauigkeit des Blickmessgerätes eine

Quelle für Fehler und Störungen. Hier sollte möglichst exakt kalibriert werden. Eine neue

Kalibrierung ist in regelmäßigen Abständen (z.B. nach jeder Aufgabenserie) dringend zu

empfehlen. Wird exakt kalibriert, so kann der Blick des Probanden auf der

Bildschirmoberfläche sehr genau lokalisiert werden (siehe nachfolgende Abbildung).

Abbildung 36: Lokalisierung des Blickpunktes eines Probanden (rotes Fadenkreus) mit Eyetracking (Quelle:

Eigene Darstellung)


Eher weiche Einflussfaktoren wie etwa der Erfahrungshorizont des Probanden mit ähnlicher

Software oder allgemein seine Softwareaffinität können ebenfalls berücksichtigt werden.

Denkbar ist zur späteren Nachverfolgung eventueller Abweichungen mancher Messwerte

eine Skala, auf der jeder Proband verortet wird (IT-Experte, …, gelegentlicher IT-User).

Tabelle 1: Störgrößen beim Eyetracking (Quelle: eigene Darstellung)

Störgrößen Gegenmaßnahmen

Ablenkung der Testperson

ruhiger Raum, keine

Lärmquellen, Handys, kein

Fenster direkt hinter dem

Bildschirm, Briefing

Blick der Testperson auf

Versuchsleiter oder

Aufgabenblatt

Briefing des Probanden, Vorlesen

der Aufgaben

Messungenauigkeit des

Eyetrackers

Exakte Kalibrierung des

Eyetrackingsystems (Echtzeit und

Nachkalibrierung),

Neukalibrierung zwiscchen den

Aufgabenserien, Verwendung

von QR-Codes als Marker

Kalibrierungsfehler durch den

Versuchsleiter Einarbeitung, Schulung, Testläufe

Erfahrungshorizont der

Testperson mit bedienergeführter

Software

Einstufung auf Skala [1,…5]

Qualitative Ergänzung der

Messungen

Softwareaffinität der Testperson Einstufung auf Skala [1,…5]

2.6.2. Aspekte beim Test mit Userfragen

Auch auf die Testaspekte im Zusammenhang mit den Userfragebögen soll kurz eingegangen

werden. Hilfsmittel sind nicht in großem Maße notwendig – lediglich eine in der

Bewertungsdatei verfügbare Zusammenfassung aller Userfragen sollte ausgedruckt

vorliegen. So lassen sich Bewertungen schnell erfassen und können später akribisch

übertragen werden.

Die Einflussgrößen auf eine Userfrage sind nicht technischer sondern rein subjektiver Natur.

Hier ist wie beim Eyetracking der Erfahrungshorizont der Testperson ausschlaggebend

sowie die persönliche Erwartungshaltung des Users an ein IT-System generell. Die


individuelle Ausstattung mit Hardware und Internetverbindung beeinflusst bspw. die

Wahrnehmung der Systemantwortzeit. Analog zum vorherigen Abschnitt kann hier auf die

Einstufung des Probanden in einer Skala zurückgegriffen werden.

Tabelle 2: Störgrößen bei Userfragen (Quelle: eigene Darstellung)


Erfahrungshorizont der

Testpersonen

Einstufung auf Skala [1,…5]

Qualitative Ergänzung der

Messungen

Erwartungshaltung durch z.B.

private

Hardware/Internetverbindung

Abfragen des privaten

Nutzungsumfeldes und

Einstufung der Erwartungen auf

Skala [1,…5]

2.6.3. Aspekte beim Test mit Kriterienkatalog

Der Test mit einem Kriterienkatalog wird bspw. im Kriterium „Fehlerrobustheit“ von einem

Experten durchgeführt. Es muss also zum Testzeitpunkt ein qualifizierter Experte zur

Verfügung stehen. An dieser Stelle könnte man über eine Videoaufzeichnung zur

Nachverfolgbarkeit der Bewertung nachdenken. Beim Eyetracking – sprich Test mit

Probanden – wird ohnehin ein Video aufgezeichnet, die von einem Experten bspw.

tatsächlich getätigten Fehleingaben in ein System werden aber nicht dokumentiert. Hier

könnte eine Kamera Abhilfe schaffen. Zusätzlich können über die Tonspur Kommentare

aufgezeichnet und verfügbar gehalten werden. Wie die nachfolgende Tabelle 3 noch zeigt,

ist eine wesentliche Störgröße beim Kriterienkatalog die falsche Eingabe von vorher

festgelegten Testdaten – z.B. zum Testen der Fehlerrobustheit. Auch hier kann lediglich die

Konzentration des Experten gefördert werden, indem bspw. Lärmquellen eliminiert werden.

Tabelle 3; Störgrößen beim Testen mit Kriterienkatalogen (Quelle: eigene Darstellung)


„Fehlerhafte Falscheingaben“:

Abweichen von der

vorgegebenen Fehleingabe

Konzentrierte Atmosphäre:

ruhiger Raum, keine

Lärmquellen, Handys


2.6.4. Sonstige Hinweise

Störgrößen können auch für die Messung der Antwortzeit identifiziert werden. Da diese stark

von der übertragenen Datenmenge zwischen Server und Portal abhängt, bspw. bei der

Generierung von Reports, ist die Internetverbindung bzw. die Übertragungsgeschwindigkeit

eine wichtige Einflussgröße. Größeren Unterschieden kann entgegengewirkt werden, indem

für alle Tests die gleiche Domäne für den Netzzugang verwendet wird – hier bspw. das

Telematiklabor an der DHBW in Friedrichshafen. Auch könnte festgehalten werden, ob die

verfügbare Bandbreite durch den Vorlesungsbetrieb (viele User) beeinträchtigt sein könnte.

Auch die Rechnerleistung ist ein Einflussfaktor bei der Informationsdarstellung und somit bei

der Antwortzeit. Eine Vergleichbarkeit ist dann analog zur Übertragungsgeschwindigkeit

gewährleistet, wenn bspw. alle Tests an den Rechnern des Telematiklabors durchgeführt

werden, sprich nicht die Hardware gewechselt wird. Die beschriebenen Effekte, sind in der

nachfolgenden Tabelle 4 nochmals übersichtlich dargestellt.

Tabelle 4: Störgrößen beim Vermessen der Antwortzeit (Quelle: eigene Darstellung)


Internetverbindung:

Übertragungsgeschwindigkeit als

Einflussfaktor

Nutzung der gleichen Domäne

für alle Tests – Telematiklabor,

Festhalten der

Rahmenbedingungen – z.B.

Auslastung des

Laboranschlusses durch

Vorlesungsbetrieb am Campus

Rechnerleistung Durchführen der Tests an den

Laborgeräten

Abschließend kommen an dieser Stelle noch weitere Hinweise zur Durchführung der Tests.

So sollte nochmals herausgestellt werden, wie sich ein Versuchsleiter zu verhalten hat und

was bspw. beim Abspeichern der Messdaten zu beachten ist. Beginnend beim

Versuchsleiter soll nochmals festgehalten werden, dass er sich während des Tests gerade

im Zusammenhang mit qualitativen Bewertungsmethoden absolut neutral zu verhalten hat.

Das bedeutet:

Keine persönlichen Interessen

Keine Einflussnahme, neutral auch gegenüber Fehlern

Objektiv bleiben (gegenüber Proband und Testsystem)


Unterstützung des Testteilnehmers als „ultima ratio“ – als letzte Möglichkeit.

Beispielsweise dann, wenn der Teilnehmer eine Aufgabe absolut nicht bewältigen

kann und aufgeben will, oder wenn ein Systemfehler auftritt. ([NAU], S. 55)

Beim Testen mit dem Blickmesssystem werden einzelne Datensätze abgespeichert. Ein

Datensatz beinhaltet die Durchführung einer Aufgabe von einem Teilnehmer. Die Benennung

der Datei muss daher eindeutig für ein System sein, da später eine Vielzahl solcher Dateien

entsteht und keine Zuordnung mehr möglich wäre. Aus diesem Grund erfolgt die Benennung

gemäß folgendem Beispiel

„T1_A05_n01_141223“

Der erste Teil bezieht sich auf den Teilnehmer 1 für das gerade getestete System. „A05“

beschreibt die in dieser Datei aufgezeichnete Aufgabe, „n01“ gibt den ersten

Versuchsdurchlauf an. Ein Datumsstempel mit dem Aufbau Jahr-Monat-Tag JJMMTT rundet

die Benennung ab.


3. Testdurchführung und Ergebnisse

3.1. Beschreibung der Testumgebung und -ablauf Das nachfolgende Kapitel befasst sich mit den Rahmenbedingungen, welche den

Usabilitytests zu Grunde lagen, sowie später mit den Ergebnissen. Es wird dazu erläutert,

welche Konfigurationen der Testaufgaben zum Einsatz kamen, und anhand welcher

Rahmenbedingungen die Noten gebildet werden. Eine Ergebnisübersicht und später

detaillierte Darstellungen liefern die gesamten Testresultate.

(Hinweis: Diese Unterkapitel 3.1 und 3.2 entstammen zu großen Teilen aus [KOE2] und sind

zur Vereinfachung für den Leser hier übernommen.)

3.1.1. Testaufgaben

Im Zuge der Bearbeitung der bereits mehrfach erwähnten Studienarbeit am IWT [KOE1]

wurde eine Sammlung von Testaufgaben erstellt, die innerhalb der IWT-Methode zur

Bewertung von Telematiksystemen herangezogen werden sollen. Der mit Stand Dezember

2014 verwendete Aufgabenkatalog ist nachfolgend nochmals aufgelistet. Die Buchstaben in

Klammern geben an, ob es sich um eine administrative (A), dispositive (D) oder analytische

Tätigkeit (R) handelt ([KOE], S. 57 f). Der Katalog ist außerdem so angelegt, dass er drei

Aufgaben aus jeder Tätigkeitskategorie enthält.



A3 Versenden einer Nachricht. (D)



A6 Report Geschwindigkeitsverlauf. (R)


A8 POI anlegen. (A)


Bei der Vorbereitung der Verfahrensvalidation wurde dieser Katalog modifiziert und

verschlankt, um eine Zeitersparnis pro Versuchsdurchgang im Hinblick auf die Vielzahl zu

testender Systeme zu realisieren. Die nachfolgenden Begründungen und Maßnahmen

wurden hierzu umgesetzt.


Die Aufgabe 3 ist in ihrer Art dem vorangehenden Szenario sehr ähnlich und wird daher nicht

weiter herangezogen. Es ist nicht davon auszugehen, dass das Versenden einer Nachricht

gegenüber dem Transportauftrag – welcher ebenfalls mit Freitext versehen werden kann –

einen nutzbaren Erkenntnisgewinn bringt. Ebenso verhält es sich mit Aufgabe 8 – Anlegen

eines sog. „Point of Interest“ (POI): Beim Eingeben der (Adress)Daten für einen

Transportauftrag können diese in den meisten Fällen direkt aus dieser laufenden Aufgabe

als POI heraus gespeichert werden. Bei den Reporting-Funktionen zum

Geschwindigkeitsverlauf und Kraftstoffverbrauch wurde ebenfalls eine Auswahl getroffen.

Der Fokus liegt zum einen aus Datenschutzgründen im Hinblick auf echte Fahrer bei einem

Zugriff auf das Portal eines realen Spediteurs – der Geschwindigkeitsverlauf würde z.T.

unangenehme Rückschlüsse auf das Fahrverhalten von Einzelpersonen zulassen – sowie

aus Gründen der weitestgehend ähnlichen Struktur der Aufgabe bei zukünftigen

Bewertungen auf dem Kraftstoffverbrauch. Er federt den direkten Rückschluss auf das

Verhalten des Mitarbeiters wirksam ab, da Verbräuche nicht nur von der Fahrweise, sondern

auch sehr stark vom Gesamtgewicht des Zuges und somit von der Ladung sowie von

weiteren Faktoren wie der Topographie oder den Fahrzeugeigenschaften

(Spureinstellungen, Luftdruck, etc.) abhängen (vgl. hierzu [LOG] und [GOD]). Für die

Bewertung von Telematik für Zugfahrzeuge wird folgender, modifizierter Katalog verwendet:







Auch hier ist zu bemerken, dass die Verteilung auf die drei wesentlichen Arten von

Tätigkeiten des Disponenten unverändert zum Original bestehen bleibt. Jeweils eine

administrative, eine dispositive und eine Tätigkeit aus dem Reporting wurden gestrichen.

Ein größeres Problem ergibt sich, wenn Hersteller mit Systemen aus verschiedenen

Telematikdomänen antreten. Je nach Anbieter beispielsweise wird Zugfahrzeugtelematik

ebenso angeboten wie Trailertelematik oder Lösungen für einzelne Frachtcontainer. Und

auch hier offenbart sich eine Schwachstelle der bisherigen Aufgabensammlung – denn das

Versenden eines Transportauftrages an einen Trailer oder Container ist nicht in den

Systemen vorgesehen, da nicht effektiv. Ausgehend vom bestehenden Aufgabenkatalog

wurde also eine weitere Einschränkung getroffen, die möglichst alle Arten von

Flottentelematik außerhalb der Zugfahrzeuge abdecken soll – sprich Trailer, Container und


Wechselbrücken. Ein kleinster gemeinsamer Nenner an möglichen Aufgaben hat sich durch

die Anwendung an insgesamt 6 Testsystemen wie folgt ergeben:





Der Schwerpunkt dieses Aufgabenraumes liegt auf der Administration. Dies ist insofern

gerechtfertigt, als dass die Disposition der mit diesen Systemen ausgerüsteten Einheiten

vom Zugfahrzeug selbst übernommen wird. Vorrangig steht bei diesen Einheiten die

Verwaltung und das Reporting bzw. die Dokumentation im Vordergrund (Einhalten von

Fahrtrouten, Vermeiden von Sperrzonen, ggf. je nach Ladung).

3.1.2. Notenbildung

Die Notenbildung erfolgt grundsätzlich über mehrere Gewichtungen und Einzelnoten. Eine

detaillierte Übersicht möglicher Gewichtungen ist in der Ausarbeitung zur Erhebung der

Bewertungsmethode einsehbar (vgl. hierzu [KOE1], S. 85 f). Im Wesentlichen gibt es pro

Usability-Kriterium die Möglichkeit, einzelne Evaluationsmethoden (Bsp.: Userfrage-

Eyetracking-Kriterienkatalog) unterschiedlich zueinander zu gewichten. Eine Übersicht über

die gewählten Settings zeigt die Abbildung 37.

Speziell beim Eyetracking können einzelne Metriken entsprechend ihrer Aussagekraft

zueinander gewichtet werden. Eine Übersicht dieser Gewichtung zeigt die Abbildung 38.

Verwendung finden in der aktuellen Methode die vom linken und rechten Auge gemittelte

Anzahl der Sakkaden pro Sekunde (NOS/sec) sowie horizontale und vertikale Suchaktivität

(HEA und VEA).

Auch der Einfluss einzelner Testaufgaben zueinander kann reguliert werden. Letztlich

besteht noch die Möglichkeit, die einzelnen Usability-Kriterien zueinander zu gewichten.

Bspw. könnte so der Erlernbarkeit oder der Übersichtlichkeit eine höhere Bedeutung

zukommen. In der Anwendung bei der Validation der Methode an verschiedenen

Telematiksystemen im Labor wurden das nachfolgend geschilderte Vorgehen bzw. die

dargelegten Gewichtungen gewählt.

Für die OEM, Nachrüst. Leichte NFZ sowie Trailer und Container wurde der „Default-Ansatz“

mit den Werten aus der Erhebungsphase gewählt – siehe hierzu Abbildung 39. Dies liegt

darin begründet, dass die Kategorien OEM-Telematik, Nachrüst-Telematik und Telematik für


leichte Nutzfahrzeuge sehr eng verwandt sind. Auch beim Thema Trailer sowie

Container/Wechselbrücken bestehen Ähnlichkeiten im Einsatzbereich, sodass dieselbe

Ausgangsgewichtung analog herangezogen wird.

Abbildung 37: Gewichtung der einzelnen Evaluationsmethoden innerhalb der Usability-Kriterien (Quelle: Eigene

Darstellung)

Abbildung 38: Gewichtung der Metriken innerhalb des Eyetrackings (Quelle: Eigene Darstellung)


Abbildung 39: Gewichtung der Usability-Kriterien zueinander für OEM-/Nachrüsttelematik sowie für

Trailer/Container und leichte Nutzfahrzeuge (Quelle: Eigene Darstellung)

Die Kategorie Telematik für Sonderfahrzeuge hebt sich von den anderen ab (eine

Werteübersicht liefert Abbildung 40. Der Einsatzbereich ist in der Regel anders strukturiert,

als im „klassischen“ Flottenbereich. Aus diesem Grunde wurde die Gewichtung angepasst.

Schon im Titel der Kategorie steckt der „besondere“ Anwendungsfall dieser Systeme, daher

kommt der Aufgabenangemessenheit eine weit erhöhte Bedeutung zu. Trotz zahlreicher

spezifischer Funktionalitäten soll die Übersichtlichkeit der Systeme hoch bleiben, daher steigt

auch der Einfluss dieser Größe leicht. Die Reduzierung der Selbstbeschreibungsfähigkeit

und der Steuerbarkeit kommt daher, dass im Bereich der Telematik für Sonderfahrzeuge mit

einer geringeren Fluktuation der Disponenten zu rechnen ist, als in anderen Domänen. Es

baut sich tiefgehendes Expertenwissen mit dem System und seiner Anwendung auf.

Kompensiert werden diese Reduzierungen durch eine höhere Bewertung der Erlernbarkeit –

ein neuer Mitarbeiter soll zwar aktiv, aber eben doch schnell eingelernt werden können, um

produktiv zu arbeiten. Die Gewichtung der Fehlerrobustheit kann ebenfalls leicht reduziert

werden – ein Disponent im Sonderverkehr arbeitet auf lange Sicht länger mit dem System,

sammelt mehr Erfahrung und wird voraussichtlich eine geringere Fehlerquote aufweisen.

Abbildung 40: Gewichtung der Usability-Kriterien zueinander für Telematiksysteme für Sonderfahrzeuge (Quelle:

Eigene Darstellung)


3.1.3. Testablauf

In der Laborumgebung am Campus der DHBW in Friedrichshafen, welche als Testort

ausgewählt wurde, wurden die in den vorhergehenden Abschnitten beschriebenen

Testmethoden an den für den Deutschen Telematik Preis 2016 nominierten Systemen

angewendet. Die Usability-Bewertung wurde dabei von einem Studienleiter geplant und

überwacht. Dieser war auch für die lauffähige Bereitstellung der Teststellungen zuständig.

Diese Anlaufphase des Usability-Tests lag im Frühjahr 2015 in der Zeit zwischen Mitte April

und Ende Mai. Hierzu wurde eine Beistellliste an die Nominierten versandt, mit der Bitte um

Bereitstellung von Demo-Geräten, Portalzugängen und Datenzugriffen für die Usability-

Tests. In der Beistellung waren zwei Portalzugriffe gefordert. Erstens ein Demo-Portal, in

welchem mindestens das an das IWT gelieferte Demo-Gerät (Hardware bzw. OBU)

eingebucht ist. Ziel hierbei war es, ohne Auswirkungen auf reale Flotten dispositive und

administrative Tätigkeiten aus Sicht des Endanwenders durchzuführen. Zweitens wurde der

Zugriff auf einen Account mit einer real auf den Straßen bewegten Fahrzeugflotte zur

datenseitig realitätsnahen Begutachtung der Reporting-Funktionen gefordert. Hierzu konnten

meist Kundenportale mit eingeschränkten Rechten zugänglich gemacht werden. Manche

Systemanbieter verfügen über eine große Flotte an realen Testfahrzeugen, auch derartige

Fahrzeuglandschaften wurden als Datenquellen zugelassen. Eine Übersicht der

zugelassenen Zugangssituationen zeigt die nachfolgende Grafik.

Abbildung 41: Zugelassene Testanordnungen der Systemlandschaft (Quelle: Eigene Darstellunge)


Die tatsächliche Durchführung der Tests mit Probanden im Zeitraum bis Ende Juni 2015 lag

dann in den Händen eines Testteams. Die Mitarbeiter hier waren verantwortlich für die

Aufzeichnungen der Tests, das Nachbearbeiten für hohe Erfassungsgenauigkeiten sowie

den Export der Daten aus der Blickmessung in besser zu verarbeitende Formate. Der

Testablauf für jedes System gestaltet sich wie nachfolgend beschrieben. Ein Pretest durch

das Team im Vorfeld des Termins mit den Probanden zeigt die grundlegende

Durchführbarkeit mit den zur Verfügung stehenden Testaufgaben, Szenarien und

Hilfsmitteln. Hier können ggf. noch Adaptionen im Aufgabenkatalog vorgenommen werden,

wenn die systemspezifischen Funktionalitäten dies erfordern.

Weiterhin wird jedes System von drei Probanden getestet. Die Abläufe orientieren sich dabei

an den Testpersonen und nicht am vollständigen Test eines Systems. Demzufolge sieht ein

halber Testtag so aus, dass der Proband im Labor drei Teststellungen in einer Abfolge testet.

Ein weiterer Proband nutzt den übrigen halben Testtag und arbeitet ggf. mit exakt derselben

Systemabfolge. Ein dritter Proband testet die Abfolge in einem dritten Test. Mit dieser

Methode können an drei halben Tagen drei Systeme von drei Personen getestet werden,

ohne für den Probanden Nachteile durch mehrmaliges Erscheinen zu Testläufen zu

schaffen. Grundsätzlich ist im Hinblick auf die mögliche Verzerrung der ebenfalls erhobenen,

qualitativen Einschätzungen der Probanden ein einzelner Testblock anzustreben. Systeme

bleiben in einer Relation zueinander und es entstehen keine negativen Beeinflussungen

durch ein neuerliches Erscheinen zum Test.

Im Detail gestaltet sich ein einzelner Testablauf für ein System mit einem Probanden

folgendermaßen. Für ein Fahrzeugtelematiksystem werden sechs Aufgaben aus einem

Katalog herangezogen, Trailer- und Container-Systeme werden mit vier Aufgaben getestet,

was der meist weniger umfangreichen Funktionalität geschuldet ist. Diese Auswahl wird vom

jeweiligen Probanden dreimal hintereinander abgearbeitet. Dadurch wird jedes System pro

Proband mit drei Durchläufen getestet, wodurch sich Lerneffekte zwischen den

Aufgabenreihen – verdeckt enthalten bei den Eyetracking-Messwerten – erst berechnen

lassen.

Insgesamt wurden für den Usabilitytest 18 Systeme nach Berücksichtigung der Beistellliste

zugelassen. Diese Anzahl reduziert sich aber durch Mehrfachnominierungen einzelner

Hersteller in mehreren Kategorien. Die Lösungen von Couplink und GPSoverIP etwa treten

bei der Nachrüst-Telematik ebenso an, wie bei der Telematik für leichte Nutzfahrzeuge und

den Sonderfahrzeugen. Die Portallösungen sind identisch und werden daher nur einmal

getestet, ggf. werden je Kategorie andere Gewichtungen der Kriterien zueinander aufgrund

anderweitiger Einsatzanforderungen verwendet. Auch beim Hersteller Krone, der für

Trailertelematik und Wechselbrücken nominiert wurde, kommt nur ein Portal auf


verschiedene Endgeräte zum Einsatz. Ähnlich ist die Situation nochmals bei Couplink – der

Hersteller ist auch bei den Containern nominiert. Im Endergebnis stehen 12

Telematiklösungen zum Test bereit, deren Ergebnisse dann wie beschrieben mit ggf.

anderen Gewichtungen oder anderen Mitbewerbern um den Telematikpreis in einer

Kategorie konkurrieren.


3.2. Ergebnisübersicht Bevor die Ergebnisse vorgestellt werden, soll an dieser Stelle zunächst ein Blick auf die

Streuung der Ergebnisse auf der Notenskala gerichtet werden. Die zentrale Fragestellung

hierbei ist, ob die Ergebnisse die gesamte Bandbreite der Skala ausnutzen. Nachfolgende

Grafik (Abb. 42) zeigt daher die Wertebereiche der Benotungen für jedes getestete System

samt zugehörigem Median zur Verortung der mehrheitlichen Lage der Werte. Hier zeigt sich,

dass die geringste Streuung bei der Teststellung von MMLab zu finden ist (schlechteste Note

4,0 und beste Bewertung 2,6). Dies ist ein Indikator dafür, dass die angewandten Metriken

zumindest nicht pauschal als zu hart gelten müssen – immerhin ist die Note 4,0 mit dem

Prädikat „ausreichend“ noch nicht im ungenügenden Teil der Notenskala. Bei den anderen

Systemen zeigt sich allerdings mehrheitlich, dass die schlechtesten Bewertungen deutlich

unter 4,0 bis hin zu 5,0 reichen. Kein Testsystem erreicht mit der schlechtesten Teilnote den Bereich besser als 4,0. Eine Erklärung für den Unterschied könnte sein, dass die Teststellung von MMLab als einzige auf eine lokal installierte Softwarelösung baut (Laptop

mit Mobildatenverbindung) und somit deutlich mehr Einstellungsmöglichkeiten und

Funktionalitäten verfügbar sind, als dies in der webbasierten Lösung möglich ist.

Auf der anderen Seite zeigt die Darstellung, dass eine Vielzahl an Systemen in einzelnen Kategorien sehr gut abschneidet und Teilnoten bis hin zu den Werten 1,1 und 1,2 erreicht. Insgesamt liegen die Bestnoten von 10 von 14 Teststellungen besser als 2,0. Der Median der Notenwerte liegt über alle Teststellungen betrachtet mit leichten

Schwankungen rund um den Notenwert 3,0. Lediglich die Systeme von Agheera und

TomTom (beide Sieger in ihrer Kategorie) markieren hier die Ausreißer.

Documents

Usabilitybewertung von Telematiksystemen · 2019. 8. 23. · Usabilitybewertung von Telematiksystemen Testmethoden und Ergebnisse zum Deutschen Telematik Preis 2016 Maximilian Köppel