Messmethoden der Mensch-Maschine-Systemtechnik · Usability Engineering 4 Messmethoden der Mensch-Maschine-Systemtechnik VL MMS Wintersemester 2014/15 Professur für Prozessleittechnik

Usability Engineering 4Messmethoden der Mensch-Maschine-Systemtechnik

VL MMS Wintersemester 2014/15Professur für Prozessleittechnik

L. Urbas; J. Ziegler

TU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 2

Ziele und Inhalt

• Evaluationen im Usability Engineering

Einordnung, Merkmale, Ziele

Anwendungskontext und Einsatzmöglichkeiten

• Methoden der Usability Evaluation

Klassifikation und Charakterisierung ausgewählter Methoden

Anwendbarkeit und Nutzen

Ausgewählte Methoden

• Fragebögen als Messwerkzeuge für Usability Evaluationen

Charakterisierung und Aufbau von Fragebögen

Ausgewählte Fragebögen zu Usability und User Experience

Probleme bei der Nutzung von Fragebögen


Einordnung in den Nutzungsorientierten Entwicklungszyklus nach ISO 9241-210

DIN EN ISO 9241-210 (2010) Prozess zur

Gestaltung gebrauchstauglicher interaktiver

Systeme

EVALUATIONEN IM USABILITY ENGINEERING



Evaluation

= „systematische, möglichst objektive Bewertung eines geplanten, laufenden oder abgeschlossen Projektes“ (Sarodnick 2006)

= „alle Aktivitäten und/oder Ergebnisse …, die die Bedeutung, Verwendbarkeit, Wert, Wichtigkeit, Zweckmäßigkeit, ... einer Sache beurteilen bzw. bewerten.“ (Baumgärtner 1999)

= Beschreibung, Analyse und Bewertung von Evaluationsobjekten

• mögliche Evaluationsobjekte:

Personen Umwelt- bzw. Umgebungsfaktoren

Produkte Techniken und Methoden

Zielvorgaben Programme/Projekte

Systeme/Strukturen Forschungsergebnisse

andere Evaluationen (Gediga 1996)


Usability Evaluation

= Evaluation von Gebrauchstauglichkeit

zentrales Instrument des Usability Engineering

Einsatz in allen Phasen des Usability Engineering

Formativ:

entwicklungsbegleitend (z.B. Bewertung von Iterationsschritten)

Aufzeigen von Usability Problemen

Auffinden konkreter Verbesserungsmöglichkeiten

Summativ:

abschließende Bewertung der Gesamtqualität

globale Bewertung

kein Aufzeigen konkreter Verbesserungsmöglichkeiten


Evaluationsziele und -kriterien

• Zielklassifizierung von Evaluationen: (Gediga, Hamborg 2002)

„Which is better?“ - Vergleich von Varianten

„How good?“ - Erhebung der Ausprägung bestimmter Eigenschaften

„Why bad?“ - Usability Probleme aufdecken

• Klassifizierung von Evaluationsergebnisse: (Gediga, Hamborg 2002)

Quantitativ - Numerische Daten und Ergebnisse

Qualitativ - Nicht-Numerische Daten und Ergebnisse

Objektiv - Direkt beobachtbare Daten

Subjektiv - Meinungen, Ansichten, Darlegungen

METHODEN DER USABILITY EVALUATION



Kategorien der Usability Evaluation

Nicht-Empirische Methoden:

überwiegend expertenorientiert

Usability Experten versetzen sich in Nutzer-Situation

geeignet für frühe Konzepte

Empirische Methoden:

überwiegend benutzerorientiert

Beobachtung und Befragung der Nutzer

funktionale Prototypen notwendig

Empirie: (griech.: embiría - die Erfahrung)

– auf methodischem Weg gewonnene Erfahrung

ggf. gezieltes Induzieren von Beobachtungen durch Experimente

Sammeln von Informationen/Daten durch gezielte Beobachtung

Objektivität und Wiederholbarkeit der Beobachtungen


Ausgewählte Methoden

Nicht-Empirische Methoden:

Inspektionsmethoden

Heuristische Evaluation

Cognitive Walkthrough

Formal-Analytische Methoden

GOMS-Modelle

Expertenleitfäden

Überprüfung nach Standards, Richtlinien, Guidelines

Empirische Methoden:

Usability Tests

Lautes Denken

Video-Observation

Fokusgruppen

Logfile-Analysen

Standardisierte Befragungen (Fragebögen)


Heuristische Evaluation

• Ziel: Aufdecken und Identifizieren möglicher Usability Probleme bei möglichst geringem Aufwand

• wenige Usability Experten prüfen System auf Verstöße gegen eine Heuristik

Verstoß = potentielles Usability Problem

Heuristik erlaubt Problemklassifikation und Folgenabschätzung

3 bis 5 Experten können ca. 75% der Usability Probleme finden (Nielsen 1993)

• Problem: u.U. ist komplexes Domänenwissen nötig

Heuristik:

– Ausdruck erwünschter Interaktionseigenschaften zwischen Nutzer und System


Heuristische Prinzipien nach Nielsen

1. Sichtbarkeit des Systemstatus

2. Übereinstimmung zwischen System und realer Welt

3. Benutzerkontrolle und Freiheit

4. Konsistenz und Standards

5. Fehler vermeiden

6. Erkennen vor Erinnern

7. Flexibilität und effiziente Nutzung

8. Ästhetisches und minimalistisches Design

9. Unterstützung beim Erkennen, Verstehen und Bearbeiten von Fehlern

10. Hilfe und Dokumentation

(Nielsen 1994)

• Ziel: Sicherstellen, dass unerfahrenen Nutzern schneller Wissenserwerb durch Exploration des Systems möglich ist

• Durchführung:

Zerlegung von Aufgaben in idealtypische Handlungsabfolgen

kritische Analyse durch Usability Experten nach 4 Leitfragen:

1. Wird der Nutzer versuchen, den gewünschten Effekt zu erzielen?

2. Wird der Nutzer erkennen, dass die korrekte (also notwendige) Handlung ausgeführt werden kann?

3. Wird der Nutzer erkennen, dass die korrekte Handlung zum gewünschten Effekt führen wird?

4. Wird der Nutzer den Fortschritt erkennen, wenn er die korrekte Handlung ausgeführt hat?

Erfassen von Misserfolgen

LösungsfindungTU Dresden MMST © Urbas, Ziegler 2008-2014 Folie 13

Cognitive Walkthrough (CWT)

• Mögliche Ergebnisse:

Das System ist nicht explorativ erlernbar

Ungünstige Benennungen von Bedienelementen

Diskrepanz im Aufgabenkonzept zwischen Nutzer und Entwickler

Inadäquates System-Feedback

• Voraussetzungen:

Screenshots oder Mock-Ups

Keine Versuchspersonen, keine lauffähigen Prototypen


Cognitive Walkthrough (CWT)


Lautes Denken

• Testpersonen interagieren mit dem Produkt, während sie alles was sie denken und tun laut aussprechen

• Vorteile:

Benutzer teilen mit, was sie warum tun, während sie es tun (keine Rationalisierung möglich)

einfache Durchführung

• Nachteile:

Doppelbelastung: Aufgabe + lautes Denken

keine (quantitative) Performance-Messung möglich


Video-Observation / Feedback

Video-Observation:

Aufzeichnen wie Versuchsperson mit Produkt interagiert und anschließende Analyse

Video-Feedback (auch Confrontation):

Kombination aus Video-Observation und retrospektivem Laut-Denken


Video-Observation / Feedback

• Vorteile:

detaillierte Handlungsanalysen möglich

Wiederholung verpasster oder zu schneller Sequenzen möglich

nachträgliche Zeitmessungen möglich

• Nachteile:

Auswertung sehr zeitaufwendig

hoher apparativer Aufwand

keine Einblick in Denkweise des Nutzers


Usability Tests

• Empirischer Test mit echten Benutzern in kontrollierten Situationen (meist Laborsituationen)

• Vorteile:

umfangreiche qualitative Daten, die zeigen, wie echte Benutzer ein Produkt handhaben

Erhebung quantitativer Daten möglich

• Nachteile:

Tests finden zumeist in Laborsituation statt (Übertragbarkeit?)

viel Ausrüstung und Organisationsaufwand notwendig, um Tests durchzuführen

Wird ausführlich in der kommenden VL behandelt.


Weitere Methoden

Plus-Minus-Methode:

Die Testpersonen interagieren mit dem Produkt

Bewerten bestimmter Eigenschaften ihrer Wahl

Fokusgruppe:

Moderierte Diskussion mit Teilnehmern über vorgegebene Fragen zu einem Produkt und bewerten bestimmter Eigenschaften oder Funktionen

Geeignet für Akzeptanztests von Produkten / Funktionen

Pfadanalyse / Logfile-Analyse:

Aufzeichnung und Auswertung objektiv messbarer Kriterien direkt während der Programmausführung

FRAGEBÖGEN ALS MESSWERKZEUGE FÜR USABILITY EVALUATIONEN



Fragebögen

Ziel: Quantitative Messung subjektiver Nutzer-Aussagen

Gütekriterien:

Validität (Empirische Gültigkeit)

Reliabilität (formale Zuverlässigkeit)

Objektivität (Kontextunabhängigkeit)

Auswertung:

meist statistische Verfahren

Vorsicht: Ergänzen, Verändern oder Löschen einzelner Items häufig kritisch (gilt insb. auch für Übersetzungen!)

Häufig unzulässig, oder Auswertung nur mit bestimmten Verfahren (die geringere Teststärke besitzen) zulässig


Aufbau von Fragebögen

Items = Fragen/Aussagen

Offene Fragen (z.B. Wie ist Ihr Beruf?)

Geschlossene Fragen (ja/nein-Fragen, ggf. weiß nicht)

Eingruppierungsfragen

Summenfragen

Antworten

Multiple Choice (einschl. ja/nein)

Rating-Skalen (stimmt wenig, stimmt, stimmt sehr)

Rangordnung

Freitexte

Zusätzlich: Einfach-/Mehrfachauswahl, Ergänzungsoptionen

Subskalen (auch: Dimensionen) = Unterthemen

z.B.: 7 Gestaltungsanforderungen gem. ISO 9241-110


Probleme bei der Entwicklung von FB

• Entwicklung ist aufwendig, denn Validität, Reliabilität und Objektivität müssen gesichert sein

Entwurf am besten durch Experten

• deshalb: Rückgriff auf Standard-Fragebögen (falls möglich)

Orientierung an EN ISO 9241-110:

IsoMetrics-Fragebogen

ISONORM-Fragebogen

Software Usability Measurement Inventory (SUMI)

Questionnaire for User Interface Satisfaction (QUIS)

System Usability Scale (SUS)

AttrakDiff, meCUE


Der SUS-Fragebogen

Ziele

Kostengünstige allgemeine Bewertung der Gebrauchstauglichkeit eines Systems

Vergleichende Bewertung vergleichbarer Systeme sowie verschiedener Versionen desselben Systems

Aufbau

10-Items Fragebogen (orig. Englisch, deutsche Übersetzung)

5-Punkte Likert-Skala mit alternierender Polarität

Ergebnis: globaler SU-Score zwischen 0 und 100

Nutzung

nach der Nutzung des Systems vor dem Debriefing

Unmittelbare Beantwortung (nicht lange nachdenken)



Der SUS-Fragebogen

Auswertung:

1. Für ungerade Fragen: u = ∑(Item-Score(2n-1) – 1);n = 1-5

2. Für gerade Fragen: g = ∑(5 – Item-Score(2n)); n = 1-5

3. SU score: S = (u + g) * 2,5

S zwischen 0 (negativ) und 100 (positiv)

Vergleiche erfolgen anhand dieser Metrik

ACHTUNG: Die Scores der einzelnen Items sind für sich nicht aussagekräftig!

Anmerkungen:

Bangor & May (2009) schlagen einen SUS mit geringfügigen Änderungen der Terminologie vor (verbesserte Verständlichkeit)

verschiedene deutsche Übersetzungen verfügbar (z.B. von Seibert-Media)


5 – 1 = 4

5 – 4 = 1

2 – 1 = 1

5 – 1 = 4

2 – 1 = 1

5 – 3 = 2

2 – 1 = 1

5 – 4 = 1

5 – 1 = 4

5 – 2 = 3 22 * 2,5 = 55

[nach Brooke, 1996]


Der SUS-Fragebogen

Was bedeutet der SUS Score?

• Bangor Adjective Scale

Zuordnung von beschreibenden Adjektiven zu Wertebereichen

Erlaubt absolute (nicht vergleichende) Bewertung von Systemen


Der IsoMetrics-Fragebogen

Ziele

Detaillierte formative (IsoMetricsL) oder summative (IsometricsS) Evaluation der GT von Software

Aufbau

75 Items in 7 Dimensionen (entspr. DIN EN ISO 9241-(1)10)

Verkürzung durch Weglassen ganzer Dimensionen möglich

5-stufige Skala (stimmt nicht bis stimmt sehr) & keine Meinung

In IsoMetricsL zusätzlich

Skala zur Einschätzung der Bedeutsamkeit des Items für den Gesamteindruck

Freitextfeld für konkrete Beispiele für Nichtzustimmung (pos. Polarität) bzw. Zustimmung (neg. Polarität)



Nutzung

nach der Nutzung des Systems, einzeln oder in Gruppen

Aufwand pro Evaluator (zzgl. Vorbereitung und Auswertung):

IsometricsS: 0,5 – 1 Stunde

IsometricsL: 2 – 4 Stunden

Empfohlene Stichprobengröße:

IsometricsS: mind. 50 Personen (für mittlere Effektstärke)

IsometricsL: mind. 8 – 20 Personen (für hohe Effektstärke)

Richtwerte zur Anzahl der Items:


IsoMetricsS (short)

IsoMetricsL (long)



Auswertung summativ:

1. Personen mit mehr als 20% „keine Meinung“ ausschließen

2. Alle „keine Meinung“ durch mittlere Kategorie ersetzen*

3. Berechnung arithmet. Mittel der Ratings pro Skala pro Person

Ratings der negativ formulierten Items: ri‘ = 6 – ri

Anzahl von Items pro Dimension und negativ gepolte Items:

*ändert die psychometrischen Eigenschaften nicht



Auswertung formativ:

1. Mittleres Rating berechnen wie bei IsoMetricsS

2. Freitextbemerkungen sammeln, nach Ähnlichkeit ordnen und mit Herkunftsitem und angegebener Relevanz notieren

3. Redundante Bemerkungen zusammenfassen

4. Priorisieren anhand mittlerer Relevanz und Nennungshäufigkeit

Kategorie A(W): mittleres Gewicht < 3, sonst Kategorie B(W)

Kategorie A(F): Nennung durch mind. 25% der Evaluatoren, sonst B(F)

Priorität 1: Problem verursachte Arbeitsunterbrechung

Priorität 2: Zuweisung zu A(W) und A(F)

Priorität 3: Zuweisung zu A(W) und B(F) oder B(W) und A(F)

Priorität 4: Zuweisung zu B(W) und B(F)

5. Darstellung mittels Metaplan-Technik

6. Auswertung im Usability Review Priorisierter Aktionsplan


Der AttrakDiff2-Fragebogen

Ziel

Erfassung User Experience-relevanter Produktwahrnehmungen und Bewertungen

Aufbau

Semantisches Differenzial mit 28 bipolaren, 7-stufigen Items

Endpunkte bilden zwei gegensätzliche Adjektive

Items sind zusammengefasst in 4 Skalen:

Pragmatische Qualität (PQ)

Hedonische Qualität – Stimulation (HQS)

Hedonische Qualität – Identität (HQI)

Attraktivität (ATT)

Mittelwerte der Itemgruppen bilden den jeweiligen Skalenwert

Der AttrakDiff2-Fragebogen

Auswertung:

3 graphische Darstellungen:

1. Portfolio

2. Diagramm der Skalenmittelwerte

3. Attributprofil

[Hassenzahl u.a., 2008]

[www.attrakdiff.de]



Der meCUE-Fragebogen

Ziele

Mehrdimensionale Erfassung des Nutzererlebens (User Experience)

Aufbau

Modularer Aufbau nach dem CUE-Modell [Thüring&Mahlke, 2007]

7-stufiges Likert skaliertes Antwortformat

Antworten mit einheitlicher Polarität

[www.mecue.de]


Der meCUE-Fragebogen[www.mecue.de]

Modul 2 (Ausschnitt) Modul 3

Modul 4


Der meCUE-Fragebogen

Nutzung

nach der Nutzung des Systems

Unmittelbare Beantwortung (nicht lange nachdenken)

Auswertung:

1. M1-M3: Angaben die Werte 1 bis 7 zuordnen (1 = lehne völlig ab)

M4: Angabe einen Wert –5 bis 5 zuordnen (Schrittweite 0,5)

2. Arithmetisches Mittel der Itemwerte eines Moduls bilden

Anmerkungen:

Aufbau streng wissenschaftlich und theoriegeleitet

Alle vier Module einzeln validiert (und damit einzeln nutzbar)

Validiert anhand AttrakDiff, UEQ u.a.

Weitere Fragebögen

Post-Study Questionnaires:

CSUQ, QUIS, SUMI, ISONORM, UMUX, PSSUQ, UEQ, NASA-TLX…

Post-Task Questionnaires:

ASQ, SEQ, SMEQ, UME…

Auswahl ist schwierig und teilweise eine Glaubensfrage. Orientierung geben können:

Häufigkeit und Dauer der Nutzung, insb. in wissensch. Artikeln

Qualität, Umfang und wissenschaftliche Höhe der Dokumentation (insb. auch der Konstruktion und Validierung)

Komplexität und Umfang der Verwendung

Akzeptanz beim Zielpublikum



Probleme bei der Nutzung von FB

• Unterschiedliche Interpretation von Fragen und Antwortmöglichkeiten

• Antworttendenzen

methodische Reaktivität

Systematische Fehleinschätzung

Tendenz zur Mitte

• Antworten sind subjektiv und selbstreflexiv

Proband bewertet anhand einer beschränkten, individuell geprägten Erfahrungswelt

Proband rationalisiert sein Verhalten

Proband differenziert nicht nach den vorgesehenen Kriterien, sondern beurteilt den Gesamteindruck (Halo-Effekt)


Zusammenfassung

• Evaluation = „systematische, möglichst objektive Bewertungeines geplanten, laufenden oder abgeschlossen Projektes“

• zentrales Instrument in allen Phasen des Usability Engineering

Fragestellungen: How good? / Which is better? / Why bad?

• Empirische und nichtempirische Methoden

E: Usability Tests und Befragungen

NE: Inspektionsmethoden und formal-analytische Methoden

• Fragebögen dienen der quantitativen Messung subjektiver Nutzer-Aussagen

müssen hinreichend valide, reliabel und objektiv sein

aufwändig in der Entwicklung, daher Rückgriff auf Standard-FB, z.B.

SUS, IsoMetrics, AttrakDiff, meCUE

erfordern sorgfältige Nutzung und Auswertung, um Artefakte zu vermeiden


Literatur

• Baumgärtner, Peter (1999): Evaluation mediengestütztes Lernens : Theorie - Logik - Modelle. In: Kindt, Michael [Hrsg.]: Projektevaluation in der Lehre : Multimedia an Hochschulen zeigt Profil(e). Münster [u.a.], Waxmann.

• Sarodnick, F. und Brau, H. (2006): Methoden der Usability Evaluation, Wissenschaftliche Grundlagen und praktische Anwendung. Hans Huber Verlag.

• Nielsen, Jakob (1993): Usability Engineering. In: Wickens, C.D., Lee, J.D., Liu, Yili, Becker, S.E.G.(2004): An Introduction to Human FactorsEngineering. Second Edition. Pearson Prentice Hall, Upper Saddle River.

• Rubin, J.; Chisnell, D. und Spool, J. (2008): Handbook of Usability Testing: Howto Plan, Design, and Conduct Effective Tests. Second Edition. John Wiley & Sons.


Literatur

• Bangor, A.; Miller, J. und Kortum, P. (2009): Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale”, In: Journal of Usability Studies, Vol. 4(3), S. 114–123.

• Brooke, J. (1996): SUS: A quick and dirty usability scale, In: Usability Evaluation in Industry. London, Taylor and Francis, S. 189–194.

• Gediga, G.; Hamborg, K.C. und Willumeit, H. (2000): Das IsoMetrics-Handbuch. Universität Osnabrück.

• Hassenzahl, M., Burmester, M. und Koller, F. (2008): Der User Experience (UX) auf der Spur: Zum Einsatz von www. attrakdiff. de. UsabilityProfessionals.

• Minge, M. und Riedel, L. (2013): meCUE–Ein modularer Fragebogen zur Erfassung des Nutzungserlebens. In: Computer, 8, 11.

• Thüring, M. und Mahlke, S. (2007): Usability, aesthetics and emotions in human–technology interaction. International Journal of Psychology, 42(4).

Documents

Messmethoden der Mensch-Maschine-Systemtechnik · Usability Engineering 4 Messmethoden der Mensch-Maschine-Systemtechnik VL MMS Wintersemester 2014/15 Professur für Prozessleittechnik