Multimodale Interfaces Jonas Tappolet, Domenic Benz

Preview:

Citation preview

Multimodale Interfaces

Jonas Tappolet, Domenic Benz

Inhalt

Basics Definition multimodal interface Verschiedene Typen Designprinzipien Beispiel MATCH

Interface: Zweck

Kommunikation zwischen Mensch und Maschine

Human-Machine-Interface (HMI)

AnwendungsbereicheMensch und Maschine lösen Aufgabe

gemeinsam (Interaktion)Maschine löst Aufgabe selbständig, Mensch

überwachtMensch löst Aufgabe selbständig, Maschine

überwacht (-> Assisted Living)

Human-Machine-Interface (HMI)

Gedanken, Emotionen,interne Verarbeitung

Information

Daten

Sinnesorgane (Ohren, Augen, Nase...)Aktionen (Sprechen, Bewegung…)

Interne Verarbeitung

Information

Daten

Sensoren (Kamera, Mikrofon…)Aktoren (Lautsprecher, Bildschirm…)

Austausch physikalischer Signale

Mensch Maschine

Warum neue Arten der Interaktion?

Maus & Tastatur ist „Präferenz“ der Maschine, nicht intuitiv

Verschiedene Situationen erfordern unterschiedliche Interaktionsmöglichkeiten

Menschen mit Behinderungen brauchen ein Interface das mit den ihnen zur Verfügung stehenden Mittel bedienbar ist

Komponenten der natürlichen menschlichen Kommunikation Sprache (Grundkommunikation) Gestik (Verdeutlichen, Untermalen) Mimik (Emotionen) Blickrichtung (Emotion, Kontrolle) Lautstärke, Tonfall (Emotion) Lippenbewegung (Kontrolle) Gerüche (?, Emotion) Haptik (Berührungen, Emotionen)

Ziele eines HMI

Das Interface muss entsprechend der Anwendung ausgelegt sein

Möglichst intuitive Kommunikation des Menschen mit der Maschine

Verwischen der Unterschiede zwischen Mensch-Mensch und Mensch-Maschine Kommunikation

Gestenerkennung

Funktionsweise: Aufnahme von Gesten mithilfe einer Kamera und Erkennung der Geste mithilfe von SoftwarePro: - Technologie vorhanden- Fordert nicht volle Aufmerksamkeit des Anwenders

Contra:- Erkennungsgeste zum aktivieren des Systems- Eingeschränkter Aktionsbereich

Video: Gestenerkennung

Quelle: TU München, Lehrstuhl für Mensch-Maschine-Kommunikation,http://www.mmk.ei.tum.de/demo/carvis/carvis.avi

Spracherkennung

Funktionsweise: Aufnahme von gesprochener Sprache und anschliessende Umwandlung in Steuerbefehle und Text.Pro: - Keine spezielle Hardware nötig (Mikrofon)- Natürlichste Form der menschlichen Kommunikation

Contra:- Umgebungsgeräusche / Andere Personen die

Sprechen behindern die Spracherkennung stark

BCI: Brain-Computer-Interface

Auswerten von elektrischer Hirnaktivität zur Erkennung von Befehlen die der Mensch „denkt“

Pro: - Direktverbindung, kein Umweg über ein verlustbehaftetes

Medium- Keine Codierung vom Menschen, nur Decodierung von der

Maschine.

Contra: - Datenschutz

- Lernbedarf seitens des Menschen?

Video: BBCI - Berlin Brain-Computer Interface

Zur Anzeige wird der QuickTime™ Dekompressor „mpeg4“

benötigt.

Quelle: Fraunhofer Institut Rechnerarchitektur und Softwaretechnik (FIRST), http://www.youtube.com/watch?v=yhR076duc8M

Probleme von einzelnen Interfaces

Jedes Interface hat spezifische Nachteile Das menschliche Gehirn hat mehr

Leistungsfähigkeit als ein einzelner Kommunikationskanal

Nicht für jeden Anwendungsbereich ist jedes Interface gleich gut geeignet

Multimodale Interfaces

Definition:

Multimodale Systeme verarbeiten zwei oder mehrere kombinierte

Benutzereingabemethoden wie Sprache, Stift, Berührung (Touchscreen), Gesten,

Blickrichtung oder Kopf- und Körperbewegung.

Vorteile Multimodaler Interfaces

Verbesserte Erkennung (z.B. Sprache und Lippenbewegung)

Schneller Intuitiv / Natürlich

Verschiedene Typen

Aktive Interfaces

Benutzer will aktiv mit System kommunizieren. Benutzer gibt explizite Kommandos an das

System. Klassische Interaktionsform

Befehl äussern

Befehl erfasstBefehl

ausführenDone

Auf Befehl warten

Ablauf:

Passive Interfaces

System soll Benutzer unterstützen, ohne dass er dies explizit anfordert.

System „überwacht“ Benutzer durch verschiedene Sensoren und erkennt gewisse Muster. Das System reagiert somit auf den Benutzer

und seine Umgebung. Mögliche Anwendung: Intelligente Räume

Passive Interfaces II

Schwierig zu implementieren

Kein Muster erkannt

Umgebung/User

überwachenXOR

Befehl (Muster) erkannt

Befehl ausführen

DoneAblauf:

Gemischte multimodale Interfaces

Vereinen mind. Einen aktiven und einen passiven Input.

Beispiel: Sprache und Lippenbewegung

Befehl erhalten

Befehl erfasst

Befehl ausführen

DoneAuf Befehl

warten

XORBefehl

(Muster) erkannt

V Inputs vergleichen

Inputs verglichen, Ergebnis erhalten

Umgebung/User

überwachenAblauf:

Zeitlich abgestufte Interfaces

Verarbeiten verschiedene Modalitäten, welche zeitlich aufeinander folgen.

Beispiel: Blick – Gestik – Sprache

Ablauf:Objekt mit

Blick fixierenObjekt

gewählt

Mit Hand an Ort zeigen

Ort gewählt

Kommando sprechen

Kommandoerfasst

Vollständigen Befehl

ausführenDone

Auf Input warten

Prinzipien für das Design von MM Interfaces

Synchronisation

MM Interface muss Mechanismen haben, welche garantieren, dass die verschiedenen Input-Streams korrekt miteinander verknüpft werden.

Beispiel: Point and Talk. Wichtigste Dimension bei Sprachinput ist die

Zeit. Bei visueller Interaktion: Raum.

Abschwächung/Anpassung I

MM Interfaces müssen analog der zwischenmenschlichen Kommunikation abschwächbar sein.

Beispiel: Telefongespräch. Wegfall aller visuellen Kommunikationsmittel.

Bei multimodalen Systemen:z.B. Veränderung der Umgebung

Abschwächung/Anpassung II

Zusätzliche (redundante) Modalitäten führen zu anpassungsfähigen Systemen.

Vorsicht bei sich gegenseitig ergänzenden Modalitäten

Sich verändernde Möglichkeiten beachten V.a. bei mobilen Systemen ist zu berücksichtigen,

dass sich die dem User zur Verfügung stehenden Möglichkeiten sehr schnell ändern können.

Gemeinsamer Status für verschiedene Modalitäten Wenn verschiedene Modalitäten für das

Ausführen einer Aktion eingesetzt werden, benötigen alle beteiligten Input-Streams einen gemeinsamen Interaktionsstatus.

Wichtig z.B. bei:Wechsel der ModalitätHistory Funktion

„Lost in space“ Problem

Verwirrung durch zu grosse Funktionalität Problem besteht bereits bei

herkömmlichen GUIs besteht das Problem.

Verschärfung des Problems durch zusätzliche Modalitäten.Benutzer mit intelligenten, angepassten

Dialogen führen.

Context Awareness

MM Interfaces sollten sich der Umgebung des Users anpassenBedürfnisse und Möglichkeiten des BenutzersDirekte Umgebung des BenutzersBandbreite

Beispiel MATCH

Multimodal Access To City Help (AT&T Labs 2001), Quelle: http://www.research.att.com/projects/MultimodalAccessToCityHelp/

Zur Anzeige wird der QuickTime™ Dekompressor „YUV420 codec“

benötigt.

Fragen?

Recommended