Conversational User Interfaces – wenn Mensch und Maschine in den Dialog treten

Veröffentlicht am 24. September 2021

Noah Friedrich

Bei der Mensch-Maschine-Interaktion geht es schon seit jeher darum, wie der Nutzer auf natürlichste sowie einfachste Art und Weise mit der Technologie in Kontakt treten, mit ihr kommunizieren und von ihr unterstützt werden kann. In der Spezialdisziplin des Interaction Designs versuchen Designer deshalb sowohl soziale als auch emotionale Aspekte der menschlichen Kommunikation in Systeme zu implementieren, sodass die Interaktion genauso selbstverständlich vonstattengeht wie die Mensch-zu-Mensch-Kommunikation. Und was ist enger im Menschen verwurzelt als seine Sprache?

Digitale text- und sprachbasierte Assistenten werden immer mehr Teil unseres Alltags und für viele stellt sich die Frage, ob Conversational User Interfaces (CUI) bald den etablierten grafischen Benutzeroberflächen (GUI) den Rang ablaufen. Doch welche Potenziale lassen sich durch CUIs wecken und steckt darin wirklich die Hauptschnittstelle der Zukunft?

 

Methoden der Interaktion – Von der Kommandozeile zum grafischen Interface

Im Laufe der 60er Jahre verfügten Computer Terminals über ein gleichnamiges Terminal Interface, welches den Benutzern erlaubte, Befehle mittels Texteingaben zu übermitteln.

Da die Nutzer jedoch über die genaue Syntax des Systems Bescheid wissen mussten, war die Interaktion mit einem Computer zunächst nur Eingeweihten möglich. Nichtsdestotrotz stellt das Nutzen einer Kommando- oder Befehlszeile, welches im englischen auch als command-line interface (CLI) bezeichnet wird, nicht nur die erste Methode der Mensch-Computer-Interaktion dar, sie kam auch bis weit in die 90er vor allem in den vielzähligen DOS-Betriebssystemen zum Einsatz.

Um die Interaktion mit dem Computer zu vereinfachen sowie zugänglicher zu machen und sich somit von der reinen Zeicheneingabe zu lösen, wurden bereits in den 70er Jahren erste Konzepte hinsichtlich einer grafischen Benutzerfläche (GUI - Graphical User Interface) entwickelt, die jedoch erst zehn Jahre später dank Apple Macintosh und den Heimcomputern von Atari sowie Commodore einen größeren Anwenderkreis fanden – und vor allem finanzierbar waren.

„When designers replaced the command line interface with the graphical user interface, billions of people who are not programmers could make use of computer technology.“ – Howard Rheingold

Neben Dialogfeldern und Menüs nutzt ein GUI Metaphern für die in ihm bereitgestellten Objekte, um eine realitätsgetreuere Arbeitsumgebung zu schaffen. Programme, Dateien und Aktionen können so visuell dargestellt werden, wobei die einzelnen Elemente, die Aktionen auslösen, häufig im Sinne des Skeuomorphismus an reale Objekte angelehnt sind oder vom Nutzer gelernt werden müssen.

Die notwendige Lernkurve der User beim Arbeiten mit grafischen Symbolen sowie oftmals notwendige Anpassungen, damit das Interface auch plattformübergreifend funktional und sinnhaftig daherkommt, bringt bei der Entwicklung eines GUIs seine ganz eigenen, neuen Herausforderungen mit sich. Diesen widmet sich die User Experience, die sich zum Ziel setzt, die komplexen Elemente wie Eingabesteuerung, Navigations- und Informationskomponenten zu vereinfachen und die Schnittstelle zwischen Mensch und Maschine so intuitiv wie nur möglich zu gestalten.

 

Conversational User Interface – Im Dialog mit der Maschine

Der technologische Fortschritt erlaubt uns heutzutage, uns vermehrt mit einem neuen Interface zu beschäftigen – dem Conversational User Interface (CUI). Wie der Name bereits verrät, handelt es sich hierbei um eine Schnittstelle, welche auf der Verwendung von Sprache, sowohl in geschriebener als auch gesprochener Form, basiert. Das Interface kehrt somit in gewisser Weise zur Einfachheit der Befehlszeile zurück, jedoch werden beim CUI weder genaue noch abstrakte Befehlseingaben benötigt. Für die Interaktion mit einer Maschine reicht schlicht die Verwendung natürlicher Sprache – wie bei der Mensch-zu-Mensch-Kommunikation.

Die Idee, dass eine Maschine lernt, direkt mit Kunden zu kommunizieren, ist dabei ähnlich alt wie das zuvor erwähnte Terminal Interface. Bereits 1966 entwickelte Joseph Weizenbaum am MIT den ersten Chatbot namens Eliza. Eliza ahmte eine Psychotherapeutin nach, indem sie unter Verwendung eines strukturierten Wörterbuchs sowie einer Phrasensammlung auf Schlagworte wie ‚Kopfschmerzen‘ oder ‚Mutter‘ reagieren und sogar Folgefragen stellen konnte. Dies führte dazu, dass manche Nutzer trotz besseren Wissens das Programm für menschlich hielten – ihm Gefühle und Verständnis zuschrieben. Seitdem ist dieses Phänomen -Computer- und Menschen-Verhalten gleichzusetzen- bekannt als Eliza-Effekt.

Heute sind sowohl textbasierte Interfaces als auch sprachbasierte Virtuelle Assistenten wie z.B. Amazon Alexa, Apple Siri oder der Google Assistant im Umlauf, mit denen die Nutzer in den Dialog treten können. Dass die Option die eigene Sprache zu nutzen immer mehr Gewicht hat, zeigt sich vor allem in asiatischen Ländern, wo die Menschen jetzt schon mehr Sprachnachrichten versenden, anstatt mühselig zu tippen. Und bei den neuen Sprachassistenten geht es sowieso nicht mehr nur um das schlichte Beantworten von Fragen. Über u.a. Google Voice lassen sich bereits Tische im Restaurant reservieren, Taxis oder Büromaterialien bestellen und Online-Inhalte können einem bequem vorgelesen werden.

 

Bedeutung für die UX – Das UI der Zukunft?

Für einen UX-Designer bedeutet das Gestalten eines CUI natürlich eine vollkommen neue Fokuslegung. Es geht im Gegensatz zum GUI nicht mehr hauptsächlich um die visuelle Gestaltung, sondern wieder vermehrt um das technische – und vor allem; das menschliche. Anwendung müssen genau verstehen können was gesagt wird und wie es gesagt wird. Die intelligente Fahr-Assistenz von Bosch (Casey) spricht deshalb nicht nur ca. 30 verschiedene Sprachen, sie versteht auch Menschen, die einen Akzent oder Dialekt sprechen.

Die Sprache allein reicht aber oftmals nicht. Durch Sensorik, Big Data und Künstliche Intelligenz (KI) muss solch eine Assistenz sowohl die Intention des Nutzers verstehen als auch mit relevanten sowie kontextspezifischen Informationen hinsichtlich der Umgebung, persönlicher Präferenzen und Bewegungsrichtung aufwarten. Und hierbei stellt sich deshalb dann gerade für die UX die Frage, wo welches Interface auch wirklich einen Nutzen hat und perfekt funktioniert. Denn gerade in einer Verkehrssituation muss genau bemessen werden, wann eine Spracheingabe oder auch Gestensteuerung die Sicherheit erhöht und wann sie zu Missverständnissen führen kann oder die Sicherheit gar gefährdet.

Gerade im E-Commerce zeigt sich aber auch bereits, wie CUIs zu einer neuen Form von Markenkommunikation genutzt werden können und dadurch neue Nutzererlebnisse schaffen. Durch eine virtualisierte Form des Kundengesprächs bzw. einen virtuellen Kundenbegleiter können Nutzer eigene Fragen zu Produkten stellen und persönliche Antworten erhalten, als ob sie mit einem Kundenberater vor Ort unterwegs wären. Die virtuellen Berater erleichtern dabei die reibungslose Interaktion und geben ihr eine menschlichere Note, wodurch die Nutzer bequemer durch die Anwendung geleitet werden können und die Marke so wahrhaftig eine eigene Stimme bekommt.

„An interface is humane if it is responsive to human needs and considerate of human frailties.“ – Jef Raskin

Sprach- und tippfaule Menschen oder genau diejenigen, die an einer direkten Konversation mit einer Maschine überhaupt kein Interesse haben, müssen aber keine Angst davor haben, dass CUIs plötzlich die Hauptschnittstelle in der Mensch-Maschine-Interaktion bilden. Die menschliche Kommunikation ist schließlich komplex und oft fehlerhaft, was auch das Designen von voll-funktionalen CUIs erschwert. Für die UX geht es deshalb vorerst eher darum herauszufinden, wo sprach- und/oder textbasierte Assistenten die grafische Benutzeroberfläche unterstützen bzw. wie sie die gesamte Interaktion verbessern können.

Die größten Möglichkeiten bieten CUIs natürlich bei der Barrierefreiheit und somit auch ganz allgemein bei der Benutzerfreundlichkeit. Es gibt kaum eine niedrigere Einstiegshürde als die Sprache, da das Gros der Nutzer in nahezu jeglicher Altersgruppe über die Fähigkeit des Sprechens und Schreibens verfügt. Der Nutzer muss sich also weder neues Wissen aneignen noch sich über einen längeren Zeitraum mit der Bedienung einer Anwendung/Plattform vertraut machen. Gleichzeitig bieten sich ganz neue Kommunikationsmöglichkeiten, um z.B. Nutzern mit Seh- oder Hörschwächen den Zugang zu erleichtern. Am Schluss entscheiden sowieso sie, die Nutzer, wie, wann und wo sie eine Kommunikation starten und mit einer Maschine interagieren wollen.

Diese Artikel könnten Sie auch interessieren