Anlässlich des heutigen „World Voice Day“ zeigen wir Ihnen, was Sie beachten müssen, wenn Sie eine Applikation entwickeln, die per Sprache gesteuert wird. Schließlich sind Sprachassistenten wie Amazon Alexa oder Google Assistant unaufhaltsam auf dem Vormarsch. Doch die Nutzerführung unterscheidet sich enorm von Bildschirm, Tastatur und Maus oder Touch-Display. Wir geben Ihnen daher einige Tipps, wie Sie ein gutes Voice User Interface (VUI) konzipieren.

Natürliche Sprache als zentrale Herausforderung

Bei der Konzeption und Entwicklung eines Voice User Interface ist ein Gedanke enorm wichtig: Nutzer*Innen wollen sich mit dem System in natürlicher Sprache unterhalten, ja regelrecht eine Konversation führen. Doch das ist eine enorme Herausforderung für eine sprachgesteuerte Anwendung: Sprache ist ein enorm komplexes System und oft gibt es dutzende oder gar hunderte verschiedene Varianten, um das gleiche zu sagen. Anders als bei einer Suchmaschine, wo Nutzer*Innen z.B. einfach Schlagwörter wie „Wetter Köln“ eingeben, gibt es in gesprochener Sprache Varianten wie „Wie wird heute das Wetter in Köln?“, „Wie ist heute das Wetter in Köln?“ oder „Wie wird morgen das Wetter in Köln?“. Hinzu kommt noch, dass viele Nutzer*Innen den Standort bei der Frage weglassen und z.B. einfach nur fragen: „Regnet es heute?“, „Wird es heute regnen?“, „Wird es morgen schneien“ oder „Scheint übermorgen die Sonne?“. Der scheinbar natürliche Dialog mit einem Sprachassistenten reizt Menschen also zugleich auch, genauere Fragen zu stellen. Ein weiteres Beispiel sind Restaurantempfehlungen: User fragen ihre Sprachassistenten nicht einfach nach „Pizza Berlin“, sondern z.B. nach „Wo kann ich eine glutenfreie Pizza in meinem Kiez essen?“ Und auf all diese Fragen erwarten Nutzer*Innen von Alexa, Google Assistant, Siri oder Cortana eine konkrete Antwort, die ebenfalls per Sprache erfolgt.

Dialog statt Display

Gerade bei komplexeren Themen, die über eine einfache Suchanfrage per Sprache hinausgehen, erwarten Nutzer*Innen eine richtige Konversation bzw. einen Dialog mit dem Sprachassistenten bzw. der Sprachapplikation. Ein Display zur Ausgabe von Antworten oder auch anschaulichen Bildern oder Grafiken steht hingegen üblicherweise nicht zur Verfügung, zumindest wenn es sich um weit verbreitete Smart Speaker wie den Amazon Echo oder Google Home geht. Eine Ausnahme bilden hier Sonderfälle wie der Echo Show mit Display. Und auch auf Smartphones hält die Sprachsteuerung immer mehr Einzug. Hier liefern Sprachassistenten wie Google Assistant mitunter noch Ergebnisse aufs Display aus. Das mag in manchen Fällen hilfreich sein, doch der Sprachassistent weiß nicht, ob die momentane Situation der Nutzer*In überhaupt den Blick aufs Display zulässt. Sie könnte z.B. auch im Auto sitzen und sollte dann nicht abgelenkt werden.

Quelle: amazon.com

Drehbuch für Dialoge

VUI-Entwickler empfehlen bei der Konzeption von Sprachapplikationen eine Art Drehbuch für Dialoge zwischen Nutzer*In und Applikation zu schreiben. So sollen möglichst viele Dialoge vorausgesehen und ausgestaltet werden. Diese können in einem Rollenspiel getestet werden, noch bevor die Sprachapplikation überhaupt programmiert wird: Dabei mimt eine Person aus dem Team eine Nutzer*In und eine andere Person spielt den Sprachassistenten bzw. die Sprachapplikation. Werden alle oder zumindest die meisten Fragen der Nutzer*In hierbei bereits beantwortet? Dann ran an die Entwicklung. Wenn nein, dann sollte das Dialog-Skript entsprechend erweitert werden.

Einzigartige Unterhaltungen zwischen Mensch und Maschine

Bei der Konzeption und Entwicklung eines Voice User Interfaces gilt es zudem zu bedenken, dass jede menschliche Unterhaltung einzigartig ist. Und genau dasselbe gilt auch für den Mensch-Maschine-Dialog mit einem Sprachassistenten. Ist die Sprachapplikation z.B. als Alexa Skill schließlich veröffentlicht, so gilt es, die Applikation stetig zu testen und zu verbessern: Einerseits sollten Entwickler regelmäßig Anfragen an die Applikation auswerten, die diese noch nicht beantworten kann, und ihr die entsprechenden Antworten ‘antrainieren’. Andererseits kann künstliche Intelligenz und maschinelles Lernen helfen, dass sich eine Sprachapplikation von selbst verbessert.

Testen, testen, testen

Um die Qualität der Sprachapplikation zu sichern, bieten sich zudem verschiedene Testmethoden an. Neben der technischen Qualitätssicherung sollte die Sprachapplikation auch regelmäßig von unterschiedlichen Testnutzern ausprobiert werden. So finden sich schneller Dialoge, die in eine Sackgasse führen und noch nicht von der Sprachapplikation beantwortet werden können. Denn nichts ist frustrierender für die Nutzer*Innen, als vom Sprachassistenten ein „Sorry, darauf habe ich leider keine Antwort“ zu hören.