"Alexa wie ist die Wettervorhersage für morgen?", "Hey Google, bestell' mir eine Pizza!" Einfache Anfragen sind für uns heute nur ein Sprachkommando entfernt. Wir sind es immer mehr gewohnt, die Hilfe intelligenter Sprachtechnologie in Anspruch zu nehmen, um uns den Alltag zu erleichtern. Allerdings kratzen wir weiterhin kaum an der Oberfläche des Potenzials unserer neuen virtuellen Freunde. Nehmen wir zum Beispiel Google Duplex. In dieser Demo haben Millionen Zuschauer die Fähigkeiten eines sehr menschlich klingenden Voice-Bots aus erster Hand miterlebt, wie er telefonisch mit einem Menschen eine Reservierung vereinbart hat. Was passiert, wenn sich diese Kompetenzen noch weiterentwickeln und sich Anrufe an ein Unternehmen vollständig von KI-basierter Technologie vornehmen lassen? Können Bots bald in Ihrem Namen handeln und mit dem Bot der Bank über Ihre Konten oder Überweisungen verfügen?
So weit ist es noch nicht. Aber die Möglichkeiten und Erwartungen an Sprachsteuerung haben sich geändert. Nutzer müssen sich nicht mehr auf IVR-Technologie (Interactive Voice Response) verlassen und sich mühsam und wiederholt durch einzelne Abfragen kämpfen, nur um beispielsweise ein Versicherungsangebot einzuholen. Stattdessen werden die Anliegen online kommuniziert, verstanden und sofort und präzise beantwortet. Durch die Verwendung von natürlicher Sprachverarbeitung und Spracherkennung haben Bots nun die Möglichkeit, menschliche Gespräche zu verstehen und nach einem vorgegebenen Regelwerk zu bearbeiten.
Der einfache Weg
Tatsache ist: Es ist so viel einfacher, etwas zu erfragen als Dutzende von Textseiten zu lesen, unbekannte Software zu nutzen oder langwierig zu suchen, zu scrollen und zu tippen. Mit fortschrittlicher Sprachtechnologie bekommen wir, was wir wollen, wann wir es wollen. Sprache funktioniert intuitiv und ohne Umweg über Eingabegeräte. Kurz: Sie ist einfach.
Google sagt, dass seine Technologie komplexe Gespräche bewältigen kann, ohne dass eine menschliche Instanz notwendig ist. Auch wenn Google die Technologie nicht als Business-Technologie positioniert hat, so ist doch sehr wahrscheinlich, dass sie auch im Geschäftsleben zur Anwendung kommen wird - vor allem wenn Firmen Sprachschnittstellen einsetzen wollen. Primäre Einsatzszenarien sind organisatorische Funktionen an Workstations und Netzwerken, etwa sprachgesteuerte Suche oder digitale Assistenten wie Microsoft Cortana.
Wichtig ist jedoch, dass bei der Integration der Nutzen im Mittelpunkt der Sprachtechnologie steht - nicht die Kosten. Richtig eingesetzt, werden Verbraucher Voice-Bots im Unternehmenskontext ebenso zu schätzen wissen, wie sie es zu Hause tun. Sofern diese ebenso effektiv, verfügbar und reaktionsschnell sind. Der (Bedien-)Komfort ist entscheidend. Niemand ruft gerne bei der Bank an und wartet anschließend fünf Minuten in der Warteschleife, nur um dann mit einem vollkommen unvorbereiteten Mitarbeiter zu sprechen. Wenn Voice-Bots einen Mehrwert bieten, dann werden die Verbraucher auch nicht zögern, sie zu nutzen.
Das große Ganze zählt
Aber Komfort ist nicht der einzige Faktor. Sowohl Unternehmen als auch Nutzer müssen sich mit der Technologie wohlfühlen. Und es gibt zahlreiche grundlegende soziale, moralische und rechtliche Implikationen zu berücksichtigen, um diese Balance zu finden und zu halten. Wie stellt man sicher, dass sich ein Voice-Bot ethisch einwandfrei verhält? Wie verhindert man den Einsatz von Flexions- und Stimmungsanalyse, um Menschen während eines Bot-Gesprächs zu manipulieren? Was machen Bots mit den Informationen, die die Nutzer liefern? Werden sie sich an Kreditkartennummern erinnern? Wohin gehen die Informationen? Wie werden sie gespeichert? Wer kann sonst darauf zugreifen? In Europa zum Beispiel müssen Voice-Bots die 2018 in Kraft getretene EU-DSGVO einhalten - wie lässt sich dies gewährleisten?
Menschenähnliche Voice-Bots erfordern im Betrieb eine große Menge Daten und diese bereitzustellen, ist mit einer enormen Verantwortung verbunden. Unternehmen müssen wissen, woher ihre Daten kommen und wo sie zusammenlaufen. Werden interne Daten mit denen von Drittanbietern kombiniert? Woher kommen diese Daten, und kann und sollte man sie für die eigenen KI-Modelle verwenden? Wenn uns die vergangenen Skandale und Daten-Leaks etwas gelehrt haben, dann, dass Unternehmen nicht immer die negativen Auswirkungen populärer neuer Technologien und deren Missbrauchspotenziale richtig einschätzen und berücksichtigen. Das erfordert Planung und Due Diligence.
Für den Einstieg in diese Technologie eignen sich in Unternehmen deshalb vor allem Abteilungen, die nur eigene Daten erfassen und verarbeiten. Hier kann man ein isoliertes Testumfeld schaffen und die Praktikabilität der Sprachsteuerung im eigenen Firmenkontext prüfen, ohne dabei die Datensicherheit zu gefährden. Bei positivem Feedback lässt sich die Technik dann schrittweise in weiteren Abteilungen und komplexeren Datennetzwerken einführen - aber immer nur mit einem Blick auf das große Ganze der eigenen IT-Architektur.
Die Erwartungen der Nutzer erfüllen
Neben rechtlichen und ethischen Hürden sollten sich Unternehmen auch auf das hohe Niveau der Kundenerwartungen einstellen, wenn sie Voice-Bots einsetzen. Als Menschen sind wir biologisch programmiert, Stimmen wiederzuerkennen und uns instinktiv an unsere bisherigen Interaktionen und Handlungen mit der dazugehörigen Persona zu erinnern. Wenn der Voice-Bot eines Unternehmens nach Alexa klingt, werden Nutzer auch erwarten, dass er sich wie Alexa "verhält". Wenn es jedoch Diskrepanzen mit der Nutzererwartung gibt, wird dies schnell zu Verärgerung bei den Verbrauchern führen.
Fazit
Auch wenn uns Voice Bots bald überall begegnen, werden wir nicht immer mit ihnen reden wollen. Sie werden vor allem für schnelle Abfragen und einfache Aufgaben nützlich sein. Aber das Gefühl, das beim Gespräch mit einer echten Person über komplizierte, manchmal auch sehr persönliche Angelegenheiten entsteht, wird sich mit einem Bot nie vollständig erreichen lassen. Die Komplexität menschlicher Kommunikation und das damit verbundene Gefühl der Authentizität und unsere einzigartige Fähigkeit, Erfahrungen miteinander zu teilen - das ist eine Art von Sprach-Interaktion, die niemals vollständig zufriedenstellend synthetisiert und automatisiert werden kann.