Aktuell | 31. Juli 2025
Voice User Interfaces ermöglichen die Interaktion mit Geräten per Sprache – ganz ohne Hände oder Blickkontakt. Ob Siri, Alexa oder Google Assistant: Sprachsteuerung ist längst Alltag. Doch wie funktionieren diese Systeme genau? Dieser Artikel gibt einen Überblick.
Dieser Fachbeitrag wurde 2020 von Florian Schoeffel im Rahmen eines Leistungsnachweises im CAS Digital Insurance HWZ für den damaligen Blog des Institutes for Digital Business der HWZ verfasst und nun redaktionell neu überarbeitet.
Voice User Interface (VUI) beschreibt ein System, das hauptsächlich Benutzereingaben über Sprachbefehle entgegennimmt und mit dem User via Sprachausgabe kommuniziert. Also sprechen statt tippen! Das Thema «Voice» gibt es schon seit mehreren Jahrzehnten. 1950 kam Speech Recognition erstmals in Form einer sprachgesteuerten Maschine namens Audrey auf den Markt. Das System konnte gesprochene Zahlen von 0 bis 9 mit einer Genauigkeit von 90 % verstehen. Die IBM Shoebox war 1962 bereits dazu in der Lage, 16 gesprochene Wörter zu verstehen. Seither entwickelte sich VUI stetig weiter, nicht zuletzt auch durch die immer weiterwachsenden Technologien. Daraus entstehen auch neue Chancen, wie zum Beispiel der Einsatz von Voice Assistants.
In der jüngsten Vergangenheit wurde die Sprachsteuerung immer relevanter. Dieser Umstand dürfte wohl der Bequemlichkeit des Menschen geschuldet sein. Die Nutzenden müssen nämlich, ausser ihre Gedanken und Anliegen auszusprechen, nichts mehr selbst tun. Einige Beispiele dieser praktischen Voice Assistants sind Siri, Google Assistant oder Alexa. Aber es gibt auch weniger bekannte Sprachsteuerungsassistenten sowie noch nicht erforschte Anwendungsmöglichkeiten rund um «Voice».
VUIs erlauben die Interaktion mit einem System ohne Hände und Augen, währenddessen die Aufmerksamkeit des Users auf andere Bereiche gelenkt werden kann. Dabei darf nicht vergessen werden, dass VUIs lediglich die Schnittstellen zum User sind. Der User «weckt» den Voice Assistant mit einem vorbestimmten Wort, spricht sein Anliegen aus und erhält eine Antwort. Damit diese Interaktion stattfinden kann, werden im Hintergrund eine Vielzahl an Daten und Informationen ausgetauscht.
Quelle: archive.signalprocessingsociety.org
Nachfolgende Elemente sind zentral für diesen Austausch. Sie entwickeln sich stetig weiter und werden immer zuverlässiger und genauer.
Die automatische Spracherkennung beinhaltet das Wissen und die Forschung in den Bereichen Informatik, Linguistik oder Computertechnik. Normalerweise bezieht sie sich auf eine eigenständige Software.
Bezeichnet die Fähigkeit eines Programms, die menschlichen Sprachen zu verarbeiten und zu verstehen. Dazu gehört sowohl die Übersetzung einer Sprache in eine andere als auch das Erkennen der Bedeutung der Worte. NLP ist zudem Bestandteil der künstlichen Intelligenz.
Beschreibt das Verständnis von Struktur und Bedeutung der menschlichen Sprache durch den Computer. NLU ermöglicht eine direkte Interaktion zwischen Mensch und Computer.
Damit sind Plattformen gemeint, die ein Gespräch mit einem echten Menschen nachahmen können. Sie bieten Nutzenden die Möglichkeit, mit dem Computer in ihrer natürlichen Sprache zu kommunizieren. CUIs werden in zwei Untergruppen aufgeteilt: textbasierte Chatbots und sprachbasierte Voice User Interfaces.
Die Ausgabe eines Voice Assistant in Verbindung mit einem physischen Element, z. B. einer Tastatur. Diese Elemente können die Spracherfahrung noch angenehmer und benutzerfreundlicher gestalten.
Aktuell ist es noch nicht möglich, ohne Installation und Aktivierung einer Voice-App auf einem Smart Speaker etwas zu erledigen. Folglich wird für eine Interaktion eine Voice-App benötigt.
VUIs erfüllen ein wichtiges Kriterium: Sie erleichtern den Alltag von Menschen. Der Mensch ist ein bequemes Wesen und geniesst die effiziente Unterstützung durch Voice Assistants. Es gibt mehrere Gründe und Hinweise, die darauf hindeuten, dass diese Form von Kommunikation zwischen Mensch und Computer in den nächsten Jahren steigen wird:
Kinderleichte Anwendung
Sprache als natürliche Kommunikation des Menschen
Entlastung des Gehirns
Sehr schnell wachsende Technologie
Sprechen ist 3x schneller als Schreiben
Prinzip des geringsten Aufwandes
Multitasking
Pro-aktive Assistenz
VUIs bereichern die digitale Transformation um ein weiteres Element und ersetzen teilweise bestehende Prozessschritte. So ist zu erwarten, dass in naher Zukunft vor allem einzelne Teile mittels Voice Assistants ergänzt werden. Geeignete Ansatzpunkte bieten der Kundenservice oder Call Center – hier können optimale Use Cases gefunden und weiterentwickelt werden. Ein grosser Vorteil ist zudem die Inklusion: Kinder und ältere Menschen erhalten Zugang genauso wie Personen, die technisch nicht geübt sind.
HWZ Hochschule für Wirtschaft Zürich Lagerstrasse 5, Postfach, 8021 Zürich +41 43 322 26 00
ImpressumDatenschutzRechtliches