Aktuell | 31. Juli 2025

Sprachsteuerung erklärt: Was ist ein Voice User Interface?

Voice User Interfaces ermöglichen die Interaktion mit Geräten per Sprache – ganz ohne Hände oder Blickkontakt. Ob Siri, Alexa oder Google Assistant: Sprachsteuerung ist längst Alltag. Doch wie funktionieren diese Systeme genau? Dieser Artikel gibt einen Überblick.

Headerbild Vui

Dieser Fachbeitrag wurde 2020 von Florian Schoeffel im Rahmen eines Leistungsnachweises im CAS Digital Insurance HWZ für den damaligen Blog des Institutes for Digital Business der HWZ verfasst und nun redaktionell neu überarbeitet.

Voice User Interface (VUI) beschreibt ein System, das hauptsächlich Benutzereingaben über Sprachbefehle entgegennimmt und mit dem User via Sprachausgabe kommuniziert. Also sprechen statt tippen! Das Thema «Voice» gibt es schon seit mehreren Jahrzehnten. 1950 kam Speech Recognition erstmals in Form einer sprachgesteuerten Maschine namens Audrey auf den Markt. Das System konnte gesprochene Zahlen von 0 bis 9 mit einer Genauigkeit von 90 % verstehen. Die IBM Shoebox war 1962 bereits dazu in der Lage, 16 gesprochene Wörter zu verstehen. Seither entwickelte sich VUI stetig weiter, nicht zuletzt auch durch die immer weiterwachsenden Technologien. Daraus entstehen auch neue Chancen, wie zum Beispiel der Einsatz von Voice Assistants.

In der jüngsten Vergangenheit wurde die Sprachsteuerung immer relevanter. Dieser Umstand dürfte wohl der Bequemlichkeit des Menschen geschuldet sein. Die Nutzenden müssen nämlich, ausser ihre Gedanken und Anliegen auszusprechen, nichts mehr selbst tun. Einige Beispiele dieser praktischen Voice Assistants sind Siri, Google Assistant oder Alexa. Aber es gibt auch weniger bekannte Sprachsteuerungsassistenten sowie noch nicht erforschte Anwendungsmöglichkeiten rund um «Voice».

Wie funktionieren Voice User Interfaces?

VUIs erlauben die Interaktion mit einem System ohne Hände und Augen, währenddessen die Aufmerksamkeit des Users auf andere Bereiche gelenkt werden kann. Dabei darf nicht vergessen werden, dass VUIs lediglich die Schnittstellen zum User sind. Der User «weckt» den Voice Assistant mit einem vorbestimmten Wort, spricht sein Anliegen aus und erhält eine Antwort. Damit diese Interaktion stattfinden kann, werden im Hintergrund eine Vielzahl an Daten und Informationen ausgetauscht.

Funktionsweise Vui

Quelle: archive.signalprocessingsociety.org

Nachfolgende Elemente sind zentral für diesen Austausch. Sie entwickeln sich stetig weiter und werden immer zuverlässiger und genauer.

  • Die automatische Spracherkennung beinhaltet das Wissen und die Forschung in den Bereichen Informatik, Linguistik oder Computertechnik. Normalerweise bezieht sie sich auf eine eigenständige Software.

  • Bezeichnet die Fähigkeit eines Programms, die menschlichen Sprachen zu verarbeiten und zu verstehen. Dazu gehört sowohl die Übersetzung einer Sprache in eine andere als auch das Erkennen der Bedeutung der Worte. NLP ist zudem Bestandteil der künstlichen Intelligenz.

  • Beschreibt das Verständnis von Struktur und Bedeutung der menschlichen Sprache durch den Computer. NLU ermöglicht eine direkte Interaktion zwischen Mensch und Computer.

  • Damit sind Plattformen gemeint, die ein Gespräch mit einem echten Menschen nachahmen können. Sie bieten Nutzenden die Möglichkeit, mit dem Computer in ihrer natürlichen Sprache zu kommunizieren. CUIs werden in zwei Untergruppen aufgeteilt: textbasierte Chatbots und sprachbasierte Voice User Interfaces.

  • Die Ausgabe eines Voice Assistant in Verbindung mit einem physischen Element, z. B. einer Tastatur. Diese Elemente können die Spracherfahrung noch angenehmer und benutzerfreundlicher gestalten.

  • Aktuell ist es noch nicht möglich, ohne Installation und Aktivierung einer Voice-App auf einem Smart Speaker etwas zu erledigen. Folglich wird für eine Interaktion eine Voice-App benötigt.

Warum VUIs unsere Kommunikation mit Technologie verändern

VUIs erfüllen ein wichtiges Kriterium: Sie erleichtern den Alltag von Menschen. Der Mensch ist ein bequemes Wesen und geniesst die effiziente Unterstützung durch Voice Assistants. Es gibt mehrere Gründe und Hinweise, die darauf hindeuten, dass diese Form von Kommunikation zwischen Mensch und Computer in den nächsten Jahren steigen wird:

  • Kinderleichte Anwendung

  • Sprache als natürliche Kommunikation des Menschen

  • Entlastung des Gehirns

  • Sehr schnell wachsende Technologie

  • Sprechen ist 3x schneller als Schreiben

  • Prinzip des geringsten Aufwandes

  • Multitasking

  • Pro-aktive Assistenz

VUIs bereichern die digitale Transformation um ein weiteres Element und ersetzen teilweise bestehende Prozessschritte. So ist zu erwarten, dass in naher Zukunft vor allem einzelne Teile mittels Voice Assistants ergänzt werden. Geeignete Ansatzpunkte bieten der Kundenservice oder Call Center – hier können optimale Use Cases gefunden und weiterentwickelt werden. Ein grosser Vorteil ist zudem die Inklusion: Kinder und ältere Menschen erhalten Zugang genauso wie Personen, die technisch nicht geübt sind.