Veröffentlicht am

10 June 2026

Warum Voicebots so schlechte Zuhörer sind ...

... obwohl die Benchmarks top aussehen. Voicbots bestehen aus unterschiedlichen Komponenten mit jeweils individuellen Aufgaben. Und Tücken!

Laura

0 Min. Lesezeit
Link-Icon diagonal für Verknüpfung
Share Icon
Share Icon
Share Icon
Share Icon
Share Icon

Das LLM kann noch so smart sein, die synthetische Stimme noch so natürlich. Werden die Eingaben der Anrufenden nicht richtig verstanden, hilft das alles nicht.  Dabei schneiden viele Transkriptionstools (auch TTS “Text to Speech” genannt oder ASR “Automatic Speech Recognition”) in den Benchmarks richtig gut ab. Wie und wo entsteht da die Lücke zwischen Testing und Realität?

Benchmarks nutzen häufig sehr gute, “saubere” Daten

Die berühmten Zahlen, mit denen STT-Anbieter werben, stammen fast alle aus derselben Quelle: vorgelesener, sauber aufgenommener Sprache. Eine Person, ein gutes Mikro, kein Hintergrundrauschen, ganze Sätze, keine Versprecher. 

Whisper Large-v3 zum Beispiel kommt auf LibriSpeech auf rund 2,7 % Word Error Rate, dem allgemeinhin wichtigsten Wert, um die STT-Qualität zu bewerten. Auf “echtem” englischem Audio (Meetings, Telefonate, offene Gespräche) steigt derselbe Wert auf 8 bis 12 %. Dasselbe Modell, aber ein völlig anderes Ergebnis. 

Der eigentliche Bruch passiert beim Sprung von gelesener und/oder professioneller zu spontaner Sprache. In Studien verdreifacht sich die Fehlerrate hier gerne mal: Was als vorgelesener Text bei unter 5 % liegt, landet bei frei gesprochenen Dialogen schnell im zweistelligen Bereich. Das macht auch total Sinn, wenn man bedenkt, wie stark sich spontane Gespräche von Podcasts, Hörbüchern und Co. unterscheiden: Unvollständige Sätze, diverse Ähms und Hmmms, verschluckte Endungen, Dialekte und Akzente. Alles, was unsere Sprache reich, bunt und spannend macht, wir für die STT zur riesigen Herausforderung. 

Dazu kommt: Viele dieser Benchmarks sind inzwischen gesättigt. Mehrere Modelle liegen im niedrigen einstelligen Bereich, die Unterschiede sind kaum noch interpretierbar. Eine bessere Benchmark-Zahl heißt also nicht automatisch, dass das Modell in jedem Fall besser ist. Es heißt vielleicht nur, dass es auf dem einen Testdatensatz besser performt. 

Und dann müssen wir das Ganze auch noch auf Deutsch hinbekommen…

Ein zweites Problem: Die ganze Mess- und Trainingslandschaft ist englisch-zentriert. Whispers Trainingsdaten bestehen zu etwa zwei Dritteln aus Englisch. Von den 99 unterstützten Sprachen sind 20 mit gar keinen Trainingsdaten hinterlegt und gelten offiziell als experimentell.

Jetzt die gute Nachricht für uns: Deutsch ist kein Extremfall. Es zählt zu den gut versorgten Sprachen und liegt bei sauberem Audio nah an der englischen Parität. Die schlechte Nachricht: „Nah an Englisch" heißt eben nicht „genauso gut wie die Benchmark verspricht". Deutsch bringt eigene Stolpersteine mit: Komposita, die das Vokabular praktisch unendlich machen (jedes Mal ein neues Wort, das das Modell so noch nie gesehen hat), eine riesige Menge an Flexionsformen und Varietäten, bei denen aus „das" mal eben „des" wird. 

Selbst wenn man einen deutschsprachigen Testdatensatz hat. Und selbst wenn dieser nicht nur bereinigte, professionellen Daten besteht, ist es kaum möglich, der riesigen Vielfalt gesprochener Sprache ansatzweise gerecht zu werden. Je weniger eine sprachliche Varietät vertreten ist, in Training und Testing, desto schlechter wird sie am Ende verstanden.

Die WER ist als Top-Benchmark eigentlich nicht die richtige für Voicebots

Die Word Error Rate (WER) gewichtet jedes Wort gleich. Ein verschlucktes „die" kostet genauso viel wie ein verschlucktes „nicht". Für eine Vorlese-Transkription, die ein Mensch liest, mag das egal sein. Für einen Voicebot ist es der Unterschied zwischen einer korrekten und einer komplett gedrehten Aussage.

Und es gibt einen entscheidenden Punkt, der gern untergeht: Das LLM, das deinen Voicebot steuert, hört das Audio nie. Es sieht nur das Transkript. Ein Fehler in der ersten Äußerung wandert ungefiltert in den Kontext, prägt die nächste Antwort, und die übernächste. Was die STT verschluckt oder rät, kann das Modell danach nicht verlässlich reparieren. Deshalb ist für Voicebots oft die Frage „werden die wichtigen Wörter richtig erkannt? Also Namen, Zahlen, Kundennummern, E-Mail-Adressen?" relevanter als die durchschnittliche WER über das ganze Transkript.

Also haben wir uns was gebaut

Weil „lies das Datenblatt und vertrau den Zahlen" eben nicht reicht, haben wir uns intern ein Tool gebaut, mit dem wir verschiedene STT-Anbieter parallel auf dasselbe Audio loslassen können! Die großen öffentlichen Dienste wie ElevenLabs oder Deepgram genauso wie selbst gehostete Modelle wie Parakeet oder Qwen. Man kann direkt einsprechen, oder spielt ein Audio ein und sieht die Transkripte nebeneinander in Echtzeit entstehen. Direkt, nebeneinander, ohne Zwischenschritt.

Was klein klingt, ist überraschend wirksam: Man bekommt sofort ein Gefühl dafür, welches Modell bei unseren Audios, mit unseren Eigenheiten, mit echtem deutschen Konversations-Chaos tatsächlich liefert. Und das Ganze hat noch einen weiteren positiven Nebeneffekt: Das finale Ergebnis eines Transkripts entsteht nicht komplett linear. Es wird mit hilfe des Kontextes immer wieder korrigiert, angepasst, verbessert. So kann man den Modellen quasi auch beim Denken zuschauen!

Mein Kollege Michael hat das Ganze in einem kurzen Video festgehalten. 

Ausprobieren ersetzt keine Evals, aber es ergänzt sie

Natürlich ist auch dieser Ansatz nicht die finale Antwort auf die Frage nach der perfekten STT-Qualitätsbewertung. Audios nebeneinander zu hören ist kein systematisches Eval. Es ersetzt keine sauber aufgesetzte, quantitative Auswertung mit repräsentativen Daten, definierten Metriken und reproduzierbarem Setup. Ein anekdotischer Eindruck, zumal wenn nur auf wenigen Audios getestet, sollte nicht die alleinige Entscheidungsgrundlage für das verwendete Model sein.

Aber die Kombination beider Ansätze ist wirklich wertvoll. Die quantitative Evaluation gibt die belastbaren Zahlen. Der qualitative, unmittelbare Eindruck gibt das, was Zahlen oft verstecken: das eine Modell, das bei Eigennamen ständig danebenliegt, die Engine, die bei Dialekt einbricht, das Transkript, das auf dem Papier okay aussieht, aber sich falsch anfühlt. Beides zusammen liefert einen deutlich besseren Eindruck davon, wie gut der Voicebot am Ende wirklich zuhören und vor allem verstehen kann.

Abschließend gibt's noch ein ergänzendes Video mit unserem Kollegen Michael Rotmanov, Tech Lead bei flow

Dieser Blogartikel ist Teil einer Reihe von Artikeln, die im Kontext unseres AI-Festivals entstanden sind. Das sipgate AI-Festival findet seit 2026 viermal im Jahr statt, einmal pro Quartal, und dauert jeweils eine komplette Woche. Neben Workshops, Vorträgen und Diskussionsrunden mit externen Gästen gibt es dedizierte Zeiten für Teams und Fachbereiche sowie einen gemeinsamen strategischen Ausblick auf kommende Unternehmungen. Das Festival richtet sich noch ausschließlich an alle Mitarbeitenden bei sipgate. Weitere Artikel zum Festival findest du hier im Blog.

Habt Ihr Feedback zu diesem Artikel?
Dann schreibt uns gerne direkt an blog@sipgate.de – oder teilt den Artikel auf den Social Media Kanälen und diskutiert dort weiter. Wir freuen uns auf eure Gedanken!
Link-Icon diagonal für Verknüpfung
Share Icon
Share Icon
Share Icon
Share Icon
Share Icon
sipgate Nachricht-Icon in Neoblack

Der sipgate Content-Newsletter.
Kurz. Klar. Monatlich.

Was AI kann, wo sie verändert und was das bedeutet.
Super, das hat geklappt!
Schade, das hat leider nicht geklappt.