Urs ist Hauswart in einem Mehrfamilienhaus in Schlieren. Er ruft an, weil im Keller Wasser steht. Und er spricht Zürichdeutsch. Nicht Hochdeutsch. Nicht Englisch. Zürichdeutsch — mit allen Eigenheiten, die das mit sich bringt.
Genau hier scheitern die meisten KI-Telefonassistenten, die nicht für den Schweizer Markt gebaut wurden.
Spracherkennung für Schweizerdeutsch ist eines der technisch anspruchsvollsten Probleme im Bereich der Sprachverarbeitung. Dieser Artikel erklärt, warum — und wie moderne Systeme damit umgehen.
Warum Schweizerdeutsch für KI so schwierig ist
Hochdeutsch ist für Spracherkennungssysteme gut erschlossen. Jahrzehntelange Trainingsdaten, standardisierte Aussprache, klare Phonetik. Schweizerdeutsch ist das Gegenteil davon.
Zunächst: Es gibt kein einheitliches Schweizerdeutsch. Das Berndeutsch von Urs' Kollegen in Bern klingt für einen Basler wie eine Fremdsprache. Walliserdeutsch, Zürichdeutsch, Appenzellerdeutsch — jeder Dialekt folgt eigenen phonetischen Regeln, eigenen Vokalisierungen, eigener Intonation.
Hinzu kommt der Code-Switching-Effekt. Schweizer Mietende wechseln mitten im Satz zwischen Dialekt und Hochdeutsch. «Ich ha e Problem mit em Heizung — die funktioniert einfach nicht mehr.» Für ein Spracherkennungssystem ist das eine erhebliche Herausforderung, weil es zwei verschiedene Sprachmodelle gleichzeitig abgleichen muss.
Gemäss dem Bundesamt für Statistik sprechen rund 63% der Schweizer Bevölkerung Schweizerdeutsch als Hauptsprache. Ein KI-Telefonassistent, der das nicht versteht, ist für den Schweizer Markt schlicht nicht einsatzbereit.
Was ASR bedeutet — und warum es der Kern des Problems ist
ASR steht für Automatic Speech Recognition. Es ist die Technologie, die gesprochene Sprache in Text umwandelt — die Grundlage jedes Telefonassistenten.
Klassische ASR-Systeme funktionieren in zwei Schritten: Zuerst wird das akustische Signal analysiert (wie klingt es?), dann wird es mit einem Sprachmodell abgeglichen (was bedeutet es wahrscheinlich?). Beide Schritte sind für Schweizerdeutsch problematisch.
Das akustische Modell muss auf Dialektdaten trainiert sein. Fehlen diese Daten, erkennt das System Wörter falsch oder gar nicht. «Chuchichäschtli» ist ein bekanntes Beispiel — aber in der Praxis geht es um Wörter wie «Liegenschaft», «Estrich», «Heizöltank» oder «Nebenkosten», die Mietende auf Zürichdeutsch aussprechen. Wer Schadensmeldungen per Telefon zuverlässig erfassen will, braucht ein System, das diese Begriffe auch dann versteht, wenn sie nicht in Schulbuchdeutsch ausgesprochen werden.
Das Sprachmodell muss zusätzlich Kontext berücksichtigen. «Wasser im Chäller» und «Wasser im Keller» meinen dasselbe. Ein gutes System erkennt beide Varianten.
Wie moderne Dialekt-Erkennung funktioniert
Die fortschrittlichsten Ansätze nutzen heute sogenannte End-to-End-Modelle — neuronale Netze, die akustische Signale direkt in Text übersetzen, ohne den Zwischenschritt eines klassischen Sprachmodells. Das erlaubt eine deutlich flexiblere Handhabung von Dialektvarianten.
Konkret: Solche Systeme werden auf grossen Mengen authentischer Schweizerdeutsch-Aufnahmen trainiert. Nicht auf synthetisch erzeugten Daten, sondern auf echten Telefonaten, Radiobeiträgen, Alltagsgesprächen. Wie das Schweizer Bundesarchiv und verschiedene universitäre Projekte zeigen, ist die Verfügbarkeit solcher Trainingsdaten in der Schweiz in den letzten Jahren deutlich gewachsen.
Drei Mechanismen machen moderne Dialekt-Erkennung robuster:
Kontextuelle Eingrenzung. Ein Telefonassistent für Hausverwaltungen weiss, worüber Anrufende sprechen werden: Schäden, Schlüssel, Nebenkosten, Notfälle. Dieses Domänenwissen erlaubt es dem System, bei unklarer Aussprache die wahrscheinlichste Bedeutung zu wählen. «Ich ha kei Strom» wird korrekt als Stromausfall-Meldung interpretiert, auch wenn das akustische Signal nicht perfekt ist.
Mehrsprachige Modelle. Neuere Systeme wie Whisper von OpenAI oder spezialisierte Schweizer Varianten davon wurden auf Daten aus dutzenden Sprachen trainiert. Das verbessert paradoxerweise auch die Dialekterkennung, weil das Modell phonetische Muster besser generalisieren kann.
Konfidenz-Schwellenwerte. Das System weiss, wann es sich unsicher ist. Liegt die Erkennungssicherheit unter einem definierten Schwellenwert, greift eine Fallback-Strategie — dazu gleich mehr.
Die Grenzen der Dialekt-Erkennung
Ehrlichkeit ist hier angebracht: Kein System erkennt Schweizerdeutsch mit der gleichen Präzision wie Hochdeutsch. Stark ausgeprägte Dialekte — tiefes Walliserdeutsch, bestimmte Appenzeller Mundarten — bleiben schwierig. Wer eine Hausverwaltung mit Liegenschaften ausschliesslich in abgelegenen Bergtälern betreibt, sollte das in seine Evaluation einbeziehen.
Fallback-Strategien: Was passiert, wenn das System nicht versteht
Auch das beste ASR-System wird gelegentlich scheitern. Was dann zählt, ist die Fallback-Strategie — der Mechanismus, der sicherstellt, dass kein Anruf verloren geht.
Professionelle Systeme kennen mehrere Eskalationsstufen:
Stufe 1 — Nachfrage. Das System bittet höflich um Wiederholung oder Klärung. «Haben Sie gesagt, das Wasser kommt aus der Decke? Können Sie das bestätigen?» Das funktioniert gut bei einmaliger Unklarheit.
Stufe 2 — Vereinfachung. Bei anhaltender Unsicherheit wechselt das System zu strukturierten Fragen mit einfachen Antworten. «Drücken Sie 1 für Wasserschaden, 2 für Heizungsausfall, 3 für etwas anderes.» Kein eleganter Ansatz, aber zuverlässig.
Stufe 3 — Eskalation. Wenn das System den Anruf nicht sinnvoll verarbeiten kann, leitet es weiter. An einen Hauswart, an einen Pikettdienst, oder es nimmt eine Rückrufanfrage auf. Kein Anruf endet mit einem Nicht-Ergebnis.
Für Notfälle gilt eine separate Logik: Schlüsselbegriffe wie «Brand», «Feuer», «Überschwemmung» oder «Unfall» lösen sofortige Weiterleitung aus — unabhängig davon, wie gut der Rest des Anrufs verstanden wurde. Wie ein funktionierendes Triage-System für Notfall-Anrufe aufgebaut ist, hängt dabei stark vom Betriebsmodell der Verwaltung ab.
Was das für Hausverwaltungen in der Praxis bedeutet
Zurück zu Urs. Er ruft an, sagt «Im Chäller steit Wasser», und das System versteht ihn. Wie?
Erstens, weil das akustische Modell auf Zürichdeutsch trainiert ist. Zweitens, weil der Kontext «Hausverwaltung» das Sprachmodell auf relevante Begriffe fokussiert. Drittens, weil «Chäller» und «Keller» im Modell als phonetische Varianten desselben Konzepts hinterlegt sind.
Das Ergebnis: Der Anruf wird als Wasserschaden-Meldung kategorisiert, mit Priorität versehen, und die zuständige Bewirtschafterin erhält eine strukturierte Zusammenfassung — auch wenn sie gerade in einem Kundengespräch ist. Die Automatisierung von Mieteranrufen funktioniert nur dann zuverlässig, wenn die Spracherkennung die Realität des Schweizer Alltags abbildet.
Für Hausverwaltungen in Zürich, Bern, Basel oder Luzern ist das keine akademische Frage. Es ist eine operative. Wer Liegenschaften in der Deutschschweiz bewirtschaftet, braucht einen Telefonassistenten, der Schweizerdeutsch nicht als Ausnahme behandelt, sondern als Standard.
Der SVIT Schweiz betont in seinen Empfehlungen zur Digitalisierung der Bewirtschaftung, dass technische Lösungen auf die sprachliche und kulturelle Realität des Schweizer Marktes ausgerichtet sein müssen. Ein System, das bei Dialekt versagt, erfüllt diese Anforderung nicht.
Fazit: Spracherkennung ist keine Nebensache
Telefonassistenten werden oft nach Funktionen bewertet: Kann er Schadensmeldungen aufnehmen? Kann er Notfälle weiterleiten? Kann er Nebenkosten erklären? All das ist relevant. Aber die Grundlage für all diese Funktionen ist die Spracherkennung.
Ein System, das Hochdeutsch versteht, aber bei Zürichdeutsch abbricht, ist für den Schweizer Markt halbfertig. Die technische Komplexität hinter Dialekt-Erkennung ist real — aber sie ist lösbar. Die entscheidende Frage bei der Evaluation eines KI-Telefonassistenten lautet deshalb nicht nur «Was kann er?», sondern «Wen versteht er?»Atreo löst genau dieses Problem. Testen Sie es kostenlos unter atreo.ch.