«Hey Siri! Wo chönti go ässe?» – «Du hast drei Termine.» 

Hä? Nicht, was ich hören wollte. Noch ein Versuch. «Hey Siri! Wo chönti go ässe?» – «Das habe ich online zu Arthur gefunden.»

Ich gebe auf. Apples Siri versteht mein Schweizerdeutsch nicht. Oder nur selten. Das Gleiche gilt für andere Sprachassistentinnen von Amazon, Microsoft oder Google. 

Mit unserem Smartphone tragen wir zwar alle einen Sprachassistenten herum. Per Sprachbefehl steuerbare Lautsprecher und Smarthome-Installationen erfreuen sich hierzulande wachsender Beliebtheit. Die Grosskonzerne haben bisher aber keine Maschinen geliefert, die Mundart verstehen. Dabei erfüllen die Geräte ihren Zweck – nämlich unser Leben noch viel bequemer zu machen – erst dann so richtig, wenn wir auf möglichst natürliche Art und Weise mit ihnen kommunizieren können. Also uf Schwiizerdütsch.

«Google und die anderen grossen Player unterschätzen vielleicht unsere Sturheit. Die gehen einfach davon aus, dass wir irgendwann doch Hochdeutsch reden, weil wir die Technologie verwenden wollen», sagt Stephan Fehlmann von der Zürcher Firma Spitch, die Sprach- und Stimmerkennungstechnologie entwickelt. «Schweizerdeutsch ist in der Schweiz sehr wichtig. Viele Menschen sind konservativ – sie wollen nicht ohne guten Grund mit einer Maschine reden. Erst recht nicht, wenn sie gezwungen werden Hochdeutsch zu sprechen.»

Obwohl Schweizer Konsumentinnen und Konsumenten kaufkräftig sind, ist der Markt zu klein. Das grosse Geld machen die Konzerne mit ihren Geräten und Zusatzapplikationen dort, wo viele Leute dieselbe Sprache sprechen und sie mit wenig Entwicklungsaufwand zu vielen Käufern und Daten gelangen. Das nutzen lokale Start-ups aus. 

Fehlende Schriftsprache

Spracherkennung basiert auf künstlicher Intelligenz . Mit maschinellem Lernen kann das System in gesprochener Sprache Muster erkennen und die Sprache als Text wiedergeben. «Einem Computer Schweizerdeutsch beizubringen, ist aber eine Knacknuss», sagt David Imseng, Gründer und Geschäftsführer der Walliser Spracherkennungsfirma Recapp. Um zu lernen, brauche das System nämlich eine grosse Menge an Audiodateien. Schweizerdeutsch wird nicht von vielen Menschen gesprochen, entsprechend klein ist das Datenvolumen, wenn man es etwa mit dem Englischen vergleicht.

Hinzu komme, dass das System den gleichen Text sowohl gesprochen wie auch verschriftlicht benötigt. Eine standardisierte schweizerdeutsche Schriftsprache existiert aber gar nicht. «Bei Mundart kommen diese zwei Schwierigkeiten zusammen, und deshalb lässt sich nicht einfach auf bestehenden Grundalgorithmen für Spracherkennung aufbauen», erklärt Imseng.

Aus wissenschaftlicher Neugier baute der Walliser 2013 ein System, das seinen eigenen Dialekt erkennt. Bereits 2017 brachte sein Start-up der Swisscom-TV-Box schweizerdeutsche Befehle bei. 

Zeitersparnis beim Protokollieren

Seine ältesten Kunden sind aber Kantonsparlamente. «Wir suchten nach Anwendungsmöglichkeiten, und das Protokollieren von Parlamentssitzungen passte perfekt. Dort wird sehr strukturiert gesprochen und wegen der Mikrofone ist die Audioqualität gut», erzählt Imseng. Die schweizerdeutsche oder mehrsprachige Politdebatte wird aufgezeichnet und die Software spuckt danach ein transkribiertes Wortprotokoll auf Hochdeutsch aus. Mitarbeitende der Parlamentsdienste müssen nur noch die Fehler im Text korrigieren, statt jeden Satz abzutippen. Gleichzeitig wird die Software immer besser, weil sie aus diesen Korrekturen lernt. Um bis zu 50 Prozent habe sich der Aufwand für die Erstellung des Ratsprotokolls verringert, sagte Claude Bumann, Chef des Walliser Parlamentsdiensts. Neben dem Wallis wird die Spracherkennung auch Im Aargau, in St. Gallen und in Schaffhausen schon so eingesetzt. 

Kooperationen helfen Imseng seinen Spracherkenner zu trainieren. Zum Beispiel mit Inhalten aus dem Archiv von SRF, in dem ein enormes Volumen an schweizerdeutschen Audiodateien schlummert. Damit wird das Spracherkennungssystem gefüttert und verbessert. Im Gegenzug setzt SRF künftig die Software von Recapp ein: Journalisten sollen Rohmaterial schneller bearbeiten können. Zudem werden weite Teile des Archivs transkribiert und damit besser nach Stichworten durchsuchbar gemacht. 

Freiburger, Walliserinnen und Bündner versteht die Maschine am schlechtesten, erzählt David Imseng. «In Randregionen mit Sprachgrenzen gibt es eine gewisse Isolation des Dialekts. Er vermischt sich nicht so stark mit anderen und ist deshalb ausgeprägter.» Auch ob jemand nuschelt, spielt eine Rolle, sowie das Alter. «Meine Schwiegermutter braucht Wörter, die ich nicht in meinem Vokabular habe und die das System vielleicht nicht erkennt.» Am Ende sei es aber immer eine Frage der Datenmenge. 

Golf: Auto oder Sportart?

Für die unterschiedlichen Anwendungen werden verschiedene Systeme spezialisiert. So hat Recapp zum Beispiel eines mit Politjargon, eines mit Bankfachwörtern oder auch eines mit Medizinslang. Die Firma Spitch, die auch ein eigenes Dialekterkennungssystem entwickelt hat, arbeitet ebenfalls so. «Generische Lösungen, die eine grosse Bandbreite an möglichen Themenfeldern abdecken müssen, können nämlich zu Fehlinterpretationen führen», sagt Stephan Fehlmann von Spitch. «Wenn ich beispielsweise ein Auto anschaue und von ‹Golf› rede, ist im Kontext klar, dass es um ein Automodell geht. Für das System aber nicht – es macht vielleicht stattdessen die Verbindung zur Sportart.»

Bei ihren Businesslösungen erlauben Spitch und Recapp dem System deshalb nicht, ausserhalb der spezifischen Domäne nach Verbindungen und Wörtern zu suchen. So wird es effizienter und präziser. 

Dass ein allgemeines Spracherkennungssystem eher schnell an Grenzen stösst, hielt David Imseng lange davon ab, sein jüngstes Produkt zu lancieren: ein Online-Transkriptions-Tool namens Töggl, das mündliche schweizerdeutsche Gespräche ins Schriftliche übersetzt. Es ist nicht für spezifische Situationen programmiert ist, sondern für alle offen. Man lädt Audiodateien hoch, und für ein paar Franken kümmert sich die Software um den Rest. «Ich war zu Beginn recht skeptisch, weil die Spracherkennung dafür in allen möglichen Bereichen funktionieren muss. Wir bekamen aber immer mehr Anfragen und entschieden uns dann doch dafür», sagt Imseng.

Die beiden Firmen Recapp und Spitch sind zwar grundsätzlich Konkurrenten auf dem Schweizer Markt, arbeiten aber dennoch oft zusammen, weil mächtige ausländische Player am Ende die viel grössere Konkurrenz sind. Zusammen haben sie zum Beispiel einen schweizerdeutschen Transkriptionsstandard erarbeitet.

Starkes Wachstum

Gegenüber der internationalen Konkurrenz grenzen sie sich zudem in einem wesentlichen Punkt ab: dem Datenschutz. Sie installieren ihre Software in der Regel direkt bei den Kunden.

«Banken könnten aus Compliance-Gründen nie eine Spracherkennungslösung verwenden, die Daten in einer Cloud speichert. Da ergibt sich für uns gegenüber Google, Apple und Co. eine Nische», sagt Fehlmann. Spitch legt den Fokus im Gegensatz zu Recapp eher auf Kundenservice und automatisiert Interaktionen wie etwa Fragen zu Öffnungszeiten oder Kreditkartensperrungen. So kann man dank der Spitch-Software zum Beispiel auf Schweizerdeutsch mit der App der St. Galler Kantonalbank kommunizieren oder bei Postfinance persönliche Dokumente über ein Gespräch mit einem Bot bestellen. 

Waren solche Anwendungen der schweizerdeutschen Spracherkennung früher eher exotisch, ist der Service heute sehr gefragt. Spätestens vor zwei Jahren habe sich das Blatt gewendet, seither stelle man ein starkes Wachstum fest, sagt Fehlmann. 

Geduldige und präzise Redner

Immer mehr Maschinen in unserem Alltag verstehen also Mundart, sprechen sie aber nicht. Mit diesem Thema beschäftigt sich Severin Klingler, Leiter des ETH Media Technology Center. Seit zwei Jahren forscht er an der sogenannten Sprachsynthese, der künstlichen Erzeugung einer menschlichen Sprechstimme. Er und sein Team haben Maschinen schon acht verschiedene Dialekte aus den Kantonen St. Gallen, Bern, Graubünden, Wallis, Aargau, Basel, Zürich und Luzern beigebracht. «Aus IT-Sicht ist das Projekt unglaublich spannend. Nicht zuletzt wegen der fehlenden standardisierten Schriftsprache. Wie modelliert man das und was für Daten braucht man dafür?»

Um Schweizerdeutsch zu verstehen und Schweizerdeutsch zu sprechen, müssen die Computer aber ganz unterschiedliche Dinge lernen. Wenn die Software Gesprochenes aufnimmt, muss sie auch undeutliche oder von Geräuschen gestörte Sätze erkennen. Wenn sie hingegen etwas von sich gibt, also selber spricht, muss das Ergebnis möglichst klar und rein sein. 

Das Ausgangsmaterial für die Sprachsynthese ist ein schriftdeutscher Text, der zuerst in Schweizerdeutsch umgewandelt und dann gesprochen wird. Für diese Schritte braucht es vor allem geduldige Menschen, die viele Wörter und Sätze sehr präzise übersetzen und aufsagen. «Wir haben Leute eingestellt, die rund 3000 Sätze für einen Dialekt einsprechen. Für Bündnerdeutsch versuchen wir, sogar 10’000 Sätze hinzukriegen», führt Klingler aus. «An diesem Beispiel testen wir, welchen Einfluss eine grössere Datenmenge auf die Qualität der Sprachausgabe hat.»

Was als Audiomaterial aufgenommen wird, übernimmt der Computer eins zu eins. Er betrachtet jedes Geräusch als Teil der Sprache, auch ein Lachen. Deshalb brauchen die Forscher sehr saubere Daten. Studioqualität, ein gutes Mikro, keine Hintergrundgeräusche. Sprecherinnen und Sprecher sollen während dem Vorlesen möglichst nicht schlucken oder hörbar atmen, sonst baut die Maschine das Atemgeräusch in ihr Vokabular ein, als wäre es ein Wort. 

Sprache lernen wie ein Kind

Der Charakter der Person, die den Dialekt eingesprochen hat, bleibt danach bestehen. Spricht sie schnell oder eher gemächlich, hat sie eine klare oder kratzige Stimme, ist sie männlich oder weiblich – all das bleibt auch in den künstlich generierten Sätzen so. 

«Manchmal ist es, wie wenn ein Kind eine Sprache lernt», sagt Klingler. Muss die Maschine plötzlich einen tschechischen Namen vorlesen oder einen Wikipedia-Artikel mit komplizierten Chemiebegriffen, weiss sie nicht, wie sie die fremden Wörter aussprechen soll. Dafür wird eine Spezialsoftware eingesetzt, damit zum Beispiel englische Wörter wie «knowhow» oder «Trump» nicht schweizerdeutsch vorgelesen werden. 

Zusammen mit der Technologie von Recapp testete die ETH den ganzen Bogen, also eine schweizerdeutsche Interaktion von A bis Z. «Wir wollten zeigen, dass es funktionieren kann und die Technologie für die Anwendung in der Schweiz bereit wäre.» So erkennt der Roboter Mycroft – der Prototyp eines schweizerdeutschen Sprachassistenten –  die Frage «Hey Mycroft, chasch du mir d Ziitig uf Schwiizerdütsch vorläse?», und antwortet prompt: «Sehr gern. Das sind d Nachrichte vo hüt. De Bund informiert über ...»

«Die besten Artikel – Woche für Woche»

Tina Berg, Redaktorin

Die besten Artikel – Woche für Woche

Der Beobachter Newsletter