X
    Categories: Technik

Wie funktioniert Spracherkennung?

In den 1990er Jahren kamen erstmals Spracherkennungsprogramme auf den Markt. Erst als revolutionär gepriesen, haftete ihnen bald der Ruf der Ungenauigkeit und miserablen Erkennung von Wörtern an. Die Wende kam mit Dragon NaturallySpeaking von Nuance. Ursprünglich für Behinderte konzipiert, wird das Spracherkennungsprogramm heute auch als einfache und schnelle Arbeitserleichterung für jedermann verwendet.

Spracherkennungsprogramme erkennen Wortgruppen und Wortzusammenhänge

Doch warum war Dragon plötzlich so viel besser? Die Lösung war einfach und genial: Da viele Wörter sich in der Aussprache nahezu gleichen, zum Beispiel „das“ und „dass“, „Hase“ und „hasse“ „geben“ und „gäben“ und viele mehr, wurde Dragon NaturallySpeaking nicht mehr nur darauf programmiert, einzelne Worte zu erkennen, sondern auch Zusammenhänge zwischen Wörtern. Grammatikalisch kann in der Regel nur eines der phonetisch sehr ähnlichen Wörter in Frage kommen. „Der Hase frisst Gras“ macht Sinn, „der hasse frisst Gras“ nicht. Diese bahnbrechende Umstellung machte das Spracherkennungsprogramm Dragon NaturallySpeaking salonreif.

Sprachspeicher bei Spracherkennung kennt nur reines Hochdeutsch

Doch zunächst muss das Spracherkennungsprogramm oder umgangssprachlich Sprachprogramm die Grammatik kennen. Hier liegt eine Schwierigkeit, denn nicht jeder drückt sich grammatikalisch richtig aus. In den Speicher sind vom Hersteller als Basis einige Ausgaben der Süddeutschen Zeitung eingespeist. Diesen gehobenen Sprachstil erkennt Dragon NaturallySpeaking 11 also sehr leicht. Eine für uns Menschen viel einfachere Sprache zu erkennen, wie zum Beispiel Kindersprache, Umgangssprache, Mundart dagegen bringt das Programm an seine Grenzen. Denn in einem grammatikalisch unkorrekten Text mit in der Süddeutschen kaum vorkommenden, sehr einfachen Wörtern, erkennt das Spracherkennungsprogramm keine ihm bekannten Wortgruppen.

Viele User nehmen zum Test des Programms einen sehr einfachen Text oder gar grammatikalisch völlig falschen Liedtext, in der Meinung, wenn das Programm „nicht einmal“ das schafft, dann erst recht keinen komplizierten Text. Das genaue Gegenteil ist der Fall, denn eine Computer-Software funktioniert anders als ein menschliches Gehirn. Ebenso tut sich das Programm schwer mit Gossensprache oder bundeslandtypischer Grammatik, zum Beispiel die doppelte Verneinung im Bayrischen. Doch auch hierfür hat Nuance eine Lösung: Man kann bereits bestehende Texte in das Programm einspeisen, so dass es auch individuell typische Wortgruppen erkennt. „Hey, Alter, fegen oder was?“ würde das Programm untrainiert nicht erkennen. Ist diese Wortgruppe jedoch einmal gespeichert, erkennt Dragon es in Zukunft. Während der Arbeit speichert Dragon ebenfalls ständig mit. Falsch erkannte Wörter kann man – ebenfalls per Sprachbefehl – korrigieren und dem Speicher zufügen. Auf diese Art wird das Programm immer besser und besser.

Training der Stimmerkennung mit Dragon NaturallySpeaking 11

Der zweite wichtige Punkt ist die Stimmerkennung. Jeder Mensch spricht anders. Der eine nuschelt etwas, der andere spricht abgehackt, der Dritte hat einen starken Dialekt und so weiter. Einer hat eine sehr hohe Stimmlage, der nächste einen tiefen Bass. Daher muss der User zu Anfang einen kurzen Text vorlesen, den Dragon NaturallySpeaking Wort für Wort mit dem Urtext vergleicht. So lernt das Programm die besondere Aussprache und Stimmlage des Einzelnen und erkennt sie im freien Text wieder. Wird beim Diktieren ein Wort einmal nicht verstanden, hat man die Möglichkeit, es explizit nochmals zur Speicherung im Sprachspeicher vorzulesen.

Dragon NaturallySpeaking 11 – Neuerungen, Systemvoraussetzungen

Die aktuelle Version Dragon NaturallySpeaking 11 läuft mit allen bekannten Betriebssystemen, außer dem Patientenverwaltungssystem EMR. Dafür gibt es die Spezialversion Dragon NaturallySpeaking Medical.

Es existieren die Ausgaben Basic (nicht auf der Homepage von Nuance verzeichnet), Home und Premium, für Letzteres die Sonderausgaben Wireless, Student/Teacher, Upgrade, Mobile und Dictate (für Mac). Basic gibt es im Internet bei Billiganbietern bereits ab 29.- Euro, die aufwändigeren Programme sind entsprechend teurer, bis hin zu 299 Euro (Mobile und Wireless). Als ganz entscheidende Neuerung läuft Dragon NaturallySpeaking 11 im Gegensatz zu seinen Vorgängern jetzt nicht nur auf 32bit, sondern auch auf 64bit, sowie auf Windows 7. Der Arbeitsspeicher sollte für XP und Vista mindestens 1 GB aufweisen, empfohlen werden zwei. Für Windows 7 sind 2 GB Mindestvoraussetzung, empfohlen werden vier. Ein geräuschunterdrückendes Headset wird mitgeliefert.