In maximal zwei Jahren versteht dein Smartphone jedes deiner Wörter

Sowohl Google als auch andere Unternehmen arbeiten an Spracherkennungssystemen, die wesentlich leistungsfähiger sind als die digitalen Assistenten à la Google Now, die wir heute bereits kennen. Und lange müssen wir voraussichtlich nicht mehr auf verständnisvollere virtuelle Gesprächspartner warten.

Auch interessant: Samsung im Gespräch mit Nuance, einem Unternehmen das an Siri beteiligt ist

Dr. Andrew Ng hat mit seinen Kollegen bei Baidu Research ein Spracherkennungssystem namens Deep Speech entwickelt, das Sprache auch in Situationen verstehen kann, in denen viele Hintergrundgeräusche vorhanden sind. (Foto: Baidu Research)

Sprachgesteuerte Assistenten wie Google Now, Siri und Cortana sind bereits zu erstaunlichen Leistungen fähig, sind aber noch nicht in der Lage, komplexere Unterhaltungen zu verstehen. Das soll sich jedoch schon sehr bald ändern:

Durchbrüche sowohl bei der Spracherkennung als auch bei künstlicher Intelligenz werden dazu führen, dass Smartphones und andere Geräte die gesprochenen Befehle ihrer Benutzer sehr viel besser verstehen werden als heute noch – einschließlich der Nuancen und der Kontexte. Derartige Systeme werden bereits in ein oder zwei Jahren für die Endanwender verfügbar sein, so Johan Schalkwyk, ein Wissenschaftler, der bei Google als Leiter der Abteilung arbeitet, die sich mit Spracherkennung und Spracherzeugung beschäftigt.

Seit etwa einem halben Jahr verwenden die Wissenschaftler bei Google zum Analysieren von Sprache nicht mehr neuronale Netze des Typs „Feedforward“, sondern rekurrente neuronale Netze, die es ermöglichen, mehr Informationen zu speichern sowie längere und komplexere Sätze zu verarbeiten.

Spracherkennung trotz Umgebungsgeräuschen

Auch der Google-Konkurrent Baidu (der größte chinesische Suchmaschinenbetreiber) kann von Erfolgen auf diesem Gebiet berichten: Sein Zweig Baidu Research hat vor einigen Tagen ein neues Spracherkennungssystem namens „Deep Speech“ vorgestellt. Zum Einsatz kommt hier ebenfalls ein rekurrentes neuronales Netz. Die Besonderheit von Deep Speech besteht darin, dass das System imstande ist, Sprache auch in Situationen zu verstehen, in denen viele Hintergrundgeräusche vorhanden sind.

Dr. Andrew Ng, der leitende Wissenschaftler bei Baidu Research, prophezeit: „In fünf Jahren werden voraussichtlich 50 Prozent der Suchanfragen über Spracheingaben oder über Fotos ablaufen.“

Quellen: Baidu Research, Google, VentureBeat, Bloomberg