Google DeepMind: Klingen Computerstimmen bald wie “richtige” Menschen?

Heiko Bauer 13. September 2016 0 Kommentar(e)

DeepMind, Googles englische Entwicklungsfirma für künstliche Intelligenz, hat ein System entwickelt, mit dem sich die natürliche Sprache deutlich besser nachahmen lässt als bisher.

Auch interessant: Rovio und Papagei bringen Englisch-Lern-App mit den Angry Birds

Wellenmuster einer Sprachsequenz von WaveNet (Bild: DeepMind)

WaveNet soll in der Lage sein, menschliche Sprache 50 Prozent besser nachzuahmen als Googles bisherige Systeme. Das ist das Ergebnis aus Blindtests.

Normalerweise arbeiten Verfahren zu Sprachsynthese entweder mit vorhandenen »echten« Sprachschnipseln oder mit computergenerierten Stimmen. Bei der ersten Methode klingt das Resultat recht natürlich, doch die Betonung hängt immer von der jeweiligen Aufnahme ab. Bei der zweiten Variante kennt der Computer Regeln für die Aussprache von Buchstabenkombinationen, die Sprache klingt aber undeutlich.

Nichts ist unmöglich

WaveNet kann die Vorteile beider Systeme vereinen. Dafür nutzt es ein Verfahren, das bisher vor allem in der Bildanalyse eingesetzt wurde und als für Audiosignale ungeeignet galt. Allerdings ist das neue System noch so komplex, dass es wohl etwas dauern wird, bis Google Now klingt wie ein humanes Wesen.

Quelle: Bloomberg Technology