Natürliche Stimmen aus dem Rechner
Die AT&T-Labs haben angekündigt, mit der Vermarktung einer Text-to-Speech-Software zu beginnen, die erstmals wirklich "menschliche" und "natürliche" Sprache produzieren kann.
"Natural Voice" soll angeblich perfekt die menschliche Aussprache, Intonation und Betonung beherrschen und nach Stimmproben auch jede echte Stimme imitieren können.
AT&T schwärmt daher von Anwendungen, bei denen beispielsweise verstorbene Hollywood-Stars wieder zum "Sprechen" gebracht werden können.
Derzeit empfindet die Hälfte der Österreicher Computer-generierte Stimmen am Telefon als störend:
Geteilte Sympathie für synthetische StimmenErstmals im Graubereich
AT&T hat die Software auch in einer Testversion online gestellt, die allerdings nicht sonderlich überzeugt.
"Ohrenzeugen" der Vollversion berichten dagegen, dass das Ergebnis zumindestens "erstmals in dem Graubereich liegt", in dem man sich nicht mehr sicher ist, ob hier ein Mensch oder ein Rechner spricht.
"Natural Voice" wird zunächst für einen Preis von "mehreren tausend USD" ausschließlich an Unternehmen verkauft werden. AT&T hat dabei vor allem Call-Center und Firmen, die kommerzielle Text-to-Speech-Dienste anbieten [E-Mails am Handy vorlesen etc.], im Visier.
Für die Imitation einer bestimmten Stimme brauchen die AT&T-Techniker zwischen zehn und 40 Stunden Aufzeichnungen, die aufwendig analysiert werden müssen.
"Natural Voice"Rennen ist eröffnet
Auch wenn die Skeptiker Recht behalten und "Natural Voice" sich zunächst als Marketing-Bluff entpuppen sollte, ist auf jeden Fall das Rennen um die erste perfekte Stimmsynthese eröffnet.
IBM und Lernout & Hauspie arbeiten derzeit ebenfalls an dem Projekt, auch wenn hier noch eingeräumt wird, dass es einige Probleme zu lösen gibt, bevor Rechner wirklich das Sprechen gelernt haben.
Und - wie könnte es anders sein - die Analysten von McKinsey haben auch schon einen milliardenschweren Markt für die Text-to-Speech-Anwendungen prognostiziert: Neben Call-Centern wird hier auch von Anwendungen wie Naviagtionssystemen, Hörbüchern und Videospielen ausgegangen.
Das "Jet Propulsion Lab" der NASA arbeitet bereits an einem "Gegenstück" zur Text-to-Speech-Technologie: ein Digital-Human-Image-Animation-Computer, der die kleinsten Einheiten der Sprache in Gesichtsbewegungen übersetzt. Das sprachgesteuerte Computersystem namens "Digital Personnel" liefert eine fotorealistische Animation einer Person während des Sprechens.
Sprach-Computer generiert GesichtsbewegungHollywood wartet
Das Rennen um die wirklich menschliche Stimme aus dem Rechner dürfte mittelfristig auf jeden Fall eine Lücke in der digitalen Imitation menschlichen Ausdrucks schließen.
Damit wäre auch der Weg für Filme geebnet, die wirklich komplett aus dem Computer kommen. Die aktuellen Streifen, deren Bilder vollständig generiert wurden, werden nämlich noch immer mit den Stimmen echter Schauspieler vertont, sogar der erste "lebensechte" Film aus dem Rechner ["Final Fantasy"].
Erster "lebensechter" Film aus dem Rechner
