16.12.2001

PALAVER

Bildquelle: APA

Woher Bin Ladens Stimme kommt

Die US-Regierung hat am Donnerstag ein Videoband veröffentlicht, auf dem sich der mutmaßliche Terrorist Osama bin Laden mit der Organisation der Anschläge vom 11. September zu brüsten scheint.

Nach der Auststrahlung ist allerdings vor allem in der arabischen Welt vielfach der Verdacht ausgesprochen worden, dass die Tonspur des Tapes von den USA manipuliert sein könnte.

Einige nahmhafte US-Wissenschaftler traten diesen Verdächtigungen jetzt wiederum entgegen. Demnach wäre ein Fake vor allem wegen der schlechten Qualität des Bandes zwar oberflächlich besehen möglich, wäre aber bei einer eingehenden Prüfung durch Experten schnell aufgeflogen.

Synchronisationsprobleme

Fälscher hätten theoretisch zwei Wege wählen können, um Bin Laden Worte "in den Mund" zu legen: entweder die Tonspur aus vorhandenen Aufnahmen zusammenzusetzen oder seine Stimme komplett im Rechner nachzubilden.

Die erste Methode dürfte aber bei eingehender Prüfung zwei Schwachstellen aufweisen: Zum einen wären trotz Einsatz von neuester Technologie an den Schnittstellen Kratzer oder Clicks nachzuweisen, meint etwa Chi-Lin Shih, der sich für Lucent Technologies mit Sprachmodulation beschäftigt.

Daneben soll allerdings auch die Synchronisation Verzerrungen einzelner Worte erfordern, die Muttersprachlern sofort auffallen würde, meint etwa Kenneth Stevens, Chef der Sprachforscher im Massachusetts Institute of Technology [MIT].

Nachbau

Die Stimme Bin Ladens komplett im Rechner zu generieren, soll zwar theoretisch möglich sein, aber ebenfalls einer eingehenen Prüfung durch Experten nicht standhalten.

So haben die AT&T-Labs erst im August angekündigt, mit der Vermarktung einer Text-to-Speech-Software zu beginnen, die erstmals wirklich "menschliche" und "natürliche" Sprache produzieren kann.

"Natural Voice" soll dabei angeblich perfekt die menschliche Aussprache, Intonation und Betonung beherrschen und nach Stimmproben auch jede echte Stimme imitieren können.

Ja, aber

Für die Imitation einer bestimmten Stimme brauchen die AT&T-Techniker nach eigenen Angaben zwischen zehn und 40 Stunden Aufzeichnungen in guter Qualität, die aufwendig analysiert werden müssen.

Dabei dürfte im Falle Bin Ladens erschwerend hinzu kommen, dass die Software - zumindestens offiziell - nicht für arabische Sprachen optimiert ist.

Aber auch wenn dies inzwischen geschehen sein sollte, bezweifelt beispielsweise Bill DeStefanis von ScanSoft, dass längere Passagen wirklich "natürlich" nachgeahmt werden können, wenn sie auch noch synchron zu vorhandenen Lippenbewegungen sein müssten.