Mit Statistik gegen Blödsinn

06.08.2008

Mit einer auf Nonsens kalibrierten Filtersoftware, die nun als erste Beta verfügbar ist, wollen zwei US-Amerikaner den Trollen, N00bs und Gehirnzellen-Pong-Spielern in Webforen auf den Leib rücken. Noch ist das Programm einfach zu täuschen.

Einst als Werkzeug zur Vernetzung von Wissenschaftlern gegründet, ist das Internet heute ein Tummelplatz der Massen. Das ermöglicht zwar einerseits Projekte wie Wikipedia, Flickr und kollaborative Nachrichtenfilter, die das Wissen und Können des Kollektivs mal mehr, mal weniger gut zu nutzen wissen.

Andererseits haben speziell Webforen mit der Möglichkeit zur anonymen und pseudonymen Teilhabe die Tendenz, die unangenehmsten Seiten der menschlichen Persönlichkeit zum Vorschein zu bringen. Von Beiträgen diverser Gehirnzellen-Pong-Charakteren ganz zu schweigen, deren Qualität darauf schließen lässt, dass da in einem neuronalen Netzwerk nur ein einzelner kläglicher Impuls zwischen den beiden aktiven Nervenzellen hin- und hergeschickt wurde - ein Spiel, das immer null zu null ausgeht.

Die Schmerzen

Wer das Netz noch zu Zeiten erlebt hat, als auch in Webforen noch halbwegs intelligente und witzige Konversation möglich war, muss angesichts der durchschnittlichen Qualität der zeitgenössischen Online-Debatten unweigerlich Schmerzen empfinden.

Schmerzen, die auch die beiden US-Amerikaner Gabriel Ortiz und Paul Starr geplagt hatten, bis sie sich im November 2007 dazu entschlossen, etwas gegen dumme Postings im Netz zu unternehmen. Damals stellten die beiden ihr Projekt StupidFilter vor, eine Software, die nach ähnlichen Prinzipien arbeitet wie ein Spamfilter - nur, dass sie nicht auf die Erkennung von Viagra-Postings optimiert ist, sondern darauf, "dumme" von intelligenten Texten zu trennen.

Unwahrscheinlich dumm

Das Programm ist selbstverständlich nicht dazu in der Lage, den Inhalt der analysierten Beiträge zu verstehen, vielmehr erkennt es die Idiotie anhand formaler Kritierien im Text. Es errechnet, kurz gesagt, die Wahrscheinlichkeit, ob ein Text aufgrund der in ihm vorkommenden Elemente eher intelligent oder eher dumm ist.

Nun ist die erste Beta-Version von StupidFilter erschienen. Das in C++ geschriebene Programm ist Open Source und derzeit noch recht einfach gehalten. Es arbeitet mit statistischen Werten zum Text, etwa der Anzahl der Groß- und Kleinbuchstaben. Vorgesehen ist auch eine noch nicht implementierte Analyse der Tippfehler.

Online-Demonstration des Filters

In einer Online-Demo zeigt sich, dass das System zwar übliche Textelemente der Webidiotie zuverlässig erkennt, aber beispielsweise an sinnfreien Aneinanderreihungen korrekt geschriebener Begriffe scheitert. Auf "yr n00bz, lol" antwortet das System korrekt mit "This text is likely to be stupid", der 'Satz' "Erudite Hamster reduction process for immediate implementation" ging jedoch anstandslos durch. Aber die Software ist ja erst im frühen Beta-Stadium.

Ob es sinnvoll ist, Webforen automatisch filtern zu lassen, sei dahingestellt. Schließlich könnten die Anti-Dummposting-Automatismen auch zur Zensur verwendet werden. Wenn man sich schon von einer Filtersoftware das Web zurichten lassen will, wäre es vielleicht sinnvoller, nach Zielgruppen konfigurierte Gouvernanten-Plug-ins für Webbrowser bereitzustellen, die auch gleich redaktionelle Texte filtern, deren Inhalte man nicht mag. Damit könnte dann endlich jeder nach eigenem Gusto seine kognitiven Dissonanzen reduzieren und sich in seiner Infobubble die eigene Weltsicht immer und immer wieder bestätigen lassen.

ORF.at sprach mit dem Computerlinguisten und Programmierer Gabriel Ortiz, der mittlerweile gemeinsam mit dem Japanologen und "Moderationsmanager" Paul Starr die Firma Rarefied Technologies gründete, welche die Entwicklung von StupidFilter vorantreiben soll.

Rarefied Technologies erhielt kürzlich eine Kapitalspritze von dem Finanzinvestor Flywheel und will StupidFilter nach dem Vorbild von MySQL AB anbieten. Der Sourcecode steht unter der GPLv2. Die Datensammlungen für die Filter sollen unter der CC-Attribution-Noncommercial-Share-Alike-Lizenz 3.0 stehen.

ORF.at: Erinnern Sie sich noch an den Punkt, an dem Sie und Paul Starr sich gesagt haben: "Jetzt reicht's"?

Gabriel Ortiz: Ehrlich gesagt: YouTube war schuld. Die Kommentare auf YouTube waren so dumm, dass wir sie nicht mehr ertragen haben.

Welche Technologien setzen Sie in StupidFilter ein?

Wir verwenden einen mit GNU flex betriebenen Parser und libSVM, sowie die Bibliothek Boost zur Serialisierung. Der Parser generiert eine Matrix von Werten zur Textanalyse, die wir in einem zweiten Schritt mit einer Support-Vektor-Maschine vornehmen. Implementiert ist das alles in C++.

GNU flex

Flex ist das Akronym für Fast Lexical Analyzer, ein quellenfreies Programm zur Mustererkennung in Texten.

Support-Vektor-Maschinen

Support-Vektor-Maschinen [SVM, dt.: Stützvektormaschinen] sind mathematische Methoden zur Mustererkennung. Es sind Algorithmen, die im maschinellen Lernen eingesetzt werden und von Menschen "trainiert" werden können.

Rarefied Technologies soll sich nun um die weitere Entwicklung von StupidFilter kümmern. Können Sie schon sagen, wo das Programm zum Einsatz kommen wird?

Dafür ist es noch etwas zu früh. Wir wollen schon sehr bald ein Plug-in für WordPress veröffentlichen. Wir hoffen, dass ein greifbares Beispiel für die Leistungsfähigkeit des Filters seine Implementation in anderen Systemen befördern wird.

Wie schwer ist es, StupidFilter auf andere Sprachen zu portieren? Man braucht ja eine gewisse Gemeinschaft an Helfern, um die Filter mit Beispielen zu trainieren.

In der Tat ist dazu eine große Unterstützung aus der Nutzergemeinde nötig. Das System kann aber mit der Hilfe einiger Muttersprachler trainiert und in beliebige Sprachen übersetzt werden.

Wie würden Sie "Dummheit" definieren, und inwieweit kann Software dazu gebracht werden, diese zu erkennen?

Wenn wir darüber sprechen, ist es wichtig, dabei im Hinterkopf zu behalten, dass wir nach syntaktischer Dummheit suchen, also nach Forumskommentaren mit zu viel oder zu wenig Groß- und Kleinschreibung, zu vielen Abkürzungen aus der SMS-Sprache, exzessivem Gebrauch von "LOL", Ausrufezeichen und so weiter.

Diese Herangehensweise unterscheidet sich grundlegend von einer subjektiven Einschätzung, weil wir nicht die Wörter selbst analysieren, sondern nur den Satzbau. Deshalb ist es auch möglich, unsere Ziele zu erreichen und die Software nach Vorgabe arbeiten zu lassen.

Haben Sie keine Bedenken, dass Ihre Software auch zu Zensurzwecken genutzt werden könnte?

Es ist schon möglich, dass eine veränderte Version unserer Software zu Zwecken der Zensur verwendet werden könnte. Aber solange es sich dabei nicht um Zensur von Seiten von Regierungen handelt, bin ich darüber nicht besorgt.

Dieser Artikel entstand mit Unterstützung von Andreas Unterluggauer, der für uns den Code von StupidFilter analysiert hat.

(futurezone | Günter Hack)