"Common Sense" fürs World Wide Web
Vor genau zehn Jahren, im September 1998, hat Tim Berners Lee seinen Plan für das "Semantic Web" beschrieben. Die Vision: Maschinen sollten gespeicherte Informationen verstehen können, um die oft langwierige Suche nach der richtigen Information übernehmen zu können.
Einige Erfolge, so der Computerwissenschaftler Henry Lieberman vom MIT, könne man den Forschern heute sehr wohl zugestehen: Callcenter zum Beispiel funktionierten dank Spracherkennung recht gut. Aber weiterhin seien Computer nicht in der Lage, die für den Menschen verständliche Informationen zu verarbeiten. Was den Maschinen fehle, so Lieberman, sei etwas, das allgemein "gesunder Menschenverstand" genannt wird.
Intelligente Agenten
Lieberman: "Ich erinnere mich, dass damals Tim Berners Lee folgendes Beispiel verwendete: Das Semantic Web sollte es ermöglichen, einem Software-Agenten zu sagen: 'Vereinbare einen Termin für meine Mutter, mit einem Arzt, der nicht weiter als zehn Meilen entfernt ist.' Dieser Agent sollte dann eine Liste von Ärzten durchforsten, deren Terminkalender mit dem der Mutter vergleichen und darauf basierend automatisch einen Termin festlegen."
Lieberman weilte letzte Woche auf Einladung der Konferenz triple-i in Graz.
Kulturkreis Internet
Das Problem, so Lieberman, sei, dass keine Software bisher darüber Auskunft geben könne, ob die Praxis des Arztes zu Fuß, per Bus oder nur mit dem Auto erreichbar wäre, weil das Programm dieses Wissen nicht besitzen würde.
"Common Sense" mag zwar eine Grundlage menschlichen Verstehens sein, nur habe ein Computer davon keine Ahnung. Ihm müsse man erst mitteilen, dass der Mensch zwei Augen hat, meint Lieberman: "Wenn ich zu ihnen sagen würde: Wissen Sie, dass die Menschen zwei Augen haben? dann dann hört sich das etwas sonderbar an."
Kinder ab zehn Jahren haben mit gesellschaftlichen Konventionen und Dialogen nicht mehr viele Probleme. Schwieriger wird es, wenn sie ihren gewohnten Kulturkreis verlassen. In einer derartigen Situation könnten Analogien behilflich sein, Wissens- und Verständnislücken auszufüllen.
Kulturelle Analogien
Lieberman: "Wir arbeiten an einem Projekt, das wir 'kulturelle Analogie' nennen. Sie können unser Programm Praktiken und Gegenstände zwischen verschiedenen Kulturen vergleichen lassen. Zum Beispiel haben wir eine Wissensdatenbank über brasilianisches Portugiesisch aufgebaut und können den Computer fragen: Was ist das Äquivalent von Coca Cola in Brasilien?
Eine Antwort darauf lautet vielleicht: Coca Cola, weil man auch in Brasilien Coca Cola trinkt, aber eine interessantere Antwort wäre: Ein Getränk namens Guarana. Das ist ein Getränk, das aus Koffein besteht, und mit Kohlensäure versetzt ist. Das Interessante daran ist, das ist nicht nur ein Getränk, sondern auch ein kulturelles Symbol von Brasilien; genauso wie Coca Cola ein kulturelles Symbol für die USA ist, Bier ein kulturelles Symbol von Deutschland und Tee ein kulturelles Symbol Englands."
Starke KI für kalte Krieger
Dem Computer mit Hilfe von Software ein wenig menschliches Sprachgefühl beizubringen, haben schon viele Wissenschaftler vor Henry Lieberman versucht. Er selbst arbeitet daran seit den 70er Jahren. Und er kennt ähnliche Projekte wie zum Beispiel CYC. Auch dabei füttert man den Computer mit Alltagswissen.
Douglas Lenat - AI-Pionier aus Texas - hat dieses Projekt bereits in den 80er Jahren gestartet. Aber man könnte auch zu Recht die Behauptung aufstellen: Die Vision, dem Computer dazu zu bewegen die menschliche Sprache richtig zu interpretieren, ist im Grunde genommen so alt wie der Computer selbst.
Bereits in den 50er Jahren wurden die ersten Ideen und Konzepte für die maschinelle Übersetzung präsentiert. Zur Zeit des kalten Krieges versuchten Linguisten Texte von russischen Wissenschaftlern zu analysieren und sie mit Unterstützung von Software zu übersetzten. Das gelang damals eher schlecht als recht.
Semantic Web "naiv"
Trotzdem, so erzählte Karen Spärck Jones vor vier Jahren in einem Interview für "matrix", reichten die Methoden zumindest dafür aus zu erkennen, worum es ging. Wenn der Text wichtig war, dann konnte man noch immer einen professionellen Übersetzer hinzuziehen.
Aber niemand erhob damals den Anspruch den Computer dazu zu bewegen einen menschlichen Diskurs zu verstehen. Die Anhänger von Semantic Web bezeichnete Spärck als naiv und sie bezweifelte bis an ihr Lebensende, dass es möglich sein könnte, Wissen mit Hilfe von Klassen und Attributen, kurz mit Hilfe von Ontologien, in den Griff zu bekommen. Spärck Jones verstarb am 4. April 2007.
Spärck Jones erhielt 2007 den ACM Athena Award. Sie starb vor der Überreichung, aber zeichnete ihre Rede noch vor ihrem Tod auf Video auf.
Die universellen Zeichen
Spärck Jones: "Das alles wird von Menschen behauptet, die sich mit Computerwissenschaft beschäftigen. In meinen Augen ist deren Ansinnen naiv. Interessant ist doch, dass die ersten Ideen dazu von brillianten Wissenschaftlern aus dem 17. Jahrhundert stammen. Von Leuten wie Leibnitz. Die suchten nach etwas, das sie universelle Zeichen nannten.
Sie hatten die Idee - und das obwohl sie sich mit Latein herumschlagen mussten. Die sagten damals: Lasst uns eine neue Symbolsprache entwickeln, die einfach und klar ist: Wir entwickeln einfache Symbole für das Wesentliche und wenn wir komplexere Ausdrücke brauchen, dann lösen wir das, indem wir mehrere einfache Symbole miteinander kombinieren. Die Art der Zusammenstellung soll die Struktur des komplexen Objekts repräsentieren, über das wir reden wollen.
Politik der kleinen Schritte
Hätte er genug Zeit gehabt, schrieb einst Leibniz, dann würde er seine "Characteristica Universalis" innerhalb von fünf Jahren fertiggestellt haben. Spannend wäre es gewesen, aber es kam nie dazu.
Henry Lieberman plädiert heute auf die Strategie der kleinen Schritte: "Linguisten sind besonders stolz darauf sich die kniffligsten Beispiele auszudenken. Das Problem dabei ist, dass sie damit ignorieren, dass es einfache Beispiele gibt, die sich auch einfach lösen lassen. Menschen wie Karen Spärck Jones machen Aussagen wie: Sie können nie alle Formen des Alltagswissen abbilden, nie allen Methoden gerecht werden, mit denen sich Sprachen erlernen lassen.
Das mag stimmen, aber nur weil man nicht alles bekommen kann, bedeutet es nicht, dass man nichts bekommt. Unsere Hypothese lautet, die mag wahr oder falsch sein: Damit können wir schon sehr weit kommen."
Wissen über Menschen sammeln
An der Nützlichkeit von Klassifizierungssystemen zweifelt auch Benno Stein von der Bauhaus-Universität Weimar. Er und sein Team nahmen letztes Jahr am Wettbewerb "Spock Data Mining Challenge" teil.
Die von den Machern der Menschensuchmaschine Spock gestellte Aufgabe bestand darin, Wissen über Personen aus dem Internet zu generieren. 50.000 US-Dollar war Spock die Lösung wert.
Basketballspieler oder Statistiker?
Die Suche nach Methoden, mit denen Dokumente eindeutig auch Personen mit identischem Namen zugeordnet werden können, erwies sich als viel schwieriger, als auf den ersten Blick angenommen wurde.
Software zu entwickeln, die zum Beispiel zwischen Michael Jordan, dem Basketballspieler, und Michael Jordan, dem Statistiker, unterscheiden kann, stellte sich für viele Teilnehmer an dem Wettbewerb als unlösbare Aufgabe heraus.
Und selbst das Ergebnis der Gewinner, Benno Stein und seinem Team von der Bauhaus Universität Weimar, klingt nüchtern betrachtet nicht gerade überwältigend. Nur rund 50 Prozent der 100.000 Dokumente konnte den gesuchten 30 Personen eindeutig zugeordnet werden. Das System brauchte dafür vier Stunden.
Der Mensch soll helfen
Benno Stein: "Das hört sich nicht nach viel an, aber das ist für die Schwierigkeit des Problems, für das Rauschen in den Daten und für die Komplexität der Fragestellung ein sehr gutes Ergebnis. Ich glaube, wenn man die Technologie weiter ausreizt, könnte man etwas höher kommen, ich denke, bis etwa 60 Prozent. Aber viel besser, oder so gut, wie der Mensch ist, das sehe ich zurzeit nicht, dass man das schaffen kann."
Heute, so Benno Stein, wird unter Suchmaschinen-Apologeten darüber diskutiert, ob nicht der Mensch wieder vermehrt in den Prozess der Klassifizierung eingebunden werden sollte. Ganz im Sinne des sozialen Netzwerk-Paradigmas: Die Gemeinschaft der Menschen und nicht die der Maschinen sorgt für ein wenig mehr Ordnung im Datenhaufen.
Sonntagabend in "matrix"
Mehr zu den Versuchen, elektronische Dokumente zu klassifizieren und aufzufinden, hören Sie - neben anderen Beiträgen - am Sonntag im Netzkulturmagazin "matrix" um 22.30 Uhr in Radio Ö1.
(matrix | Mariann Unterluggauer)
