Der besten Suche auf der Spur
Wenn jemand im Internet sucht, dann bedeutet das längst nicht, dass er auch neue Informationen entdecken will. Das sagten jedenfalls die Experten von Yahoo, Google und Microsoft beim Fachkongress WSDM 2009, der Anfang Februar in Barcelona stattfand.
In Barcelona diskutierten Branchenexperten von 9. bis 12. Februar über aktuelle Entwicklungen bei der Internet-Suche. In einem eben erst fertiggestellten Gebäude, in dem auch Yahoo Research Spain untergebracht ist, trafen sich Wissenschaftler, Studenten und Vertreter der Research-Labs von Yahoo, Microsoft und Google, um über die neuesten Erkenntnisse im Bereich Data-Mining und Information-Retrieval zu diskutieren. Die Buchstabenkombination WSDM, so die Veranstalter der Konferenz, spricht man übrigens als "wisdom" aus.
Mehr dazu in "matrix"
Mehr zum Thema hören Sie am Sonntag um 22.30 Uhr im Ö1-Netzkulturmagazin "matrix".
Hohe Ingenieurskunst
30 bis 40 Prozent aller Suchabfragen seien Fragen, die der Nutzer selbst bereits ein anderes Mal gestellt habe; 60 bis 70 Prozent der Webseiten, die man besuche, seien Seiten, die man bereits kenne, erzählte Susan Dumais. Seit 1997 erreicht man sie unter der Adresse One Microsoft Way, Redmond. Die gelernte Psychologin analysiert am Microsoft Research Lab in Washington State das Online-Verhalten von Usern.
Sie entwirft Benutzeroberflächen, arbeitet zum Thema Mensch-Maschine-Interaktion und an der Verbesserung von Information-Retrieval-Systemen und deren Algorithmen. Suchmaschinen, davon ist Dumais überzeugt, seien noch nicht der Weisheit letzter Schluss, aber auch in ihrer heutigen Form bereits ein Zeichen hoher Ingenieurskunst.
"Wenn Sie jemanden, der vor 50 Jahren im Bereich Information-Retrieval geforscht hat, gefragt hätten, ob es möglich sei, durch Eingabe von zwei Wörtern in über 20 Milliarden Seiten etwas Brauchbares zu finden, dann hätten Sie diese Leute mit großen Augen angestarrt. Aber egal, wie weit wir bereits gekommen sind, es handelt sich dabei nur um die Spitze des Eisbergs."
Finden ohne Sprachbarrieren
Relevanz, die Analyse und Verknüpfung von Multimedia-Inhalten, die Darstellung von Zeitverläufen und Multilingualität waren die wichtigsten Themen auf der Konferenz. Jeff Dean, der seit 1999 bei Google arbeitet, verwies darauf, dass sich der Suchmaschinenprimus zum Ziel gesetzt habe, alle Textdokumente in alle Weltsprachen übersetzen zu können. Dieses Ziel wird wohl auch Google nicht erreichen.
"Wir schaffen vielleicht die Top Ten der im Internet verwendeten Sprachen", schränkte Dean auf Nachfrage ein. Dazu zählen laut Internet World Statistics 2008 neben Englisch noch Chinesisch, Spanisch, Japanisch, Französisch, Deutsch, Arabisch, Portugiesisch, Koreanisch und Italienisch. Auch Yahoo Research nimmt sich des Themas Übersetzung an, konzentriert sich derzeit aber dabei auf den Aspekt Werbung.
Verbesserung der Relevanz
Um die Relevanz von Suchergebnissen zu verbessern, glauben zahlreiche Wissenschaftler an die Macht des "Tagging". Ein "Tag" ist ein Stichwort oder ein kurzer Kommentar, den jemand auf einer Webseite hinterlässt, um sie später wiederzufinden. Die Bookmark-Sammelstelle del.icio.us bietet einen derartigen Dienst an, genauso wie deren Konkurrent StumbleUpon. Die dafür ausgesuchten Wörter würden sich schon deshalb von Wörtern in einem Dokument unterscheiden, weil sie nicht eingefügt werden, um den Erzählfluss einer Geschichte zu verbessern, so Daniel Ramaga von der Universität Stanford University.
Er teilt die Wörter, die man auf Webseiten finden kann, folgendermaßen ein: "Da gibt erstens jene, die für den Leser geschrieben werden, damit er den Inhalt versteht, und zweitens die Wörter, die als Link hervorgehoben werden. Sie liefern meist eine Begründung dafür, warum man darauf klicken sollte. Drittens gibt es Wörter, mit denen die Menschen eine Seite für sich selbst beschreiben." Diese letzte Kategorie ist semantisch sehr interessant, weil sie so etwas wie eine selbst gewählte Erinnerungshilfe ist. Die Menschen beschreiben das Dokument mit Worten, die sich auf den Inhalt beziehen und die ausgesucht werden, nachdem ein Text gelesen verstanden wurde.
Tag für Tag
Tags dienen im Idealfall nicht nur als Erinnerungsstütze, sondern sagen auch etwas über den Wert eines Online-Dokuments aus. Sie gäben einen Hinweis darauf, warum man sich an dieses spezielle Dokument erinnern wolle, so Ramage. Aber auch Tags schützen keineswegs vor dem Problem, dass das Wort "grau" einmal als Symbol für schlechtes Wetter benutzt wird und ein anderes Mal zur Beschreibung einer Farbe. Tags, so Ramage, seien umso nützlicher, je häufiger sie benutzt werden.
"Wenn viele taggen würden, dann würde sich die Chance erhöhen, dass Sie jemanden finden, der über eine Webseite ähnlich denkt wie Sie. Und wenn sich genug Menschen finden, die auf diese Webseite gehen und so denken wie Sie, dann steigt die Wahrscheinlichkeit, dass Sie mit ihrer Wortwahl auch Seiten finden, die Sie noch nicht kennen. Aber bevor man nicht das halbe Internet dazu bewegen kann zu taggen, bleibt das Web ein Ort, an dem wir mit unseren Suchbegriffen weniger finden als erhofft", sagt Ramage.
"Das ist das Problem, das dem Tagging-System heute noch innewohnt. Es wird so lange bestehen, bis wir in der Lage sind, ein intelligenteres Computersystem zu bauen, das uns dabei hilft, jene Webseiten zusammenzuklauben, die wir gerne mit unseren Suchbegriffen assoziiert sehen würden."
Mehr ist mehr
Eine Methode, Menschen von einer bestimmten Wortwahl für Tags zu überzeugen, besteht schlicht darin, diese im System vorzugeben. In der Studie "Contrasting Controlled Vocabulary and Tagging" untersuchten die Wissenschaftler Paul Heymann und Hector Garcia-Molina das Tag-Verhalten von Personen im Zusammenhang mit Büchern. Das mögliche Vokabular für die Tags wurde dabei vorgegeben und damit eingeschränkt.
Alsbald stellt sich wenig überraschend heraus, dass viele für ein und dasselbe Buch dasselbe Wort auswählten. Für Dumais liegt darin kein Vorteil. Das Web bietet ihrer Meinung nach die Chance, Texte viel nuancierter zu bewerten als in einem Bibliothekskatalog. Ihr Credo lautet: Die Relevanz von Suchergebnissen kann mit einem großen Wortschatz nur verbessert werden.
(matrix/Mariann Unterluggauer)
