24.01.2002

WORTGEWALTIG

Bildquelle:

Software durchforstet Blätterwald

Autoren von Wörterbüchern sind ständig auf der Suche nach neuen Begriffen und durchforsten dafür den Blätterwald.

Hilfe bei der aufwendigen Wortklauberei haben nun Wissenschaftler der Universität Stuttgart entwickelt.

Die Forscher des Instituts für maschinelle Sprachverarbeitung stellten ein Programm vor, das Millionen von Wörtern rasch lesen und nach bestimmten grammatikalischen oder lexikalischen Phänomenen sortieren kann.

Erkennt Beziehungen zwischen Ausdrücken

"Das Besondere an der Software ist, dass sie auch Beziehungen zwischen Wörtern erkennen kann", erklärt der wissenschaftliche Leiter des Projekts, Christian Rohrer.

Die Software der Stuttgarter Wissenschaftler kann auch Sätze zerlegen und zweigeteilte Verben wie in dem Satz "er gab seine Steuererklärung ab" erkennen. "Das Programm weiß: Dieses Verb heißt eigentlich 'abgeben'", erklärt eine Wissenschaftlerin.

"Die E-Mail" oder "das E-Mail"?

Die Methode ist nach den Worten der Sprachwissenschaftler unter anderem wichtig, um die Häufigkeit bestimmter Wortkombinationen zu testen: Wird etwa in deutschen Zeitungen häufiger "die E-Mail" oder "das E-Mail" geschrieben? Diese Informationen bilden ein Kriterium für einen Eintrag in ein Nachschlagewerk.

Auf der anderen Seite kann das Computerprogramm auch die Lexikon-Karriere eines Ausdrucks beenden, wenn Wörterbücher elektronisch mit dem Corpus abgeglichen werden.

Kommt ein Begriff in den Millionen von Wörtern gar nicht mehr vor, kann es gut sein, dass er als veraltet eingestuft und gestrichen wird.

"Die Zukunft von Wörterbüchern liegt im Computer", sagt Prof. Rohrer. Das elektronische Medium biete mehr Platz als das gedruckte Buch. Mit einer guten Software könne dort schneller und detaillierter nachgeschlagen werden.