Software durchforstet Blätterwald
Autoren von Wörterbüchern sind ständig auf der Suche nach neuen Begriffen und durchforsten dafür den Blätterwald.
Hilfe bei der aufwendigen Wortklauberei haben nun Wissenschaftler der Universität Stuttgart entwickelt.
Die Forscher des Instituts für maschinelle Sprachverarbeitung stellten ein Programm vor, das Millionen von Wörtern rasch lesen und nach bestimmten grammatikalischen oder lexikalischen Phänomenen sortieren kann.
Gefördertes Projekt
Das Institut für maschinelle Sprachverarbeitung arbeitet bei dem
von der Deutschen Forschungsgemeinschaft [DFG] geförderten
Transferprojekt mit den Wörterbuchredaktionen der Verlage
Langenscheidt und Brockhaus [Duden] zusammen.
DFGErkennt Beziehungen zwischen Ausdrücken
"Das Besondere an der Software ist, dass sie auch Beziehungen zwischen Wörtern erkennen kann", erklärt der wissenschaftliche Leiter des Projekts, Christian Rohrer.
Die Software der Stuttgarter Wissenschaftler kann auch Sätze zerlegen und zweigeteilte Verben wie in dem Satz "er gab seine Steuererklärung ab" erkennen. "Das Programm weiß: Dieses Verb heißt eigentlich 'abgeben'", erklärt eine Wissenschaftlerin.
200 Millionen Wörter im "Corpus neutrum"
Die Basis der Suche bildet ein rund 200 Millionen Wörter großer
"Corpus neutrum", eine als Datenbank angelegte Sammlung von Texten.
"Diese Menge entspricht etwa 500.000 Buchseiten und könnte ohne
Computer nur schwer durchgesehen werden", so Rohrer.
Institut für maschinelle Sprachverarbeitung"Die E-Mail" oder "das E-Mail"?
Die Methode ist nach den Worten der Sprachwissenschaftler unter anderem wichtig, um die Häufigkeit bestimmter Wortkombinationen zu testen: Wird etwa in deutschen Zeitungen häufiger "die E-Mail" oder "das E-Mail" geschrieben? Diese Informationen bilden ein Kriterium für einen Eintrag in ein Nachschlagewerk.
Auf der anderen Seite kann das Computerprogramm auch die Lexikon-Karriere eines Ausdrucks beenden, wenn Wörterbücher elektronisch mit dem Corpus abgeglichen werden.
Kommt ein Begriff in den Millionen von Wörtern gar nicht mehr vor, kann es gut sein, dass er als veraltet eingestuft und gestrichen wird.
"Die Zukunft von Wörterbüchern liegt im Computer", sagt Prof. Rohrer. Das elektronische Medium biete mehr Platz als das gedruckte Buch. Mit einer guten Software könne dort schneller und detaillierter nachgeschlagen werden.
