Automatische Annotation definitorischer Textsegmente

Auf der Basis der Ergebnisse und Erfahrungen der manuellen Annotation definitorischer Textsegmente in der ersten Projektphase sollen in der zweiten Phase u.a. folgende Verfahren entwickelt werden:

  1. Verfahren zur automatischen Annotation und Extraktion definitorischer Textsegmente (DefTagtiv), in denen der Definitor im Zentrum der Untersuchung stehen soll.
  2. Verfahren zum automatischen Ausbau des terminologischen Wortnetzes durch die Extraktion von Wortnetz-Relationen (NetExpander) aus den annotierten Definitionen.

Im Rahmen einer Pilotstudie haben wir den Ansatz zum Auffinden definitorischer Textsegmente mit Hilfe des Insight DiscovererTM der  TEMIS Group evaluiert. Der Ansatz und die Ergebnisse sind beschrieben in:

Angelika Storrer und Sandra Wellinghoff: Automated detection and annotation of term definitions in German text corpora. Erscheint in: Proceedings of LREC 2006, 22.-28. Mai 2006, Genua. Preprint. ( PDF 44 KB )

Dort finden sich auch die Ergebnisse einer Feasibility-Studie zur automatischen Extrahierbarkeit semantischer Relationen (Hyperonymie, Meronymie) aus den definitorischen Textsegmenten.

Die in der Pilotstudie entwickelten Suchmuster spezifizieren vor allem die syntaktischen Umgebungen von Definitoren (z.B. definieren als, bezeichnen als etc.). Die bisherige Definitorenliste wollen wir nun an einem großen deutschsprachigen Textkorpus – dem  DWDS-Korpus – evaluieren, erweitern und verfeinern. Um die Präzision bei Suche nach Definitionen mit polysemen Definitoren – insbesondere beim Kopulaverb "sein" – zu verbessern, suchen wir außerdem nach zusätzlichen sprachlichen Indikatoren für definitorisches Sprachhandeln, nach sog. "booster words".

Siehe auch:

Beißwenger, Michael/Wellinghoff, Sandra (Februar 2003, revidiert am 1. Juni 2006): Inhalt und Zusammensetzung des Fachtextkorpus. Dokumentation.( PDF 65 KB )

Wellinghoff, Sandra (2006): Manuelle Annotation definitorischer Textsegmente - inclusive Guidelines Phase I und II. Dokumentation. ( PDF 242 KB )