Termnet – Modellierung terminologischen Wissens zur Fachdomäne und seine Verarbeitung

Das korrekte Verständnis von Fachtexten setzt – insbesondere bei Rezipienten mit Semi-Experten-Status – neben der Kenntnis der relevanten Konzeptualisierungen zu einzelnen Termverwendungsinstanzen die Verfügbarkeit von Informationen zur Geordnetheit der zentralen Konzepte und Bezugsgegenstände der Fachdomäne voraus.

Im HyTex-Projekt wird ein »terminologisches Wortnetz« aufgebaut, das die Beziehungen zwischen den zentralen Termini und Konzepten der Fachdomäne an Hand eines Inventars an lexikalischen und konzeptuellen Relationen beschreibt. Das Relationeninventar baut auf den in  WordNet und  EuroWordNet verwendeten lexikalisch-semantischen und semantisch-konzeptionellen Relationen auf und erweitert diese um spezielle fachsprachen- und fachdomänenspezifische Relationen.

Das Relationeninventar umfasst

  1. konzeptuelle Relationen: diese beschreiben Beziehungen zwischen konzeptuellen Einheiten der Domänen;
  2. lexikalische Relationen: diese beschreiben Beziehungen zwischen sprachlichen Einheiten, an Hand derer Konzepte lexikalisiert werden.

Die Modellierung des »Wissensnetzes« erfolgt auf der Basis der folgenden Relationstypen:

1. Konzeptuelle Relationen

1 . 1 Hyponymie

1 . 2 Disjunktivität (wird nicht als Relation, sondern durch Attribute modelliert)

1 . 3 Antonymie

1 . 4 Meronymie/Holonymie

1 . 4 . 1 Meronym-Konstituenten-Relation

1 . 4 . 2 Meronym-Mitglieder-Relation

2. Lexikalische Relationen

2 . 1 Lehnwort-Relation

2 . 2 Lehnübersetzungsrelation

2 . 3 Abkürzungsrelation/Vollformrelation

2 . 4 Akronymrelation/Expansionsrelation

2 . 5 Orthographische Variante

Eine genauere Beschreibung hierzu bietet die Projektpublikation Modellierung eines Terminologienetzes für das automatische Linking auf der Grundlage von WordNet (PDF 389 KB).

Für die Eingabe und Verwaltung des Wortnetzes nutzen wir das Werkzeug K-Infinity, das uns freundlicherweise von der Firma  Intelligent Views zur Verfügung gestellt wurde. Dieses Wissensnetz wird anschließend automatisch in eine  XML Topic Map (XTM) konvertiert. Ein solches standardisiertes, XML-basiertes Austauschformat für Wissensnetze hat den Vorteil, dass es mit verschiedenen Werkzeugen (z.B. der Programmiersprache XSLT) weiterverarbeitet werden kann und – perspektivisch – als Wissensressource auch von anderen Projekten genutzt werden kann. Wir nutzen das XTM-Format, um darauf Inferenzen durchzuführen und eine HTML-Präsentation eines erweiterten Glossars inklusive einer SVG-Visualisierung von Teilen des Wissensnetzes zu erzeugen. Das Glossar ist mit den Korpustexten in beide Richtungen verlinkt.

Die einzelnen durchgeführten Schritte, die bis auf den ersten vollautomatisch ablaufen, sind die folgenden:

  1. Modellierung der Fachtermini und ihrer Bezüge zueinander mit dem graphischen Wissensnetz-Editor K-Infinity. Modelliert werden alle Termini einer Termkandidatenliste (vgl. dazu Das Fachtextkorpus und seine Aufbereitung ).

  2. Export der Daten des Wissensnetzes aus K-Infinity in ein XML-basiertes Format.

  3. Transformation in das XTM-Format (Topic Map) durch ein Stylesheet der Firma intelligent views.

  4. Übersetzung gerichteter Relationen in Assoziationen mit Rollen.

  5. Durchführung von Überprüfungen: K-Infinity nimmt bereits eine Reihe von wichtigen Konsistenzprüfungen vor (z.B. die Verhinderung von zyklischen Hyperonymie-Beziehungen). Zwei wortnetz-spezifische Überprüfungen führen wir selbst durch:

    • Überprüfung, ob zu jedem Lexem (WordNet: Wort) mindestens ein Konzept (WordNet: Synset) vorhanden ist.
    • Überprüfung, ob zu jeden Konzept mindestens ein Lexem vorhanden ist.
  6. Durchführung von Inferenzen:

    • Inferenz der Relation der Bedeutungsähnlichkeit (bei WordNet: Synonymie) zwischen Lexemen, die demselben Konzept zugeordnet sind.
    • Inferenz der Relation der Disjunktivität zwischen Kohyponymen, die denselben Attributwert für das Attribut "Differenzierungskriterium" besitzen.
    • Inferenz der Relation der sprachkontaktbedingten Lexemkonkurrenz zwischen Lehnworten und Lehnübersetzungen desselben englischen Terminus.
  7. Erzeugung eines Glossareintrags für jedes im Wortnetz modellierte Lexem. Der Glossareintrag verweist auf Definitionen im Text, die anhand von Ranking-Regeln geordnet werden (vgl. dazu Das Fachtextkorpus und seine Aufbereitung ). Zudem werden die Bezüge des Lexems zu anderen Lexemen, zum zugehörigen Konzept und die Verbindung zu den Nachbarkonzepten in einer navigierbaren Graphik visualisiert. Die Graphiken werden automatisch aus der Topic Map generiert und mit  SVG realisiert.

Die Schritte 3 bis 7 wurden mit der Programmiersprache XSLT durchgeführt.

Siehe auch:

Technische Dokumente:

Termkandidatenliste für das Demo-Korpus als PDF (PDF 131 KB)

Termkandidatenliste für das Demo-Korpus mit Wortformen in XML (PDF 59 KB)