Vom XML-Markup zur Präsentation

Für die verschiedenen Annotationsdimensionen – logische Textstruktur, Definitionen und Termverwendungsinstanzen, Koreferenz und Konnektive ( siehe auch Das Fachtextkorpus und seine Aufbereitung ) - wurden Dokumentgrammatiken entwickelt, gemäß derer die Korpus-Texte annotiert wurden. Diese Annotation erfolgt für die verschiedenen Dimensionen getrennt, d.h. wir zeichnen dieselben Primärdaten (reines Textformat) eines Korpustextes anhand der verschiedenen Dokumentgrammatiken getrennt voneinander aus (Parallele Annotation, Methode aus dem Schwesterprojekt  Sekimo der Forschergruppe). Dieses Vorgehen hat wesentliche Vorteile:

  • Überlappungen der verschiedenen Dimensionen sind prinzipiell möglich, wenn auch nicht alle Arten von Überlappungen auf einfache Weise weiterverarbeitet werden können,
  • die Annotation der verschiedenen Dimensionen kann parallel von unterschiedlichen Personen und maschinellen Prozessen gleichzeitig durchgeführt werden, und
  • die resultierenden annotierten Dokumente sind erheblich weniger komplex und damit auch für Menschen gut lesbar.

Anschließend können die getrennten Annotationen in einem als "Unifikation" bezeichneten Prozess automatisch zusammengeführt werden, wobei verschiedene Regeln – z.B. im Fall von Überlappungen und Mehrfachauszeichnungen – angegeben werden können.

Die zusammengeführten XML-Annotationen werden mittels der Programmiersprache  XSLT in ein webbasiertes Präsentationsformat überführt (derzeit HTML). Dabei wird auch das TermNet ausgewertet und in die Präsentation einbezogen. Für die drei annotierten Ebenen wurden jeweils getrennte XSLT-Stylesheets entwickelt, die folgende Aufgaben übernehmen:

  • Textstruktur-Ebene: Überführung der Information über die Textstruktur (z.B. Kapitel, Paragraphen, Bilder, Fußnoten...) nach HTML; Generierung eines Inhaltsverzeichnisses; Modularisierung auf der Basis der Paragraphen-Struktur.
  • Definitionen und Termverwendungsinstanzen: Generierung von Links von Termverwendungsinstanzen zu Definitionen im Vortext (inklusive eines Ranking) und zum Glossar.
  • Koreferenzen und Konnektive: Herstellung kohäsiver Geschlossenheit einzelner Module; Generierung von Querverweisen.

Zur Zeit wird im Rahmen des Projekts die Transformationssprache Hypertext Transformation Language (HTTL) entwickelt, die es erlaubt, die Transformation konzeptuell, d.h. unabhängig vom tatsächlichen Markup, in Form von Regeln zu beschreiben. Auf der „linken“ Seite enthalten HTTL-Regeln Muster, die Strukturen der Annotationsdimensionen erkennen, z.B. bestimmte textgrammatische Strukturen, Definitionen, und die logische Textstruktur. Auf der „rechten“ Seite einer jeden Regel können verschiedene grundlegende Hypertext-Operationen stehen, wie die Erzeugung von 1:1-Links, 1:n-Links, Modulen (Knoten) u.a. Anhand dieser Regelbeschreibung wird der entsprechende XSLT-Code dann automatisch generiert.

Siehe auch:

Hypertext Transformation Language (HTTL)

Zur Verarbeitung des terminologischen Netzes und der Erzeugung des Glossars daraus: TermNet