Vom XML-Markup zur Präsentation Für die verschiedenen Annotationsdimensionen – logische Textstruktur, Definitionen und Termverwendungsinstanzen, Koreferenz und Konnektive ( siehe auch Das Fachtextkorpus und seine Aufbereitung ) - wurden Dokumentgrammatiken entwickelt, gemäß derer die Korpus-Texte annotiert wurden. Diese Annotation erfolgt für die verschiedenen Dimensionen getrennt, d.h. wir zeichnen dieselben Primärdaten (reines Textformat) eines Korpustextes anhand der verschiedenen Dokumentgrammatiken getrennt voneinander aus (Parallele Annotation, Methode aus dem Schwesterprojekt
Anschließend können die getrennten Annotationen in einem als "Unifikation" bezeichneten Prozess automatisch zusammengeführt werden, wobei verschiedene Regeln – z.B. im Fall von Überlappungen und Mehrfachauszeichnungen – angegeben werden können. Die zusammengeführten XML-Annotationen werden mittels der Programmiersprache
Zur Zeit wird im Rahmen des Projekts die Transformationssprache Hypertext Transformation Language (HTTL) entwickelt, die es erlaubt, die Transformation konzeptuell, d.h. unabhängig vom tatsächlichen Markup, in Form von Regeln zu beschreiben. Auf der „linken“ Seite enthalten HTTL-Regeln Muster, die Strukturen der Annotationsdimensionen erkennen, z.B. bestimmte textgrammatische Strukturen, Definitionen, und die logische Textstruktur. Auf der „rechten“ Seite einer jeden Regel können verschiedene grundlegende Hypertext-Operationen stehen, wie die Erzeugung von 1:1-Links, 1:n-Links, Modulen (Knoten) u.a. Anhand dieser Regelbeschreibung wird der entsprechende XSLT-Code dann automatisch generiert.
|