HyTex Phase I

Modellarchitektur und Hypertextualisierungsstrategien

Das Fachtextkorpus und seine Aufbereitung

Demonstrationsprototyp HyTex.1

TermNet - Modellierung terminologischen Wissens und seine Verarbeitung

Technische Umsetzung


Die Ergebnisse der ersten Phase sind im Arbeits- und Ergebnisbericht - Projekt B1 (PDF 184 KB) nachzulesen.

Praktische Ergebnisse der ersten Phase sind:

Wenn Sie an diesen Ergebnissen interessiert sind, kontaktieren Sie uns!

=> zurück zum Seitenanfang

Modellarchitektur und Hypertextualisierungsstrategien

Als theoretische und methodische Basis für die automatische Hypertextualisierung wurde in der ersten Phase eine Modellarchitektur entwickelt, bei der Informationen aus drei Ebenen für die Segmentierung und das Linking nach Kohärenzkriterien genutzt werden (vgl. Darstellung ):

  • Informationen der linguistischen und textgrammatischen Annotation auf der Dokumentenebene.
  • Eine Modellierung der zentralen Konzepte und Relationen der Domäne in einem Wissensnetz (als Topic Map).
  • Informationen über statische und dynamische Nutzerprofile.

Die Entwicklung der Hypertextualisierungsstrategien konzentriert sich auf folgende Bereiche:

  1. Auf der Mikroebene experimentieren wir mit Strategien zur Herstellung kohäsiv geschlossener Modulsichten auf der Basis der textgrammatischen Auszeichnung.
  2. Auf der Makroebene entwickeln wir Strategien des Linking nach Wissensvoraussetzungen, wobei sich drei Typen unterscheiden lassen:
    1. Strategien zum automatischen Linking terminologiebedingter Wissensvoraussetzungen auf der Basis der automatischen Annotation und Gewichtung von definitorischen Textsegmenten.
    2. Strategien der automatischen Linkfilterung und Linkgewichtung auf der Basis des im TermNet modellierten Wissensausschnitts.
    3. Strategien der Pfadbildung unter Berücksichtigung thematischer und rhetorisch-funktionaler Textstrukturen.

Makrostrategie terminologiesensitives Linking (Punkt 2.2):

Ein wesentliches Kohärenzbildungsproblem bei der selektiven Fachtextrezeption ergibt sich dadurch, dass ein Rezipient in Bezug auf die Verwendung von Termini nicht entscheiden kann, welche spezifische Konzeptualisierung diesen von seiten des Autors zugrunde gelegt wurde. Im Bereich "Terminologiesensitives Linking" entwickeln wir eine pragmatisch fundierte Methode, die es erlaubt, Verwendungsinstanzen von Fachtermini mit Linkangeboten zu versehen, die den Rezipienten zu genau derjenigen Definition im Vortext führen, deren Kenntnis für eine korrekte Semantisierung des betreffenden Terminus in seinem aktuellen Kontext notwendig ist.

=> mehr...

Siehe auch:

Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen (Projektpublikation; PDF 166 KB)

Annotation definitorischer Textsegmente und "terminologiesensitives Linking" (Arbeitsbericht; 122 KB)

Annotationsschicht: Definitionen und Termverwendungsinstanzen (Dokumentation; PDF 216 KB)

=> zurück zum Seitenanfang

Das Fachtextkorpus und seine Aufbereitung

Das gesamte Fachtextkorpus umfasst Dokumente verschiedener Textsorten und hat einen Umfang von ca. 25.000 Normseiten. Für die Auszeichnung der logischen Dokumentstruktur des Korpus wurde in Kooperation mit dem Gießener Teilprojekt  SemDoc ein Schema entwickelt, das sich an  DocBook anlehnt, aber auch zur Auszeichnung bereits fertig vorliegender Texte geeignet ist. Diese Annotation dient u.a. zur Modularisierung. Im Fokus der textgrammatischen Annotation stehen weitere Annotationsebenen: Definitorische Textsegmente und Termverwendungsinstanzen wurden als Grundlage für das Linking nach Wissensvoraussetzungen annotiert. Die Annotation von phorischen und textdeiktischen Bezügen dient bei der Hypertextualisierung der Herstellung kohäsiver Geschlossenheit (z.B. Auflösung von Pronomina, deren Antezedens über Modulgrenzen hinausreicht). Ein Schema zur Annotation thematischer Strukturen wurde entwickelt.

=> mehr...

Siehe auch:

Beißwenger, Michael/Wellinghoff, Sandra (Februar 2003, revidiert am 1. Juni 2006): Inhalt und Zusammensetzung des Fachtextkorpus. Dokumentation.( PDF 65 KB )

Download des Fachtextkorpus

=> zurück zum Seitenanfang

Demonstrationsprototyp HyTex.1

Die Entwicklung eines Demonstrationsprotoyps, anhand dessen die verschiedenen Hypertextualisierungsstrategien getestet werden können, ist weitgehend abgeschlossen. Dazu wurde das Kernkorpus gemäß der logischen Textstruktur und bezüglich der Definitionen und Termverwendungsinstanzen annotiert, die Annotation bezüglich Koreferenzphänomenen und Konnektiven ist noch nicht ganz abgeschlossen. Die Hypertextualisierungsstrategien (Segmentierung und Linking) wurden umgesetzt.

=> Screenshots...

=> zum Prototyp...

=> zurück zum Seitenanfang

TermNet - Modellierung terminologischen Wissens und seine Verarbeitung

Wir haben ein Terminologienetz (TermNet) aufgebaut, das zentrale Konzepte und Termini der Fachtextdomäne erfasst. Wir haben uns dabei an die in  WordNet eingeführten Beschreibungskonzepte angelehnt und diese um fachtextspezifische und für die deutsche Sprache relevante Relationen erweitert. Zum Aufbau und zur Pflege des TermNet nutzen wir Werkzeuge der Firma  Intelligent Views . Auf dem terminologischen Netz führen wir Inferenzen durch und erzeugen daraus automatisch ein hypertextuelles Glossar und navigierbare Visualisierungen von Ausschnitten des Netzes, welche in SVG realisiert sind.

Eine Statistik gibt Auskunft über die verschiedenen modellierten Einheiten (TermSets, Lexeme, verschiedene Arten von Relationen).

=> mehr...

Siehe auch:

Modellierung eines Terminologienetzes für das automatische Linking auf der Grundlage von WordNet (Projektpublikation; PDF 389 KB)

Modellierung des terminologischen Wissensnetzes TermNet (Dokumentation; PDF 548 KB)

Verarbeitungsschritte des terminologischen Netzes (Dokumentation; PDF 243)

=> zurück zum Seitenanfang

Technische Umsetzung

Die technische Umsetzung erfolgt auf der Basis von XML-Technologien. Die verschiedenen Annotationsebenen werden in einem Unifikationsprozess zusammengeführt und anschließend mittels der Programmiersprache XSLT in ein webbasiertes Präsentationsformat überführt. Dabei wird auch das TermNet ausgewertet. Perspektivisch soll diese Transformation nicht direkt in XSLT programmiert werden, sondern in einer von uns entwickelten Programmiersprache zur Generierung von Hypertextsichten, der Hypertext Transformation Language (HTTL).

=> mehr zur technischen Umsetzung allgemein...

=> mehr zu HTTL...

=> zurück zum Seitenanfang


( English )

englishicon.gif