Das Fachtextkorpus und seine AufbereitungKorpusaufbau, Umfang, Textauswahl Korpusaufbau, Umfang, TextauswahlDas HyTex-Korpus umfasst Dokumente aus den Fachdomänen »Texttechnologie« und »Hypermedia-Forschung«, in denen sich der Gebrauch sowohl der domänenspezifischen Terminologie als auch der in den Domänen verwendeten Fachumgangssprache zeigt. Um die Fachsprache und ihre Verwendung im Rahmen von Wissenstransfer und Fachkommunikation in ihren unterschiedlichen Facetten (d.h. von der Distanzkommunikation auf »Expertenebene« und zwischen Experten und Semi-Experten bis hin zum diskursiven Austausch über zentrale Konzepte und Sprachelemente der Fachdomäne) dokumentieren zu können, wurden bei der Zusammenstellung des Korpus neben wissenschaftlichen Fachbeiträgen und normativ (»Spezifikation«) oder didaktisch motivierten Dokumenttypen (z.B. »Tutorial«, »Einführung«, »Überblicksdarstellung«) auch diskursiv geprägte Textsorten wie FAQs (»Frequently Asked Questions«), Mailinglist- oder Foren-Postings und Chat-Protokolle berücksichtigt. Weiterhin wurde darauf Wert gelegt, Dokumenttypen mit unterschiedlichem Sequenzierungsgrad (z.B. »Fachartikel« vs. »Fachglossar«) und mehr oder weniger stark konventionalisierten Textbaumustern (z.B. »FAQ« vs. »Foren-Diskussionsbeitrag«) zu berücksichtigen. Formales Kriterium für die Aufnahme von Dokumenten in das HyTex-Korpus war die Verfügbarkeit in digitaler Form. Sämtliche Dokumente wurden im WWW akquiriert, berücksichtigte Formate sind HTML und PDF. Der Umfang des gesamten Korpus beträgt ca. 25.000 Normseiten.
Eine aktuelle Version der Korpuszusammensetzung ist zur Zeit in Bearbeitung und wird bald hier veröffentlicht! Logische Textstruktur Manuelle Annotation der logischen Textstruktur (z.B. Auszeichnung von Kapiteln, Abschnitten, Paragraphen, Bildern, Tabellen, Verweisen, Fußnoten) auf der Grundlage einer Dokumentgrammatik, die in Kooperation mit dem Gießener Teilprojekt
Textgrammatische AnnotationDie Strategien der Hypertextualisierung wurden in der ersten Projektphase an einem Demo-Korpus getestet. Dieses Demokorpus diente dazu, die Entwicklung semi-automatischer Annotierung der im Folgenden beschriebenen textgrammatischen Dimensionen und der darauf basierenden Hypertextualisierungsstrategien zu testen: (1) Definitionen und Termverwendungsinstanzen, (2) Koreferenz und Konnektive, (3) Thematische und rhetorisch-funktionale Strukturen. 1. Definitionen und Termverwendungsinstanzen In dieser Annotationsebene werden definitorische Textsegmente für Termini der Fachtextdomäne annotiert und dabei pragmatisch typisiert. Alle im Korpus definierten Termini werden in eine Termkandidatenliste aufgenommen, anhand derer ihre Verwendungen in den Korpustexten - die Termverwendungsinstanzen - automatisch ausgezeichnet werden. Dies ermöglicht bei der Hypertextualisierung die Generierung von Links einerseits zu Definitionen im Text, andererseits zum terminologischen Netz. Die Links von Termverwendungsinstanzen zu Definitionen im Text werden nach einem Ranking-Algorithmus geordnet, der auf den pragmatischen Typsierungen basiert und dem Nutzer die im jeweiligen Kontext relevanteste Definition anbietet. Das terminologische Netz wird für den Nutzer in Form eines Glossars sichtbar, siehe dazu auch die Beschreibung des TermNet . Die Annotationen von Definitionen und Termverwendungsinstanzen bilden damit die Grundlage für die automatische Generierung von Linkangeboten zur Rekonstruktion terminologiebedingter Wissensvoraussetzungen. => mehr...
2. Koreferenz und Konnektive Bei der Modularisierung linear organisierter Dokumente kann es immer wieder passieren, dass die entstehenden Segmente Kohäsionsmittel – anaphorische Ausdrücke, Konnektoren oder metakommunikative Floskeln (z.B. "wie bereits in Kap XY gezeigt") – enthalten, die an die Leseabfolge des linearen Ausgangstextes gebunden sind, und deshalb bei der Hypertextualisierung auf Mikroebene umgestaltet werden müssen. Zu diesem Zweck annotieren wir anaphorische und koreferenzielle Bezüge zwischen Diskurseinheiten sowie entsprechende Konnektoren und metakommunikative Floskeln; auf der Grundlage dieser Annotationen werden automatisch kohäsiv autonome Modulsichten erzeugt. Die grundlegenden Operationen sind dabei
Eine Dokumentgrammatik für die Annotation von Kohäsionsmitteln wurde entwickelt, die Texte des Demonstrationskorpus wurden damit annotiert.
3. Thematische und rhetorisch-funktionale Strukturen Für die Auszeichnung thematischer Strukturen wurde eine Dokumentgrammatik entwickelt, mit der die verschiedenen Formen der Themenentwicklung (Themensplitting, Themenkomposition, Themensubsumption, Themenassoziation, Themenreihung und Themenfortführung) expliziert und annotiert werden. Grundlage sind die Kategorien, die in der GDS beschrieben sind (GDS = Gisela Zifonun, Ludger Hoffmann, Bruno Strecker (1997): Grammatik der deutschen Sprache, Band I). Maßgeblich ist das von Ludger Hoffmann verfasste Kapitel C6; die darin mit dem Fokus auf Satzthemen beschrieben Kategorien wurden generalisiert auf (Teil)textthemen, wie sie für die Hypertextualisierung eine wichtige Rolle spielen. Die Annotation soll für die Verfeinerung der Strategien zur Modularisierung und zum intertextuellen Linking genutzt werden.
|