[IDS-Logo] Textorganisation unter COSMAS II - Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora

Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora

Über COSMAS II werden mehrere Archive angeboten, die mit Hilfe von automatischen Verfahren (man spricht von Taggern) morphosyntaktisch annotiert wurden.
Tagsets und Tagger wurden unabhängig voneinander außerhalb des IDS entwickelt und lassen sich wenig bis gar nicht aufeinander abstimmen.

Diese automatischen Verfahren sind notwendig, um umfangreiche Textsammlungen überhaupt annotieren zu können. Der Nachteil besteht darin, dass selbst die besten Tagger heutzutage nicht um einen konstanten Anteil von Restfehlern umhinkommen. Ihre Erfolgsquote liegt bei ca. 97% pro annotiertes Wort. Man könnte sogar sagen, je exotischer die Syntax an einer Stelle im Satz ist, desto schwieriger ist es für einen Tagger, den Text an dieser Stelle korrekt zu analysieren.

Wegen des damit verbundenen enormen manuellen Aufwandes werden Annotationen nicht überprüft bzw. korrigiert.

Eine Erfolgsquote von 97% bedeutet, dass eine Sequenz von 4 annotierten Wörtern mit einer Wahrscheinlichkeit von 97% x 97% x 97% x 97% = 88,5% korrekt ist; oder ein Satz von 9-10 Wörtern zu 75% korrekt annotiert ist; oder jeder 2. Satz von ca. 22 Wörtern korrekt annotiert ist.

Die Erfolgsquote dürfte bei den annotierten Korpora des ältesten Archivs TAGGED-M (Stand: 1998) niedriger liegen.

Ob die erreichte Annotationsgüte für Ihre Untersuchung in COSMAS II ausreichend ist, müssen Sie selber zu Beginn Ihrer Arbeit mit einer oder mehreren Stichproben prüfen.

Wir empfehlen, die annotierten Korpora der neueren Archive TAGGED-C oder TAGGED-T (Stand: 2010 bzw. 2011) bzw. TAGGED-C2 oder TAGGED-T2 (Stand: 2014) zu verwenden.

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018