Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora
Über COSMAS II werden mehrere Archive angeboten,
die mit Hilfe von automatischen Verfahren (man spricht von Taggern)
morphosyntaktisch annotiert wurden.
Tagsets und Tagger wurden unabhängig voneinander außerhalb
des IDS entwickelt und lassen sich wenig bis gar nicht aufeinander
abstimmen.
Diese automatischen Verfahren sind notwendig, um umfangreiche Textsammlungen überhaupt annotieren zu können. Der Nachteil besteht darin, dass selbst die besten Tagger heutzutage nicht um einen konstanten Anteil von Restfehlern umhinkommen. Ihre Erfolgsquote liegt bei ca. 97% pro annotiertes Wort. Man könnte sogar sagen, je exotischer die Syntax an einer Stelle im Satz ist, desto schwieriger ist es für einen Tagger, den Text an dieser Stelle korrekt zu analysieren.
Wegen des damit verbundenen enormen manuellen Aufwandes werden Annotationen nicht überprüft bzw. korrigiert.
Eine Erfolgsquote von 97% bedeutet, dass eine Sequenz von 4 annotierten Wörtern mit einer Wahrscheinlichkeit von 97% x 97% x 97% x 97% = 88,5% korrekt ist; oder ein Satz von 9-10 Wörtern zu 75% korrekt annotiert ist; oder jeder 2. Satz von ca. 22 Wörtern korrekt annotiert ist.
Die Erfolgsquote dürfte bei den annotierten Korpora des ältesten Archivs TAGGED-M (Stand: 1998) niedriger liegen.
Ob die erreichte Annotationsgüte für Ihre Untersuchung in COSMAS II ausreichend ist, müssen Sie selber zu Beginn Ihrer Arbeit mit einer oder mehreren Stichproben prüfen.
Wir empfehlen, die annotierten Korpora der neueren Archive TAGGED-C oder TAGGED-T (Stand: 2010 bzw. 2011) bzw. TAGGED-C2 oder TAGGED-T2 (Stand: 2014) zu verwenden.
- Fragen zu den eingesetzten Taggern, Tagsets und der Güte der
Korpusannotierungen richten Sie bitte an:
Programmbereich Korpuslinguistik,
Projekt: Ausbau und Pflege der Korpora geschriebener Gegenwartssprache
Thema: morphosyntaktische Annotationen