Codierung der Korpora im XCES-Format
Seit Mitte Juli 2008 diente als Grundlage für die Indizierung der Korpora nicht mehr wie bisher ein vereinfachtes TEI-Format, sondern das CES-Format (Corpus Encoding Standard). Die Umstellung auf das im Rahmen des IDS-Textmodells verwendete XCES-Format erfolgte im April 2010.
Als Benutzer von COSMAS II müssen Sie sich deswegen nicht in das neue Format vertiefen, denn die Handhabung der neuen Korpora geschieht bis auf wenige Punkte wie bisher.
Wesentliche Änderungen
- Einige Konventionen, die ausschließlich für ältere
IDS-Korpora galten, fallen nun weg. Dies betrifft folgende virtuellen Korpora:
- bzk, goe, gr1, hbk, lim, mk, thm, wk (Archiv W),
- gfds (Archiv GFDS),
- marx (Archiv HIST),
- lim-TAGGED (Archiv TAGGED),
- WK-PH-gesamt (Archiv WK-PH),
in welchen die Satzzeichen bisher mit einem Leerzeichen vom Wort getrennt codiert waren.
Beispiel: " was soll ich in einem Krieg ? " fragte ich ihn . (Korpus lim).
In diesen Korpora können nun Suchanfragen mit Satzzeichen einheitlich wie in den übrigen Korpora formuliert werden, d.h. Wort und Satzzeichen sind einheitlich mit einem Wortabstand von 0 voneinander getrennt (vorher Wortabstand 1).
Falls Sie dies bisher nicht berücksichtigt haben, werden Sie nun feststellen, dass Sie mit Suchanfragen wieKrieg /w0 \?
(der Schrägstrich ist notwendig, um das Satzzeichen vom Platzhalteroperator zu unterscheiden) vermehrt Treffer in diesen Korpora erhalten. - Die Anzahl der Texte ist im Wesentlichen bis auf einige Schwankungen gleich geblieben. In Folge von Bereinigungen sind im Korpus taz (die tageszeitung) ca. 10.000 Texte weniger zu verzeichnen, in einigen weiteren XCES-Korpora insgesamt nochmals 1.200 Texte weniger.
- Die Anzahl der Textwörter ist um ca. 9 Mio.
gesunken. Die Hälfte davon ist auf die Konvertierung der alten
Konventionen (in den oben aufgezählten Korpora) in das neue
Format zurückzuführen. In den anderen Fällen wird Information,
die nicht unbedingt zum Primärtext gehört, in Annotationen
verlagert (z.B. URL-Adressen, Fußnoten, usw.), was wiederum einem
Mehrwert an Information in den Korpora gleichkommt.
Insgesamt bedeutet die Reduzierung der Textwörter kein Verlust an recherchierbarem Material. Bei den alten Konventionen handelt es sich um eine andere Zählweise, da Wort und Satzzeichen als 2 getrennt auftretende Textwörter gezählt wurden (siehe Beispiel oben). Die Verlagerung von Text in die Annotationen bereinigt den Primärtext von zum Teil unerwünschten Nebeneffekten bei der Recherche. - Auszeichnung der Textstruktur: Überschriften auf diversen Ebenen, Vorspanntext, Fußnoten usw. werden nun als solche im XCES-Format gekennzeichnet. Dies bewirkt, dass bei der Anzeige von KWICs und Belegen der Kontext unter Umständen anders berechnet wird als vorher: Zählten z.B. Überschriften vorher als Sätze, werden sie nun als Absätze gezählt.
Das XCES-Format bildet die Grundlage für kommende Erweiterungen in COSMAS II.