[IDS-Logo] Textorganisation unter COSMAS II - Dokumente und Texte

Dokumente und Texte

Allgemeines

Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.

In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten zusammengefasst sein, z.B. nach Quellen, chronologischer Abfolge, Themenbereichen und/oder Textarten.
Ein Text beinhaltet je nach Korpusstruktur z.B. einen einfachen Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage, Erlass, wissenschaftliche Abhandlung, Rede usw.).

Beispiele:

Ein Text in COSMAS II ist sowohl die kleinste recherchierbare Einheit wie auch die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS II beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.

Übersicht über die aktuellen Dokumente und Texte

Zur Zeit werden in COSMAS II 133827 Dokumente bzw. 255,6 Mio. Texte verwaltet.

Archivsigle Archivname Dokumente Texte Stand
WArchiv der geschriebenen Sprache18.88345.601.359Mär. 2022
W2Archiv der geschriebenen Sprache19.00849.109.472Apr. 2022
W3Archiv der geschriebenen Sprache8.62855.955.362Mai 2022
W4Archiv der geschriebenen Sprache7.98447.863.490Mai 2022
WPArchiv der Wikipedia-Artikel und -Diskussionen32.72911.523.223Jul. 2021
WPEArchiv der englischsprachigen Wikipedia-Artikel und -Diskussionen9.9146.341.075Mai 2020
WP_FSArchiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen29.98913.901.865Mai 2020
TAGGED-CArchiv morphosyntakt. annotierter Korpora (CONNEXOR)1.0116.473.537Dez. 2010
TAGGED-C2Archiv morphosyntakt. annotierter Korpora (CONNEXOR)8765.816.140Nov. 2014
TAGGED-TArchiv morphosyntakt. annotierter Korpora (TreeTagger)1.0126.474.408Jun. 2011
TAGGED-T2Archiv morphosyntakt. annotierter Korpora (TreeTagger)8765.816.140Nov. 2014
TAGGED-MArchiv der morphosyntaktisch annotierten Korpora14787.768Mai 2020
HISTArchiv der historischen Korpora2.0425.653Mai 2020
UMBArchiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"3919.741Mai 2020
GFDSKartei der Gesellschaft für deutsche Sprache11Mai 2020
WK-PHArchiv der phasengegliederten Wendekorpora2093.356Mai 2020
W-ÜBRIGArchiv der aussortierten geschriebenen Korpora67213.502Mai 2020
SZArchiv der Süddeutschen Zeitung60453.778Apr. 2020
 
Alle Archive133.827255.649.870 

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018