Dokumente und Texte
Allgemeines
Jedes Korpus besteht aus einem oder mehreren Dokumenten; jedes Dokument setzt sich wiederum aus einem oder mehreren Texten zusammen. Die Gliederung eines Korpus in Dokumente und Texte wird zur Zeit der Korpusakquisition festgelegt.
In einem Dokument können mehrere Texte nach bestimmten Gesichtspunkten
zusammengefasst sein, z.B. nach Quellen, chronologischer
Abfolge, Themenbereichen und/oder Textarten.
Ein Text beinhaltet je nach Korpusstruktur z.B. einen einfachen
Zeitungsartikel bis hin zu einer als Ganzes aufgenommenen
Zeitung/Zeitschrift, einen Auszug aus einem selbstständigen Werk bis
hin zu einem selbstständigen Werk als Ganzem (Roman, Reportage,
Erlass, wissenschaftliche Abhandlung, Rede usw.).
Beispiele:
- Das Thomas-Mann-Korpus (Sigle thm, Archiv W) enthält 14 Dokumente ("Die Buddenbrooks", "Der Erwählte", "Erzählungen", "Doktor Faustus", "Königliche Hoheit" usw.).
- Das Dokument "Erzählungen" (Dokumentsigle THM/AME) enthält 32 Texte, z.B. die Prosa-Skizze "Vision" (Textsigle THM/AME.00001).
- Das virtuelle Korpus "VDI Nachrichten" (Sigle vdi, Archiv W) besteht aus 35 Dokumenten mit den Ausgaben der VDI Nachrichten für jeweils einen Monat des Zeitraums Feb. 2006 - Dez. 2008.
- Das Dokument mit der Sigle VDI07/JUL enthält 381 Texte mit jeweils einem Artikel vom Juli 2007, z.B. den Artikel "Mobilfunk in China" vom 27.07.2007 (Textsigle VDI07/JUL.00419).
Ein Text in COSMAS II ist sowohl die kleinste recherchierbare Einheit wie auch die kleinste bibliographisch dokumentierte Einheit. Zum Beispiel gibt COSMAS II beim Exportieren von Belegen die bibliographischen Angaben der Texte aus, in denen Treffer erzielt wurden.
- BenutzerInnen können sich eigene virtuelle Korpora zusammenstellen, indem sie eine beliebige Auswahl aus den im jeweiligen Archiv befindlichen Dokumenten treffen.
Übersicht über die aktuellen Dokumente und Texte
Zur Zeit werden in COSMAS II 133827 Dokumente bzw. 255,6 Mio. Texte verwaltet.
Archivsigle | Archivname | Dokumente | Texte | Stand |
W | Archiv der geschriebenen Sprache | 18.883 | 45.601.359 | Mär. 2022 |
W2 | Archiv der geschriebenen Sprache | 19.008 | 49.109.472 | Apr. 2022 |
W3 | Archiv der geschriebenen Sprache | 8.628 | 55.955.362 | Mai 2022 |
W4 | Archiv der geschriebenen Sprache | 7.984 | 47.863.490 | Mai 2022 |
WP | Archiv der Wikipedia-Artikel und -Diskussionen | 32.729 | 11.523.223 | Jul. 2021 |
WPE | Archiv der englischsprachigen Wikipedia-Artikel und -Diskussionen | 9.914 | 6.341.075 | Mai 2020 |
WP_FS | Archiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen | 29.989 | 13.901.865 | Mai 2020 |
TAGGED-C | Archiv morphosyntakt. annotierter Korpora (CONNEXOR) | 1.011 | 6.473.537 | Dez. 2010 |
TAGGED-C2 | Archiv morphosyntakt. annotierter Korpora (CONNEXOR) | 876 | 5.816.140 | Nov. 2014 |
TAGGED-T | Archiv morphosyntakt. annotierter Korpora (TreeTagger) | 1.012 | 6.474.408 | Jun. 2011 |
TAGGED-T2 | Archiv morphosyntakt. annotierter Korpora (TreeTagger) | 876 | 5.816.140 | Nov. 2014 |
TAGGED-M | Archiv der morphosyntaktisch annotierten Korpora | 147 | 87.768 | Mai 2020 |
HIST | Archiv der historischen Korpora | 2.042 | 5.653 | Mai 2020 |
UMB | Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts" | 391 | 9.741 | Mai 2020 |
GFDS | Kartei der Gesellschaft für deutsche Sprache | 1 | 1 | Mai 2020 |
WK-PH | Archiv der phasengegliederten Wendekorpora | 209 | 3.356 | Mai 2020 |
W-ÜBRIG | Archiv der aussortierten geschriebenen Korpora | 67 | 213.502 | Mai 2020 |
SZ | Archiv der Süddeutschen Zeitung | 60 | 453.778 | Apr. 2020 |
Alle Archive | 133.827 | 255.649.870 |