Archive
Allgemeines
Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d.h. mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.
Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.
Die 600 COSMAS II-Korpora sind in 18 Archiven organisiert:
- Archiv der geschriebenen Korpora (das Hauptarchiv)
- drei Archive der geschriebenen Korpora mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"
- Archiv der Wikipedia-Artikel und -Diskussionen (2015/2017/2019)
- Archiv der englischsprachigen Wikipedia-Artikel und -Diskussionen (2015)
- Archiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen (2015)
- Archiv morphosyntaktisch annotierter Korpora (CONNEXOR-Tagset) (1994-2009)
- Archiv morphosyntaktisch annotierter Korpora (CONNEXOR-Tagset) (2010-2014)
- Archiv morphosyntaktisch annotierter Korpora (TreeTagger-Tagset) (1994-2009)
- Archiv morphosyntaktisch annotierter Korpora (TreeTagger-Tagset) (2010-2014)
- Archiv morphosyntaktisch annotierter Korpora (MECOLB-Tagset)
- Archiv der historischen Korpora
- Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"
- Korpus-Kartei der Gesellschaft für deutsche Sprache
- Archiv der phasengegliederten Wendekorpora
- Archiv der aussortierten geschriebenen Korpora
- Archiv der Süddeutschen Zeitung
Umfang der Archive im Laufe der Zeit
Die wichtigsten Archive wachsen mit jeder Aktualisierung von DeReKo. Hier erfahren Sie mehr über den Umfang der Archive für verschiedene DeReKo-Releases.
Hintergrundinformationen zu den Archiven
Das Archiv W der geschriebenen Korpora
ist das größte
dieser Archive. Es umfasst Texte vom 18. Jahrhundert bis heute und enthält auch
die größte Bandbreite an Textsorten. Die darin enthaltenen Zeitungen und Zeitschriften
werden regelmäßig mit Neuerscheinungen ergänzt. Andere neuakquirierte Quellen gelangen
hingegen in die anderen Archive W2
-W4
.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Beachten Sie bei einigen Korpora dieses Archivs die spezielle Codierung.
Die Archive W2, W3 und W4 der geschriebenen Korpora
enthalten die Neuakquisitionen der GBI-Genios Deutsche Wirtschaftsdatenbank GmbH. Zurzeit sind das Zeitschriften aus Deutschland, Österreich und der Schweiz ab dem Jahr 2000, die in alphabetischer Reihenfolge der Quellen auf die drei Archive verteilt wurden.
Außerdem ergänzen sie die geografische Abdeckung der Quellen von W
. Sie werden
kontinuierlich mit den neuesten Ausgaben aufgefüllt.
Die Archive W
bis W4
wurden nur aus technischen
Gründen in separate Archive aufgeteilt und lassen sich für Recherchen nicht
verbinden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Das Wikipedia-Archiv WP
enthält zusätzlich zu den Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus den Jahren 2013 und 2015. Bitte beachten Sie die Hinweise zu Fußnoten.
Herausgeber der Korpora: de.wikipedia.org
Das Wikipedia-Archiv WPE
enthält zusätzlich zu den englischsprachigen Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus dem Jahr 2015. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.
Herausgeber der Korpora: en.wikipedia.org
Das Wikipedia-Archiv WP_FS
enthält fremdsprachige Wikipedia-Artikel, -Artikeldiskussionen und -Benutzerdiskussionen, Stand 2015. Französisch, Ungarisch, Norwegisch, Spanisch, Kroatisch, Italienisch, Polnisch. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.
Herausgeber der Korpora: wikipedia.org
Das Archiv TAGGED-C (ehemals W-TAGGED)
enthält zurzeit etwa 40% der Texte mit Erscheinungsdatum bis Ende 2009 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv TAGGED-C2
enthält zurzeit Texte mit Erscheinungsdatum ab Anfang 2010 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv TAGGED-T
enthält die gleichen Korpora wie TAGGED-C und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv TAGGED-T2
enthält die gleichen Korpora wie TAGGED-C2 und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv TAGGED-M (ehemals TAGGED)
Diese auf der Grundlage des MECOLB-Minimal Tagsets morphosyntaktisch annotierten Korpora wurden schon vor einigen Jahren in einer ersten Versuchsreihe über COSMAS II verfügbar gemacht. Mit ca. 30 Mio. laufenden Wortformen umfassen sie nicht ganz 1% des gegenwärtigen Archiv W (Stand: Januar 2011).
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
- Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.
Das Archiv HIST der historischen Korpora
enthält Texte von der zweiten Hälfte des 17. Jahrhunderts bis 1962. Darunter fallen zum einen die Texte, die vom Projekt Historisches Textkorpus zusammengestellt oder angeworben wurden. Zum anderen werden dort Korpora aufgeführt, die auch im Hauptarchiv W verfügbar sind, deren Texte dem Entstehungsdatum nach aber eher den historischen Korpora zugeordnet werden können.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo, Projektgruppe Historisches Korpus
- Beachten Sie bei einigen Korpora dieses Archivs die spezielle Codierung.
Das Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"
enthält Texte von 1945 bis 1969.
Das Korpus UMB45 umfasst Texte, die den Schulddiskurs der ersten Nachkriegsdekade (1945-1955) repräsentieren. Autoren und Autorinnen sind Opfer, Täter oder Nichttäter. Das Korpus der Opfertexte besteht aus monographischen Erzählungen über Verfolgung, Zuchthauserlebnisse und Lagererfahrungen. Die Beiträge der Täter stammen aus Gerichtsprotokollen, Tagebüchern und Autobiographien. Das Korpus der Nichttäter-Texte besteht aus Aufrufen, Reden, Regierungserklärungen, Ansprachen, Briefen, Tagebuchaufzeichnungen, Artikeln, Vorträgen, Gründungsprotokollen, programmatischen Schriften, Predigten, Hirtenworten, Essays, zeitkritischen monografischen Analysen, Dramen, Romanen und Kongressprotokollen.
Im Korpus UMB68 sind vor allem solche Texte der späten 1960er Jahre enthalten, die Demokratiekonzepte der Kritischen Theorie und die Rezeption dieser Konzepte durch die studentische Linke repräsentieren. Die Autoren dieser Texte sind nach den beiden Beteiligtenrollen 'intellektuelle Linke' (Adorno, Horkheimer, Habermas u.a.) und 'studentische Linke' (Dutschke, Rabehl, Negt, Krahl u.a.) unterschieden.
Herausgeber der Korpora: Projektgruppe Sprachliche Umbrüche des 20. Jahrhunderts
Das Archiv GFDS, Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (GfdS)
enthält Wörter und Wortgruppen der Sprachdokumentation der GfdS, zum großen Teil mit Verweisen auf die beiden von der GfdS herausgegebenen Zeitschriften Der Sprachdienst und Muttersprache.Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Das Archiv WK-PH der phasengegliederten Wendekorpora
enthält Texte des Wendekorpus (der Zeit der Wende um 1989-1990), die für eine zeitliche Analyse in kurze Phasen gegliedert wurden.
Die Zusammensetzung der Korpora in ihrer Gesamtheit sowie die Vergabe der Korpus-, Dokument- und Textsiglen entsprechen nicht mehr denen des Wendekorpus im Hauptarchiv. Falls auf die Phasengliederung kein Wert gelegt wird, sollte bei der Recherche besser das virtuelle Korpus wk im Archiv W verwendet werden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
In das Archiv W-ÜBRIG der aussortierten geschriebenen Korpora
wurden Korpora geschriebener Sprache wegen erheblicher Qualitätsmängel aussortiert, die sich früher im Archiv W befanden.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Das Archiv SZ der Süddeutschen Zeitung
enthält mehrere Jahrgänge dieser Zeitung, die alle vom Hauptarchiv in dieses Archiv verlagert wurden, um die besonderen Zugriffsrechte verwalten zu können. Dies sind: nur IDS-intern recherchierbar und nur 1 Benutzersitzung gleichzeitig.
Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo
Übersicht über die aktuellen Archive
Archivsigle | Archivname | Texte | Wortformen | Zugriff | Kommentar |
W | Archiv der geschriebenen Sprache | 45.601.359 | 13.369.693.018 | insgesamt | enthält auch die Korpora des ehemaligen Archivs N |
37.749.774 | 11.203.543.725 | öffentlich | |||
7.851.585 | 2.166.149.293 | nicht öffentlich | |||
W2 | Archiv der geschriebenen Sprache | 49.109.472 | 12.929.227.584 | insgesamt | |
49.109.472 | 12.929.227.584 | öffentlich | |||
0 | 0 | nicht öffentlich | |||
W3 | Archiv der geschriebenen Sprache | 55.955.362 | 12.795.945.668 | insgesamt | |
45.656.163 | 9.908.746.745 | öffentlich | |||
10.299.199 | 2.887.198.923 | nicht öffentlich | |||
W4 | Archiv der geschriebenen Sprache | 47.863.490 | 12.057.642.724 | insgesamt | |
47.863.490 | 12.057.642.724 | öffentlich | |||
0 | 0 | nicht öffentlich | |||
WP | Archiv der Wikipedia-Artikel und -Diskussionen | 11.523.223 | 5.543.827.012 | insgesamt | |
8.488.029 | 4.068.391.328 | öffentlich | |||
3.035.194 | 1.475.435.684 | nicht öffentlich | |||
WP_FS | Archiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen | 13.901.865 | 3.585.730.609 | insgesamt | |
13.901.865 | 3.585.730.609 | öffentlich | |||
0 | 0 | nicht öffentlich | |||
WPE | Archiv der englischsprachigen Wikipedia-Artikel und -Diskussionen | 6.341.075 | 2.551.417.366 | insgesamt | |
6.341.075 | 2.551.417.366 | öffentlich | |||
0 | 0 | nicht öffentlich | |||
TAGGED-C | Archiv morphosyntakt. annotierter Korpora (CONNEXOR) | 6.473.537 | 1.505.819.125 | insgesamt | |
4.491.138 | 1.022.895.699 | öffentlich | |||
1.982.399 | 482.923.426 | nicht öffentlich | |||
TAGGED-T | Archiv morphosyntakt. annotierter Korpora (TreeTagger) | 6.474.408 | 1.500.643.070 | insgesamt | |
4.492.013 | 1.020.172.774 | öffentlich | |||
1.982.395 | 480.470.296 | nicht öffentlich | |||
TAGGED-C2 | Archiv morphosyntakt. annotierter Korpora (CONNEXOR) | 5.816.140 | 1.378.829.460 | insgesamt | |
4.642.031 | 1.041.145.843 | öffentlich | |||
1.174.109 | 337.683.617 | nicht öffentlich | |||
TAGGED-T2 | Archiv morphosyntakt. annotierter Korpora (TreeTagger) | 5.816.140 | 1.378.829.459 | insgesamt | |
4.642.031 | 1.041.145.842 | öffentlich | |||
1.174.109 | 337.683.617 | nicht öffentlich | |||
SZ | Archiv der Süddeutschen Zeitung | 453.778 | 155.680.418 | insgesamt | eingeschränkte Zugriffsrechte |
0 | 0 | öffentlich | |||
453.778 | 155.680.418 | nicht öffentlich | |||
HIST | Archiv der historischen Korpora | 5.653 | 69.958.551 | insgesamt | |
5.245 | 66.582.941 | öffentlich | |||
408 | 3.375.610 | nicht öffentlich | |||
W-ÜBRIG | Archiv der aussortierten geschriebenen Korpora | 213.502 | 41.779.139 | insgesamt | ehemalige Korpora aus Archiv W |
410.356 | 93.947.624 | öffentlich | |||
-196854 | -52168485 | nicht öffentlich | |||
TAGGED-M | Archiv der morphosyntaktisch annotierten Korpora | 87.768 | 28.920.298 | insgesamt | |
74.783 | 19.739.444 | öffentlich | |||
12.985 | 9.180.854 | nicht öffentlich | |||
WK-PH | Archiv der phasengegliederten Wendekorpora | 3.356 | 3.229.198 | insgesamt | |
3.356 | 3.229.198 | öffentlich | |||
0 | 0 | nicht öffentlich | |||
UMB | Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts" | 9.741 | 2.352.540 | insgesamt | |
0 | 0 | öffentlich | |||
9.741 | 2.352.540 | nicht öffentlich | |||
GFDS | Kartei der Gesellschaft für deutsche Sprache | 1 | 343.607 | insgesamt | |
0 | 0 | öffentlich | |||
1 | 343.607 | nicht öffentlich | |||
Alle Archive | 255.649.870 | 68.899.868.846 | insgesamt | einige Texte mehrfach gezählt | |
227.870.821 | 60.613.559.446 | öffentlich | |||
27.779.049 | 8.286.309.400 | nicht öffentlich | |||