Archive

Allgemeines

Archive sind eine Art Sammelstellen, denen Korpora zur Lagerung zugeführt werden. Archive stellen zugleich den maximalen Suchraum einer Recherche dar, d.h. mit einer Recherche kann lediglich ein einziges Archiv durchsucht werden. Suchanfragen, die über mehrere Archive ausgewertet werden sollen, müssen wiederholt für jedes relevante Archiv gestartet werden.

Die Aufteilung unserer Korpora in verschiedene Archive spiegelt die Unterschiede in der Zusammensetzung, im Bearbeitungszustand, im Format und in anderen grundlegenden Merkmalen der Korpora wieder.

Die 624 COSMAS II-Korpora sind in 18 Archiven organisiert:

Archiv der geschriebenen Korpora (das Hauptarchiv)
drei Archive der geschriebenen Korpora mit Neuakquisitionen der "GBI-Genios Deutsche Wirtschaftsdatenbank GmbH"
Archiv der Wikipedia-Artikel und -Diskussionen (2015/2017/2019)
Archiv der englischsprachigen Wikipedia-Artikel und -Diskussionen (2015)
Archiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen (2015)
Archiv morphosyntaktisch annotierter Korpora (CONNEXOR-Tagset) (1994-2009)
Archiv morphosyntaktisch annotierter Korpora (CONNEXOR-Tagset) (2010-2014)
Archiv morphosyntaktisch annotierter Korpora (TreeTagger-Tagset) (1994-2009)
Archiv morphosyntaktisch annotierter Korpora (TreeTagger-Tagset) (2010-2014)
Archiv morphosyntaktisch annotierter Korpora (MECOLB-Tagset)
Archiv der historischen Korpora
Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"
Korpus-Kartei der Gesellschaft für deutsche Sprache
Archiv der phasengegliederten Wendekorpora
Archiv der aussortierten geschriebenen Korpora
Archiv der Süddeutschen Zeitung

Umfang der Archive im Laufe der Zeit

Die wichtigsten Archive wachsen mit jeder Aktualisierung von DeReKo. Hier erfahren Sie mehr über den Umfang der Archive für verschiedene DeReKo-Releases.

Hintergrundinformationen zu den Archiven

Das Archiv W der geschriebenen Korpora

ist das größte dieser Archive. Es umfasst Texte vom 18. Jahrhundert bis heute und enthält auch die größte Bandbreite an Textsorten. Die darin enthaltenen Zeitungen und Zeitschriften werden regelmäßig mit Neuerscheinungen ergänzt. Andere neuakquirierte Quellen gelangen hingegen in die anderen Archive W2-W4.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Beachten Sie bei einigen Korpora dieses Archivs die spezielle Codierung.

Die Archive W2, W3 und W4 der geschriebenen Korpora

enthalten die Neuakquisitionen der GBI-Genios Deutsche Wirtschaftsdatenbank GmbH. Zurzeit sind das Zeitschriften aus Deutschland, Österreich und der Schweiz ab dem Jahr 2000, die in alphabetischer Reihenfolge der Quellen auf die drei Archive verteilt wurden. Außerdem ergänzen sie die geografische Abdeckung der Quellen von W. Sie werden kontinuierlich mit den neuesten Ausgaben aufgefüllt.

Die Archive W bis W4 wurden nur aus technischen Gründen in separate Archive aufgeteilt und lassen sich für Recherchen nicht verbinden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Wikipedia-Archiv WP

enthält zusätzlich zu den Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus den Jahren 2013 und 2015. Bitte beachten Sie die Hinweise zu Fußnoten.

Herausgeber der Korpora: de.wikipedia.org

Das Wikipedia-Archiv WPE

enthält zusätzlich zu den englischsprachigen Wikipedia-Artikeln Artikel- und Benutzerdiskussionen aus dem Jahr 2015. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.

Herausgeber der Korpora: en.wikipedia.org

Das Wikipedia-Archiv WP_FS

enthält fremdsprachige Wikipedia-Artikel, -Artikeldiskussionen und -Benutzerdiskussionen, Stand 2015. Französisch, Ungarisch, Norwegisch, Spanisch, Kroatisch, Italienisch, Polnisch. Bitte beachten Sie die Hinweise zu Fußnoten und Tokenisierung.

Herausgeber der Korpora: wikipedia.org

Das Archiv TAGGED-C (ehemals W-TAGGED)

enthält zurzeit etwa 40% der Texte mit Erscheinungsdatum bis Ende 2009 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.

Das Archiv TAGGED-C2

enthält zurzeit Texte mit Erscheinungsdatum ab Anfang 2010 aus dem Archiv W, die mit Hilfe des CONNEXOR-Taggers morphosyntaktisch annotiert wurden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.

Das Archiv TAGGED-T

enthält die gleichen Korpora wie TAGGED-C und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.

Das Archiv TAGGED-T2

enthält die gleichen Korpora wie TAGGED-C2 und wurde mit Hilfe des TreeTaggers und aufgrund des STTS-Tagsets morphosyntaktisch annotiert.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.

Das Archiv TAGGED-M (ehemals TAGGED)

Diese auf der Grundlage des MECOLB-Minimal Tagsets morphosyntaktisch annotierten Korpora wurden schon vor einigen Jahren in einer ersten Versuchsreihe über COSMAS II verfügbar gemacht. Mit ca. 30 Mio. laufenden Wortformen umfassen sie nicht ganz 1% des gegenwärtigen Archiv W (Stand: Januar 2011).

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Lesen Sie hierzu die Bemerkungen zum Umgang mit morphosyntaktisch annotierten Korpora.

Das Archiv HIST der historischen Korpora

enthält Texte von der zweiten Hälfte des 17. Jahrhunderts bis 1962. Darunter fallen zum einen die Texte, die vom Projekt Historisches Textkorpus zusammengestellt oder angeworben wurden. Zum anderen werden dort Korpora aufgeführt, die auch im Hauptarchiv W verfügbar sind, deren Texte dem Entstehungsdatum nach aber eher den historischen Korpora zugeordnet werden können.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo, Projektgruppe Historisches Korpus

Beachten Sie bei einigen Korpora dieses Archivs die spezielle Codierung.

Das Archiv UMB des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"

enthält Texte von 1945 bis 1969.

Das Korpus UMB45 umfasst Texte, die den Schulddiskurs der ersten Nachkriegsdekade (1945-1955) repräsentieren. Autoren und Autorinnen sind Opfer, Täter oder Nichttäter. Das Korpus der Opfertexte besteht aus monographischen Erzählungen über Verfolgung, Zuchthauserlebnisse und Lagererfahrungen. Die Beiträge der Täter stammen aus Gerichtsprotokollen, Tagebüchern und Autobiographien. Das Korpus der Nichttäter-Texte besteht aus Aufrufen, Reden, Regierungserklärungen, Ansprachen, Briefen, Tagebuchaufzeichnungen, Artikeln, Vorträgen, Gründungsprotokollen, programmatischen Schriften, Predigten, Hirtenworten, Essays, zeitkritischen monografischen Analysen, Dramen, Romanen und Kongressprotokollen.

Im Korpus UMB68 sind vor allem solche Texte der späten 1960er Jahre enthalten, die Demokratiekonzepte der Kritischen Theorie und die Rezeption dieser Konzepte durch die studentische Linke repräsentieren. Die Autoren dieser Texte sind nach den beiden Beteiligtenrollen 'intellektuelle Linke' (Adorno, Horkheimer, Habermas u.a.) und 'studentische Linke' (Dutschke, Rabehl, Negt, Krahl u.a.) unterschieden.

Herausgeber der Korpora: Projektgruppe Sprachliche Umbrüche des 20. Jahrhunderts

Das Archiv GFDS, Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (GfdS)

enthält Wörter und Wortgruppen der Sprachdokumentation der GfdS, zum großen Teil mit Verweisen auf die beiden von der GfdS herausgegebenen Zeitschriften Der Sprachdienst und Muttersprache.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv WK-PH der phasengegliederten Wendekorpora

enthält Texte des Wendekorpus (der Zeit der Wende um 1989-1990), die für eine zeitliche Analyse in kurze Phasen gegliedert wurden.

Die Zusammensetzung der Korpora in ihrer Gesamtheit sowie die Vergabe der Korpus-, Dokument- und Textsiglen entsprechen nicht mehr denen des Wendekorpus im Hauptarchiv. Falls auf die Phasengliederung kein Wert gelegt wird, sollte bei der Recherche besser das virtuelle Korpus wk im Archiv W verwendet werden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

In das Archiv W-ÜBRIG der aussortierten geschriebenen Korpora

wurden Korpora geschriebener Sprache wegen erheblicher Qualitätsmängel aussortiert, die sich früher im Archiv W befanden.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Das Archiv SZ der Süddeutschen Zeitung

enthält mehrere Jahrgänge dieser Zeitung, die alle vom Hauptarchiv in dieses Archiv verlagert wurden, um die besonderen Zugriffsrechte verwalten zu können. Dies sind: nur IDS-intern recherchierbar und nur 1 Benutzersitzung gleichzeitig.

Herausgeber der Korpora: Deutsches Referenzkorpus - DeReKo

Übersicht über die aktuellen Archive

Archivsigle	Archivname	Texte	Wortformen	Zugriff	Kommentar
W	Archiv der geschriebenen Sprache	46.401.058	13.680.995.848	insgesamt	enthält auch die Korpora des ehemaligen Archivs N
		38.347.396	11.431.418.871	öffentlich
		8.053.662	2.249.576.977	nicht öffentlich
W2	Archiv der geschriebenen Sprache	50.717.238	13.602.741.481	insgesamt
		50.717.238	13.602.741.481	öffentlich
		0	0	nicht öffentlich
W3	Archiv der geschriebenen Sprache	58.029.134	13.418.974.878	insgesamt
		45.656.163	9.908.746.745	öffentlich
		12.372.971	3.510.228.133	nicht öffentlich
W4	Archiv der geschriebenen Sprache	49.155.795	12.461.072.857	insgesamt
		49.155.795	12.461.072.857	öffentlich
		0	0	nicht öffentlich
WP_FS	Archiv der fremdsprachigen Wikipedia-Artikel und -Diskussionen	13.901.865	3.585.730.609	insgesamt
		13.901.865	3.585.730.609	öffentlich
		0	0	nicht öffentlich
WPE	Archiv der englischsprachigen Wikipedia-Artikel und -Diskussionen	6.341.075	2.551.417.366	insgesamt
		6.341.075	2.551.417.366	öffentlich
		0	0	nicht öffentlich
TAGGED-C	Archiv morphosyntakt. annotierter Korpora (CONNEXOR)	6.473.537	1.505.819.125	insgesamt
		4.491.138	1.022.895.699	öffentlich
		1.982.399	482.923.426	nicht öffentlich
TAGGED-T	Archiv morphosyntakt. annotierter Korpora (TreeTagger)	6.474.408	1.500.643.070	insgesamt
		4.492.013	1.020.172.774	öffentlich
		1.982.395	480.470.296	nicht öffentlich
TAGGED-C2	Archiv morphosyntakt. annotierter Korpora (CONNEXOR)	5.816.140	1.378.829.460	insgesamt
		4.642.031	1.041.145.843	öffentlich
		1.174.109	337.683.617	nicht öffentlich
TAGGED-T2	Archiv morphosyntakt. annotierter Korpora (TreeTagger)	5.816.140	1.378.829.459	insgesamt
		4.642.031	1.041.145.842	öffentlich
		1.174.109	337.683.617	nicht öffentlich
SZ	Archiv der Süddeutschen Zeitung	453.778	155.680.418	insgesamt	eingeschränkte Zugriffsrechte
		0	0	öffentlich
		453.778	155.680.418	nicht öffentlich
HIST	Archiv der historischen Korpora	5.653	69.958.551	insgesamt
		5.245	66.582.941	öffentlich
		408	3.375.610	nicht öffentlich
W-ÜBRIG	Archiv der aussortierten geschriebenen Korpora	213.502	41.779.139	insgesamt	ehemalige Korpora aus Archiv W
		410.356	93.947.624	öffentlich
		-196854	-52168485	nicht öffentlich
TAGGED-M	Archiv der morphosyntaktisch annotierten Korpora	87.768	28.920.298	insgesamt
		74.783	19.739.444	öffentlich
		12.985	9.180.854	nicht öffentlich
WK-PH	Archiv der phasengegliederten Wendekorpora	3.356	3.229.198	insgesamt
		3.356	3.229.198	öffentlich
		0	0	nicht öffentlich
UMB	Archiv des Projekts "Sprachliche Umbrüche des 20. Jahrhunderts"	9.741	2.352.540	insgesamt
		0	0	öffentlich
		9.741	2.352.540	nicht öffentlich
GFDS	Kartei der Gesellschaft für deutsche Sprache	1	343.607	insgesamt
		0	0	öffentlich
		1	343.607	nicht öffentlich

Alle Archive		249.900.189	65.367.317.904	insgesamt	einige Texte mehrfach gezählt
		222.880.485	57.849.987.294	öffentlich
		27.019.704	7.517.330.610	nicht öffentlich