[IDS-Logo] COSMAS II - Erweiterte Korpusbildung

Erweiterte Korpusbildung

Zielsetzung

Der Umfang der IDS-Korpora, die in COSMAS II angeboten werden, ist beachtlich: Im Archiv W stehen Anfang 2013 ca. 5,4 Mrd. laufenden Wortformen aus 20 Mio. Texten für die Recherche zur Verfügung. Für die Suche in den Korpora werden vordefinierte virtuelle Korpora angeboten: man kann entweder die Gesamtmenge W-gesamt bzw. W-öffentlich (für den externen Zugang) wählen oder sich für eines der zahlreichen virtuellen Korpora wie mm (Mannheimer Morgen), bio (eine Zusammenfassung biografischer literarischer Texte) oder ozk (eine Zusammenfassung österreichischer Zeitungskorpora) entscheiden, siehe hierzu die Übersicht über die virtuellen Korpora. Die vordefinierten virtuellen Korpora dienen in erster Linie dazu, eine Übersicht über die zahlreichen und sehr unterschiedlichen Korpora anzubieten und Suchanfragen ganz grob auf gewisse Bereiche zu beschränken.

Wichtiger für die Untersuchung spezieller Fragestellungen ist es, dass man sich ein oder mehrere virtuelle Korpora nach feineren, auf Textebene definierten Kriterien zusammenstellen kann. Dies erfolgt im Rahmen sogenannter virtueller Benutzerkorpora, die in COSMAS II definiert werden und sitzungsübergreifend aktiviert werden können.

Für die Korpusbildung können sowohl textinterne als auch -externe Kriterien herangezogen werden. Textexterne Kriterien betreffen z.B. die Gliederung der Texte in (IDS-)Dokumente, Korpora und Quellen oder bibliografische Angaben wie das Entstehungsdatum, das Erscheinungsland und die Autoren. Die textinternen Kriterien werden sozusagen aus den Texten berechnet und betreffen z.B. die Textlänge. Mischformen sind in COSMAS II textklassifikatorische Eigenschaften wie die Textsorte und das Thema, die entweder manuell von den Verlagen zugeordnet oder maschinell hier am IDS errechnet wurden.

Bisherige Korpusbildung in COSMAS II

Bisher wurden Benutzerkorpora entweder über die grafischen Benutzeroberflächen von den Benutzern selber zusammengestellt oder von den Administratoren über ein externes Werkzeug definiert und erstellt. Die Kriterien beschränkten sich im ersten Fall auf die IDS-Dokumente, mit deren Hilfe Teile von Korpora, korpusübergreifende und zeitliche Selektionen (auf Jahres- und Monatsebene) zusammengestellt werden konnten. Den Administratoren standen außerdem die Möglichkeiten zur Verfügung, beliebige Zusammenstellungen von Texten zu übernehmen und Bestandteile von virtuellen Korpora durch Zufallsreduktion zu gewichten.

Erweiterte Korpusbildung

Durch die Erweiterung können alle oben erwähnten Kriterien zur Bildung eines virtuellen Korpus herangezogen werden. Das sind:

Alle diese Angaben können wie folgt miteinander kombiniert werden:

Beispiele von erweiterten Korpusdefinitionen

Beispiel 1: Bildung eines Benutzerkorpus bestehend aus 3 Textsorten, die wie folgt reduziert werden sollen, damit ein ausgewogenes Korpus entsteht (Anpassung an die Textsorte mit der geringsten Anzahl Texte):

Beispiel 2: Bildung eines Benutzerkorpus aus Texten zum Thema Sport (mit Verlässlichkeitsfaktor 90%) für die Jahrgänge der olympischen Sommerspiele seit 1948 und die ungefähre Zeit der Berichterstattung:

Beispiel 3: Bildung eines komplementären Benutzerkorpus zu 2 bestehend aus Texten zum Thema Sport für die Zeiten außerhalb der olympischen Sommerspiele seit 1948:

Beispiel 4: Bildung eines Benutzerkorpus bestehend aus Analysen, Berichten, Dokumentationen, Kommentaren, etc. zum Thema Finanzen in den Dezembermonaten der letzten 20 Jahre in Schweizer Texten mit einer Textlänge von 100 - 1.000 Wörter.

Verfügbarkeit

Solchermaßen erstellte virtuelle Benutzerkorpora stehen in allen COSMAS II-Applikationen zur Verfügung und können für Recherchen aktiviert werden.

Für deren Erstellung sind gegenwärtig die bestehenden Benutzeroberflächen allerdings noch nicht umgestellt worden. Wer für die Arbeit mit COSMAS II selbstdefinierte erweiterte Benutzerkorpora einsetzen möchte, kann gerne eine Anfrage an die Administratoren richten.

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018