Erweiterte Korpusbildung

Zielsetzung

Der Umfang der IDS-Korpora, die in COSMAS II angeboten werden, ist beachtlich: Im Archiv W stehen Anfang 2013 ca. 5,4 Mrd. laufenden Wortformen aus 20 Mio. Texten für die Recherche zur Verfügung. Für die Suche in den Korpora werden vordefinierte virtuelle Korpora angeboten: man kann entweder die Gesamtmenge W-gesamt bzw. W-öffentlich (für den externen Zugang) wählen oder sich für eines der zahlreichen virtuellen Korpora wie mm (Mannheimer Morgen), bio (eine Zusammenfassung biografischer literarischer Texte) oder ozk (eine Zusammenfassung österreichischer Zeitungskorpora) entscheiden, siehe hierzu die Übersicht über die virtuellen Korpora. Die vordefinierten virtuellen Korpora dienen in erster Linie dazu, eine Übersicht über die zahlreichen und sehr unterschiedlichen Korpora anzubieten und Suchanfragen ganz grob auf gewisse Bereiche zu beschränken.

Wichtiger für die Untersuchung spezieller Fragestellungen ist es, dass man sich ein oder mehrere virtuelle Korpora nach feineren, auf Textebene definierten Kriterien zusammenstellen kann. Dies erfolgt im Rahmen sogenannter virtueller Benutzerkorpora, die in COSMAS II definiert werden und sitzungsübergreifend aktiviert werden können.

Für die Korpusbildung können sowohl textinterne als auch -externe Kriterien herangezogen werden. Textexterne Kriterien betreffen z.B. die Gliederung der Texte in (IDS-)Dokumente, Korpora und Quellen oder bibliografische Angaben wie das Entstehungsdatum, das Erscheinungsland und die Autoren. Die textinternen Kriterien werden sozusagen aus den Texten berechnet und betreffen z.B. die Textlänge. Mischformen sind in COSMAS II textklassifikatorische Eigenschaften wie die Textsorte und das Thema, die entweder manuell von den Verlagen zugeordnet oder maschinell hier am IDS errechnet wurden.

Bisherige Korpusbildung in COSMAS II

Bisher wurden Benutzerkorpora entweder über die grafischen Benutzeroberflächen von den Benutzern selber zusammengestellt oder von den Administratoren über ein externes Werkzeug definiert und erstellt. Die Kriterien beschränkten sich im ersten Fall auf die IDS-Dokumente, mit deren Hilfe Teile von Korpora, korpusübergreifende und zeitliche Selektionen (auf Jahres- und Monatsebene) zusammengestellt werden konnten. Den Administratoren standen außerdem die Möglichkeiten zur Verfügung, beliebige Zusammenstellungen von Texten zu übernehmen und Bestandteile von virtuellen Korpora durch Zufallsreduktion zu gewichten.

Erweiterte Korpusbildung

Durch die Erweiterung können alle oben erwähnten Kriterien zur Bildung eines virtuellen Korpus herangezogen werden. Das sind:

Quellenname
Korpusname
Dokumentname
Jahresbereiche in der Form: »1990/01 - 1999/12« oder »1920-2010 und 01-02«
Textsorten und Thema
Erscheinungsland
Textlängenbereich, z.B. 100-10000 Wörter

Alle diese Angaben können wie folgt miteinander kombiniert werden:

beliebige Angaben können kummuliert werden
es kann die Schnittmenge beliebiger Angaben erstellt werden
Angaben können auf einen Wert zwischen 1-99% reduziert werden

Beispiele von erweiterten Korpusdefinitionen

Beispiel 1: Bildung eines Benutzerkorpus bestehend aus 3 Textsorten, die wie folgt reduziert werden sollen, damit ein ausgewogenes Korpus entsteht (Anpassung an die Textsorte mit der geringsten Anzahl Texte):

Textsorte:
- Kommentare, Reduzierung auf 16,6%
- Leserbrief, Reduzierung auf 11,1%
- Meldung, keine Reduzierung

Beispiel 2: Bildung eines Benutzerkorpus aus Texten zum Thema Sport (mit Verlässlichkeitsfaktor 90%) für die Jahrgänge der olympischen Sommerspiele seit 1948 und die ungefähre Zeit der Berichterstattung:

Thema:
- Sport: Ballsport
- Sport: Bussball
- Sport: Motorsport
- Sport: Radsport
- Sport: Tennis
- Sport: Vermischtes
- Sport: Wintersport (ausgeschlossen)
UND
- Verlässlichkeit der maschinellen Zuordnung der Themen = 90%
UND zeitlicher Bereich:
- Jahr = 1948 und Monat = Jul - Aug
- Jahr = 1952 und Monat = Jul - Aug
- Jahr = ...
- Jahr = 2004 und Monat = Jul - Aug
- Jahr = 2008 und Monat = Jul - Aug
- Jahr = 2012 und Monat = Jul - Aug

Beispiel 3: Bildung eines komplementären Benutzerkorpus zu 2 bestehend aus Texten zum Thema Sport für die Zeiten außerhalb der olympischen Sommerspiele seit 1948:

Thema:
- Sport: Ballsport
- Sport: Bussball
- Sport: Motorsport
- Sport: Radsport
- Sport: Tennis
- Sport: Vermischtes
- Sport: Wintersport (ausgeschlossen)
UND
- Verlässlichkeit der maschinellen Zuordnung der Themen = 90%
UND zeitlicher Bereich:
- 1948/Jan bis 1948/Jun
- 1948/Sep bis 1952/Jun
- ...
- 2004/Sep bis 2008/Jun
- 2008/Sep bis 2012/Jun
- 2012/Sep bis 2016/Jun

Beispiel 4: Bildung eines Benutzerkorpus bestehend aus Analysen, Berichten, Dokumentationen, Kommentaren, etc. zum Thema Finanzen in den Dezembermonaten der letzten 20 Jahre in Schweizer Texten mit einer Textlänge von 100 - 1.000 Wörter.

Thema:
- Wirtschaft Finanzen: Banken
- Wirtschaft Finanzen: Bilanzen
- Wirtschaft Finanzen: Oeffentliche Finanzen
- Wirtschaft Finanzen: Sozialprodukt
- Wirtschaft Finanzen: Waehrung
UND Textsorte:
- Analyse
- Bericht
- Dokumentation
- Kommentar
UND Jahresbereich:
- Jahr = 1994 - 2013 und Monat = Dez
UND Erscheinungsland:
- CH
UND Textlänge:
- 100 - 1000

Verfügbarkeit

Solchermaßen erstellte virtuelle Benutzerkorpora stehen in allen COSMAS II-Applikationen zur Verfügung und können für Recherchen aktiviert werden.

Für deren Erstellung sind gegenwärtig die bestehenden Benutzeroberflächen allerdings noch nicht umgestellt worden. Wer für die Arbeit mit COSMAS II selbstdefinierte erweiterte Benutzerkorpora einsetzen möchte, kann gerne eine Anfrage an die Administratoren richten.

COSMAS II, Programmbereich Korpuslinguistik - 18. 01. 2018