Fenster "Korpusanzeige"
Die verschiedenen Darstellungsformen (Ansichten) der Korpuszusammensetzung
- Quellenansicht
- Korpusansicht
- Dokumentansicht
- diverse Datumsansichten
- Laenderansicht
- Textklassifikationsansichten
Seit der Serverversion 4.2 (Juli 2012) werden die Korpusansichten durch optionale1 Angaben zur prozentualen Verteilung der Anzahl Texte und Anzahl laufende Wortformen ergänzt. Man kann außerdem wählen, ob diese Werte grau oder normal dargestellt werden sollen.
Quellenansicht
Aufruf: Menü Ansicht / Quellenansicht
In dieser Darstellungsform werden die im aktuellen Korpus aktiven Texte korpusübergreifend zu Quellen zusammengefasst und aufgelistet. Für jede Quelle wird folgende Information angezeigt:
- Anzahl der Texte
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- Jahr des ältesten Textes
- Jahr des jüngsten Textes
- Quellenbezeichnung
Wirkungsweise
Die Quellenansicht wirkt sich korpusübergreifend wie folgt aus:
- Bei Zeitungskorpora fasst die Quellenansicht alle Texte aller Jahrgänge zu einer einzigen Quelle zusammen. Z.B. für die Berliner Zeitung ergibt sich der Eintrag Berliner Zeitung. Dabei werden korpusübergreifend Texte aus verschiedenen angestammten Korpora zusammengefasst, in diesem Fall aus BZT - Berliner Zeitung und WKD - Wendekorpus Ost. Im Vergleich dazu wird das gleiche Korpus in der Korpusansicht mit einem Eintrag pro Jahr dargestellt: B97, B98, B99, etc..
- Bei gemischten Korpora oder sogenannten Projektkorpora (Korpora, die von einem Projektteam aus verschiedenen Quellen und auf Grund bestimmter Kriterien zusammengetragen wurden) wie z.B. das LIMAS-Korpus, die Mannheimer Korpora MK1 und Mk2 oder die Wendekorpora WKB, WKD und WDV sind die Quellen besonders gemischt. Während in der Korpusansicht nur ein Oberbegriff für das gesamte Korpus angezeigt wird, z.B. LIMAS-Korpus, werden in der Quellenansicht ca. 60 Quellen sichtbar: Deutsche Medizinische Wochenzeitschrift, Brigitte, Der Spiegel, VDI-Z, usw..
Hinweis
Die Quellenansicht befindet sich noch im Aufbau. Für einige gemischte Korpora wie MK1 und MK2 können noch nicht für alle Texte die Quelle angegeben werden. Da wo die Quelle noch nicht angezeigt werden kann, erscheint die übergeordnete Korpusbezeichnung (in diesem Fall MK1 Mannheimer Korpus 1 oder MK2 Mannheimer Korpus 2.
Korpusansicht
Aufruf: Menü Ansicht / Korpusansicht
In dieser Darstellungsform werden die Korpussiglen aufgelistet, die im aktuellen Korpus mindestens einen aktiven Text enthalten. Für jede Korpussigle werden folgende Daten angezeigt:
- Anzahl der Texte
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- Jahr des ältesten Textes
- Jahr des jüngsten Textes
- Korpusbezeichnung
Wirkungsweise
Die Korpusansicht fasst Texte nach ihrem Korpusbezeichner, der verschiedene Funktionen haben kann, zusammen:
- Bei Zeitungskorpora umfasst ein Korpus alle Texte eines Jahrgangs. In der Korpusansicht sieht man demzufolge z.B. B97 Berliner Zeitung 1997, B98 Berlinzer Zeitung, 1998, usw..
- Bei gemischten Korpora oder Projektkorpora fasst ein Korpus Texte verschiedener Herkunft zusammen, die für die Zwecke eines Projektes gesammelt wurden, so z.B. das LIMAS-Korpus, die Mannheimer Korpora MK1 und MK2, usw..
Dokumentansicht
Aufruf: Menü Ansicht / Dokumentansicht
In dieser Darstellungsform werden die im aktuellen Korpus aktiven Dokumente aufgelistet. Für jedes Dokument wird folgende Information angezeigt:
- Anzahl der Texte
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- Dokumentbezeichnung
Wirkungsweise
Ein Dokument in der Dokumentansicht fasst Texte (von 1 Text bis zu mehreren Tausend) je nach Korpuszugehörigkeit nach unterschiedlichen Kriterien zusammen. Anbei seien einige Beispiele zur Veranschaulichung aufgeführt:
Bei Zeitungskorpora wird üblicherweise eine Monatsausgabe zu einem Dokument zusammengefasst.
Bei gemischten Korpora kann das Gliederungskriterium eins der folgenden sein:
- In einem Sammelband mehrerer Autoren (z.B. Belletristik) werden die Schriften eines einzelnen Autors zu 1 Dokument zusammengefasst.
- In einem Sammelband eines einzigen Autors (z.B. Belletristik) werden die Schriften einer einzelnen Gattung (z.B. Briefe, Romane, Essays, usw.) zu 1 Dokument zusammengefasst.
- In einem gemischten Korpus wie dem Mannheimer Korpus MK1/MK2 werden Autoren, Zeitungsverlage und Epochen als Kriterien für die Zusammenfassung zu Dokumenten genommen.
- usw.
Diverse Datumsansichten
Aufruf: Menü Ansicht / Datumsansicht X
Unter dem Begriff Datumsansicht X stehen 5 verwandte Ansichten zur Verfügung:
- Ansicht vor/nach Zeitpunkt
- Ansicht nach Jahrzehnt
- Ansicht nach Entstehungsjahr
- Ansicht nach Entstehungsmonat
- Ansicht nach Entstehungstag
Für jede dieser Darstellungsarten werden folgende Daten angezeigt:
- die Anzahl der aktiven Texte
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- die Zeitangabe
Wirkungsweise
Die Ansicht vor/nach Zeitpunkt teilt die Texte in die Zeiten vor und nach einem vom Benutzer freiwählbaren Zeitpunkt ein.
Die Ansicht nach Jahrzehnt fasst die Texte zu Jahrzehnten zusammen (siehe Entstehungsjahr).
Die Ansicht nach Entstehungsjahr fasst die Texte nach dem Jahr ihres Entstehens zusammen. Für die Texte ist diese Angabe in der Regel immer bekannt.
Die Ansicht nach Entstehungsmonat ist eine Verfeinerung der Ansicht nach Entstehungsjahr auf der Monatsebene. Die Monatsangabe ist allerdings nicht immer bekannt oder sinnvoll.
Die Ansicht nach Entstehungstag ist eine Verfeinerung der Ansicht nach Entstehungsjahr auf der Tagesebene. Die tagessangabe ist allerdings nicht immer bekannt oder sinnvoll.
Länderansicht
Aufruf: Menü Ansicht / Länderansicht
In dieser Darstellungsform werden Länder des deutschsprachigen Raums aufgelistet, die im aktuellen Korpus mindestens einen aktiven Text enthalten. Für jedes Land werden folgende Daten angezeigt:
- Anzahl der Texte
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Jahr des ältesten Textes
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- Jahr des jüngsten Textes
- Quellenbezeichnung
Wirkungsweise
Die Länderansicht wirkt sich korpusübergreifend aus und erfasst D füer Deutschland, A für Österreich und CH fü die Schweiz.
Hinweis
Die Länderansicht befindet sich noch im Aufbau. Für einige Texte kann sich die Zuordnung zu einem Land noch ändern.
Textsortenansicht
Aufruf: Menü Ansicht / Textsortenansicht
Die Textsortenansicht ist eine der beiden Textklassifikationen, die in COSMAS II ab der Serverversion 4.2 (Juli 2012) angeboten wird.
Für jede Textsorte werden folgende Daten angezeigt:
- Anzahl der Texte
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- Jahr des ältesten Textes
- Jahr des jüngsten Textes
- Textsortenbezeichnung
Themenansicht
Aufruf: Menü Ansicht / Themenansicht
Die Themenansicht ist eine der beiden Textklassifikationen, die in COSMAS II ab der Serverversion 4.2 (Juli 2012) angeboten wird.
Für jedes Thema werden folgende Daten angezeigt:
- Anzahl der Texte
- prozentualer Anteil dieser Texte am Gesamtkorpus (optional)
- Anzahl laufende Textwörter
- prozentualer Anteil dieser Wörter am Gesamtkorpus (optional)
- Jahr des ältesten Textes
- Jahr des jüngsten Textes
- Themabezeichnung
Wirkungsweise
Im Gegensatz zu den Textsorten wurde die thematische Klassifizierung eines Teils der Texte maschinell erstellt: jedem der von diesem Algorithmus analysierten Texte wurde mit einem Thema und einem Wert zwischen 1-100%, der ausdrückt, wie sicher die Zuordnung aus der Sicht des Algorithmus erfolgt ist, versehen. Die Anzeige dieser Ansicht lässt sich über eine eigene Option Zuverlässigkeitswert steuern. Texte, die den eingestellten Zuverlässigkeitswert unterschreiten oder die vom maschinellen Prozess nicht erfasst wurden, werden unter dem Eintrag »undefiniert« zusammengefasst.
Option Zuverlässigkeitswert
Die Option Zuverlässigkeitswert verfügt über kein Menü in der grafischen Oberfläche von COSMAS IIwin, sondern muss mit dem Kommando:
#SET Thema-Prob = Wert (Wert zwischen 0 … 100)
gesetzt werden.