[IDS-Logo] COSMAS II: Kookkurrenzanalyse: Begrenzung des Kontextes

Begrenzung des Kontextes

Diese Seite sollten Sie lesen, wenn Sie beabsichtigen, eine Kookkurrenzanalyse über eine größere Treffermenge (ab ca. 200.000 Treffern) auszuführen. Beachten Sie bitte bei der Wahl des zu analysierenden Kontextes folgende Hinweise zu dessen Begrenzung.

Analytische Begrenzung

Nach einigem Experimentieren mit diversen Kontextgrößen hat sich gezeigt, dass gute Ergebnisse nur bis zu einem relativ engen Kontext von ca. 20 Wörtern links und rechts der Treffer erzielt werden können. Erweitert man den Kontext weiter, werden die zuvor ermittelten Kollokatoren durch die große Anzahl der neu hinzukommenden Wörter wieder abgeschwächt. Aus diesem Grund ist der einstellbare Kontext zu beiden Seiten des ersten Trefferwortes per Default auf 20 Wörter begrenzt.

Wer sich durch einen wesentlich breiteren Kontext erhofft, semantische Beziehungen im Text zu den Treffern extrahieren zu können, muss an dieser Stelle enttäuscht werden: dies kann mit dieser statistischen Analysemethode nicht erreicht werden.

Technische Begrenzung

Aus technischen Gründen muss die Größe des zu analysierenden Kontextes in COSMAS II begrenzt werden, um ungewollt lange Wartezeiten und eine überhöhte Belastung des Systems zu vermeiden. Die Größe der maximal analysierbaren Wortmenge wird wie folgt berechnet:

N = Anzahl der Treffer = Anzahl der KWIC-Zeilen.
Breite = Breite des eingestellten Kontextes [Anz. Wörter].

analysierte Wortmenge = N x Breite

Die so berechnete, maximal analysierbare Wortmenge ist mit der Version 4 der Kookkurrenzanalyse auf gegenwärtig 100 Mio. Wörter heraufgesetzt worden (Stand: Januar 2021).

Beispiel

N = 100.000 Treffer = 100.000 KWIC-Zeilen.
Breite = 10, bei eingestelltem Kontext von 5 Wörtern vorher/5 Wörtern nachher.

analysierte Wortmenge = 1 Mio. Wörter

Die folgenden Fallbeispiele sollen ein Gefühl dafür vermitteln, welche Wartezeiten in Relation zu eingestellter Kontextgröße und zu analysierenden Treffermenge zu erwarten sind. Diese Zahlen sind Durschschnittswerte und wurden bei normal belastetem Betrieb gemessen.

Bei der Durchführung einer Kookkurrenzanalyse wird die gesamte Wartezeit aus mehreren Schritten berechnet: das Laden der Treffer und ihrer Kontexte, diverse andere Vorbereitungen wie Bestimmung der Wortfrequenzen (in der Tabelle nicht dargestellt) und die reine Kookkurrenzanalyse.

Fallbeispiel 1

Suchanfrage
Anz.
KWIC-Zeilen
[Anz. Treffer]
Kontext Wortmenge
[Anz. Wörter]
Laden des
Kontextes
[s]
reine
Analyse
[s]
Wartezeit
total [s]
&blau 740'000 5/5 7,4 Mio. 170s 10s 184s
&blau 740'000 10/10 14,8 Mio. 250s 14s 266s
&blau or &grau 1,1 Mio. 10/10 22 Mio. 380s 20s 406s
&blau or &grau 1,1 Mio. 15/15 33 Mio. 450s 44s 502s
&blau or &grau or &rot or &grün 7 Mio. 2/3 35 Mio. 1021s 29s 1070s
&blau or &grau or &rot or &grün 7 Mio. 7/7 99 Mio. 1900s 124s 2066s

Wie man dieser Tabelle entnehmen kann, entfällt der Hauptanteil der Wartezeit auf das Laden der Treffer und ihres Kontextes.

Fallbeispiel 2

Welche Wartezeiten sind im Rahmen eines COSMAS II-Workhops in Relation zur Anz. der Teilnehmer zu erwarten. Mit zunehmender Teilnehmerzahl, gepaart mit zunehmder Treffermenge, nimmt die Belastung des Systems zu, was sich auf die Wartezeiten auswirkt. Für das folgende Beispiel haben wir eine unproblematische Suchanfrage genommen, nämlich das Wort Blau, mit einer Häufigkeit, die im Mittelfeld liegt:

Suchanfrage = Blau
Anz. KWIC-Zeilen = 189'073
Kontext = 5/5
Wortmenge = 1,89 Mio. zu analysierende Wörter

Im Folgenden gehen wir davon aus, dass die Teilnehmer mehr oder weniger gleichzeitig die selbe Kookkurrenzanalyse durchführen:

Anz.
Teilnehmer
Laden des
Kontextes
[s]
reine
Analyse
[s]
Wartezeit
total [s]
1 41s 3,0s 48s
10 42s 3,3s 49s
15 49s 3,5s 56s
20 59s 3,5s 67s
30 81s 3,7s 89s
40 97s 3,8s 105s
50 109s 3,8s 118s
60 122s 3,9s 131s
70 138s 4,0s 148s
100 184s 4,2s 195s

COSMAS II, Zentrale DV-Dienste - 14. 01. 2021