Begrenzung des Kontextes
Diese Seite sollten Sie lesen, wenn Sie beabsichtigen, eine Kookkurrenzanalyse über eine größere Treffermenge (ab ca. 200.000 Treffern) auszuführen. Beachten Sie bitte bei der Wahl des zu analysierenden Kontextes folgende Hinweise zu dessen Begrenzung.
Analytische Begrenzung
Nach einigem Experimentieren mit diversen Kontextgrößen hat sich gezeigt, dass gute Ergebnisse nur bis zu einem relativ engen Kontext von ca. 20 Wörtern links und rechts der Treffer erzielt werden können. Erweitert man den Kontext weiter, werden die zuvor ermittelten Kollokatoren durch die große Anzahl der neu hinzukommenden Wörter wieder abgeschwächt. Aus diesem Grund ist der einstellbare Kontext zu beiden Seiten des ersten Trefferwortes per Default auf 20 Wörter begrenzt.
Wer sich durch einen wesentlich breiteren Kontext erhofft, semantische Beziehungen im Text zu den Treffern extrahieren zu können, muss an dieser Stelle enttäuscht werden: dies kann mit dieser statistischen Analysemethode nicht erreicht werden.
Technische Begrenzung
Aus technischen Gründen muss die Größe des zu analysierenden Kontextes in COSMAS II begrenzt werden, um ungewollt lange Wartezeiten und eine überhöhte Belastung des Systems zu vermeiden. Die Größe der maximal analysierbaren Wortmenge wird wie folgt berechnet:
N
= Anzahl der Treffer = Anzahl der KWIC-Zeilen.
Breite
= Breite des eingestellten Kontextes [Anz. Wörter].
analysierte Wortmenge = N x Breite
Die so berechnete, maximal analysierbare Wortmenge ist mit der Version 4 der Kookkurrenzanalyse auf gegenwärtig 100 Mio. Wörter heraufgesetzt worden (Stand: Januar 2021).
Beispiel
N = 100.000 Treffer = 100.000 KWIC-Zeilen.
Breite = 10
, bei eingestelltem Kontext von 5 Wörtern vorher/5 Wörtern nachher.
analysierte Wortmenge = 1 Mio. Wörter
Die folgenden Fallbeispiele sollen ein Gefühl dafür vermitteln, welche Wartezeiten in Relation zu eingestellter Kontextgröße und zu analysierenden Treffermenge zu erwarten sind. Diese Zahlen sind Durschschnittswerte und wurden bei normal belastetem Betrieb gemessen.
Bei der Durchführung einer Kookkurrenzanalyse wird die gesamte Wartezeit aus mehreren Schritten berechnet: das Laden der Treffer und ihrer Kontexte, diverse andere Vorbereitungen wie Bestimmung der Wortfrequenzen (in der Tabelle nicht dargestellt) und die reine Kookkurrenzanalyse.
Fallbeispiel 1
Suchanfrage | Anz. KWIC-Zeilen [Anz. Treffer] | Kontext | Wortmenge [Anz. Wörter] | Laden des Kontextes [s] | reine Analyse [s] | Wartezeit total [s] |
---|---|---|---|---|---|---|
&blau | 740'000 | 5/5 | 7,4 Mio. | 170s | 10s | 184s |
&blau | 740'000 | 10/10 | 14,8 Mio. | 250s | 14s | 266s |
&blau or &grau | 1,1 Mio. | 10/10 | 22 Mio. | 380s | 20s | 406s |
&blau or &grau | 1,1 Mio. | 15/15 | 33 Mio. | 450s | 44s | 502s |
&blau or &grau or &rot or &grün | 7 Mio. | 2/3 | 35 Mio. | 1021s | 29s | 1070s |
&blau or &grau or &rot or &grün | 7 Mio. | 7/7 | 99 Mio. | 1900s | 124s | 2066s |
Wie man dieser Tabelle entnehmen kann, entfällt der Hauptanteil der Wartezeit auf das Laden der Treffer und ihres Kontextes.
Fallbeispiel 2
Welche Wartezeiten sind im Rahmen eines COSMAS II-Workhops in Relation zur Anz. der Teilnehmer zu erwarten. Mit zunehmender Teilnehmerzahl, gepaart mit zunehmder Treffermenge, nimmt die Belastung des Systems zu, was sich auf die Wartezeiten auswirkt. Für das folgende Beispiel haben wir eine unproblematische Suchanfrage genommen, nämlich das Wort Blau, mit einer Häufigkeit, die im Mittelfeld liegt:
Suchanfrage = Blau
Anz. KWIC-Zeilen = 189'073
Kontext = 5/5
Wortmenge = 1,89 Mio. zu analysierende Wörter
Im Folgenden gehen wir davon aus, dass die Teilnehmer mehr oder weniger gleichzeitig die selbe Kookkurrenzanalyse durchführen:
Anz. Teilnehmer | Laden des Kontextes [s] | reine Analyse [s] | Wartezeit total [s] |
---|---|---|---|
1 | 41s | 3,0s | 48s |
10 | 42s | 3,3s | 49s |
15 | 49s | 3,5s | 56s |
20 | 59s | 3,5s | 67s |
30 | 81s | 3,7s | 89s |
40 | 97s | 3,8s | 105s |
50 | 109s | 3,8s | 118s |
60 | 122s | 3,9s | 131s |
70 | 138s | 4,0s | 148s |
100 | 184s | 4,2s | 195s |