[IDS-Logo] COSMAS II: Häufigkeitsmaße: weitere Anmerkungen

Einfluss der Trefferreduzierung auf die Häufigkeitsmaße

Wenn der Benutzer für eine Suchanfrage die Zufallsauswahl einschaltet oder die Treffermenge eine interne Obergrenze überschreitet, wird eine zufällig reduzierte Treffermenge als Ergebnis zurückgeliefert. Falls in den Ergebnispräsentationen die Häufigkeitsmaße für die reduzierte Treffermenge berechnet werden, müssen bei der Interpretation der Werte einige Aspekte berücksichtigt werden.

COSMAS II weist auf eine Reduzierung durch folgende Formulierung hin: »10.000 Treffer aus 7.596.026 (Zufallsauswahl)«.

Interpretation des Prozent- und pMW-Wertes bei relativen Häufigkeiten

Im folgenden werden die pMW-Werte stellvertretend für die relativen Häufigkeiten (prozentuale und pMW-Werte) diskutiert.

Beispiel

Suchbegriff ist »schon«, Suche in der gesamten Datenbank.

In der folgenden Tabelle wird anhand einer Versuchsreihe dargestellt, wie sich der pMW (= Vorkommnisse pro Million Wortformen) für unterschiedliche Reduzierungsfaktoren verändert. Es wurden nur einige Quellen mit sehr divergierendem Umfang ausgewählt.

Quelle Treffermenge reduziert auf unreduziert
Name Umfang
Wörter
1.000
pMW
10.000
pMW
100.000
pMW
1 Mio.
pMW
7,6 Mio.
pMW
TV Hören und Sehen4.204 -238,0--713,0
Martin Walser661.151 1,5134,539,3400,83035
Faschsprachenkorpus957.345 1,0452,118,8178,61351,7
Thomas Mann3,4 Mio. 0,2932,623,7236,11794
Berliner Zeitung206 Mio. 0,1991,919,2191,81457,0
Wikipedia 11, Artikel575 Mio. 0,0490,54,948,6369,0

Tabelle: pMW-Werte für verschiedene Stichproben von Suchbegriff »schon«

Anmerkungen

Bei Quellen mit sehr geringem Umfang wie TV Hören und Sehen erzeugen schon wenige Treffer beachtlich hohe pMW-Werte: hier 238 (1 Treffer) und 713 (3 Treffer). Herrausragende pMW-Werte wie diese sollten deshalb immer mit Vorsicht betrachtet werden. Der pMW kann durchaus auch ausfallen, wenn durch die Zufallsauswahl die Treffer aus dem Ergebnis verschwunden sind.

Interpretation des Differenzenkoeffizienten

Beispiel

Es handelt sich bei der nächsten Tabelle um die gleiche Versuchsreihe wie oben, bei der nun der Differenzenkoeffizient für das Suchwort berechnet wurde.

Quelle Treffermenge reduziert auf unreduziert
Name Umfang
Wörter
1.000
pMW
10.000
pMW
100.000
pMW
1 Mio.
pMW
7,6 Mio.
pMW
TV Hören und Sehen4.204 -0,985--0,326
Martin Walser661.151 0,7820,4210,3600,3680,367
Faschsprachenkorpus957.345 0,6990,0610,008-0,018-0,019
Thomas Mann3,4 Mio. 0,2260,1750,1240,1210,122
Berliner Zeitung206 Mio. 0,0360,0180,0180,0180,018
Wikipedia 11, Artikel575 Mio. -0,583-0,584-0,584-0,5840,584

Tabelle: Differenzenkoeffizienten für verschiedene Stichproben von Suchbegriff »schon«

Anmerkungen

Interpretation der Häufigkeitsklassen

Beispiel

Es handelt sich bei der nächsten Tabelle um die gleiche Versuchsreihe wie oben, bei der nun die Häufigkeitsklassen für das Suchwort berechnet wurden.

Quelle Treffermenge reduziert auf unreduziert
Name Umfang
Wörter
1.000
pMW
10.000
pMW
100.000
pMW
1 Mio.
pMW
7,6 Mio.
pMW
TV Hören und Sehen4.204 -14--5
Martin Walser661.151 1413963
Faschsprachenkorpus957.345 14151174
Thomas Mann3,4 Mio. 16131074
Berliner Zeitung206 Mio. 17141175
Wikipedia 11, Artikel575 Mio. 19161397

Tabelle: Häufigkeitsklassen für verschiedene Stichproben von Suchbegriff »schon«

Anmerkungen

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018