Einfluss der Trefferreduzierung auf die Häufigkeitsmaße

Wenn der Benutzer für eine Suchanfrage die Zufallsauswahl einschaltet oder die Treffermenge eine interne Obergrenze überschreitet, wird eine zufällig reduzierte Treffermenge als Ergebnis zurückgeliefert. Falls in den Ergebnispräsentationen die Häufigkeitsmaße für die reduzierte Treffermenge berechnet werden, müssen bei der Interpretation der Werte einige Aspekte berücksichtigt werden.

COSMAS II weist auf eine Reduzierung durch folgende Formulierung hin: »10.000 Treffer aus 7.596.026 (Zufallsauswahl)«.

Interpretation des Prozent- und pMW-Wertes bei relativen Häufigkeiten

Im folgenden werden die pMW-Werte stellvertretend für die relativen Häufigkeiten (prozentuale und pMW-Werte) diskutiert.

Beispiel

Suchbegriff ist »schon«, Suche in der gesamten Datenbank.

In der folgenden Tabelle wird anhand einer Versuchsreihe dargestellt, wie sich der pMW (= Vorkommnisse pro Million Wortformen) für unterschiedliche Reduzierungsfaktoren verändert. Es wurden nur einige Quellen mit sehr divergierendem Umfang ausgewählt.

Quelle		Treffermenge reduziert auf				unreduziert
Name	Umfang Wörter	1.000 pMW	10.000 pMW	100.000 pMW	1 Mio. pMW	7,6 Mio. pMW
TV Hören und Sehen	4.204	-	238,0	-	-	713,0
Martin Walser	661.151	1,513	4,5	39,3	400,8	3035
Faschsprachenkorpus	957.345	1,045	2,1	18,8	178,6	1351,7
Thomas Mann	3,4 Mio.	0,293	2,6	23,7	236,1	1794
Berliner Zeitung	206 Mio.	0,199	1,9	19,2	191,8	1457,0
Wikipedia 11, Artikel	575 Mio.	0,049	0,5	4,9	48,6	369,0

Tabelle: pMW-Werte für verschiedene Stichproben von Suchbegriff »schon«

Anmerkungen

mit zunehmender Stichprobengröße nimmt der pMW-Wert zu, weil die immer gleiche Größe für den Quellenumfang (in Anz. Wörtern) in die Berechnung einfliesst.
bei reduzierten Trefferzahlen müssen die pMW in Gedanken hochgerechnet werden.
der pMW für die unreduzierten Treffer ist der korrekte Wert für die angegebene Quelle.
je größer die Stichprobe, desto genauer kann der geschätzte Wert hochgerechnet werden (in diesem Beispiel ab ca. 100.000 Treffern von 7,6 Mio.).
je umfangreicher (in Anz. Wortformen) die Quelle, desto genauer der geschätzte pMW-Wert (siehe Wikipedia, Berliner Zeitung).
je "schmaler" die Quelle, desto verzerrter der geschätzte pMW-Wert (siehe Martin Walser, TV Hören).

Bei Quellen mit sehr geringem Umfang wie TV Hören und Sehen erzeugen schon wenige Treffer beachtlich hohe pMW-Werte: hier 238 (1 Treffer) und 713 (3 Treffer). Herrausragende pMW-Werte wie diese sollten deshalb immer mit Vorsicht betrachtet werden. Der pMW kann durchaus auch ausfallen, wenn durch die Zufallsauswahl die Treffer aus dem Ergebnis verschwunden sind.

Interpretation des Differenzenkoeffizienten

Beispiel

Es handelt sich bei der nächsten Tabelle um die gleiche Versuchsreihe wie oben, bei der nun der Differenzenkoeffizient für das Suchwort berechnet wurde.

Quelle		Treffermenge reduziert auf				unreduziert
Name	Umfang Wörter	1.000 pMW	10.000 pMW	100.000 pMW	1 Mio. pMW	7,6 Mio. pMW
TV Hören und Sehen	4.204	-	0,985	-	-	0,326
Martin Walser	661.151	0,782	0,421	0,360	0,368	0,367
Faschsprachenkorpus	957.345	0,699	0,061	0,008	-0,018	-0,019
Thomas Mann	3,4 Mio.	0,226	0,175	0,124	0,121	0,122
Berliner Zeitung	206 Mio.	0,036	0,018	0,018	0,018	0,018
Wikipedia 11, Artikel	575 Mio.	-0,583	-0,584	-0,584	-0,584	0,584

Tabelle: Differenzenkoeffizienten für verschiedene Stichproben von Suchbegriff »schon«

Anmerkungen

bei stark reduzierten Treffern (kleinen Stichproben) und bei Quellen mit kleinem Umfang sind die berechneten Differenzenkoeffizienten sehr ungenau.
im Gegensatz zu den relativen Häufigkeiten kann der Differenzenkoeffizient nicht hochgerechnet werden.
bei umfangreichen Quellen (hier: Thomas Mann, Berliner Zeitung und Wikipedia) liefert der Differenzenkoeffizienten dagegen schon bei kleinen Stichproben (in der Tabelle schon ab 10.000 Treffer) eine gute Abschätzung für den unreduzieren Wert.

Interpretation der Häufigkeitsklassen

Beispiel

Es handelt sich bei der nächsten Tabelle um die gleiche Versuchsreihe wie oben, bei der nun die Häufigkeitsklassen für das Suchwort berechnet wurden.

Quelle		Treffermenge reduziert auf				unreduziert
Name	Umfang Wörter	1.000 pMW	10.000 pMW	100.000 pMW	1 Mio. pMW	7,6 Mio. pMW
TV Hören und Sehen	4.204	-	14	-	-	5
Martin Walser	661.151	14	13	9	6	3
Faschsprachenkorpus	957.345	14	15	11	7	4
Thomas Mann	3,4 Mio.	16	13	10	7	4
Berliner Zeitung	206 Mio.	17	14	11	7	5
Wikipedia 11, Artikel	575 Mio.	19	16	13	9	7

Tabelle: Häufigkeitsklassen für verschiedene Stichproben von Suchbegriff »schon«

Anmerkungen

mit zunehmender Stichprobengröße nähern sich die Häufigkeitsklassen dem Wert der unreduzierten Trefferzahl.
die Referenz für die Berechnung der Häufigkeitsklasse ist in jeder Stichprobe immer die Häufigkeit des häufigsten Wortes in der gesamten Quelle.
die korrekte Häufigkeitsklasse kann nur im unreduzierten Ergebnis berechnet werden.
prinzipiel kann die "korrekte" Häufigkeitsklasse aus einer Stichprobe geschätzt werden, wenn hinreichend genügend Treffer vorhanden sind und die Häufigkeit des häufigsten Wortes in der betrachteten Quelle bekannt ist.