Einfluss der Trefferreduzierung auf die Häufigkeitsmaße
Wenn der Benutzer für eine Suchanfrage die Zufallsauswahl einschaltet oder die Treffermenge eine interne Obergrenze überschreitet, wird eine zufällig reduzierte Treffermenge als Ergebnis zurückgeliefert. Falls in den Ergebnispräsentationen die Häufigkeitsmaße für die reduzierte Treffermenge berechnet werden, müssen bei der Interpretation der Werte einige Aspekte berücksichtigt werden.
COSMAS II weist auf eine Reduzierung durch folgende Formulierung hin: »10.000 Treffer aus 7.596.026 (Zufallsauswahl)«.
Interpretation des Prozent- und pMW-Wertes bei relativen Häufigkeiten
Im folgenden werden die pMW-Werte stellvertretend für die relativen Häufigkeiten (prozentuale und pMW-Werte) diskutiert.
Beispiel
Suchbegriff ist »schon«, Suche in der gesamten Datenbank.
In der folgenden Tabelle wird anhand einer Versuchsreihe dargestellt, wie sich der pMW (= Vorkommnisse pro Million Wortformen) für unterschiedliche Reduzierungsfaktoren verändert. Es wurden nur einige Quellen mit sehr divergierendem Umfang ausgewählt.
Quelle | Treffermenge reduziert auf | unreduziert | ||||
---|---|---|---|---|---|---|
Name | Umfang Wörter |
1.000 pMW |
10.000 pMW |
100.000 pMW |
1 Mio. pMW |
7,6 Mio. pMW |
TV Hören und Sehen | 4.204 | - | 238,0 | - | - | 713,0 |
Martin Walser | 661.151 | 1,513 | 4,5 | 39,3 | 400,8 | 3035 |
Faschsprachenkorpus | 957.345 | 1,045 | 2,1 | 18,8 | 178,6 | 1351,7 |
Thomas Mann | 3,4 Mio. | 0,293 | 2,6 | 23,7 | 236,1 | 1794 |
Berliner Zeitung | 206 Mio. | 0,199 | 1,9 | 19,2 | 191,8 | 1457,0 |
Wikipedia 11, Artikel | 575 Mio. | 0,049 | 0,5 | 4,9 | 48,6 | 369,0 |
Tabelle: pMW-Werte für verschiedene Stichproben von Suchbegriff »schon«
Anmerkungen
- mit zunehmender Stichprobengröße nimmt der pMW-Wert zu, weil die immer gleiche Größe für den Quellenumfang (in Anz. Wörtern) in die Berechnung einfliesst.
- bei reduzierten Trefferzahlen müssen die pMW in Gedanken hochgerechnet werden.
- der pMW für die unreduzierten Treffer ist der korrekte Wert für die angegebene Quelle.
- je größer die Stichprobe, desto genauer kann der geschätzte Wert hochgerechnet werden (in diesem Beispiel ab ca. 100.000 Treffern von 7,6 Mio.).
- je umfangreicher (in Anz. Wortformen) die Quelle, desto genauer der geschätzte pMW-Wert (siehe Wikipedia, Berliner Zeitung).
- je "schmaler" die Quelle, desto verzerrter der geschätzte pMW-Wert (siehe Martin Walser, TV Hören).
Bei Quellen mit sehr geringem Umfang wie TV Hören und Sehen erzeugen schon wenige Treffer beachtlich hohe pMW-Werte: hier 238 (1 Treffer) und 713 (3 Treffer). Herrausragende pMW-Werte wie diese sollten deshalb immer mit Vorsicht betrachtet werden. Der pMW kann durchaus auch ausfallen, wenn durch die Zufallsauswahl die Treffer aus dem Ergebnis verschwunden sind.
Interpretation des Differenzenkoeffizienten
Beispiel
Es handelt sich bei der nächsten Tabelle um die gleiche Versuchsreihe wie oben, bei der nun der Differenzenkoeffizient für das Suchwort berechnet wurde.
Quelle | Treffermenge reduziert auf | unreduziert | ||||
---|---|---|---|---|---|---|
Name | Umfang Wörter |
1.000 pMW |
10.000 pMW |
100.000 pMW |
1 Mio. pMW |
7,6 Mio. pMW |
TV Hören und Sehen | 4.204 | - | 0,985 | - | - | 0,326 |
Martin Walser | 661.151 | 0,782 | 0,421 | 0,360 | 0,368 | 0,367 |
Faschsprachenkorpus | 957.345 | 0,699 | 0,061 | 0,008 | -0,018 | -0,019 |
Thomas Mann | 3,4 Mio. | 0,226 | 0,175 | 0,124 | 0,121 | 0,122 |
Berliner Zeitung | 206 Mio. | 0,036 | 0,018 | 0,018 | 0,018 | 0,018 |
Wikipedia 11, Artikel | 575 Mio. | -0,583 | -0,584 | -0,584 | -0,584 | 0,584 |
Tabelle: Differenzenkoeffizienten für verschiedene Stichproben von Suchbegriff »schon«
Anmerkungen
- bei stark reduzierten Treffern (kleinen Stichproben) und bei Quellen mit kleinem Umfang sind die berechneten Differenzenkoeffizienten sehr ungenau.
- im Gegensatz zu den relativen Häufigkeiten kann der Differenzenkoeffizient nicht hochgerechnet werden.
- bei umfangreichen Quellen (hier: Thomas Mann, Berliner Zeitung und Wikipedia) liefert der Differenzenkoeffizienten dagegen schon bei kleinen Stichproben (in der Tabelle schon ab 10.000 Treffer) eine gute Abschätzung für den unreduzieren Wert.
Interpretation der Häufigkeitsklassen
Beispiel
Es handelt sich bei der nächsten Tabelle um die gleiche Versuchsreihe wie oben, bei der nun die Häufigkeitsklassen für das Suchwort berechnet wurden.
Quelle | Treffermenge reduziert auf | unreduziert | ||||
---|---|---|---|---|---|---|
Name | Umfang Wörter |
1.000 pMW |
10.000 pMW |
100.000 pMW |
1 Mio. pMW |
7,6 Mio. pMW |
TV Hören und Sehen | 4.204 | - | 14 | - | - | 5 |
Martin Walser | 661.151 | 14 | 13 | 9 | 6 | 3 |
Faschsprachenkorpus | 957.345 | 14 | 15 | 11 | 7 | 4 |
Thomas Mann | 3,4 Mio. | 16 | 13 | 10 | 7 | 4 |
Berliner Zeitung | 206 Mio. | 17 | 14 | 11 | 7 | 5 |
Wikipedia 11, Artikel | 575 Mio. | 19 | 16 | 13 | 9 | 7 |
Tabelle: Häufigkeitsklassen für verschiedene Stichproben von Suchbegriff »schon«
Anmerkungen
- mit zunehmender Stichprobengröße nähern sich die Häufigkeitsklassen dem Wert der unreduzierten Trefferzahl.
- die Referenz für die Berechnung der Häufigkeitsklasse ist in jeder Stichprobe immer die Häufigkeit des häufigsten Wortes in der gesamten Quelle.
- die korrekte Häufigkeitsklasse kann nur im unreduzierten Ergebnis berechnet werden.
- prinzipiel kann die "korrekte" Häufigkeitsklasse aus einer Stichprobe geschätzt werden, wenn hinreichend genügend Treffer vorhanden sind und die Häufigkeit des häufigsten Wortes in der betrachteten Quelle bekannt ist.