Häufigkeitsmaße: der Differenzenkoeffizient
1. Definition
Der Differenzenkoeffizient normiert die absolute Trefferhäufigkeit auf den Wertebereich -1 bis +1, indem er die tatsächlich in einem Korpusquerschnitt beobachtete Trefferhäufigkeit mit der erwarteten Häufigkeit vergleicht.
- Formel für den Differenzenkoeffizienten
Die Wertebereich -1 bis +1 ist wie folgt zu verstehen:
- Ein Wert von annähernd 0 bedeutet, dass der gesuchte Ausdruck ungefähr mit der erwarteten Häufigkeit auftritt.
- Ein Wert zwischen 0 und -1 bedeutet, dass der gesuchte Ausdruck seltener als erwartet auftritt. Kommt er in einem Korpusquerschnitt nicht vor, ist der Wert -1.
- Ein Wert zwischen 0 und +1 bedeutet, dass der gesuchte Ausdruck häufiger als erwartet auftritt.
2. Anwendbarkeit
Der Differenzenkoeffizienten lässt sich in COSMAS II analog zu den relativen Häufigkeiten für einfache und komplexe Suchanfragetypen anzeigen:
- Einzelwortsuchen (mit oder ohne Platzhalter): Haus, Haus*reich
- Lemmatisierte Suche: &Haus
- mit ODER kombinierte Suchanfragen: Haus oder Gebäude oder…
- Wortklassen: MORPH(ADJ)
- Wortsequenzen (zusammenhängende und nicht zusammenhängende): "nicht" /+s2 (&baden /+w2 &gehen)
3. Vergleichbarkeit zwischen Suchanfragen
Die Vergleichbarkeit zweier Suchanfragen ist identisch zum Fall der relativen Häufigkeiten:
Suchanfrage | Referenz | |
---|---|---|
vergleichbar | Haus mit Pavillon | 1 W./1 W. |
&gehen /w3 baden mit &gehen /w3 schwimmen | 2 W./2 W. | |
usw. (siehe rel. Häufigkeiten) | ||
nicht vergleichbar |
(&gehen /+w2 "nicht") /+w3 baden mit &gehen /+w5 baden | 3 W./2 W. |
- Zur Übersicht über die Häufigkeitsmaße