Häufigkeitsmaße: relative Häufigkeiten
1. Definition
Die relative Häufigkeit eines gesuchten Wortes gibt hier an, welchen prozentualen Anteil dieses Wort an der Größe eines Korpusquerschnitts (also der Gesamtheit der laufenden Wortformen in diesem Korpusquerschnitt) einnimmt.
- Formel für die relative Häufigkeit
Beispiel:
Anz. Treffer (= absolute H.) | Quelle | Anz. Wortformen in Quelle | rel. Häufig. |
---|---|---|---|
38 | die tageszeitung | 331.454.109 | 0,000011% |
Ab der Serverversion 4.2 (Juni 2012) können die relativen Häufigkeiten auch in pMW = Anzahl Vorkommnisse pro Million Wortformen umgerechnet und angezeigt werden. Diese Werte sind im allgemeinen einfacher zu erfassen1.
Beispiel:
Anz. Treffer (= absolute H.) | Quelle | Anz. Wortformen in Quelle | rel. Häufig. |
---|---|---|---|
38 | die tageszeitung | 331.454.109 | 0,1 pMW |
2. Anwendbarkeit der relativen Häufigkeiten
Die relativen Häufigkeiten lassen sich in COSMAS II für einfache und komplexe Suchanfragetypen anzeigen:
- Einzelwortsuchen (mit oder ohne Platzhalter): Haus, Haus*reich
- Lemmatisierte Suche: &Haus
- mit ODER kombinierte Suchanfragen: Haus oder Gebäude oder…
- Wortklassen: MORPH(ADJ)
- Wortsequenzen (zusammenhängende und nicht zusammenhängende): "nicht" /+s2 (&baden /+w2 &gehen)
3. Vergleichbarkeit zwischen Suchanfragen
Folgende Beispiele geben Auskunft darüber, welche Suchanfragen sich anhand der Werte ihrer relativen Häufigkeiten vergleichen lassen:
Suchanfrage | Referenz | |
---|---|---|
vergleichbar | Haus mit Pavillon | 1 W./1 W. |
Haus mit Haus* | ||
Haus mit &Haus | ||
&Haus mit MORPH(N) | ||
&gehen /w3 baden mit &gehen /w3 schwimmen | 2 W./2 W. | |
nicht vergleichbar |
(&gehen /+w2 "nicht") /+w3 baden mit &gehen /+w5 baden | 3 W./2 W. |
4. Alternative Berechnungen zu den relativen Häufigkeiten
Ebenfalls denkbar wäre, anstelle der hier verwendeten relativen Häufigkeit zwei andere prozentuale Darstellungen zu verwenden, die leicht mit den in COSMAS II berechneten relativen Häufigkeiten verwechselt werden können. Daher seien die Unterschiede hier kurz erläutert.
Bei der prozentualen Trefferverteilung (PTV) wird der prozentuale Anteil der Treffer eines Korpusquerschnittes an der Gesamtheit der Treffer angegeben:
Beispiel:
Anz. Treffer im Mannheimer Morgen = 38
Gesamtheit der Treffer = 120
prozentualer Anteil der Treffer für den MM = (38/120)*100 = 31.6%
Siehe dazu die Spalte PTV in der nächsten Tabelle. Der direkte Vergleich der PTV-Werte in der Tabelle ist insofern irreführend, als dass in den berechneten Werten die Größe der jeweiligen Korpusquerschnitte nicht berücksichtigt wurden.
Die geschätzte Wahrscheinlichkeitsverteilung (GWV) hingegen berücksichtigt die unterschiedlich großen Korpusquerschnitte, indem sie die relativen Trefferhäufigkeiten in den Querschnitten einbezieht:
Beispiel:
Anz. Treffer im Mannheimer Morgen = 38
rel. Häufigkeit in Bezug auf den Umfang des MMs = (38/1000000)*100 = 0,0038%
Summe der relativen Trefferhäufigkeiten über alle Querschnitte = 0,0067
geschätzte Wahrscheinlichkeit für den MM = 56.7%
Siehe dazu die Spalte GWV in der nächsten Tabelle.
Anz. Treffer (= absolute H.) |
Quelle | Umfang der Quelle in Mio. Wortformen |
PTV | rel. Häuf. | GWV |
---|---|---|---|---|---|
38 | Mannheimer Morgen | 1 Mio. | 31,6% | 0,0038% | 56,7% |
12 | die tageszeitung | 2 Mio. | 10,0% | 0,0006% | 9,0% |
70 | berliner Zeitung | 3 Mio. | 58,3% | 0,0023% | 34,3% |
120 | Total | 6 Mio. | 100% | 0,0067% | 100% |
5. Relative Häufigkeiten in Wortformlisten
Eine weitere Form von relativen Häufigkeiten wird außerdem in der Suchanfragestatistik für die Einzelwortteilanfragen angezeigt, wenn die Option für die Worthäufigkeiten eingeschaltet ist.
- Zur Übersicht über die Häufigkeitsmaße