Häufigkeitsmaße: die Häufigkeitsklassen
1.Definition
Der Suchbegriff wird durch Vergleich seiner Häufigkeit mit der des häufigsten Wortes (in deutschsprachigen Textkorpora ist dies i.A. "der", nachfolgend auch Referenz(wort)) auf Häufigkeitsklassen abgebildet.
- Formel für die Häufigkeitsklasse
Das häufigste Wort hat die Klasse 0.
Treffer in der Häufigkeitsklasse 1 (2, etc.) treten annähernd ½ (¼, etc.)
mal so oft wie das häufigste Wort auf.
Mit jeder höheren Klasse nimmt die Trefferhäufigkeit logarithmisch ab.
2. Anwendbarkeit
Mathematisch sinnvoll lassen sich die Häufigkeitsklassen nur auf bestimmte Einzelwortsuchanfragen anwenden, d.h.
- Einzelwortsuchen, sowohl unter Beachtung als auch Ignorieren der Groß-/Kleinschreibung/Diakritika, ohne Platzhalter, und
- Suchen von Flexionsformen eines Lemmas.
Bei der Suche mit Platzhaltern macht COSMAS II eine Ausnahme
für den Fall, dass der Platzhalterausdruck zu einer Wortformliste
mit einer einzigen Wortform führt;
in diesem Fall wird im automatischen Modus die Referenz
Einzelwort, Groß/Klein/Diakr. beachten eingeschaltet.
Da COSMAS II bei einem Platzhalterausdruck nicht feststellen kann,
ob damit alle Flexionsformen eines einzigen Wortes ausgedrückt werden,
lehnt es für alle anderen Fälle die Berechnung der Häufigkeitsklassen ab.
Sind Sie der Meinung, dass im Fall Ihrer Suchanfrage die Berechnung
möglich sei, schalten Sie die Referenz Einzelwort,
Groß/Klein/Driakr. ignorieren manuell ein.
3. Referenz der Häufigkeitsklassen
Die Häufigkeitsklasse einer ausgeführten Suchanfrage wird bezüglich einer mathematisch sinnvollen Referenz berechnet. Die folgenden Referenzen werden in COSMAS II hinzugezogen:
Einzelwort, Groß/Klein/Diakr. beachten
für eine Einzelwortsuche, bei der Groß- und Kleinschreibung und Diakritika beachtet werden.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Häufigkeit der Wortform der im gesamten aktiven Korpus.
Beispiel: Suche: Wolle, Wortformliste enthält nur Wolle.
Einzelwort, Groß/Klein/Diakr. ignorieren
für eine Einzelwortsuche, bei der Groß- und Kleinschreibung und Diakritika ignoriert werden.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Gesamthäufigkeit der groß und klein geschriebenen Varianten von der im gesamten aktiven Korpus.
Beispiel: Suche: wolle, Wortformliste enthält wolle, Wolle, …
Lemma
für eine Lemmasuche, bei der Groß- und Kleinschreibung und Diakritika ignoriert oder beachtet werden und nur die Lemmatisierungsoption Flexionsformen aktiv ist.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Gesamthäufigkeit der bestimmten Artikeln der, die, das, dem, den, des im gesamten aktiven Korpus.
Beispiel: Suche: &wollen, Wortformliste enthält will, Will, wolle, Wolle, …
automatisch
für eine der drei obigen Referenzen. COSMAS II stellt eine der drei obigen Unteroptionen aufgrund der Suchanfrage und -optionen automatisch ein.
Beispiel: Suche: &wollen, Wortformliste enthält will, Will, wolle, Wolle, …, so setzt COSMAS II die Option Referenz automatisch auf Lemma.
Im manuellen Modus erhalten Sie einen Hinweis, wenn die von Ihnen eingestellte Referenz nicht zu Ihrer Suchanfrage passt; die Häufigkeitsklassen werden aber trotzdem berechnet und angezeigt. Im automatischen Modus wird im selben Fall mit einem entsprechenden Hinweis die Berechnung abgebrochen.
4. Beispiele von Suchanfragen und zugehöriger Referenz
In der folgenden Tabelle wird an Hand von Beispielen gezeigt, wann und wie eine Referenz einem Suchanfragetyp zugeordnet wird.
Für die Zuordnung spielen die folgenden Faktoren eine Rolle:
- der Typ der Suchanfrage: Einzelwortsuche, Lemmasuche, Verwendung von Platzhaltern, andere Operatoren;
- die Lemmatisierungsoptionen;
- die Anzahl Wortformen in der generierten Wortformliste;
damit verbunden ist sowohl die Aktion des Benutzers, der Wortformen in der Liste deaktivieren kann als auch die Anzahl der im aktiven Korpus gefundenen Varianten des gesuchten Wortes bzw. Lemmas.
Die Suchoptionen (Groß/Klein/Diakr. beachten/ignorieren) werden nicht direkt berücksichtigt und werden oft durch die Art der Referenz überschrieben (siehe Beispiele).
In der rechten Spalte steht die Referenz, die im automatischen Modus von COSMAS II gewählt wird.
Suchanfrage | Suchoption | Wortformliste | Aktion des Benutzers auf Wortformliste |
gewählte Referenz |
---|---|---|---|---|
Wolle | G/K/D beachten | Wolle | - | Einzelwort, G/K/D beachten |
Wolle | G/K/D ignorieren | Wolle wolle WOLLE… | - | Einzelwort, G/K/D ignorieren; problematisch, da die Wortformen nicht einer einzigen Grundform angehören |
wolle | G/K/D ignorieren | wolle | alle großgeschriebenen Varianten deaktiviert, nur eine Wortform übrig |
Einzelwort, G/K/D beachten, da nur eine Wortform in der Liste, wird beachten statt ignorieren verwendet |
Kaminfeger | G/K/D ignorieren | Kaminfeger | keine Aktion, Wort hat im aktuellen Korpus nur eine Variante. |
Einzelwort, G/K/D beachten, da nur eine Wortform in der Liste, wird beachten statt ignorieren verwendet |
Katze oder Hund oder Kaninchen | - | Katze KATZE Hund HUND… | - | nicht möglich für Operator ODER |
Wolle* | - | Wolle Wollen Wollecke… | - | wegen Platzhalter nicht möglich |
Wolle* | - | Wolle | alle bis auf eine Wortform deaktiviert |
Einzelwort, G/K/D beachten Ausnahme, da nur eine Wortform in der Liste |
&Wolle | Flexionsformen | Wolle WOLLE | - | Lemma |
&Wolle | Flexionsformen + Komposita |
Wolle Ziegenwolle… | - | nicht möglich, da Opt. Komposita eingeschaltet |
wolle /+w1 wissen | - | - | - | nicht möglich für alle anderen Suchoperatoren |
5. Vergleichbarkeit zwischen Suchanfragen
Suchanfrage | Referenz | |
---|---|---|
vergleichbar | Haus mit Pavillon | 1 W./1 W. Groß-/Klein-Optionen stimmen überein |
&Haus mit &Pavillon | 1 Lemma/1 Lemma. nur Flexionsformen eingeschaltet |
|
nicht vergleichbar |
&Haus mit Haus | Lemma/Wort |
Haus mit haus | wenn Groß-/Klein-Option nicht übereinstimmen |
- Zur Übersicht über die Häufigkeitsmaße