Seite für die Optionen zu den Ergebnispräsentationen → Optionen zur Berechnung von Häufigkeitsmaßen |
Optionen zur Berechnung von Häufigkeitsmaßen
Erweiterungen in Version 1.5
- Neu hinzugekommen sind alle hier vorgestellten
Optionen.
Erweiterungen in Version 1.8
- Bei den relativen Häufigkeiten ist nun auch die Angabe in
pro Million Worte (pMW) möglich.
- Das Häufigkeitsmaß kann (zur besseren Übersicht)
in grau dargestellt werden.
Kategorie Berechnung des Häufigkeitsmaßes
- Bei den relativen Häufigkeiten ist nun auch die Angabe in pro Million Worte (pMW) möglich.
- Das Häufigkeitsmaß kann (zur besseren Übersicht) in grau dargestellt werden.
Kategorie Berechnung des Häufigkeitsmaßes
Mit den Optionen dieser Kategorie können Einstellungen zur Berechnung und Anzeige von Häufigkeitsmaßen vorgenommen werden.
Der Verweis Mehr zu den Häufigkeitsmaßen führt Sie auf eine Seite mit Hintergrundinformationen zum Einsatz von Häufigkeitsmaßen.
Optionen zur Berechnung des Häufigkeitsmaßes |
Option Maß für Häufigkeit der Treffer berechnen und anzeigen
Die Berechnung von Häufigkeitsmaßen wird über diese Option gesteuert.
Ist die Option aktiviert, wird auf der Seite
für die Ergebnispräsentationen
eine zusätzliche Spalte eingefügt, in der das jeweilige Maß für die Häufigkeit
der Treffer angezeigt wird.
Falls die Option deaktiviert ist, sind alle nachfolgenden Optionen ebenfalls
deaktiviert und eine Berechnung von Häufigkeitsmaßen entfällt.
- Die Berechnung von Häufigkeitsmaßen verlangsamt den Aufbau der Ergebnispräsentationen.
- Falls für das ausgewählte Häufigkeitsmaß zu der eingegebenen Suchanfrage kein (mathematisch fundiertes) Ergebnis errechnet werden kann, dann erscheint auf der Seite für die Ergebnispräsentationen statt der Trefferübersicht ein entsprechender Hinweis mit der Möglichkeit zur Korrektur.
- Falls diese Optionen von der Seite für die Ergebnispräsentationen aus aufgerufen und eine oder mehrere der nachfolgenden Einstellungen geändert wurden, so wird nach Anklicken das Schalters Übernehmen die vorherige Ergebnispräsentation entsprechend aktualisiert.
- Hintergrundinformationen zur Anwendung der Häufigkeitsmaße
Option Relative Häufigkeiten
Falls die Option aktiviert ist, wird für jeden Eintrag auf der Seite für die Ergebnispräsentationen entweder der Anteil in Prozent oder pro Millionen Worte (pMW) angegeben, den die jeweilige Trefferhäufigkeit an der Gesamtheit der laufenden Wortformen des zugehörigen Korpusquerschnitts besitzt. Voreingestellt ist die Angabe in Prozent.
Beispiel für Quellenansicht
Treffer | Quelle | Wortformen in Quelle | rel. Häufigkeit |
---|---|---|---|
38 | die tageszeitung | 331.454.109 | 0,000011% |
- Die Berechnung von relativen Häufigkeiten kann in COSMAS II
nur für die folgenden Suchanfragetypen durchgeführt werden:
Einzelwortsuchen (mit oder ohne Platzhalter),
Suche mit Lemmatisierung oder Kombination von beiden
mit dem logischen Operator
ODER
.
Beispiele:
Haus &Haus Haus* &Haus oder &Gebäude
|
Option Differenzenkoeffizient
Falls die Option aktiviert ist, wird für jeden Eintrag auf der
Seite für die Ergebnispräsentationen
in einer zusätzlichen Spalte der Differenzenkoeffizient
angegeben.
Dieser normiert die jeweilige (absolute) Trefferhäufigkeit auf den Bereich
-1 bis +1, indem er die tatsächlich auftretende mit der
erwarteten Häufigkeit des zugehörigen Korpusquerschnitts vergleicht:
- Ein Wert von annähernd 0 bedeutet, dass der Treffer wie statistisch erwartet auftritt.
- Je mehr der Wert gegen -1 sinkt, desto seltener als erwartet tritt der Treffer auf.
- Je mehr der Wert gegen +1 steigt, desto häufiger als erwartet tritt der Treffer auf.
- Analog zu den relativen Häufigkeiten kann die Berechnung des
Differenzenkoeffizienten in COSMAS II nur für die folgenden
Suchanfragetypen durchgeführt werden: Einzelwortsuchen
(mit oder ohne Platzhalter), Suche mit Lemmatisierung
oder Kombination von beiden mit dem logischen Operator
ODER
. - Von absoluten Häufigkeiten zum Differenzenkoeffizienten (Cyril Belica, IDS Mannheim, 1999) bietet eine leicht verständliche Erläuterung dieses Begriffes.
Option Häufigkeitsklassen mit folgender Referenz
Die Treffer werden durch Vergleich ihrer Häufigkeit mit der des häufigsten Wortes der deutschen Sprache "der" auf Häufigkeitsklassen abgebildet.
Das häufigste Wort hat die Klasse 0.
Treffer in der Häufigkeitsklasse 1, 2, etc. treten annähernd ½ ¼, etc. mal so oft wie das häufigste Wort auf.
Mit jeder höheren Klasse N verringert sich die Trefferhäufigkeit
auf 1/2N.
- Mathematisch fundiert lassen sich die Häufigkeitsklassen
nur auf bestimmte Einzelwortsuchanfragen anwenden, d.h. auf
Einzelwortsuchen, sowohl unter Beachtung als auch unter Ignorieren
der Groß-/Kleinschreibung/Diakritika (ohne Platzhalter), und
auf Suchen von Flexionsformen eines Lemmas.
Für die anderen Suchanfragetypen ist eine Berechnung zwar möglich, die errechneten Häufigkeitsklassen sollten jedoch mit Vorsicht betrachtet werden. - Zur Definition von Häufigkeitsklassen siehe Wikipedia oder den technischen Bericht des Programmbereichs Korpuslinguistik zur Anwendung der Häufigkeitsklassen in der korpusbasierten Wortgrundformenliste DeReWo.
Als untergeordnete Option müssen Sie zusätzlich angeben, welche Referenz zu der von Ihnen ausgeführten Suchanfrage sinnvoll ist.
- Einzelwort, Groß/Klein/Diakr. beachten
wählen Sie für eine Einzelwortsuche, bei der Groß- und Kleinschreibung und Diakritika beachtet werden.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Häufigkeit der Wortform der im gesamten ausgewählten Korpus.
Beispiel: Wolle
,
die Wortformliste enthält nur Wolle
.
- Einzelwort, Groß/Klein/Diakr. ignorieren
wählen Sie für eine Einzelwortsuche, bei der Groß- und Kleinschreibung und Diakritika ignoriert werden sollen.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Gesamthäufigkeit der groß und klein geschriebenen Varianten von der im gesamten ausgewählten Korpus.
Beispiel: wolle
,
die Wortformliste enthält wolle
, Wolle
,
…
- Lemma
wählen Sie für eine Suche mit Lemmatisierung, bei der Groß- und Kleinschreibung und Diakritika ignoriert oder beachtet werden und nur die Lemmatisierungsoption Flexionsformen aktiv ist.
Als Referenz (für die Bestimmung der Klasse 0) nimmt COSMAS II die Gesamthäufigkeit der bestimmten Artikel der, die, das, dem, den, des im gesamten ausgewählten Korpus.
Beispiel: &wollen
,
die Wortformliste enthält will
, Will
,
wolle
, Wolle
, …
- automatisch
wählen Sie für eine der drei obigen Referenzen. COSMAS II stellt eine der drei obigen untergeordneten Optionen aufgrund der Suchanfrage und -optionen automatisch ein.
Beispiel: &wollen
,
die Wortformliste enthält will
, Will
,
wolle
, Wolle
, …
.
COSMAS II setzt die Option Referenz automatisch auf Lemma.
Option Häufigkeitsmaß grau darstellen
Die Spalte für die Ausgabe des Häufigkeitsmaßes kann optional in grau dargestellt werden. Dies kann unter Umständen zu einer besseren Lesbarkeit der gesamten Tabelle führen.