[IDS-Logo] COSMAS II: Häufigkeitsmaße für die Ergebisauswertung

Häufigkeitsmaße für die Auswertung von Ergebnissen

Probleme bei der Interpretation von Ergebnissen

Lassen Sie Vorsicht walten, wenn Sie die absoluten Angaben über die Trefferzahlen in mehreren Einträgen (= Korpusausschnitten) einer Ergebnispräsentation direkt miteinander vergleichen, da diesen Korpusausschnitten unterschiedlich viele Texte und Textwörter im aktiven Korpus zugrunde liegen, sie somit keine gemeinsame Vergleichsgrundlage bilden.

Beziehen Sie dabei auch immer im aktiven Korpus die Verteilung der Anzahl der Textwörter über diese Korpusausschnitte in der gleichnamigen Korpuspräsentation mit ein.

Beispiel

Die Suchanfrage "Tunnel" liefert in der Quellenansicht folgendes Ergebnis:

Ergebnispräsentation nach Quellen
Anzahl Treffer Quelle
119Mannheimer Morgen
618Oberösterreichische Nachrichten

Das Verhältnis zwischen den absoluten Trefferzahlen ist rund 1:5. Um etwas aussagekräftiges über dieses Verhältnis aussagen zu können, müssen Sie die zugehörige Korpusansicht für die gleichen Quellen hinzuziehen:

Korpuspräsentation nach Quellen
Anzahl Textwörter Quelle
15.383.141Mannheimer Morgen
26.819.423Oberösterreichische Nachrichten

Hier stellen Sie fest, dass die Vergleichbasis für die entsprechenden Quellen rund das Verhältnis 1:2 aufweist.

Ergebnis: Während der Mannheimer Morgen etwa halb so viele Treffer aufweist wie zu erwarten wäre (Erwartung: ca. 1/3 der 119+618 Treffer, also ca. 250), weisen die Oberösterreichische Nachrichten überdurchschnittlich viele Treffer (Erwartung: ca 2/3 der 119+618 Treffer, also ca. 490) auf.

Ausweg: Häufigkeitsmaße

Um die absoluten Trefferzahlen

zu können, ist die Hinzunahme verschiedener Häufigkeitsmaße sinnvoll. COSMAS II bietet die drei nachfolgend erläuterten Maße an, die Sie über die Ergebnispräsentationsoptionen (COSMAS IIwin oder COSMAS IIweb) ein- und ausschalten können.

Art der Suchanfrage

Die Anwendbarkeit dieser Maße hängt teilweise von der Art der Suchanfrage ab. Deshalb wird zwischen einfachen und komplexen Suchanfragen unterschieden:

Für jedes der nun beschriebenen Häufigkeitsmaße wird deshalb auch angegeben, für welche Suchanfrageart es in COSMAS II berechnet wird und ob sich die Häufigkeitswerte verschiedener Suchanfragen sinnvoll vergleichen lassen. Dazu gibt es auch eine Zusammenfassung.

Vergleichbarkeit unterschiedlicher Suchanfragen

Anhand der Häufigkeitsmaße läßt sich untersuchen, wie sich die Treffermenge einer Suchanfrage über die Teilkorpora eines Korpus verteilt.

In begrenztem Maße lassen sich die Verteilungen verschiedener Suchanfragen auch vergleichen, vorausgesetzt, diese Suchanfragen sind gleicher Art oder besitzen die gleiche Referenzgröße (im Falle der Häufigkeitsklassen).

Z.B. lassen sich die Suchanfragen "&baden" und "&schwimmen" über alle in COSMAS II verfügbaren Häufigkeitsmaße untereinander vergleichen. Hingegen lassen sich die Suchanfragen "&baden /+w2 &gehen" und "nicht /+w2 (&baden /+w2 &gehen)" nicht anhand ihrer in COSMAS II anzeigten relativen Häufigkeiten und Differenzenkoeffizienten miteinander vergleichen (→ mehr).


Die in COSMAS II berechneten Häufigkeitsmaße

Folgende Häufigkeitsmaße können in COSMAS II zur Auswertung der Ergebnisse berechnet werden:


Zusammenfassung: Anwendbarkeit der Häufigkeitsmaße

Häufigkeitsmaß Art der Suchanfrage anwendbar vergleichbar
rel. Häufig. [%] einfach
komplex
ja
ja
ja
ja1
rel. Häufig. [pMW] einfach
komplex
ja
ja
ja
ja1
Differenzkoeff. einfach
komplex
ja
ja
ja
nein
Häufigkeitsklassen einfach
komplex
ja 2
nein
ja 3
nein
1: bei gleicher Referenz (Anz. der Wörter)
2: keine Platzhalter, keine Wortklassen
3: bei gleicher Referenz (Groß-/Kleinschreibung)

Wert eines Häufigkeitsmaßes in der Zusammenfassung

Am Ende einer Ergebnispräsentation wird auf einer Zeile eine Zusammenfassung angezeigt. Für die relativen Häufigkeiten und die Häufigkeitsklassen lässt sich an dieser Stelle auch ein Wert angeben.

Beispiel

Anzahl Treffer rel. Häufig. Jahrzehnt
820.000034%1990-1999
3250.000032%2000-2009
Zusammenfassung über die Jahrzehnte
4070.000032%1990-2009

Für die Berechnung des Häufigkeitsmaßes in der Zusammenfassung werden die Anzahl Treffer und die Korpusgröße insgesamt genommen.

Alternativ dazu, den Durschnittswert über alle Korpusquerschnitte (hier alle Jahrzehnte) für die Zusammenfassung zu nehmen, kann zu verzerrten Werten führen, da z.B. eine große Zahl von kleinen Korpusquerschnitten mit niedrigem Häufigkeitswert den Durchschnittswert überproportional nach unten drückt.

Grafische Darstellung von Ergebnissen mit Häufigkeitsmaßen

In einer nächsten Version von COSMAS II werden die obigen Häufigkeiten auch in grafischer Form präsentiert.


1 Das Umschalten zwischen den Angaben in Prozenten und pMW erfolgt in COSMAS IIweb über die Benutzeroptionen, in COSMAS IIwin über das #SET-Kommando.

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018