Häufigkeitsmaße für die Auswertung von Ergebnissen
Probleme bei der Interpretation von Ergebnissen
Lassen Sie Vorsicht walten, wenn Sie die absoluten Angaben über die Trefferzahlen in mehreren Einträgen (= Korpusausschnitten) einer Ergebnispräsentation direkt miteinander vergleichen, da diesen Korpusausschnitten unterschiedlich viele Texte und Textwörter im aktiven Korpus zugrunde liegen, sie somit keine gemeinsame Vergleichsgrundlage bilden.
Beziehen Sie dabei auch immer im aktiven Korpus die Verteilung der Anzahl der Textwörter über diese Korpusausschnitte in der gleichnamigen Korpuspräsentation mit ein.
Beispiel
Die Suchanfrage "Tunnel" liefert in der Quellenansicht folgendes Ergebnis:
Ergebnispräsentation nach Quellen | ||
---|---|---|
Anzahl Treffer | … | Quelle |
119 | … | Mannheimer Morgen |
618 | … | Oberösterreichische Nachrichten |
Das Verhältnis zwischen den absoluten Trefferzahlen ist rund 1:5. Um etwas aussagekräftiges über dieses Verhältnis aussagen zu können, müssen Sie die zugehörige Korpusansicht für die gleichen Quellen hinzuziehen:
Korpuspräsentation nach Quellen | ||
---|---|---|
Anzahl Textwörter | … | Quelle |
15.383.141 | … | Mannheimer Morgen |
26.819.423 | … | Oberösterreichische Nachrichten |
Hier stellen Sie fest, dass die Vergleichbasis für die entsprechenden Quellen rund das Verhältnis 1:2 aufweist.
Ergebnis: Während der Mannheimer Morgen etwa halb so viele Treffer aufweist wie zu erwarten wäre (Erwartung: ca. 1/3 der 119+618 Treffer, also ca. 250), weisen die Oberösterreichische Nachrichten überdurchschnittlich viele Treffer (Erwartung: ca 2/3 der 119+618 Treffer, also ca. 490) auf.
Ausweg: Häufigkeitsmaße
Um die absoluten Trefferzahlen
- in Relation zu den angezeigten Korpusquerschnitten setzen und
- untereinander in den verschiedenen Korpusquerschnitten vergleichen
zu können, ist die Hinzunahme verschiedener Häufigkeitsmaße sinnvoll. COSMAS II bietet die drei nachfolgend erläuterten Maße an, die Sie über die Ergebnispräsentationsoptionen (COSMAS IIwin oder COSMAS IIweb) ein- und ausschalten können.
- Eine Einführung, mathematische Definitionen und Anwendbarkeit hierzu finden Sie in der Übersicht über korpuslinguistische Häufgkeitsmaße des Programmbereichs Korpuslinguistik.
- siehe die Anmerkungen zum Einfluss der Trefferreduzierung auf die Häufigkeitsmaße
Art der Suchanfrage
Die Anwendbarkeit dieser Maße hängt teilweise von der Art der Suchanfrage ab. Deshalb wird zwischen einfachen und komplexen Suchanfragen unterschieden:
- einfache Suchanfragen (z.B. finden, Hausrat*, &finden oder MORPH(ADJ)) erzeugen Einworttreffer;
- komplexe Suchanfragen (z.B. "stehen bleiben" oder "nicht" /+s0 (&baden /+w2,s0 &gehen)) können zusammenhängende oder nichtzusammenhängende Mehrworttreffer erzeugen.
Für jedes der nun beschriebenen Häufigkeitsmaße wird deshalb auch angegeben, für welche Suchanfrageart es in COSMAS II berechnet wird und ob sich die Häufigkeitswerte verschiedener Suchanfragen sinnvoll vergleichen lassen. Dazu gibt es auch eine Zusammenfassung.
Vergleichbarkeit unterschiedlicher Suchanfragen
Anhand der Häufigkeitsmaße läßt sich untersuchen, wie sich die Treffermenge einer Suchanfrage über die Teilkorpora eines Korpus verteilt.
In begrenztem Maße lassen sich die Verteilungen verschiedener Suchanfragen auch vergleichen, vorausgesetzt, diese Suchanfragen sind gleicher Art oder besitzen die gleiche Referenzgröße (im Falle der Häufigkeitsklassen).
Z.B. lassen sich die Suchanfragen "&baden" und "&schwimmen" über alle in COSMAS II verfügbaren Häufigkeitsmaße untereinander vergleichen. Hingegen lassen sich die Suchanfragen "&baden /+w2 &gehen" und "nicht /+w2 (&baden /+w2 &gehen)" nicht anhand ihrer in COSMAS II anzeigten relativen Häufigkeiten und Differenzenkoeffizienten miteinander vergleichen (→ mehr).
Die in COSMAS II berechneten Häufigkeitsmaße
Folgende Häufigkeitsmaße können in COSMAS II zur Auswertung der Ergebnisse berechnet werden:
Zusammenfassung: Anwendbarkeit der Häufigkeitsmaße
Häufigkeitsmaß | Art der Suchanfrage | anwendbar | vergleichbar |
---|---|---|---|
rel. Häufig. [%] | einfach komplex |
ja ja |
ja ja1 |
rel. Häufig. [pMW] | einfach komplex |
ja ja |
ja ja1 |
Differenzkoeff. | einfach komplex |
ja ja |
ja nein |
Häufigkeitsklassen | einfach komplex |
ja 2 nein |
ja 3 nein |
1: bei gleicher Referenz (Anz. der Wörter) 2: keine Platzhalter, keine Wortklassen 3: bei gleicher Referenz (Groß-/Kleinschreibung) |
Wert eines Häufigkeitsmaßes in der Zusammenfassung
Am Ende einer Ergebnispräsentation wird auf einer Zeile eine Zusammenfassung angezeigt. Für die relativen Häufigkeiten und die Häufigkeitsklassen lässt sich an dieser Stelle auch ein Wert angeben.
Beispiel
Anzahl Treffer | rel. Häufig. | … | Jahrzehnt |
---|---|---|---|
82 | 0.000034% | … | 1990-1999 |
325 | 0.000032% | … | 2000-2009 |
Zusammenfassung über die Jahrzehnte | |||
407 | 0.000032% | … | 1990-2009 |
Für die Berechnung des Häufigkeitsmaßes in der Zusammenfassung werden die Anzahl Treffer und die Korpusgröße insgesamt genommen.
Alternativ dazu, den Durschnittswert über alle Korpusquerschnitte (hier alle Jahrzehnte) für die Zusammenfassung zu nehmen, kann zu verzerrten Werten führen, da z.B. eine große Zahl von kleinen Korpusquerschnitten mit niedrigem Häufigkeitswert den Durchschnittswert überproportional nach unten drückt.
Grafische Darstellung von Ergebnissen mit Häufigkeitsmaßen
In einer nächsten Version von COSMAS II werden die obigen Häufigkeiten auch in grafischer Form präsentiert.
1 Das Umschalten zwischen den Angaben in Prozenten und pMW erfolgt in COSMAS IIweb über die Benutzeroptionen, in COSMAS IIwin über das #SET-Kommando.