[IDS-Logo] Textklassifikation unter COSMAS II

Textklassifikation in COSMAS II

Auf dieser Seite werden die beiden Textklassifikationen Textsorte und thematische Klassifikation vorgestellt, die mit der Server-Version 4.2 von COSMAS II (Juli 2012) freigegeben werden. Anhand dieser Metadaten lassen sich

um zwei neue Dimensionen erweitern.

Diese Daten werden zu einem späteren Zeitpunkt ebenfalls in die virtuelle Korpusbildung integriert.

Textsorten

In den meisten DeReKo-Zeitungskorpora und -Korpora mit Pressemeldungen sind die Texte (Artikel) mit einer Textsorte ausgezeichnet. Wir weisen darauf hin, dass das Inventar der Textsorten historisch gewachsen ist und keiner linguistisch definierten Systematik von Textsorten folgt. Die meisten Textsorten-Klassifikationen werden automatisch aus den Metadaten der Originaldaten extrahiert, die auch fehlerhafte Zuweisungen enthalten können. Nicht in allen Zeitungskorpora und nicht für alle Jahrgänge sind die Texte mit Textsorten ausgezeichnet. Einen Überblick erhalten Sie in der Textsorten-bezogenen Präsentation der Korpuszusammensetzung ihres ausgewählten Korpus in COSMAS II.

Derzeit (Release DeReKo-2012-II) umfasst die Textsorten-Taxonomie folgende Kategorien:

Abstract Analyse Anzeigentext
Beilage Bericht Bericht:Augenzeugenbericht
Bericht:Bilanzbericht Bericht:Erfahrungsbericht Bericht:Kurzbericht
Bericht:Prozessbericht Bericht:Reisebericht Bericht:Schicksalsbericht
Bericht:Sportbericht Bericht:Tagungsbericht Bericht:Testbericht
Bericht:Unternehmensbericht Bericht:Vorbericht Bericht:Wetterbericht
Bericht:Wettkampfbericht Bildbeischrift Buchauszug
Chronologie Dokumentation Dossier
Essay Expertenmeinung Fall
Fall:Kurioser Fall Fall:Spektakulärer Fall Fall:Tragischer Fall
Feuilleton Fragebogen Gegendarstellung
Gerichtsurteil Gespräch Grafik
Historisches Interview Klatsch
Kolumne Kommentar Kontaktdaten
Leserbrief Literaturhinweis Lokales
Medienseite Meldung Meldung:Agenturmeldung
Nachruf Offener Brief Personalie
Personalienprofil Porträt Porträt:Firmenporträt
Porträt:Länderporträt Porträt:Stadtporträt Rangliste
Ratgeber Rede Reportage
Reportage:Homestory Rezension Rezension:Buchrezension
Rezension:Fernsehrezension Rezension:Filmrezension Rezension:Kunstrezension
Rezension:Musikrezension Rezension:Theaterrezension Satire
Serie Sportergebnis Statistik
TippsService Umfrage Veranstaltungsinformation
Vorspann Zitat Überblick

Thematische Klassifikation

Die Texte aller DeReKo-Zeitungskorpora und Pressemeldungskorpora sind mit einem Thema ausgezeichnet, d.h. mit einer thematischen Kategorie nach einer für DeReKo entwickelten Themen-Taxonomie.

Die Themen-Taxonomie umfasst 12 Hauptkategorien und 52 Unterkategorien, welche ursprünglich auf Kategorien des Open Directory zurückgehen (vgl. Weiß 2005).

Die Themen-bezogene Ansicht von Korpora und Ergebnissen in COSMAS II basiert auf der durch einen Naive-Bayes-Klassifikator automatisch ermittelten wahrscheinlichsten Themenkategorie für jeden Text. Die Performanz dieses Klassifikators lag bei 83% durchschnittlicher Präzision und 82% durchschnittlicher Vollständigkeit auf einem Testkorpus von 30 Zeitungsartikeln je Unterkategorie aus dem Jahre 2003 (vgl. Weiß 2005).

Hauptkategorie Unterkategorien
Fiktion Vermischtes
Freizeit/Unterhaltung Reisen
Rundfunk
Vereine/Veranstaltungen
Gesundheit/Ernährung Gesundheit
Ernährung
Kultur Bildende Kunst
Darstellende Kunst
Film
Literatur
Mode
Musik
Natur/Umwelt Garten
Tiere
Wetter/Klima
Politik Ausland
Inland
Kommunalpolitik
Sport Ballsport
Fußball
Motorsport
Radsport
Tennis
Vermischtes
Wintersport
Staat/Gesellschaft Arbeit/Beruf
Bildung
Biographen/Interviews
Drittes Reich/Rechtsextremismus
Familie/Geschlecht
Kirche
Recht
Tod
Verbrechen
Technik/Industrie EDV/Elektronik
Kfz
Transport/Verkehr
Umweltschutz
Unfälle
Wirtschaft Banken
Bilanzen
Öffentliche Finanzen
Sozialprodukt
Währung
Wissenschaft Populärwissenschaft
Rest Börsenkurse
Geburt/Tod/Heirat
Impressum
Inhaltsverzeichnisse
Ligatabellen
Tabellen
Veranstaltungshinweise

Literatur und weiterführende Links

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018