Textklassifikation in COSMAS II
Auf dieser Seite werden die beiden Textklassifikationen Textsorte und thematische Klassifikation vorgestellt, die mit der Server-Version 4.2 von COSMAS II (Juli 2012) freigegeben werden. Anhand dieser Metadaten lassen sich
- die Präsentationen der Korpuszusammensetzung (siehe COSMAS IIweb und COSMAS IIwin),
- die Präsentation der Ergebnisse (siehe COSMAS IIweb und COSMAS IIwin), und
- die Bildung von vituellen (Benutzer-)Korpora (mehr...)
um zwei neue Dimensionen erweitern.
Diese Daten werden zu einem späteren Zeitpunkt ebenfalls in die virtuelle Korpusbildung integriert.
Textsorten
In den meisten DeReKo-Zeitungskorpora und -Korpora mit Pressemeldungen sind die Texte (Artikel) mit einer Textsorte ausgezeichnet. Wir weisen darauf hin, dass das Inventar der Textsorten historisch gewachsen ist und keiner linguistisch definierten Systematik von Textsorten folgt. Die meisten Textsorten-Klassifikationen werden automatisch aus den Metadaten der Originaldaten extrahiert, die auch fehlerhafte Zuweisungen enthalten können. Nicht in allen Zeitungskorpora und nicht für alle Jahrgänge sind die Texte mit Textsorten ausgezeichnet. Einen Überblick erhalten Sie in der Textsorten-bezogenen Präsentation der Korpuszusammensetzung ihres ausgewählten Korpus in COSMAS II.
Derzeit (Release DeReKo-2012-II) umfasst die Textsorten-Taxonomie folgende Kategorien:
Abstract | Analyse | Anzeigentext |
Beilage | Bericht | Bericht:Augenzeugenbericht |
Bericht:Bilanzbericht | Bericht:Erfahrungsbericht | Bericht:Kurzbericht |
Bericht:Prozessbericht | Bericht:Reisebericht | Bericht:Schicksalsbericht |
Bericht:Sportbericht | Bericht:Tagungsbericht | Bericht:Testbericht |
Bericht:Unternehmensbericht | Bericht:Vorbericht | Bericht:Wetterbericht |
Bericht:Wettkampfbericht | Bildbeischrift | Buchauszug |
Chronologie | Dokumentation | Dossier |
Essay | Expertenmeinung | Fall |
Fall:Kurioser Fall | Fall:Spektakulärer Fall | Fall:Tragischer Fall |
Feuilleton | Fragebogen | Gegendarstellung |
Gerichtsurteil | Gespräch | Grafik |
Historisches | Interview | Klatsch |
Kolumne | Kommentar | Kontaktdaten |
Leserbrief | Literaturhinweis | Lokales |
Medienseite | Meldung | Meldung:Agenturmeldung |
Nachruf | Offener Brief | Personalie |
Personalienprofil | Porträt | Porträt:Firmenporträt |
Porträt:Länderporträt | Porträt:Stadtporträt | Rangliste |
Ratgeber | Rede | Reportage |
Reportage:Homestory | Rezension | Rezension:Buchrezension |
Rezension:Fernsehrezension | Rezension:Filmrezension | Rezension:Kunstrezension |
Rezension:Musikrezension | Rezension:Theaterrezension | Satire |
Serie | Sportergebnis | Statistik |
TippsService | Umfrage | Veranstaltungsinformation |
Vorspann | Zitat | Überblick |
Thematische Klassifikation
Die Texte aller DeReKo-Zeitungskorpora und Pressemeldungskorpora sind mit einem Thema ausgezeichnet, d.h. mit einer thematischen Kategorie nach einer für DeReKo entwickelten Themen-Taxonomie.
Die Themen-Taxonomie umfasst 12 Hauptkategorien und 52 Unterkategorien, welche ursprünglich auf Kategorien des Open Directory zurückgehen (vgl. Weiß 2005).
Die Themen-bezogene Ansicht von Korpora und Ergebnissen in COSMAS II basiert auf der durch einen Naive-Bayes-Klassifikator automatisch ermittelten wahrscheinlichsten Themenkategorie für jeden Text. Die Performanz dieses Klassifikators lag bei 83% durchschnittlicher Präzision und 82% durchschnittlicher Vollständigkeit auf einem Testkorpus von 30 Zeitungsartikeln je Unterkategorie aus dem Jahre 2003 (vgl. Weiß 2005).
Hauptkategorie | Unterkategorien |
Fiktion | Vermischtes |
Freizeit/Unterhaltung | Reisen Rundfunk Vereine/Veranstaltungen |
Gesundheit/Ernährung | Gesundheit Ernährung |
Kultur | Bildende Kunst Darstellende Kunst Film Literatur Mode Musik |
Natur/Umwelt | Garten Tiere Wetter/Klima |
Politik | Ausland Inland Kommunalpolitik |
Sport | Ballsport Fußball Motorsport Radsport Tennis Vermischtes Wintersport |
Staat/Gesellschaft | Arbeit/Beruf Bildung Biographen/Interviews Drittes Reich/Rechtsextremismus Familie/Geschlecht Kirche Recht Tod Verbrechen |
Technik/Industrie | EDV/Elektronik Kfz Transport/Verkehr Umweltschutz Unfälle |
Wirtschaft | Banken Bilanzen Öffentliche Finanzen Sozialprodukt Währung |
Wissenschaft | Populärwissenschaft |
Rest | Börsenkurse Geburt/Tod/Heirat Impressum Inhaltsverzeichnisse Ligatabellen Tabellen Veranstaltungshinweise |
Literatur und weiterführende Links
-
Weiß, Christian (2005): Die thematische Erschließung von Sprachkorpora. (= OPAL - Online publizierte Arbeiten zur Linguistik 1/2005). Mannheim: Institut für Deutsche Sprache.
- Fragen zur Textauszeichnung nach Textsorten und Themen sowie zu den
Taxonomien richten Sie bitte an:
Programmbereich Korpuslinguistik,
Projekt: Ausbau und Pflege der Korpora geschriebener Gegenwartssprache