Leistungsmerkmale des COSMAS II-Systems
COSMAS II hat alle Leistungen, die den Grundstock eines lexikografischen Korpusrecherchewerkzeugs bilden, von seinem Vorgängersystem COSMAS I übernommen.
Darunter fallen bewährte und geschätzte Funktionalitäten wie z.B.
- virtuelle Korpuskomposition,
- Suchanfragen,
- Lemmatisierung,
- morphosyntaktische Annotationen,
- Ergebnispräsentation und Sortiermöglichkeiten,
- Kookkurrenzanalyse und -clustering oder
- chronologische Sortierung von Rechercheergebnissen.
COSMAS II nutzt für sprachwissenschaftliche und andere sprachbezogene Forschungsvorhaben (wie zuvor COSMAS I) die Textkorpora des IDS.
Verbesserung und Ausbau bekannter Funktionalitäten
- Erweiterte virtuelle Korpuskomposition: unbegrenzt viele virtuelle Korpora können gebildet und verwaltet werden. Zahlreiche bibliografische Angaben und Texteigenschaften können für die Bildung einer erweiterten Korpusdefinition herangezogen werden (→ mehr).
- Suchanfragen: neben der zeilenorientierten Eingabe steht auch eine grafische Suchanfragekomponente zur Verfügung. Außerdem wurden die Funktionalitäten für das Recherchieren mit ling. Annotationen (→ mehr) ausgebaut und die Suchanfragesprache an vielen Stellen erweitert (→ mehr).
- Sortiermöglichkeiten: neben der Sortierung nach Jahreszahlen kann auch nach Monaten bzw. Tagen und Jahrzehnten sortiert werden. Zusätzlich zur Dokumentenansicht sind die Korpus-, Quellen- bzw. Länderansicht möglich sowie 2 textklassifikatorische Ansichten (→ mehr).
- Ergebnisse: die Ergebnispräsentationen und die Auswertung der Treffer wurden erweitert (→ mehr).
- Häufigkeitsmaße: die bereits in COSMAS I in einfacherer Form vorhandenen relativen Häufigkeiten werden neu interpretiert und erweitert wieder angeboten und um die Maße für Differenzkoeffizient sowie Häufigkeitsklassen ergänzt.
- Konfiguration von Archiven: die konfigurierbaren Optionen der Archive wurden erweitert, um unterschiedliche Nutzungsrechte und -szenarien zu ermöglichen (→ mehr).
- Kontrollmechanismen des Servers: die Kontrollmöglichkeiten des Servers wurden erweitert, um einen reibungslosen Betrieb zu gewährleisten (→ mehr).
Neu hinzugekommene Funktionalitäten
- Standardisiertes Datenformat: Als Grundlage für die Indizierung der Textkorpora dient das SGML-basierte Korpusauszeichungsformat CES (Corpus Encoding Standard), seit April 2010 das XML-basierte XCES.
- Textannotationen:
Annotationen können unterschiedliche Ebenen betreffen,
wie z.B. die Texttypographie, die Dokumentstruktur oder
strukturierte linguistische Informationen
(→ mehr).
Hinsichtlich der Typologie kennt COSMAS II keine Beschränkungen, solange die Annotationen in einem standardisierten Format wie z.B. CES/SGML bzw. XCES/XML kodiert sind. - Multi-Lingualität: COSMAS II kann in Texten aus allen 12 in ISO 8859-1 enthaltenen westeuropäischen Sprachen nicht nur recherchieren, sondern diese auch verwalten.
- Multi-Protokollfähigkeit:
zur Zeit der Konzeption von COSMAS II war noch nicht abzusehen,
welches (Netzwerk-)Transportprotokoll sich durchsetzen würde.
Neben TCP-Sockets waren damals noch die ISO/OSI-Standards
TLI bzw. XTI im Rennen.
Obwohl heutzutage nicht mehr gefragt, sind die letzten beiden Protokolle wie vor aktivierbar. Dementsprechend kann die Netzwerkschnittstelle problemlos um andere Transportprotokolle erweitert werden. - Client/Server-Architektur: eine wohldefinierte Programmierschnittstelle ermöglicht das Aufsetzen von verschiedenen Applikationen - wie z.B. COSMAS IIwin, COSMAS IIweb oder COSMAS IIscript - auf ein- und demselben COSMAS II-Server.
- Grafische Benutzeroberflächen:
z.B COSMAS IIwin
unter WINDOWS 9x/NT/2000/XP oder
COSMAS IIweb
im WWW.
Eine Stärke dieser Benutzeroberflächen besteht in der Art, wie Suchanfragen grafisch formuliert werden können (→ mehr). - Export: Kumulieren von manuell aktivierten Treffern aus verschiedenen Ergebnisansichten zum Exportieren einer gezielt reduzierten Treffermenge (→ mehr).
- Sekundäre Sortiermöglichkeiten: neben den bekannten (zeilenweisen) Sortierungen sind auf den Seiten für die Korpus- und Ergebnispräsentationen auch spaltenweise Sortierungen möglich, z.B. nach Trefferhäufigkeit, Textanzahl, Bezeichnungen o.ä.
- Text-Ton-Alignment: Zuordnung von digitalisierten gesprochenen Äußerungen zu deren Audio-Dateien, so dass Treffer abgespielt werden können (Anwendung DITRA).
- Berücksichtigung von Besonderheiten verschrifteter gesprochener Sprache: Simultanpassagen, d.h. Gleichzeitigkeit von Äußerungen, Fragmentierung von Wörtern, nicht-lexikalisierte Äußerungen, Pausen usw.; sprecherbezogener Wortabstandsoperator (Anwendung DITRA).
Nicht Bestandteil von COSMAS II
Allgemeine und/oder fachspezifische Wort- und Frequenzlisten können in COSMAS II nicht erzeugt werden. Diese Themen werden in einem eigenen Arbeitsschwerpunkt am IDS erforscht. Fragen hierzu senden Sie bitte direkt an derewo at ids-mannheim.de.