Detaillierte Leistungsmerkmale des COSMAS II-Systems
Suchanfragen
- klassische Operatoren:
- Wortformen, Wortformen mit Wildcards, Lemmatisierung
- Abstandsoperator (Wort, Satz, Absatz)
- textweite logische Operatoren: UND, ODER, NICHT
- Erweiterte Operatoren:
- Textbereichoperatoren, z.B. #BEG, #END, #ALL, etc. Der Textbereich einer (Teil-)Suchanfrage kann verändern/eingegrenzt werden. Damit ergibt sich die Möglichkeit des gezielten Exports von Trefferbereichen, deren Sortierung und statistischer Auswertung.
- (Annotations)Operatoren auf SGML- bzw. XML-Ebene: #ELEM
- Operatoren für die Überlappung und Verschachtelung von zusammenhängenden und diskontinuierlichen Textbereichen: #IN, #OV
- Operator #BED(), um über die Indexe (rasch) Treffer an Satz-/Absatz-/Textgrenzen zu recherchieren oder auszuschliessen.
- ähnlich zu #BED() können Suchbegriffe mit :sa, :se etc. ergänzt werden, um deren (Nicht-)Vorkommen an Satz-/Absatz-/Textgrenzen zu begrenzen, Z.B.: gefordert:se
- Multiabstände. Z.B. MORPH(NOU) /+w1:1,s0 MORPH(V).
- Suchoption minimale bzw. maximale Gruppenbildung.
- Wortbildung mit regulären Ausdrücken mittels Operator #REG().
- erweiterte Optionen bei der Bildung von Korposita (Lemmatisierungskomponente).
alle Suchoperatoren im grafischen Modus und im zeilenorientierten Modus verfügbar
- Optionen der Suchanfragen:
- zahlreiche Suchoptionen für Groß-/Kleinschreibung und (Nicht-)Berücksichtigung von diakrit. Zeichen
- mehrere Platzhalteroperatoren für Wildcard-Suche, kombinierbar mit Groß-/Klein/diakr. Zeichen
- feste und variable Trefferreduktion mit Zufallsgenerator
- Sortierung der temp. Wortformliste, Ausschnitt frei wählbar, Zusammenfassung möglich
- Suchbereich:
- Suchbereich Primärtext
- Suchbereich Text-Header für die virtuelle Korpusbildung
- Annotationsassistent:
- generischer Assistent mit austauschbarer XML-Tagset-Definitionsdatei.
- Listen von Suchbegriffen:
- lange Listen mit > 1'000 Suchbegriffen, wovon jeder Suchbegriff Platthalter enthalten kann.
Annotationen
- Annotationsoperator MORPH() mit Wiederholungsoptionen (analog zu regulären Ausdrücken)
- generischer Annotationsassistent für verschiedene Tagsets
- allgemeiner Annotations-Operatoren: #ELEM
- Kombinationsoperatoren für die Überlappung und Verschachtelung von zusammenhängenden und diskontinuierlichen Textbereichen: #IN, #OV
- komplexe Annotations-Recherchen können durch vordefinierte Makros (im grafischen Modus) benutzerfreundlich gestaltet werden
- Anzeige in Belege ein-/ausschaltbar
- Anzeige im Export ein-/ausschaltbar
Sortiermöglichkeiten
- KWIC und Belege:
- lexikografische Sortierung im Kontext der Treffer, rückläufig, (Nicht-)Berücksichtigung der Sonderzeichen
- chronologische Sortierung (nach Tag)
- sortiert nach Kollokationsstärke
- zufällige Sortierung
- statische Auswertung und Sortierung der Trefferlänge
- Ergebnispräsentationen:
- chronologisch: nach Jahrzehnt, nach Jahr, nach Monat, nach Tag, vor/nach Zeitpunkt
- nach Ländern (D/CH/A), nach Korpus, nach (IDS-)Dokument, nach Quellen.
- nach Textsorte, nach thematischer Klassifizierung.
- statistische Auswertung nach Trefferlänge (Anz. Wörter)
- sekundäre Sortierung nach den einzelnen Spalten
- relative Häufigkeiten (Angaben in Prozenten oder 'Milion Wörter'), Differenzenkoeffizienten, Häufigkeitsklassen, alle als sekundäres Sortierkriterium
- Korpuspräsentationen:
- selbe Präsentationsformen wie bei den Ergebnissen.
- prozentuale Verteilung der Texte und der Wörter
- temporäre Wortformliste:
- lexikografisch und rückläufig
- nach Frequenzen
- Suchanfragestatistik
- lexikografische Sortierung:
- wo immer Wörter alphabetisch sortiert werden, handelt es sich um eine wörterbuchartige lexikografische Sortierung, die Buchstaben und ihre diakritischen Varianten (A, a, Ä, ä etc. und s, ss, ß) zusammenführt
virtuelle Korpusbildung
- Korpusbildung:
- zahlreiche bibiografische Kriterien und Texteigenschaften können für die Bildung einer erweiterten Korpusdefinition verwendet und kombiniert werden.
- aus Ergebnis (Treffermenge) erzeugen
- aus Ergebnis erzeugen und vom aktuellen virt. Korpus abziehen
- aus Sucheanfrage in den Header-Daten (bibiografischen Daten) der einzelnen Texte, (IDS-)Dokumenten und Korpora.
- Reduktion der Texte mit variablem/festem Zufallsgenerator
- Laden mehrerer virtueller Korpora pro Sitzung
- Wahl zwischen vordefinierten, benutzerdefinierten und projektbezogenen virt. Korpora
- Verwalten: editieren, modifizieren, speichern, löschen; während der Sitzung: laden/entladen
- Zusammensetzung nach verschiedenen sog. Korpuspräsentationen darstellen, nach sekundären Kriterien sortieren und exportieren.
- Korpuspräsentationen, siehe Sortiermöglichkeiten
- Ergebnissse in virt. Korpora verwandeln
- Freigabe von virtuellen Korpora als Projekt-Korpora
Ergebnisse
- temporäre Wortformlisten:
- vor der eigentlichen Recherche: aktivieren/deaktiviren einzelner Einträge bzw. ganzer Bereiche von Einträgen
- sortierte (siehe Sortiermöglichkeiten) und zusammengefasste Wortformlisten
- KWIC und Belege:
- KWIC: Kurz-Zitierung
- konfigurierbarer Trefferkontext: Kontextart, Kontextgröße, 4 Kontexteinheiten
- Belege: 3 verschiedene Arten von Zitierungen
- navigieren zwischen den Belegen, "gehe zu"-Funktionalität
- aktivieren von Treffer-Bereichen für den Export
- einfaches Stylesheet-Handling der Belege
- KWIC-Auswertung und -analyse :
- Ergebnispräsentationen (siehe Sortiermöglichkeiten)
- Kookurrenzanalyse
- statistische Auswertung der Trefferlänge (in Wörtern)
- Häufigkeitsmaße (siehe Sortiermöglichkeiten)
- Suchanfragestatistik
- Ergebnissse in virt. Korpora verwandeln
- Erweiterungen der Kookkurrenzanalyse wurden integriert
Export
- Kategorien: Ergebnispräsentation, KWIC, Belege, temp. Wortformlisten, Korpusinhalt
- aktive Treffer aus mehreren Ergebnispräsentationen, Trefferbegrenzung, ling. Annotationen ja/nein, Art der Zitierung
- Formate: plain ASCII, RTF, teilweise XML, Schriftgröße, Hoch-/Querformat
Archive
- beliebig viele, individuell konfigurierbare Archive
- Zugangskontrolle:
- Einschränken auf interne/externe Nutzung
- Einschränken auf Gruppen von C2-Nutzern
- Einschränken auf max. Anzahl von gleichzeitigen Sitzungen
- wichtigste, konfigurierbare Optionen:
- Modus für geschriebene oder gesprochene Sprache (= Transkripte)
- Wahl des Tagsets.
Administration und Kontrollmechanismen des Servers
- Sitzungskontrolle:
- Benutzerkennung und -passwort, Schibboleth-Logging
- max. Anzahl Sitzung pro Benutzer/Internet-Top-Domäne/Internet-Sub-Domäne
- max. prozentualle Anz. von internen/externen Sitzungen
- unterschiedliche Timeouts je nach Sitzungsphase oder ausgeführte Operation
- Schutz vor Überlastung des Servers
- Datenzugangskontrolle:
- unterschiedliche Obergrenzen der angezeigten Trefferausschnitten (nach Zitationsrecht) bei KWIC und Belegen
- Obergenzen bei Länge der temp. Wortformlisten und angezeigten Wortfrequenzen, etc.
- Archiv-Zugangskontrolle: siehe Archive
- Newsletter
grafische WINDOWS-Benutzeroberfläche
- grafischer Eingabemodus:
- alle Operatoren als grafische Operatoren mit der Maus kombinierbar (nach der Syntax der Suchanfragesprache)
- Operatoren und vollständige, schon ausgeführte Suchanfragen zu neuen, komplexeren Suchanfragen kombinierbar.
- partielle grafische Suchanfragen können in graf. Makros umgewandelt und gespeichert werden.
- Benutzerführung durch Assistenten (sog. C2-Begleiter) im WINDOWS-GUI
- "Suchen/weiter"-Funktionalität im Ergebnispräsentatons-, Korpuspräsentations- und Kookkurrenzergebnisfenster
- Fenster für Ergebnispräsentation bzw. Kookkurrenzanalyse kann an Sub-KWIC-Fenster angedockt werden