COSMAS II für Einsteiger
Übersicht
Die 8 W's rund um COSMAS II sollen Ihnen helfen, sich eine erste Vorstellung vom Sinn und Zweck eines Korpusrecherchesystems zu machen und den nachfolgenden Einstieg etwas zu erleichtern.
- Was ist COSMAS II? - Von Anfragen, Ergebnissen und Belegen
- Wer benutzt COSMAS II? - Anwender der COSMAS II-Applikationen und der COSMAS II-Technologie
- Wozu braucht man (große) Textkorpora? - Vom Wort zur Vielfalt
- Welche Fragen können mit COSMAS II beantwortet werden? - Mögliche Fragestellungen
- Wo findet man die Applikationen zu COSMAS II? - Hinweise zur Verfügbarkeit der jeweiligen Anwendungen
- Wie recherchiert man in COSMAS II? - Ein Recherchebeispiel in fünf Bildern
- Wann erscheinen neue Versionen der COSMAS II-Applikationen? - Korrekturen, Aktualisierungen und Erweiterungen
- Weshalb sind die COSMAS II-Applikationen manchmal nicht erreichbar? - Die Grenzen der Technik
Eine stark vereinfachte Übersicht über eine COSMAS II-Sitzung:
- Quicktour - Arbeitsabläufe in einer COSMAS II-Sitzung
Was ist COSMAS II?
Eine am IDS konzipierte Volltextdatenbank für das linguistisch motivierte Recherchieren in den Textsammlungen (= Korpora) des IDS.
COSMAS II steht für Corpus Search, Management and Analysis System und ist das Nachfolgesystem von COSMAS I (1991-2003) am IDS.
Suchanfragen werden u.a. gebildet aus
- Wörtern, Teilwörtern, Wortgrundformen,
- Wortklassen (z.B. Verb, Artikel) und grammatikalischen Mustern,
- Angaben zu Wort- und Satzabstand,
- Angaben zu Textbereichen (z.B. Überschriften) und Position (z.B. erstes Wort eines Satzes).
Ergebnisse können u.a.
- nach Entstehungszeit, Erscheinungsland und Thematik sortiert werden,
- durch Statistiken auf häufig verwendete Gebrauchsmuster hin analysiert werden.
Belege werden
- hinsichtlich ihrer Herkunft (Verlag, evtl. Autor, Entstehungszeit, Seitenangabe) dokumentiert,
- mit unterschiedlichen Kontextgrößen exportiert.
Das stetig wachsende Deutsche Referenzkorpus (Umfang von ca. 42 Mrd. Wörtern, Stand April 2018), das COSMAS II zugänglich macht, umfasst Zeitungen, Sach-, Fach- sowie schöngeistige Literatur aus Deutschland, Österreich und der Schweiz von 1772 bis heute.
Was ist COSMAS II nicht?
COSMAS II ist keine Suchmaschine (wie z.B. Google, Yahoo! o.ä.),
- die fremde Texte oder Textbestände liest, indiziert und sie der Öffentlichkeit nach erfolgter Suchanfrage per Mausklick verfügbar macht,
- die die Inhalte von WWW-Servern oder sonstigen Anbietern im Internet durchsuchen kann,
- die zu kommerziellen Zwecken entwickelt und betrieben wird oder benutzt werden kann,
- mit der man archivierte Texte in ungekürzter Form lesen oder ausdrucken kann.
Welche Anwender benutzen COSMAS II?
- SprachwissenschaftlerInnen als auch WissenschaftlerInnen aus interdisziplinären Wissenschaften der Psychologie, Neurologie, Kognitionswissenschaft, Sprachtherapie, Kommunikations- und Medienwissenschaft und Statistik.
- ÜbersetzerInnen und SprachlehrerInnen fernab vom deutschsprachigen Kernland auf der Suche nach anschaulichen Beispielen lebendigen Sprachgebrauchs.
- StudentInnen im Rahmen ihrer Vorlesungen, Seminare oder wissenschaftlichen Arbeiten.
- Sprachinteressierte "Laien" auf der Suche nach Wortzusammenhängen oder Verwendungsweisen von Wörtern.
Ca. 80% der in COSMAS II ausgeführten Recherchen stammen von externen NutzerInnen.
- Siehe auch Beispiele für den Bekanntheitsgrad bzw. Regionale Verteilung der Zugriffe
Welche Projekte im IDS benutzen die COSMAS II-Applikationen?
- Die Projekte mit lexikologischem oder lexikografischem Hintergrund, z.B. OWID mit seinen Modulprojekten, das Deutsche Fremdwörterbuch oder das Handbuch Deutscher Kommunikationsverben.
- Der Programmbereich Korpuslinguistik zum Entwickeln und Austesten von korpuslinguistischen Methoden.
- Die grammatikbasierten Projekte, z.B. GRAMMIS oder das Handbuch der deutschen Konnektoren.
Welche Projekte im IDS benutzen COSMAS II-Technologie?
-
Die Datenbank
Gesprochenes Deutsch (DGD) leitet die Suchanfragen
in den Transkripten und die bibliografischen Auswahlkriterien
an einen COSMAS II-Server weiter.
Die Entwicklung dieser Anwendung liegt in der Verantwortung des Archivs für Gesprochenes Deutsch (Abteilung Pragmatik). - Den MitarbeiterInnen
der gesprächsanalytisch-orientierten Projekte steht die
(in der Entwicklung befindlichen) WINDOWS-Benutzeroberfläche
DITRA zur Verfügung, mit der nach diskursanalytischen
Gesichtspunkten in Transkripten recherchiert werden kann.
Die Treffer werden
in Form von Audio-Schnipseln wiedergegeben, d.h. abgespielt.
Die Weiterentwicklung dieser Anwendung liegt ebenfalls in der Verantwortung des Archivs für Gesprochenes Deutsch (Abteilung Pragmatik).
Wozu braucht man (große) Textkorpora?
Vom Wort zur Vielfalt
Die Größe der IDS-Korpora erlaubt
- seltene Fälle eines Wortgebrauchs ausfindig zu machen,
- die Vielfalt der deutschen Wortkompositionen (Faden - Beziehungsfäden-Zieherei) einzubeziehen,
- mittels Statistiken (Kookkurrenz-Analyse) starke Wortverbindungen, geläufige Assoziationen und syntaktische Muster des Gebrauchs von Wörtern zu identifizieren,
- zeitliche und kontextuelle Schwankungen in der Verwendung von Wörtern zu entdecken,
- neue Wörter oder neue Bedeutungen von vorhandenen Wörtern (Neologismen) zu extrahieren,
- Recherchen auf spezielle Textuntermengen einzugrenzen (Texte nach dem 11. Sept. 2001; Belletristik der 90er; etc.),
- das erste Auftreten von festen Wortverbindungen (z.B. roter Faden) oder Termini (z.B. Bundeskanzlerin) zu lokalisieren und deren Gebrauch zeitlich zu verfolgen,
- eine Erklärung zu erhalten für Wörter wie präsumptuos, die Sie in einem Wörterbuch vielleicht nicht finden,
- gesellschaftliche Trends anhand des Vokabulars zu erfassen,
- die Variabilität grammatikalischer Satzgefüge aufzufächern.
Welche Fragen können mit COSMAS II beantwortet werden?
Mögliche Fragestellungen für Sprachinteressierte
- Welche Wortverbindungen fallen Ihnen zu Faden ein, welche Assoziationen?
- Wann ungefähr nach Ihrem Gefühl könnte Bundeskanzlerin in der Medienlandschaft zum ersten Mal aufgetreten sein und in welchem Zusammenhang?
- Welche könnten die beiden großen Herren der deutschen Literatur sein, die ein Wort wie präsumptuos verwendet haben, und was könnte dieses Wort heißen?
- Fällt Ihnen vielleicht ein deutsches Wort ein, das in der Textsammlung des IDS nicht vorkommt?
Wo findet man die COSMAS II-Applikationen?
COSMAS II liegt in mehreren Varianten vor:
- COSMAS IIwin |
Diese Version ist nur auf WINDOWS-Betriebssystemen oder -Emulationen lauffähig und muss einmalig installiert werden. Eine Anleitung zum Herunterladen und zur Installation ist auf der Installationsseite von COSMAS IIwin verfügbar.
Bei Problemen im Zusammenhang mit WINDOWS-Emulationen finden Sie im FAQ weitere Hinweise.
Informationen zu Aufruf und Anmeldung der Applikation erhalten Sie in der Online-Hilfe.
- COSMAS IIweb |
COSMAS IIweb ist - unabhängig vom Betriebssystem - in jedem einigermaßen aktuellen Browser lauffähig, es muss nichts installiert werden. Die Applikation kann direkt über https://cosmas2.ids-mannheim.de/cosmas2-web/ gestartet werden.
Informationen zu Aufruf und Anmeldung der Applikation erhalten Sie in der Online-Hilfe.
- COSMAS IIscript |
Diese Anwendung - auf SOLARIS-Betriebssystemen lauffähig - ist nur innerhalb des IDS und auf Anfrage verfügbar.
- Voraussetzung für die Nutzung der Korpusrecherche über die oben genannten Applikationen ist eine (unentgeltliche) Registrierung.
Wo findet man die Applikationen, die COSMAS II-Technologie benutzen?
Die Datenbank Gesprochenes Deutsch liegt in der Verantwortung
des Archivs für Gesprochenes Deutsch
(AGD) und ist von dort aus zu erreichen.
Für diese Anwendung gelten eigene Richtlinien, was Registrierung, Anmeldung
etc. anbetrifft. Wenden Sie sich bei diesbezüglichen Fragen bitte direkt an
das AGD.
Die COSMAS II-basierte Anwendung zur Recherche in Diskurstranskripten (DITRA) liegt ebenfalls in der Verantwortung des Archivs für Gesprochenes Deutsch. Sie ist nur innerhalb des IDS verfügbar.
Wie recherchiert man in COSMAS II?
Das nachfolgende Anwendungsbeispiel soll einen in erster Linie
visuellen Eindruck der wichtigsten Funktionalitäten von COSMAS II vermitteln.
Eine stark vereinfachte Erläuterung der Funktionalitäten findet sich in der
Quicktour.
Die im Recherchebeispiel durchgespielte Aufgabe besteht darin, alle Vorkommen des Ausdrucks roter Faden in den gebräuchlichen Flexionsformen zu ermitteln.
Die ausgewählten Bildschirmausschnitte sind einer Sitzung der Applikation COSMAS IIweb entnommen:
Recherchebeispiel - Suchanfrage
Die Suchanfrage lautet umschrieben:
"Suche alle Vorkommen des Ausdrucks roter Faden in allen Flexionsformen."
Übersetzt in die Suchanfragesprache:
"Alle Flexionsformen des Wortes rot gefolgt von allen Flexionsformen des Wortes Faden mit dem Wortabstand 1."
Bildschirmausschnitt des Suchanfragefensters aus COSMAS IIweb
Recherchebeispiel - Wortformliste
Vor der eigentlichen Suche wird für beide Wörter eine Wortformliste mit allen gefundenen Flexionsformen aufgebaut. Unser Bild zeigt die Wortformliste (mit der Anzahl der Treffer) von Faden, bei der alle aufgelisteten Varianten (samt Frequenzen) in die anschließende Suche mit einbezogen werden.
Bildschirmausschnitt der Wortformlistenanzeige aus COSMAS IIweb
Recherchebeispiel - Chronologische Sortierung
Nach erfolgreicher Suche wird die Trefferliste aufgebaut, die nach verschiedenen Kriterien sortiert werden kann. Der Bildschirmausschnitt zeigt eine Sortierung nach Jahrzehnten an.
Für die nachfolgende Beleg-Ansicht wird der Treffer aus dem Jahrzehnt 1800-1809 ausgewählt.
Bildschirmausschnitt der Trefferanzeige aus COSMAS IIweb
Recherchebeispiel - Beleg-Ansicht
Der ausgewählte Treffer stammt aus den "Wahlverwandtschaften" von Goethe.
In der Titelleiste des Treffers ist die Kurzzitierform eingeblendet.
Der angezeigte Vor- und Nachbereich bezüglich des Suchausdrucks beläuft
sich hier auf vier Sätze.
Bildschirmausschnitt der Volltextanzeige aus COSMAS IIweb
Recherchebeispiel - Kookkurrenzanalyse
Zu guter Letzt wird über alle Treffer noch eine Kookkurenzanalyse ausgeführt. Dabei wird das Umfeld der in der Suchanfrage spezifizierten Wörter durchsucht und statistisch aufbereitet. Auf diese Weise lassen sich weniger bekannte Wortverbindungen erkennen oder bekannte überprüfen.
Trefferlisten und Statistiken können zur Nachbereitung exportiert und somit auf dem lokalen Rechner verfügbar gemacht werden.
Bildschirmausschnitt der Kookkurrenzanalyse aus COSMAS IIweb
Wann erscheinen neue Versionen der COSMAS II-Applikationen?
In der Regel wird für jede Applikation mindestens eine Version x.y pro Jahr freigegeben. Den jeweiligen Zeitpunkt können wir verständlicherweise selbst nur grob abschätzen.
Korrekturen oder kleinere Verbesserungen an den Applikationen - Versionen x.y.z - erscheinen in kürzeren Abständen.
Stichpunktartige Informationen über geplante oder in Arbeit befindliche Versionen finden Sie auf der Zeittafel. Dort sind auch alle bisher erschienenen Versionen der COSMAS II-Applikationen chronologisch aufgelistet.
Wird COSMAS II weiterentwickelt?
Diese Frage lässt sich eindeutig mit Ja beantworten.
In größeren Zeitabständen werden neue Funktionalitäten oder umfangreiche Erweiterungen in die Applikationen integriert und abschließend in Form von "Releases" oder Programmfreigaben veröffentlicht. Die Spannbreite an Neuerungen reicht dabei von zusätzlichen Sortierkriterien oder Trefferansichten bis hin zu neuen korpuslinguistischen Analyseverfahren.
- Die detaillierte Entwicklung jeder Applikation kann in den zugehörigen Freigabeinformationen nachverfolgt werden.
Selbst in einem ausgereiften Recherchesystem, das bereits jahrelang in Betrieb ist, haben sich noch genügend Fehlerchen versteckt, die ausfindig gemacht werden müssen. Daher werden regelmäßig Fehlerkorrekturen und kleinere Verbesserungen eingebracht, die in sogenannte "Patches" oder Korrekturversionen münden.
Beispiel: Die Version 1.2.1 von COSMAS IIweb ist lediglich eine leicht korrigierte Fassung der offiziellen Freigabeversion 1.2.
Wie erfahre ich, ob neue Versionen verfügbar sind?
Seit Version 3.7 für COSMAS IIwin bzw. Version 1.3 für COSMAS IIweb erhalten die aktiven BenutzerInnen über einen Mailverteiler aktuelle Informationen zum Betrieb der Applikationen, so auch zu aktuellen Freigaben. Wenn Sie in diesen Verteiler aufgenommen werden möchten, können Sie dies im Menüpunkt Optionen → COSMAS II-Newsletter einstellen.
Unabhängig vom oben genannten Mailverteiler informiert Sie die WINDOWS-Benutzeroberfläche von COSMAS II bei Ihrer Anmeldung darüber, wenn neue Versionen verfügbar sind und ob deswegen eine aktualisierte Programmversion (oder "Upgrade") heruntergeladen werden muss. |
|
Unabhängig vom oben genannten Mailverteiler informiert
Sie die Benutzeroberfläche der WWW-Applikation beim Start
über die aktuelle Version sowie über vorgenommene Korrekturen
oder hinzugekommene Funktionalitäten. |
Weshalb sind die COSMAS II-Applikationen oder -Datenbanken manchmal nicht erreichbar?
-
In regelmäßigen Abständen müssen Wartungs- oder Administrationsarbeiten
an den Rechnern oder in selteneren Fällen am lokalen Netzwerk des IDS
durchgeführt werden.
Das hat zur Folge, dass die Rechner im ersten Fall heruntergefahren werden oder im zweiten Fall das Netzwerk selbst (bzw. ein Teil dessen) nicht verfügbar ist. -
Das IDS ist über zwei Drahtlosverbindungen (Laser- bzw. Richtfunkstrecke)
an das Internet angebunden.
Bei sehr widrigen Wetterverhältnissen (z.B. dichter Nebel,
heftiges Schneetreiben) ist es möglich, dass sowohl die Laserstrecke
ausfällt als auch die ersatzweise aktive Richtfunkstrecke ein schlechtes
Übertragungsverhalten zeigt.
Dies kann vor allem während der Herbst- oder Wintermonate gelegentlich auftreten.
- Im Fall von geplanten Wartungs- oder Administrationsarbeiten werden Sie schon im Vorfeld beim Start der jeweiligen Anwendung darüber in Kenntnis gesetzt.
- Routinemäßige Administrationsarbeiten werden, wenn möglich, außerhalb der normalen Arbeitszeiten durchgeführt (i.d.R. freitags zwischen 18 und 19 Uhr).