Syntax der grafischen Suchanfragesprache
Übersicht
- Suchoperatoren
- Argumenttypen und Argumente
- Groß-/Kleinschreibung und diakritische Zeichen
- Gruppenbildung der Treffer
- Erweiterte
Suchoperatoren
- Bildung von virtuellen Korpora
- Suche in Diskurstranskripten (gilt nur für DITRA)
- Sammlung themenspezifischer Problemstellungen und deren Lösung
- Generelles zu
Zum Ausdrucken ist auch eine vollständige Fassung der Suchanfragesprache verfügbar.
Suchoperatoren
Übersicht
COSMAS II kennt folgende Klassen von grafischen Suchoperatoren:
- Wortformoperatoren
- Annotationsoperatoren
- Kombinationsoperatoren
- Operatoren auf Elementebene (SGML- bzw. XML-Annotationen)
- Textbereich-Operatoren
Diese Suchoperatoren sind graphische Komponenten, mit deren Hilfe Sie Ihre Suchanfragen aufbauen. Die einfachste Suchanfrage besteht aus einem einzigen Operator. Durch Kombination bauen Sie immer komplexere Suchanfragen auf.
Wortformoperatoren
Übersicht
deutsche Bezeichnung | interne Bezeichnung | Typ |
WORT | STR(<S>) | <R> |
WORT-UND | ANDS(<S>) | <R> |
WORT-ODER | ORS(<S>) | <R> |
LEM | LEM(<S>) | <R> |
Erläuterung
Diese Operatoren vom Typ <R> (der allgemeinste Typ) können überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt. Sie können auch allein stehen.
Beispiel
Operator WORT
vom Typ <R>
kann in die Argumente 1 und 3 von Operator
ABSTAND
eingesetzt werden.
Operator WORT
deutsche Bezeichnung | interne Bezeichnung |
WORT | STR(<S>) |
Allgemeine Beschreibung
- Suchoperator für Wortformen.
- Als Wortformen werden Zeichenketten basierend auf dem Zeichensatz ISO Latin1 akzeptiert.
- Es können gleichzeitig mehrere Suchbegriffe eingegeben werden, die implizit als Alternativen (ODER-Verknüpfung) hehandelt werden.
- Siehe auch:
WORT-UND
,WORT-ODER
.
Platzhalter
- Der Platzhalter * steht für 0, 1, 2, ... beliebige Zeichen.
- Der Platzhalter + steht für 0 oder 1 beliebiges Zeichen.
- Der Platzhalter ? steht für genau 1 beliebiges Zeichen.
- Die Platzhalter können mehrmals innerhalb einer Wortform eingesetzt werden,
- und sie können an jede beliebige Stelle einer Wortform plaziert werden.
- Beim Einsatz des Platzhalters * müssen mindestens zwei Buchstaben spezifiziert werden.
- Die Platzhalterfunktion kann aufgehoben werden, indem ein \ vorangestellt wird.
Berücksichtigung von Groß- und Kleinschreibung sowie von diakritischen Zeichen
- Standardmäßig gelten die voreingestellten globalen Optionen.
- Hinzu kommt, dass Sie die Optionen für Suchbegriffe einzeln verändern können.
Eingabe von Sonderzeichen
- Sonderzeichen, die nicht im Standardzeichensatz von COSMAS II liegen, also nicht in ISOLat1 bzw. ISO-8859-1, können als XML-Zeichen mit dezimalem UNICODE-Wert eingegeben werden. Beispiel: "…" für Auslassungspunkte '…'.
- Eine Ausnahme innerhalb ISOlat1 bildet das Et-Zeichen '&', das wegen seiner Funktion in HTML- und UNICODE-Zeichenkodierungen ebenfalls als & kodiert ist und als solches gesucht werden muss (siehe folgendes Beispiel).
Angabe einer Textposition
Durch Angabe einer oder mehrerer Textposition(en) kann festgelegt werden, an welchen Stellen eines Satzes, Absatzes oder Textes das Wort gesucht oder nicht gesucht werden soll. Siehe Beispiele.
- Die nachfolgenden Beispiele werden der Klarheit halber ohne Apostrophe angegeben. Damit sollen bei Beispielen mit Apostrophen Mehrdeutigkeiten vermieden werden.
Beispiel 1
WORT(gehen) |
Suche nach gehen, und je nachdem, wie die Suchoptionen eingestellt sind, auch nach Gehen, GEHEN, etc.
Beispiel 2
WORT(geh* ging gegangen) |
Suche nach ging, gegangen
und Zeichenketten, die mit geh beginnen.
Um eine vollständige Liste von Flexionsformen von gehen zu erhalten,
benutzt man am besten den Lemmatisierungsoperator.
Beispiel 3
WORT(Eg: *arbeit*) |
Suche nach großgeschriebenen Zeichenketten (man beachte die lokale Option Eg: für Erstes Zeichen groß), die die Teilkette arbeit enthalten. Siehe auch die Beispiele von Kombinationen von globalen Optionen mit Optionen, die in die Suchausdrücke geschrieben werden.
Beispiel 4
WORT(Schif++fahrt) |
Suche nach Schiffahrt mit 0-2 Zeichen zwischen den beiden
fs.
Liefert Textstellen mit: Schiffahrt,
Schifffahrt, Schiffsfahrt, Schiff-fahrt, etc.
Beispiel 5
WORT(Schif+fahrt?*) |
Suche nach Schiffahrt mit 0-1 Zeichen zwischen den beiden fs und mindestens 1 Zeichen (man beachte die Kombination ?*) am Ende von Schiffahrt.
Suchanfragen an bestimmten Textpositionen (neu)
Beispiel 1
WORT(wenn:pa) |
Die spezifizierte Textposition :pa gibt an, dass das Wort wenn nur am Anfang von Absätzen gesucht werden soll.
Beispiel 2
WORT(aber:se) |
Die spezifizierte Textposition :se gibt an, dass das Wort aber nur am Ende von Sätzen gesucht werden soll.
Beispiel 3
WORT(aber:-sa,-se) |
Die spezifizierten Textpositionen :-sa,-se geben an, dass das Wort aber weder am Satzanfang noch am Satzende gesucht werden soll.
Suchanfragen mit dem rückwärtsgeschriebenen Schrägstrich \
Der rückwärtsgeschriebene Schrägstrich (engl. backslash) wird dazu
benutzt, die Funktion von Zeichen wie den Platzhalteroperatoren
*?+
aufzuheben. Soll er als Suchzeichen eingesetzt werden, muss seine
Aufhebungsfunktion ihrerseits auch aufgehoben werden. Dies wird durch
Verdoppelung des Schrägstrichs erreicht.
Beispiel 1
WORT(\?) |
Suche nach dem Fragezeichen.
Beispiel 2
WORT(\\) |
Suche nach dem rückwärtsgeschriebenen Schrägstrich.
Beispiel 3
WORT(\\\\*) |
Suche nach einer Folge von mindestens zwei rückwärtsgeschriebenen Schrägstrichen.
Suchanfragen mit Sonderzeichen wie Satzzeichen und Apostrophe
Die Wortformanfragen werden intern über bereinigte Wortformen
ausgeführt, d.h. solche Wortformen, die an beiden Enden von Sonderzeichen
wie Satzzeichen und Apostrophen bereinigt wurden. Damit erzielt COSMAS II
zusätzlich auch dort Treffer, wo die gesuchte Wortform im Text mit
einer beliebigen Kombination dieser Zeichen auftritt.
Bei der Bereinigung werden die Sonderzeichen innerhalb der Wortformen
hingegen nicht entfernt.
- Ausnahme: Bei Abkürzungen wird der Punkt nicht bereinigt, muss also im Suchbegriff eingegeben werden.
Beispiel
WORT(88) |
Damit werden Textstellen wie 88, 88', '88, »88'«, »88'«!, etc. gefunden.
Suche nach Wortformen mit einem bestimmten Sonderzeichen
Suchen Sie gezielt nach Wortformen mit einem bestimmten Sonderzeichen, z.B. einem Wort mit Komma oder Punkt, sollten Sie das Sonderzeichen nicht mit der Wortform, sondern getrennt davon mit Hilfe des 0-Wortabstands wie in den nachfolgenden Beispielen angeben. Dabei können Sie leider nicht bestimmen, ob das Sonderzeichen vorne oder hinten vorkommt.
Beispiel 1
ABSTAND(WORT(88),w0,WORT(')) |
Suche nach 88 mit Apostroph. Gefundene Textstellen sind z.B. 88', '88, »88'«, »88'«!, etc.
Beispiel 2
ABSTAND(WORT(88),w0,WORT(,)) |
Suche nach 88 mit Komma. Gefundene Textstellen sind z.B. "... am Ende von 88, als..."
Beispiel 3
WORT(88!) |
Formulierung falsch: liefert keine Treffer, weil das Sonderzeichen intern in der bereinigten Form nicht mehr vorkommt.
Beispiel 4
WORT(Rock'n'Roll) |
Suche nach Rock'n'Roll. Formulierung korrekt, da innerhalb der bereinigten Wortformen die Sonderzeichen (hier die Apostrophe) nicht entfernt werden.
Beispiel 5
WORT(Dr.) |
Suche nach der Abkürzung Dr.
Formulierung korrekt, da bei Abkürzungen der Punkt
nicht bereinigt wird.
Beispiel 6: Suchanfrage mit Et-Zeichen '&'
WORT(H&M-Kette) |
Das Et-Zeichen wird als & kodiert und muss als solches gesucht werden, um z.B. H&M-Kette zu finden.
Suche nach Wortformen ohne bestimmte Sonderzeichen
Suchen Sie gezielt nach Wortformen, die ohne ein bestimmtes Sonderzeichen auftreten, z.B. nach einem Wort ohne einem bestimmten Satzzeichen, sollten Sie dieses ähnlich wie in den obigen Beispielen mit dem ausschließenden 0-Wortabstand formulieren:
Beispiel
ABSTAND(WORT(88),%w0,WORT(')) |
Suche nach 88 ohne Apostroph. Davon ausgeschlossen sind Textstellen wie 88's, bei denen der Apostroph innerhalb des Wortes vorkommt.
Suche nach Wortformen mit Sonderzeichen außerhalb von ISOLat1
COSMAS II nutzt als Standard-Zeichensatz ISOLat1 (entspricht ISO8859-1). Zeichen, die sich nicht in diesem Zeichensatz befinden bzw. Zeichen, von denen man nicht genau weiss, wie man sie über die Tastatur eingeben soll, können als XML-Zeichen mit dezimalem UNICODE-Wert eingegeben werden.
Beispiel: Auslassungspunkte
Zeichen | Symbol | HTML-Zeichen | UNICODE-Wert dezimal |
UNICODE-Wert hexadezimal |
---|---|---|---|---|
Auslassungspunkte | … | … | #8230 | #x2026 |
Beispiel: Suchanfrage nach dem Sonderzeichen allein
WORT(…) |
Beispiel: Suchanfrage nach dem Sonderzeichen innerhalb eines Suchbegriffs
WORT(*…) WORT(*…*) WORT(…*) |
Wie lautet die Kodierung meines Sonderzeichens
Der Dezimalwert vieler Sonderzeichen läßt sich z.B. in Wikipedia nachschlagen. Siehe zum Beispiel den Wikipedia-Eintrag für die Auslassungspunkte.
Wortliste
Der WORT
-Operator verfügt außerdem über eine
globale Wortformliste, die
Sie aufrufen können, um sich die Wortformen im momentan aktiven
Archiv präsentieren zu lassen und gegebenenfalls eine davon
auszuwählen.
Operator WORT-UND
deutsche Bezeichnung | interne Bezeichnung |
WORT-UND | ANDS(<S>) |
Allgemeine Beschreibung
- Analog zu Suchoperator
WORT
. - Werden mehrere Suchbegriffe eingegeben, so werden sie als Treffer nur dann zurückgeliefert, wenn sie alle gleichzeitig in einem Text vorkommen.
- Siehe auch: die globalen Optionen und die Optionen in den Suchausdrücken für die Groß-/Kleinschreibung und die diakritischen Zeichen.
Beispiel
WORT-UND('anscheinend scheinbar') |
Die Suchanfrage liefert die Treffer anscheinend und scheinbar für solche Texte, in denen sie beide vorkommen.
Operator WORT-ODER
deutsche Bezeichnung | interne Bezeichnung |
WORT-ODER | ORS(<S>) |
Allgemeine Beschreibung
- Analog zu Suchoperator
WORT
. - Werden mehrere Suchbegriffe eingegeben, so werden sie als Alternativen zurückgeliefert, d.h. sie werden implizit mit einem ODER verknüpft.
- Siehe auch: die globalen Optionen und die Optionen in den Suchausdrücken für die Groß-/Kleinschreibung und die diakritischen Zeichen.
Beispiel
WORT-ODER('anscheinend scheinbar') |
Die Suchanfrage liefert die Treffer anscheinend oder scheinbar zurück.
Operator LEM
deutsche Bezeichnung | interne Bezeichnung |
LEM | LEM(<S>) |
Allgemeine Beschreibung
- Grundformoperator für lemmatisierte Wortformen.
- Steht nur für Korpora geschriebener deutscher Sprache zur Verfügung.
- Als Grundformen werden Zeichenketten basierend auf dem Zeichensatz ISO Latin 1 akzeptiert.
- Es können gleichzeitig mehrere Suchbegriffe eingegeben werden, die implizit als Alternativen (ODER-Verknüpfung) hehandelt werden.
Berücksichtigung von Groß- und Kleinschreibung sowie von diakritischen Zeichen
- Die globalen Optionen für die Groß-/Kleinschreibung sind bei diesem Operator nicht wirksam.
- Die Groß-/Kleinschreibung wird immer beachtet, d.h.
LEM('Machen')
undLEM('machen')
stellen zwei unterschiedliche Grundformen dar, die zwei verschiedene Wortformlisten liefern. - Bei Wörtern mit ß werden automatisch beide Schreibvarianten
(mit ß und mit ss) herangezogen, d.h.
LEM('groß')
undLEM('gross')
liefern die gleichen Wortformlisten.
Die Lemmatisierungsoptionen
- Die Lemmatisierungsoptionen lassen sich in einem eigenen Dialogfeld einstellen.
- Die Flexionsformen sind zwar als Option dabei, dienen allerdings einzig und allein der Dokumentation und können nicht ausgeschaltet werden.
- Bei der Eingabe von Wortpräfixen (siehe die Beispiele für un- und -heit) muss zusätzlich die Option sonstige Wortbildungsformen eingeschaltet werden.
- Für kurze Wörter aus der Kategorie der Artikel und Pronomen muss als
Grundform der längste gemeinsame Stamm gefolgt von einem Bindestrich
eingegeben werden (siehe die Beispiele für d- und
all-).
Hierzu braucht die Option sonstige Wortbildungsformen nicht eingeschaltet werden.
Angabe einer Textposition
Durch Angabe einer oder mehrerer Textpositionen kann festgelegt werden, an welchen Stellen eines Satzes, Absatzes oder Textes die Wörter gesucht oder nicht gesucht werden soll. Siehe Beispiele.
Beispiele
Beispiel 1
LEM('gehen') |
Suche nach den Flexionsformen von gehen
Beispiel 2
LEM('un-') |
Suche nach Wortformen mit dem Präfix un-.
Die Lemmatisierungsoption Sonstige Wortbildungsformen
muss eingeschaltet sein.
- siehe die Liste der suchbaren Affixe
Beispiel 3
LEM('-heit') |
Suche nach Wortformen mit dem Postfix -heit.
Die Lemmatisierungsoption Sonstige Wortbildungsformen
muss eingeschaltet sein.
Beispiel 4
LEM('all-') |
Suche nach Wortformen zum Stamm all, der als Grundform für
alle Pronomen alle, allen, alles, etc. steht.
Die Lemmatisierungsoption Sonstige Wortbildungsformen
sollte in diesem Fall nicht eingeschaltet werden.
- Eine solche Suchanfrage muss vorsichtig eingesetzt werden, weil die zurückgelieferte Wortformliste u.a. nicht alle gewünschten bzw. ableitbaren Wortformen enthält.
Beispiel 5
LEM('d-') |
Suche nach Wortformen zum Stamm d, der als Grundform für
alle Artikel der, die, das, des, dessen, etc. steht.
Die Lemmatisierungsoption Sonstige Wortbildungsformen
sollte in diesem Fall nicht eingeschaltet werden.
- Eine solche Suchanfrage muss vorsichtig eingesetzt werden, weil die zurückgelieferte Wortformliste u.a. nicht alle gewünschten bzw. ableitbaren Wortformen enthält.
Beispiele mit Angabe von Textpositionen
Beispiel 1
LEM('sein:pa') |
Suche nach den Flexionsformen von sein als erstes Wort eines Absatzes.
Beispiel 2
LEM('gehen:-sa,-se') |
Suche nach den Flexionsformen von gehen innerhalb von Sätzen, d.h. weder als erstes noch als letzes Wort eines Satzes.
Annotationsoperatoren
Übersicht
deutsche Bezeichnung | interne Bezeichnung | Typ |
MORPH | MORPH(<M>) | <R> |
Erläuterung
Dieser Operator vom Typ <R> (der allgemeinste Typ) kann überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt. Er kann auch allein stehen.
Beispiel
Operator MORPH
vom Typ <R>
kann in den Argumenten 1 und 3 von Operator ABSTAND
eingesetzt werden.
Operator MORPH
deutsche Bezeichnung | interne Bezeichnung |
MORPH | MORPH(<M>) |
Allgemeine Beschreibung
- Der Operator
MORPH
sucht nach Wörtern oder Wortgruppen, die mit im Argument <M> eingesetzten morpho-syntaktisch Annotation versehen sind. - Verfügbar ist dieser Operator nur in Archiven mit morpho-syntaktisch annotierten Korpora.
- Ein Annotationsassistent unterstützt Sie bei der Wahl der Annotationswerte.
- Eine Annotation kann auch von Hand editiert werden, um z.B. Werte einzusetzen, die der Assistent nicht erzeugen kann.
- Eine Wortklasse kann negiert werden, indem man ihr von Hand ein "-" (Minuszeichen) voranstellt (siehe Beispiel 4).
Einsatz von MORPH
Operator MORPH kann gegenwärtig in den folgenden Archiven eingesetzt werden:
Archiv | Tagset | Assistent COSMAS IIwin |
Assistent COSMAS IIweb |
---|---|---|---|
TAGGED-C |
CONNEXOR-Tagset | nein | ja |
TAGGED-T |
STTS-Tagset | nein | ja |
TAGGED-M |
MECOLB Minimal-Tagset | ja | ja |
Beispiele
Beispiel 1
MORPH('VRB npax past -n') |
Gesucht wird nach der als Relativpronomen im Dativ.
Um mehrere Bedingungen über ein gesuchtes Wort
auszudrücken, werden die beiden Suchausdrücke, die
Wortform der und die Annotation, mit dem
Wortabstand Null w0
verknüpft.
Beispiel 2
ABSTAND(WORT('der'),w0,MORPH('PRN rel dat')) |
Gesucht wird nach der als Relativpronomen im Dativ.
Um mehrere Bedingungen über ein gesuchtes Wort
auszudrücken, werden die beiden Suchausdrücke, die
Wortform der und die Annotation, mit dem
Wortabstand Null w0
verknüpft.
Beispiel 3
ABSTAND(MORPH('NOU dat'),+w3,MORPH('PRN rel dat')) |
Gesucht wird nach einem Substantiv im Dativ (MORPH('NOU
dat')
), dem in einem maximalen Abstand von 3 Wörtern
ein Relativpronomen im Dativ (MORPH('PRN rel dat')
)
folgt.
Beispiel 4: Negieren einer Wortklasse
MORPH(-NOU) |
Die Negation einer Wortklasse wird vom Assistenten nicht unterstützt, das Negationszeichen "-" muss von Hand eingetragen werden.
Ausdrücke mit negierten Wortklassen, im Gegensatz zu negierten Untermerkmalen, müssen wohlüberlegt eingesetzt werden, da sie eine temporäre Treffermenge großen Ausmaßes erzeugen; auf der einen Seite werden dadurch der Ressourcen des COSMAS II-Servers stark beansprucht, auf der anderen Seite wird die Ausführung der Suchanfrage verlangsamt.
Kombinationsoperatoren
Übersicht
deutsche Bezeichnung | interne Bezeichnung | Typ |
ABSTAND X VON Y | PROX(<R>,<P>,<R>) | <R> |
UND | AND(<R>,<R>) | <R> |
ODER | OR(<R>,<R>) | <R> |
X NICHT Y | NOT(<R>,<R>) | <R> |
X IN Y | IN(<R>,<I>,<R>) | <R> |
X UEBERLAPPT Y | OV(<R>,<O>,<R>) | <R> |
Erläuterung
Die Operatoren vom Typ <R> (der allgemeinste Typ) können überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt. Sie können auch allein stehen.
Beispiel
Operator ABSTAND
vom Typ <R>
kann in den Argumenten 1 und 3 von Operator IN
eingesetzt werden.
Operator ABSTAND
deutsche Bezeichnung | interne Bezeichnung |
ABSTAND X VON Y | PROX(<R>,<P>,<R>) |
Allgemeine Beschreibung
- Dieser Operator erlaubt, nach zwei Suchobjekten zu
suchen, die in einem bestimmten Abstand voneinander
- vorkommen (treffereinschließende Option),
- nicht vorkommen (trefferausschließende Option).
- Die Suchobjekte werden in die beiden Argumente des allgemeinen Typs <R> eingefügt, d.h. es kann sich dabei um Wortformen oder weitere Suchanfragen handeln.
- Im mittleren Argument von
Typ <P>
wird folgendes eingegeben:
- die Abstandsart (neu: Multi-Abstände erlaubt),
- die fakultative Option für die minimale bzw. maximale Gruppenbildung und
- die fakultative Option für die Trefferausschließung.
- die Abstandsart (neu: Multi-Abstände erlaubt),
- Dieser Operator funktioniert unterschiedlich, je nachdem, ob Sie sich mit einer Datenbank für geschriebene Sprache (Standardeinstellung) oder Diskurstranskripte verbunden haben.
- Beachten Sie bitte besonders die typischen Fallen bei der Formulierung von Suchanfragen mit dem Abstandsoperator.
Beispiele für die Formulierung von Abständen
Siehe Beschreibung von Typ <P>.
Spezielle Suchanfragen mit dem Abstandsoperator
1. Suchanfragen am Satzende
Für die Satzgrenzen greift man auf
Element-Operatoren
zurück, um die Annotationen <s>
im Text zu suchen.
Die Suche nach beispielsweise dem Wort "Hürde" am Satzende sieht so aus:
ABSTAND('Hürde',w0,RECHTS(ELEM(S))) |
Der 0-Wortabstand wird eingesetzt, weil das gesuchte Wort mit dem Wort
am Satzende (das Ergebnis von RECHTS(ELEM(S))
) zusammenfallen muss.
Sucht man hingegen nach einem Wort am Satzende in Kombination mit einem bestimmten Satzzeichen, so wird die Suche wie folgt formuliert:
ABSTAND('Hürde',w0,'.') |
In diesem Fall wird der Wortabstand 0 verwendet, weil das gesuchte Wort und der Punkt in derselben Zeichenkette vorkommen.
2. Suchanfragen am Satzanfang
Analog zum Satzende wird auch hier die Annotation <s>
im Text gesucht und eingesetzt:
ABSTAND(LINKS(ELEM(S)),w0,'und') |
Sucht man nach einem Wort, das maximal 3 Wörter nach dem Satzanfang erscheint, so sieht die Suchanfrage so aus:
ABSTAND(LINKS(ELEM(S)),+w0:2,'Hürde') |
Durch die Angabe des Bereichs +w0:2
wird Hürde
an den Wortpositionen 1, 2 und 3 am Satzanfang gesucht.
Sucht man nach beispielsweise und maximal 3 Wörter nach Satzanfang und maximal 3 Wörter vor Satzende, so wird die Suchanfrage wie folgt formuliert:
ABSTAND(ABSTAND(LINKS(ELEM(S)),+w3,'und'),+w3,RECHTS(ELEM(S))) |
was in Teilsuchen zerlegt besser verständlich wird:
Q1 = ABSTAND(LINKS(ELEM(S)),+w3,'und') Q2 = RECHTS(ELEM(S)) Q3 = ABSTAND(Q1,+w3,Q2) |
3. Suchanfragen mit Komma
Suchanfragen bestehend aus einer Kombination von einem Wort und einem Komma werden analog zu den Suchanfragen mit Satzzeichen formuliert.
ABSTAND('dass daß',w0,',') |
4. Suchanfragen am Anfang eines Nebensatzes
Wenn sich der Nebensatz mit Hilfe des Kommas ausdrücken lässt, wird die Suchanfrage analog zu den Suchanfragen am Satzbeginn formuliert:
ABSTAND(',',+w1:1,'dass daß') |
5. Suchanfragen unter Vermeidung eines Satzzeichens
Sucht man nach einem Wort, das nicht nach z.B. einem Komma
geschrieben steht, wird der Ausschließungsoperator %
im
Wortabstand eingesetzt. Dabei geht man gedanklich zuerst von der positiven
Formulierung aus, das Wort dass folgt auf ein Komma (Bsp. A1 und B1),
und wandelt diese Suchanfrage in eine das Komma ausschließende
Formulierung um, indem man %
einsetzt.
Bei der Verwendung des Abstandsoperators mit %
muss man zusätzlich beachten, dass
nur der erste Operand des Operators zurückgeliefert wird:
a) problematischer Einsatz von %
:
ABSTAND(',',+w1:1,'dass daß') |
(A1): liefert alle Stellen zurück, bei denen ein Komma von dass oder daß gefolgt wird.
ABSTAND(',',%+w1:1,'dass daß')
|
(A2): Liefert alle Kommata zurück, auf die dass und daß nicht folgen. Das ist nicht das erwartete Ergebnis.
b) korrekter Einsatz von %
:
ABSTAND('dass daß',-w1:1,',')
|
(B1): das
gesuchte Wort steht hier als erster Operand, deshalb muss mit
-w1:1
die Reihenfolge des Abstands umgedreht werden.
Soweit liefern (B1) und (A1) die gleichen Treffer zurück.
ABSTAND('dass daß',%-w1:1,',')
|
(B2): liefert alle dass und daß zurück, die nicht nach einem Komma geschrieben stehen.
6. Gerichtete Abstandssuche innerhalb eines Satzes
Sucht man nach einer Kombination von 2 oder mehreren Wörtern innerhalb
eines Satzes, wird der Satzabstand mittels s0
angegeben.
Im Gegensatz zum Wortabstand kann hier auch ein gerichteter Satzabstand
mittels eines +
oder -
angegeben werden:
ABSTAND('wird',+s0,'nicht') |
Es werden die Stellen gefunden, in denen wird und nicht im selben Satz vorkommen und wird vor nicht steht.
7. Suchanfragen bei Verdoppelung von Wörtern oder Wortklassen
Sucht man Verdoppelungen von Wörtern (z.B. "... nicht nicht ...") oder
Wortklassen (z.B. "... ADJ ADJ ..."), so muss darauf geachtet werden, dass
der 0-Wortabstand ausgeschlossen wird. Ansonsten erhält man alle Treffer,
bei denen nicht oder ADJ je einmal vorkommt, ebenfalls dazu
(Grund: "nicht" /w0 "nicht"
=
"nicht"
).
Korrekte Formulierungen lauten:
ABSTAND('nicht',+w1:1,'nicht') ABSTAND('nicht',+w1:5,'nicht') ABSTAND(MORPH('ADJ'),+w1:1,MORPH('ADJ')) |
Falsch hingegen ist:
ABSTAND('nicht',+w1,'nicht') |
weil +w1
= +w0:1
.
Soll ein Wort innerhalb eines Satzes doppelt vorkommen, aber nicht direkt hintereinander, so kann dies mit folgendem Trick formuliert werden:
ABSTAND('nicht',+w2:1000,s0,'nicht')
|
Die Angabe s0
sorgt dafür, dass beide Wörter innerhalb desselben Satzes gefunden werden.
Die Angabe w2:1000
sorgt dafür, dass die beiden Wörter mindestens einen
Wortabstand von 2 haben. Als maximaler Wortabstand wird ein beliebig großer Wert genommen (hier 1000),
der sicherstellt, dass alle Sätze bis zu einer Länge von 1000 Wörtern durchsucht werden.
8. Wortabstand 0 und Überlappungen von Textbereichen
der 0-Wortabstand kann auch eingesetzt werden, um eine Überlappung zwischen mehreren Textbereichen zu erkennen. Dabei ist es nicht notwendig, dass die Textbereiche gemeinsame Wörter enthalten.
- Thematisches Beispiel zum Auffinden von Überlappungen mittels des 0-Wortabstandes
Typische Fallen
1. Abstand +w1:1 statt +w1
Bei der Suche nach einem Muster wie »es scheint, dass es« wird der Suchbegriff »es« zweimal verwendet. Falls Sie dieses Muster mit der folgenden Suchanfrage suchen, werden Sie falsche Ergebnisse erhalten:
falsch: ABSTAND(ABSTAND(ABSTAND('es',+w1,'scheint'),+w1,'dass'),+w1,'es'))) |
Obwohl COSMAS II korrekt gearbeitet hat, werden Sie unter den Ergebnissen folgende Textpassagen erhalten:
richtig: Doch es scheint, dass es sich der Vatikan...
falsch : und es scheint, dass dieser Wellenschlag ...
falsch : Ob als Produzent oder Musiker, es scheint, dass seine Leidenschaft...
Aus Ihrer Sicht sind die Passagen 2 und 3 falsch. Dass Sie von COSMAS II zurückgeliefert werden, liegt daran, dass die gewählte Formulierung zulässt, dass »es scheint, dass« mit »es« mit der Bedingung +w1 kombiniert wird, die gleichbedeutend ist wie +w0:1. Da »es« innerhalb von »es scheint, dass« erscheint, ist die Bedingung +w0 erfüllt.
Um diese Falle zu vermeiden, formulieren Sie das gesuchte Muster wie folgt unter Einsatz von +w1:1:
korrekt: ABSTAND(ABSTAND(ABSTAND('es',+w1,'scheint'),+w1,'dass'),+w1:1,'es'))) |
Achtung: auch wenn Sie für das gesuchte Muster die Wörter anders miteinander kombinieren, müssen Sie das erste »es« unter Einsatz von +w1:1 mit »scheint, dass es« kombinieren:
korrekt: ABSTAND('es',+w1:1,ABSTAND('scheint',+w1,ABSTAND('dass',+w1,'es'))) |
- Weitere Beispiele für die Formulierung von Abstandssuchanfragen
Operator ABSTAND
Beispiele für die geschriebene Sprache
Beispiel 1
ABSTAND('Lehrer',+w3,'Sparkurs') |
Suche nach Lehrer links von Sparkurs, wobei der Abstand maximal drei Wörter sein darf.
Beispiel 2
ABSTAND('Lehrer',+w1:3,MORPH('NOU')) |
Suche nach Lehrer links von einem Nomen, wobei der Abstand 1,2,3 Wörter sein kann Durch das Ausschließen des Null-Abstandes (w1:3) wird der identische Treffer Lehrer = NOU vermieden.
Beispiel 3
ABSTAND('Lehrer',s0,'Sparkurs') |
Suche nach Lehrer und Sparkurs im selben Satz.
Beispiel 4
ABSTAND('Lehrer',s2,'Sparkurs') |
Suche nach Lehrer und Sparkurs im einem Bereich von maximal 2 Sätzen, wobei sie auch im selben Satz vorkommen dürfen.
Beispiel 5
ABSTAND('Lehrer',s1:2,'Sparkurs') |
Suche nach Lehrer und Sparkurs in einem Abstand von 1 oder 2 Sätzen, so dass sie nicht im selben Satz vorkommen.
Beispiel 6
ABSTAND('Lehrer',+w3 min,'Sparkurs') |
Suche nach Lehrer und Sparkurs in einem Abstand von maximal 3 Wörtern und präsentiere die Treffer immer als ein Paar von Textstellen (fasse nicht mehrere Lehrer und Sparkurs zusammen zu einem Treffer).
Beispiel 7
ABSTAND('Lehrer',%w3,'Sparkurs') |
Suche nach Lehrer und liefere diejenigen Textstellen zurück, um die herum in einem Abstand von maximal 3 Wörtern Sparkurs nicht gefunden wird.
Suche nach wenn, rechts gefolgt von aber in einem Abstand von maximal drei Wörtern.
Beispiel mit dem Segment- oder Zeitsegmentabstand
ABSTAND(Simultanpassage-Ende(),+s1,WORT('aber')) |
Suche nach einem aber nach einer Simultanpassage (nach= im nächsten Zeitsegment), d.h. in der COSMAS II-Sprache: das Wort aber folgt auf das letzte Wort einer Simultanpassage in einem Abstand von einem Segment.
Beispiel mit dem Segment- oder Zeitsegmentabstand
ABSTAND(WORT('ja'),s0,WORT('aber')) |
Suche nach einem ja und einem aber in einer Simultanpassage, d.h. in der COSMAS II-Sprache: die Wörter ja und aber befinden sich in einem 0-Segmentabstand voneinander bzw. im gleichen Zeitsegment.
Operator UND
deutsche Bezeichnung | interne Bezeichnung |
UND | AND(<R>,<R>) |
Allgemeine Beschreibung
- Dieser Operator verknüpft zwei Teilsuchanfragen mit einem logischen UND.
- Das Ergebnis ist ein Paar von Teilergebnissen (aus beiden Teilsuchanfragen), die beide im selben Text vorkommen.
- Das Ergebnis fasst alle Treffer der Teilergebnisse zusammen.
Beispiel
UND('Leben','Tod') |
Suche nach den Wortformen Leben und Tod im selben Text.
Operator ODER
deutsche Bezeichnung | interne Bezeichnung |
ODER | OR(<R>,<R>) |
Allgemeine Beschreibung
- Dieser Operator verknüpft zwei Teilsuchanfragen mit einem logischen ODER.
- Das Ergebnis besteht aus Treffern des ersten oder des zweiten Teilergebnisses.
Beispiel
ODER('Leben','Tod') |
Suche nach den Wortformen Leben oder Tod.
Operator NICHT
deutsche Bezeichnung | interne Bezeichnung |
X NICHT Y | NICHT(<R>,<R>) |
Allgemeine Beschreibung
- Der Operator
X NICHT Y
sucht nach Textobjekten X, die in Texten vorkommen, in denen Y nicht enhalten ist. - Das Ergebnis besteht aus allen Treffern X, die diese Bedingung erfüllen.
Beispiel
NICHT('anscheinend','scheinbar') |
Suche nach der Wortform anscheinend in Texten, in denen scheinbar nicht vorkommt.
Operator IN
deutsche Bezeichnung | interne Bezeichnung |
X IN Y | IN(<R>,<I>,<R>) |
Allgemeine Beschreibung
- Der Operator
X IN Y
prüft, ob die Treffer von X innerhalb der Treffer von Y vorkommen. - Das Ergebnis besteht aus allen X-Treffern, die diese Bedingung erfüllen.
- X ist in Y, wenn es sich innerhalb von Y, also zwischen dem linken und dem rechten Wort (Endwörter inbegriffen) von Y befindet, siehe Fig. 1-4. Was innerhalb genau zu bedeuten hat, wird durch Argument <I> näherspezifiziert.
- Y kann sowohl ein zusammenhängender Textbereich sein wie z.B. ein Titel (Fig. 1) oder ein unzusammenhängender Bereich (Fig. 2-4), der aus einer Teilanfrage entstanden ist.
- Das Argument <I>
kann zusätzlich benutzt werden, um anzugeben,
- ob der Suchbereich alle Wörter oder nur die Treffer von Y umfasst (Bereichsoption, neu),
- an welcher Position, innerhalb von Y, X auftreten soll (Positionsoption),
- dass X nicht in Y auftreten soll (Ausschließungsoption),
- ob die minimale oder maximale Gruppenbildung angewendet werden soll.
IN
kann u.a. benutzt werden, um mehrere Bedingungen über eine gesuchte Textstelle zu formulieren.
Veranschaulichung
Beispiele
Beispiel 1: Suchen von Suchbegriffen an einer vorgegebenen Position innerhalb von Sätzen
Mit dem Argument <I> läßt sich angeben, ob der Suchbegriff X bezüglich des in Y formulierten Bereichs:
- am Anfang Y vorkommt;
- am Ende von Y vorkommt;
- sich vom Anfang bis zum Ende von Y erstreckt;
- weder am Anfang noch am Ende von Y vorkommt.
Siehe dazu die Beispiele von Suchanfragen an bestimmten Satzpositionen.
Beispiel 2: Verwendung von IN
,
um Wortformen und Wortklassen zu verbinden
Sucht man z.B. nach Würde als Nomen (um die Verbformen
auszuschliessen), so kann man im Archiv TAGGED mit
IN
die gefundenen Wörter mit ihrer Wortklasse verbinden:
IN(LEM('Würde'),'FE',MORPH('NOU')) |
Mit dem Argumentwert FE stellt man sicher,
dass sich die Wortklasse genau
auf dieses Wort bezieht und nicht auf eine größere Wortgruppe. Dasselbe
Ergebnis erhält man übrigens auch mit dem Operator
ABSTAND
durch
Anwendung des Null-Wortabstandes:
ABSTAND(LEM('Würde'),'w0',MORPH('NOU')) |
Beispiel 3: Suchkontexte mit IN
ausschliessen
Mit der ausschliessenden Option %
von
IN
läßt
sich ein Suchbegriff in einem unerwünschten Kontext ausschliessen.
IN(LEM('Würde'),'%',ELEM(HEAD)) |
Mit ELEM(HEAD)
sind jegliche Arten von Überschriften
in den IDS-Korpora gekennzeichnet. Damit lassen sich die Treffer von
Würde in den Überschriften ausschliessen.
Operatoren auf Elementebene (SGML-Annotationen)
Übersicht
deutsche Bezeichnung | interne Bezeichnung | Typ |
ELEM | ELEM(<E>,<T>) | <R> |
ATT | ATT(<A>,<X>,<V>) | <T> |
ATT-UND | AAND(<T>,<T>) | <T> |
ATT-ODER | AOR(<T>,<T>) | <T> |
Erläuterungen zu den Annotationen
Mit dieser Operatorengruppe können SGML- bzw. XML-Annotationen, auch Textauszeichnungen oder englisch tags genannt, recherchiert werden. Das Ergebnis einer solchen Recherche ist der Text, der von der Annotation umfasst bzw. durch sie referenziert wird.
Textauszeichnungen haben in Anlehnung an den SGML- bzw. XML-Formalismus drei Komponenten, die Element, Attribut und Wert genannt werden und im folgenden allgemeinen Format auftreten:
<element attribut="Wert" attribut="..." ...>
Beispiele
<s>
steht für Sätze.
<p>
steht für Absätze.
<head type="main">
zeichnet beispielsweise eine Hauptüberschrift aus.
Erläuterungen zum Operatorentyp
Operator ELEM
ist vom allgemeinen Typ <R> und kann alleine oder überall eingesetzt werden, wo ein
anderer Operator ein Argument vom Typ <R> besitzt.
Die restlichen Operatoren sind vom Typ <T>, welcher sowohl mit <T> als auch <R> kompatibel ist. Sie können deshalb entweder alleine oder überall eingesetzt werden, wo ein Operator ein Argument vom Typ <T> oder <R> besitzt.
Beispiele
Operator ELEM
kann z.B. in den Argumenten 1 und 3 von
Operator ABSTAND
eingesetzt werden.
Operator ATT
kann z.B. in Argument 2 von Operator
ELEM
oder allein eingesetzt werden.
Operatoren, die den Textbereich der Treffer verändern
Übersicht
deutsche Bezeichnung | interne Bezeichnung | Typ |
LINKS | BEG(<R>) | <R> |
RECHTS | END(<R>) | <R> |
INKLUSIVE | ALL(<R>) | <R> |
EXKLUSIVE | NHIT(<R>) | <R> |
BED | COND( <R>, <B>) | <R> |
Erläuterung
Diese Operatoren vom Typ <R> (der allgemeinste Typ) können entweder alleine oder überall eingesetzt werden, wo ein anderer Operator ein Argument vom Typ <R> besitzt.
Beispiel
Operator LINKS
vom Typ <R> kann
in die Argumente 1 und 3 von Operator
ABSTAND
eingesetzt werden.
Operator LINKS
deutsche Bezeichnung | interne Bezeichnung |
LINKS | BEG(<R>) |
Allgemeine Beschreibung
- Der Operator
LINKS
reduziert einen Mehrworttreffer auf das am weitesten links stehende (bzw. erste) Wort.
Beispiel
ELEM(S) |
Textstelle: »JEMEN freigelassene Geiseln kehren heim«
Die vom Operator ELEM
zurückgelieferte Textstelle ist ein ganzer Satz.
LINKS(ELEM(S)) |
Textstelle: »JEMEN freigelassene Geiseln kehren heim«
Durch den Operator LINKS
erhält man nun das
erste bzw. linke Wort des Satzes.
Operator RECHTS
deutsche Bezeichnung | interne Bezeichnung |
RECHTS | END(<R>) |
Allgemeine Beschreibung
- Der Operator
RECHTS
reduziert einen Mehrworttreffer auf das am weitesten rechts stehende (bzw. letzte) Wort.
Dieser Operator ist besonders dann von Interesse, wenn nur dieses rechte Wort in einer komplexe Suchanfrage verwendet werden soll.
Beispiele
Beispiel 1: Auswahl des Satzendes
RECHTS(ELEM(S)) |
Dieser Ausdruck erfragt von jedem Satz das letzte Wort, also das Satzende.
Beispiel 2: Auswahl des rechten Wortes eines Abstandsergebnisses
RECHTS(ABSTAND(LEM('gehen'),s0,'drauf')) |
Das Ergebnis der Abstandssuche wird auf das in jedem Treffer rechts stehende Wort reduziert. Da die Abstandssuche ungerichtet ist, kann es sowohl eine Flexionsform von gehen als auch drauf sein.
Operator INKLUSIVE
deutsche Bezeichnung | interne Bezeichnung |
INKLUSIVE | ALL(<R>) |
Allgemeine Beschreibung
- Der Operator
INKLUSIVE
wird hauptsächlich auf Ergebnisse angewandt, die einen nicht zusammenhängenden Textbereich enthalten. INKLUSIVE
fasst alle Wörter zwischen den Endwörtern eines Ergebnisses zu einem zusammenhängenden Bereich zusammen.
Dieser Operator findet dann Anwendung, wenn der gesamte Textbereich eines Ergebnisses und nicht nur die gefundenen Suchbegriffe den Suchbereich einer weiteren Suchanfrage bilden sollen.
Beispiel
ABSTAND('Kritik',w3,'Regierung') |
Typischerweise entsteht bei einer Abstandssuche ein Ergebnis, bei dem die gefundenen Wörter (Treffer) einen nichtzusammenhängenden Bereich bilden, wie z.B. in der folgenden Textstelle:
Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen ...«
INKLUSIVE(ABSTAND('Kritik',w3,'Regierung')) |
Durch die Anwendung von INKLUSIVE
auf das Ergebnis der obigen
Abstandssuche ensteht eine zusammenhängende Textstelle:
Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen...«.
Operator EXKLUSIVE
deutsche Bezeichnung | interne Bezeichnung |
EXKLUSIVE | NHIT(<R>) |
Allgemeine Beschreibung
- Besteht ein Treffer aus nichtzusammenhängenden
Textstellen, so liefert
EXKLUSIVE
alle nichtgesuchten Wörter zwischen den Endwörtern des Ergebnisses. - Besteht hingegen ein Treffer aus einer zusammenhängenden
Textstelle (gibt es also keine Lücken), liefert
EXKLUSIVE
nichts zurück.
Dieser Operator findet in denjenigen Fällen Anwendung, wo nicht die gesuchten Wörter selber, sondern die Wörter dazwischen den Suchbereich für eine weitere Suchanfrage bilden.
Beispiel
ABSTAND('Kritik',w3,'Regierung') |
Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen ...«.
Der vom Abstandsoperator zurückgelieferte Treffer ist eine nichtzusammenhängende Textstelle bestehend aus den Suchbegriffen Kritik und Regierung.
EXKLUSIVE(ABSTAND('Kritik',w3,'Regierung')) |
Durch Anwendung von EXCLUSIVE
wird der Textbereich zwischen den Suchbegriffen
gebildet:
Textstelle: »... Kollegen. Kritik an der Regierung in Sanna inzwischen...«.
Argumenttypen und Argumente
Übersicht
Die Suchoperatoren haben
in der Regel ein oder mehrere Argumente,
die ausgefüllt werden müssen. Das sind die variablen Teile der
Suchanfrage. Einige erweiterte Operatoren haben hingegen kein Argument.
Je nach Operator besitzt ein Argument eine spezielle Bedeutung
(Semantik), die durch seinen Argumenttyp
erkenntlich ist. Der Argumenttyp gibt im wesentlichen an, welche
Klasse von Operatoren oder editierbaren Werten erwartet wird.
Typ | Bezeichnung | Erwartete Werte* |
<A> | Argument von Operator
ATT |
Attributname |
<B> | Argument von Operator
BED |
Textposition |
<E> | Argument von Operator
ELEM |
Element- bzw. Annotationsname |
<I> | Argument von Operator
X
IN Y |
Bereichsoption,
Positionsoption, ausschließende Option,
Gruppenbildungsoption, - |
<M> | Argument von Operator
MORPH |
Annotationsassistent stellt die Werte zur Auswahl |
<O> | Argument von Operator
X
UEBERLAPPT Y |
Bereichsoption,
ausschließende Option,
Gruppenbildungsoption, - |
<P> | Argument von Operator
ABSTAND
X VON Y |
Abstandstyp, Min-/Max-Option, trefferausschließende Option Neu: Multi-Abstände möglich |
<R> | -- | alle Operatoren und Suchwörter (enthält auch <S>) |
<S> | Suchwort | ein oder mehrere Suchbegriffe |
<T> | -- | Operatoren
ATT ,
ATT-UND ,
ATT-ODER ,
- |
<V> | Argument von Operator ATT |
ein oder mehrere Suchbegriffe, - |
<X> | Argument von Operator ATT |
= , <> (ungleich), - |
* '-
' bedeutet, dass ein Wert fakultativ ist.
Argument <A>
Das erste Argument des Attribut-Operators
ATT
dient
der Angabe eines Attributnamens. Anders als bei Attributwerten kann nur ein Name
angegeben werden. Attributnamen werden groß geschrieben.
Beispiel
ATT(TYPE,...)
bezeichnet den Attributnamen in der folgenden Annotation:
<head type="top">
Argument <B>
Der Argumenttyp <B> bezeichnet das Feld von Operator BED, in das die gewünschte(n) Textposition(en) eingetragen werden.
Siehe hierzu die Liste der spezifizierbaren Textpositionen.
Argument <E>
Das erste Argument des Element-Operators
ELEM
dient der Angabe
eines Element- bzw. Annotationsnamens. Anders als bei Attributwerten kann
nur ein Name angegeben werden. Elementnamen werden groß geschrieben.
Beispiel
ELEM(HEAD,'')
bezeichnet die folgende Annotation:
<head ... >
Argument <I>
Das Argument des Kombinationsoperators
X IN Y
setzt
sich zusammen aus einer fakultativen
- Bereichsoption (neu),
- Positionsoption,
- Ausschließungsoption oder
- Gruppenbildungsoption.
Falls mehrere Optionen vorkommen, müssen die Werte auseinandergeschrieben oder mit Kommata getrennt werden. Die Reihenfolge der Optionen ist frei.
Beispiele für die Syntax der Optionen
' ' |
keine Optionsangabe ist erlaubt. |
'L' |
Positionsoption für linksbündig |
'% L' |
Ausschließungsoption mit Positionsoption |
'FE,ALL,%,MIN' |
Positions-, Bereichs-, Ausschließungs- und Gruppenbildungsoption |
Werte der Bereichsoption
Wert | Bedeutung |
---|---|
ALL | der Suchbereich von X in Y erstreckt sich vom ersten bis zum letzen Wort von Y (ob Treffer oder nicht) |
HIT | der Suchbereich von X in Y umfasst nur die Treffer von Y. dies ist der Default. |
Werte der Positionsoption
Wert | Bedeutung |
---|---|
L | Linkes Wort von X und Y stimmen überein, rechtes Wort von X und Y stimmen nicht überein. |
R | Rechtes Wort von X und Y stimmen überein, linkes Wort von X und Y stimmen nicht überein. |
F | Linkes und rechtes Wort von X und Y stimmen überein. Diese Option kann durch FE und FI verfeinert werden |
FE | Unterspezifikation von F: Alle Wörter von X und Y stimmen überein, X und Y sind also völlig identisch. |
FI | Unterspezifikation von F: Linkes und rechtes Wort von X und Y stimmen überein, aber nicht alle anderen Wörter |
N | Linkes und rechtes Wort von X und Y stimmen nicht überein |
- | keine Angabe |
- Die Optionen L, R, F und N schliessen sich gegenseitig aus bzw. ergänzen sich zu demselben Ergebnis wie wenn man keine Option vorgibt.
Für das triviale Beispiel
IN('wegen','F','wegen')) |
erhält man Ergebnisse für die Option F und die Unteroption FE, aber weder für L (weil "das rechte Wort von X und Y übereinstimmt"), noch für R (weil "das linke Wort von X und Y übereinstimmt") und N.
Die Optionen FE und FI schliessen sich gegenseitig aus bzw. ergänzen sich zum selben Ergebnis wie die Option F.
Werte der Ausschließungsoption
Wert | Bedeutung |
---|---|
% | Die Ausschließungsoption schließt die Treffer von X aus, die gemäß den vorgegebenen Optionen in Y sind. |
Durch die Ausschließungsoption werden alle Treffer X in zwei Gruppen
verteilt: diejenigen, die X IN Y
erfüllen und diejenigen,
die X IN(%) Y
erfüllen.
Die Werte der Gruppenbildungsoption
Wert | Bedeutung |
---|---|
MIN | sorgt dafür, dass die resultierenden Treffer X nicht zu Gruppen zusammengefaßt werden. | MAX | sorgt dafür, dass die resultierenden Treffer von X zu Gruppen
zusammengefaßt werden. Dies ist die Standardeinstellung. |
Argument <M>
Der Argumenttyp <M> bezeichnet ein Feld für die Eingabe einer morpho-syntaktischen Annotation, d.h. einer Wortklasse mit fakultativen Untermerkmalen, aus dem MECOLB Minimal Tagset. <M> ist das Eingabefeld des Operators MORPH.
In den grafischen Benutzeroberflächen von COSMAS II wird zum Ausfüllen dieses Argumenttyps der MORPH-Annotationsassistent aufgerufen.
Das Feld <M> kann nur 1 Wortklasse bzw. Annotation aufnehmen. Alternative Wortklassen müssen mit dem Operator ODER formuliert werden.
Argument <O>
Das Argument des Kombinationsoperators
X UEBERLAPPT Y
bzw. X #OV Y
setzt
sich aus den folgenden fakultativen Optionen zusammen:
- Positionsoptionen:
F, FE, FI, L, R, X
, - Bereichsoptionen:
ALL, HIT
, - ausschließende Option
%
, und - Gruppenbildungsoption:
MIN, MAX
.
Pro Optionsgruppe kann höchstens 1 Wert angegeben werden. Mehrere Werte werden durch Leerzeichen getrennt.
Werte der Positionsoption
Werte | kurz | Bedeutung |
---|---|---|
F | "full overlay" | X und Y beginnen und enden mit dem gleichen Wort. Dazwischen müssen die Treffer nicht identisch sein. |
FE | "exact full overlay" | Unterspezifikation von F: X und Y sind identisch, d.h. alle Treffer von X kommen in Y vor und umgekehrt. Wenn FE gilt, gilt auch F. FE ist komplementär zu FI. |
FI | "inexact full overlay" | Unterspezifikation von F: X und Y beginnen und enden identisch, sind dazwischen aber nicht identisch, d.h. 1 oder mehrere Treffer von X kommt in Y nicht vor oder umgekehrt. Wenn FI gilt, gilt auch F. FI ist komplementär zu FE. |
L | "left overlay" | entweder beginnt X links von Y oder, wenn X und Y mit dem gleichen Wort beginnen, endet X links von Y. |
R | "right overlay" | entweder endet X rechts von Y oder, wenn X und Y mit dem gleichen Wort enden, beginnt X rechts von Y. |
X | "residual case" | eine Überlappung, die in keine der obigen Fälle fällt. Vorsicht: X ist nicht glieichzusetzen mit: unspezifizierte Überlappung (don't care); X kann eingesetzt werden, wenn F, L und R ausgeschlossen werden sollen. |
- | "don't care" | = leeres Feld: keine Angabe: beliebige Art der Überlappung möglich. |
Werte der Bereichsoption
Wert | Bedeutung |
---|---|
ALL | Beim Kombinieren berücksichtigt #OV sowohl den gesamten Textbereich zwischen
den Treffern von X als auch den gesamten Textbereich zwischen den Treffern von Y. |
HIT | Es werden nur die Treffer von X und Y miteinander kombiniert. Falls X und Y keinen gemeinsamen
Treffer haben, gibt es im Falle von HIT keine Überschneidung und somit kein Ergebnis.Wert HIT ist der Default. |
Ausschliessende Option
Wert | Bedeutung |
---|---|
% | Die Ausschließungsoption schließt die Treffer von X aus, die gemäß den vorgegebenen Optionen in Y sind. |
Mit der ausschliessenden Option % schliessen Sie die Treffer in X aus, die die angegebene Bereichsoption erfüllen bzw. erhalten Sie nur diejenigen Kombinationen aus X und Y, die die angegebene Bereichsoption nicht erfüllen.
Gruppenbildungsoption
Wert | Bedeutung |
---|---|
MIN | sorgt dafür, dass die resultierenden Treffer X #OV Y nicht zu Gruppen zusammengefaßt werden. | MAX | sorgt dafür, dass die resultierenden Treffer von X #OV Y zu Gruppen
zusammengefaßt werden. Dies ist die Standardeinstellung. |
Die Werte Min oder Max für die Gruppenbildung, wie sie von den anderen Operatoren bekannt sind, können eingesetzt werden.
Beispiel 1
UEBERLAPPT(X,'F',Y)
sucht nach Überlappungen von X und Y,
die linksbündig in Y vorkommen.
UEBERLAPPT(X,'L %',Y)
sucht nach Treffern von X,
die nicht linksbündig in Y vorkommen.
Beispiel 2
Für weitere Beispiele, die die Wirkungsweise der Bereichsoption #OV(ALL)
veranschaulichen,
siehe hier.
Argument <P>
Argument des Kombinationsoperators
ABSTAND X VON Y
Definition des Abstandes
Der Abstand wird definiert durch minimal zwei, maximal fünf Angaben:
Abstandsangabe = (%)(R)(Wmin:)WmaxT(G), wobei
% | Ausschließungsoption |
R | Abstandsrichtung |
Wmin | minimaler Abstandswert |
Wmax | maximaler Abstandswert (obligatorisch) |
T | Abstandstyp (obligatorisch) |
G | Gruppenbildung |
und die in Klammern gesetzten Angaben fakultativ sind.
Beim grafischen Abstandsoperator können die Angaben in beliebiger
Reihenfolge aufgelistet werden. Einzig Wmin:Wmax muss hintereinander
stehen.
Bei Multi-Abständen (neu) kann die Sequenz (Wmin:)WmaxT für jeden Abstandstyp wiederholt und mit Kommata voneinander getrennt werden.
Trefferausschließung mit Ausschließungsoption
% | A %3w B bewirkt, dass als Treffer nur As
zurückgeliefert werden, bei denen in einer Umgebung von drei
Wörtern kein B steht. |
Abstandsrichtung
keine Angabe | Die Suchobjekte können in beliebiger Reihenfolge auftreten. Der Abstand ist maximal der vom Wert W angegebene. Der 0-Abstand ist inbegriffen. |
+ | Suchobjekt 1 tritt links von Suchobjekt 2 auf. |
Abstandswert
Wmin | Minimaler Abstand zwischen den beiden Suchbegriffen. Ein numerischer Wert im Bereich 0,1,2,3 etc. |
Wmax | Maximaler Abstand zwischen den beiden Suchbegriffen. Ein numerischer Wert im Bereich 0,1,2,3 etc. |
Abstandstyp
- für geschriebene Sprache
w oder W | Wortabstand |
s oder S | Satzabstand |
p oder P | Paragraph- oder Absatzabstand |
Multi-Abstände (neu): Es kann gleichzeitig zu allen drei Abstandstypen je eine Angabe gemacht werden, die durch ein Komma zu trennen sind. Siehe hierzu die Beispiele.
- für Diskurstranskripte
f oder F | Wortfragmentabstand |
s oder S | (Zeit)segmentabstand |
w oder W | Wortabstand |
Minimale oder maximale Gruppenbildung der Treffer
max | maximale Gruppenbildung der Treffer |
Default-Wert, wenn keine Angabe. Möglichst viele Treffer werden zu einer Gruppe zusammengefasst. |
min | minimale Gruppenbildung der Treffer |
Treffer werden paarweise präsentiert, sie werden nicht zusammengefasst. Dies ergibt in der Regel mehr Treffer als in der maximalen Gruppenbildung. |
Beispiele zur Syntax des Abstandes
w3 |
ungerichteter Abstand von 0,1,2,3 Wörtern | ||
1:w3 |
ungerichteter Abstand von 1,2,3 Wörtern (0-Abstand ausgeschlossen) | ||
w0 |
0-Wortabstand Angabe eines + hat beim 0-Wortabstand keine Wirkung |
||
s0 |
0-Satzabstand Angabe eines + wird, wie beim 0-Absatzabstand, berücksichtigt |
||
3:w3 |
ungerichteter Abstand von exakt drei Wörtern | ||
+w3 |
gerichteter Abstand von 0,1,2,3 Wörtern | ||
+1:w3 |
gerichteter Abstand von 1,2,3 Wörtern | ||
+3:w3 |
gerichteter Abstand von exakt drei Wörtern | ||
w3 min |
Wortabstand mit Angabe von minimaler Gruppenbildung | ||
%w3 |
ausschließender Wortabstand |
Beispiele zur Syntax von Multi-Abständen (neu)
+w3,s0 |
Multi-Abstände: max. 3 Wörter innerhalb 1 Satzes | ||
w3:10,s1,p0 |
Multi-Abstände: min. 3 und max. 10 Wörter innerhalb von 2 Sätzen innerhalb 1 Absatzes. |
Argument <R>
Der Argumenttyp <R> ist der allgemeinste Argumenttyp und nimmt alle Operatoren auf, die ebenfalls vom Typ <R> sind.
<R> schließt außerdem <S> ein, d.h. in jedem Argument vom Typ <R> kann auch ein Suchbegriff (Typ <S>) eingesetzt werden.
Beispiel 1
ELEM(...)
→
ABSTAND(<R>,<P>,<R>)
→
ABSTAND(ELEM,<P>,<R>)
Operator ELEM
ist vom
Typ <R> und kann deshalb in das 1. und das 3. Argument
von Operator ABSTAND
eingesetzt werden.
Beispiel 2
Haus*ung
→
ABSTAND(<R>,<P>,<R>)
→
ABSTAND(Haus*ung,<P>,<R>)
Der Suchbegriff Haus*ung (vom Typ <S>)
kann sowohl in das 1. als auch in das 3. Argument von
ABSTAND
eingesetzt werden.
Argument <S>
Der Argumenttyp <S> bezeichnet ein Feld zur Eingabe eines oder mehrerer Suchbegriffe.
Der Typ <S> ist außerdem in <R> enthalten, d.h. es können auch Suchbegriffe direkt in ein Feld vom Typ <R> eingetragen werden.
Argument <T>
Der Argumenttyp <T> dient der Aufnahme der Operatoren
zur Spezifizierung der Attribute und Attributwerte einer Annotation.
Beispiel 1: Anwendung mit ATT
ELEM('HEAD',<T>)
→
ELEM('HEAD',ATT(...))
führt den Einsatz von ATT
im Argument
vom Typ <T> von
ELEM
vor.
Beispiel 2: Anwendung mit ATT-UND
ELEM('HEAD',<T>)
→
ELEM('HEAD',ATT-UND(<T>,<T>))
→
ELEM('HEAD',ATT-UND(ATT(...),ATT(...)))
führt den Einsatz von ATT-UND
im Argument
vom Typ <T> von
ELEM
vor, gefolgt
vom Einsatz der Operatoren ATT
in die beiden Argumente vom Typ <T> von
ATT-UND
.
Argument <V>
Das dritte Argument des Attribut-Operators
ATT
dient der Angabe ein oder mehrerer Attributwerte.
Beispiel 1
ATT(TYPE,'=','top')
gibt an, dass das Attribut TYPE den Wert top haben muss.
Beispiel 2
ATT(TYPE,'<>','top main')
gibt an, dass das Attribut TYPE die Werte top und main nicht haben darf.
Argument <X>
Das zweite Argument des Attribut-Operators
ATT
dient der Angabe
eines Verknüpfungsoperators zwischen Attributnamen und dem/den -wert/-werten.
Mögliche Werte sind:
=
für gleich und<>
für ungleich
Beispiel 1
ATT(TYPE,'=','top')
gibt an, dass das Attribut TYPE den Wert top haben muss.
Beispiel 2
ATT(TYPE,'<>','top')
gibt an, dass das Attribut TYPE den Wert top nicht haben darf.
Groß-/Kleinschreibung und diakritische Zeichen
Übersicht
Ob die Groß-/Kleinschreibung und die diakritischen Zeichen in einer Suchanfrage beachtet oder ignoriert werden, hängt davon ab, wie Sie die Optionen in
- den allgemeinen Einstellungen (Optionen zur Suche) und
- der Suchanfrage selbst
eingestellt haben. Die Optionen in den allgemeinen Einstellungen gelten global für alle Ausdrücke einer Suchanfrage. Um die Optionen für einzelne Suchausdrücke festzulegen, müssen Sie sie mit der hier beschriebenen Syntax in den Ausdruck mitangeben. Die Optionen werden in diesem Fall mit einem Doppelpunkt versehen (um sie von dem eigentlichen Suchausdruck zu unterscheiden) und an den Anfang des Ausdrucks geschrieben. Die in einem Suchausdruck angegebene Option hat Vorrang auf die entsprechende globale Einstellung.
Es folgt die Tabelle mit der Optionensyntax (deutsch und englisch) für den Gebrauch in Suchausdrücken (z.B. bei Wortformen und Attributwerten in SGML-Annotationen). Wie bei den allgemeinen Einstellungen gilt, dass die A-Option und die E- und R-Optionen sich gegenseitig ausschließen.
anwendbar auf | Beschreibung | Option (dt) | Option (engl) | |
A | alle Zeichen | Groß-/Kleinschreibung &
diakritische Zeichen beachten Groß-/Kleinschreibung & diakritische Zeichen ignorieren |
:Ab :Ai |
:As :Ai |
E | erstes Zeichen | Groß-/Kleinschreibung beachten Groß-/Kleinschreibung ignorieren Großschreibung erzwingen Kleinschreibung erzwingen |
:Eb :Ei :Eg :Ek |
:Fs :Fi :Fu :Fl |
R | restlichen Zeichen | Groß-/Kleinschreibung beachten Groß-/Kleinschreibung ignorieren Großschreibung erzwingen Kleinschreibung erzwingen |
:Rb :Ri :Rg :Rk |
:Os :Oi :Ou :Ol |
D | alle Zeichen | diakritische Zeichen beachten diakritische Zeichen ignorieren |
:Db :Di |
:Ds :Di |
Kombinationen:
Folgende Optionen lassen sich miteinander kombinieren:
- A mit D
- E und R mit D
- E mit R
Groß-/Kleinschreibung und diakritische Zeichen
Beispiele für Kombinationen
In den nachfolgenden Beispielen wird gezeigt, wie Sie aus einer Kombination von globalen Einstellungen und Optionen im Suchausdruck Einfluss auf die Groß-/Kleinschreibung und die diakritischen Zeichen während einer Recherche nehmen können. Die Option A wurde der Einfachheit halber weggelassen. (igno = ignorieren, bea = beachten).
globale Einstellungen | Suchbegriff | gesuchte Wortformen | ||
E | R | D | ||
igno | igno | igno | der Der *ung :Eg *ung :Ek *ung *UNG :Ag *UNG |
Der der Der der z.B. Teilung TEILung teilung etc. z.B. Teilung TEILung etc., aber nicht teilung z.B. teilung etc., aber nicht Teilung TEILung z.B. TEILUNG teilUNG teilung etc. z.B. TEILUNG etc., aber nicht teilUNG teilung |
igno | igno | igno igno igno bea |
ete été wurde wurde |
ete été Eté Été
ÉTÉ ETE (franz.: Sommer) ete été Eté Été ÉTÉ ETE wurde würde Wurde Würde WURDE WÜRDE etc. wurde Wurde WURDE etc. |
bea | igno | igno | der Der :Ei Der |
der Der Der der |
Gruppenbildung der Treffer
Übersicht
Einige Suchoperatoren
(ABSTAND
,
IN
und
UEBERLAPPT
) bieten die
Möglichkeit, die gefundenen Treffer zu möglichst großen
Gruppen (= maximale Gruppenbildung) oder nicht
zu Gruppen zusammenzufassen (= minimale Gruppenbildung).
Bei der maximalen Gruppenbildung reduziert sich in der Regel die Anzahl der KWIC-Zeilen, weil Treffer mehrerer KWIC-Zeilen zu einer KWIC-Zeile zusammengefasst werden, wenn sie die Bedingungen des Operators zusammen erfüllen (siehe das Beispiel unten). Dadurch wird die Darstellung von Belegen übersichtlicher.
Bei der minimalen Gruppenbildung ist somit in der Regel die Anzahl der KWIC-Zeilen höher. Für die weitere Verarbeitung eines solchen Ergebnisses in einer komplexen Suchanfrage ist das manchmal notwendig, um an das korrekte Endergebnis zu kommen.
Mögliche Werte
- Max: möglichst viele Treffer werden zu einer Gruppe bzw. Fundstelle bzw. KWIC-Zeile zusammengefasst.
- Min: Treffer werden nicht zusammengefasst.
Die Groß- und Kleinschreibung spielt bei dieser Option keine Rolle.
Beispiel: Abstandssuche zweier Suchbegriffe
Die Gruppenbildung soll anhand einer Abstandssuche, bei der auf und geht im Kontext eines Satzes gesucht werden, dargestellt werden.
Bei maximaler Gruppenbildung entsteht für die nachfolgende Textpassage ein einziger Beleg1:
»Er stand auf -- merkte im Aufstehen noch, daß Professor Rineharts Stuhl und Schreibtischplatte klebrig waren --, ging hinüber zu Sabine, die am Tisch saß und auf die Tischplatte starrte.«
Bei minimaler Gruppenbildung entstehen dagegen 2 Belege:
Treffer 1:
»Er stand auf -- merkte im Aufstehen noch, daß Professor Rineharts Stuhl und Schreibtischplatte klebrig waren --, ging hinüber zu Sabine, die am Tisch saß und auf die Tischplatte starrte.«
Treffer 2:
»Er stand auf -- merkte im Aufstehen noch, daß Professor Rineharts Stuhl und Schreibtischplatte klebrig waren --, ging hinüber zu Sabine, die am Tisch saß und auf die Tischplatte starrte.«
1 aus: Walser, Martin: Brandung. Frankfurt a.M.: Suhrkamp Verlag, 1985, 319 S. [S. 87]
Erweiterte Suchoperatoren
Übersicht
Gehe zur Beschreibung der erweiterten Suchoperatoren für die
Bildung von virtuellen Korpora
Bezeichnung | Beschreibung |
KORPUSSIGLE | Auswahl von Texten nach ihrer Korpussigle |
DATIERUNG | Auswahl von Texten nach dem Entstehungsdatum |
Suche in Diskurstranskripten
Die allgemeinen Suchoperatoren wurden um solche erweiterte Suchoperatoren ergänzt, die auf das Recherchieren der in den Diskurstranskripten vorhandenen Annotationen spezialisiert sind. In der Benutzeroberfläche von COSMAS II sind sie mit einem + gekennzeichnet. Diese Operatoren werden hier vorgestellt.
Beschreibung der erweiterten Suchoperatoren für
Wortformen
Bezeichnung | Beschreibung | Syntax | Beispiel |
Wort | sucht nach Wortformen | Wort(<S>) | Wort('nich nicht nee') Wort('verlore*') |
Prosodie
Bezeichnung | Beschreibung | Syntax | Beispiel |
Dehnung | sucht nach Wortformen, die eine gedehnte Silbe enthalten | ohne Argument | - |
Dehnung lang | sucht nach Wortformen, die eine lang gedehnte Silbe enthalten | ohne Argument | - |
Betonung | sucht nach Wortformen, die eine betonte Silbe enthalten | ohne Argument | - |
Intonation | sucht nach Wortformen, die eine bestimmte Intonation haben | Intonation(<V>) Argument <V> kann sein: STEIGEND, FALLEND, SCHWEBEND |
Intonation( STEIGEND ) |
Tempo | sucht nach der ersten oder letzten
Wortform einer Passage, deren Tempo verschieden
vom Kontext ist. SCHNELLER: erstes W., das schneller
ist. |
Tempo(<V>) Argument <V> kann sein: SCHNELLER, SCHNELLER2, LANGSAMER, LANGSAMER2 |
Tempo( SCHNELLER ) |
Dynamik | sucht nach der ersten oder letzten
Wortform einer Passage, deren Dynamik
verschieden vom Kontext ist. LAUTER: erstes W., das
lauter ist. |
Dynamik(<V>) Argument <V> kann sein: LAUTER, LAUTER2, |
Dynamik( LAUTER ) |
Pausen
Bezeichnung | Beschreibung | Syntax | Beispiel |
Pause kurz | sucht nach Wortformen, die unmittelbar vor einer kurzen Pause (< 1s) stehen. | ohne Argument | - |
Pause 1s | sucht nach Wortformen, die unmittelbar vor einer 1s-Pause stehen. | ohne Argument | - |
Pause allgemein | sucht nach Wortformen, die unmittelbar vor einer beliebigen Pause stehen (schließt die beiden anderen Pausentypen ein). | ohne Argument | - |
Nicht lexikalisierte Äußerungen
Bezeichnung | Beschreibung | Syntax | Beispiel |
Lacht | sucht nach Wortformen, die unmittelbar vor einem Lachen stehen. | ohne Argument | - |
Diskursstruktur
Bezeichnung | Beschreibung | Syntax | Beispiel |
Simultanpassage-Beginn | sucht nach Wortformen oder -fragmenten am Anfang einer Simultanpassage. | ohne Argument | - |
Simultanpassage-Ende | sucht nach Wortformen oder -fragmenten am Ende einer Simultanpassage. | ohne Argument | - |
Sprecher-Beginn | sucht nach Wortformen oder -fragmenten am Anfang einer Äußerung. | ohne Argument | - |
Sprecher-Ende | sucht nach Wortformen oder -fragmenten am Ende einer Äußerung. | ohne Argument | - |
Sprechereigenschaften
Bemerkung:
Die 4 folgenden Suchoperatoren wurden zu Demozwecken hinzugefügt. In den Transkripten wurden die Angaben über Sprecheralter und -geschlecht mit zufälligen Werten generiert (Stand: März 2000).
Alter der Sprecher: die abfragbaren Werte sind von der Form dec0, dec1, dec2, etc., d.h. das Alter wird in Dekaden angegeben, wobei dec0 für 0-9 Jahre steht, dec1 für 10-19 Jahre, etc.
Bezeichnung | Beschreibung | Syntax | Beispiel |
WORT-PERS-GESCHL | sucht nach Wortformen von
Sprechern eines bestimmten Geschlechts. M: Masculinum |
WORT-PERS-GESCHL(<V>
<X>) <V> : Wortform <X> : Geschlecht: M od. F |
WORT-PERS-GESCHL( aber M ) WORT-PERS-GESCHL( aber F ) |
WORT-PERS-ALTER | sucht nach Wortformen von Sprechern eines bestimmten Alters. | WORT-PERS-ALTER( <V> <X> ) <V> : Wortform <X> : Altersangabe: dec0, dec1, etc. |
WORT-PERS-GESCHL( aber dec1 ) |
ÄUßERUNG-PERS-GESCHL | sucht nach Äußerungen von Sprechern eines bestimmten Geschlechts | ÄUßERUNG-PERS-GESCHL( <X> ) <X> : Geschlecht: M oder F |
ÄUßERUNG-PERS-GESCHL( F ) |
ÄUßERUNG-PERS-ALTER | sucht nach Äußerungen von Sprechern eines bestimmten Alters | ÄUßERUNG-PERS-ALTER( <X> ) <X> : Altersangabe |
ÄUßERUNG-PERS-ALTER( dec1 ) |