Syntax der grafischen Eingabe → Textpositionen |
Bedingungen für die Position von Ergebnissen innerhalb der Textstruktur
Für die Suche nach Wörtern und Annotationen und deren Kombination und Verarbeitung durch alle möglichen Operatoren können Bedingungen für deren Anfangs- und Endposition innerhalb der Textstruktur formuliert werden.
Spezifizierbare Textpositionen
Abkürzung | Textposition | Bedeutung |
SA oder sa | Satzanfang | das erste Wort eines Satzes |
SE oder se | Satzende | das letzte Wort eines Satzes |
PA oder pa | Absatzanfang | das erste Wort eines Absatzes, ist zugleich erstes Wort eines Satzes |
PE oder pe | Absatzende | das letztes Wort eines Absatzes; ist zugleich letztes Wort eines Satzes |
TA oder ta | Textanfang | erstes Wort eines Textes, zugleich auch eines Absatzes und eines Satzes |
TE oder te | Textende | letztes Wort eines Textes, zugleich auch eines Absatzes und eines Satzes |
Wie ermittelt COSMAS II die Textpositionen
Die bekannten SGML bzw. XML-Textauszeichnungen für Sätze (<s> … </s>), Absätze (<p> … </p>) und den Text(körper) (<text> … </text>) dienen als Hauptquelle für die Extraktion dieser Informationen aus den Korpora. Da COSMAS II eine Satzsegmentierung auch dann anhand der Satzzeichen .:;!? etc. vornimmt, wenn keine <s> … </s> vorhanden sind, beliefern diese Satzzeichen das System ebenfalls mit den Satzgrenzen SA und SE.1
- Dies hat zur Folge, dass in COSMAS II die Anzahl der Sätze höher ist als mit dem Operator ELEM(S), der nach der Satzmarkierung <s> … </s> sucht, ermittelt wird.
Anfangs- und Endposition bei Annotationen und Textauszeichnungen
Annotationen (ob linguistische Annotationen oder Textauszeichnungen) umfassen in der Regel einen Bereich von Wörtern und haben deshalb eine Anfangs- und Endposition, wie die folgenden Beispiel verdeutlichen:
Beispiele
Die Satzannotation (oder auch Satzmarkierung) "<s>…</s>" hat auf natürliche Weise als Anfangsposition das erste Wort und als Endposition das letzte Wort eines Satzes.
Besteht ein Satz aus nur 1 Wort, so sind seine Anfangs- und Endposition identisch.
Die Absatzmarkierung "<p>…</p>" hat auf natürliche Weise als Anfangsposition das erste Wort und als Endposition das letze Wort des Absatzes.
Die Textmarkierung "<text>…</text>" hat auf natürliche Weise als Anfangsposition das erste Wort und als Endposition das letzte Wort eines Textes. Dabei wird nicht berücksichtigt, ob das erste Wort in einer Überschrift steht oder nicht.
Anfangs- und Endposition bei Kombinationsoperatoren
Kombinationsoperatoren wie der Abstandsoperator erzeugen Ergebnisse bestehend aus einem Wortbereich, dessen Anfangsposition aus dem am weitesten links gefundenen Wort und dessen Endposition aus dem am weitesten rechts gefundenen Wort gebildet wird.
Beispiele
Bei der gerichteten Abstandssuche ABSTAND(&offen, +w1, &Tür) besteht die Anfangsposition eines Treffers aus einer gefundenen Flexionsform von offen, die Endposition aus einer gefundenen Flexionsform von Tür.
Bei der ungerichteten Abstandssuche ABSTAND(Busch, s0, &klopfen) kann die Anfangsposition eines Treffers sowohl aus Busch oder einer Flexionsform von klopfen bestehen, je nachdem welches von beiden am weisten links steht. Die Endposition wird aus dem anderen gefundenen Suchgegriff gebildet.
Anfangs- und Endposition bei Wortsuchen und reduzierenden Operatoren
Bei Wortsuchen (Suche nach einem Wort mit/ohne Platzhalter und bei der lemmatisierten Suche) und bei reduzierenden Operatoren (Operatoren wie LINKS(), die einen gefundenen Bereich auf 1 einzelnes Wort reduzieren) sind Anfangs- und Endposition immer identisch. Deshalb reicht es aus, bei diesen Suchobjekten nur Angaben über ihre (Anfangs)position zu machen.
Beispiele
Bei Suchanfragen wie STR(Tür), STR(*tür) und LEM(Tür) beziehen sich Anfangs- und Endposition auf das gefundene Wort selbst.
Durch Anwendung des reduzierenden Operators LINKS() auf die Abstandssuche ABSTAND(Busch, s0, &klopfen) entstehen 1-Wort-Treffer, deren Anfangs- und Endposition identisch sind mit der Anfangsposition der Abstandssuche.
Durch Anwendung des reduzierenden Operators RECHTS() auf die Abstandssuche ABSTAND(Busch, s0, &klopfen) entstehen 1-Wort-Treffer, deren Anfangs- und Endposition identisch sind mit der Endposition der Abstandssuche.
Formulieren von Bedingungen für die Position im Text
Beim Formulieren von Bedingungen wird:
- das Vorhanden- (+ als Vorzeichen oder kein Vorzeichen) oder Nichtvorhandensein (- als Vorzeichen) von einzelnen Textpositionen
- in der Anfangs- und/oder Endposition eines Suchobjektes
spezifiziert.
Allgemeine Form: "Bedingungen für Anfangsposition" / "Bedingungen für Endposition"
Bedingungen für Anfangs- und Endpositionen werden durch den Separator / getrennt. Dabei ist es möglich, entweder
nur Bedingungen für die Anfangsposition zu formulieren (kein / );
nur Bedingungen für die Endposition zu formulieren, dadurch, dass der / am Anfang steht;
Bedingungen sowohl für die Anfangs- als auch Endposition zu spezifizieren.
Eine Bedingung besteht aus einer oder mehreren Textpositionen, die mittels der Abkürzungen aus der obigen Tabelle ausgedrückt werden, und die mit einem Komma voneinander getrennt werden.
Beispiele
Bedingungen | Auswirkung | konkretes Beispiel | |
---|---|---|---|
sa oder +sa | prüft in einem Ergebnis, dass Anfangspos. = Satzanfang. | Tür :sa: |
sucht nach Tür am Satzanfang |
ELEM(S) :sa: |
sucht nach einer Satzmarkierung, die am Satzanfang beginnt: da dies natürlich immer der Fall ist, ist :sa: hier überflüssig. | ||
sa,-pa | prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und Anfangspos. ≠ Anfang eines Absatzes. | ABSTAND(die, +w1, Vertreibung) :sa,-pa: |
sucht nach die Vertreibung am Satzanfang, aber nicht am Anfang eines Absatzes. |
ELEM(S) :sa,-pa: |
sucht nach einer Satzmarkierung, die nicht am Anfang eines Absatzes steht. Da :sa: für ELEM(S) immer erfüllt ist, führt :-pa: zum gleichen Ergebnis. | ||
se oder +se | prüft in einem Ergebnis, dass Anfangspos. = Satzende. | und :se: |
sucht nach und am Satzende. Die Bedingung :sa: und :se: führen bei Einzelwortsuchen zum gleichen Ergebnis, da deren Anfangs- und Endposition identisch sind. |
sa,se | prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und Anfangspos. = Satzende. | perfekt :se: |
sucht nach perfekt am Satzanfang und Satzende, also in 1-Wort-Sätzen. |
-sa,-se | prüft in einem Ergebnis, dass Anfangspos. ≠ Satzanfang und Anfangspos. ≠ Satzende. | perfekt :-sa,se: |
sucht nach perfekt innerhalb des Satzes, also weder am Satzanfang noch am Satzende. |
/se | prüft in einem Ergebnis, dass Endpos. = Satzende. | ABSTAND(nicht,+s0,LEM(sein)) :/se: |
sucht nach nicht gefolgt von einer Flexionsform von sein am Satzende. |
sa/se | prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und Endpos. = Satzende. | ABSTAND(LEM(sein),s0,nicht) :sa/se: |
sucht nach Sätzen, die mit einer Flexionsform von sein beginnen und mit nicht enden. |
sa/sa | prüft in einem Ergebnis, dass Anfangspos. = Satzanfang und auch Endpos. = Satzanfang. | LINKS(ABSTAND(LEM(sein),s0,nicht)) :sa/sa: |
exotisches Beispiel, das sich mit :sa: allein auch ausdrücken liesse, da das Ergebnis von LINKS 1-Wort-Treffer sind, für die Anfangs- und Endposition identisch sind. |
/se,-pe | prüft in einem Ergebnis, dass Endpos. = Satzende und Endpos. ≠ Absatzende. | ELEM(S) :/se,-pe: |
findet Sätze (durch die Satzmarkierung), die nicht am Ende eines Absatzes stehen. |
/sa | prüft in einem Ergebnis, dass Endpos. = Satzanfang. | ABSTAND(ABSTAND(wegen,+w2,s0,des),+s1:1,er) :/sa: |
findet innerhalb 1 Satzes (+w2,s0) wegen … des, wenn der nächste Satz (+s1:1) mit Er beginnt (:/sa:). |
Operator BED für die Formulierung von Bedingungen für die Position im Text
Bedingungen für die Textposition werden mit Hilfe des Operators BED (für deutsch Bedingung oder seines internen englischen Pendants COND, für condition) angegeben.
Beispiele
Bsp. 1: BED(*tür, -sa,-se)
Da die Bedingungen -sa,-se in ein separates Feld von Operator BED eingetragen werden, kann auf die : verzichtet werden.
Bsp. 2: ABSTAND(BED(ABSTAND(die,+w1,Vertreibung),pa),s0,LEM(planen))
In dieser zweifachen Abstandssuche wird auf die Vertreibung die Bedingung gestellt, dass es einen Absatz einleiten soll (Bedingung pa). Innerhalb eines solchen Satzes, falls er gefunden wird, soll dann nach einer Flexionsform von planen gesucht werden. Operator BED kann also an beliebiger Stelle und mehrfach eingesetzt werden. Siehe auch Beispiel 4.
Angabe von Bedingungen für die Position im Text ohne Operator BED
Zur Vereinfachung erlauben die Operatoren für die Wort-, Lemma- und SGML-Element-Suche die Angabe von Bedingungen für die Position direkt im Namensfeld. Dabei ist zu beachten, dass zwischen dem gesuchten Begriff und den Bedingungen kein Leerzeichen steht.
Beispiele
Bsp. 3: STR(*tür:-sa,-se:)
Bsp. 4: ABSTAND(ABSTAND(die:pa,+w1,Vertreibung),s0,LEM(planen))
Dieses Beispiel stellt eine Vereinfachung von Beispiel 2 dar, indem die Bedingung +pa ohne Operator BED direkt hinter dem Artikel die eingetragen wird. Das Ergebnis ist das gleiche wie in Beispiel 2.
Bsp. 5: ELEM(S:-pa)
Vorteile der direkten Eingabe von Textpositionen in Suchanfragen
Das Filtern von (Zwischen-)Ergebnissen mittels Textpositionen kann bzw. konnte bisher auch mit dem allgemeinen Operator ELEM ausgeführt werden. Die Vorteile der direkten Nutzung der hier beschriebenen Textpositionen gegenüber ELEM sind die folgenden:
Geschwindigkeit:
Die Ausführungszeit einer Suchanfrage wird durch das Filtern mittels Textpositionen unwesentlich verlangsamt, da die Textpositionen von Treffern direkt abgefragt werden können. In manchen Fällen wird die Ausführungszeit sogar leicht beschleunigt, da die unerwünschten Suchbegriffe bzw. Annotation sehr früh aus dem Suchprozess weggefiltert werden.
Bei der Verwendung von ELEM wird hingegen die Ausführungszeit stark verlängert, da zusätzliche Operatoren eingesetzt werden.Kompaktheit der formulierten Suchanfrage:
Bei der direkten Formulierung mit Textpositionen wird die Suchanfrage kaum länger und bleibt gut lesbar, siehe Bsp. 6 unten. Dies ist dann erst recht der Fall, wenn sogar auf den Operator BED verzichtet werden kann.
Die Verwendung von ELEM hingegen verlängert die formulierte Suchanfrage und macht sie weniger gut lesbar, siehe Bsp. 7.größere Anzahl Treffer:
Wie anfangs dieser Seite erwähnt, findet eine Suchanfrage mittels direkter Textpositionen mehr Wörter am Satzanfang und -ende, weil COSMAS II innerhalb der <s>…</s> für alle Satzzeichen überprüft, ob eine Satzgrenze gesetzt werden kann.
ELEM hingegen orientiert sich einzig an den Satzmarkierungen, um Satzgrenzen zu finden.
Beispiel
Folgende Suchanfrage soll mit der direkten Angabe von Textpositionen und durch ELEM ausgedrückt werden: Gesucht werden Sätze, die Got und Krieg enthalten und die mit dem einen dieser beiden Begriffe enden.
Die eigentliche Suchanfrage lautet: Q1 = ABSTAND(Gott,s0,LEM(Krieg))
Mit direkter Spezifikation von Textpositionen:
Bsp. 6: BED(Q1,/se)
Mit Operator ELEM:
Bsp. 7: ABSTAND(Q1,w0,RECHTS(ELEM(S)))