Syntax der grafischen Eingabe → Suchoperatoren → Element-Operatoren → Operator ELEM |
Operator ELEM
deutsche Bezeichnung | interne Bezeichnung |
ELEM | ELEM( <E>,<T>) |
Allgemeine Beschreibung:
- Der Operator ELEM sucht nach SGML- bzw. XML-Annotationen.
- Das obligatorische Feld <E> bezeichnet den Elementnamen, d.h. den Namen der Annotation.
- Das fakultative Feld <T> nimmt die
Operatoren
ATT
,ATT-UND
bzw.ATT-ODER
auf, mit denen Attribute und deren Werte angegeben werden können. - Der resultierende Treffer besteht aus dem Textbereich, der von der Annotation umfasst wird.
Angabe einer Textposition
Durch Angabe einer oder mehrerer Textposition(en) kann festgelegt werden, an welchen Stellen eines Satzes, Absatzes oder Textes der gewünschte Treffer gesucht oder nicht gesucht werden soll. Siehe Beispiele.
Beispiele
- Für ein besseres Verständnis werden komplexe Suchanfragen nach und nach
aufgebaut und erläutert, wobei die Teilanfragen mit
Q1
,Q2
, etc. bezeichnet werden. Die komplette Suchanfrage, wie sie auch von COSMAS II verstanden wird, ergibt sich aus dem Einsetzen vonQ1
inQ2
,Q2
inQ3
etc.
In den folgenden Beispielen wird ELEM(S)
als Kurzform von ELEM('S','')
verwendet.
1. Satz- und Absatzgrenzen
LINKS(ELEM(S)) |
Erstes Wort eines Satzes. S steht für Satz,
allgemein bekannt als <s>
.
RECHTS(ELEM(S)) |
Letztes Wort eines Satzes.
LINKS(ELEM(P)) |
Erstes Wort eines Absatzes. P steht für Paragraph,
allgemein bekannt als <p>
.
RECHTS(ELEM(P)) |
Letztes Wort eines Absatzes.
ABSTAND('und',w0,RECHTS(ELEM(S))) |
Suche nach dem Wort und an letzter Position eines Satzes.
Damit das Wort und an letzter Position gefunden werden kann,
wird der 0-Wortabstand zum letzen Wort des Satzes gebildet.
2. Satzlänge
Der folgende Trick macht es möglich, die Länge der Sätze, in denen man
recherchiert, vorzugeben: Die Satzenden LINKS(ELEM(S))
und
RECHTS(ELEM(S))
werden a) innerhalb 1 Satzes und b) im
gewünschten Mindest- oder Maximalabstand voneinander gesucht.
Q1a = ABSTAND(LINKS(ELEM(S)),'w5,s0',RECHTS(ELEM(S))) |
Q1a
liefert bespielsweise Sätze mit einer max. Länge
von 5 Wörtern zurück.
Q1b = ABSTAND(LINKS(ELEM(S)),'w5:5,s0',RECHTS(ELEM(S))) |
Q1b
liefert bespielsweise Sätze mit einer
exakten Länge von 5 Wörtern zurück.
Q1c = ABSTAND(LINKS(ELEM(S)),'w5:100,s0',RECHTS(ELEM(S))) |
Q1c
liefert bespielsweise Sätze mit einer
min. Länge von 5 Wörtern zurück.
Der Bereich w5:100
ist ein Kunstgriff: da nach dem ':'
ein Maximalwert angegeben werden muss, steht mit 100 an dieser
Stelle ein beliebiger, ausreichend hoher Wert.
Werden die Suchanfragen Q1a-Q1c
in einer
weiteren Suchanfrage eingesetzt, muss folgendes beachtet werden:
Das Ergebnis von Q1a-Q1c
besteht nur aus
den Wortpaaren des Satzanfangs und Satzendes. Um im ganzen Bereich dieser
Sätze suchen zu können, muss der Ergebnisbereich wie folgt auf den ganzen
Satzbereich erweitert werden:
Q2 = INKLUSIVE(Q1a) |
War zum Beispiel der Suchbereich eines Ergebnisses von
Q1a
:
"Aufrecht gaben sie ihr Leben auf",
so ist der Suchbereich dieses Ergebnisses in Q2
:
"Aufrecht gaben sie ihr Leben auf".
3. Überschriften
ELEM(HEAD,ATT(TYPE,=,'TOP')) |
Dachzeile in den Zeitungstexten der IDS-Korpora gemäß CES-Kodierung. Siehe Textbeispiel unten.
ELEM(HEAD,ATT(TYPE,=,'MAIN')) |
Hauptüberschrift in den Zeitungstexten der IDS-Korpora gemäß
CES-Kodierung.
Siehe Textbeispiel unten.
ELEM(HEAD,ATT(TYPE,=,'SUB')) |
Unterüberschrift in den Zeitungstexten der IDS-Korpora gemäß CES-Kodierung.
ELEM(HEAD,ATT(TYPE,=,'CROSS')) |
Zwischenüberschrift in den Zeitungstexten der IDS-Korpora gemäß CES-Kodierung.
Textbeispiel mit Textauszeichnungen für Überschriften (neu)
<div>
<head type="top">
<s>Innenstadt: Ehren- und Offiziersabend des Mannheimer
Traditionscorps mit Büttenreden und Gardetanz</s>
</head>
<head type="main">
<s>Führungswechsel kündigt sich an</s>
</head>
<p>Seit 42 Jahren ist …</p>
</div>
4. Beispiele mit Angaben von Textpositionen
ELEM(W:sa,ATT(ANA,=,'DET')) |
Dies ist die etwas umständliche Form, mit SGML-Operatoren nach Determinanten (DET im Connexor-Tagset) zu suchen, und entspricht der Formulierung MORPH('DET'). Da der MORPH-Operator zur Zeit die Angabe von Textpositionen nicht zuläßt, greifen wir zu diesem Zweck auf die SGML-Operatoren zurück. Die Angabe <w ana='DET'> wird durch die Angabe der Textposition :sa auf diese Weise auf Treffer am Satzanfang eingeschränkt.
ELEM(W:sa/se,ATT(ANA,=,'ADJ')) |
Auf diese vielleicht exotisch anmutende Weise werden Sätze gesucht, die aus 1 Adjektiv (ADJ im MECOLB-Tagset) bestehen. Dies wird dadurch erzielt, dass das gesuchte Adjektiv sowohl als erstes (sa) als auch als letztes (/se) Wort eines Satzes fungieren soll.
BED(MORPH(ADJ),sa/se) |
Die Alternative besteht darin, das Ergebnis des MORPH-Operators mit dem BED-Operator auf die gewünschten Textstellen einzuschränken.
5. Beispiele mit negierten Werten
ELEM(W,ATT(ANA,<>,'DET')) ELEM(W,ATT(ANA,!=,'DET')) |
Diese beiden äquivalenten Suchanfragen verwenden SGML- bzw. XML-Operatoren, um nach Wortklasen zu suchen, die keine Determinanten (DET im Connexor-Tagset) sind. Dies entspricht der Formulierung MORPH(-DET).