Syntax der Zeileneingabe → Suchoperatoren → Annotationsoperator MORPH → Wiederholungsoptionen |
MORPH mit Wiederholungsoptionen
Mit einer an regulären Ausdrücken angelehnten Syntax
kann der Operator MORPH
für eine Sequenz von Wortklassen auf einfache Weise wiederholt werden:
MORPH(...){Wiederholungsfaktor,Bereiche}
Nebst dem Wiederholungsfaktor sind ebenfalls die für COSMAS II typischen Satz- und Absatzbereiche spezifizierbar, in denen die Mehrworttreffer aufgefunden werden sollen.
Die Einzeloptionen sind die folgenden:
Wiederholungsfaktor | Satzbereich | Absatzbereich |
---|---|---|
+ | min | min:max | :max | Smax | Smin:max | Pmax | Pmin:max |
In den Suchanfragen werden min und max durch die gewünschten Werte ersetzt. Die Optionen können durch Leerstellen oder Kommata voneinander getrennt werden. Die Groß- und Kleinschreibung spielt keine Rolle.
Die Vorteile von MORPH{min:max}
gegenüber dem klassischen
Wortabstandsoperator /w
von COSMAS II besteht darin,
dass:
- sich mit ihm Wortklassensequenzen spezifizieren lassen, die sich dem Wortabstandsoperator nur umständlich bis gar nicht formulieren lassen,
- die Lesbarkeit der Suchanfrage entscheidend verbessert wird und
- die Antwortzeiten zum Teil deutlich kürzer sind.
Bedeutung der Optionen
Options- gruppe |
Option | Bedeutung | Beispiel |
+ | min | min:max | :max | min | minimale Anzahl Wiederholungen. Default ist 1 und kann nicht unterschritten werden. | {3} |
:max | maximale Anzahl Wiederholungen. | {:5} | |
min:max | minimale und maximale Anzahl Wiederholungen. | {3:5} | |
+ | steht für min=1 und max=beliebig, ist also eine Kurzform für {1:}. | {+} | |
Anm.: der Wiederholungsfaktor ist obligatorisch. Zu beachten: steht nur 1 Wert (ohne Doppelpunkt), handelt es sich um einen Minimalwert. | |||
Smax | Smin:Smax | Smax | Der Wert max gibt den maximalen Satzbereich an. Default ist s0, d.h. innerhalb 1 Satzes. | {s0} |
Smin:max | Die Werte min und max geben den minimalen und maximalen Satzbereich
an. Im Beispiel wird nach einer Sequenz gesucht, die sich über 2 Sätze erstrecken soll. | {s1:1} | |
Anm.: der Satzbereich ist fakultativ. Der Default ist s0. Zu beachten: steht nur 1 Wert, handelt es sich um einen Maximalwert. | |||
Pmax | Pmin:Pmax | Pmax | Der Wert max gibt den maximalen Absatzbereich an. Default ist p0, d.h. innerhalb 1 Absatzes. | {p0} |
Pmin:max | Die Werte min und max geben den minimalen und maximalen Absatzbereich
an. Im Beispiel werden Sequenzen gesucht, die sich über 2 Absätze erstrecken sollen. | {p0:1} | |
Anm.: der Absatzbereich ist fakultativ. Der Default ist p0. Zu beachten: steht nur 1 Wert, handelt es sich um einen Maximalwert. |
Die in den Satz- und Absatzbereichen einzusetzenden Werte werden von COSMAS II analog
zu den Satz- und Absatzabständen /s0, /s1:1, /p0, /p1:1
etc.
umgesetzt.
Beispiele
MORPH(A){2}
|
MORPH(A){2,s0p0}
|
Gesucht wird hier eine Sequenz von mindestens 2 Adjektiven. Die erste Formulierung ist gleichwertig mit der ausgeschriebenen Zweiten.
MORPH(A){2:4}
|
Gesucht wird hier eine Sequenz von 2 bis 4 Adjektiven.
MORPH(A){:5}
|
Gesucht wird hier eine Sequenz von 1 (= Default) bis 5 Adjektiven.
MORPH(A){+}
|
Gesucht wird hier eine Sequenz von mindestens 1 Adjektiv.
MORPH(A){+,s1}
|
Gesucht wird hier eine Sequenz von mindestens 1 Adjektiv in einem Bereich von maximal 2 Sätzen.
MORPH(A){+,s1:1}
|
Gesucht wird hier eine Sequenz von mindestens 1 Adjektiv in einem Bereich von genau 2 Sätzen.
- In den thematischen Beispielen findet sich ein weiterführender Fall als Kombination von Wortklassen mit Wiederholungsfaktor.
Wirkungsweise von MORPH{min:max}
Beim Einsatz von regulären Ausdrücken ist nicht immer eindeutig, welche Textbereiche als Treffer zurückgeliefert werden: Es muss entschieden werden, ob nur die ersten oder alle, die kürzesten oder die längsten, ob überlappende oder nicht-überlappende Fundstellen in die Trefferliste aufgenommen werden.
COSMAS II wendet hierbei folgende Regeln an:
- es werden alle möglichen Fundstellen geliefert, die den regulären Ausdruck erfüllen, überlappende inklusive;
- bei Angabe ungleicher Min- und Max-Werte werden die längst möglichen Fundstellen den kürzeren bevorzugt.
Die Anwendung dieser Regeln durch COSMAS II sei anhand der folgenden Textstelle bei der Suche diverser Adjektiv-Sequenzen veranschaulicht:
Beleg: A10/JAN.03411: ..., die allesamt das heilige, geschützte, sündhaft teure Wort «Olympisch» im Namen trugen. |
MORPH(A){min:max} | zurückgelieferte Treffer |
---|---|
MORPH(A){2:2} | heilige, geschützte geschützte, sündhaft sündhaft teure |
MORPH(A){3:3} | heilige, geschützte, sündhaft geschützte, sündhaft teure |
MORPH(A){2:3} | heilige, geschützte, sündhaft geschützte, sündhaft teure sündhafte teure |
MORPH(A){1:4} | heilige, geschützte, sündhaft teure geschützte, sündhaft teure sündhaft teure teure |
Da längere Sequenzen gegenüber kürzeren bevorzugt werden, wird z.B. für
MORPH(A){1:4}
die Sequenz »heilige, geschützte, sündhaft«
(3 Adjektive) zugunsten der längeren »heilige, geschützte, sündhaft teure«
herausgefiltert.
Vergleich von 'MORPH /+w MORPH' mit MORPH{min:max}
Für die Angabe von Wiederholungen mit min = max
gibt es eine entsprechende Suchanfrageformulierung mittels Wortabstand
/+w1:1,s0
, die dieselben Treffer zurückliefert.
Zur Vereinfachung steht MORPH in der nachfolgenden Übersicht für
eine beliebige Wortklasse, z.B. MORPH(A):
MORPH{1:1} | = | MORPH |
MORPH{2:2} | = | MORPH /+w1:1,s0 MORPH |
MORPH{3:3} | = | MORPH /+w1:1,s0 MORPH /+w1:1,s0 MORPH |
etc. |
Für den Fall, dass min < max ist, gibt es zwei
alternative, äquivalente Formulierungen mit den üblichen Operatoren
/w
und oder
, die allerdings
zu unübersichtlichen und fehleranfälligen Formulierungen führen und außerdem
einige Extra-Treffer zurückliefern, die bei MORPH{min:max}
angenehmerweise unter den Tisch fallen, weil sie in längere Treffer aufgehen.
Einige Beispiele dazu:
MORPH{1:2} | = | MORPH oder (MORPH /+w1:1,s0 MORPH) | Var. 1 |
= | MORPH /+w0:1,s0 MORPH | Var. 2 | |
MORPH{1:3} | = | MORPH oder (MORPH /+w1:1,s0 MORPH) oder (MORPH /+w1:1,s0 MORPH /+w1:1,s0 MORPH) | Var. 1 |
= | ((MORPH /+w0:1,s0,min MORPH) /+w0:1,s0,min MORPH) /+w0:1,s0,min MORPH | Var. 2 | |
MORPH{2:3} | = | (MORPH /+w1:1,s0,min MORPH) /+w1:1,s0,min (MORPH oder (MORPH /+w1:1,s0,min MORPH) oder (MORPH /+w1:1,s0,min MORPH /+w1:1,s0,min MORPH)) | Var. 1 |
= | ((MORPH /+w1:1,s0,min MORPH) /+w0:1,s0,min MORPH) /+w0:1,s0,min MORPH | Var. 2 | |
etc. |
Antwortzeiten von MORPH{min:max}
MORPH{min:max}
liefert in mehrerer Hinsicht kürzere Antwortzeiten
als MORPH /w MORPH
und ist, wo es möglich ist,
dem klassischen Operator vorzuziehen.
- Siehe dazu die durchgeführten Messreihen.