[IDS-Logo] Online-Hilfe zu COSMAS II/web: Reguläre Ausdrücke in der Suchanfrage

Reguläre Ausdrücke

Generelles

Reguläre Ausdrücke, sei es auf der Ebene einzelner Wortformen oder auf Satzebene (Reihenfolge der Wörter bzw. syntaktischer Ebene), waren bislang in der Suchanfragesprache von COSMAS II nicht realisiert worden.

Auf Wortebene wurde mit der Version 4.5.11 des COSMAS II-Servers der Operator #REG() eingeführt, der diesbezüglich abhilfe verschafft.

Ein Grund für das Fehlen von regulären Ausdrücken auf Satzebene liegt darin begründet, dass sie sich für umfangreiche Korpora (mehrere Milliarden laufende Wortformen für das DeReKo-Korpus) nicht immer auf effiziente Weise (also kurze Antwortzeiten) umsetzen lassen. Ein Suchmuster wie [^NOU] (kein Nomen an dieser Stelle des Satzes) bedeutet in DeReKo, dass über 3 Mrd. Wörter in den Speicher geladen werden. Korpusrecherche-Systeme, die reguläre Ausdrücke anbieten, verwalten in der Regel nur höchstens einige Hundert Millionen laufenden Wortformen.

Auf dieser Seite möchten wir auf ein paar interessante Alternativen mittels der Suchanfragesprache von COSMAS II hinweisen. Es ist allerdings in Zukunft nicht ausgeschlossen, dass einige Aspekte regulärer Ausdrücke ihren Weg in COSMAS II finden werden.

Alternativen zu regulären Ausdrücken auf Wortebene

Auf Wortebene bietet COSMAS II mit Platzhaltern (siehe hier für die grafischen Operatoren), auch Wildcards genannt, eine intuitive und vereinfachte Form von regulären Ausdrücken an, um Suchbegriffe flexibel über Teil-Zeichenketten zu formulieren.

Des weiteren bietet der Lemmatisierungs- bzw. Grundformoperator (siehe hier für die grafischen Operatoren) eine morphologisch fundierte Möglichkeit an, Derivationen, Flexionsformen und Komposita von Grundformen auszudrücken. Hierbei können auch Suffixe (z.B. "&-schaft") und Präfixe (z.B. "&ab-") auf diese Weise recherchiert werden.

Alternativen zu regulären Ausdrücken auf Satzebene

Der MORPH-Operator mit seinen Wiederholungsoptionen bietet die Möglichkeit an, variable und feste Sequenzen einer Wortklasse zu formulieren und effizient zu recherchieren.

Einige Formulierungen für die Reihenfolge von Wortformen, die sich mittels regulärer Ausdrücke formulieren lassen, können auch alternativ mit den vielfältigen Abstandsoperatoren (siehe hier für die grafischen Operatoren) ausgedrückt werden.

In der Folge werden einige Fälle von regulären Suchausdrücken vorgestellt, die sich direkt oder indirekt mittels der bestehenden COSMAS II-Operatoren ausdrücken lassen:

regulärer Ausdruck1 COSMAS II-Suchausdruck
&gehen []? heim &gehen /+w2 heim
&gehen []* nach Hause &gehen /+s0 (nach /+w1,s0 Hause)
&gehen []{1,3} heim &gehen /+2:4w,s0 heim
(&gehen heim) | (heim &gehen) &gehen /+w,s0 heim
DET [^ADJ] N (MORPH(DET) %+w1:1,s0 MORPH(ADJ)) /+w2:2,s0 MORPH(N)
DET [^ADJ]{2,3} N (MORPH(DET) /+w3:4,s0 MORPH(N)) %w0 MORPH(ADJ)
DET [^ADJ] MORPH(DET) /+w1:1,s0 MORPH(-ADJ)

1 Reguläre Ausdrücke in der Korpuslinguistik verwenden oft [] für eine unspezifizierte Wortposition. [^ADJ] bedeutet hier: an dieser Wortposition kein Adjektiv.

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018