Syntax der Zeileneingabe → Suchoperatoren → Wortformoperatoren → Grundformoperator → erweiterte Optionen |
Erweiterte Optionen für Komposita
Voraussetzung
Die hier vorgestellten erweiterten Komposita-Optionen sind erst bei eingeschalteten Lemmatisierungsoptionen wie folgt wirksam:
Lemma-Option | Einstellung | Bemerkung | Beispiele für &Fang | |
---|---|---|---|---|
Komposita | erforderlich | Fang, Fangbecken, etc. | ||
sonstige Wortbildungsformen | fakultativ | erzeugt zusätzliche Komposita durch die Hinzunahme von Affixen. | zusätzlich: Abfangbecken, unfangreich, Wiederfangraten, etc. | |
Spezialfälle | ausgeschaltet lassen |
Wirkung
Bei den erweiterten Komposita-Optionen geht es darum, aus der Liste der gefundenen Komposita diejenigen herauszufiltern, die bestimmte morphologischen Merkmale aufweisen:
- Stellung des angegebenen Lemmas als Erst-, Mittel- oder Letztglied;
- Bestimmung der Anzahl der Glieder und Affixe;
- Vorhandensein eines Fugen-Elements.
- Beachtung der Groß-/Kleinschreibung des ersten Zeichens.
Die zugrunde liegende morphologische Analyse wird mit dem am IDS entwickelten Programm glemm durchgeführt.
Vorbehalt
Lesen Sie bitte folgende Hintergrundinformation zu den auf dieser Seite beschriebenen Daten, bevor Sie sich entscheiden, diese für Ihre Arbeit zu nutzen.
Die als erweiterte Komposita-Optionen verfügbaren Daten wurden als Nebenprodukt der morphologischen Analyse der Korpora gesammelt. Als solche können sie leider den Anspruch auf Vollständigkeit nicht erfüllen. Zum einen können im der Analyse zugrundeliegenden Lexikon Informationen in einzelnen Einträgen fehlen, z.B. einzelne Fugenelemente. Andererseits werden aus Design- und Effizienzgründen nicht alle morphologischen Dekompositionen berücksichtigt. Schließlich seien die Fälle erwähnt, in denen Uneinigkeit über die Form der Lexikoneinträge herrscht (z.B. ens oder en + s als Fugenelement). Aus alle diesen Gründen sollten die hier erzielten Ergebnisse linguistisch nicht als autoritativ gewertet oder übernommen werden.
Es kann somit vorkommen, dass Suchanfragen, die mit den erweiterten Optionen formuliert werden, nicht alle Treffer finden, die man mit anderen Wortform-Suchanfragen zu sehen bekommt.
Beispiel: mit dem regulären Ausdruck #REG(^Herzens.*)
findet man u.a. Herzensangelegenheit.
Mit dem erweiterten Suchausdruck &Fens&Herz
, auf der Basis des Lemmas Herz und des
Fugenelements ens, wird das ebensolche Kompositum nicht wie erwartet gefunden.
Grund dafür ist entweder, dass das Fugenelement ens für diese Wortform im Lexikon fehlt
oder dass die automatische morphologische Zerlegung ens nicht als Fuge, sondern anders interpretiert hat,
z.B. als Flexion en + Fugen-s
.
Für z.B. quantitative Auswertungen sind somit Suchanfragen mit dieser Implementation der erweiterten Komposita-Optionen leider nur begrenzt aussagekräftig.
Syntax
Die erweiterten Optionen werden als Präfix zum gesuchten Lemma zwischen zwei &-Zeichen wie folgt eingegeben:
- &erweiterte Optionen&Lemma
- &(Position)(Fugenelement)(Anzahl)(Dekompositionen)(Groß-/Klein)&Lemma
mit den folgenden Einzeloptionen:
Position | Fugenelement | Anzahl | Dekompositionen | Groß-/Klein |
---|---|---|---|---|
E|M|L | F(%)(…)(+|-) | <|=|>n(+) | A | G|K |
Jede Option wird mit 1 oder 2 Zeichen angegeben, Leerstellen sind nicht erlaubt.
Bedeutung der Optionen
Options- gruppe |
Option | Bedeutung | Beispiel für Lemma Heim |
E|M|L | E | gesuchtes Lemma ist als Erstglied im Kompositum zu finden | Heimarbeit |
M | gesuchtes Lemma ist als Mittelglied im Kompositum zu finden | Altenheimküche | |
L | gesuchtes Lemma ist als Letztglied im Kompositum zu finden | Altenwohnheim | |
Anm.: die Optionsgruppe Position ist fakultativ, es kann nur eine von den drei Optionen angegeben werden. | |||
F(%)(…)(+|-) | F | vor oder nach dem gesuchten Lemma steht ein nicht näher spezifiziertes
Fugen-Element. | Handschuhsheim |
F+ F- | Bei + soll das Fugenelement rechts vom Lemma stehen, bei - links, ansonsten kann das Fugenelement beliebig links oder rechts stehen. | Bsp.: F+ Heimsbrunn Bsp.: F- Handschuhsheim | |
F% | Das % schließt das Vorhandensein eines Fugenelements an der durch weitere Optionen spezifizierten Stelle aus. | Bsp.: F% Heimleiter | |
Fs Fes Fe Fer Fn Fen | Durch eine dieser Optionen in (…) kann das Fugenelement
näher spezifiziert werden: 's', 'es', 'e', 'er', 'n', 'en'. | Bsp.: &Fer&Frau Gespensterfrauen | |
Anm.: die Optionsgruppe Fugenelement ist fakultativ. Sie wird immer von einem 'F' eingeleitet. | |||
<|=|> n(+) | < n | Das Kompositum, in welchem das Lemma vorkommt, zählt höchsten n Glieder (ohne Affixe). | Bsp.: <3 Asylanten'heim |
< n+ | Das Kompositum, in welchem das Lemma vorkommt, zählt höchsten n Glieder und Affixe. | Bsp.: <3+ Asylanten'heim | |
= n | Das Kompositum, in welchem das Lemma vorkommt, zählt genau n Glieder (ohne Affixe). | Bsp.: =3 Heim'weh'kranke | |
= n+ | Das Kompositum, in welchem das Lemma vorkommt, zählt genau n Glieder und Affixe. | Bsp.: =3+ Heim'sekretär'in | |
> n | Das Kompositum, in welchem das Lemma vorkommt, zählt mehr als n Glieder (ohne Affixe). | Bsp.: >3> Eigen'heim'abzugs'betrag | |
> n+ | Das Kompositum, in welchem das Lemma vorkommt, zählt mehr als n Glieder und Affixe. | Bsp.: >3+ Heim'tücke'verordn'ung | |
Anm.: die Optionsgruppe Anzahl ist fakultativ. Es kann nur eine von den drei Optionen <, = und > angegeben werden. | |||
A | A | Alle möglichen Dekompositionen des Kompositums werden herangezogen. Default (ohne A): nur die Dekompositionen mit der höchsten Wahrscheinlichkeit werden berücksichtigt. | - |
Anm.: die Optionsgruppe Dekompositionen ist fakultativ. Der Default wird empfohlen. | |||
G|K | G | es werden nur diejenigen Wortformen angeboten, deren erstes Zeichen
groß geschrieben ist. | Bsp.: &G&traurig Trauriges, Traurigen, etc. |
K | es werden nur diejenigen Wortformen angeboten, deren erstes Zeichen
klein geschrieben ist. | Bsp.: &K&traurig trauriges, traurigen, etc. | |
Anm.: diese Optionsgruppe kann für alle
Lemmata eingesetzt werden, nicht nur für die hier vorgestellte erweiterte
Komposita-Suche. Sie ist fakultativ. Der Default ist weder G noch K und bedeutet, dass sowohl groß- als auch klein geschriebene Wortformen angeboten werden. Empfohlen wird der Default. |
Da für ein Kompositum in der Regel mehrere morphologische Dekompositionen möglich sind, gilt für alle Optionen mit Ausnahme von F% folgendes:
- ein Kompositum wird übernommen, wenn es mindestens 1 Dekomposition gibt, die alle Optionen erfüllt.
- für F% gilt hingegen: ein Kompositum wird dann übernommen, wenn für alle seine Dekompositionen gilt, dass an der spezifizierten Position das angegebene Fugenelement nicht vorkommt.
Beispiele
Die mit den folgenden Suchanfragen gefundenen Komposita varieren, je nach dem ob von den Lemmatisierungsoptionen nur Komposita oder auch sonstige Wortbildungsformen dazugeschaltet ist.
&E&Heim
|
Gesucht werden Komposita mit Heim als Erstglied: Heim, Heimabendgestaltung, etc.
&E>1&Heim
|
Gesucht werden Komposita mit Heim als Erstglied und mindestens zwei Glieder. Dadurch fällt Heim aus der Liste.
&EF+>1&Heim
|
Gesucht werden Komposita mit Heim als Erstglied, mindestens zwei Gliedern und beliebigem Fugenelement rechts von Heim (F+): Heimsgasse, Heimsheim, etc.
&MFn->2&Heim
|
Gesucht werden Komposita mit Heim als Mittelglied, mindestens 3 Gliedern und einem Fugen-n vor Heim (Fn-): Altenheimaufsicht, Familienheimzulage, etc.
&MF%n->2&Heim
|
Gesucht werden Komposita mit Heim als Mittelglied mit mindestens 3 Gliedern (>2), für die gilt: es gibt keine Dekomposition, bei der ein Fugen-n links vor Heim steht (F%n-).
&G&Heim
|
Gesucht werden nur die groß geschriebenen Komposita von Heim.
&K&Heim
|
Gesucht werden nur die klein geschriebenen Komposita von Heim.
Zählweise von Gliedern und Affixen
Die Komposita werden intern von der Lemmatisierungskomponente in ihre morphologischen Bestandteile zerlegt, welche für die Zwecke dieses Moduls in die folgenden Kategorien eingeordnet werden: Lemmata, Affixe, Fugenelemente und Flexionsformen.
Bsp. Abfangwahrscheinlichkeiten (Option sonstige Wortbildungsformen eingeschaltet)
Morphem : | Ab | fang | wahrscheinlich | keit | en |
Lemma : | ab- | Fang | wahrscheinlich | -keit | - |
Funktion : | Affix | Erstglied | Endglied | Affix | Flexion |
Für diese Lemmatisierung werden in COSMAS II 2 Glieder und 2 Affixe gezählt. Fugenelemente und Flexionsformen werden nicht dazu gezählt.
Das derart lemmatisierte Kompositum kann nun in COSMAS II durch die beiden folgenden Suchanfragen gefunden werden, je nachdem, wie gezählt werden soll:
- &=2&Fang: gesucht werden Komposita mit exakt 2 Gliedern.
- &=4+&Fang: gesucht werden Komposita mit exakt 4 Bestandteilen, die sowohl Glieder als auch Affixe sein können.
Wird die erweiterte Option A eingesetzt (= alle Dekompositionen), so werden für selbiges Kompositum weitere tiefergehende Dekompositionen berücksichtigt, wie z.B. die folgende:
Morphem : | Ab | fang | wahr | schein | lich | keit | en |
Lemma : | ab- | fangen | wahr- | scheinen | -lich | -keit | - |
Funktion : | Affix | Erstglied | Affix | Endglied | Affix | Affix | Flexion |
Für diese Dekomposition zählt COSMAS II 2 Glieder und 4 Affixe.
Mehrdeutigkeiten
Wie man dem vorherigen Abschnitt entnehmen kann, werden für die Komposita sehr oft mehrere Dekompositionen berücksichtigt. Je nach Dekomposition ändert sich die Anzahl der Bestandteile oder ihre Funktion.
Bsp.: wahrscheinlich kann von COSMAS II sowohl als selbständiges Glied bzw. Lemma als auch als Komposition von Affix (wahr-) + Lemma (scheine) + Affix (-lich) aufgefasst werden. Siehe dazu die beiden Dekompositionen von Abfangwahrscheinlichkeiten.
Vorteile gegenüber der Platzhaltersuche mit * und +
Die hier vorgestellt Suche nach Komposita mit erweiterten Optionen ist der einfachen Platzhaltersuche auf alle Fälle vorzuziehen. Dieses Modul ist in der Lage, die korrekten Komposita zu finden, in dem es diese auf ihre morphologisch begründete Zerlegungen analysiert, Flexionen berücksichtigt (z.B. &Mann → Männerwelt), Fugenelemente und Flexionsmorpheme erkennt und die Position des gesuchten Lemmas innerhalb der Komposita bestimmt.