[IDS-Logo] [IDS-Logo]
Seite drucken Thema drucken Sitemap Suche Impressum Datenschutz Kontakt
grafische Eingabethemenspezifische FragestellungenWie formuliere ich eine Überlappung von Textbereichen?

Wie formuliere ich eine Überlappung von Textbereichen?

Wir wollen zu diesem Thema präsentieren, wie man mit den Operatoren OV und ABSTAND(...,'w0',...) Überlappungen von Textbereichen formulieren kann und welche Unterschiede zwischen diesen Operatoren bestehen.

1. Überlappungen mit OV und ALL

Ein Beispiel: wir möchten eine Sequenz von 2 Verben und eine Sequenz von 2 Nomen untersuchen, wenn sie sich überlappen. Jede der beiden Sequenzen läßt einen Abstand von mehreren Wörtern zwischen den Verben bzw. den Nomen zu. Ein erster Ansatz könnte wie folgt aussehen:

Q1 = OV(ABSTABD(MORPH(V),'+w1:3,s0',MORPH(V)), '', ABSTAND(MORPH(N),'+w1:3,s0', MORPH(N)))

Wir stossen auf ein erstes Problem: Da ein Verb kein Nomen ist und umgekehrt, haben die beiden zu kombinierenden Sequenzen (in der Folge auch Bereiche genannt) kein gemeinsames Wort. Da aber OV so definiert ist, dass er eine Überlappung nur über gemeinsame Textstellen überprüft, liefert Q1 keine Treffer, so auch den folgenden erhofften Textausschnitt nicht:

»Der vom Helmstedter/N Lauftreff/N veranstaltete/V Silvesterlauf/N erfreut/V sich weiter großer Beliebtheit.«1

Um OV in diesem Fall einsetzen zu können, muss die Suchanfrage wie in Q2 durch Hinzunahme des Operators ALL formuliert werden:

Q2 = OV(ALL(ABSTABD(MORPH(V),'+w1:3,s0',MORPH(V))), '', ALL(ABSTAND(MORPH(N),'+w1:3,s0', MORPH(N))))

Durch den Einsatz von ALL erhält OV die Textbereiche »Helmstedter Laufsteg veranstaltet Silvesterlauf« und »veranstaltete Silversterlauf erfreut« und erkennt, dass beide Sequenzen sich überlappen. Nun erhält man den gewünschten Treffer:

»Der vom Helmstedter/N Lauftreff/N veranstaltete/V Silvesterlauf/N erfreut/V sich weiter großer Beliebtheit.«1

Der Nachteil mit dem Operator ALL besteht darin, dass nicht nur die ursprünglich gesuchten Verben und Nomen hervorgehoben werden, sondern alle Wörter innerhalb der beiden Sequenzen. Im nächsten Textauszug sind die unerwünscht hervorgehobenen Wörter "vorher" und "damit" mit der Farbe ihrer zugehörigen Sequenz ebenfalls markiert:

»Schon stunden/N vorher hatten/V Arbeiter/V damit begonnen/V, in der Donaulände, ... 1

Im nächsten Abschnitt zeigen wird, wie der Operator ABSTAND(..,'w0',...) dieses Problem löst.

2. Überlappungen mit ABSTAND(...,'w0',...)

Eine Alternative zu OV und #AlL bietet der Null-Wortabstand ABSTAND(...,'w0',...), der einfacher zu handhaben ist und Überlappungen von Textbereichen erkennt, die keine gemeinsamen Wörter haben.

Q3 = ABSTAND(ABSTAND(MORPH(V),'+w1:3,s0',MORPH(V)),'w0',ABSTAND(MORPH(N),'+w1:3,s0',MORPH(N)))

2.a Hervorheben der gesuchten Wörter

Hinzu kommt, dass COSMAS II nun in der Lage, nur die gesuchten bzw. gefundenen Wörter (die Verben und Nomen in unserem Beispiel) anzuzeigen:

»Schon stunden/N vorher hatten/V Arbeiter/V damit begonnen/V, in der Donaulände, ... 1

2.b Minimalgruppen

Suchanfrage Q3 liefert korrekterweise auch solche Treffer, die auf den ersten Blick falsch zu sein scheinen:

»Nun ja, und ich sollte/V das Tigerfell/N geben/V, sollte/V Noahs/N Tritte/N kassieren/V und gleich zu Beginn des neuen Jahres am Boden liegen...

Ein solcher Treffer entsteht dann, wenn mehrere Sequenzen von Verben und Nomen sich gemäß der Suchanfrage Q3 kombinieren lassen. COSMAS II fasst sie dann gemäß der Default-Einstellung maximale Gruppenbildung korrekterweise zu 1 Treffer zusammen. In unserem Fall kommt ein solcher Treffer durch das Zusammenfassen der folgenden Sequenzen zusammen:

Sequenz »sollte das Tigerfell geben« überlappt »Tigerfell geben, sollte Noahs« überlappt »sollte Noahs Tritte kassieren« überlappt »Noahs Tritte«.

Will man dies verhindern, muss man in Q3 die minimale Gruppenbildung mittels »,min« angeben, und zwar für alle 3 Abstandsoperatoren:

Q4 = ABSTAND(ABSTAND(MORPH(V),'+w1:3,s0,min',MORPH(V)),'w0,min',ABSTAND(MORPH(N),'+w1:3,s0,min',MORPH(N)))

Suchanfrage Q4 erzeugt nun mehr Treffer bzw. KWIC-Zeilen, weil die gefundenen Sequenzen nicht mehr maximal zusammengefasst werden. Unser obiges Beispiel zerfällt in 4 Treffer:

»Nun ja, und ich sollte/V das Tigerfell/N geben/V, sollte Noahs/N Tritte kassieren und gleich zu Beginn ...

»Nun ja, und ich sollte das Tigerfell/N geben/V, sollte/V Noahs/N Tritte kassieren und gleich zu Beginn ...

»Nun ja, und ich sollte das Tigerfell/N geben, sollte/V Noahs/N Tritte kassieren/V und gleich zu Beginn ...

»Nun ja, und ich sollte das Tigerfell geben, sollte/V Noahs/N Tritte/N kassieren/V und gleich zu Beginn ...


1: Die Unterscheidung der beiden Sequenzen mit blau und rot, die hier zur besseren Veranschaulichung eingesetzt wird, kann von COSMAS II selber nicht vorgenommen werden.

COSMAS II, Zentrale DV-Dienste - 18. 01. 2018