Download pdf - Semantische Erweiterung von Glossareinträgen zur ... · Vorwort i Vorwort Ich möchte mich Vorweg bei Sebastian Meyer, für die gute Unterstützung und die kritischen, aber sogleich

Gottfried Wilhelm Leibniz Universität Hannover

Fakultät für Elektrotechnik und Informatik Institut für Praktische Informatik Fachgebiet Software Engineering

Semantische Erweiterung von Glossareinträgen zur automatisierten Überprüfung der korrekten Benutzung

Bachelorarbeit

im Studiengang Informatik von

Godehard Hecke

Prüfer: Prof. Dr. Kurt Schneider Zweitprüfer: Prof. Dr. Wolfgang Nejdl Betreuer: M. Sc. Sebastian Meyer

Hannover, 06. September 2009

Vorwort

i

Vorwort

Ich möchte mich Vorweg bei Sebastian Meyer, für die gute Unterstützung und die kritischen, aber sogleich produktiven Gespräche bedanken.

Ebenfalls möchte ich mich bei meinen Kommilitonen Dennis, Marvin, Micha, Patrick und Sandra für die vergangenen 6 Semester bedanken, es war eine super Zeit. Besonderer Dank gilt hierbei Marvin und Dennis, die mir besonderes während dieser Arbeit immer mit Rat und Tat zur Seite standen und das ein oder andere Rätsel der deutschen Sprache mit mir gelüftet haben.

Ein Dankeschön geht auch an all meine anderen Freunde. Ihr habt mir immer einen guten Rückhalt und die ein oder andere Zerstreuung in stressigen Zeiten geliefert. Auf euch kann man immer bauen.

Der größte Dank geht jedoch an meine Eltern und meinen Bruder. Ohne euch hätte ich das alles nie erreicht. Ihr habt mir diesen Weg ermöglicht und habt mich jeder Zeit unterstützt und mir auch in schweren Zeiten immer wieder Mut zugesprochen.

Zusammenfassung

ii

Zusammenfassung

Ein herkömmliches Glossar mit einer einfachen Begriffsdefinition der gelisteten Begriffe dient lediglich dem Nachschlagen bei Unklarheit oder Mehrdeutigkeit bezüglich eines im Dokument genutzten Begriffes. Fügt man jedoch der Begriffsdefinition einige semantische Attribute hinzu, so erlauben diese eine Überprüfung des Textes bezüglich eines konsistenten und widerspruchsfreien Gebrauchs dieses Begriffes.

Diese Arbeit beschäftigt sich mit der Auswahl möglicher Attribute und der Erstellung von Verfahren, um diese mit einem gewissen Automatisierungsgrad aus bereits existierenden Datenbeständen zu extrahieren. Anhand der so erstellten Glossareinträge wird im Folgenden untersucht, wie die gewonnenen Attribute genutzt werden können, um mit ihnen den Text zu verifizieren.

Die entwickelten Resultate und Verfahren werden anhand eines Prototypen für das, am Fachgebiet Software Engineering der Leibniz Universität Hannover entwickelte, Programm HeRA umgesetzt und auf ihre Effizienz getestet.

Abstract

A traditional glossary, which contains a simple textual description of the terms within, can only be used to look up for a definition of a term, when there is an ambiguity or an equivocation. If you join a few semantical attributes to the definition of the term, you are able to check the terms in the text for consistency and uniqueness.

This paper is concerned with the selection of attributes and the construction of processes which will be able to extract them automaticly from existing databeases. Later on, it will analyze how the added attributes can be used to verify the text by using these glossary entries.

The evolved results will be tested by implementing a prototype for the program HeRA, which has been developed by the Subject of Software Engineering at the Leibniz University of Hanover.

Inhaltsverzeichnis

iii

Inhaltsverzeichnis

Vorwort i

Zusammenfassung ii

Abstract ii

Inhaltsverzeichnis iii

1 Einführung 11.1 Motivation 11.2 Problemstellung 11.3 Einordnung in das Software Engineering 21.4 Struktur der Arbeit 3

2 Grundlagen 42.1 Glossar 4

2.1.1 Glossareintrag 42.2 Wörterbuch 42.3 Grundformbildung 5

2.3.1 Stemming 52.3.2 Lemmatisierung 62.3.3 Fazit 6

2.4 Stoppwort 62.5 Synonym und Antonym 72.6 Kookkurrenz 72.7 Definitionsattribute 82.8 Negation 92.9 Pronomen 92.10 Wertigkeit 102.11 Heuristic Requirements Assistant (HeRA) 10

2.11.1 Grundaufbau 112.11.2 Glossar-Plugin 112.11.3 Byproduct-Konzept 112.11.4 Feedback-Konzept 12

3 Anforderungen 133.1 Zu berücksichtigende Rollen 133.2 Zu berücksichtigende Faktoren 15

3.2.1 Minimal-inversive Realisierung 153.2.2 Bedienbarkeit 153.2.3 Korrektheit 153.2.4 Sequenzialisierung 153.2.5 Feedback-Konzept 16

4 Aufbau des neuen Glossareintrages 174.1 Begriffsdefinition 174.2 Semantische Attribute zur Begriffserklärung 17

4.2.1 Synonyme 174.2.2 Antonyme 184.2.3 Erlaubte Kookkurrenzen 184.2.4 Verbotene Kookkurrenzen 184.2.5 Definitionsattribute 18

4.3 Umsetzung im Quellcode 19

Inhaltsverzeichnis

iv

5 Methoden zur Gewinnung der Attribute 205.1 Manuelle Eingabe 205.2 Nachschlagen im Wörterschatz 205.3 Extraktion aus der Begriffsdefinition 205.4 Extraktion aus dem Dokument 205.5 Umsetzung im Quellcode 21

5.5.1 Extraktor 21

6 Überprüfung auf konsistenten Gebrauch der Begriffe 226.1 Vorverarbeitung 23

6.1.1 Zerlegen des Textes in Token 236.1.2 Umwandlung des Textes in eine Baumstruktur 256.1.3 Ermittlung der Pronomen 306.1.4 Identifikation von mehrdeutigen Negationen 30

6.2 Überprüfung der Begriffsdefinition 306.3 Überprüfung des Dokuments 316.4 Zu prüfende Eigenschaften 31

6.4.1 Sonderfälle 336.5 Konsistenz & Widerspruchsfreiheit 336.6 Abschlussbericht des Tests 336.7 Umsetzung im Quellcode 33

6.7.1 Verifier 336.7.2 ResultEntry & ResultEntryList 37

7 Realisierung in HeRA 387.1 Vorhandene Funktionen 387.2 Neu zu erstellende Funktionen 38

7.2.1 Erweiterung des Glossareintrages 387.2.2 Präsentation des Ergebnisses 397.2.3 Verwaltung der Begriffslisten für die Verifikation 41

8 Fazit und Ausblick 438.1 Ergebnisbewertung 438.2 Abgrenzung zu anderen Arbeiten 438.3 Ansätze für zukünftige Projekte 44

Abbildungsverzeichnis 45

Literaturverzeichnis 46

Erklärung der Selbstständigkeit 47

1. Einführung

1

1 Einführung

1.1 Motivation

Die beste Definition eines Begriffes nutzt nichts, wenn sich keiner daran hält. Gleiches gilt auch für Glossareinträge. Ein Glossar ist nur dann nützlich, wenn die in ihm deklarierten Begriffe im zugeordneten Text konsistent und entsprechend der Intention des Glossarautors genutzt werden. Eine Verwendung die diese aufweicht oder ihr gar widerspricht ist höchst ineffizient und die aufgebrachte Arbeit, welche in die Erstellung des Glossars geflossen ist, umsonst.

Um der geschilderten Gefahr der Verwässerung von Begriffsdefinitionen durch eine, der Glossarerstellung zeitlich folgende, Bearbeitungen des zugehörigen Dokuments entgegenzuwirken, ist es wichtig, bereits während der Erstellung der Glossareinträge Hilfsmittel bereitzustellen, die eine spätere Überprüfung auf einen konsistenten Gebrauch der Definitionen erleichtern. Dies bedeutet zwar einen Mehraufwand zu Beginn und während der Formulierung des Dokumentes. Dieser Mehraufwand ist jedoch im Verhältnis zu den Kosten, die aus der Korrektur der aus einer Fehlinterpretation resultierenden negativen Konsequenzen für das gesamte Projekt entstehen, in den meisten Fällen vernachlässigbar.

1.2 Problemstellung

Die vorliegende Arbeit beschäftigt sich mit Glossaren, wobei der Fokus auf den einzelnen Glossareinträgen liegt. Dabei wird untersucht, welche semantischen Attribute zusätzlich zur Begriffserklärung notwendig sind, um im Anschluss an die Erstellung des Glossars die Verwendung des Begriffs im Dokument mit der im Glossar hinterlegten Definition zu verifizieren. Überdies wird betrachtet, in wieweit es möglich ist, diese Attribute automatisch aus vorhandenen Datenbeständen zu extrahieren.

Resultierend aus diesen Erkenntnissen wird ein Prototyp als Erweiterung für den am Fachgebiet Software Engineering entwickelten "Heuristic Requirements Assistant" (HeRA) implementiert. Dieser besitzt bereits ein Plugin zur Erstellung von Glossaren. Jedoch bestehen die damit angelegten Glossareinträge lediglich aus dem zu erläuternden Begriff und einer zugehörigen Definition. Somit benutzt diese Arbeit die Erkenntnisse und Resultate, der dem Plugin zugrundeliegenden Masterarbeit von Sebastian Meyer und entwickelt diese bezüglich des oben genannten Schwerpunktes weiter. Abbildung 1.1 zeigt, wie sich der Prototyp in die bestehende HeRA-Struktur einfügt.

1. Einführung

2

1.3 Einordnung in das Software Engineering

Glossare und die zugehörigen Dokumente werden bevorzugt in der Anforderungsphase erhoben. Sie haben jedoch während des gesamten Projekts Bestand und werden zum Teil sogar über das Projekt hinaus als Informationsbasis genutzt. Somit steht die Erstellung und Bearbeitung der Dokumente im Mittelpunkt der ersten Phasen. In den späteren Phasen dienen sie zum Nachschlagen/ -lesen sowie zur Verifizierung und Validierung der bereits geleisteten Arbeit.

Glossar

Plugin

Hinzufügen der Attribute

Vorschläge mittels

Leipziger Wortschatzes

Eintrag via Vorschlags-

liste

Eintrag via Projektbaum

Eintrag via Kontextmenu

Glossar-eintrag ohne Beschreibung

Manuelle Eingabe

Vorschläge mittels Kontext

Begriffs-definitioneinfügen

Test des Textes auf Attribute

Vorschlags- liste

Internet

Text

FertigeEinträge

Abbildung 1.1: Aufbau des Prototypen und Position in HeRA.

1. Einführung

3

1.4 Struktur der Arbeit

Im 2. Kapitel werden die für diese Arbeit grundlegenden Begriffe und Methoden erläutert.

In Kapitel 3 werden die Anforderungen an den zu erstellenden Prototypen abgehandelt. Dazu werden die einzelnen Nutzergruppen von HeRA identifiziert und deren Bedürfnisse ermittelt.

Das 4. Kapitel beschäftigt sich mit den verschiedenen Klassen von Attributen durch welche die Begriffserklärung erweitert wird. Dabei werden mögliche Nutzen sowie mögliche Probleme behandelt.

Im Verlauf des 5. Kapitels werden mögliche Verfahren zur Gewinnung dieser Attribute untersucht werden. Auch hier werden wiederum Vor- und Nachteile der einzelnen Verfahren aufgezeigt.

Kapitel 6 steht im Zeichen der Verifizierung des Dokumentes in Bezug auf den konsistenten und widerspruchsfreien Gebrauch der im Glossar hinterlegten Begriffe. Dabei werden die hierfür notwendigen Verfahren erläutert.

Das 7 Kapitel beschreibt die Umsetzung und Integration des Prototypen in HeRA und begründet gegebenenfalls notwendige Anpassungen in der bestehenden Softwarestruktur.

Zum Ende dieser Arbeit wird in Kapitel 8 ein umfassendes Fazit gezogen und ein Ausblick auf mögliche weiterführende Arbeiten gegeben.

Abbildung 1.2: Das Referenzmodell Anforderung und Entwurf nach [Schneider].

2. Grundlagen

4

2 Grundlagen

In diesem Kapitel werden einige für das Verständnis wichtige Begriffe sowie Methoden dargestellt und erläutert.

2.1 Glossar

Definition:

„Wörterverzeichnis [mit Erklärungen]“

Duden - Das Fremdwörterbuch, 8. Aufl. Mannheim 2005

Ein Glossar ist ein vom Autor eines (Fach-)Textes erstelltes Verzeichnis der verwendeten Wörter, die zum eindeutigen Verständnis einer Definition nötig sind. Mittels dieses Verzeichnisses ist es möglich, die genutzten Wörter für das zugrunde liegende Dokument eindeutig zu definieren und so Missverständnisse zu beseitigen. Dabei erfolgt die Festlegung der Definition in Abstimmung mit allen Beteiligten. Somit ist jedem Leser klar, in welchen Kontext er das Wort einordnen muss. Außerdem dient der Eintrag als Referenz für die korrekte Verwendung des Wortes.

2.1.1 Glossareintrag

Einen einzelnen Eintrag in einem Glossar bezeichnet man als Glossareintrag, welcher in den meisten Fällen aus dem zu erklärenden Begriff und einer kurzen aber klaren Definition desselben mittels natürlich-sprachlichem Text besteht. Dabei sollte beachtet werden, dass für die Definition eine möglichst einfache, von neuen erläuterungsbedürftigen Wörtern freie, Form genutzt wird.

2.2 Wörterbuch

Die Abgrenzung zwischen einem Wörterbuch und einem Glossar besteht im Umfang der gespeicherten Wörter und dem Fakt, dass, im Gegensatz zum Glossar, ein Wörterbuch keine Beschreibung der einzelnen Wörter beinhaltet. Somit ergibt sich für den Rahmen dieser Arbeit folgende Definition.

Definition:

„Nachschlagewerk, in dem alle Wörter einer Sprache, ohne Erläuterung der gleichen, verzeichnet sind.“

Es gibt zwei Arten von Wörterbüchern:

Ein Vollformenlexikon beinhaltet jedes Wort mit allen möglichen Flexionen und Ableitungen. Um ein Wort nachzuschlagen, reicht es aus, durch einfache Zeichenvergleiche das entsprechende Wort zu suchen.

2. Grundlagen

5

Grundformenlexika hingegen beinhalten lediglich die Grundformen der Wörter einer Sprache. Will man ein Wort nachschlagen, so muss zuerst mittels der integrierten morphologischen Regeln eine mögliche Grundform erzeugt und diese dann ebenfalls mittels Zeichenvergleichs im Lexikon gesucht werden.

Auf Grund der Tatsache, dass ein Vollformenlexikon alle möglichen Formen eines Wortes beinhaltet, ist es logischerweise erheblich größer als ein entsprechendes Grundformenlexikon derselben Sprache. Dafür ist die Suche weit aus effizienter, da keine Vorverarbeitung der Wörter von Nöten ist.

2.3 Grundformbildung

Um automatisiert Wörter einer bestimmten Wortfamilie zuordnen zu können, ist es notwendig, deren Grundform, auch Infinitiv genannt, zu bilden. Denn während der Mensch meist schon durch bloße Betrachtung zweier Wörter erkennt, ob sie zu der gleichen Familie gehören, scheitert ein Computer bereits bei Wörtern, die sich lediglich in der Endung unterscheiden. Eine mögliche Lösung für dieses Problem ist die Grundformbildung. Sie beschreibt verschiedene Methoden, um ein Wort auf den gemeinsamen Wortstamm der Familie zu reduzieren. Beachtet man beim Speichern der Attribute im Glossareintrag, dass immer die Grundform eines Wortes aufgenommen wird, so vermeidet dies das erneute Speichern von Attributen, die der selben Wortfamilie entstammen, sich jedoch in der Syntax unterscheiden.

2.3.1 Stemming

Unter Stemming versteht man das Entfernen des Suffixes eines Wortes unter Zuhilfenahme von Heuristiken. Man hofft durch entsprechende Regeln, die auf dem linguistischen Wissen über die entsprechende Sprache basieren, von der Flexion auf den Wortstamm zu schließen. Die jeweiligen Heuristiken sind sprachabhängig. Dies kann bei Texten mit hohem Fremdwörteranteil zu Problemen führen, da diese nicht notwendigerweise den Regeln der Dokumentensprache folgen.

Die meisten Stemmingverfahren beinhalten Heuristiken für flektierte und abgeleitete Wörter. Einer der bekanntesten Algorithmen für englische Wörter ist der von Martin Porter entwickelte und nach ihm benannte Porter-Algorithmus, bei dem phasenweise einzelne Suffixe entfernt werden.

Das größte Problem beim Stemming ist die Erzeugung falscher oder nicht existierender Wortstämme (over- und understemming). Hinzu kommt, dass es auf Grund der morphologischen Regeln für die Konjunktion und die Deklination für die deutsche Sprache nicht geeignet ist. Aber auch die Präfixbildung und das Vorhandensein von zusammengesetzten Wörtern erschweren den Einsatz von Stemmingalgorithmen im Deutschen.

Die Qualität eines Stemmingverfahrens erschließt sich aus der Qualität der zugrundeliegenden Heuristiken. Im Idealfall hat man für jede Wortform eine passende Heuristik. Auf Grund der Vielzahl an Wörtern einer Sprache kann dieser Zustand jedoch nie erreicht werden.

2. Grundlagen

6

2.3.2 Lemmatisierung

Die Lemmatisierung beschreibt das Zurückführen eines Wortes auf seinen Wortstamm durch das Nachschlagen in einem elektronischen Wörterbuch. Im Grunde sind beide Arten von Wörterbüchern zur Grundformbildung geeignet, jedoch empfiehlt sich ein Grundformenlexikon, da dieses wie bereits erläutert weniger Speicherplatz bedarf, dennoch aber gute Resultate liefert. Dieser Aspekt ist besonders wichtig, wenn der zu bearbeitende Text auf mehr als eine Sprache zurückgreift und somit für die Lemmatisierung mehrere Wörterbücher zur Verfügung gestellt werden müssen.

Das größte Manko der Lemmatisierung ist der Umfang der Lexika und der damit verbundene Aufwand bezüglich der Erstellung und Wartung. Hinzu kommt noch die Tatsache, dass es selbst für eine einzelne Sprache mit all ihren Eigenwörtern und Fachbegriffen unmöglich ist, ein vollständiges Wörterbuch zu erstellen. Außerdem besteht die Gefahr, bei Wörtern mit übereinstimmender Flexion auf die falsche Grundform zu schließen.

Somit lässt sich ein kausaler Zusammenhang zwischen der Qualität der Lemmatisierung und der Größe der im Wörterbuch gespeicherten Teilmenge im Vergleich zur Menge aller existierenden Wörter erkennen. Je geringer die Differenz beider Mengen, desto besser die Grundformbildung.

2.3.3 Fazit

Vergleicht man die beiden oben vorgestellten Verfahren der Grundformbildung miteinander, so erweist sich die Lemmatisierung als die besser geeignete Methode. Dieses Verfahren erfordert zwar die Bereitstellung eines umfangreichen Wörterbuchs, jedoch existieren davon bereits offene und kostenfreie Exemplare. Der wichtigste Vorteil gegenüber dem Stemming ist jedoch die Sprachunabhängigkeit des Verfahrens, da lediglich ein Wörterbuch der entsprechenden Sprache vorhanden sein muss. Dieses ist weitaus einfacher zu erstellen und zu verwalten als die Vielzahl von Heuristiken, die für ein effektives Stemmingverfahren vonnöten wären. Ebenso kann die Qualität eines Wörterbuchs besser kontrolliert werden, als dies bei Heuristiken möglich ist. Ein weiteres Argument für die Lemmatisierung ist die bereits vorhandene Realisierung im Glossar-Plugin.

2.4 Stoppwort

Stoppwörter sind Wörter, die der Verbindung von Wörtern oder Sätzen dienen. Daher kommen sie häufig in Sätzen vor, tragen jedoch bei einer Suche oder Kontextüberprüfung nicht wesentlich zur Erhöhung des Informationsgehaltes eines Textes bei. In der deutschen Sprache zählt man zu den Stoppwörtern (un-)bestimmte Artikel (der, die, das, ein, einer, eine), Konjunktionen (z.B. und, oder, doch) und Präpositionen (z.B. an, in von) sowie Negationen (nicht). Fasst man die Definition gröber, so gehören auch Satzzeichen in diese Gruppe von Wörtern.

2. Grundlagen

7

2.5 Synonym und Antonym

Oftmals kommt es vor, dass ein Wort einer Sprache durch eine anderes ersetzt werden kann, ohne dass sich die Bedeutung oder der Sinn des Satzes grundlegend verändert. Wörter, die sinnerhaltend durch einander ersetzt werden können, werden Synonyme genannt. Für diese soll die folgende Definition gelten:

Definition (Synonym):

„Wort, das einem oder mehreren anderen der Bedeutung nach gleich oder ähnlich ist (sodass beide in einem bestimmten Zusammenhang ausgetauscht werden können).“

Duden - Das Bedeutungswörterbuch, 3. Aufl. Mannheim 2002

Beispiel:

minderwertig wertlos, schlecht, mies, ...

Würde man in einem Satz das Wort „minderwertig“ durch „wertlos“ oder „schlecht“ ersetzen, so würde sich der Sinn des Satzes nicht verändern.

Gegensätzlich zu den oben definierten Synonymen existieren Wortmengen, die eine gegensätzliche Bedeutung haben. Diese werden Antonyme genannt.

Definition (Antonym):

„Wort, das einem anderen in Bezug auf die Bedeutung entgegengesetzt ist.“


Beispiel:

minderwertig überlegen, hochwertig, ...

Ersetzt man das Vorkommen des Wortes „minderwertig“ jedoch durch „gut“, so würde sich die Aussage ins Gegenteil umkehren.

2.6 Kookkurrenz

Definition (Kookkurrenz):

„ Das Miteinandervorkommen sprachlicher Einheiten in derselben Umgebung (z.B. im Satz).“


2. Grundlagen

8

Beispiel (Kookkurrenzen):

minderwertig und Qualität

Das Wort „minderwertig“ kommt im Deutschen häufig im gleichen Kontext wie das Wort „Qualität“ vor.

Definition (Kollokation):

„... charakteristische, häufig auftretende Wortverbindungen, deren gemeinsames Vorkommen auf einer Regelhaftigkeit gegenseitiger Erwartbarkeit beruht, ...

Hadumod Bußmann – Lexikon der Sprachwissenschaft, 3. Aufl. Stuttgart 2002

Ein Sonderfall der Kookkurrenzen sind Kollokationen. Hierbei lässt sich aus dem Auftreten eines Wortes im Satz schließen, dass mit großer Wahrscheinlichkeit auch das andere im selben Satz vorkommt.

Beispiel (Kollokation):

Hund : bellen

Kommt in einem deutschen Texten das Wort „Hund“ vor, so erhöht sich die Wahrscheinlichkeit, dass auch das Wort „bellen“ im gleichen Satz vorkommt.

2.7 Definitionsattribute

Definition:

„Für eine Begriffsdefinition wichtige Wörter. Sie beinhalten die eigentliche Aussage der Definition.“

Während die Bindewörter nur dafür da sind, die einzelnen Definitionsattribute zu verbinden und somit den eigentlichen Satz zu bilden, sind die Definitionsattribute die Träger der eigentlichen Information eines Satzes oder einer Aussage. Tauscht man sie aus, so kann sich die Bedeutung ändern, verändert man die Bindewörter, so ändert sich lediglich der Satzaufbau, nicht aber seine Aussage. Ob ein Definitionsattribut positiv oder negativ zu bewerten ist, entscheidet gegebenenfalls eine vorhergehende Negation.

2. Grundlagen

9

2.8 Negation

Definition:

„Wort, das eine Verneinung ausdrückt.“

Duden - Deutsches Universalwörterbuch, 5. Aufl. Mannheim 2003

Negationen sind also Wörter wie „nicht“, „kein“ oder „nie“. Stehen sie vor einer Aussage oder einem Begriff, so wird sein Bedeutung umgekehrt. Aus einer positiven Aussage wird somit eine negative. In dieser Arbeit wird zwischen den Begriffen Negation und negierter Begriff unterschieden. Eine Negation meint das negierende Wort selbst, negierter Begriff hingegen steht für einen Glossarbegriff, vor dem eine Negation steht.

2.9 Pronomen

Definition (Pronomen):

„Wort, das für ein Nomen anstelle eines Nomens steht; Fürwort“


Definition (Relativpronomen):

„Das Relativpronomen (bezügliches Fürwort) ist ein Pronomen, das einen Nebensatz einleitet und ihn auf ein oder mehrere Substantive (Pronomen) des übergeordneten Satzes bezieht“

Duden - Richtiges und gutes Deutsch, 5. Aufl. Mannheim 2001

Definition (Demonstrativpronomen):

„Pronomen, das auf ein oder mehrere bestimmte Exemplare einer durch ein Wort benannten Klasse von Personen, Gegenständen oder Sachverhalten hinweist; hinweisendes Fürwort.“

Gerhard Wahring - Fremdwörter Lexikon, Gütersloh 1975

Beginnt ein Satz mit einem Relativ- oder Demonstrativpronomen, so ist klar, dass sich die Aussage des folgenden Teilsatzes auf ein Nomen des vorherigen Teilsatze bezieht.

2. Grundlagen

10

2.10 Wertigkeit

Definition:

„Gibt an, ob ein Wort positiv oder negativ zu bewerten ist. Steht vor dem Wort eine Negation, so ist es negativ, sonst ist es positiv.“

2.11 Heuristic Requirements Assistant (HeRA)

Die Abkürzung HeRA steht für Heuristic Requirements Assistant und ist der Name eines an der Leibniz Universität Hannover am Fachbereich Software Engineering entwickelten Programms. Dieses Programm unterstützt die Erstellung von Anforderungsdokumenten und ist mittels Plugin um neue Funktionen erweiterbar.

Abbildung 2.1: Oberflache von HeRA.

2. Grundlagen

11

2.11.1 Grundaufbau

Abbildung 2.1 zeigt die Oberfläche von HeRA. Diese ist in 5 in der Größe variable Bereiche eingeteilt:

Der mit I markierte Bereich ist der Projektbaum. In ihm werden alle Dokumente des Projektes aufgelistet. Es können neue Dokumente angelegt und bestehende gelöscht werden.

Der Bearbeitungsbereich, hier mit II markiert, zeigt das Dokument, welches aktuell bearbeitet wird. Je nach Dokumenttyp stehen verschiedenen Editoren zur Verfügung.

Bereich III beinhaltet die ProblemView. Sie macht den Benutzer auf projektweite Fehler aufmerksam und verweist auf die entsprechende Position im Dokument.

Der Simulationsbereich (IV) bietet Platz für verschiedenste Zusatzfunktionen durch eingebundene Plugins. Ein Beispiel hierfür ist die Visualisierung von Use Cases durch eine dem UML-Standard nahekommende Darstellung. Dieser Bereich wird im Folgenden auch durch das Glossar-Plugin genutzt. Dabei kann der Anwender mittels Reiter zwischen den einzelnen Ansichten wählen.

Im Bereich V befindet sich der Assistent. Er unterstützt den Nutzer indem er Tipps, Warnungen und Fehler anzeigt. Die gezeigten Meldungen können durch den Nutzer kommentiert und somit bewertet werden. Auch das Ignorieren ist möglich.

2.11.2 Glossar-Plugin

HeRA ist so konstruiert, dass es Erweiterungen mittels Plugins zulässt. Eines dieser Plugins ist das Glossar-Plugin, welches im Verlauf dieser Arbeit weiterentwickelt und für die Textverifikation angepasst werden soll.

Mit Hilfe dieses Plugins kann der Verfasser eines Anforderungsdokumentes ein zum Dokument passendes Glossar erstellen. Dabei werden ihm in einer Vorschlagsliste mögliche Begriffe zur Aufnahme in das Glossar vorgeschlagen. Aber auch eine manuelle Eingabe über das Kontextmenü eines Wortes oder den Projektbaum ist möglich. Jeder einzelne Eintrag besteht aus dem zu erklärenden Begriff und der entsprechenden Beschreibung des gleichen. Dabei ist es nicht zwingend notwendig, die Beschreibung im Augenblick der Aufnahme einzutragen, dies kann auch zeitlich versetzt geschehen. Alle im Glossar deklarierten Begriffe werden im Dokument durch eine blaue Wellenlinie kenntlich gemacht, sodass erkennbar wird, dass ein Wort im Glossar enthalten ist und bei Bedarf nachgeschlagen werden kann.

Das Plugin verfügt über einen konfigurierbaren Filter, der es dem Anwender erlaubt, eigene Regeln für die zu extrahierenden Worte zu erstellen. Dieser Filter wird genutzt, um beispielsweise das Vorkommen von Stoppwörtern in der Vorschlagsliste zu meiden.

2.11.3 Byproduct-Konzept

Unter dem Byproduct-Konzept versteht man die Realisierung einer Sonderfunktion, die nicht direkt mit der eigentlichen Aufgabe des Anwenders zu tun hat. Dabei ist zu beachten, dass diese Realisierung so zu geschehen hat, dass der eigentliche Arbeitsablauf durch die Sonderfunktion nicht gestört wird. Dieses Konzept beschreibt die Nutzung von Daten, die bei der eigentlichen Tätigkeit anfallen und im Hintergrund für andere Aufgaben genutzt werden.

2. Grundlagen

12

Bei der Umsetzung des Glossar-Plugins wird dieses Konzept derart berücksichtigt, dass die Vorschlagsliste nicht als automatisch angezeigtes Popup-Fenster implementiert wurde, sondern als neue Ansicht in der bestehenden Struktur der Programmoberfläche. Somit ist gewährleistet, dass der Anwender nur im Falle eigenen Interesses diese Liste wahrnimmt.

2.11.4 Feedback-Konzept

Mit dem Feedback-Konzept wird dem Nutzer eine Rückmeldung über den aktuellen Zustand seiner Arbeit geliefert, somit ist er jederzeit in der Lage, die Qualität zu beurteilen und die gegebenenfalls daraus resultierenden Maßnahmen zur Verbesserung einzuleiten. Ein Programm, in dem dieses Konzept eingebunden ist, erlaubt es, dem Anwender bereits frühzeitig auf Probleme und Fehler hinzuweisen. In HeRa kommt dieses in der ProblemView und dem Assistenten zum Einsatz.

3. Anforderungen

13

3 Anforderungen

Im Folgenden werden die wichtigsten Anforderungen an den zu implementierenden Prototypen betrachtet und bewertet. Dazu werden die verschiedenen Nutzer erfasst und nach ihren Aufgaben in Gruppen zusammengefasst. Im Anschluss daran werden zusätzlich technische Anforderungen an die Implementierung des Konzepts behandelt. Diese ergeben sich zu einem großen Teil durch die Motivation, den Prototypen als Plugin für HeRA zu realisieren.

3.1 Zu berücksichtigende Rollen

Im Zuge der Erstellung des Prototypen sind die folgenden Rollen und deren Interessen zu beachten. Sie kommen bei ihrer Aufgabenerfüllung direkt mit dessen Funktionalität in Kontakt oder profitieren zumindest indirekt von dessen Ergebnissen. Es ist zu klären, wie weit sie durch die neu zu realisierenden Funktionen von ihrer eigentlichen Aufgaben abgehalten werden und wie diese Störungen minimiert werden können.

Glossarautor

Der Glossarautor ist für die Erstellung, Erweiterung und die Wartung des Glossars zuständig. Seine Aufgabe ist es, dafür zu sorgen, dass die Einträge vollständig und inhaltlich richtig sind. Es kann davon ausgegangen werden, dass er seine Arbeit unabhängig von der Bearbeitung des Dokumentes durchführt und somit die Verwaltung der Begriffe und ihrer Attribute im Vordergrund stehen.

Für ihn ist es wichtig, eine möglichst detaillierte und leicht zu überblickende Ansicht der einzelnen Begriffe zu haben.

Um den Nutzen und das Vorhandensein des Glossar zu rechtfertigen, hat der Glossarautor von allen Nutzern das größte Interesse daran, dass die Begriffe des Glossars entsprechend ihrer Definition auch im Dokument genutzt werden und nicht schlicht ignoriert bzw. übergangen werden. Somit ist er ein potentieller Anwender der Textverifikation durch die im Glossar gehaltenen Attribute.

Verfasser bzw. Bearbeiter des Dokuments

Für die Bearbeitung des Dokumentes spielt das Glossar zunächst eine nebensächliche Rolle, da das primäre Augenmerk auf dem Verfassen des Dokumentes liegt und nicht bei der Pflege der Glossarstruktur. Nur im Falle des Auftretens eines strittigen Begriffes, bei dem die Gefahr der Missdeutung besteht, rückt das Glossar in den Vordergrund des Interesses. Denn es ist sein Anliegen, dass alle am Projekt Mitwirkenden, die somit Konsumenten des zu erstellenden Dokuments sind, über einen gemeinsamen Begriffshorizont mit einheitlichen Definitionen verfügen. Um eine Missdeutung zu verhindern, muss er die Bearbeitung des Textes unterbrechen und den entsprechenden Begriff dem Glossar hinzufügen. Da dies aber nicht seine eigentliche Aufgabe ist, muss dies schnellstmöglich und ohne große Umwege geschehen.

3. Anforderungen

14

Ebendaher ist es wichtig, dass sämtliche Funktionen platzsparend und ohne große Störeffekte realisiert werden, jedoch bei Bedarf übersichtlich und informativ genug sind. So ist gewährleistet, dass der Anwender bequem damit interagieren kann und nicht durch die Komplexität des Programms überfordert ist und Abstand zu diesem nimmt.

Sollte ein Dokument von mehr als nur einem Autor bearbeitet werden, so haben die einzelnen Autoren ein Interesse daran, dass von ihnen eingeführte Begriffe auch von Anderen in ihrem Sinne genutzt werden. Dies hätte zur Folge, dass auch sie für die Benutzung einer Textverifikation in Frage kämen.

Leser des Dokuments

Der Tatsache, dass die Leser des Dokuments mit der Erstellung des gleichen nichts zu tun haben, ist es geschuldet, dass sie weder eine falsche Begriffsverwendung in den Text einbauen, noch das Glossar verändern. Sie wollen nur ihre eigenen Wissenslücken füllen und für sie unklare Begriffe nachschlagen. Somit haben sie weder mit dem Aufstellen einer Begriffsdefinition noch mit der Auswahl signifikanter Attribute zu tun. Auch werden sie kaum auf die Idee kommen, das Dokument gezielt auf Inkonsistenzen bezüglich der Definitionen im Glossar zu überprüfen. Allerdings ist davon auszugehen, dass sie ein Interesse an ihrer Vermeidung haben. Daher fallen sie für die Durchführung einer Überprüfung außer Betracht.

Infolgedessen ist es auch ihm wichtig das er beim Lesen nicht gestört oder abgelenkt wird.

GlossarDokument

Textlesen

Eintragerstellen/

bearbeiten

Leser

Glossar Autor

Doku. Autor

Textbearbeiten

Eintrageinsehen

Text verifizieren

Abbildung 3.1: Übersicht über die einzelnen Nutzer und ihre Hauptaufgaben in zeitlicher Abfolge.

3. Anforderungen

15

3.2 Zu berücksichtigende Faktoren

Abbildung 3.1 zeigt welche Tätigkeiten die einzelnen Rollen vorwiegend durchführen und in welcher Reihenfolge sie dies tun. Es ist zu erkennen, dass abgesehen vom Glossarautor alle Benutzer erst das Dokument und nur bei Bedarf das Glossar verwenden. Die Verifizierung des Dokuments mit Hilfe des Glossars ist als gesonderte Aufgabe zu betrachten, ihre Durchführung steht am Ende eines Bearbeitungsdurchgangs und nicht wie die Glossarbearbeitung inmitten der Textbearbeitung.

3.2.1 Minimal-inversive Realisierung

Um die bestehende Struktur von HeRA nicht übermäßig zu beschädigen, soll die Realisierung des Prototypen mit möglichst wenigen und wenn nur geringen Veränderungen im Kern von Hera auskommen. Eine Anpassung des Glossar-Plugins hingegen ist unvermeidbar, denn es bildet die Grundlage für die meisten notwendigen Änderungen.

3.2.2 Bedienbarkeit

Obwohl die Nutzer von HeRA und damit auch des Prototypen fachlich versierte und mit dem Umgang von Entwicklungstools vertraute Personen sind, ist besonders auf die Bedienbarkeit zu achten. Der Anwender muss sich schnell in der veränderten Umgebung zurechtfinden und die einzelnen Funktionen ohne große Umstände verstehen und bedienen können. Eine benutzerunfreundliche Realisierung würde negative Konsequenzen haben und die Arbeit des Nutzers behindern. Dies wiederum würde zu einer Ablehnung des Prototypen führen. Denn egal wie qualitativ gut ein Tool ist, so wird es doch nie eingesetzt werden, wenn die Bedienung einen zu großen Aufwand für den Nutzer bedeutet.

3.2.3 Korrektheit

Ähnlich wie die Bedienbarkeit ist auch die Zuverlässigkeit ein wichtiger Aspekt für eine qualitativ hochwertige Realisierung des Prototypen. Die Resultate der Textverifikation müssen den Erwartungen des Anwenders entsprechen und dürfen im schlechtesten Fall eine Benutzereingabe erfordern. Sie sollten jedoch keine falschen Ergebnisse liefern. Im Falle einer Benutzereingabe soll dies über eine Anzeige im Simulationsbereich geschehen.

3.2.4 Sequenzialisierung

Es kann davon ausgegangen werden, dass die Verifizierung des Textes zeitlich nach der Textbearbeitung und einer möglichen Anpassung des Glossars durchgeführt wird. Dies begründet sich auf der Tatsache, dass die Textverifizierung ein abschließender Test des Dokumentes ist und sich somit eine Überprüfung während der Bearbeitung jeglichem Sinn entbehrt. Dies hat zum Resultat, dass eine Berücksichtigung des Byproduct-Konzeptes bei der Umsetzung der Textverifikation außer Frage steht.

3. Anforderungen

16

3.2.5 Feedback-Konzept

Der Prototyp soll während seines Einsatzes dem Nutzer Rückmeldung über die verrichtete Arbeit geben. So macht es zum Einen Sinn, die Eingabe der Attribute in die Attributliste mittels Vorschlägen zu unterstützen und zum Anderen am Ende der Textverifizierung das Ergebnis dem Nutzer visuell zu präsentieren. Das heißt bei einer erfolgreichen Überprüfung sollte es ein Okay geben und bei Inkonsistenzen eine Auflistung der Verstöße. Alle diese Rückmeldungen des Systems sollen mit Hilfe der Overview in HeRA realisiert werden.

4. Aufbau des neuen Glossareintrages

17

4 Aufbau des neuen Glossareintrages

Dieses Kapitel beschäftigt sich mit den Attributen, die zu einem Glossareintrag zusätzlich gespeichert werden müssen, um diese für die Textverifikation nutzen zu können. Die im Folgenden aufgeführten Attributklassen sind nicht vollständig. Es wurde, unter anderem aus Zeitgründen, insbesondere auf solche Klassen verzichtet, die für einen Abgleich mit einem Text nicht geeignet sind oder deren Erfassung mit unverhältnismäßig hohem Aufwand verbunden ist. Auch auf die Benennung von Klassen, die einer anderen untergeordnet sind, wird verzichtet. Dies sind beispielsweise Ober- und Unterklassen sowie Kollokationen, die als Sonderfälle der Kookkurrenzen einzuordnen sind.

Für die Standardaufgabe des Glossars, dem Nachschlagen einer Begriffsdefinition, wird weiterhin die Begriffsdefinition im Fokus des Nachschlagenden stehen. Lediglich für den interessierten Nutzer und natürlich den Verfasser eines neuen Eintrages ist eine optische Präsenz der neu zu integrierenden Attribute von Interesse.

4.1 Begriffsdefinition

Die bereits im Glossar-Plugin realisierte Begriffsdefinition der im Glossar aufgeführten Begriffe ist die für den Leser eines Dokumentes wichtigste Information. Mit Hilfe der Beschreibung erlangt er im Idealfall eine eindeutige und für die das Dokument betreffende Domäne passende Definition. Somit sind Missverständnisse von dieser Seite her weitestgehend ausgeschlossen. Die Begriffsdefinition speichert einen natürlich-sprachlichen Text und unterliegt keinen Regeln.

4.2 Semantische Attribute zur Begriffserklärung

Die bestehenden Glossareinträge werden um sechs Attribute ergänzt. Treten sie im Kontext eines Glossarbegriffes auf, so kann mit ihrer Hilfe eine Aussage über die Konsistenz der Begriffsverwendung getätigt werden. Die sechs Attribute sind dabei in drei positive und drei negative eingeteilt. Die positiven erhöhen dabei die Qualität des Textes, negative weisen hingegen auf einen falschen Gebrauch des Begriffes hin. Kommen sie in einem Satzteil zusammen mit einer Negation vor, so ändert sich ihre Wertigkeit. Die Attribute können genau wie die Glossarbegriffe aus einem oder mehreren Wörtern bestehen.

4.2.1 Synonyme

Die zu einem Begriff gespeicherten Synonyme eignen sich hervorragend, um neben den Flexionen des Grundwortes auch das Vorkommen von bedeutungsgleichen Wörtern im Text zu überprüfen. Denn neben dem eigentlichen Begriff sollten auch seine Synonyme konsistent genutzt werden und mit der Definition einhergehen.

Ein möglicherweise auftretendes Problem könnten Synonymen sein, die beim Einsatz in bestimmten Domänen plötzlich die Bedeutung eines Satzes verändern, obwohl die Wörter an sich das Gleiche meinen.

Des Weiteren könnten die aufgenommenen Synonyme wie der eigentliche Begriff als Schlüssel zum Nachschlagen im Glossar genutzt werden. Somit kann dem Leser


18

nicht nur der eigentliche Begriff im Text als Link markiert werden, sondern auch dessen Synonyme.

4.2.2 Antonyme

Im Gegensatz zu den Synonymen dürfen die zu einem Glossareintrag gespeicherten Antonyme nicht mit der gleichen Definition genutzt werden. Denn sonst wäre für den unwissenden Leser nicht mehr ersichtlich, welche der beiden Definitionen nun die Richtige und welche die Falsche ist.

Dabei reicht es jedoch nicht, nur darauf zu achten, dass die entsprechenden Antonyme im Dokument nicht vorkommen. Denn eine denkbare und auch korrekte Nutzung von Antonymen ist eine Definition durch das Nennen von Negativbeispielen, um die Grenzen eines Begriffes deutlich zu machen.

4.2.3 Erlaubte Kookkurrenzen

Die erlaubten Kookkurrenzen dienen als Anhaltspunkte für die richtige Nutzung der Begriffe. Hält man sich dabei an die vorgegebenen Worte und verbindet sie zu einem Text, so kann davon ausgegangen werden, dass zumindest die grobe Aussage des Textes mit der Definition des Begriffes übereinstimmt.

Problematisch ist jedoch die Abgrenzung zwischen den Kontextbereichen von zwei oder mehr Begriffen. Daher ist zu klären, wie man die Größe des Kontextes für die Kookkurrenzen wählt. Der kleinstmögliche Kontext wäre dabei der Satz in dem der Begriff erwähnt wird, der größtmögliche wäre der gesamte Text. Die sinnvollste Lösung liegt in der Mitte und begrenzt den Kontext auf einige Sätze bzw. auf einen Absatz.

4.2.4 Verbotene Kookkurrenzen

Mittels verbotener Kookkurrenzen erhält man eine Menge von Wörtern, die im Gegensatz zu den erlaubten bei der Verwendung der Begriffe nicht genutzt werden dürfen. Kommen sie im Kontext vor, so kann davon ausgegangen werden, dass der Begriff zumindest nicht in totaler Übereinstimmung mit der Definition verwendet wird.

Aber auch hier ist, wie bei den Antonymen, zu beachten, dass eine Nennung von verbotenen Kookkurrenzen zur Abgrenzung sinnvoll sein kann.

4.2.5 Definitionsattribute

Neben den vier bereits erläuterten Attributen gibt es noch die Definitionsattribute. Sie werden aus der Begriffsdefinition extrahiert und spiegeln die Kernpunkte der Definition wieder. Da eine Aufteilung auf die bereits genannten Attributklassen mit einem erheblichen und der Sache nicht angebrachten Aufwand verbunden ist, werden sie lediglich in positiv und negativ aufgeteilt. Negativ sind dabei alle Wörter, die in der Definition negiert vorkommen, alle anderen gehören zur Gruppe der positiven Wörter.


19

4.3 Umsetzung im Quellcode

Im ersten Schritt muss der bestehende Glossareintrag um die neuen Attributlisten erweitert werden. Zu diesem Zweck wird das neue Interface ISemanticalAttributs erstellt und in das bestehende Interface IGlossaryEntry eingefügt (Abbildung 4.1). Um eine möglichst hohe Unabhängigkeit zwischen den bestehenden Klassen und den neu zu erstellenden Klassen zu erreichen, sind alle Neuerungen durch das neue Interface ISemanticalAttributs realisiert. Abbildung 4.2 zeigt die neu erstellten Interfaces ISemanticalAttributs, IAttributeList und IEntry. ISemanticalAttributs beinhaltet die neuen semantischen Attribute, diese werden in Listen gespeichert und können über entsprechende Getter und Setter zugegriffen werden. Die einzelnen Attributlisten werden durch das Interface IAttributeList repräsentiert. Somit ist es möglich, die Liste alphanumerisch zu sortieren und das Löschen und Einfügen gezielt zu koordinieren. Das Interface IEntry ist für die einzelnen Listeneinträge zuständig und beinhaltet die einzelnen Eigenschaften der Attribute.

+getEntryDescription() : Sring+getEntryName() : String+getGlossaryId() : int+getId() : int+getSemanticalAttributes() : ISemanticalAttributes+setEntryDescription(String)+setEntryName(String)+setGlossaryId(String)+setId(int)+setSemanticalAttributes(ISemanticalAttributes)

<<interface>>IGlossaryEntry

Abbildung 4.1: Erweitertes Interface IGlossaryEntry.

+getSynonymList() : IAttributeList+getAntonymList() : IAttributeList+getPosCoOccurrenceList() : IAttributeList+getNegCoOccurrenceList() : IAttributeList+getPosDefinitionWordList() : IAttributeList+getNegDefinitionWordList() : IAttributeList+length() : int+setSynonymList(IAttributeList)+setAntonymList(IAttributeList)+setPosCoOccurrenceList(IAttributeList)+setNegCoOccurrenceList(IAttributeList)+setPosDefinitionWordList(IAttributeList)+setNegDefinitionWordList(IAttributeList)

<<interface>>ISemanticalAttributs

+getEntries() : IEntry[]+getFirstEntry() : IEntry+length() : int+setEntry(IEntry)+remove(int)+removeAll()

<<interface>>IAttributeList

+getName() : String +setName(String)

<<interface>>IEntry

Abbildung 4.2: Neu erstellte Interfaces.

5. Methoden zur Gewinnung der Attribute

20

5 Methoden zur Gewinnung der Attribute

Für die Erstellung der Attribute gibt es verschiedene Methoden. Die meisten von ihnen sind jedoch eher als eine Unterstützung des Autors zu sehen, als dass man sie als vollautomatisierte Verfahren verstehen kann.

5.1 Manuelle Eingabe

Die am einfachsten zu realisierende Methode, die Attributlisten für die Glossareinträgen zu erstellen, ist die Eingabe über eine Eingabemaske durch den Autor des Glossars. Dabei werden keinerlei zusätzlicher Hilfsmittel benötigt.

5.2 Nachschlagen im Wörterschatz

Die Universität von Leipzig betreibt einen Wortschatz (Leipziger Wortschatz) für die deutsche Sprache. Dieser ist kostenlos und über das Internet aufrufbar. Er liefert zu einem Wort verschiedene Angaben wie die Wortart, das Geschlecht oder die verschiedenen Flexionen.

Der Wortschatz stellt einige Webservices zur Abfrage der gespeicherten Begriffe zur Verfügung. Durch diese kann der Glossarautor bei der Erstellung der Synonyme- und Kookkurrenzlisten unterstützt werden. Diese Unterstützung beschränkt sich jedoch auf die Generierung einer Vorschlagsliste, da weder eine Unterscheidung der Anwendungsdomänen noch zwischen positiven und negativen Kookkurrenzen gegeben ist. Der Wortschatz wird von der Universität in Leipzig betreut und ist kostenlos und ohne Anmeldung benutzbar.

Ein zu beachtender Faktor ist die Voraussetzung eines Internetzuganges und den gegebenenfalls damit verbundenen Verzögerungen bei der Begriffsabfrage über die Webservice.

5.3 Extraktion aus der Begriffsdefinition

Eine weitere Ressource für Attribute ist die im Glossareintrag enthaltene Begriffsdefinition. Durch geeignetes Filtern kann der natürlich-sprachige Text genutzt werden, um die für das Verständnis wichtigen Definitionsattribute zu extrahieren und so von den unwichtigen Bindewörtern zu trennen. Diese Attribute sind in den meisten Fällen Nomen und können somit ohne großen Aufwand erkannt werden. Hinzu kommt, dass die Definitionen keinen derartigen Umfang erreichen, dass mit erheblicher Redundanz zu rechen ist, sie sind vielmehr knapp und präzise gehalten.

Die Extraktion kann komplett automatisch ablaufen, jedoch kann sich eine nachträgliche Kontrolle durch den Autor positiv auf die Qualität der Attribute auswirken.

5.4 Extraktion aus dem Dokument

Ähnlich wie die Extraktion aus der Begriffsdefinition kann auch das komplette Dokument als Grundlage für die Erstellung der Attribute dienen. Hierbei muss jedoch der Kontext eingegrenzt werden. Je nach Dokumententyp kann die Größe des

5. Methoden zur Gewinnung der Attribute

21

Kontextes zwischen einem Satz, einem Absatz oder gar einem ganzen Kapitel variieren. Steigt die Größe des Kontextes, so müssen auch entsprechende Regel zur Bewertung der Relevanz der einzelnen Wörter aufgestellt werden. Wird dies unterlassen, so ist die entstehende Datenmenge nicht mehr zu handhaben. Außerdem bestände die Gefahr, dass eine Menge redundanter Wörter extrahiert würden.

Auch dieser Prozess kann, genau wie die Extraktion aus der Begriffsdefinition, nur bedingt automatisiert durchgeführt werden. Da im Dokument die Informationsdichte weitaus geringer ist als bei der Begriffdefinition, ist hier eine Kontrolle durch den Anwender unumgänglich.


In Folgenden werden die für die Umsetzung der im Kapitel bereits erwähnten Verfahren erstellten Klassen und Methoden erläutert.

5.5.1 Extraktor

Der Extraktor filtert den Definitionstext und extrahiert die Worte, die für die Aussage der Begriffsbeschreibung wichtig sind und lässt jene weg, welche nur satzbildende Aufgaben haben. Die Wörter werden auf ihre Grundform zurückgeführt, entsprechend ihres Auftretens unterschieden und in zwei Listen eingeordnet. Es gibt eine Liste für positive Wörter und eine für negative.

6. Überprüfung auf konsistenten Gebrauch der Begriffe

22

6 Überprüfung auf konsistenten Gebrauch der Begriffe

Die Überprüfung des Textes ist erst nach der Erstellung beziehungsweise der Bearbeitung des Textes und der Glossareinträge sinnvoll. Dies begründet sich zum Einen auf der Tatsache, dass die Überprüfung mit einem erheblichen Zeitaufwand verbunden ist und zum Anderen zuvor kein testfähiger Zustand erreicht ist.

Abbildung 6.1 zeigt den Ablauf der Textverifikation, diese ist in 3 Phasen unterteilt:

Phase 1: Verifikation der Begriffsdefinition

In Schritt 1 & 2 wird die Definition der Glossareinträge mit Hilfe der zum entsprechenden Eintrag gespeicherten Synonyme, Antonyme sowie der positiven und negativen Kookkurrenzen überprüft.

Glossareintrag

Definition

Attribute

VerifierExtraktorNomenliste

Text

Result

1 & 6

23

4

5

5.1 5.2

7

8

Glossareintrag

Definition

Attribute

Verifier

1

2

Abbildung 6.2: Phase 1 der Textverifikation.

Abbildung 6.1: Ablauf der Textverifikation.


23

Phase 2: Extraktion der Definitionsattribute

Schritt 3 & 4 extrahiert aus der Definition die wichtigen Wörter und speichert diese in einer Liste. Diese wird entweder automatisch (Schritt 5) oder nach vorhergehender Kontrolle durch den Anwender (Schritt 5.1 & 5.2) im Eintrag gespeichert.

Phase 3: Verifikation des Textes

Die nun um die aus der Definition extrahierten Wörter, erweiterten Glossareinträge werden in Schritt 6 & 7 genutzt, um den eigentlichen Text zu verifizieren. In Schritt 8 wird das Ergebnis der Überprüfung erstellt und so dem Anwender gezeigt, an welchen Stellen er gegebenenfalls nacharbeiten muss.

6.1 Vorverarbeitung

Für die Verifizierung eines Textes sind vorab gewisse Strukturierungen und Gliederungen durchzuführen. Diese helfen dabei, den Text später besser zu analysieren und die Beziehungen der einzelnen Wörter und Satzteile zu einander zu erkennen.

6.1.1 Zerlegen des Textes in Token

Zunächst muss der natürlich-sprachliche Text in eine Liste, bestehend aus den einzelnen Wörtern des Textes, umgewandelt werden. Die einzelnen Elemente der Liste nennen sich Token. Dabei dienen die Leerzeilen zwischen den Wörtern als Signal für deren Ende. Satzzeichen, die die einzelnen Satzteile voneinander trennen

Glossareintrag

Definition

Attribute

ExtraktorNomenliste

3

4

5

5.1 5.2

Glossareintrag

Definition

Attribute

Verifier

Text

Result

6

7

8




24

bzw. das Ende eines Satzes anzeigen, werden als einzelne Token in die Liste übernommen.

Ermittlung der Satzenden

Zur Erkennung von Negationen und der Begrenzung ihres Wirkungsbereiches ist es wichtig zu wissen, wann ein (Teil-)Satz zu Ende ist. Während das Erkennen von Teilsätzen durch die Eindeutigkeit des Kommas in der deutschen Sprache kein größeres Problem darstellt, verhält es sich mit dem Punkt als Zeichen für das Ende eines vollständigen Satzes anders. Der Punkt signalisiert nicht nur das Ende eines Satzes, es kennzeichnet zudem Wörter als Abkürzungen. Daher müssen zur Erkennung von Punkten am Satzende einige Regeln beachtet werden.

Es wird angenommen, dass der zu verifizierende Text die Regel der deutschen Sprache einhält.

Regel 1:

Wort + . + Wort + .

Beginnt das nächste Wort direkt nach dem Punkt, also ohne Leerzeichen dazwischen, so sind das Wort vor dem Punkt und das folgende als zusammenhängende Abkürzung zu bewerten. Dabei ist es egal ob der erste Buchstabe des Folgewortes groß oder klein geschrieben ist.

Regel 2:

Wort + . + + Kleinbuchstabe

Ist das zweite Wort kleingeschrieben und durch ein Leerzeichen vom Punkt getrennt, so ist dies ein Indiz, dass das Wort vor dem Punkt eine Abkürzung ist.

Regel 3:

Wort + . + + Großbuchstabe & Wort in Liste

Ist das erste Wort nach dem Leerzeichen großgeschrieben, so ist nicht mit Sicherheit zu sagen, dass es sich um ein Satzende handelt. Handelt es sich bei dem zweiten Wort um eine Nominalisierung, so wäre dies über die Bildung der entsprechenden Grundform noch zu erkennen. Gehört das zweite Wort jedoch zur Wortart der Nomen, so lässt sich aus diesem Wissen kein Rückschluss bilden, ob das erste Wort eine Abkürzung ist oder nicht. Für diesen Fall muss eine Liste mit allen bekannten oder zumindest relevanten Abkürzungen bereit gestellt werden.


25

Regel 4:

Wort + . + + Grossbuchstabe & Wort nicht in Liste

Ein nicht zu handhabender Sonderfall tritt auf, wenn das aus Regel 4 zu überprüfende Wort eine Abkürzung ist, welche nicht in der Liste aufgeführt ist. Aufgrund der Tatsache, dass die Wahrscheinlichkeit für das Auftreten dieses speziellen Falles bei einer ausreichende groß dimensionierten Abkürzungsliste derartig gering ist, dass sie zu vernachlässigen ist und eine linguistische Erschließung des Textes den Rahmen dieser Arbeit sprengen würde, bleibt dieser Fall unbehandelt.

6.1.2 Umwandlung des Textes in eine Baumstruktur

Um die Beziehung der einzelnen Wörter untereinander zu verstehen, wird der tokenisierte Text in einer Baumstruktur gegliedert. Durch diesen Vorverarbeitungsschritt lassen sich im späteren Verlauf der Analyse die Abhängigkeiten der einzelnen Wörter und Teilsätze zueinander besser erkennen und bewerten. Die Baumstruktur erleichtert bei der Analyse das Springen zwischen den einzelnen Satzelementen und verbessert deren Laufzeit. Denn im Gegensatz zu einer Liste kann hier direkt von einem Satzteil zum Benachbarten gewechselt werden, ohne erst die gesamte Liste zu durchlaufen und diese zum wiederholten Mal elementweise auf das Ende eines Satzteiles zu überprüfen. Die für diese Struktur erarbeitete Baumstruktur besteht aus Knoten mit folgenden Eigenschaften:

6.1.2.1 Aufbau der Knoten

Label:

Zur Unterscheidung der Knoten sind diese mit verschieden Labeln versehen. Diese Label lassen sich wiederum in drei Gruppen unterteilen.

Gruppe 1 sind die Wortknoten. Zu dieser Gruppe gehören folgende Label: NOUN (Substantive), ARTICLE (Artikel), NEGATION (Negationen), PRONOUN (Pronomen). Alle verbleibenden Knoten bekommen die Bezeichnung NON_NOUN. Bei der späteren Analyse werden die Labels NOUN und NON_NOUN bei einer Übereinstimmung mit den Attributen in die entsprechende Attributart umbenannt. So werden zum Beispiel allen gefunden Synonymen das Label SYNONYM, allen Antonymen das Label ANTONYM usw. zu gewiesen.

Wörter, die als Stoppwörter erkannt werden, werden nicht in die Baumstruktur aufgenommen. Sie sind für die Analyse eines Textes irrelevant und können somit vernachlässigt werden. Das Ende der Satzteile wird durch das Label END_OF_SUBSENTENCES repräsentiert. Neben Kommas sind dies auch die Wörter „und“ sowie „oder“. Das Ende des gesamten Satzes bekommt das Label END_OF_SENTENCES.

Gruppe 2 beinhaltet die Satzteilknoten. Sie vertreten die jeweiligen Arten von Teilsätzen, aus denen sich der Hauptsatz zusammensetzt. Knoten mit dem Label SUBSENTENCES repräsentieren gewöhnliche Teilsätze wie Haupt- oder Nebensätze eines Satzes. Nebensätze, die ein Pronomen beinhalten, bekommen die


26

Bezeichnung RELSENTENCES, sie müssen im weiteren Verlauf detaillierter untersucht werden. Denn es ist zu ermitteln, welches Nomen aus dem Hauptsatz durch das Demonstrativ- oder Personalpronomen des Relativsatzes vertreten wird. Als drittes Label dieser Gruppe gibt es noch die Aufzählungen, welche mit dem Label ENUMERATING gekennzeichnet sind. Sie unterscheiden sich von den anderen Satzteilknoten dadurch, dass ihre Inhalte untereinander keinen Bezug zueinander haben, sondern lediglich zu dem des Hauptsatzes.

Gruppe 3 ist der Satzknoten (SENTENCES). Er signalisiert den Beginn eines neuen Satzes und beschreibt die Wurzel eines jeden Baumes. Besteht der Text aus mehreren Sätzen, so sind die jeweiligen Bäume in einer Liste gespeichert.

Jeder Knoten des Baumes besitzt zusätzlich noch weitere Attribute, die im Folgenden kurz beschrieben werden.

Name:

Beinhaltet, bei den NOUN- und NON_NOUN-Knoten, die Grundform des zu repräsentierenden Wortes. Bei Artikeln, Negationen und Pronomen ist zur Unterscheidung des Geschlechtes das Originalwort aus dem zu verifizierenden Text gespeichert. Der Name dient später als Grundlage für die Vergleiche mit den im Glossar gespeicherten Attributen. Bei den Satz- und Satzteilknoten wird der jeweilige Originaltext, der durch den Knoten repräsentiert wird, gespeichert. Für einen Satzknoten ist dies der gesamte Text des Satzes, für einen Teilsatzknoten der entsprechende Ausschnitt aus dem Satz.

Position:

Die drei Knotengruppen verfügen je über eine Positionsangabe, welche die Positionen der einzelnen Mitglieder im Baum eindeutig beschreibt. Die Nummerierung beginnt bei Null und wird für jede Knotengruppe unabhängig hochgezählt. Bei den Satzteil- und Wortknoten beginnt die Positionszählung für jeden Satz bei Null, die Satzknoten werden über den gesamten Text gezählt. Da Stoppwörter nicht in die Baumstruktur aufgenommen werden, müssen ihre Positionsnummern indirekt mitgezählt werden. Dadurch wird der Positionszähler bei jedem Auftreten eines Stoppworts inkrementiert, ohne dass jedoch ein neuer Knoten dem Baum hinzugefügt wird.

Elternkonten:

Speichert den übergeordneten Elternknoten und erlaubt so das Durchlaufen des Baumes in beide Richtungen. Bei den Satzknoten ist dieser Wert null, da es sich bei diesen Knoten um die Wurzel des jeweiligen Baumes handelt und diese keinen Elternknoten besitzt.

Kinderknoten:

Jeder Knoten beinhaltet eine Liste mit den ihm untergeordneten Konten. Bis auf die NOUN- und NON_NOUN-Knoten können alle Knoten Kinderknoten besitzen. Um


27

den Bezug zwischen einem Artikel oder einer Negation zu einem Nomen herzustellen, werden die Nomen samt der sich auf sie beziehenden Adjektive dem jeweiligen Artikel oder der jeweiligen Negation als Kinderknoten untergeordnet. Beziehen sich sowohl ein Artikel als auch eine Negation auf ein Nomen, so wird das Nomen dem Artikel und der Artikel der Negation als Kinderknoten untergeordnet.

Beispiel:

Ein Glossar ist nicht speziell für eine Domäne.

Nachträglich Erstellt:

Um zu signalisieren, dass ein Knoten im Nachhinein dem Baum hinzugefügt wurde, besitzt jeder Knoten eine Flag. Diese wird zum Beispiel genutzt, um die bei der Identifikation von mehrdeutigen Negationen hinzugefügten Negationen zu markieren.

6.1.2.2 Struktur des Baumes

Der Text wird zunächst in seine einzelnen Sätze zerlegt, jeder Satz wird dabei durch einen Satzknoten vertreten. Im nächsten Schritt werden die einzelnen Satzteile aufgebrochen und analysiert. Handelt es sich um einen normalen Haupt- oder Nebensatz, so bekommt er das Label SUBSENTENCES, beinhaltet der Nebensatz ein Pronomen, so wird er mit dem Label RELSENTENCES deklariert. Für den Fall, das es sich um eine Aufzählung handelt, die über ein Komma, ein „oder“, oder ein „und“ an einen Satz angehängt ist, so wird sie mit dem Label ENUMERATING versehen. Anschließend werden die einzelnen Wörter des Satzes untersucht, dabei

Pos 0

SENTENCES

Pos 0

ARTICLE

Pos 2

NON_NOUN

Pos 3

NEGATION

Pos 8

END_OF_ SENTENCES

Pos 1

NOUN

Pos 4

NON_NOUN

Pos 6

ARTICLE

Pos 7

NOUN

Abbildung 6.5: Bespielbaum.


28

werden die NOUN- und NON_NOUN-Knoten gegebenenfalls an die zugehörigen ARTICLE- und/oder NEGATION-Knoten gehangen.

Für den Beispielsatz „Ein Glossar ist kein Wörterbuch oder Lexikon, es ist speziell für eine Domäne.“ ergibt sich die folgende Baumstruktur:

Pos: 0 = SENTENCES : Ein Glossar ist kein Wörterbuch oder Lexikon, es ist speziell für eine Domäne.

Pos: 0 = SUBSENTENCES : Ein Glossar ist kein Wörterbuch oder

Pos: 0 = ARTICLE : ein

Pos: 1 = NOUN : Glossar

Pos: 2 = NON_NOUN : ist

Pos: 3 = NEGATION : kein

Pos: 4 = NOUN : Wörterbuch

Pos: 5 = END_OF_SUBSENTENCES : oder

Pos: 1 = ENUMERATING : Lexikon,

Pos: 6 = NOUN : Lexikon

Pos: 7 = END_OF_SUBSENTENCES : ,

Pos: 2 = RELSENTENCES : es ist speziell für eine Domäne.

Pos: 8 = PRONOUN : es

Pos: 9 = NON_NOUN : ist

Pos: 10 = NON_NOUN : speziell

Pos: 12 = ARTICLE : eine

Pos: 13 = NOUN : Domäne

Pos: 14 = END_OF_SENTENCES : .


29

Pos 0

SENTENCES

Pos 1

SUBSENTENCES

Pos 2

ENUMERATING

Pos 3

RELSENTENCES

Pos 8

PRONOUN

Pos 9

NON_NOUN

Pos 10

NON_NOUN

Pos 12

ARTICLE

Pos 0

ARTICLE

Pos 2

NON_NOUN

Pos 4

NOUN

Pos 1

NOUN

Pos 3

NEGATION

Pos 6

NOUN

Pos 7

END_OF_SUB

SENTENCES

Pos 13

NOUN

Pos 14

END_OF_

SENTENCES

Pos 5

END_OF_SUB

SENTENCES

Abbildung 6.6: Bespielstruktur des Wortbaumes.


30

6.1.3 Ermittlung der Pronomen

Nach der Erstellung des Baumes wird dieser genutzt, um die Pronomen der Relativsätze den entsprechenden Nomen des Hauptsatzes zuzuordnen. Für die Zuordnung kommen nur die Nomen in Frage, die vor dem Relativsatz im Text auftreten und das gleiche Geschlecht wie das Pronomen aufweisen. Da die direkte Bestimmung des Geschlechtes eines Nomens im Deutschen ohne umfangreichen linguistischen Korpus nicht möglich ist, wird auf die zum Nomen gehörenden Artikel und Negationen zurückgegriffen. Diese lassen sich auf Grund ihrer geringen Anzahl leicht in Gruppe einteilen. Haben mehrere Nomen das gleiche Geschlecht oder steht das Nomen alleine im Text und macht so eine Geschlechtszuordnung unmöglich, so kommen diese alle als durch das Pronomen vertretene Wort infrage. Zur Erleichterung können all die Nomen ignoriert werden, welche nicht zu den im Glossar gespeicherten Attributen gehören. Denn da sich die Verifikation nur auf die Attribute des Glossar stützt würden diese Nomen bei der späteren Analyse keine Beachtung finden. Für jedes infrage kommende Nomen wird nun ein Duplikat des Baumes erstellt und in diesem das entsprechende Pronomen durch das Nomen ersetzt.

6.1.4 Identifikation von mehrdeutigen Negationen

In einigen Sätzen kommt es bei der Verwendung von Negationen in Verbindung mit Nebensätzen zu Mehrdeutigkeiten. Der Menschen kann diese meist mit Hilfe des Kontextes aufklären, für die Textanalyse ist dies jedoch nicht so leicht zu realisieren. Eine Negation ist immer dann mehrdeutig, wenn ein Satz Aufzählungen beinhaltet, welche weder über einen Artikel oder eine Negation verfügen und nicht ausschließlich aus Adjektiven besteht. In diesem Fall wird der Baum geklont und dem Teilsatzknoten an der nullten Position die Negation „nicht“ ergänzt. Dabei kann auf die grammatikalisch korrekte Anpassung der Negation verzichtet werden, da diese für die Verifizierung bedeutungslos ist.

6.2 Überprüfung der Begriffsdefinition

Bevor man den Text auf die Einhaltung der Begriffsdefinitionen überprüfen kann, ist es unerlässlich, auch die Definition an sich zu überprüfen. Denn nur ein fehlerfreier Glossareintrag eignet sich zur Textverifikation. Durch diesen Vorabtest können Folgefehler, die auf einer fehlerhaften Definition beruhen, vermieden werden.

In der ersten Phase werden somit die vier Attributarten genutzt, um deren Vorkommen in der Definition des zugehörigen Eintrages zu überprüfen. Es gibt dabei zwei Arten des Vorkommens: Die Attribute können normal vorkommen oder negiert. Dabei ist das normale Auftreten von Synonymen und positiven Kookkurrenzen ein gewünschtes Qualitätsmerkmal für eine Definition, ihr negiertes Auftreten hingegen ist unerwünscht und weist auf eine fehlerhafte Definition hin. Bei Antonymen und negativen Kookkurrenzen verhält es sich genau umgekehrt: Hier weist ein normales Auftreten auf die Fehlerhaftigkeit der Definition hin.


31

6.3 Überprüfung des Dokuments

Nachdem die Fehlerfreiheit der Definition überprüft wurde, kann der eigentliche Test des Dokumentes durchgeführt werden. Dieser verläuft größtenteils identisch wie die Überprüfung der Begriffsdefinition eines Glossareintrages. Jedoch wird bei der Verifizierung des Dokumentes das gesamte Glossar genutzt und nicht ein einzelner Eintrag. Hinzu kommen die in einem Zwischenschritt extrahierten Attribute aus den Definitionen. Diese sind in zwei Gruppen unterteilt, in positive und negative Definitionsattribute und werden zusammen mit den vier anderen Attributarten genutzt, um im Dokument den Kontext der Glossarbegriffe auf seine Korrektheit zu überprüfen.

6.4 Zu prüfende Eigenschaften

Bei der Verifizierung eines Textes unter Zuhilfenahme der Attribute sind verschiedene Fälle zu beachten. Zur besseren Veranschaulichung sind zu den einzelnen Fällen Beispiele genannt.

Für das Beispiel wird folgender Glossareintrag genutzt. Der Einfachheit halber ist von jeder Attributart nur ein Attribut genannt.

Begriff: Glossar Definition: Nachschlagewerk für Wörter, die unter Umständen

falsch verstanden werden könnten.

Synonym: Wörterverzeichnis

Antonym: Wörterbuch

Positive Kookkurrenz: Domäne

Negative Kookkurrenz: allgemeingültig

Synonyme & positive Kookkurrenzen sind Attribute, die im zu verifizierenden Text vorkommen dürfen oder sogar sollen. Werden diese Attribute genutzt, ist eine konsistente Nutzung der Begriffe im Text sehr wahrscheinlich. Sie lassen sich also als Gütesiegel bezeichnen.

Positives Beispiel:

Ein Glossar ist speziell für eine Domäne.

Antonyme & negative Kookkurrenzen hingegen zählen zu den Attributen, deren Auftreten im Text vermieden werden muss. Denn nur so ist eine widerspruchsfreie Begriffsnutzung zu gewährleisten.

Negatives Beispiel:

Ein Glossar ist ein Wörterbuch


32

Positive & negative Definitionsattribute entsprechen den oben genannten Attributen, sie werden der Einfachheit halber jedoch nicht in die Synonyme, Antonyme oder Kookkurrenzen unterteilt, sondern lediglich in positiv und negativ.

Negationen kehren die Wertigkeit der Attribute um, dabei tauschen Synonyme, positive Kookkurrenzen und positive Definitionsattribute ihre Wertigkeit mit Antonymen, negativen Kookkurrenzen und positive Definitionsattribute. Der Wirkungsbereich einer Negation beginnt mit ihrem Auftrete im Text und endet beim nächsten Satzzeichen oder dem Auftreten eines „und“ oder eines „oder“.

Positives Beispiel:

Ein Glossar ist kein Wörterbuch.

Negatives Beispiel:

Ein Glossar ist nicht speziell für eine Domäne.

Ein Sonderfall ist die Nutzung von negierten Glossarbegriffen zur Erklärung eines weiteren Begriffes. In diesem Fall verändert sich die Wertigkeit der Attribute bis zum nächsten Auftreten des Begriffes oder dem Ende des Abschnittes. Eine Ausnahme bilden Nebensätze, die über Relativ- oder Demonstrativpronomen mit dem Hauptsatz verknüpft sind. In diesen Nebensätzen bleibt die Wertigkeit bestehen, da sich die Attribute nur auf eines der Nomen im vorherigen Satzes beziehen, nicht aber auf die Negation desgleichen. Folgt auf den Nebensatz mit dem Relativpronomen ein weiterer Satz, so gilt für diesen die Wertigkeit des ersten Satzteiles.

Positives Beispiel:

Ein Wörterbuch ist kein Glossar, es ist für keine spezielle Domäne.

Negatives Beispiel:

Ein Wörterbuch ist kein Glossar, es ist für eine spezielle Domäne.

Neben dem konsistenten Gebrauch der Glossarbegriffe ist auch auf eine widerspruchsfreie Anwendung der zum Begriff gehörenden Synonyme und Anonyme zu achten. Tritt in dem zu verifizierende Text der Begriff nicht auf, so ist zunächst der Text auf das Vorkommen von Synonymen zu überprüfen fehlen auch die wird nach Antonymen gesucht. Für den Fall, dass ein Antonym stellvertretend für den eigentlichen Glossarbegriff genutzt wird, drehen sich die Wertigkeiten der Attributklassen, genau wie bei den negierten Begriffen, um. Fungiert ein Synonym als Ersatzbegriff, so bleibt die Wertigkeit bestehen. Kookkurrenzen und Definitionsattribute sind für diese Art der Überprüfung nicht geeignet, da diese sich im Gegensatz zu den Synonymen und Antonymen nicht überschneidungsfrei abgrenzen.


33

6.4.1 Sonderfälle

Es gibt einige Sonderfälle, die zu beachten sind. So werden die Wörter einer Aufzählung nicht miteinander verglichen, wenn sie in einem negierten Kontext zueinander stehen. Denn sie beziehen sich nicht aufeinander, sondern nur auf das zu vergleichende Wort. Ein weiterer Sonderfall bei Aufzählungen ist die Tatsache, dass nach einem „und“ die Negation wiederholt wird, nach einem „oder“ jedoch nicht ein zweites Mal genannt wird.

6.5 Konsistenz & Widerspruchsfreiheit

Die Konsistenz wird wie bereits erklärt durch das Verwenden von Synonymen, positive Kookkurrenzen und Definitionswörtern gewahrt. Hinzu kommt der widerspruchsfreie Gebrauch der Glossarbegriffe im Text. Diese wird durch das Vermeiden von Antonyme, negative Kookkurrenzen und Definitionswörtern erreicht.

6.6 Abschlussbericht des Tests

Mit Hilfe des Abschlussberichtes soll dem Anwender ein Feedback über die Qualität des verifizierten Textes gegeben werden. Dabei wird angezeigt, welche Fehler aufgetreten sind und an welcher Stelle im Satz diese sich befinden.

Der Bericht beinhaltet den zu überprüfenden Text, in diesem sind die für den entsprechenden Glossarbegriff falsch verwendeten Attribute rot markiert. Um die Korrektur zu unterstützen, ist der Glossarbegriff fett und auftretende Negationen kursiv geschrieben. Eine Prozentzahl gibt das Verhältnis der falschen zu den richtig genutzten Attributen an. 0 Prozent steht dabei für einen fehlerfreien Text 100 Prozent hingegen für einen Text, in dem alle Attribute falsch verwendet wurden.


6.7.1 Verifier

Der Verifier überprüft das Auftreten der Attribute im Definitionstext und dem Dokument. Er bekommt absatzweise einen String übergeben und wandelt diesen in eine Baumstruktur, bestehend aus den einzelnen Worten und Satzzeichen des Strings um. Die einzelnen Wörter, mit Ausnahme der Artikel, Pronomen und Negationen, sind dabei in ihrer Grundform gelistet.

Im zweiten Schritt werden die einzelnen Bäume auf mehrdeutige Negationen untersucht und gegebenenfalls diese durch das Duplizieren des Baumes und dem Einfügen von Negationen vereindeutigt.

Als letzter Schritt der Vorverarbeitung werden nun noch mit Hilfe des jeweiligen Glossareintrages gegebenenfalls auftretende Pronomen durch die infrage kommenden Nomen ersetzt. Für jedes Nomen wird dabei ein Duplikat des Baumes erstellt.

Nach der Beendigung der Vorverarbeitung wird nun mit der eigentlichen Verifikation begonnen. Tritt in dem Baum der Glossarbegriff oder ersatzweise ein Synonym oder Antonym desgleichen auf, so werden die entsprechenden restlichen Attribute


34

gesucht und im String markiert. Tritt der Begriff nicht auf, so ist eine Überprüfung des Baumes für diesen Eintrag nicht nötig.

Eine Ausnahme bildet die Überprüfung einer Definition eines Glossareintrages. Hier ist das Auftreten des Begriffes irrelevant, da von vornherein feststeht, welche Attribute für die Überprüfung relevant sind. Der Ablauf dieses Vorabtestes ist in Abbildung 6.7 dargestellt

Im Verlauf der Attributsuche (Abbildung 6.8) werden Satzzeichen und Negationen gesondert behandelt. Tritt in einem Satzteil eine Negation auf, so kehrt sich die Bewertung der im Folgenden auftretenden Attribute um. Das heißt, das Vorkommen von Synonymen und positiven Kookkurrenzen wird als Fehler aufgefasst, Antonyme und negative Kookkurrenzen sind hingegen erlaubt. Kommen Glossarbegriffe negiert vor, so ändert sich die Wertigkeiten der Attribute ebenfalls.

Bei der Überprüfung der Definition werden nur die zum entsprechenden Eintrag gehörenden vier Hauptattribute genutzt. Die durch die Extraktion aus der Glossardefinition gewonnenen Attribute kommen lediglich bei der Überprüfung des Textes zum Einsatz, sie werden dabei wie die Hauptattribute behandelt.


35

Ist Glossarbegriff im Text enthalten Überprüfe Text

Ist ein Synonym des Glossarbegrifes im

Text enthalten

Ist ein Antonym des Glossarbegrifes im

Text enthalten

Nein

Nein

Ja

Ist der Text eine Definition eines

Glossareintrages

nächster Glossareintrag

Nein

Glossar

Ja

Ja

Ja

Nein

zu überprüfender

Text

nächstes Wort des Textes

Start

noch Wörter zu überprüfen

JaStop

noch Glossareinträge im Glossar

Ja

Nein

Nein

Abbildung 6.7: Überprüfung ob der Begriff, ein Synonym oder ein Antonym im Text vorkommt (Vorabtest).


36

ist eine Negation

ist ein Satzzeichen

Ist Glossarbegriff

Nein

Nein

zu überprüfender

Text

addiere temporäre Zähler

zu negativen Zählern

setzte Negationsflag

Markiere Begriff, setzte Flag für negierten

Begriff & addiere temp. Zähler

Negationensflag gestetzt

addiere temporäre Zähler

zu positiven ZählernNein

Ja

Ja

Ja

Ja

Ist ein negatives Attribut

Ist ein positives Attribut

Markiere Attribute & erhöhe temporären

Zähler

Markiere Attribute & erhöhe temporären

Zähler

Nein

Nein

Ja

Ja

Nein

Negationensflag gestetzt

Markiere Begriff

ist noch ein negatives Attribut vorhanden Ja

ist noch ein positives Attribut vorhanden

Nein

Ja

Nein Nein

Ja

Nächstes Wort des Textes

Glossareinträge

Start

Noch Wörter zu überprüfen

Ja

Stop

Nein

Abbildung 6.8: Ablauf des Testes, für die einzelnen Wörter.


37

6.7.2 ResultEntry & ResultEntryList

Das Ergebnis der Verifikation wird zunächst für jeden Baum und dem der Überprüfung zugrundeliegenden Glossareintrag gespeichert. Die einzelnen Testwerte werden in der Klasse ResultEntry gespeichert. Diese Klasse beinhaltet den Namen des Glossarbegriffes, einen String mit allen gefunden Attributen, für jede Attributart einen Zähler, der das Auftreten des Attributes zählt und einen String, in dem nur dir fehlerhaften Attribute im Text markiert sind. Alle für einen Baum erzeugten Instanzen von ResultEntry werden zusammengefasst in einer Liste gespeichert, diese enthält Methoden zur Berechnung der Summe aller Zähler aus ResultEntry. Des Weiteren ist es möglich, für einzelne Ergebnisse eine Flag zu setzten, sodass sie bei einer Ausgabe ignoriert werden können. Außerdem können Ergebnisse die durch das Eingreifen des Programms erstellt wurde mit der Flag LaterAdded markiert werden.

+getWordCount() : int+getNegatedWordCount() : int+getSynonymCount() : int+getPositiveCoOccurrenceCount() : int+getPositiveDefinitionWordCount() : int+getNegatedAntonymeCount() : int+getNegatedNegativeCoOccurrenceCount() : int+getNegatedNegativeDefinitionWordCount() : int+getAntonymCount() : int+getNegativeCoOccurrenceCount() : int+getNegativeDefintionWordCount() : int+getNegatedSynonymCount() : int+getNegatedPositiveCoOccurrenceCount() : int+getNegatedPositiveDefinitionWordCount() : int+getResult() : double+getMarkedText() : String+getHighlightedText() : String+getGEntry() : IGlossaryEntry+isIgnored() : boolean+isLaterAdded() : boolean+setWordCount(int)+setNegatedWordCount(int)+setSynonymCount(int)+setPositiveCoOccurrenceCount(int)+setPositiveDefinitionWordCount(int)+setNegatedAntonymeCount(int)+setNegatedNegativeCoOccurrenceCount(int)+setNegatedNegativeDefinitionWordCount(int)+setAntonymCount(int)+setNegativeCoOccurrenceCount(int)+setNegativeDefintionWordCount(int)+setNegatedSynonymCount(int)+setNegatedPositiveCoOccurrenceCount(int)+setNegatedPositiveDefinitionWordCount(int)+setResult(double)+setMarkedText(String)+setHighlightedText(String)+setGEntry(IGlossaryEntry)+setIsIgnoered(boolean)+setLaterAdded(boolean)

IResultEntry+addResultEntry(IResultEntry)+removeResultEntry(IResultEntry) : boolean+getOrginalText() : String+getId() : int+getWordCount() : int+getNegatedWordCount() : int+getSumOfSynonymCount() : int+getSumOfPositiveCoOccurrenceCount() : int+getSumOfPositiveDefinitionWordCount() : int+getSumOfNegatedAntonymeCount() : int+getSumOfNegatedNegativeCoOccurrenceCount() : int+getSumOfNegatedNegativeDefinitionWordCount() : int+getSumOfAntonymCount() : int+getSumOfNegativeCoOccurrenceCount() : int+getSumOfNegativeDefintionWordCount() : int+getSumOfNegatedSynonymCount() : int+getSumOfNegatedPositiveCoOccurrenceCount() : int+getSumOfNegatedPositiveDefinitionWordCount() : int+getResultList() : LinkedList<IResultEntry> +getMaximalResult(): double+isIgnored() : boolean+setId(int)+setResultList(LinkedList<IResultEntry>)+setIsIgnored(boolean):

IResultList

Abbildung 6.9: Interface für das Ergebnis der Verifikation.

7. Realisierung in HeRA

38

7 Realisierung in HeRA

Der größte Teil der notwendigen Funktionen ist in Hera schon realisiert, da der für diese Arbeit erstellte Prototyp lediglich einer Erweiterung des bestehenden Glossar-Plugin für HeRA ist. Somit müssen nur einige vorhandene Funktionen angepasst und die neu erstellten eingepasst werden.

7.1 Vorhandene Funktionen

HeRA verwaltet bereits die Glossareinträge mit den zugehörigen Dokumenten, somit müssen in diese Struktur nur noch die in dieser Arbeit entwickelten Attribute hinzugefügt werden und die sich darauf beziehenden Funktionen angepasst werden.

7.2 Neu zu erstellende Funktionen

7.2.1 Erweiterung des Glossareintrages

Das vorhandene GUI für die Glossareinträge wird um je einen Reiter für die Definition und die Attribute erweitert, so wird der normale Leser beim Nachschlagen einer Begriffsdefinition nicht großartig abgelenkt und der Autor kann die Einträge bequem erstellen oder editieren.

Abbildung 7.1: Glossareintrag in HeRA. Links Ansicht der Definition, rechts Ansicht der Attribute.


39

Die Attribute sind tabellarisch angeordnet und können durch Betätigen des „Bearbeiten“-Buttons verändert werden. Durch ein Klick auf das „+“ vor den Attributklassen wird eine neue Zeile hinzugefügt.

Durch das Betätigen des „Speichern“-Buttons wird die Bearbeitung beendet und die erstellte Begriffsdefinition auf die korrekte Verwendung der Attribute überprüft. Ist diese korrekt, werden die Definitionsattribute extrahiert und dem Anwender über ein Auswahlfenster (Abbildung 7.2) zur Aufnahme in die Attributliste vorgeschlagen. Im Fehlerfall wird der Anwender im Simulationsbereich über die fehlerhafte Nutzung informiert.

7.2.2 Präsentation des Ergebnisses

7.2.2.1 Überprüfung eines Dokuments

Zur Durchführung der Verifikation wurde der Simulationsbereich um einen Button für die Verifikation des geöffneten Dokumentes hinzugefügt. Ist die Verifikation beendet, so wird dem Anwender eine Liste der fehlerhaften Abschnitte mit der zugehörigen Fehlerquote aufgelistet (Abbildung 7.3). Die Liste kann anhand dieser Quote gefiltert werden, indem der Anwender einen Schwellenwert angibt, der überschritten sein muss, damit der Fehler aufgeführt wird. Standardmäßig beträgt der Schwellenwert 10 und ist zwischen 0 und 100 frei wählbar.

Abbildung 7.3: Ergebnisübersicht.

Abbildung 7.2: Auswahlfenster für Definitionsattribute


40

Durch einen Klick auf den Abschnitt gelangt der Anwender zu einer Detailansicht (Abbildung 7.4), in der die einzelnen Attribute farbig markiert und im Falle einer negierten Verwendung unterstrichen sind. Somit erkennt der Anwender welches Attribut an welcher Stelle im Satz verwendet wurde und ob dieses negiert ist oder nicht. Für jeden infrage kommenden Glossareintrag wird ein eigenes Ergebnis angezeigt und die Attribute entsprechend markiert. Die vom Programm beim Identifizieren von mehrdeutigen Negationen automatisch hinzugefügten Sätze sind durch „>> Satz <<“ gekennzeichnet. In jedem Ergebnis werden die einzelnen Attribute sowie die Anzahl ihres Auftretens tabellarisch dargestellt und eine Quote der falsch genutzten Attribute angeben. Am Ende des Ergebnisses steht noch einmal der Text mit einer Markierung der fehlerhaften Attribute.

Der Anwender hat in der Detailansicht drei Optionen. Zum Einen ist es möglich, einen Abschnitt zu ignorieren, falls dieser im Folgenden nicht mehr angezeigt werden soll. Ebenso ist es möglich, die vom Programm automatisch erstellten Sätze mit mehrdeutigen Negationen in der Detailansicht ein- oder auszublenden. Über die dritte Option gelangt er zurück zur Übersicht.

Abbildung 7.4: Detailansicht der Fehler.


41

7.2.2.2 Überprüfung eines Glossareintrags

Die Überprüfung eines Glossareintrages geschieht direkt nach dessen Editierung durch das Betätigen des „Speichern“-Buttons. Im Falle eines Fehlers wird dem Anwender direkt die Detailansicht präsentiert. Diese ist identisch mit der aus Abbildung 7.4, lediglich die drei Button am Ende fehlen.

7.2.2.3 Schwellenwert für die Ergebnispräsentation

Der für die Präsentation des Ergebnisses ausschlaggebende Schwellenwert kann in der Menüleiste (Abbildung 7.5) unter „Einstellungen“ geändert werden. Bei der Eingabe muss es sich um einen Zahlenwert zwischen 0 und 100 handeln.

7.2.3 Verwaltung der Begriffslisten für die Verifikation

Die der Verifikation zugrunde liegenden Begriffslisten können ebenfalls über die Menüleiste editiert werden. Es gibt je eine Liste für die männlichen, sächlichen und weiblichen Artikel und Pronomen, sowie eine Liste für Abkürzungen, Negationen und Stoppwörter. Bei den Artikeln und Pronomen ist die Unterscheidung des Geschlechtes für die spätere Zuordnung der Nomen zu den Pronomen von großer Bedeutung.

Abbildung 7.6: Angabe des Schwellenwerts für die Ergebnispräsentation.

Abbildung 7.5: Menüleiste in HeRA.


42

Abbildung 7.7: Verwaltung der Begriffslisten.

8. Fazit und Ausblick

43

8 Fazit und Ausblick

8.1 Ergebnisbewertung

Diese Arbeit zeigt, dass es bereits mit geringen linguistischen Methoden möglich ist, einen Text auf das Vorkommen bestimmter Attribute zu überprüfen und so die Richtigkeit ihrer Verwendung zu ermitteln.

Diese Arbeit soll dabei jedoch nur einen Überblick liefern und hat somit kein Anrecht auf Vollständigkeit. Denn gerade die deutsche Sprache ist komplex und voller Sonderfälle, welche in dem für diese Arbeit vorgesehenen Zeitraum nicht vollständig zu behandeln waren.

Auch bei der implementierten Erweiterung für HeRA handelt es sich lediglich um einen Prototypen, der zeigen soll, dass die ermittelten Resultate in Quellcode umsetzbar und die Ergebnisse aussagekräftig sind.

8.2 Abgrenzung zu anderen Arbeiten

[openNLP] ist ein Open Source Projekt für den Bereich Natural Language Processing, es ist Java-basierend und stellt einige Methoden zur Analyse von natürlich-sprachlichen Texten. Diese Methoden sind jedoch weitaus detaillierter als für diese Arbeit notwendig. Zudem ist die derzeitige Unterstützung der deutschen Sprache nicht besonders zufriedenstellend und die hier erklärten Methoden, zumindest für die deutsche Sprache, weitaus effektiver.

In der Arbeit „Taming Ambiguity in Natural Language Requirements“ beschäftigen sich die Autoren Kamsties und Paech mit der Erstellung einer Auflistung der verschiedenen Arten von Mehrdeutigkeiten in natürlich-sprachlichen englischen Texten. Diese können als Grundlage für ihre Erkennung und Vermeidung genutzt werden. Dazu erstellen sie eine Definition der Mehrdeutigkeit für den Bereich des Software Requirement.

Die Arbeit „Requirements for Tools for Ambiguity Identification and Measurement in Natural Language Requirements Specifications“ von Kiyavitskaya, Zeni, Mich und Berry beschreibt die Funktionsweise eines theoretischen Prototypen zur Erkennung von Mehrdeutigkeiten in englischen Texten. In einem ersten Schritt werden die Sätze herausgesucht, die eine Mehrdeutigkeit beinhalten. Im zweiten Schritt werden diese analysiert und dem Anwender gezeigt, worin der Fehler liegt.

Die Autoren Berry und Kamsties mahnen in ihrem Artikel „The Syntactically Dangerous All and Plural in Specifications“ vor dem Gebrauch des Plurals und der des Wortes „all“, da diese es dem Leser unmöglich machen zu erkennen, ob eine Eigenschaft für das Einzelne oder für alle zusammen gilt. Sie schlagen vor, das Wort „all“ nur dann zu nutzen, wenn eine Eigenschaft für alle zusammen gilt. Gilt sie für jedes einzelne Element der Gesamtmenge, so soll man das Wort „each“ nutzen.

8. Fazit und Ausblick

44

8.3 Ansätze für zukünftige Projekte

In zukünftigen Projekten ließe sich die für diese Arbeit entwickelte Baumstruktur noch verfeinern und so weitere Label einführen. Dadurch könnte die Struktur auch für anderen oder tiefergehende Analysen des Textes genutzt werden.

Auch eine Verfeinerung der Listen könnte ein Teil eines neuen Projektes sein. Besonders eine Berücksichtigung der zugrundeliegenden Dokumente bei der Erstellung der Stoppwort- und Abkürzungslisten würde zu einer erhöhten Effektivität beitragen.

Ebenfalls zu realisieren wäre eine Erweiterung von HeRA um eine Komplexitätsprüfung, die dem Anwender zu erkennen gibt, wenn ein Satz ein gewissen Maß an Verschachtelungen überschreitet, würde die Qualität besonders in Hinblick auf die Lesbarkeit der Dokumente verbessern.

Die gewonnenen Synonyme können zudem genutzt werden, um die Markierung der Glossarbegriffe zu erweitern und es so dem Leser zu ermöglichen, auch diese Wörter nachzuschlagen.

Erweiterung der Ergebnisse um linguistische Regeln anderer Sprachen, wie zum Beispiel dem Englischen.

Abbildungsverzeichnis

45

Abbildungsverzeichnis

Abbildung 1.1: Aufbau des Prototypen und Position in HeRA. 2 Abbildung 1.2: Das Referenzmodell Anforderung und Entwurf nach [Schneider] 3 Abbildung 2.1: Oberflache von HeRA (Quelle: https://locke.se.uni-hannover.de/trac/hera) 10 Abbildung 3.1: Übersicht über die einzelnen Nutzer und ihre Hauptaufgaben in zeitlicher Abfolge. 14 Abbildung 4.1: Erweitertes Interface IGlossaryEntry 19 Abbildung 4.2: Neu erstellte Interfaces 19 Abbildung 6.1: Ablauf der Textverifikation 22 Abbildung 6.2: Phase 1 der Textverifikation. 22 Abbildung 6.3: Phase 2 der Textverifikation. 23 Abbildung 6.4: Phase 3 der Textverifikation. 23 Abbildung 6.5: Bespielbaum. 27 Abbildung 6.6: Bespielstruktur des Wortbaumes. 29 Abbildung 6.7: Überprüfung ob der Begriff, ein Synonym oder ein Antonym im Text vorkommt (Vorabtest). 35 Abbildung 6.8: Ablauf des Testes, für die einzelnen Wörter 36 Abbildung 6.9: Interface für das Ergebnis der Verifikation. 37 Abbildung 7.1: Glossareintrag in HeRA. Links Ansicht der Definition, rechts Ansicht der Attribute. 38 Abbildung 7.2: Auswahlfenster für Definitionsattribute 39 Abbildung 7.3: Ergebnisübersicht. 39 Abbildung 7.4: Detailansicht der Fehler. 40 Abbildung 7.5: Menüleiste in HeRA. 41 Abbildung 7.6: Angabe des Schwellenwerts für die Ergebnispräsentation. 41 Abbildung 7.7: Verwaltung der Begriffslisten. 42

Literaturverzeichnis

46

Literaturverzeichnis

Bücher

[Meyer] Sebastian Meyer - Halbautomatische Generierung eines Glossars während der Dokumentation von Anforderungen, Leibniz Universität Hannover 2007

[Schneider] Kurt Schneider - Anforderung und Entwurf, Leibniz Universität Hannover 2007 [Granitzer] Michael Granitzer - Statistische Verfahren der Textanalyse [Duden-01] Duden - Das Bedeutungswörterbuch, 3. Aufl. Mannheim 2002 [Duden-02] Duden - Das Fremdwörterbuch, 8. Aufl. Mannheim 2005 [Duden-03] Duden - Deutsches Universalwörterbuch, 5. Aufl. Mannheim 2003 [Duden-04] Duden - Richtiges und gutes Deutsch, 5. Aufl. Mannheim 2001 [Wahring] Gerhard Wahring - Fremdwörter Lexikon, Gütersloh 1975 [Bußmann] Hadumod Bußmann – Lexikon der Sprachwissenschaft, 3. Aufl. Stuttgart 2002 [Fraunhofer] Erik Kamsties & Barbara Paech - Taming Ambiguity in Natural Language Requirements,

Fraunhofer Institute for Experimental Software Engineering 2000 [Tool] Nadzeya Kiyavitskaya1, Nicola Zeni1, Luisa Mich2, Daniel M. Berry3 –

Requirements for Tools for Ambiguity Identification and Measurement in Natural Language Requirements Specifications,

1Department of Information and Communication Technologies, University of Trento, Trento,Italy, 2Department of Computer and Management Sciences, University of Trento, Trento, Italy, 3Cheriton School of Computer Science, University of Waterloo, Waterloo, Ontario, Canada 2007

[IEEE Software] Daniel M. Berry and Erik Kamsties - The Syntactically Dangerous All and Plural in Specifications, IEEE Software 2005

Internetseiten

[HeRA] https://locke.se.uni-hannover.de/trac/hera [openNLP] http://opennlp.sourceforge.net [L-Wortschatz] http://wortschatz.uni-leipzig.de

Vorlesungsmaterialien

[Maier-Meyer] Dr. Petra Maier-Meyer (Universität München) – Stemming und Lemmatisierung [Schütze] Prof. Ph.D Hinrich Schütze (Universität Stuttgart) – IIR 2: The term vocabulary and postings

lists, 28.04.2008

Erklärung der Selbstständigkeit

47

Erklärung der Selbstständigkeit

Hiermit versichere ich, dass ich die vorliegende Bachelorarbeit selbständig und ohne

fremde Hilfe verfasst und keine anderen als die in der Arbeit angegebenen Quellen

und Hilfsmittel verwendet habe. Die Arbeit hat in gleicher oder ähnlicher Form noch

keinem anderen Prüfungsamt vorgelegen.

Hannover, den 06. September 2009

__________________________

Godehard Hecke