Upload
others
View
27
Download
0
Embed Size (px)
Citation preview
Institut für Informatik
AutomatischeSprachverarbeitung
Terminologie, Terminologiemanagement und
Terminologie-Extraktion
Dr. Lutz MaicherUniversität Leipzig
Vorlesung "Wissens- und Contentmanagement" WS 2009/2010im Modul "Wissens- und Contentmanagement"
Terminologie
Institut für Informatik
2WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Wichtigkeit von Wording (Terminologiearbeit) - Beispiel
Tesco checks out wording change Tesco is to change the wording of signs on its fast-track checkouts to avoid any linguistic dispute.
The supermarket giant is to replace its current "10 items or less" notices with signs saying "Up to 10 items".
Tesco's move follows uncertainty over whether the current notices should use "fewer" instead of "less". The new wording was suggested to Tesco by language watchdog The Plain English Campaign. Tesco said the change would be phased in across its stores. "Saying up to 10 items is easy to understand and avoids any debate," said a spokesman for The Plain English Campaign.
"Fewer" should be used when you are talking about items that can be counted individually, for example, "fewer than 10 apples". "Less" is correct when quantities cannot be individually counted in that case, e.g. "I would like less water".
Quelle: http://news.bbc.co.uk/1/hi/business/7590440.stm (31.08.2008)
Terminologie
Institut für Informatik
3WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Wichtigkeit von Wording (Terminologiearbeit) - Beispiel
Wording Change Skewed Poll After SpeechIn Monday's survey, taken after the President's speech, respondents were asked: ''Now thinking about Bill Clinton as a person, do you have a favorable or unfavorable opinion of him?'' That elicited responses from the public that were 40 percent favorable and 48 percent unfavorable. In previous Gallup polls the wording was: ''Now I'd like to get your opinion about some people in the news. As I read the name, please say if you have a favorable or unfavorable opinion of this person.'' Last week, that traditional wording resulted in public impressions of Mr. Clinton that were 60 percent favorable and 38 percent unfavorable. Thus, it appeared on Monday that there had been a 20-percentage point drop in Mr. Clinton's personal ratings. In a poll on Tuesday, Gallup used the traditional wording and measured 55 percent favorable views of Mr. Clinton and 42 percent unfavorable.
Quelle: New York Times 20.08.1998
Terminologie
Institut für Informatik
4WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Wording
Verwendung, Bilden oder (Neu-)Definieren von Begriffen
z.B. von Werbeabteilungen beim Vermarkten neuer Produkte und Dienstleistungen ('aprilfrisch', 'Advanced-Telebanking'),
von Wissenschaftler für neue Effekte, Techniken, Verfahren und Zusammenhänge ('Genscanning', 'Kernspintomograf', 'Waldsterben'),
in der Politik ('Nullwachstum', 'sozialverträgliches Ableben', 'Politikverdrossenheit', 'Change', ‚kalte Progression‘),
von der Unternehmensführung zur Festlegung des Sprachgebrauchs in einem Unternehmen ('Assessment-Center', 'Benchmark', 'Kick-Off-Meeting', 'Portfolio', 'Freistellung')
…. weitere Bereiche ?
Terminologie
Institut für Informatik
5WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Terminologie
Terminologie
Institut für Informatik
6WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Definition Terminologie
„Das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfasst, die allgemein üblich sind“
(E.Wüster)
Terminologie
Institut für Informatik
7WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Terminologie und Kommunikationsmodell
information supplier
(humans)
information customer (humans)
context
information supplier
(machines)
information customer
(machines)
information supply
com
mun
ity
(org
anis
atio
n) comm
unity(organisation)
information demand
n m
matching processes
Terminologie unterstützt das Matching von Angebot und Nachfrageim Kommunikationsprozess
Terminologie
Institut für Informatik
8WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was sind Herausforderungen in der Terminologiearbeit?
• Aufgaben der terminologischen Sprachnormierung:– Erkennen von Fachbegriffen (Terminologieextraktion)– Disambiguierung und Definition– Festlegung und Vereinheitlichung (Normung, vgl. ISO, DIN)– Übersetzung– Repräsentation von Terminologie– Veröffentlichung und Verteilung – Produktion von Publikationen mit normierter Terminologie
Terminologie
Institut für Informatik
9WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Repräsentation von Terminologie• Kontrolliertes Vokabular• Taxonomie• Thesaurus• Ontologie• Kontrollierte Sprache• Folksonomie
Quelle: Lars Marius Garshol: Metadata? Thesauri? Taxonomies? Topic Maps! in Proceedings of XML Europe 2004
weiterer Link: http://www.metamodel.com/article.php?story=20030115211223271
Terminologie
Institut für Informatik
10WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist ein Kontrolliertes Vokabular?
• eine Liste von Termen– jeder Term besitzt eindeutige und nicht-redundante Definition– keine Homonymie = Ambiguitäten (Mehrdeutigkeiten) sind aufgelöst– Synonymie ist definiert = existieren mehrere Terme für dasselbe
Konzept, so muss eine Zugangsbenennung und eine Liste von Benennungsvarianten bestimmt werden
Terminologie
Institut für Informatik
11WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Kontrolliertes Vokabular – Beispiel – Topic-Maps-TerminologieQuelle: http://www.informatik.uni-leipzig.de/~maicher/tmt/TMT.html
Auch: http://www.topicmapslab.de/glossary
Terminologie
Institut für Informatik
12WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Kontrolliertes Vokabular - Beispiele
Struktur Beispiel Term
Substantiv RestseitenbandübertragungSchwefelfarbstoffe
Substantiv mit Präpositionalphrase
Sammelstelle für Sondermüll
Substantiv mit Genitivphrase
Gesetz der großen Zahlen
Adjektiv + Substantiv Gefleckter Schierlinghydraulischer Stoßdämpfer
Adjektiv + Adjektiv + Substantiv
langzeitige linksseitige Herzinsuffizienz
Substantiv + Substantiv Microsoft Word
Terminologie
Institut für Informatik
13WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Kontrolliertes Vokabular - Beispiele
• Fachausdrücke als Worte – einzelne Worte sein,
wie z. B. Maschine (de), machine (en), – oder zusammengesetzte Wörter (bzw. Komposita oder Mehrwortbegriffe),
wie z. B. Nähmaschine (de), sewing machine (en) oder machine à coudre (fr). – Merke: Schreibweise eines Terms als Kompositum oder Mehrwortbegriff hängt
stark von sprachlichen Konventionen ab.• Fachausdrücke als Phrasen,
– wie z. B. Tag und Nacht (de), night and day (en), – die für bestimmte Fachsprachen, etwa die juristische Fachsprache, stark
standardisiert sein können, z. B. bevollmächtigen (de) = nominate, constitute, and appoint as attorney-in-fact (en).
• Fachausdrücke als typische Kombinationen von Nomina und Verben,– wie z. B. ein Patent erlangen (de), file a patent (en).
• Fachausdrücke als Abkürzungen– z. B. TCP/IP
Terminologie
Institut für Informatik
14WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist eine Taxonomie?
• ein kontrolliertes Vokabular, das in Hierarchie organisiert ist – jeder Term steht in einer oder mehreren Eltern-Kind-Beziehungen zu
anderen Termen• Ursprünge in der Linné‘schen botanischen und zoologischen Klassifikation
– Beziehungen können typisiert sein• Teil-Ganzes-Beziehung• Typ-Instanz-Beziehung• Art-Spezie-Beziehung• von einem Elternterm sollten nur Beziehungen des selben Typs abgehen
– Polyhierarchien können erlaubt sein• ein Kindterm hat verschiedene Elternterme
Terminologie
Institut für Informatik
15WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist ein Thesaurus?
• ein kontrolliertes Vokabular, das eine Vielzahl von Aussagen über die Terme zulässt– BT (broader term) / NT (narrower term)
• in Taxonomien sind alle Kanten BT/NT – SN (scope note) - ist eine Zeichenkette um die Bedeutung des Terms
zu beschreiben– USE – Link zu einem Term welcher alternativ genutzt werden sollte
• Synonym– RT (related term) - Term, der in Beziehung zu einem Term steht
• keine USE oder BT/NT Beziehung– und einige mehr … (siehe Standards)
• Standardisierung von Thesauri– ISO 2788 für monolinguale Thesauri– ISO 5964 für multilinguale Thesauri– siehe http://www.techquila.com/psi/thesaurus/ (für Überblick)
Terminologie
Institut für Informatik
16WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist eine Ontologie?
• Ontologie ist ein semantisches Datenmodell (Konzeptualisierung) einer Domäne– Klassen
• extensionale Definition (durch Individuen der Klasse)• intensionale Definition (durch eine Menge von Eigenschaften)
– Attribute• Benennungen (z.B. Geburtsname)• Properties, Features, Characteristics, Parameter, Eigenschaftem
– Beziehungen• verschiedene Beziehungsmodelle sind möglich
– Individuen (von Klassen und Beziehungen)• z.B. Clara Schumann als Person• z.B. Leipzig als Geburtsort von Clara Schumann
– Regeln• z.B. alle Personen mit einem Alter von mind. 18 Jahren haben die
Eigenschaft "volljährig"
Terminologie
Institut für Informatik
17WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Taxonomie und Ontologie - Beispiel
Terminologie
Institut für Informatik
18WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist eine kontrollierte Sprache?
• ist eine natürliche Sprache wie Deutsch oder Englisch, die nach bestimmten Regeln eingeschränkt wird– Wortschatz (allgemeiner Kennwortschatz), – Terminologie (Fachwortschatz)– Sprachstil, – Grammatik und Satzbau (z. B. Länge von Sätzen und Absätzen,
Verwendung von Aktiv in Anleitungen) • Zweck:
– technische Dokumentationen und Handbücher verständlicher und effizienter zu gestalten,
– zukünftige Übersetzungen von Texten bei Entstehung erleichtern• Beispiel:
– Die eingegebenen Orte werden in die Zieltabelle übertragen. (falsch)– Übertragen Sie die eingegebenen Orte in die Zieltabelle. (richtig)
Terminologie
Institut für Informatik
19WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist eine Folksonomy?
• ein "kontrolliertes" Vokabular für eine Domäne, dass durch gemeinschaftliche Nutzung entsteht– entsteht durch kollaboratives tagging– Normierung durch Recommender
• eingetretene Pfade werden genutzt …– tag clouds sind beliebte Repräsentation
Terminologie
Institut für Informatik
20WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist eine Folksology?
• eine Ontologie, die durch gemeinschaftliche Nutzung entsteht– Folksonomy + kollaborativ erstellte Beziehungen zwischen den Termen
Terminologie
Institut für Informatik
21WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Wer weiß noch was …
• ein kontrolliertes Vokabular• eine Taxonomie• ein Thesaurus• eine Ontologie• eine kontrollierte Sprache• eine Folksonomy• eine Folksology ist?
Terminologie
Institut für Informatik
22WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Terminologiemanagement
Terminologie
Institut für Informatik
23WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was sind die Ursachen für terminologische Inkonsistenzen?
• Verschieden Autoren / Übersetzer– Terminologiearbeit ist gerade bei Mehrsprachigkeit wichtig
• Keine Terminologiepolitik und Terminologiemanagement– meist aus Zeit bzw. Kostengründen
• Keine organisatorische Einbettung– Verteilung von Rechten und Pflichten (in der Organisation)
• Keine Werkzeugunterstützung
Terminologie
Institut für Informatik
24WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Gibt es Standards für die Terminologiearbeit?
• ISO 704:1987 Principles and methods of terminology– outlines the principles of conceptual analysis, definition writing and term
formation as well as the methods used in terminology work.• ISO 860:1996 Terminology work – Harmonization of concepts
and terms– deals with the principles which are the basis upon which concept
systems can be harmonized and with the development of harmonized terminologies, in order to improve the efficiency in interlinguistic communication.
• ISO 1087:1990 Terminology – Vocabulary– consists of a set of terminological entries covering the basic concepts in
the field of theory and application of terminology work.
Terminologie
Institut für Informatik
25WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Ein Weg zur eigenen Terminologie …
1. Konzept und Planung festlegen2. Ausgangsterminologie als Rohliste extrahieren3. Bereinigung der Rohliste4. Übersetzung5. Verteilung und Verwaltung
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
26WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Konzept und Planung
• Gestaltung: Was gehört zum Fachbereich?– Umfang der Terminologie muss festgelegt werden– Bsp.: Asthma bronchiale ist medizinischer Term; ist dieser Begriff auch
ein Term im Bereich spezieller Lungenkrankheiten?• Ressourcen:
– Wer kann beitragen?– Wo gibt es bereits Terminologie?
• Organisatorische Maßnahmen– Welche Bereiche sollen die Terminologie verwenden?– Wer gibt die Terminologie frei?– Wer hat die Nutzung der Terminologie zu verantworten?
• Wiederverwendung bestehender Terminologie– bestehende (Industrie-)Standards
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
27WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Planung der Repräsentation der Terminologie
• Minimalistisch oder Maximalistisch?– Begriff– Übersetzung (in die notwendigen Zielsprachen)– Wortart– Definition– Status– Quellen und Belegstellen
• wichtig als Anwendungsbeispiele– Synonyme
• Nutzung von Standards für Repräsentation von Terminologie• Aufwand/Nutzen bei der Erstellung im Auge behalten
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
28WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Rohliste & Terminologie festlegen
• Rohliste zusammentragen– Bestehende interne und externe Terminologie– Nutzung automatischer Verfahren zur Terminologieextraktion
• Aufgabe: Sammeln von Text des Fachbereichs• siehe letztes Kapitel dieser Vorlesung
• Festlegen der Terminologie entsprechend der Planung der Repräsentation– manueller Akt– auch verbotene Terme/Phrasen sind Teil der Terminologiearbeit
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
29WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Wortbildungsregeln
• Nach welchem Prinzip soll ein neues Teil benannt werden?
• Strategie für das Prägen neuer Begriffe– siehe "Bedeutung des Wordings" zu Beginn der Vorlesung
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
30WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Übersetzung
• Integration der Terminologie mit bestehenden Translation Memory Systemen
• Keine 1:1 Übereinstimmung von Terminologie in zwei Sprachen– u.a. aus Gründen der Sprachökonomie
• published subject identifier vs. die Adresse der veröffentlichten Beschreibung eines Aussagegegenstandes
– Begriffe nicht immer spiegelgleich• cutter Fräser / Schneider (abhängig von Anwendung)
– Teilkomposita führen zu Fehlübersetzungen• „Gerät“ statt „Meßgerät“
– getrennte Terminologieextraktion erscheint sinnvoll
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
31WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Verwaltung und Verteilung
• Abbildung des IST-Zustands ist nicht ausreichend– Pflichten und Rechte bzgl. der Terminologie muss definiert werden– Fortschreibung muss institutionalisiert werden
• Einbindung der Terminologie in die Redaktionsprozesse– "Fachwörterbuch" oder Thesaurus für eigene Terminologie
• Papierform • elektronisch
– Recommender / Autovervollständigen– automatische Filter
• z.B. für verbotene Terme und Phrasen– Qualitätstests
Konzept & Planung Rohliste & Repräsentation Übersetzung Verteilung&Verwaltung
Terminologie
Institut für Informatik
Verwaltung durch (öffentliche) Repositories
32WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Terminologie
Institut für Informatik
Verwaltung durch (öffentliche) Repositories
33WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Terminologie
Institut für Informatik
34WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Terminologieextraktion
Terminologie
Institut für Informatik
35WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Welche Ansätze zur Terminologiedefinition gibt es?
• Top-Down-Ansatz– manuelle Modellierung der
Domäne mit bestehender Terminologie
– Experten oder kollaborativ
• Bottom-Up-Ansatz– (semi-)automatische Extraktion
von Terminologie der Domäne• bspw. Named Entity Recogniction
– (semi-)automatische Modellierung der Domäne mit dieser Terminologie
Achse
Getriebe
Rad
Beziehung:wird angetrieben von
Beziehung:sitzt auf
Synonyme:• Räder, Wheels
Getriebe
AchseRad
Räder Wheels
Kontext-Beziehung
Kontext-Beziehung
Synonym-BeziehungSynonym-Beziehung
Terminologie
Institut für Informatik
36WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was ist die Herausforderung autom. Terminologieextraktion?
• Problemstellung: Terminologie in Texten automatisch identifizieren
– was als allgemein üblich empfunden wird, hängt jedoch stark vom Betrachter ab (bei nicht genormten Terminologien…)
• Gleiches Problem wie im Information Retrieval:– Welche Dokumente sind relevant
welche Wörter sind terminologisch?
– Idee aus dem IR: Relevance Feedback• „Ist Content Syndication ein Term der Domäne Content Management?“
Terminologie
Institut für Informatik
37WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was sind statistische Merkmale von Terminologien?
• Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten:
Terminologie
Institut für Informatik
38WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was sind linguistische Merkmale von Termen? - Morphologie
• Morphologie:– Morphem: kleinste bedeutungstragende Einheit der Sprache
• Bsp: „/zer-/ /leg-/ /-en/“
– in bestimmten Fachsprachen sind bestimmte Derivative/Suffixe häufiger bzw. produktiver
• Bsp.: „-itis“ in der Medizin• Bsp.: „-ase“ in der Chemie, Biologie, Medizin
Terminologie
Institut für Informatik
39WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Was sind linguistische Merkmale von Termen? - Syntax
• Syntax: – Einwortterme sind immer Autosemantika, meist N, A– viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POS-
Mustern (z.B. [A N] oder [N N])• meist unvariiert (keine Umstellungen)• nicht trennbar (weder im Englischen noch im Deutschen „split NP“ möglich)
Terminologie
Institut für Informatik
40WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Ansätze zur Terminologie-Extraktion
• Drei Hauptrichtungen (fast alles für Englisch!!)
– Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen…
– Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern.
– Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter.
Terminologie
Institut für Informatik
41WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Ansätze: Erkenntnisse (1)
• Statistische Verfahren:– [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse
einzelner Dokumente ungeeignet– [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute
Ergebnisse bringen – [Dunning 1993]: Verfahren ohne korrektes statistisches Modell
überbewerten seltene Ereignisse
• Linguistische Verfahren:– Contra POS-Muster: mittels [N N] wird aus „the man gave the girl
biscuits“ die Phrase „girl biscuits“ extrahiert.– Contra Parser: Braucht zuviel Wissen im Lexikon (Valenzrahmen,
Wortarten etc.) über die Wörter eines Textes • Aber: das Lexikon soll erst aufgebaut werden!
– Chunking als Kompromiß?• Aufteilung eines Textes in syntaktisch aufeinander bezogene Wortgruppen
Terminologie
Institut für Informatik
42WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Ansätze: Erkenntnisse (2)
• Hybride Verfahren:– [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen
(egal wie extrahiert) ist deren pure Frequenz
• Verfahren für das Deutsche – [Heid 1998]: Semantisch komplexe Begriffe werden im Deutschen
(meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos
Über Kompositazerlegung und Suche nach „domänenspezifischen Basismorphemen“ läßt sich das aber voll kompensieren!
– [Witschel 2005]: Durch interaktive Integration von statistischen Verfahren für die Morphem- und Wortebene und musterbasierten Verfahren für Mehrwortbegriffe lässt sich die Qualität der Ergebnisse deutlich verbessern
Terminologie
Institut für Informatik
43WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Fragen – ggf. für Master- / Diplomarbeiten
• Terminologie-Extraktion:– Wie können Mehrwortbegriffe effektiv extrahiert werden?– Wie können verschiedene terminologische Ausdrücke für das gleiche
(oder ähnliche Konzept) identifiziert werden? (z. B. über ähnliche Kontexte oder Definitionen)
– Wie können die Definitionen zu terminologischen Konzepten extrahiert werden?
• Taxonomien und Ontologien:– Wie können automatisch extrahierte Fachbegriffe für den automatischen
Aufbau von Taxonomien und Ontologien verwendet werden? (z. B. über Entscheidungsbäume)
Terminologie
Institut für Informatik
44WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Literatur• Statistische Verfahren:
– [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S. 162-174.
– [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S. 61-74.
• Hybride Verfahren:– [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some
linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S. 9-27.
– [Daille 1994] Daille, B., Gaussier, E., Lang´e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S. 515-521.
• Deutsch:– [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction
of term candidates from German text. In: Terminology, 5(2), S. 161-181.– [Witschel 2005] Witschel, F. (2005): Terminologie-Extraktion, Ergon Verlag:
Würzburg 2005
Terminologie
Institut für Informatik
45WS09/10 - VL Wissens- und Contentmanagement, Dr. L. Maicher
Link für automatische Terminologie-Extraktion
ASV-Verfahren:
http://wortschatz.uni-leipzig.de/~fwitschel/terminology.html
auch in der ASV-Toolboxhttp://www.asv.informatik.uni-leipzig.de/asv/17