Upload
raoul
View
28
Download
0
Embed Size (px)
DESCRIPTION
Multilinguale Indexierungs-, Navigations- und Editier-Extensionen für das WWW. Multilinguale und konzeptbasierte Suche im Internet. Gliederung. Das Projekt MULINEX Benutzeranforderungen Multilingualität im World Wide Wide 3 Arten von multilingualen Dokumentsammlungen - PowerPoint PPT Presentation
Citation preview
Author: GE Paris October 1997
Multilinguale und konzeptbasierte Suche im Internet
Multilinguale Indexierungs-, Navigations- und Editier-Extensionen für das WWW
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (2)
Gliederung
• Das Projekt MULINEX
• Benutzeranforderungen
• Multilingualität im World Wide Wide
• 3 Arten von multilingualen Dokumentsammlungen
• Ansätze im sprachübergreifenden Information Retrieval
• Konzept- und relationsbasiertes Indexieren und Retrieval
• Benutzerschnittstellen für Suchmaschinen
• Technologien
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (3)
Förderung, Laufzeit, Sprachen
Förderung
MULINEX wird von der Europäischen Kommission im Rahmen des Telematics Application Programme durch den Sektor Language Engineering gefördert (LE 4203).
Gesamter Arbeitsaufwand: 172 Personenmonate
LaufzeitNovember 1996 bis November 1998Der erste Prototyp wurde im 1997 fertiggestellt.
Sprachen
Englisch, Französisch, Deutsch
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (4)
Konsortium: Partner und Kompetenzschwerpunkte
Benutzer
Bertelsmann Telemedia GmbH, Gütersloh
Online-Dienste,
Electronic Commerce,
Suchmaschinen (lycos.de)
Grolier Interactive Europe, Neuilly sur Seine
Online-Dienste und Entertainment,
Website Management
Technologieanbieter
DFKI GmbH (Deutsches Forschungs-zentrum für Künstliche Intelligenz), SaarbrückenSprachtechnologie
(Morphix, SMES)
DATAMAT, Rom
Information Retrieval (Fulcrum)
TRADOS, Stuttgart
Übersetzungerwerkzeuge, Alignment
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (5)
ProjektzieleFunktionalität für den Endbenutzer
Such-, Retrieval- und Navigationsfunktionen für den Endbenutzer
• kombinierte Suche mit Stichwörtern, Phrasen und Konzepten
• Retrieval von Dokumenten in verschiedenen Sprachen durch eine Anfrage in einer Sprache
• Informative Darstellung der Suchergebnisse durch Spracherkennung, Zusammenfassung und thematische Klassifikation
• Ausnutzen von Kontext und Benutzerprofilen zur Auswahl der relevantesten Dokumente
• Verbindung mit einem Übersetzungssystem
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (6)
Benutzeranforderungen für eine multilinguale Suchmaschine
• Leistungsumfang und einfache Benutzbarkeit wie bei Alta Vista, Excite ...
• einfache und fortgeschrittene Suchfunktionen
• schnelle Antwortzeiten, Wartezeiten nicht länger als 2 Sekunden
• Einschränkung der Suche auf bestimmte Themengebiete
• informative Darstellung der Suchergebnisse zur leichten Relevanzbeurteilung
• interaktive Verfeinerung der Suche (wie in AltaVista LiveTopics)
• “Abonnieren” und“Push” von Information
• personalisierter Service (durch Eingeben von Präferenzen)
• gute Benutzerführung und Hilfesystem - intuitive Benutzerschnittstelle
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (7)
Benutzerprofile I
Die meisten deutschen Benutzer beherrschen deutsch und englisch, aber keine sonstigen Fremd-sprachen
0
10
20
30
40
50
60
70
80
90
de en fr
gutbrauchbarkeine
Sprachfähigkeiten der deutschen Benutzer
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (8)
Benutzerprofile II
• 76 von 79 deutschen Benutzern verwenden Suchmaschinen
• Alle Benutzer wünschen sich die Möglichkeit, die Suche thematisch einzuschränken
• 45 von 79 Benutzern wollen die Suche nach der Sprache einschränken
0
5
10
15
20
25
30
35
Alta Vista
Lycos
Yahoo
andere
Benutzung von Suchmaschinen
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (9)
Benutzerprofile III
0
20
40
60
80total
Interesse anfremdsprachigenAngebotenÜbersetzung vonAnfragengewünschtÜbersetzung vonDokumentengewünscht
Interesse an multilingualen Diensten
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (10)
Ergebnisse bis November 97
• Marktanalyse für IR, Web-Services, multilinguales Dokumentmanagement
• Untersuchung der Benutzeranforderungen
• Anforderungsspezifikation und Systementwurf
• Prototyp in Client-Server-Architektur implementiert
• Psychologische Experimente zur Benutzerschnittstelle
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (11)
Multilingualität im WWW
• Etwa 91 Prozent aller WWW-Seiten sind englisch (Juni 97).
• Anzahl und Anteil der nicht-englischen Seiten steigen ständig.
• Die meisten Seiten enthalten keine Information über Sprache und Zeichensatz.
• Standards für Sprachkennzeichnung und ein Protokoll für Sprach-vereinbarung sind im aktuellen WWW-Standard (HTTP 1.1) enthalten.
• Die Anzahl der mehrsprachigen (meist zweisprachigen ) WWW-Angebote wächst.
• Werkzeuge für Aufbau und Verwaltung mehrsprachiger Seiten werden entwickelt.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (12)
Drei Arten von mehrsprachigenDokumentsammlungen
1. Parallele DokumenteBeispiele: Gesetze der Schweiz und EU, Kanadische Parlamentsakten, Bibel
2. Vergleichbare DokumenteBeispiele: Nachrichten über ein Ereignis, Pharmazeutische Information
3. Unverbundene DokumenteBeispiele: große Teile des heutigen WWW
In der Realität treten diese drei Arten gemeinsam auf.
Exakt parallele Dokumente bleiben die Ausnahme, da Dokumente bei der Über-setzung meist kulturellen und gesetzlichen Gegebenheiten angepaßt werden.
Durch die Verbreitung von Protkollen zur Sprachvereinbarung werden größere Sammlungen von vergleichbaren Dokumenten zugänglich werden.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (13)
Ansätze im sprachübergreifenden Information Retrieval
Dokumentübersetzung Anfrageübersetzung
wissensbasiertkorpusbasiert
Textüber-setzung
Vektor-übersetzung
KontrolliertesVokabularFreitext
Alignmentvon Termen
Alignmentvon Sätzen
Alignment vonDokumenten
Kein Alignment
Wörterbuch-basiert
Ontologie-basiert
vergleichbarparallelThesaurusbasiert
D.W. Oard (1997)
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (14)
Übersetzung und sprachüber-greifendes Information Retrieval
Übersetzung von Dokumentennicht realistisch für allgemeine WWW-Suchmaschinen aufgrund der hohen Verarbeitungs- und Speicheranforderugnen. Nur bei Bedarf für indikative Übersetzung von Dokumenten und Zusammenfassungen.
Übersetzung von Indextermen und Suchanfragenproblematisch wegen Mehrdeutigkeit in kurzen Suchanfragen
Relevanzrückkopplung mit parallelen TextenWenn ein relevantes Dokument gefunden wird, können seine Übersetzungen benutzt werden, um ähnliche Dokumente in anderen Sprachen zu finden.
Machine translation for relevance feedbackWenn keine Übersetzungen existieren, können sie durch maschinelle Über-setzung erzeugt und für die Relevanzrückkopplung verwendet werden.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (15)
Phrasales Indexieren
Phrasales Indexieren ist notwendig, weil dasselbe Konzept in manchen Sprachen als Kompositum aus-gedrückt wird und in anderen Sprachen als Nominalphrase
Waschmaschine
washing machine
machine à laver
Eine Relation (Betriebssystem installieren) kann durch eine Vielzahl syntaktischer Konstruktionen ausgedrückt werden (Komposita, komplexe Nominalphrasen, finite oder infinite Verbalphrasen, Passiv-konstruktionen usw.):
Wie installiere ich das Betriebssystem
Installation des Betriebssystems
Betriebssysteminstallation
Anleitung für das Installieren des
Betriebssystems
Das Betriebssystem wird installiert, indem ...
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (16)
MULINEX Technologien Information-Retrieval-Kernsystem
Das Projekt benutzt die Fulcrum SearchServer-Technologie
• Indexierungs- und Retrieval-Server für verschiedene Betriebssysteme
• SQL-basierte Anfragesprache
• unterstützt Open Database Connectivity (ODBC).
• Suchstrategien: Fuzzy Boolean und Relevanzrückkopplung
• Konverter für eine Vielzahl von Dokumentformaten
Für die verschiedenen Sprachen werden getrennte Index-Datenbanken verwendet.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (17)
Technologien: Sprachidentifikation
Verfahren zur Sprachidentifikation
1. auf Grundlage von Funktionswörern (Artikel, Präpositions usw.)
2. auf Grundlage der Häufigkeit von Zeichen-Trigrammen
Die zweite Methode liefert die besseren Resultate (Grefenstette 1995)
Ist Sprachidentifikation notwendig?
Durch Sprachidentifikation wird der Einsatz der passenden Sprachtechnologie (morphologische Analyse, phrasales Parsing, lexikalische Semantik) für die jeweilige Sprache ermöglicht.
Im heutigen WWW ist Sprachidentifikation notwendig, weil die Sprache der meisten Dokumente nicht angegeben ist. In der Zukunft wird die Sprache eines Dokuments durch den Server oder im Dokument selbst angegeben.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (18)
Benutzerschnittstelle:Sprach-Optionen
Die Benutzerschnittstelle erlaubt die Angabe von drei Sprach-Optionen:
1. Anfragesprache
Automatische Sprachidentifikation für Anfragen ist problematisch, weil Anfragen oft sehr kurz sind und Eigennamen enthalten können.
2. Sprache der zu suchenden Dokumentebevorzugte Sprache(n), akzeptable Sprache(n)
3. Sprache der BenutzerschnittstelleSprache in der Anweisungen und Hilfetexte angeboten werden
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (19)
Sprach-Voreinstellungen
• Standardmäßig ist die Frage der Anfrage die Sprache der Benutzerschnittstelle.
• Dokumente werden standardmäßig in den Sprachen gesucht, die der Benutzer in seinem Web-Browser angegeben hat.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (20)
Interaktive Suche und Navigation
Heutige Systeme sind noch nicht in der Lage, Mehrdeutigkeiten in Such-Anfragen zuverlässig aufzulösen.
Daher ist Interaktion mit dem Benutzer zur Auflösung der Mehrdeutigkeiten und zur Verfeinerung der Anfrage notwendig.
Einschränkung der Suche
Der Benutzer kann die Suche nach folgenden Kriterien einschränken:
• Sprache der Dokumente
• Themengebiet
• Top-level domain (de, fr, at, com, edu ...)
• Protokoll (http, ftp, gopher ...)
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (21)
Darstellung von Suchergebnissen
Für jedes Suchergebnis wird die folgende Information angeboten:
• Sprache(n) des Dokuments
• Zusammenfassung
• Thematische Klassifikation
• Titel, Größe, URL, Anzahl von Links und Bildern
Um die Suchergebnisse möglichst informativ und benutzerfreundlich darzustellen, wurde ein psychologisches Experiment mit 84 Versuchspersonen durchgeführt.
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (22)
Evaluation und Anwendung
Wissenschaftlich-technische Evaluation gemäß eingeführten und neu entwickelten Standards (z.B. TREC)
Evaluation der Benutzbarkeit durch:
• Installation in den WWW-Services der Benutzer
• Befragungen von Endbenutzern durch Fragebogen und Interviews
• Analyse von Logfiles zum besseren Verständnis des Benutzerverhaltens
• Psychologische Experimente zur Benutzerschnittstelle (Oktober 1997)
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (23)
Projekt TWENTYONE
• Ziel ist die Entwicklung eines Transaktions- und Verbreitungswerkzeugs für Multimedia-Information.
• Verbreitung und Retrieval von multilingualen Dokumenten über nachhaltige Entwicklung (Local Agenda 21)
• Bearbeitung von Bildern, Video, elektronischen Texten und von gescannten Papierdokumenten (einschließlich OCR)
• Dokumentübersetzung wird für sprachübergreifendes IR verwendet
• Partner: Getronics (nl), Univ Twente (nl), Univ Tübingen (de), XEROX (fr), DFKI (de), TNO (nl), MOOI (nl), VODO (be), Friends of the Earth (be), Environ Trust (uk), Klimabündnis (de)
• Förderung durch EU (TAP Information Engineering), Laufzeit 1996 -1998
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (24)
Projekt POP-EYE
• Multilinguales Erschließungssystem für Videomaterial mit Indexierung auf Basis von Untertiteln und partieller Übersetzung
• Anwendung durch Produzenten bei Rundfunkanstalten zum Auffinden von Video- und Filmausschnitten für neue TV-Produktionen wie Dokumentationen und Trainingsmaterialien.
• Erkennung von Untertitel, natürlichsprachliches Indexieren und partielle Übersetzung werden verwendet um vollständige Skripts aus Untertieln zu extrahieren und multilinguale Indizes aufzubauen.
• Partner: TROS (nl), BBC (uk), BRTN (be), SWF (de), TNO (nl), DFKI (de), Univ Twente (nl), Univ Tubingen (de), van Doesburg Automatisiering (nl)
• Förderung durch EU (TAP Language Engineering), Laufzeit1997 - 1999
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (25)
Projekt PARADIME
• PARADIME entwickelt eine parametrisierbare Kernmaschine für Anwendungen im Bereich der Informationsextraktion
• Grundlage ist das Saarbrücken Message Extraction System (SMES)
• Das linguistische Kernsystem und die fortgeschrittenen Verfahren der flachen Analyse werden in Abdeckung und Effizienz weiter entwickelt.
• (Semi-)automatische Verfahren der Wissensakquisition werden zum Lernen von Lexikon und Grammatik aus Textbeispielen verwendet
• (Semi-)automatische Adaption an Spezialaufgaben auf Grundlage von Korpusanalyse
• Systematische Evaluation von Informationsextraktions-Systemen
• Anwendungen: Textklassifikation, Indexierung, partielles Textverstehen
• Förderung durch das BMBF, Laufzeit1997 - 1999
© DFKI GmbH Sprache ohne Grenzen 04.11.97 (26)
Schwerpunkte des Projekts
• Agentenbasierte Suche zur personalisierten Informationsfilterung
• Kombination mit Technologie zur Informationsextraktion
• informative Präsentation von Suchergebnissen
• Kombination von Suche, Übersetzung und Zusammenfassung
Im Vergleich mit anderen Projekten im Bereich des sprachübergreifenden Information Retrieval setzt MULINEX die folgenden Schwerpunkte: