Multilinguale und konzeptbasierte Suche im Internet

Author: GE Paris October 1997

Multilinguale und konzeptbasierte Suche im Internet

Multilinguale Indexierungs-, Navigations- und Editier-Extensionen für das WWW

© DFKI GmbH Sprache ohne Grenzen 04.11.97 (2)

Gliederung

• Das Projekt MULINEX

• Benutzeranforderungen

• Multilingualität im World Wide Wide

• 3 Arten von multilingualen Dokumentsammlungen

• Ansätze im sprachübergreifenden Information Retrieval

• Konzept- und relationsbasiertes Indexieren und Retrieval

• Benutzerschnittstellen für Suchmaschinen

• Technologien


Förderung, Laufzeit, Sprachen

Förderung

MULINEX wird von der Europäischen Kommission im Rahmen des Telematics Application Programme durch den Sektor Language Engineering gefördert (LE 4203).

Gesamter Arbeitsaufwand: 172 Personenmonate

LaufzeitNovember 1996 bis November 1998Der erste Prototyp wurde im 1997 fertiggestellt.

Sprachen

Englisch, Französisch, Deutsch


Konsortium: Partner und Kompetenzschwerpunkte

Benutzer

Bertelsmann Telemedia GmbH, Gütersloh

Online-Dienste,

Electronic Commerce,

Suchmaschinen (lycos.de)

Grolier Interactive Europe, Neuilly sur Seine

Online-Dienste und Entertainment,

Website Management

Technologieanbieter

DFKI GmbH (Deutsches Forschungs-zentrum für Künstliche Intelligenz), SaarbrückenSprachtechnologie

(Morphix, SMES)

DATAMAT, Rom

Information Retrieval (Fulcrum)

TRADOS, Stuttgart

Übersetzungerwerkzeuge, Alignment


ProjektzieleFunktionalität für den Endbenutzer

Such-, Retrieval- und Navigationsfunktionen für den Endbenutzer

• kombinierte Suche mit Stichwörtern, Phrasen und Konzepten

• Retrieval von Dokumenten in verschiedenen Sprachen durch eine Anfrage in einer Sprache

• Informative Darstellung der Suchergebnisse durch Spracherkennung, Zusammenfassung und thematische Klassifikation

• Ausnutzen von Kontext und Benutzerprofilen zur Auswahl der relevantesten Dokumente

• Verbindung mit einem Übersetzungssystem


Benutzeranforderungen für eine multilinguale Suchmaschine

• Leistungsumfang und einfache Benutzbarkeit wie bei Alta Vista, Excite ...

• einfache und fortgeschrittene Suchfunktionen

• schnelle Antwortzeiten, Wartezeiten nicht länger als 2 Sekunden

• Einschränkung der Suche auf bestimmte Themengebiete

• informative Darstellung der Suchergebnisse zur leichten Relevanzbeurteilung

• interaktive Verfeinerung der Suche (wie in AltaVista LiveTopics)

• “Abonnieren” und“Push” von Information

• personalisierter Service (durch Eingeben von Präferenzen)

• gute Benutzerführung und Hilfesystem - intuitive Benutzerschnittstelle


Benutzerprofile I

Die meisten deutschen Benutzer beherrschen deutsch und englisch, aber keine sonstigen Fremd-sprachen

0

10

20

30

40

50

60

70

80

90

de en fr

gutbrauchbarkeine

Sprachfähigkeiten der deutschen Benutzer


Benutzerprofile II

• 76 von 79 deutschen Benutzern verwenden Suchmaschinen

• Alle Benutzer wünschen sich die Möglichkeit, die Suche thematisch einzuschränken

• 45 von 79 Benutzern wollen die Suche nach der Sprache einschränken

0

5

10

15

20

25

30

35

Alta Vista

Lycos

Yahoo

andere

Benutzung von Suchmaschinen


Benutzerprofile III

0

20

40

60

80total

Interesse anfremdsprachigenAngebotenÜbersetzung vonAnfragengewünschtÜbersetzung vonDokumentengewünscht

Interesse an multilingualen Diensten


Ergebnisse bis November 97

• Marktanalyse für IR, Web-Services, multilinguales Dokumentmanagement

• Untersuchung der Benutzeranforderungen

• Anforderungsspezifikation und Systementwurf

• Prototyp in Client-Server-Architektur implementiert

• Psychologische Experimente zur Benutzerschnittstelle


Multilingualität im WWW

• Etwa 91 Prozent aller WWW-Seiten sind englisch (Juni 97).

• Anzahl und Anteil der nicht-englischen Seiten steigen ständig.

• Die meisten Seiten enthalten keine Information über Sprache und Zeichensatz.

• Standards für Sprachkennzeichnung und ein Protokoll für Sprach-vereinbarung sind im aktuellen WWW-Standard (HTTP 1.1) enthalten.

• Die Anzahl der mehrsprachigen (meist zweisprachigen ) WWW-Angebote wächst.

• Werkzeuge für Aufbau und Verwaltung mehrsprachiger Seiten werden entwickelt.


Drei Arten von mehrsprachigenDokumentsammlungen

1. Parallele DokumenteBeispiele: Gesetze der Schweiz und EU, Kanadische Parlamentsakten, Bibel

2. Vergleichbare DokumenteBeispiele: Nachrichten über ein Ereignis, Pharmazeutische Information

3. Unverbundene DokumenteBeispiele: große Teile des heutigen WWW

In der Realität treten diese drei Arten gemeinsam auf.

Exakt parallele Dokumente bleiben die Ausnahme, da Dokumente bei der Über-setzung meist kulturellen und gesetzlichen Gegebenheiten angepaßt werden.

Durch die Verbreitung von Protkollen zur Sprachvereinbarung werden größere Sammlungen von vergleichbaren Dokumenten zugänglich werden.


Ansätze im sprachübergreifenden Information Retrieval

Dokumentübersetzung Anfrageübersetzung

wissensbasiertkorpusbasiert

Textüber-setzung

Vektor-übersetzung

KontrolliertesVokabularFreitext

Alignmentvon Termen

Alignmentvon Sätzen

Alignment vonDokumenten

Kein Alignment

Wörterbuch-basiert

Ontologie-basiert

vergleichbarparallelThesaurusbasiert

D.W. Oard (1997)


Übersetzung und sprachüber-greifendes Information Retrieval

Übersetzung von Dokumentennicht realistisch für allgemeine WWW-Suchmaschinen aufgrund der hohen Verarbeitungs- und Speicheranforderugnen. Nur bei Bedarf für indikative Übersetzung von Dokumenten und Zusammenfassungen.

Übersetzung von Indextermen und Suchanfragenproblematisch wegen Mehrdeutigkeit in kurzen Suchanfragen

Relevanzrückkopplung mit parallelen TextenWenn ein relevantes Dokument gefunden wird, können seine Übersetzungen benutzt werden, um ähnliche Dokumente in anderen Sprachen zu finden.

Machine translation for relevance feedbackWenn keine Übersetzungen existieren, können sie durch maschinelle Über-setzung erzeugt und für die Relevanzrückkopplung verwendet werden.


Phrasales Indexieren

Phrasales Indexieren ist notwendig, weil dasselbe Konzept in manchen Sprachen als Kompositum aus-gedrückt wird und in anderen Sprachen als Nominalphrase

Waschmaschine

washing machine

machine à laver

Eine Relation (Betriebssystem installieren) kann durch eine Vielzahl syntaktischer Konstruktionen ausgedrückt werden (Komposita, komplexe Nominalphrasen, finite oder infinite Verbalphrasen, Passiv-konstruktionen usw.):

Wie installiere ich das Betriebssystem

Installation des Betriebssystems

Betriebssysteminstallation

Anleitung für das Installieren des

Betriebssystems

Das Betriebssystem wird installiert, indem ...


MULINEX Technologien Information-Retrieval-Kernsystem

Das Projekt benutzt die Fulcrum SearchServer-Technologie

• Indexierungs- und Retrieval-Server für verschiedene Betriebssysteme

• SQL-basierte Anfragesprache

• unterstützt Open Database Connectivity (ODBC).

• Suchstrategien: Fuzzy Boolean und Relevanzrückkopplung

• Konverter für eine Vielzahl von Dokumentformaten

Für die verschiedenen Sprachen werden getrennte Index-Datenbanken verwendet.


Technologien: Sprachidentifikation

Verfahren zur Sprachidentifikation

1. auf Grundlage von Funktionswörern (Artikel, Präpositions usw.)

2. auf Grundlage der Häufigkeit von Zeichen-Trigrammen

Die zweite Methode liefert die besseren Resultate (Grefenstette 1995)

Ist Sprachidentifikation notwendig?

Durch Sprachidentifikation wird der Einsatz der passenden Sprachtechnologie (morphologische Analyse, phrasales Parsing, lexikalische Semantik) für die jeweilige Sprache ermöglicht.

Im heutigen WWW ist Sprachidentifikation notwendig, weil die Sprache der meisten Dokumente nicht angegeben ist. In der Zukunft wird die Sprache eines Dokuments durch den Server oder im Dokument selbst angegeben.


Benutzerschnittstelle:Sprach-Optionen

Die Benutzerschnittstelle erlaubt die Angabe von drei Sprach-Optionen:

1. Anfragesprache

Automatische Sprachidentifikation für Anfragen ist problematisch, weil Anfragen oft sehr kurz sind und Eigennamen enthalten können.

2. Sprache der zu suchenden Dokumentebevorzugte Sprache(n), akzeptable Sprache(n)

3. Sprache der BenutzerschnittstelleSprache in der Anweisungen und Hilfetexte angeboten werden


Sprach-Voreinstellungen

• Standardmäßig ist die Frage der Anfrage die Sprache der Benutzerschnittstelle.

• Dokumente werden standardmäßig in den Sprachen gesucht, die der Benutzer in seinem Web-Browser angegeben hat.


Interaktive Suche und Navigation

Heutige Systeme sind noch nicht in der Lage, Mehrdeutigkeiten in Such-Anfragen zuverlässig aufzulösen.

Daher ist Interaktion mit dem Benutzer zur Auflösung der Mehrdeutigkeiten und zur Verfeinerung der Anfrage notwendig.

Einschränkung der Suche

Der Benutzer kann die Suche nach folgenden Kriterien einschränken:

• Sprache der Dokumente

• Themengebiet

• Top-level domain (de, fr, at, com, edu ...)

• Protokoll (http, ftp, gopher ...)


Darstellung von Suchergebnissen

Für jedes Suchergebnis wird die folgende Information angeboten:

• Sprache(n) des Dokuments

• Zusammenfassung

• Thematische Klassifikation

• Titel, Größe, URL, Anzahl von Links und Bildern

Um die Suchergebnisse möglichst informativ und benutzerfreundlich darzustellen, wurde ein psychologisches Experiment mit 84 Versuchspersonen durchgeführt.


Evaluation und Anwendung

Wissenschaftlich-technische Evaluation gemäß eingeführten und neu entwickelten Standards (z.B. TREC)

Evaluation der Benutzbarkeit durch:

• Installation in den WWW-Services der Benutzer

• Befragungen von Endbenutzern durch Fragebogen und Interviews

• Analyse von Logfiles zum besseren Verständnis des Benutzerverhaltens

• Psychologische Experimente zur Benutzerschnittstelle (Oktober 1997)


Projekt TWENTYONE

• Ziel ist die Entwicklung eines Transaktions- und Verbreitungswerkzeugs für Multimedia-Information.

• Verbreitung und Retrieval von multilingualen Dokumenten über nachhaltige Entwicklung (Local Agenda 21)

• Bearbeitung von Bildern, Video, elektronischen Texten und von gescannten Papierdokumenten (einschließlich OCR)

• Dokumentübersetzung wird für sprachübergreifendes IR verwendet

• Partner: Getronics (nl), Univ Twente (nl), Univ Tübingen (de), XEROX (fr), DFKI (de), TNO (nl), MOOI (nl), VODO (be), Friends of the Earth (be), Environ Trust (uk), Klimabündnis (de)

• Förderung durch EU (TAP Information Engineering), Laufzeit 1996 -1998


Projekt POP-EYE

• Multilinguales Erschließungssystem für Videomaterial mit Indexierung auf Basis von Untertiteln und partieller Übersetzung

• Anwendung durch Produzenten bei Rundfunkanstalten zum Auffinden von Video- und Filmausschnitten für neue TV-Produktionen wie Dokumentationen und Trainingsmaterialien.

• Erkennung von Untertitel, natürlichsprachliches Indexieren und partielle Übersetzung werden verwendet um vollständige Skripts aus Untertieln zu extrahieren und multilinguale Indizes aufzubauen.

• Partner: TROS (nl), BBC (uk), BRTN (be), SWF (de), TNO (nl), DFKI (de), Univ Twente (nl), Univ Tubingen (de), van Doesburg Automatisiering (nl)

• Förderung durch EU (TAP Language Engineering), Laufzeit1997 - 1999


Projekt PARADIME

• PARADIME entwickelt eine parametrisierbare Kernmaschine für Anwendungen im Bereich der Informationsextraktion

• Grundlage ist das Saarbrücken Message Extraction System (SMES)

• Das linguistische Kernsystem und die fortgeschrittenen Verfahren der flachen Analyse werden in Abdeckung und Effizienz weiter entwickelt.

• (Semi-)automatische Verfahren der Wissensakquisition werden zum Lernen von Lexikon und Grammatik aus Textbeispielen verwendet

• (Semi-)automatische Adaption an Spezialaufgaben auf Grundlage von Korpusanalyse

• Systematische Evaluation von Informationsextraktions-Systemen

• Anwendungen: Textklassifikation, Indexierung, partielles Textverstehen

• Förderung durch das BMBF, Laufzeit1997 - 1999


Schwerpunkte des Projekts

• Agentenbasierte Suche zur personalisierten Informationsfilterung

• Kombination mit Technologie zur Informationsextraktion

• informative Präsentation von Suchergebnissen

• Kombination von Suche, Übersetzung und Zusammenfassung

Im Vergleich mit anderen Projekten im Bereich des sprachübergreifenden Information Retrieval setzt MULINEX die folgenden Schwerpunkte:

Documents

Multilinguale und konzeptbasierte Suche im Internet