8
Regelbasierte und statistische Ansätze der maschinellen Übersetzung Grundlagen

Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Embed Size (px)

DESCRIPTION

Maschinelle Übersetzung (MÜ) ist eine Computeranwendung zur Übersetzung digitaler Texte von einer natürlichen Sprache in eine andere. MÜ gibt es schon seit einigen Jahrzehnten, aber seit der Zunahme von digitalen Inhalten ist maschinelle Übersetzung für viele Unternehmen und Behörden verstärkt in den Vordergrund gerückt.

Citation preview

Page 1: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Grundlagen

Page 2: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Beispiel, könnte je nach Kontext “Sitzgelegenheit” oder “Geldinstitut” bedeuten. Ein kleines Wort wie “in” stellt eine noch größere Herausforderung dar, da es auf sehr unterschiedliche Weise verwendet werden kann, zum Beispiel: “In der Armee”, “in dem Raum” und “in Not” - drei ganz verschiedene Bedeutungen.

Selbst Grammatik ist für einen Computer mehrdeutig. Zum Beispiel hat “Ich habe Sushi mit Thunfisch gegessen” viele mögliche Interpretationen, darunter auch “Ich aß Sushi mit zwei Thunfischen als Essstäbchen”. Es ist also offensichtlich, dass mehrdeutige Wörter und Grammatikregeln zusammengenommen die zentrale Schwierigkeit konstituieren, die es zu überwinden gilt.

Dementsprechend ist die Aufgabe eines maschinellen Übersetzungssystems im Übersetzungsvorgang fundierte Entscheidungen bezüglich des zutreffenden Wortes und der zutreffenden Grammatik herbeizuführen. Die vom Übersetzungssystem verwendete Methodik, um Mehrdeutigkeiten auszuschließen und um Entscheidungen zu treffen, ist durch den im Entwicklungsprozess gewählten Ansatz bestimmt.

Grundlagen zur maschinellen Übersetzung Maschinelle Übersetzung (MÜ) ist eine Computeranwendung zur Übersetzung digitaler Texte von einer natürlichen Sprache in eine andere. MÜ gibt es schon seit einigen Jahrzehnten, aber seit der Zunahme von digitalen Inhalten ist maschinelle Übersetzung für viele Unternehmen und Behörden verstärkt in den Vordergrund gerückt.

Bevor die Unterschiede der beiden Ansätze herausgearbeitet werden, sollen noch einige allgemeine Informationen, die auf alle maschinellen Übersetzungslösungen zutreffen, dargelegt werden.

Die zentrale Schwierigkeit, die bei der Entwicklung von maschinellen Übersetzungssystemen gemeistert werden muss, ist Mehrdeutigkeit.

In der digitalen Welt der “Nullen und Einsen” ist jedes Wort mehrdeutig. Das Wort “Bank” zum

Page 3: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Regelbasierte MÜCommon Sense Advisory (www.commonsenseadvisory.com) definiert regelbasierte MÜ wie folgt: “Basiert auf linguistischen Theorien, grammatikalischen Strukturen oder Bedeutungen. Linguisten und Programmierer kodieren diese Informationen in Regeln und Wörterbuch-Datenbanken.” (Beyond Global Websites: Translation, März 2005)

Bei einem RBMÜ-System werden Mehrdeutigkeiten zwischen zwei Sprachen über linguistische Regeln ausgeleuchtet. Für jedes neue Sprachpaar müssen die entsprechenden Regeln manuell kodiert werden. Je mehr Regeln also eingegeben werden, desto höher die Qualität der Übersetzung. Es sind jedoch mehr Regeln erforderlich als eine einzelne Person eingeben kann und es gibt zudem zusätzliche Regeln darüber, welche Regeln in welchem Kontext zutreffen.

Spätere Qualitätsverbesserungen sind schwierig, da neue Regeln, die für bestimmte Szenarien eingegeben werden, die Übersetzung in anderen Szenarien beeinträchtigen können. Demzufolge können RBMÜ-Sprachpaare üblicherweise im Laufe der Zeit nur wenig verbessert werden.

Zwei Ansätze zur Überwindung der Mehrdeutigkeit In den letzten Jahrzehnten gab es viele Versuche, die Aufgabenstellung ‘Mehrdeutigkeit’ anzugehen und die Übersetzungsqualität von maschinellen Übersetzungen zu verbessern. Viele Theorien wurden unter Beweis gestellt, aber dann wieder widerlegt. Letztendlich kristallisierten sich zwei Hauptansätze als die erfolgreichsten heraus: Regelbasierte maschinelle Übersetzung (RBMÜ) und statistische maschinelle Übersetzung (SMÜ).

Statistische MÜ Statistische MÜ wird wie folgt definiert: “Auf Wahrscheinlichkeit basierender Ansatz, der sich der statistischen Analyse von Mustern in umfangreichen Textsammlungen bedient. Vereinfacht gesprochen bedeutet dies, dass SMÜ-Systeme diese Textdaten automatisch analysieren, indem sie diese als Zeichenketten interpretieren und darin Muster ermitteln, welche als Gesetzmäßigkeiten angewendet werden.” (Beyond Global Websites: Translation, Common Sense Advisory, März 2005)

Für die Erstellung neuer Sprachkombinationen extrahieren SMÜ-Systeme die entsprechenden linguistischen Regeln durch die automatische Aufbereitung und Analyse bereits übersetzter zweisprachiger Textsammlungen. Die erlernten Regeln dienen letztendlich dazu, die Mehrdeutigkeiten zwischen den beiden Sprachen auszuleuchten. Das SMÜ-System kann somit also trainiert werden, zu unterscheiden, welche Regeln in welchem Kontext gelten.

Nachdem ein SMÜ-System für eine Sprachkombination erstellt ist und genutzt wird, ist es möglich, die Übersetzungsqualität für diese Sprachkombination weiterhin zu verbessern, indem man zusätzliche Texte zur Textsammlung hinzufügt und den für den Extrahierungs- und Übersetzungsprozess verwendeten statistischen Algorithmus verbessert. Aufgrund des automatisierten Entwicklungsprozesses kann sich die Genauigkeit der SMÜ alle sechs Monate verbessern.

Page 4: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Baseline vs. CustomizedIn der Regel sind MÜ-Systeme in zwei Versionen je Sprachkombination verfügbar: Baseline oder Customized.

Mit Baseline ist die Standard-Version der Software bei Auslieferung gemeint. Baseline-Systeme werden in der Regel für die Erstellung von funktionellen Übersetzungen in diversen Fachgebieten verwendet, sind aber auf kein Fachgebiet spezialisiert. Da Baseline-Systeme zur Anwendung in vielen Fachgebieten entwickelt wurden, ist die Übersetzungsqualität insgesamt niedriger.

Customized hingegen bezeichnet ein System, das für ein bestimmtes Sprachpaar zusätzlich verfeinert wurde, um in einem bestimmten Fachgebiet oder für einen bestimmten Kunden erhöhte Übersetzungsqualität zu erreichen. Im Gegensatz zu Baseline-Systemen, werden diese mit spezifischen Texten angereicherte Systeme für besonders hochwertige Übersetzungen in einem einzigen Fachgebiet entwickelt. Sie werden in der Regel für ein bestimmtes Unternehmen oder eine Branche erstellt. Die Anreicherung des Systems mit Fachtexten und die enge Spezialisierung ermöglicht gute Übersetzungsqualität in Bezug auf Terminologie und Stil.

Page 5: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Regelbasierter MÜ-AnsatzBaseline-Systeme: Regelbasierte Systeme generieren Übersetzungen mithilfe von ermittelten linguistischen Regeln zwischen zwei Sprachen. Weil ein Großteil der linguistischen Regeln handkodiert werden muss, werden für die Fertigstellung des Systems mehrere Jahre benötigt. Dies ist somit ein sehr arbeitsintensives Verfahren, selbst für Baseline-Systeme. Baseline-Systeme können verbessert werden, indem Regeln verfeinert und neue Regeln hinzugefügt werden. Es kann jedoch schwierig sein, Systeme für seltene Sprachkombinationen zu erstellen, da die Ermittlung von Regeln nur durch Spezialisten erfolgen kann, die sowohl Quell- als auch Zielsprache sehr gut kennen.

Customized-Systeme: Bei der Entwicklung von spezialisierten Systemen befolgen Linguisten einen ähnlichen Prozess zur Ermittlung von Regeln, jedoch liegt der Fokus hierbei auf Texten eines bestimmten Kunden oder eines bestimmten Fachgebiets in der gewünschten Sprachkombination. Während dieses Prozesses analysieren sie Kundendaten und erstellen relevante linguistische Regeln und Wörterbucheinträge. Dieser manuelle Prozess ist sehr zeit- und arbeitsintensiv und ist infolgedessen sehr teuer.

Kontinuierliche Verbesserungen sind möglich, erfordern jedoch die Erstellung weiterer Regeln und Wörterbucheinträge, das heißt, den Einsatz von Linguisten, Zeit und Geld.

Page 6: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Statistischer MÜ-AnsatzBaseline-Systeme: Durch die Aufbereitung und Analyse von bereits übersetzten zweisprachigen Textsammlungen wird ein SMÜ-System trainiert, Texte einer bestimmten Sprachkombination zu übersetzen. Da das System die linguistischen Regeln automatisch extrahiert und in statistische Zusammenhänge überträgt (anstatt in komplexe Regeln und Wörterbucheinträge), kann ein SMÜ-System in nur wenigen Wochen für ein neues Sprachpaar erstellt werden. Durch Hinzufügen weiterer Daten und durch Verbesserung der Algorithmen kann das System stetig besser werden. Die Texte, die im Entwicklungsprozess von Baseline-Versionen für SMÜ-Systeme verwendet werden, sind von allgemeinsprachlicher Natur und decken ein breites Themenspektrum ab.

Customized-Systeme: Customized-Systeme werden mit dem gleichen Verfahren wie Baseline-Systeme erstellt, jedoch werden anstelle von Daten aus verschiedenen Quellen und von vielen Fachgebieten nur Daten eines speziellen

Kunden bzw. eines speziellen Fachgebiets verwendet. Vom Kunden zur Verfügung gestellte übersetzte Dokumente werden nun vom Übersetzungsprogramm automatisch bearbeitet. Über diesen maschinellen Lernprozess wird ein spezialisiertes Übersetzungsprogramm für ein neues Sprachpaar erstellt, das die unternehmensspezifische (Fach-)sprache problemlos übersetzen kann und das somit überzeugende, qualitativ hochwertige Übersetzungen innerhalb eines vorgegebenen Bereichs generiert.

Das maschinelle Lernen von SMÜ-Systemen führt somit zu schneller Kundenausrichtung und zu schnellerer Produkteinführungszeit. Wenn Unternehmen Customized-Systeme einsetzen, profitieren sie von signifikanten Verbesserungen der Produktivität und von schnellem ROI.

Durch Hinzufügen von zusätzlichen kunden- und fachspezifischen Texten, können trainierte Sprachpaare fortlaufend verbessert werden.

Page 7: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

Hybride MÜ-SystemeRegelbasierte und statistische Ansätze wurden lange Zeit als separate Forschungszweige angesehen, aber mittlerweile arbeiten MÜ-Anbieter beider Lager an der Entwicklung von so genannten hybriden MÜ-Systemen. Das sind Übersetzungsprogramme, die Statistiken und Regeln kombinieren, und somit die erprobten Technologien beider Ansätzen nutzen.

RBMÜ- und SMÜ-Entwickler gehen hierbei unterschiedlich vor.RBMÜ-Entwickler haben statistische Analysen als zusätzlichen Schritt in den Übersetzungs-Workflow eingebaut, um die Verständlichkeit zu erhöhen. Der SMÜ-Entwickler SDL (ehemals Language Weaver) wiederum hat seine Technologie überarbeitet und mit der so genannten “Statistischen Syntax” den Weg für SMÜ-Systeme der nächsten Generation bereitet. Statistische Syntax kombiniert den zentralen Vorteil von SMÜ, das maschinelle Lernen, mit der für RBMÜ-Systeme üblichen manuellen Eingabe von Grammatikregeln. Diese hybride Version von SMÜ versteht nicht nur Grammatikregeln, sondern erlernt sie auch automatisch. Das Ergebnis der statistischen Syntax sind genauere statistische Übersetzungen durch bessere Lernalgorithmen.

Vorteile von SMÜ-SystemenMithilfe von RBMÜ- und SMÜ-Systemen wurden Unternehmen erfolgreiche Übersetzungslösungen zur Verfügung gestellt. In Anbetracht der wachsenden Informationsmengen, die in und aus verschiedenen Sprachen übersetzt werden müssen, haben SMÜ-Systeme erhebliche Vorteile gegenüber RBMÜ-Systemen.

• NeueSprachpaarekönnenschnellerstelltwerden (Monate vs. Jahre):

• Sprachpaarekönneneinfachfürbestimmte Fachgebiete (IT, Medizin, Fertigungsindustrie) trainiert werden.

• ÜbersetzungsqualitätkanninvielkürzererZeit und kontinuierlicher verbessert werden (Wochen vs. Monate/Jahre).

Page 8: Regelbasierte und statistische Ansätze der maschinellen Übersetzung

SDL ermöglicht es globalen Unternehmen, erfolgreich mit ihren Kunden zu interagieren. Die Technologie- und Servicelösungen von SDL umfassen die gesamte Customer Journey über verschiedene Sprachen, Kulturen, Kanäle und Medien hinweg.

SDL hat über 1.500 Firmenkunden, 400 Partner sowie eine globale Infrastruktur mit 70 Niederlassungen in 38 Ländern. 42 der 50 Topmarken arbeiten mit SDL.

Für weitere Informationen zu unseren Produkten sprechen Sie uns einfach an: [email protected] oder +49 (0)711 780 60 0

SDL Language SolutionsWaldburgstraße 21 | 70563 Stuttgart(t) +49 (0)711 780 60 0 | (f) +49 (0)711 780 60 102 [email protected] | www.sdl.com/de

Copyright © 2013 SDL plc. Alle Rechte vorbehalten Alle hier genannten Bezeichnungen von Unternehmensprodukten oder Dienstleistungen sind Eigentum ihrer jeweiligen Inhaber