23
Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus Autors: Matīss Rikters Vadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa

Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Embed Size (px)

Citation preview

Page 1: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus

Autors: Matīss RiktersVadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa

Page 2: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Saturs

• Mašīntulkošanas vēsture, pielietojums

• Galvenie virzieni, tulkojumu vērtēšana

• Hibrīdā mašīntulkošana

• Daudzsistēmu hibrīdā MT

• Daudzsistēmu hibrīdās MT eksperiments

• Daudzvārdu savienojumu apstrāde

Page 3: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Mašīntulkošana

• 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi– Džordžtaunas IBM eksperiments

• 1954-1966 - Lielas divvalodu vārdnīcas + likumi• 1966-1980 - ALPAC ziņojums, pētījumi turpinājās

Eiropā un Kanādā• 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT• 1990 - 2000 – Pētījumi runas tulkošanā

Page 4: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Mašīntulkošanas pielietojums

• Tulkošanas pakalpojumi – Google Translate, Bing Translator, ...– Apjomīgu dokumentu tulkošana

• Lokalizācija– Ebay, Adobe, ...

• Terorisma apkarošana

• Tulkošana no runas runā– Skype, ...

Page 5: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Mašīntulkošanas pieejas

• Likumos bāzēta MT (LBMT)– Pārvietojumos bāzētā MT– Uz vārdnīcām bāzētā MT– Starpvalodu MT

• Datos bāzēta MT– Statistiskā MT (SMT)– Uz piemēriem bāzētā MT

• Hibrīdā MT

Page 6: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Mašīntulkojuma vērtēšana

• BLEU– Vārdu un n-grammu atbilstība

• METEOR

• NIST

• WER

• Daudz citu

Page 7: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Hibrīdā MT

• Daudzsistēmu hibrīdā MT

• Statistiskā likumu ģenerēšana

• Daudzkārtējā apstrāde (multi-pass)

Page 8: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Daudzsistēmu hibrīdā MT

• Labākā veselā tulkojuma izvēle

• Labāko tulkojuma daļu kombinēšana

• Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām

Page 9: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Literatūras izpēte

Atslēgvārdi Atrastie rakstiCoupling machine translation

3

Coupling hybrid machine-translation

2

Machine-translation System combination

12

Multi-Engine machine translation

11

• Tika meklēti raksti par daudzsistēmu mašīntulkošanu

• Pēc anotāciju izlasīšanas atstāti14 raksti detalizētai analīzei

• Raksti izanalizēti un savstarpējisalīdzināti to rezultāti

Page 10: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Literatūras izpēte

• Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network)

• Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros

• Visbiežāk tiek apvienotas SMT un LBMT

• BLEU rezultāts vidēji pieaug par 5 – 10 %

Page 11: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Daudzsistēmu MT metodes

• SMT + LBMT

• Pārpratumu tīkls (confusion network)

• Pārpratumu tīkls + uzlabojumi

• Stara meklēšana (beam search)

• Citas metodes

Page 12: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

SMT + LBMT

• Populārākais no sistēmu apvienošanas veidiem

• BLEU pieaug par 10-15%

Analizētie raksti:• Coupling Statistical Machine Translation with Rule-based Transfer and Generation• Hybrid architectures for multi-engine machine translation• Multi-engine machine translation with an open-source decoder for statistical machine translation• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system

Page 13: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Pārpratumu tīkls

• Vienkāršākais sistēmu apvienošanas veids

• Iespējams apvienot jebkāda veida MT sistēmas

• BLEU pieaug par 4-10%

Analizētie raksti:• Lattice-based system combination for statistical machine translation• MANY: Open source machine translation system combination

Page 14: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Pārpratumu tīkls + N-grammu balstītas iezīmes

• Uzlabo pārpratumu tīkla darbību

• BLEU pieaug par līdz pat 14%

Analizētie raksti:• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination

Page 15: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Stara meklēšana

• Alternatīva pārpratumu tīklam

• Iespējams apvienot jebkāda veida MT sistēmas

• BLEU pieaug par 10-14%

Analizētie raksti:• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination• Combining Machine Translation Output with Open Source: The Carnegie Combining Machine Translation Output with Open Source: The Carnegie

Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme

Page 16: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Citas MT apvienošanas metodes

• SMT+EBMT+TM+ NE• Rekursīvā teikumu dekompozīcija• Heiristiskā un statistiskā atlase

1-5% BLEU uzlabojums

Analizētie raksti:• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation

Page 17: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Daudzsistēmu hibrīdās MT eksperiments

Tīmekļa MT sistēmas latviešu – angļu valodām

•Google Translate

•Bing Translator

•Tildes Tulkotājs

•Pragma 6

•BabelXL

Page 18: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Daudzvārdu savienojumu apstrāde

Page 19: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Daudzvārdu savienojumu apstrāde

Metode BLEU

Bāzlīnija 62.23

Bāzlīnija + MWE treniņu datos 62.10

Bāzlīnija + 2. tulkošanas tabula 62.04

Bāzlīnija + papildus iezīme 62.37

Page 20: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Līdz šim paveiktais

• Izlasīta pusotra grāmata par MT

• Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation

• Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai

• Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT

Page 21: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Turpmākie tuvie plāni

• Pabeigt rakstu par daudzsistēmu MT

• Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu

• Vadīt pāris kvalifikācijas darbu

• Izplānot citus tālākus plānus

Page 22: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Izmantotie avoti

• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36.

• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010).

• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.

• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).

• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.

• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.

• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.

• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).

• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005.

• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007.

• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.

• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008.

• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.

• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.

• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.

• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks

• Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/

Page 23: Hibrīdas mašīntulkošanas risinājuma izveide,  kombinējot dažādu mašīntulkošanas sistēmu rezultātus - dokt. skolas prezentācija

Jautājumi?