Upload
matiss-rikters
View
38
Download
4
Embed Size (px)
Citation preview
Hibrīdas mašīntulkošanas risinājuma izveide, kombinējot dažādu mašīntulkošanas sistēmu rezultātus
Autors: Matīss RiktersVadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
Saturs
• Mašīntulkošanas vēsture, pielietojums
• Galvenie virzieni, tulkojumu vērtēšana
• Hibrīdā mašīntulkošana
• Daudzsistēmu hibrīdā MT
• Daudzsistēmu hibrīdās MT eksperiments
• Daudzvārdu savienojumu apstrāde
Mašīntulkošana
• 1947-1954 – Informācijas teorijā bāzēti MT pamatu pētījumi– Džordžtaunas IBM eksperiments
• 1954-1966 - Lielas divvalodu vārdnīcas + likumi• 1966-1980 - ALPAC ziņojums, pētījumi turpinājās
Eiropā un Kanādā• 1980 - 1990 – Jaunas MT metodes, uz piemēriem bāzētā MT• 1990 - 2000 – Pētījumi runas tulkošanā
Mašīntulkošanas pielietojums
• Tulkošanas pakalpojumi – Google Translate, Bing Translator, ...– Apjomīgu dokumentu tulkošana
• Lokalizācija– Ebay, Adobe, ...
• Terorisma apkarošana
• Tulkošana no runas runā– Skype, ...
Mašīntulkošanas pieejas
• Likumos bāzēta MT (LBMT)– Pārvietojumos bāzētā MT– Uz vārdnīcām bāzētā MT– Starpvalodu MT
• Datos bāzēta MT– Statistiskā MT (SMT)– Uz piemēriem bāzētā MT
• Hibrīdā MT
Mašīntulkojuma vērtēšana
• BLEU– Vārdu un n-grammu atbilstība
• METEOR
• NIST
• WER
• Daudz citu
Hibrīdā MT
• Daudzsistēmu hibrīdā MT
• Statistiskā likumu ģenerēšana
• Daudzkārtējā apstrāde (multi-pass)
Daudzsistēmu hibrīdā MT
• Labākā veselā tulkojuma izvēle
• Labāko tulkojuma daļu kombinēšana
• Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām
Literatūras izpēte
Atslēgvārdi Atrastie rakstiCoupling machine translation
3
Coupling hybrid machine-translation
2
Machine-translation System combination
12
Multi-Engine machine translation
11
• Tika meklēti raksti par daudzsistēmu mašīntulkošanu
• Pēc anotāciju izlasīšanas atstāti14 raksti detalizētai analīzei
• Raksti izanalizēti un savstarpējisalīdzināti to rezultāti
Literatūras izpēte
• Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network)
• Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros
• Visbiežāk tiek apvienotas SMT un LBMT
• BLEU rezultāts vidēji pieaug par 5 – 10 %
Daudzsistēmu MT metodes
• SMT + LBMT
• Pārpratumu tīkls (confusion network)
• Pārpratumu tīkls + uzlabojumi
• Stara meklēšana (beam search)
• Citas metodes
SMT + LBMT
• Populārākais no sistēmu apvienošanas veidiem
• BLEU pieaug par 10-15%
Analizētie raksti:• Coupling Statistical Machine Translation with Rule-based Transfer and Generation• Hybrid architectures for multi-engine machine translation• Multi-engine machine translation with an open-source decoder for statistical machine translation• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
Pārpratumu tīkls
• Vienkāršākais sistēmu apvienošanas veids
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 4-10%
Analizētie raksti:• Lattice-based system combination for statistical machine translation• MANY: Open source machine translation system combination
Pārpratumu tīkls + N-grammu balstītas iezīmes
• Uzlabo pārpratumu tīkla darbību
• BLEU pieaug par līdz pat 14%
Analizētie raksti:• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
Stara meklēšana
• Alternatīva pārpratumu tīklam
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 10-14%
Analizētie raksti:• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination• Combining Machine Translation Output with Open Source: The Carnegie Combining Machine Translation Output with Open Source: The Carnegie
Mellon Multi-Engine Machine Translation SchemeMellon Multi-Engine Machine Translation Scheme
Citas MT apvienošanas metodes
• SMT+EBMT+TM+ NE• Rekursīvā teikumu dekompozīcija• Heiristiskā un statistiskā atlase
1-5% BLEU uzlabojums
Analizētie raksti:• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
Daudzsistēmu hibrīdās MT eksperiments
Tīmekļa MT sistēmas latviešu – angļu valodām
•Google Translate
•Bing Translator
•Tildes Tulkotājs
•Pragma 6
•BabelXL
Daudzvārdu savienojumu apstrāde
Daudzvārdu savienojumu apstrāde
Metode BLEU
Bāzlīnija 62.23
Bāzlīnija + MWE treniņu datos 62.10
Bāzlīnija + 2. tulkošanas tabula 62.04
Bāzlīnija + papildus iezīme 62.37
Līdz šim paveiktais
• Izlasīta pusotra grāmata par MT
• Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation
• Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai
• Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT
Turpmākie tuvie plāni
• Pabeigt rakstu par daudzsistēmu MT
• Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu
• Vadīt pāris kvalifikācijas darbu
• Izplānot citus tālākus plānus
Izmantotie avoti
• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36.
• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010).
• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.
• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).
• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.
• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).
• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005.
• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007.
• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.
• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008.
• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.
• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.
• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.
• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks
• Commercial MT Users - http://www.amtaweb.org/commercial-mt-users/
Jautājumi?