Upload
matiss-rikters
View
24
Download
6
Embed Size (px)
Citation preview
Hibrīdie daudzsistēmu mašīntulkošanas risinājumi
Autors: Matīss RiktersVadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa
Saturs
• Hibrīdā mašīntulkošana• Daudzsistēmu hibrīdā MT
– SMT + RBMT– Pārpratumu tīkls (confusion network)– Pārpratumu tīkls + uzlabojumi– Beam search– Citas metodes
• Daudzsistēmu hibrīdās MT eksperiments
Mašīntulkošana
Hibrīdā mašīntulkošana
• Daudzsistēmu hibrīdā MT– Paralēli darbinātas vairākas MT sistēmas
• Statistiskā likumu ģenerēšana– RBMT sistēmas likumi ģenerēti no treniņu korpusiem
• Daudzkārtējā apstrāde (multi-pass)– Secīga datu apstrāde sākumā ar RBMT, tad SMT
Daudzsistēmu hibrīdā MT
• Labākā veselā tulkojuma izvēle
• Labāko tulkojuma daļu kombinēšana
• Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām
Literatūras izpēte
Atslēgvārdi Atrastie rakstiCoupling machine translation
3
Coupling hybrid machine-translation
2
Machine-translation System combination
12
Multi-Engine machine translation
11
• Tika meklēti raksti par daudzsistēmu mašīntulkošanu• Piecās e-resursu datubāzēs atradās 28 atbilstoši raksti• Pēc anotāciju izlasīšanas atstāti 14 detalizētai analīzei• Raksti izanalizēti un savstarpēji
salīdzināti to rezultāti
Daudzsistēmu MT metodes
• SMT + RBMT
• Pārpratumu tīkls (confusion network)
• Pārpratumu tīkls + uzlabojumi
• Beam search
• Citas metodes
SMT + RBMT
Iespējas apvienot dažādās sistēmu darbības fāzēs:•Apvienots bāzlīnijas modelis ar ieejas datiem no RBMT avota analīzes posma•Apvienots pārkārtošanas modelis ar tikai tuvējo pārkārtošanu•Apvienots pārkārtošanas modelis ar tikai tālās distances pārkārtošanu•Apvienots pārkārtošanas modelis ar tuvējo un tālās distances pārkārtošanu•Apvienots modelis ar ievaddatiem no RBMT ģenerēšanas fāzes (līdzīgi Automatic/Statistical Post-editing sērijveida kombinācijai)
SMT + RBMT
SMT + RBMT
• Populārākais no sistēmu apvienošanas veidiem
• BLEU pieaug par 10-15%
Analizētie raksti:• Coupling Statistical Machine Translation with Rule-based Transfer and Generation• Hybrid architectures for multi-engine machine translation• Multi-engine machine translation with an open-source decoder for statistical machine translation• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system
Pārpratumu tīkls
1. Savākt N-labāko izvaddatu sarakstu no MT sistēmām un pēc izvēles veikt priekšapstrādi (lower case, re-tokenize, utt.);
2. Katram segmentam izvēlēties vienu/vairākus skelettulkojumus;
3. Sastatīt visas pārējās hipotēzes pret skeletu/skeletiem;
4. Izveidot pārpratumu tīklu no katra segmenta sastatījumiem;
5. Dekodēt pārpratumu tīklus ar iezīmēm un teikuma līmeņa rādītājiem (LM score, word insertion score, utt.);
6. Pēcapstrāde pēc izvēles (true casing, detokenization, utt.).
Pārpratumu tīkls
twelve big blue cars
twelve NULL NULL cars
dozen NULL blue cars
Pārpratumu tīkls
• Vienkāršākais sistēmu apvienošanas veids
• Iespējams apvienot jebkāda veida MT sistēmas
• BLEU pieaug par 4-10%
Analizētie raksti:• Lattice-based system combination for statistical machine translation• MANY: Open source machine translation system combination
Pārpratumu tīkls + N-grammās balstītas iezīmes
• Uzlabo pārpratumu tīkla darbību– Papildus iezīmes veicina labāku hipotēzes izvēli
• BLEU pieaug par līdz pat 14%
Analizētie raksti:• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination
Beam Search
• Tas pats, kas tiek lietots MOSES dekodēšanā• Alternatīva pārpratumu tīklam• Iespējams apvienot jebkāda veida MT sistēmas• BLEU pieaug par 10-14%
Analizētie raksti:• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination• Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-
Engine Machine Translation SchemeEngine Machine Translation Scheme
Citas MT apvienošanas metodes
• SMT+EBMT+TM+NE• Rekursīvā teikumu dekompozīcija• Heiristiskā un statistiskā atlase
1-5% BLEU uzlabojums
Analizētie raksti:• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation
Literatūras izpēte
• Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network) Visbiežāk tiek apvienotas SMT un RBMT
• Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros
• BLEU rezultāts vidēji pieaug par 5 – 15%
Literatūras izpēte
MetodeBLEU
pieaugums%
METEOR pieaugums
%
Parallel coupling 2-3 N/A N/A N/ABeam search 6.67 11.4 3.32 4.7RBMT with SMT 0.87 7.6 N/A N/AHeuristic & statistical selection 0.20 0.7 N/A N/ARBMT with SMT N/A N/A N/A N/AN-gram based 5.17 13.5 N/A N/ALattice based 3.92 10.5 N/A N/AMultiple confusion networks 2.26 3.9 N/A N/ARecursive sentence decomposition 1.55 4.9 N/A N/AExplicit word matching N/A N/A 7.78 15RBMT with SMT 3.32 15.5 N/A N/ASMT+EBMT+TM+ NE 0.38 1.3 N/A N/AMultiple RBMT engines 7.85 24.3 N/A N/AN-gram based features 0.84 2.7 N/A N/A
Daudzsistēmu hibrīdās MT eksperiments
Tīmekļa MT sistēmas latviešu – angļu valodām
•Google Translate
•Bing Translator
•Tildes Tulkotājs
•Pragma 6
•BabelXL
Līdz šim paveiktais
• Izlasīta pusotra grāmata par MT
• Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation
• Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai
• Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT
Turpmākie tuvie plāni
• Pabeigt rakstu par daudzsistēmu MT
• Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu
• Vadīt pāris kvalifikācijas darbu
• Izplānot citus tālākus plānus
Izmantotie avoti
• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36.
• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010).
• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.
• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).
• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.
• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.
• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).
• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005.
• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007.
• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.
• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008.
• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.
• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.
• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.
• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks
• Olivie, J., C. Christianson, and J. McCarry. "Handbook of natural Language Processing and Machine Translation." (2011).
• Rosti, Antti-Veikko I., et al. "Review of hypothesis alignment algorithms for MT system combination via confusion network decoding." Proceedings of the Seventh Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2012.
Jautājumi?