23
Hibrīdie daudzsistēmu mašīntulkošanas risinājumi Autors: Matīss Rikters Vadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa

Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Embed Size (px)

Citation preview

Page 1: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Autors: Matīss RiktersVadītāja: vad. pētn., Dr. Dat. Inguna Skadiņa

Page 2: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Saturs

• Hibrīdā mašīntulkošana• Daudzsistēmu hibrīdā MT

– SMT + RBMT– Pārpratumu tīkls (confusion network)– Pārpratumu tīkls + uzlabojumi– Beam search– Citas metodes

• Daudzsistēmu hibrīdās MT eksperiments

Page 3: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Mašīntulkošana

Page 4: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Hibrīdā mašīntulkošana

• Daudzsistēmu hibrīdā MT– Paralēli darbinātas vairākas MT sistēmas

• Statistiskā likumu ģenerēšana– RBMT sistēmas likumi ģenerēti no treniņu korpusiem

• Daudzkārtējā apstrāde (multi-pass)– Secīga datu apstrāde sākumā ar RBMT, tad SMT

Page 5: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Daudzsistēmu hibrīdā MT

• Labākā veselā tulkojuma izvēle

• Labāko tulkojuma daļu kombinēšana

• Vienu MT sistēmu darbības principu apvienošana ar citām sistēmām

Page 6: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Literatūras izpēte

Atslēgvārdi Atrastie rakstiCoupling machine translation

3

Coupling hybrid machine-translation

2

Machine-translation System combination

12

Multi-Engine machine translation

11

• Tika meklēti raksti par daudzsistēmu mašīntulkošanu• Piecās e-resursu datubāzēs atradās 28 atbilstoši raksti• Pēc anotāciju izlasīšanas atstāti 14 detalizētai analīzei• Raksti izanalizēti un savstarpēji

salīdzināti to rezultāti

Page 7: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Daudzsistēmu MT metodes

• SMT + RBMT

• Pārpratumu tīkls (confusion network)

• Pārpratumu tīkls + uzlabojumi

• Beam search

• Citas metodes

Page 8: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

SMT + RBMT

Iespējas apvienot dažādās sistēmu darbības fāzēs:•Apvienots bāzlīnijas modelis ar ieejas datiem no RBMT avota analīzes posma•Apvienots pārkārtošanas modelis ar tikai tuvējo pārkārtošanu•Apvienots pārkārtošanas modelis ar tikai tālās distances pārkārtošanu•Apvienots pārkārtošanas modelis ar tuvējo un tālās distances pārkārtošanu•Apvienots modelis ar ievaddatiem no RBMT ģenerēšanas fāzes (līdzīgi Automatic/Statistical Post-editing sērijveida kombinācijai)

Page 9: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

SMT + RBMT

Page 10: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

SMT + RBMT

• Populārākais no sistēmu apvienošanas veidiem

• BLEU pieaug par 10-15%

Analizētie raksti:• Coupling Statistical Machine Translation with Rule-based Transfer and Generation• Hybrid architectures for multi-engine machine translation• Multi-engine machine translation with an open-source decoder for statistical machine translation• Using Moses to integrate multiple rule-based machine translation engines into a hybrid system

Page 11: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Pārpratumu tīkls

1. Savākt N-labāko izvaddatu sarakstu no MT sistēmām un pēc izvēles veikt priekšapstrādi (lower case, re-tokenize, utt.);

2. Katram segmentam izvēlēties vienu/vairākus skelettulkojumus;

3. Sastatīt visas pārējās hipotēzes pret skeletu/skeletiem;

4. Izveidot pārpratumu tīklu no katra segmenta sastatījumiem;

5. Dekodēt pārpratumu tīklus ar iezīmēm un teikuma līmeņa rādītājiem (LM score, word insertion score, utt.);

6. Pēcapstrāde pēc izvēles (true casing, detokenization, utt.).

Page 12: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Pārpratumu tīkls

twelve big blue cars

twelve NULL NULL cars

dozen NULL blue cars

Page 13: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Pārpratumu tīkls

• Vienkāršākais sistēmu apvienošanas veids

• Iespējams apvienot jebkāda veida MT sistēmas

• BLEU pieaug par 4-10%

Analizētie raksti:• Lattice-based system combination for statistical machine translation• MANY: Open source machine translation system combination

Page 14: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Pārpratumu tīkls + N-grammās balstītas iezīmes

• Uzlabo pārpratumu tīkla darbību– Papildus iezīmes veicina labāku hipotēzes izvēli

• BLEU pieaug par līdz pat 14%

Analizētie raksti:• Using n-gram based features for machine translation system combinationUsing n-gram based features for machine translation system combination• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination

Page 15: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Beam Search

• Tas pats, kas tiek lietots MOSES dekodēšanā• Alternatīva pārpratumu tīklam• Iespējams apvienot jebkāda veida MT sistēmas• BLEU pieaug par 10-14%

Analizētie raksti:• Joint optimization for machine translation system combinationJoint optimization for machine translation system combination• Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-

Engine Machine Translation SchemeEngine Machine Translation Scheme

Page 16: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Citas MT apvienošanas metodes

• SMT+EBMT+TM+NE• Rekursīvā teikumu dekompozīcija• Heiristiskā un statistiskā atlase

1-5% BLEU uzlabojums

Analizētie raksti:• USAAR-DCU Hybrid Machine Translation System for ICON 2014USAAR-DCU Hybrid Machine Translation System for ICON 2014• Multi-engine machine translation guided by explicit word matchingMulti-engine machine translation guided by explicit word matching• Multi-engine machine translation by recursive sentence decompositionMulti-engine machine translation by recursive sentence decomposition• First steps towards multi-engine machine translationFirst steps towards multi-engine machine translation

Page 17: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Literatūras izpēte

• Populārākie apvienošanas paņēmieni izmanto pārpratumu tīklus (confusion network) Visbiežāk tiek apvienotas SMT un RBMT

• Pārsvarā apvienotas sistēmas, kas darbojas vienas iekārtas ietvaros

• BLEU rezultāts vidēji pieaug par 5 – 15%

Page 18: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Literatūras izpēte

MetodeBLEU

pieaugums%

METEOR pieaugums

%

Parallel coupling 2-3 N/A N/A N/ABeam search 6.67 11.4 3.32 4.7RBMT with SMT 0.87 7.6 N/A N/AHeuristic & statistical selection 0.20 0.7 N/A N/ARBMT with SMT N/A N/A N/A N/AN-gram based 5.17 13.5 N/A N/ALattice based 3.92 10.5 N/A N/AMultiple confusion networks 2.26 3.9 N/A N/ARecursive sentence decomposition 1.55 4.9 N/A N/AExplicit word matching N/A N/A 7.78 15RBMT with SMT 3.32 15.5 N/A N/ASMT+EBMT+TM+ NE 0.38 1.3 N/A N/AMultiple RBMT engines 7.85 24.3 N/A N/AN-gram based features 0.84 2.7 N/A N/A

Page 19: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Daudzsistēmu hibrīdās MT eksperiments

Tīmekļa MT sistēmas latviešu – angļu valodām

•Google Translate

•Bing Translator

•Tildes Tulkotājs

•Pragma 6

•BabelXL

Page 20: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Līdz šim paveiktais

• Izlasīta pusotra grāmata par MT

• Pieveikts tiešsaistes kurss Barselonas universitātē - Approaches to Machine Translation

• Veikti eksperimenti ar daudzvārdu savienojumu apstrādi mašīntulkošanas kvalitātes uzlabošanai

• Veikta literatūras izpēte par mašīntulkošanu, hibrīdo MT un daudzsistēmu MT

Page 21: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Turpmākie tuvie plāni

• Pabeigt rakstu par daudzsistēmu MT

• Īstenot,aprakstīt un nopublicēt daudzsistēmu hibrīdās MT eksperimentu

• Vadīt pāris kvalifikācijas darbu

• Izplānot citus tālākus plānus

Page 22: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Izmantotie avoti

• Heafield, Kenneth, and Alon Lavie. "Combining Machine Translation Output with Open Source: The Carnegie Mellon Multi-Engine Machine Translation Scheme." The Prague Bulletin of Mathematical Linguistics 93 (2010): 27-36.

• Ahsan, A., and P. Kolachina. "Coupling Statistical Machine Translation with Rule-based Transfer and Generation, AMTA-The Ninth Conference of the Association for Machine Translation in the Americas." Denver, Colorado (2010).

• Eisele, Andreas. "First steps towards multi-engine machine translation." Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005.

• Eisele, Andreas, et al. "Hybrid architectures for multi-engine machine translation." Proceedings of Translating and the Computer 30 (2008).

• He, Xiaodong, and Kristina Toutanova. "Joint optimization for machine translation system combination." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.

• Feng, Yang, et al. "Lattice-based system combination for statistical machine translation." Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 3-Volume 3. Association for Computational Linguistics, 2009.

• Barrault, Loïc. "MANY: Open source machine translation system combination." The Prague Bulletin of Mathematical Linguistics 93 (2010): 147-155.

• Mellebeek, Bart, et al. "Multi-engine machine translation by recursive sentence decomposition." (2006).

• Jayaraman, Shyamsundar, and Alon Lavie. "Multi-engine machine translation guided by explicit word matching." Proceedings of the ACL 2005 on Interactive poster and demonstration sessions. Association for Computational Linguistics, 2005.

• Chen, Yu, et al. "Multi-engine machine translation with an open-source decoder for statistical machine translation." Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007.

• Santanu, Pal, et al. "USAAR-DCU Hybrid Machine Translation System for ICON 2014" The Eleventh International Conference on Natural Language Processing. , 2014.

• Eisele, Andreas, et al. "Using Moses to integrate multiple rule-based machine translation engines into a hybrid system." Proceedings of the Third Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2008.

• Zhao, Yong, and Xiaodong He. "Using n-gram based features for machine translation system combination." Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Association for Computational Linguistics, 2009.

• Xuan, H. W., W. Li, and G. Y. Tang. "An Advanced Review of Hybrid Machine Translation (HMT)." Procedia Engineering 29 (2012): 3017-3022.

• Rush, Alexander M., Yin-Wen Chang, and Michael Collins. "Optimal Beam Search for Machine Translation." EMNLP. 2013.

• Confusion Networks Decoding - http://www.statmt.org/moses/?n=Moses.ConfusionNetworks

• Olivie, J., C. Christianson, and J. McCarry. "Handbook of natural Language Processing and Machine Translation." (2011).

• Rosti, Antti-Veikko I., et al. "Review of hypothesis alignment algorithms for MT system combination via confusion network decoding." Proceedings of the Seventh Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2012.

Page 23: Hibrīdie daudzsistēmu mašīntulkošanas risinājumi

Jautājumi?