Česko-slovenský paralelný korpus určený pre preklad medzi blízkymi jazykmi

Česko-slovenský paralelný korpus určený pre preklad medzi blízkymi jazykmi

Petra Galuščáková a Ondřej Bojar{galuscakova,bojar}@ufal.mff.cuni.cz

Univerzita Karlova v Praze

Matematicko-fyzikální fakultaÚstav formální a aplikované lingvistiky

20. 10. 2011 2

Obsah prezentácie

● Vytvorenie korpusu – postup a použité nástroje● Možné zdroje paralelného korpusu● Aplikácia korpusu

20. 10. 2011 3

Úvod

● Väčšie množstvo zdrojov pre češtinu

● Čeština a slovenčina sú veľmi príbuzné

● Čeština ako pivotný jazyk

● Česko-slovenský paralelný korpus

● Trénovanie automatického prekladu

● Vyhodnotenie automatického prekladu

CS

SK

EN PL

...

20. 10. 2011 4

NástrojePříběh, který hodláte číst, neníani román, ani novela. Ty majísvá pravidla, své zákony. Své

začátky a své konce. Tento příběh – řekl bych – je

přeslechnut.

Příběh, který hodláte číst, není ani román, ani novela.

Ty mají svá pravidla, své zákony.

Své začátky a své konce.

Tento příběh – řekl bych – je přeslechnut.

1-1 2.28889 Příběh, který hodláte číst, není ani román, ani novela. Príbeh, ktorý hodláte čítať, nie je ani román, ani novela.

1-1 2.475 Ty mají svá pravidla, své zákony. Tie majú svoje pravidlá, svoje zákony.

1-1 2.08125 Své začátky a své konce. Začiatky a konce.

1-1 2.87805 Tento příběh – řekl bych – je přeslechnut. Tento príbeh — povedal by som — je prepočutý.

Segmentácia

Alignment

Trénovateľný tokenizér natrénovaný

na češtine a slovenčine

Hunalign

Príbeh, ktorý hodláte čítať, nie je ani román, ani novela. Tie majú

svoje pravidlá, svoje zákony. Začiatky a konce. Tento príbeh

— povedal by som — je prepočutý.

Príbeh, ktorý hodláte čítať, nie je ani román, ani novela.

Tie majú svoje pravidlá, svoje zákony.

Začiatky a konce.

Tento príbeh — povedal by som — je prepočutý.

20. 10. 2011 5

Problémy

● Segmentácia je podstatná pri alignmente

● Problém v prípade, že česká segmentácia pracuje inak ako slovenská

Alignment Česká veta Slovenská veta

2 - 1"Pryč ode mne, vy zloto! <s> Co vám udělaly ty

kačátka?

„Preč odo mňa, vy lotri! čo vám urobili tie kačičky?

2 - 1 — <s> Viktor nevnímal hovor a zmatek ve vagónu.

Viktor nevnímal vravu a zmätok vo vagóne.

1 - 2 Stáří 23 let. Zoolingvistka.Vek dvadsaťtri rokov. <s>

Zoolingvistka.

1 - 2 II/ MODLITBA II <s> MODLITBA

<s> označuje rozdelenie na vety

20. 10. 2011 6

Zdroje korpusu

● Knihy● Acquis JRC● Official Journal Európskej únie● Webstránka Európskej komisie

Zdroj Slová CS Slová SK Tokeny CS Tokeny SK Vety

Knihy 6.6 mil 6.6 mil 8.1 mil 8.1 mil 550.6 k

Acquis 20.4 mil 20.6 mil 24.3 mil 24.4 mil 926.1 k

Journal 45.5 mil 45.5 mil 56.4 mil 56.3 mil 2.9 mil

Ec-Europa

0.4 mil 0.4 mil 0.4 mil 0.4 mil 24.2 k

Total 72.9 mil 73.1 mil 89.2 mil 89.2 mil 4.4 mil

20. 10. 2011 7

Zdroje korpusu I - knihy

● Pripravený SAV● Veľmi dobrý zdroj dát pre MT, problematický môže byť

alignment (málo štrukturované texty)● 118 kníh (cs->sk, sk->cs a en->cs,sk), vlastný alignment● Problém získať takýto zdroj, limitované použitie

20. 10. 2011 8

Zdroje korpusu II - Acquis

● Voľne dostupný paralelný viacjazyčný korpus dokumentov EÚ● Oficiálny alignment● České a slovenské texty boli vytvorené ako preklady z ďalšieho

jazyka, väčšinou angličtiny● Veľké množstvo textov, ale obmedzená slovná zásoba, veľká

časť viet sa opakuje – nutné kombinovať s inými zdrojmi

Zdroj Vety spolu Jedinečné vety %

Acquis CZ 926082 608086 65.66

Acquis SK 926082 632916 68.34

Knihy CZ 153478 148705 96.89

Knihy SK 153478 149152 97.18

20. 10. 2011 9

Zdroje korpusu III – Official Journal

● Opäť dokumenty EU, v 23 jazykoch● Podobné dáta ako Acquis, podobné problémy● Oficiálny alignment aj na úrovni viet

20. 10. 2011 10

Zdroje korpusu IV – Stránka European Commision

● Rôzne jazykové varianty tej istej stránky, ktoré sa líšia príponou v URL

● Slovenské a české texty vznikli najčastejšie ako preklad z angličtiny

● Veľa nepreložených odstavcov v českých a slovenských stránkach

● Na sťahovanie stránok bol implementovaný špeciálny web crawler

● Stiahnuté stránky boli ďalej prečistené od html kódu a deduplikované

20. 10. 2011 11

Využitie korpusu

20. 10. 2011 12

Automatický preklad

● Acquis a knihy boli použité pri trénovaní, ladení a testovaní nástroja na automatický preklad Moses

● Celkom 6 prípadov (Acquis/Acquis, Acquis/Knihy, Knihy/Acquis, Knihy/Knihy, Acquis+Knihy/Acquis, Acquis+Knihy/Knihy)

● Testovacia sada – 3860 náhodne vybraných riadkov z kníh

20. 10. 2011 13

Automatický preklad - výsledky

● Na testovanie prekladu bola použitá metrika BLEU

Trénovacie / Ladiace dáta

Počet trénovacích viet

Počet ladiacich viet

BLEU

Acquis / Acquis 708406 3148 0.1808

Acquis / Knihy 708406 3802 0.2071

Knihy / Acquis 137027 3148 0.4661

Knihy / Knihy 137027 3802 0.4701

Acquis + Knihy / Acquis

845433 3148 0.4781

Acquis + Knihy / Knihy

845433 3802 0.4887

20. 10. 2011 14

Automatický preklad – ukážky výstupu

Originál"Tak vidějí, vašnosti, dali jsme jim tu radu lacino," řekli pes s

kočičkou, "zrovna jsme si něco takového na zub přáli.

Acquis/Acquis "tak vidějí, vašnosti, dali jsme im tu radu lacino," řekli pes s kočičkou, "zrovna jsme si něco takéhoto na zub přáli.

Acquis/Knihy"tak vidějí, vašnosti, dali jsme im tu radu lacino," řekli predvedenie identifikácie psa s kočičkou, "zrovna si jsme inak takéhoto na zub

přáli.

Knihy/Acquis „ nuž vidíte, pán veľkomožný, dali sme im tú radu lacno, “ povedali

pes s mačičkou, „ akurát sme si niečo takého na zub želali.

Knihy/Knihy „ nuž vidíte, pán veľkomožný, dali sme im tú radu lacno, “ povedali pes s mačičkou, „ práve sme si také čosi na zub želali.

Acquis+Knihy/Acquis

„nuž vidíte, pán veľkomožný, dali sme im tú radu lacno,“ povedali pes a mačička, „akurát sme si také čosi na zub želali.

Acquis+Knihy/Knihy

„nuž vidíte, pán veľkomožný, dali sme im tú radu lacno,“ povedali pes s mačičkou, „práve sme si také čosi na zub želali.

20. 10. 2011 15

Automatický preklad – diskusia

● Pri natrénovaní na knihách je dosiahnuté skóre podstatne vyššie ako pri natrénovaní na Acquise, hoci veľkosť trénovacích dát je 5x nižšia

● Slovná zásoba z testovacej sady vybranej z kníh sa môže nachádzať v trénovacích dátach

● Knihy vznikli na rozdiel od Acquisu vo väčšine ako preklad cs->sk a sk->cs

● Knihy zlepšia výsledky aj v prípade, že sa použijú ako ladiaca množina

● Pri spojení kníh a Acquisu nedochádza k výraznému zlepšeniu výsledkov, ktoré boli dosiahnuté pri tréningu iba na knihách

20. 10. 2011 16

Záver

● Bol vytvorený česko-slovenský paralelný korpus z niekoľkých zdrojov

● Korpus bol využitý pri automatickom preklade● Pri preklade hrá dôležitú úlohu to, z akého

zdroja trénovacie dáta pochádzajú● Stačí menšie množstvo dát, ktoré sú

rôznorodejšie

20. 10. 2011 17

Odkazy● Acquis JRC

http://optima.jrc.it/Acquis

● Stránka Európskej komisiehttp://ec.europa.eu

● Official Journalhttp://eurlex.europa.eu/JOIndex.do

● Trénovateľný tokenizérKlyueva N., Bojar O. (2008). UMC 0.1: Czech-Russian-English Multilingual Corpus. In Proceedings of International Conference Corpus Linguistics, pages 188–195.

● Hunalignhttp://mokk.bme.hu/resources/hunalign

● Moseshttp://www.statmt.org/moses

Documents

Česko-slovenský paralelný korpus určený pre preklad medzi blízkymi jazykmi