Upload
adolph
View
66
Download
0
Embed Size (px)
DESCRIPTION
Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai. Darb ības koncepcijas apraksts. Projekta mērķi. nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā; - PowerPoint PPT Presentation
Citation preview
Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu
pieejamības nodrošināšanai
Darbības koncepcijas apraksts
Projekta mērķi
• nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā;
• atvieglot Latvijas iedzīvotājiem un uzņēmējiem pieeju ES dalībvalstu un institūciju informācijai;
• iekļauties ES daudzvalodu pakalpojumu infrastruktūras attīstībā;
• nodrošināt e-Pārvaldes pakalpojumu pieejamību visām iedzīvotāju grupām neatkarīgi no to valodas zināšanām.
Esošā situācija
• nav pietiekama latviešu valodas ilgtspējīga atbalsta informācijas sabiedrībā;
• ES dalībvalstu un institūciju informācija pārsvarā pieejama “lielajās” valodās;
• Latvijas E-pakalpojumi un to apraksti ir pieejami latviešu valodā;
• trešo pušu izstrādātie rīki ir ar būtiskiem trūkumiem.
Kāpēc neder esošie mašīntulki(Google Translate, Bing Translate, Tildes Tulkotājs utml.)
• nenodrošina tulkojamo materiālu konfidencialitāti;• nenodrošina personas datu aizsardzību
ePārvaldes pakalpojumos tiek apstrādāti un atspoguļoti personas dati;• E-Pārvaldes vajadzībām nepietiekoša tulkošanas kvalitāte
piem., Google Translate ir vispārīgs tulkotājs, kas nav pietiekoši kvalitatīvs (latviešu-angļu BLEU tikai 33,2%) un nav adaptēts valsts pārvaldes tekstiem;
• Google Translate un Bing Translator tulko caur angļu valodutā rezultātā latviešu-krievu tulkojums ir ļoti nekvalitatīvs, jo summējas kļūdas, tulkojot vispirms uz angļu un tad uz krievu valodu;
• publiskie tulkotāji bez maksas izmantojami tikai ļoti ierobežotā veidā to tīmekļa vietnēs. Lai tos iekļautu citos risinājumos, kā ePārvaldes pakalpojumi, tie jāiegādājas kā maksas pakalpojums.
MT sistēmu izveidei
• Statistisko MT sistēmu izveidei un darbināšanai nepieciešams– liela apjoma Paralēlais korpuss– liela apjoma Monolingvālais korpuss– rīki sistēmu trenēšanai– rīki sistēmu darbināšanai– valodas specifiski rīki, piemēram, morfoloģiskie
analizatori u.tml.
Projekta uzdevumi
• izveidot valodas korpusus;• izveidot e-Pārvaldes mērķiem pielāgotu
mašīntulkošanas sistēmu angļu, latviešu un krievu valodu tulkošanai:
Latviešu – AngļuLatviešu – KrievuAngļu – Latviešu
• izveidot servisa darbināšanai nepieciešamo tehnisko infrastruktūru
Nr. Process Mērķi Rezultāti
1. Valodu korpusa izveide Izveidot mašīntulkošanas sistēmas prasībām un projekta specifikai atbilstošu monolingvālo un paralēlo valodu korpusu (latviešu-angļu, latviešu-krievu)
Pietiekams vārdu un teikumu kopums MT sistēmas attīstīšanai
2. jāizveido bāzes MT serviss, izmantojot pieejamās SMT platformas un jau pieejamos paralēlo un monolingvālo tekstu korpusus;
Izveidot atbilstošo programmnodrošinājumu un notestēt tā darbību
Izstrādāta un notestēta programmatūra
3. jāpielāgo SMT sistēmas konkrētiem valodu pāriem un e-pakalpojumu specifikai;
Pielāgot izveidoto MT servisu nepieciešamajai valodas specifikai
Izveidotais risinājums spēj nodrošināt kvalitatīvu, plānotajiem teksta korpusiem piemērotu tulkošanu.
4. jāizveido MT servisam nepieciešamā infrastruktūra (gan programmatūras, gan aparatūras);
Panākt izvirzītajiem kvalitātes kritērijiem (piem. ātrumiem, pieejamībai) atbilstošu MT servisa darbību
Iegādāta, uzstādīta (iedarbināta) un notestēta MT servisam nepieciešamā infrastruktūra
5. MT serviss jāieintegrē e-pakalpojumu vidē.
Uzlabot e-pakalpojumu vidi un palaist darbībā MT servisu
MT e-pakalpojums ir integrēts esošo e-pakalpojumu vidē gan kā autonoms serviss, gan integrēts esošo/plānoto e-pakalpojumu infrastruktūrā
Rīki statistisko MT sistēmu izstrādei un darbināšanai
• MT izstrādi paredzēts balstīt uz atvērtā koda rīku izmantošanu, piemēram, MOSES rīkkopu;
• MT atvērtā koda rīki sistēmai nepieciešamajām veiktstpējas, stabilitātes un mērogojamības prasībām;
• kvalitatīvas MT izveidei rīki īpaši jāpielāgo latviešu valodai, konkrētajiem tulkošanas virzieniem un ePārvaldes jomas specifikai;
• jāizveido saskarnes (API) integrācijas nodrošināšanai ar citām sistēmām.
Integrēšana citos servisos
• tulkošanas servisa mājaslapa, kurā lietotāji var tulkot tekstus;
• rīklogs (widget) integrēšanai ePārvaldes pakalpojumu tīmekļa lapās;
• nepieciešams standartizēts interfeiss (API), lai to var integrēt jebkurā citā ePārvaldes pakalpojumā.
Risinājuma arhitektūraE-pakalpojumu servisie-pakalpojumu
publiskās interneta lapas
Korpusi un MT trenēšanae-pakalpojumulietotāji.
Valsts un pašvaldību iestādes, uzņemumi, privātpersonas u.c.
MT servisa interneta lapa
MT sistēmu trenēšana
SMT sistēma
MT modeļi
Paralēlie korpusi
Monolinguālie korpusi
latviešu
angļu
krievu
angļu-latviešu
latviešu-krievu
MT rīklogs
MT servisa API
MT rīklogs
pielāgojumi
Valodas specifiskie rīki - morfoloģija
u.c.
Projektā nepieciešamie korpusi un to apjoma novērtējums
Korpuss Joma Korpusa tips Sākuma apjoms(milj. teikumu)
Bāzes apjoms(milj. teikumu)
angļu-latviešu vispārēja paralēlais 1,5 5krievu-latviešu
vispārēja paralēlais 1,5 5
angļu-latviešu valsts pārvalde
paralēlais 0,3 2
krievu-latviešu
valsts pārvalde
paralēlais 0,3 2
Angļu vispārēja monolingvālais 15 50Latviešu vispārēja monolingvālais 25 75Krievu vispārēja monolingvālais 25 75Angļu valsts
pārvaldemonolingvālais 5 15
Latviešu valsts pārvalde
monolingvālais 7 20
Krievu valsts pārvalde
monolingvālais 7 20
Latviešu valodas nacionālais korpuss
• veidos datorizētu latviešu rakstu valodas krājumu, kas atspoguļos mūsdienu latviešu valodu un tās vēsturisko attīstību;
• priekšnoteikums mašīntulkotāja izstrādei;• nepieciešams latviešu valodas datortehnoloģiju
izstrādei, vārdnīcu izveidei, pētniecībai un attīstībai;• nacionālie korpusi jau izveidoti daudzām valodām,
piemēram, čehu, poļu, horvātu, ungāru, krievu, slovēņu u.c.
Projekta sagaidāmie ieguvumi• projekts nodrošinās e-pakalpojumu pieejamību visām iedzīvotāju
grupām neatkarīgi no to valodu zināšanām - gan Latvijas iedzīvotājiem, gan nepilsoņiem, gan ārzemniekiem;
• projekts veicinās ārvalstu uzņēmēju, studentu, izglītības, zinātnes un kultūras darbinieku piekļuvi informācijai par Latviju, valsts pārvaldi un tās darbību;
• mašīntulkojums padarīs pasaulei pieejamas Latvijas kultūras vērtības, padarot kultūras un atmiņas institūciju digitālos krājumus pieejamus citās valodās;
• projekts nepieciešams latviešu valodas attīstībai un nostiprināšanai mūsdienu pasaulē, kur valodas digitālais nodrošinājums ir priekšnoteikums tās ilgtspējai;
• projekts ir veids, kā latviešu valodas pētniecībai un attīstībai piesaistīt ES līdzekļus.
Projekta sagaidāmie ieguvumi• mašīntulkojums palīdzēs ārvalstu uzņēmumiem veikt uzņēmējdarbību
un investīcijas Latvijā;
• projekts Latvijas iedzīvotājiem atvieglos pieeju citu ES valstu informācijai, palīdzēs nodrošināt to tiesību aizsardzību, strādājot vai mācoties citās ES dalībvalstīs;
• Latviešu-krievu mašīntulkošanas izmantošana elektroniskajos informācijas resursos mazinās informatīvo telpu nošķirtību, kura nodala to krieviski runājošo iedzīvotāju daļu, kas nepietiekoši pārvalda latviešu valodu;
• projekts palīdzēs valsts pārvaldes darbiniekiem, kas nepietiekami pārvalda krievu vai angļu valodu, tikt galā ar iedzīvotāju vēstulēm un dokumentiem pat tad, ja tie iesniegti svešvalodā;
• projekts pavērs iespēju iekļauties ES digitālo pakalpojumu infrastruktūrā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.
Iekļaušanās CEF programmā• Eiropas Komisija sagatavojusi jaunu digitālo pakalpojumu
finansēšanas modeli - Eiropas infrastruktūras savienošanas instrumentu (CEF – Connecting Europe Facility) 2014.-2020.gadam;
• kopējais finansējums 50 miljardi EUR;• ietver sadaļu par pieejas nodrošināšanu publiskā sektora
informācijai un daudzvalodu pakalpojumiem;• vienotā infrastruktūrā tiks saslēgtas nacionālo valodu
mašīntulkošanas sistēmas un citi valodu tehnoloģiju pakalpojumi;• mašīntulkošanas infrastruktūras izveide Latvijā sniegs iespēju
iekļauties ES digitālo pakalpojumu infrastruktūras pirmajā kārtā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.
Plānotās izmaksasPozīcija Apraksts Summa, Ls ar PVN
Infrastruktūras iegādes izmaksas Tiks iegādāta projekta vajadzībām atbilstoša IT infrastruktūra un nodrošināta tās pilnvērtīga darbība
50.000,00
Valodu korpusa un MT sistēmas izstrādes izmaksas
Tiks izveidots projekta prasībām atbilstošs valodu korpuss un izstrādāta MT sistēma
660.000,00
E-pakalpojumu sistēmas uzlabojumi un sistēmas lietojumrisinājumi (sīkrīks u.c.)
Tiks veiktas nepieciešamās izmaiņas esošajos e-pakalpojumos, kā arī izstrādāti atbilstoši risinājumi integrācijai valsts pārvaldes mājaslapās
50.000,00
Konsultantu un ekspertu izmaksas
Konsultantu un ekspertu piesaistes izmaksas kvalitātes kontroles nodrošināšanai (sistēmas izstrāde gaitas kontrole, e-pakalpojumu uzlabojumu veikšanas kontrole, tehnisko specifikāciju izstrāde u.c.)
40.000,00
Kopā: 800.000,00
Paldies par uzmanību!