17
Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai Darbības koncepcijas apraksts

Darb ības koncepcijas apraksts

  • Upload
    adolph

  • View
    66

  • Download
    0

Embed Size (px)

DESCRIPTION

Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu pieejamības nodrošināšanai. Darb ības koncepcijas apraksts. Projekta mērķi. nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā; - PowerPoint PPT Presentation

Citation preview

Page 1: Darb ības  koncepcijas apraksts

Daudzvalodu korpusa un mašīntulkošanas infrastruktūras izveide e-pakalpojumu

pieejamības nodrošināšanai

Darbības koncepcijas apraksts

Page 2: Darb ības  koncepcijas apraksts

Projekta mērķi

• nodrošināt latviešu valodas ilgtspēju un attīstību informācijas sabiedrībā;

• atvieglot Latvijas iedzīvotājiem un uzņēmējiem pieeju ES dalībvalstu un institūciju informācijai;

• iekļauties ES daudzvalodu pakalpojumu infrastruktūras attīstībā;

• nodrošināt e-Pārvaldes pakalpojumu pieejamību visām iedzīvotāju grupām neatkarīgi no to valodas zināšanām.

Page 3: Darb ības  koncepcijas apraksts

Esošā situācija

• nav pietiekama latviešu valodas ilgtspējīga atbalsta informācijas sabiedrībā;

• ES dalībvalstu un institūciju informācija pārsvarā pieejama “lielajās” valodās;

• Latvijas E-pakalpojumi un to apraksti ir pieejami latviešu valodā;

• trešo pušu izstrādātie rīki ir ar būtiskiem trūkumiem.

Page 4: Darb ības  koncepcijas apraksts

Kāpēc neder esošie mašīntulki(Google Translate, Bing Translate, Tildes Tulkotājs utml.)

• nenodrošina tulkojamo materiālu konfidencialitāti;• nenodrošina personas datu aizsardzību

ePārvaldes pakalpojumos tiek apstrādāti un atspoguļoti personas dati;• E-Pārvaldes vajadzībām nepietiekoša tulkošanas kvalitāte

piem., Google Translate ir vispārīgs tulkotājs, kas nav pietiekoši kvalitatīvs (latviešu-angļu BLEU tikai 33,2%) un nav adaptēts valsts pārvaldes tekstiem;

• Google Translate un Bing Translator tulko caur angļu valodutā rezultātā latviešu-krievu tulkojums ir ļoti nekvalitatīvs, jo summējas kļūdas, tulkojot vispirms uz angļu un tad uz krievu valodu;

• publiskie tulkotāji bez maksas izmantojami tikai ļoti ierobežotā veidā to tīmekļa vietnēs. Lai tos iekļautu citos risinājumos, kā ePārvaldes pakalpojumi, tie jāiegādājas kā maksas pakalpojums.

Page 5: Darb ības  koncepcijas apraksts

MT sistēmu izveidei

• Statistisko MT sistēmu izveidei un darbināšanai nepieciešams– liela apjoma Paralēlais korpuss– liela apjoma Monolingvālais korpuss– rīki sistēmu trenēšanai– rīki sistēmu darbināšanai– valodas specifiski rīki, piemēram, morfoloģiskie

analizatori u.tml.

Page 6: Darb ības  koncepcijas apraksts

Projekta uzdevumi

• izveidot valodas korpusus;• izveidot e-Pārvaldes mērķiem pielāgotu

mašīntulkošanas sistēmu angļu, latviešu un krievu valodu tulkošanai:

Latviešu – AngļuLatviešu – KrievuAngļu – Latviešu

• izveidot servisa darbināšanai nepieciešamo tehnisko infrastruktūru

Page 7: Darb ības  koncepcijas apraksts

Nr. Process Mērķi Rezultāti

1. Valodu korpusa izveide Izveidot mašīntulkošanas sistēmas prasībām un projekta specifikai atbilstošu monolingvālo un paralēlo valodu korpusu (latviešu-angļu, latviešu-krievu)

Pietiekams vārdu un teikumu kopums MT sistēmas attīstīšanai

2. jāizveido bāzes MT serviss, izmantojot pieejamās SMT platformas un jau pieejamos paralēlo un monolingvālo tekstu korpusus;

Izveidot atbilstošo programmnodrošinājumu un notestēt tā darbību

Izstrādāta un notestēta programmatūra

3. jāpielāgo SMT sistēmas konkrētiem valodu pāriem un e-pakalpojumu specifikai;

Pielāgot izveidoto MT servisu nepieciešamajai valodas specifikai

Izveidotais risinājums spēj nodrošināt kvalitatīvu, plānotajiem teksta korpusiem piemērotu tulkošanu.

4. jāizveido MT servisam nepieciešamā infrastruktūra (gan programmatūras, gan aparatūras);

Panākt izvirzītajiem kvalitātes kritērijiem (piem. ātrumiem, pieejamībai) atbilstošu MT servisa darbību

Iegādāta, uzstādīta (iedarbināta) un notestēta MT servisam nepieciešamā infrastruktūra

5. MT serviss jāieintegrē e-pakalpojumu vidē.

Uzlabot e-pakalpojumu vidi un palaist darbībā MT servisu

MT e-pakalpojums ir integrēts esošo e-pakalpojumu vidē gan kā autonoms serviss, gan integrēts esošo/plānoto e-pakalpojumu infrastruktūrā

Page 8: Darb ības  koncepcijas apraksts

Rīki statistisko MT sistēmu izstrādei un darbināšanai

• MT izstrādi paredzēts balstīt uz atvērtā koda rīku izmantošanu, piemēram, MOSES rīkkopu;

• MT atvērtā koda rīki sistēmai nepieciešamajām veiktstpējas, stabilitātes un mērogojamības prasībām;

• kvalitatīvas MT izveidei rīki īpaši jāpielāgo latviešu valodai, konkrētajiem tulkošanas virzieniem un ePārvaldes jomas specifikai;

• jāizveido saskarnes (API) integrācijas nodrošināšanai ar citām sistēmām.

Page 9: Darb ības  koncepcijas apraksts

Integrēšana citos servisos

• tulkošanas servisa mājaslapa, kurā lietotāji var tulkot tekstus;

• rīklogs (widget) integrēšanai ePārvaldes pakalpojumu tīmekļa lapās;

• nepieciešams standartizēts interfeiss (API), lai to var integrēt jebkurā citā ePārvaldes pakalpojumā.

Page 10: Darb ības  koncepcijas apraksts

Risinājuma arhitektūraE-pakalpojumu servisie-pakalpojumu

publiskās interneta lapas

Korpusi un MT trenēšanae-pakalpojumulietotāji.

Valsts un pašvaldību iestādes, uzņemumi, privātpersonas u.c.

MT servisa interneta lapa

MT sistēmu trenēšana

SMT sistēma

MT modeļi

Paralēlie korpusi

Monolinguālie korpusi

latviešu

angļu

krievu

angļu-latviešu

latviešu-krievu

MT rīklogs

MT servisa API

MT rīklogs

pielāgojumi

Valodas specifiskie rīki - morfoloģija

u.c.

Page 11: Darb ības  koncepcijas apraksts

Projektā nepieciešamie korpusi un to apjoma novērtējums

Korpuss Joma Korpusa tips Sākuma apjoms(milj. teikumu)

Bāzes apjoms(milj. teikumu)

angļu-latviešu vispārēja paralēlais 1,5 5krievu-latviešu

vispārēja paralēlais 1,5 5

angļu-latviešu valsts pārvalde

paralēlais 0,3 2

krievu-latviešu

valsts pārvalde

paralēlais 0,3 2

Angļu vispārēja monolingvālais 15 50Latviešu vispārēja monolingvālais 25 75Krievu vispārēja monolingvālais 25 75Angļu valsts

pārvaldemonolingvālais 5 15

Latviešu valsts pārvalde

monolingvālais 7 20

Krievu valsts pārvalde

monolingvālais 7 20

Page 12: Darb ības  koncepcijas apraksts

Latviešu valodas nacionālais korpuss

• veidos datorizētu latviešu rakstu valodas krājumu, kas atspoguļos mūsdienu latviešu valodu un tās vēsturisko attīstību;

• priekšnoteikums mašīntulkotāja izstrādei;• nepieciešams latviešu valodas datortehnoloģiju

izstrādei, vārdnīcu izveidei, pētniecībai un attīstībai;• nacionālie korpusi jau izveidoti daudzām valodām,

piemēram, čehu, poļu, horvātu, ungāru, krievu, slovēņu u.c.

Page 13: Darb ības  koncepcijas apraksts

Projekta sagaidāmie ieguvumi• projekts nodrošinās e-pakalpojumu pieejamību visām iedzīvotāju

grupām neatkarīgi no to valodu zināšanām - gan Latvijas iedzīvotājiem, gan nepilsoņiem, gan ārzemniekiem;

• projekts veicinās ārvalstu uzņēmēju, studentu, izglītības, zinātnes un kultūras darbinieku piekļuvi informācijai par Latviju, valsts pārvaldi un tās darbību;

• mašīntulkojums padarīs pasaulei pieejamas Latvijas kultūras vērtības, padarot kultūras un atmiņas institūciju digitālos krājumus pieejamus citās valodās;

• projekts nepieciešams latviešu valodas attīstībai un nostiprināšanai mūsdienu pasaulē, kur valodas digitālais nodrošinājums ir priekšnoteikums tās ilgtspējai;

• projekts ir veids, kā latviešu valodas pētniecībai un attīstībai piesaistīt ES līdzekļus.

Page 14: Darb ības  koncepcijas apraksts

Projekta sagaidāmie ieguvumi• mašīntulkojums palīdzēs ārvalstu uzņēmumiem veikt uzņēmējdarbību

un investīcijas Latvijā;

• projekts Latvijas iedzīvotājiem atvieglos pieeju citu ES valstu informācijai, palīdzēs nodrošināt to tiesību aizsardzību, strādājot vai mācoties citās ES dalībvalstīs;

• Latviešu-krievu mašīntulkošanas izmantošana elektroniskajos informācijas resursos mazinās informatīvo telpu nošķirtību, kura nodala to krieviski runājošo iedzīvotāju daļu, kas nepietiekoši pārvalda latviešu valodu;

• projekts palīdzēs valsts pārvaldes darbiniekiem, kas nepietiekami pārvalda krievu vai angļu valodu, tikt galā ar iedzīvotāju vēstulēm un dokumentiem pat tad, ja tie iesniegti svešvalodā;

• projekts pavērs iespēju iekļauties ES digitālo pakalpojumu infrastruktūrā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.

Page 15: Darb ības  koncepcijas apraksts

Iekļaušanās CEF programmā• Eiropas Komisija sagatavojusi jaunu digitālo pakalpojumu

finansēšanas modeli - Eiropas infrastruktūras savienošanas instrumentu (CEF – Connecting Europe Facility) 2014.-2020.gadam;

• kopējais finansējums 50 miljardi EUR;• ietver sadaļu par pieejas nodrošināšanu publiskā sektora

informācijai un daudzvalodu pakalpojumiem;• vienotā infrastruktūrā tiks saslēgtas nacionālo valodu

mašīntulkošanas sistēmas un citi valodu tehnoloģiju pakalpojumi;• mašīntulkošanas infrastruktūras izveide Latvijā sniegs iespēju

iekļauties ES digitālo pakalpojumu infrastruktūras pirmajā kārtā un izmantot ES finansējumu tās tālākai uzturēšanai un attīstībai.

Page 16: Darb ības  koncepcijas apraksts

Plānotās izmaksasPozīcija Apraksts Summa, Ls ar PVN

Infrastruktūras iegādes izmaksas Tiks iegādāta projekta vajadzībām atbilstoša IT infrastruktūra un nodrošināta tās pilnvērtīga darbība

50.000,00

Valodu korpusa un MT sistēmas izstrādes izmaksas

Tiks izveidots projekta prasībām atbilstošs valodu korpuss un izstrādāta MT sistēma

660.000,00

E-pakalpojumu sistēmas uzlabojumi un sistēmas lietojumrisinājumi (sīkrīks u.c.)

Tiks veiktas nepieciešamās izmaiņas esošajos e-pakalpojumos, kā arī izstrādāti atbilstoši risinājumi integrācijai valsts pārvaldes mājaslapās

50.000,00

Konsultantu un ekspertu izmaksas

Konsultantu un ekspertu piesaistes izmaksas kvalitātes kontroles nodrošināšanai (sistēmas izstrāde gaitas kontrole, e-pakalpojumu uzlabojumu veikšanas kontrole, tehnisko specifikāciju izstrāde u.c.)

40.000,00

Kopā: 800.000,00

Page 17: Darb ības  koncepcijas apraksts

Paldies par uzmanību!