Download pdf - Eesti keel digiajastul

White Paper Series

THE ESTONIANLANGUAGE IN

THE DIGITALAGE

Valge raamatu sari

EESTIKEELDIGIAJASTUL

Krista LiinKadri MuischnekKaili MüürisepKadri Vider

White Paper Series

THE ESTONIANLANGUAGE IN

THE DIGITALAGE

Valge raamatu sari

EESTIKEELDIGIAJASTUL

Krista Liin Tartu Ülikool

Kadri Muischnek Tartu Ülikool

Kaili Müürisep Tartu Ülikool

Kadri Vider Tartu Ülikool

Georg Rehm, Hans Uszkoreit(toimetajad, editors)

EESSÕNA PREFACE

Eesti keele raport kuulub META-NETi väljaannete is white paper is part of a series that promotessarja,mille eesmärgiks on tutvustadakeeletehnoloogia- knowledge about language technology and its poten-alaseid teadmisi ja selle ala potentsiaali. Väljaande siht- tial. It addresses journalists, politicians, language com-grupiks on õpetajad, ajakirjanikud, poliitikud, kogu munities, educators and others. e availability andkeelekogukond ja teised teemast huvitatud. use of language technology in Europe varies betweenKeeletehnoloogia kättesaadavus ja kasutamine on Eu- languages. Consequently, the actions that are requiredroopa keeliti väga erinev. Nii on ka meetmed, mida on to further support research and development of lan-vaja rakendada keeletehnoloogia arendamise ja uuri- guage technologies also differ. e required actionsmise edasiseks toetamiseks, erinevatele keeltele väga depend on many factors, such as the complexity of aerinevad, sõltudes näiteks keele keerukusest ja selle kõ- given language and the size of its community.nelejate arvust. META-NET, a Network of Excellence funded by theEuroopa Komisjoni rahastatud tippteadmiste võrgus- European Commission, has conducted an analysis oftik META-NET viis läbi keeleressursside ja -tehno- current language resources and technologies in thisloogiate alase uurimuse, mis keskendus 23 ametlikule white paper series (p. 75). e analysis focused on theEuroopa keelele ja ka teistele olulistele regionaalsetele 23 official European languages as well as other impor-keeltele Euroopas (vt lk 75). Analüüsi tulemus näitas, tant national and regional languages in Europe. e re-et kõigi keelte tehnoloogiates leidub märkimisväärseid sults of this analysis suggest that there are tremendouspuudujääke. Täpne ekspertanalüüs ja olukorra hinda- deficits in technology support and significant researchmine aitavad panustada edasise uurimistöö mõju suu- gaps for each language. e given detailed expert anal-rendamisse ja vähendada riske. ysis and assessment of the current situation will helpMETA-NET koosneb 33 riigi 54 uurimiskeskusest (vt maximise the impact of additional research.lk 71), mis teevad koostööd tööstuse, valitsusasutuste, As of January 2012, META-NET consists of 54 re-ülikoolide ja uurimisasutuste esindajatega. Koostöö search centres from 33 European countries (p. 71).tulemusena valmib ühine tehnoloogiline visioon, mis META-NET is working with stakeholders from econ-osana strateegilisest uurimiskavast näitab, kuidas kee- omy (soware companies, technologyproviders, users),letehnoloogilised rakendused saavad katta praegused government agencies, research organisations, non-uurimistöö puudujäägid aastaks 2020. governmental organisations, language communities

and European universities. Together with these com-munities, META-NET is creating a common technol-ogy vision and strategic research agenda for multilin-gual Europe 2020.

III

META-NET – [email protected] – http://www.meta-net.eu

Selle dokumendi autorid tänavad saksa keele valge raamatu au-toreid loa eest kasutada nende väljaandes sisaldunud keelestsõltumatuid materjale [1].

Selle keeleraporti koostamist rahastas 7. raamprogramm

ja Euroopa Komisjoni IKT poliitika toetusprogramm le-

pingute T4ME (toetusleping 249 119), CESAR (toetusle-

ping 271 022), METANET4U (toetusleping 270 893) ja

META-NORD (toetusleping 270 899) kaudu.

e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this White Paper has been funded by the

Seventh Framework Programme and the ICT Policy Support

Programme of the European Commission under the contracts

T4ME (Grant Agreement 249 119), CESAR (Grant Agree-

ment 271 022), METANET4U (Grant Agreement 270 893)

and META-NORD (Grant Agreement 270 899).

IV

SISUKORD CONTENTS

EESTI KEEL DIGIAJASTUL

1 Kokkuvõte 1

2 Oht meie keeltele ja väljakutse keeletehnoloogiale 42.1 Keelepiirid tõkestavad Euroopa infoühiskonda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 Meie keeled on ohus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Keeletehnoloogia on võtmetehnoloogia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Keeletehnoloogia võimalused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Keeletehnoloogia väljakutsed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.6 Kuidas inimesed ja masinad keelt omandavad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Eesti keel Euroopa infoühiskonnas 93.1 Üldinfo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Eesti keele eripärad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Viimase aja arengud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.4 Keelehoole Eestis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 Keel ja haridus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.6 Rahvusvahelised aspektid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.7 Eesti keel internetis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4 Eesti keele keeletehnoloogiline tugi 144.1 Rakenduste arhitektuur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2 Kesksed rakendused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.3 Muud rakendusalad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.4 Haridusprogrammid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.5 Riiklikud programmid ja algatused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.6 Vahendite ja ressursside kättesaadavus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.7 Keeltevaheline võrdlus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.8 Järeldused . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 META-NETist 31

THE ESTONIAN LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 33

2 Languages at Risk: a Challenge for Language Technology 362.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 372.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 382.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 The Estonian Language in the European Information Society 413.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2 Particularities of the Estonian Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.3 Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4 Language Cultivation in Estonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5 Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.7 Estonian on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 Language Technology Support for Estonian 474.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.4 Educational Programmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.5 National Programmes and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.7 Cross-language comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 About META-NET 65

A Kirjandus --- References 67

B META-NETi liikmed -- META-NET Members 71

C META-NETi Valge raamatu sari -- The META-NET White Paper Series 75

1

KOKKUVÕTE

Viimase 60 aasta jooksul on Euroopas välja kujunenudküll ühtne poliitiline jamajanduslik struktuur, kuid kul-tuuri ja keelte osas on mitmekesisus säilinud. Keeleli-sed takistused pärsivad nii Euroopa kodanike omavahe-list kui ka äri- ja poliitikaringkondade suhtlust erine-vates keeltes - portugali keelest poola keeleni ja kreekakeelest keldi keeleni. Euroopa Liidu asutused kuluta-vad aastas miljoneid eurosid mitmekeelsuspoliitika ta-gamiseks, s.t tõlgitakse tekste ja suulisi vestlusi. Aga kasmeil oleks võimalik neid kulutusi vältida? Tänapäevakeeletehnoloogia ja keeleteadus annavad suure panusekeelebarjääri lõhkumiseks. Tulevikus aitab keeletehno-loogia koos nutikate seadmete ja programmidega eu-rooplastel üksteisega suhelda ja äri ajada isegi siis, kuinad ei räägi sama keelt.

Keeletehnoloogia ehitab sillad Euroopa tulevikku.

Üks võimalus (kuid seejuures mõeldamatu võimalus)Euroopamitmekeelsuse probleemi lahendamiseks olekskasutusele võtta üks domineeriv keel ja sellega teisedkeeled asendada.Klassikaline moodus keelebarjääri ületamiseks on võõr-keelte õppimine. Ent tehnilise toeta on majanduse, po-liitväitluste ja teadusarenduse tarbeks kõigi EuroopaLiidu 23 ametliku liikmesriigi keele ja 60 muu Euroopakeele omandamine kodanikele ületamatu takistus.Lahenduseks on võtmetehnoloogiate välja arendamine.Digitaalne keeletehnoloogia hõlmab kõiki kirjaliku jasuulise keele suhtluse vorme. Seega soodustab ta koos-tööd, äritegevust, teadmiste jagamist ning ühiskondli-

kus ja poliitilises diskussioonis osalemist, sõltumata see-juures kasutaja võimalikust keelebarjäärist ja arvutikasu-tamise oskuse tasemest. Sageli on keeletehnoloogia jubakeerulistesse süsteemidesse lõimitud. Tulevikus võikskeeletehnoloogilistest lahendustest moodustuda ainu-laadne Euroopa keelte vaheline sild.Eesmärgi saavutamiseks ja samas Euroopa kultuurilise jakeelelise mitmekesisuse säilitamiseks tuleb esmalt süste-maatiliselt analüüsida iga Euroopa keele lingvistilist eri-pära ja seda toetava keeletehnoloogia hetkeseisu.Eesti keelt kõneleb emakeelena umbes miljon inimest jasee on Eesti Vabariigi ainuke ametlik keel. Eesti keeleigapäevast kasutust reguleerib keeleseadus. Samas onEesti tuntud e-valitsuse ja e-riigi poliitika poolest. Eestikeel teaduse ja kõrghariduse keelena tugineb pikaajali-sele eestikeelse kõrghariduse ja teadustöö traditsioonile.Erinevalt enamusest Euroopa keeltest ei kuulu eesti keelindoeuroopa keelkonda. Eesti keele eripäradeks võib lu-geda täishäälikute rohkust, täis- ja kaashäälikute kolmepikkust, artiklite ja grammatilise soo puudumist. Samution eesti keelele iseloomulik rikkalikmuutemorfoloogia.Eesti keele liitsõnamoodustus on vaba ja produktiivne.Sõnajärg lauses on küllaltki vaba.

Keeletehnoloogia kui võti tulevikku.

Praegu turul kättesaadavad automaattõlke- ja kõne-töötlusvahendid selle eesmärgini veel ei küündi. Põhi-lised turul tegutsejad on kasumi saamisele suunatudPõhja-Ameerika eraettevõtted. 1970ndatel hakati Eu-roopa Liidus tähtsustama keeletehnoloogiat kui Eu-

1

roopat ühendavat jõudu ja samal ajal alustati ka riik-like projektidega, mis andsid küll väärtuslikke tulemusi,kuid ei aidanud kaasa Euroopa ühistegevusele. Tänumitmete varasemate ja jätkuvate teadus- ja arendustööprogrammide toetusele onkeeletehnoloogiline uurimis-maastik Eestis olemas.

Inimkeele keerukus raskendab loomuliku keele model-leerimist tarkvaras ning rakenduse tegelikus elukesk-konnas testimine on pikk ja kulukas protsess. Kahjuksei ole näiteks inglise keelele arendatud keelemudelideesti keelele ülekantavad, sest eesti keelel on vabam sõ-najärg, peaaegu piiranguteta liitsõnade moodustaminening suurem käände- ja pöördelõppude hulk. Ometi onaastatepikkuse töö tulemusena loodud töökindel eestikeele õigekirjakontroll (speller), mis on lõimitud ka le-vinumatesse kontoritarkvara pakettidesse.

Eestikeelne infootsing Google otsimootoriga on veebi-kasutajate seas niivõrd levinud, et 2009. aastast alates onsõna guugeldama lisatud ka Eesti Õigekeelsussõnaraa-matusse. Keelest sõltumatud otsinguvahendid suudavadleida ainult sõnavorme, millel on päringusõnaga täpseltsama kuju või mis sisaldavad päringusõna alamsõnena.Kuidkuna eesti keelemorfoloogia on rikas ja lisaks lõpp-udele võib ka sõna tüvi muutuda, siis on edukaks ot-singuks ja indekseerimiseks vaja keelespetsiifilisi vahen-deid. Keelespetsiifilised indekseerijad leiavad enne sõ-nade indeksisse lisamist nende algvormid ehk lemmati-seerivad otsisõnad. Eesti Infosüsteemide Amet on avali-kult soovitanud kasutada Eesti avaliku sektori infosüs-teemide infootsingul ja indekseerimisel lemmatiseeri-mismoodulit [2].

Kaks peamist keeletehnoloogiasüsteemides kasutatavatmeetodit “omandavad” keelelised oskused inimestegasarnasel viisil. Statistilised ehk andmejuhitud meetodidomandavad keelelise teadmuse suurtest näidistekstidekogudest. Teine meetod on reeglipõhiste süsteemideloomine, mille suureks eeliseks on asjaolu, et eksperti-del on keele töötluse üle täpsem kontroll. Toetudes se-

nistele tähelepanekutele, näib, et tänapäeva “hübriidne”keeletehnoloogia, mis ühendab keele süvatöötluse sta-tistiliste meetoditega, suudab ületada kõigi Euroopa jamuudegi keelte vahelise lõhe.

Keeletehnoloogia valdkonnas on Euroopa teadustöö ol-nud edukas. Näiteks kasutatakse Euroopa Liidu tõlke-teenustes avatud lähtekoodiga masintõlke tarkvara Mo-ses, mida arendati peamiselt Euroopa teadusprojektideraames. Eesti keele masintõlge on tõsine väljakutse. Sõ-nastikupõhise analüüsi muudab keeruliseks vaba liitsõ-namoodustus, uusi sõnu saab liitmise teel alati juurdetekitada. Analüüsiprobleeme põhjustavad ka vaba sõna-järg ja mitmeosalised tegusõnad (ühend- ning väljend-verbid). Lisaks kõigele muule on piiratud ka paralleel-sete tekstide hulk. Vaatamata sellele kuulub Eesti keelnende ligi 50maailma keele hulka, mida saab arvuti abiltõlkida.

Tulevikus on oodata märkimisväärseid muutusi kõ-netehnoloogia arengus. Juba praegu pakutakse Eestisnutitelefonide kasutajatele tsentraliseeritud teenustenakõne dikteerimist. Sarnased TTÜ Küberneetika Ins-tituudis välja töötatud eestikeelsed kõnetuvastusraken-dused nutitelefonidele võitsid 2011. aasta parima keele-teo auhinna.

Käesolev keeleraportite sari näitab, et Euroopa Liiduliikmesriikides on keeletehnoloogilised lahendused jateadustöö erineval tasemel. Tõeliselt efektiivsete tehno-loogiliste lahendusteni jõudmiseks vajavad põhjaliku-mat uurimistööd veel isegi Euroopa suurimad keeled,rääkimata eesti keele keeletehnoloogia arendamisest.

Eesti keele keeletehnoloogilise olukorra hinnang an-nab põhjust ettevaatlikuks optimismiks. Eesti keelejaoks on olemas nii kõnetuvastuse kui ka -sünteesi va-hendid. Nende edasine arendustöö on hetkel aktiiv-selt käimas. Vaatamata eesti keele keerulisele morfoloo-giale, on eesti keele morfoloogiaanalüsaatori efektiivsusvõrreldav teiste Euroopa keelte vastavate vahenditega,kuid süntaksianalüsaatoritel on veel palju arenguruumi.

2

Keele genereerimise vahenditest on olemas ainult mor-foloogilise sünteesi programmid. Laiem üldsus kasu-tabmasintõlkeksGoogle’i tõlketeenust, TartuÜlikoolison arendamisel ka eesti-inglise masintõlkesüsteem. Ilm-selt oleks suur nõudlus ka eesti-vene-eesti masintõlkele.Enamik neist vahenditest on loodud uurimisasutustesja neid võib pidada pigem prototüüpideks, mitte val-mis toodeteks. Kahjuks esindavad Eesti keeletehnoloo-giatööstust ainult mõned üksikud väikeettevõtted naguFiloso. Viimastel kümnenditel on loodud märkimis-väärne hulk Eesti keele ressursse (korpused, leksikonid,WordNet), seega olukord keelelise andmestiku osas onküllaltki hea.

Keeletehnoloogia aitab Euroopat ühendada.

Mis puutub keerukamatesse valdkondadesse nagu teks-tisemantika, keele genereerimine jamärgendatudmulti-modaalsed ressursid, siis eesti keele jaoks põhivahendidja -ressursid puuduvad. Eesti keele keeletehnoloogilistuurimistööd ja arendustegevust on toetanud mitmedriiklikud keeletehnoloogia-alased uurimisprogrammid,seetõttu on nii loodud ressursid kui vahendid vabaks ka-sutamiseks.Käesolev keeleraportite sari täiendab teisiMETA-NETistrateegilisi tegevusi (ülevaade on saadaval raporti li-sas).META-NETikodulehelt http://www.meta-net.euleiab uuemat informatsiooni, näiteks META-NETi vi-siooni [3] või strateegilise uurimiskava (SRA) uusimaversiooni. META-NETi pika-ajalisem eesmärk on või-maldada kõigile keeltele kõrgekvaliteedilist keeletehno-loogiat ja kultuurilise mitmekesisuse kaudu saavutadapoliitiline ja majanduslik ühtsus.

3

http://www.meta-net.eu

2

OHT MEIE KEELTELE JA VÄLJAKUTSEKEELETEHNOLOOGIALE

Oleme tunnistajateks digirevolutsioonile, mis avaldabtohutut mõju meie suhtlusele ja ühiskonnale. Viimastarengut digitaalses info- ja kommunikatsioonitehno-loogias võrreldakse Gutenbergi trükipressi leiutamisemõjuga. Mida ütleb see analoogia meile Euroopa in-foühiskonna, täpsemalt meie keelte tuleviku kohta?

Me oleme tunnistajaks digitaalselerevolutsioonile, mis on võrreldav Gutenbergi

trükipressi leiutamisega.

Pärast Gutenbergi leiutist toimus tõeline läbimurrekommunikatsioonis ja teadmiste jagamises, näiteks tõl-kis Luther Piibli rahvakeelde. Sellele järgnenud sajandi-tel on arendatud kultuuritehnoloogiaid keeletöötluse jateadmistevahetuse edendamiseks:

‚ suuremate keelte õigekirja ja grammatika standardi-seerimine tegi võimalikuks teaduse ja ideede kiire le-viku;

‚ ametlike keelte areng võimaldas kodanikel teatud(sageli poliitiliste) piiride raames suhelda;

‚ keelte õpetamine ja tõlkimine tegi võimalikuks keel-teülese suhtluse;

‚ kirjutiste toimetamise ja bibliograafiaalaste juhtnöö-ride loomine kindlustas trükimaterjalide kvaliteedija kättesaadavuse;

‚ uut liiki meedia – ajalehtede, raadio, televisiooni,raamatute ja muude formaatide – teke rahuldas eri-nevaid kommunikatsioonivajadusi;

Viimase kahekümne aasta jooksul on infotehnoloogiaaidanud kaasa mitme protsessi automatiseerimisele jalihtsustamisele, nt:

‚ kirjastustarkvara on asendanud masinakirja ja trüki-ladumise;

‚ Microso PowerPoint on asendanud lüümikud jagrafoprojektorid;

‚ meilidega saadetakse ja saadakse dokumente kiire-mini kui faksi teel;

‚ Skype annab võimaluse odavateks internetikõne-deks ja virtuaalsete koosolekute pidamiseks;

‚ audio- ja videokodeeringud lihtsustavad multimee-dia jagamist;

‚ otsingumootorid lubavad veebilehtedeni jõudamärksõnade kaudu;

‚ veebiteenused, nagu näiteksGoogleTranslate, anna-vad kiireid ligikaudseid tõlkeid;

‚ sotsiaalmeedia platvormid, näiteks Facebook, Twit-ter ja Google+, lihtsustavad suhtlust, koostööd ja in-fovahetust.

Kuigi neist tööriistadest ja rakendustest on abi, ei suudaneed veel toetada jätkusuutlikku mitmekeelset Euroopaühiskonda, kus info ja kaup liiguksid vabalt.

4

2.1 KEELEPIIRID TÕKESTAVADEUROOPA INFOÜHISKONDAMe ei oska täpselt ennustada, milline näeb välja tu-leviku infoühiskond. Kuid on väga tõenäoline, etkommunikatsioonitehnoloogia revolutsioon ühendabuuel moel eri keeli kõnelevaid inimesi. See paneb ini-mesed uusi keeli õppima ja arendajad looma uusi raken-dusi, mis aitaksid kaasa üksteisemõistmisele ja võimal-daksid juurdepääsu jagatud teadmisele. Uued meedia-liigid seovad üha rohkem keeli, kõnelejaid ja teavet, misliigub ülemaailmses majandus- ja infosfääris. Sotsiaal-meedia (Wikipedia, Facebook, Twitter, YouTube, vii-masel ajal ka Google+) praegune populaarsus on vaidjäämäe tipp.Tänapäeval saame saata gigabaitides teksti ümber maa-ilma kõigest paari sekundiga, enne kui taipame, et seeoli kirjutatud keeles, mida me ei mõista. Euroopa Ko-misjoni hiljutise uuringu kohaselt ostab 57% interneti-kasutajatest Euroopas tooteid ja teenuseid keeltes, misei ole nende emakeel. Kõige levinum võõrkeel on inglisekeel, sellele järgnevad prantsuse, saksa ja hispaania keel.55% kasutajatest loeb võõrkeelseid materjale, samas kuivaid 35% kasutab teist keelt ise meilide kirjutamisel võiveebikommentaaride postitamisel [4].Mõned aastad ta-gasi oli inglise keel interneti lingua anca – valdav ena-mus veebist oli inglisekeelne – ent praeguseks on olu-kord drastiliseltmuutunud. Teistes Euroopa keeltes (agakaAasia ja Lähis-Ida keeltes) olevamaterjalimaht on in-ternetis plahvatuslikult kasvanud.Üllataval kombel pole see keelepiiridest tulenev üldlevi-nud digitaalne lõhe pälvinud kuigi suurt avalikkuse tä-helepanu. Samas tõstatab see pakilise küsimuse: milli-seid Euroopa keeli saadab võrgupõhises info- ja tead-musühiskonnas edu ja millised on määratud kaduma?

Maailmamajandus ja inforuum seavad meidvastamisi erinevate keelte, kõnelejate ja sisuga.

2.2 MEIE KEELED ON OHUSKuigi trükipress aitas kaasa Euroopasisese infovahetusekiirenemisele, viis see ka paljud Euroopa keeled välja-suremiseni. Piirkondlikke ja vähemuskeeli trükiti harva,nii säilisid näiteks korni ja dalmaatsia keel vaid suuli-sel kujul, see omakorda piiras oluliselt nende kasutus-valdkonda. Kas interneti mõju meie keeltele on samasu-gune?Euroopa ligi 80 keelt on üks tema väärtuslikumaid jatähtsamaid kultuuriväärtusi ning eluline osa tema ainu-laadsest ühiskonnamudelist [5]. Samal ajal kui inglisevõi hispaania keelel pole tõenäoliselt probleeme tekkivaldigitaalsel turul ellujäämisega, võivad mitmed Euroopakeeled võrguühiskonnas vähetähtsaks jääda. See oma-korda aga nõrgestaks kogu Euroopa positsiooni maa-ilmas ja oleks vastuolus meie strateegilise eesmärgigakindlustada võrdsed võimalused kõigile Euroopa koda-nikele, olenemata nende emakeelest.

Euroopa keeleline mitmekesisus on meie üksrikkamaid ja olulisimaid kultuurivarasid.

UNESCO mitmekeelsuse raporti järgi on keeled häda-vajalik vahend oma põhiõiguste, näiteks poliitilise väl-jendusvabaduse, hariduse ja ühiskonnas osalemise taga-miseks [6].

2.3 KEELETEHNOLOOGIA ONVÕTMETEHNOLOOGIAVarem tähendas keele säilitamine keeleõppele ja tõl-kele keskendumist. Arvatakse, et 2008. aastal oli tõlki-mise, tarkvara lokaliseerimise ja veebilehtede globalisee-rimise turuosa Euroopas 8,4 miljardit eurot, ning en-nustatakse, et see kasvab 10% aastas [7]. Samas katabsee summa vaid väikese osa praegusest ja tulevasest keel-tevahelisest kommunikatsioonivajadusest. Ahvatlev la-

5

hendus tagamaks tuleviku Euroopas keelekasutuse laiakatvust ja head kvaliteeti oleks keeletehnoloogia kasu-tamine, samamoodi nagu me kasutame tehnoloogiattranspordi- ja energiavajaduste rahuldamiseks.

Digitaalne keeletehnoloogia hõlmab kõiki kirjaliku jasuulise keele suhtluse vorme. Seega soodustab ta koos-tööd, äritegevust, teadmiste jagamist ning ühiskondli-kus ja poliitilises diskussioonis osalemist, sõltumata see-juures kasutaja võimalikust keelebarjäärist ja arvutikasu-tamise oskuse tasemest. Sageli on keeletehnoloogia jubakeerulistesse süsteemidesse lõimitud ja see aitab meil:

‚ otsimootori abil veebist informatsiooni leida;

‚ tekstiredaktoriga õigekirja ja grammatikat kontrol-lida;

‚ veebipoes tootesoovitusi näha;

‚ auto navisüsteemi hääljuhiseid kuulda;

‚ internetiteenuste abil veebilehti tõlkida.

Keeletehnoloogia koosneb mitmetest kesksetest raken-dustest, mis suuremas rakenduste raamistikus on vaja-likud teiste programmide tööks. META-NETi keele-raportite eesmärgiks välja selgitada iga Euroopa keeletuumikrakenduste tase.

Euroopa vajab veakindlat ja kättesaadavatkeeletehnoloogiat kõigi Euroopa keelte jaoks.

Jätkuvalt ülemaailmselt innovatiivseks eeskujuks ole-miseks vajab Euroopa kõigile oma keeltele kohanda-tud keeletehnoloogiat, mis oleks nii robustne (vea-kindel) kui taskukohane ja samas olulisematesse IT-süsteemidesse tihedalt lõimitud. Lähitulevikus ei jõutailma keeletehnoloogiata mitmekeelse ning tõeliseltefektiivse ja interaktiivse multimeediapõhise kasutaja-kogemuseni.

2.4 KEELETEHNOLOOGIAVÕIMALUSEDTrükitehnika läbimurdeks oli võimalus teksti (lehe-külge) trükipressi abil kiiresti kopeerida. Teadmiste ot-simise, lugemise, tõlkimise ja kokkuvõtmise raske tööjäi inimestele. Kõne salvestamiseks tuli oodata Edisoni– ja ka tema tehnoloogia suutis luua kõigest analoog-koopiaid. Kaasaegne keeletehnoloogia võimaldab auto-matiseerida kõigis Euroopa keeltes tõlkimise, sisutoot-mise ja teadmushalduse. Tänu sellele on võimalik luuakoduelektroonikale, masinatele, sõidukitele, arvutiteleja robotitele intuitiivseid keelel ja kõnel põhinevaid ka-sutajaliideseid. Reaalselt kasutatavad äri- ja tööstusra-kendused on praegu alles arendamise algusjärgus. Kuidsaavutused teadusvallas on tekitanud rakenduste loo-miseks uusi võimalusi. Nii näiteks töötab masintõlgekindla valdkonna raames juba mõistliku täpsusega ningon olemas eksperimentaalseid rakendusi, mis pakuvadmitmekeelset infot, teadmushaldust ning sisutootmistpaljudes Euroopa keeltes.

Nagu teistegi tehnoloogiatega, loodi ka esimesed kee-letehnoloogia rakendused (kõnepõhised kasutajaliide-sed ja dialoogisüsteemid) kindlatele valdkondadelening seetõttu oli nende efektiivsus sageli piiratud.Tohutu turupotentsiaaliga on haridus- ja meelelahu-tustööstus. Keeletehnoloogiat lõimitakse mängudesse,harivasse meelelahutusse, raamatukogudesse, simulat-sioonidesse ja treeningprogrammidesse. Keeletehno-loogia mängib olulist rolli mobiilsetes infoteenus-tes, arvutipõhises keeleõppetarkvaras, e-õppe keskkon-nas, enesehindamisprogrammides, plagiaatide tuvasta-mise tarkvaras ning paljudes teistes rakendusvaldkon-dades. Twitteri- ja Facebookilaadsete sotsiaalmeedia-rakenduste populaarsusega kaasneb suurenenud vaja-dus keeletehnoloogia järele, mis peaks jälgima posti-tusi, võtma kokku arutelusid, hindama arvamustrende,leidma emotsionaalseid vastuseid, tuvastama ja jälitamaautoriõiguse rikkumisi ja väärkasutust.

6

Keeletehnoloogia loob Euroopa Liidule tohutuid või-malusi. See aitab lahendada keerulisi mitmekeelsuseprobleeme, mis tekivad Euroopa ettevõtetes, asutustesja koolides erinevate keelte koos kasutamise tõttu. Kee-letehnoloogia võimaldab kodanike suhtlust Euroopaühisturul, kõrvaldades takistavad keelebarjäärid, ent sa-mas toetades üksikute keelte vaba kasutust.

Keeletehnoloogia aitab saada üle keelelisemitmekesisuse “puudest”.

Tulevikus on Euroopa innovaatiline mitmekeelne kee-letehnoloogia eeskujuks meie ülemaailmsetele partneri-tele, kui nad alustavad omamitmekeelsete kogukondadetoetamisega. Keeletehnoloogiat võib pidada tugitehno-loogiaks, mis aitab jagu saada keelelise mitmekesisuse“puudest” ja muudab keelekogukonnad üksteisele liht-samini ligipääsetavateks.Lõpuks veel ühest aktuaalsest uurimisvaldkonnast –keeletehnoloogia kasutamisest katastroofipiirkondadepäästeoperatsioonidel. Kriisiolukorras tegutseminevõib olla elu ja surma küsimus, seega keelest sõltuma-tute oskustega intelligentsed robotid suudaksid päästaelusid.

2.5 KEELETEHNOLOOGIAVÄLJAKUTSEDKuigi viimastel aastatel on keeletehnoloogia märkimis-väärselt arenenud, on praegune tehnoloogiline edasimi-nek ja tooteinnovatsioon siiski liiga aeglased. Laialdaseltkasutatavad tehnoloogiad, nagu tekstiredaktorite spel-lerid ja grammatikakorrektorid, on tüüpiliselt ükskeel-sed ja saadaval vaid loetud keeltele.

Praegune tehnoloogilise arengutempo on liiga aeglane.

Veebipõhisedmasintõlketeenused onküll kasulikuddo-kumendi sisust kiire ülevaate saamiseks, ent nad jäävadhätta täpse ja täieliku tõlkega. Inimkeele keerukus ras-kendab loomuliku keele modelleerimist tarkvaras ningrakenduse tegelikus elukeskkonnas testimine on pikkja kulukas protsess, mis vajab järjepidevat rahalist toe-tust. Selleks, et Euroopa oleks endiselt mitmekeelse ko-gukonna tehnoloogia teerajaja rollis, tuleb leiutada uusimeetodeid arengu kiirendamiseks. Need hõlmavad niitarkvaralisi uuendusi kui crowdsourcingu stiilis tehni-kaid.

2.6 KUIDAS INIMESED JAMASINAD KEELT OMANDAVADEt näitlikustada, kuidas arvutid keelt käsitlevad ja mikson nii raske arvuteid loomuliku keele kasutamiseksprogrammeerida, anname lühikese ülevaate sellest, kui-das inimesed keelt omandavad ning kuidas keeletehno-loogiasüsteemid töötavad.

Inimesed omandavad keeleoskusekahel viisil: õppides näidetest ja

õppides keelereegleid.

Inimesed omandavad keeli kahel erineval viisil. Väike-lapsed omandavad emakeele vanemate, õdede-vendadeja teiste pereliikmete vahelist suhtlust kuulates. Umbesteisel eluaastal lausuvad lapsed oma esimesi sõnu ja lühi-kesi fraase. Keeleõpe on võimalik tänu inimeste geneeti-lisele soodumusele kuuldut imiteerida ja mõtestada.

Vanemas eas nõuab teise keele omandamine suurematpingutust, peamiselt seetõttu, et õppija ei kuulu emakee-lena kõnelejate kogukonda. Koolis õpitakse võõrkeele-tundides tavaliselt selgeks keele grammatiline struktuur,sõnavara ja õigekiri. Õppimiseks kasutatakse harjutusi,mis kirjeldavad keelelist teadmust abstraktsete reeglite,

7

tabelite ja näidete abil. Vanemaks saades muutub võõr-keele omandamine raskemaks.Kaks peamist keeletehnoloogiasüsteemides kasutatavatmeetodit “omandavad” keelelised oskused sarnasel viisil.Statistilised ehk andmejuhitud meetodid omandavadkeelelise teadmuse suurtest näidistekstide kogudest. Kuinäiteks spelleri treenimiseks piisab ükskeelsetest teks-tidest, siis masintõlkesüsteemi treenimiseks läheb vajaparalleeltekste kahes või enamas keeles. Treeningteksti-dest “õpib” masintõlkealgoritm sõnade, fraaside ja lau-sete tõlkimiseks mustreid.Selline statistiline lähenemine vajab toimimiseks mil-joneid lauseid. Mida rohkem näitetekste analüüsitakse,seda parem tõlketulemus saadakse. Tekstiredaktoritesolev speller ning näiteks Google’i otsingumootor jatõlge kasutavad statistilist lähenemist. Andmejuhitudmeetodi eeliseks on see, et masin õpib järjestikustestreeningtsüklites kiiresti, kuigi tulemuse kvaliteet võiboluliselt varieeruda.Teine meetod, mida keeletehnoloogias ja kitsamalt kamasintõlkes kasutatakse, on reeglipõhiste süsteemideloomine. Keeleteaduse, arvutuslingvistika ja arvutitea-duse valdkonna eksperdid kodeerivad esmalt gramma-tilised analüüsid (tõlkereeglid) ja koostavad sõnade ni-mestikud (leksikonid). See on vägagi aeganõudev ja töö-mahukas tegevus. Mõnda juhtivat tõlkesüsteemi on pi-devalt arendatud juba üle kahekümne aasta. Reeglipõ-histe süsteemide suureks eeliseks on asjaolu, et eksperti-

del on keele töötluse üle täpsem kontroll. See teeb või-malikuks tarkvaras leiduvate vigade süstemaatilise pa-randamise ja kasutajale täpsema tagasiside andmise, sedaeriti siis, kui reeglipõhised süsteemid on kasutuses keele-õppe abina. Kõrge kulu tõttu on seni reeglipõhiseid süs-teeme arendatud üksnes suuremate keelte jaoks.

Keeletehnoloogiasüsteemide kaks peamist tüüpiomandavad keelt samal viisil.

Kuna statistiliste ja reeglipõhiste süsteemide plussid jamiinused kalduvad teineteist täiendama, siis uuemaduurimused keskenduvad neid lähenemisi kombineeriva-tele hübriidsüsteemidele. Kahjuks pole need süsteemidseni tööstusrakendustes sama edukad olnud kui teadus-laborites.Käesolevast peatükist selgus, et paljud tänapäeva in-foühiskonnas laialt levinud rakendused on tihedalt seo-tud keeletehnoloogiaga. Võttes arvessemeiemitmekeel-set kogukonda, kehtib see väide iseäranis selgelt Eu-roopa majandus- ja infosfääri puhul. Kuigi keeletehno-loogia on viimastel aastatel märkimisväärselt arenenud,on veel kõvasti arenguruumi süsteemide kvaliteedi pa-randamise osas.Järgnevalt toome välja eesti keele rolli Euroopa infoühis-konnas ja hindame eesti keele keeletehnoloogilise toepraegust seisu.

8

3

EESTI KEELEUROOPA INFOÜHISKONNAS

3.1 ÜLDINFOEesti keelt kõneleb emakeelena umbes miljon inimest.Peamiselt räägitakse seda Eestis (922 000 kõnelejat), agaligi 160 000 eesti keele kõnelejat kasutab seda ka Vene-maal, Ameerika Ühendriikides, Rootsis, Kanadas, Soo-mes ja mitmetes teistes maades [8]. 2000. aasta rahva-loenduse andmetel on Eestis 1 370 052 elanikku, kellest167 804 kõnelevad eesti keelt võõrkeelena [9]. Eesti keelon Eesti Vabariigi ainuke ametlik keel.

Eesti keelt kõneleb emakeelenaumbes miljon inimest.

Eesti keele variantide hulka kuuluvad eesti keele piir-kondlikud variandid (murded ja nende kirjakeeled, eri-nevates välisriikides kõneldavad keelevariandid), erine-vate ühiskonnagruppide keelevariandid - sotsiolektidning keelealaste erivajadustega inimeste keelevariandid(sh. viipekeel).

Eesti keele piirkondlike variantide alla kuuluvad eestimurded ja nende kirjakeeled. Kõige suuremad erinevu-sed on Põhja-Eesti ja Lõuna-Eesti murrete vahel. Needkeeleerinevused on pärit juba meie ajaarvamise eelsestajast, mil Uurali keelte läänemeresoome harust hakka-sid eristuma iseseisvad keeled. Asjaolu, et siinsed elani-kud elasid kuni 19. sajandi lõpuni väga paikset elu, ai-tas kaasa piirkondlike murrete tekkele; eristatakse kunisadat kohalikku murrakut. Tänapäeva eesti keel arenes

välja Põhja-Eesti murrete põhjal, toetudes osaliselt kaLõuna-Eesti murrakutele [10].Tänapäeval kõneldakse murdekeelt peamiselt Lõuna-Eestis ja läänepoolsetel saartel. Võru ja setu murdedväärivad eraldi mainimist kui standardsest kirjakeelestkõige erinevamad. Riik toetab eesti keele piirkondlikevariantide kasutamist ja nende säilitamist kultuuriväär-tusena, kirjakeele allikana ning kohalike eestlaste iden-titeedi kandjatena. Paljudes koolides Võru- ja Viljandi-maal õpetatakse kohalikke keeli (vastavalt võru, setu jamulgi keelt) valikainena.Väliseesti keel on eesti keele variant, õigemini küll va-riandid, mida räägivad püsivalt väljaspool Eestit elavadkeelekõnelejad esimese või teise keelena. Mõnel juhulon Eestist väljarännanute emakeel säilinud ja iseseisvaltarenenud rohkem kui sajandi vältel. Loomulikult mõ-jutavad neid variante tugevalt asukohamaal kõneldavadkeeled. Ligi 2000 Eestis elava kurdi emakeeleks või pea-miseks suhtlusvahendiks on eesti viipekeel (õigeminieesti viipekeel ja viibeldud eesti keel), mida kasutavad kakuulmispuudega eestlased ning kurtide ja kuulmispuu-dega inimeste hooldajad [11].

3.2 EESTI KEELE ERIPÄRADEesti keel kuulubUurali keelkonna läänemeresoome ha-russe koos soome, karjala ja muude lähisugulaskeeltega.Eesti keel onkaugemalt sugulanekaungari keelega.Olu-line aspekt on see, et erinevalt enamusest Euroopa keel-test ei kuulu Uurali keeled indoeuroopa keelkonda.

9

Tüpoloogiliselt esindab eesti keel üleminekuvormi aglu-tineerivalt keelelt fusiivsele keelele. Läbi ajaloo on talleavaldanud suurt mõju saksa keel, seda nii sõnavara kuisüntaksi osas.Eesti keele eripäradeks võib lugeda rõhu esinemist esi-mesel silbil, täishäälikute rohkust, kolme eristatavat pik-kust täis- ja kaashäälikutel (välted), artiklite ja gram-matilise soo puudumist (ka asesõnades) ning indoeu-roopa keeltest erinevat baassõnavara. Samuti on eestikeelele iseloomulik rikkalik muutemorfoloogia: käänd-sõnadmuutuvad 14 käändes ja kahes arvus, pöördsõnadajas, isikus, kõneviisis, tegumoes ja kõneliigis.Kuigi eesti keeles on 14 käänet, ei kuulu sinna hulkaakusatiivi – sihitis võib kontekstist olenevalt esineda niiosastavas, omastavas kui nimetavas käändes. Eesti keeleliitsõnamoodustus on vaba ja produktiivne, nn juhuliit-sõnu moodustatakse vastavalt vajadusele ja järelikult eiole kõiki tekstides esinevaid liitsõnu võimalik sõnaraa-matus üles lugeda. Teine produktiivne sõnamoodustus-viis on tuletamine.

Erinevalt enamusest Euroopa keeltest ei kuulueesti keel indoeuroopa keelkonda.

Eesti keeles ei ole grammatilist aega tuleviku jaoks ja tu-levikus toimuvat väljendatakse sageli tegusõnaga olevi-kus, tegevuse toimumisaeg selgub kontekstist.

Ta saabub homme.

Euroopa keeltega võrreldes on küllaltki erilised ka eestikeele tingiv ja kaudne kõneviis. Tingiva kõneviisi tun-nuseks on liide -ks(i)-, sellega väljendatakse hüpoteeti-list olukorda või ebamäärast/ebakindlat olukorda.

Kui ta treeniks rohkem, jookseks ta kiiremini.

Kaudse kõneviisi tunnuseks on tegusõna lõpus olev -vat.Selle kõneviisiga väljendatakse sündmusi, millest tea-takse kuulu järgi.

Ta jooksvat kiiresti.

Kuigi eesti keelt on kategoriseeritud SVO keeleks, onsõnajärg küllaltki vaba, kusjuures tüüpiliselt asub verblauses teisel kohal. Sõnajärge mõjutab lause infostruk-tuur – tuntud ja uue informatsiooni eristamine.

‚ Ta jooksis kiiresti koju.

‚ Kiiresti jooksis ta koju.

‚ Koju jooksis ta kiiresti.

‚ Jooksis ta kiiresti koju?

‚ Kui ta kiiresti koju jooksis, siis …

Kuigi eesti keel on lähedane soome keelele, on pikaaja-line saksa keele mõju seda oluliselt muutnud ja lähen-danud nn keskmisele Euroopa keelele (Standard Ave-rage European, SAE) [12]. Soome keelest erinevateSAE-päraste joontena võiks nimetada sõnajärge tea-tud kõrvallausetüüpides või ühendverbide rohket kasu-tust üldse ja eriti aspekti (tegevuse lõpetatuse) väljenda-miseks, vrd eesti Ta tegi selle ära ja soome Hän teki sen.Samuti on eesti keeles tunduvalt rohkem võõrsõnu ja hi-liseid laensõnu kui soome keeles.Eesti keele ortograafia aluseks on foneetiline ehk hääl-dusläheduse põhimõte, mille järgi taotletakse õigekirjavõimalikult head vastavust hääldusele. Eesti keele kir-japanekuks kasutatakse ladina tähestikku, mille baasva-riandile on lisatud tähed õ, ä, ö ja ü, võõrsõnades kasu-takse ka tähti š ja ž.Eestikeelne lugeja leiab ülevaate eesti keele struktuu-rist ning õigekeelsusnormidestMati Erelti, Tiiu Erelti jaKristiina Rossi “Eesti keele käsiraamatust” [13]. Inglis-keelsele lugejale võiks soovitada Mati Erelti toimetatudteost “Estonian Language” [14].

3.3 VIIMASE AJA ARENGUDEesti keelt on mõjutanud saksa (alguses keskalamsaksa,hiljem saksa kirjakeel), vene ja inglise keel, kuigi ükskineist pole eesti keelega suguluses.

10

Pärast Teist Maailmasõda viidi Eestis läbi venestamine.Alates iseseisvuse saavutamisest aastal 1918 riigikeeleksolnud eesti keele tähtust vähendati. Pärast NõukogudeLiidu kokkuvarisemist aastal 1991 sai eesti keel jälle ain-saks riigikeeleks.

Paljudele teistele keeltele tuntud probleemid onsaanud ohuks ka eesti keelele: vähenebemakeelsete kõnelejate arv, hägustuvadkeelenormid, võõrkeelte tugev mõju, eriti

ingliskeelsete suhtlusvõrgustike ja ingliskeelselaiatarbekultuuri pealetung.

Eesti keel, sarnaselt näiteks islandi keelele, onüks väikse-maid keeli maailmas, mis toimib ametliku keelena sellekõigis kasutusaspektides: administratiivkeelena, mee-dias, kirjanduses, teatris, ettevõtluses, koolides, ülikoo-lides, teaduses ja mujal.

Viimastel aastakümnetel, pärast Eesti iseseisvumist, onühest küljest eesti keele positsioon paranenud: eesti kee-lel on riigikeele staatus ja tema püsimine on tagatud sea-dustega. Teisalt on aga üleilmastumise ja infoühiskonnaarengu tulemusena eesti keele osatähtsus vähenenud.Paljudele teistele keeltele tuntud probleemid on saanudohuks ka eesti keelele: väheneb emakeelsete kõnelejatearv, hägustuvad keelenormid, võõrkeelte tugev mõju,eriti ingliskeelsete suhtlusvõrgustike ja ingliskeelse laia-tarbekultuuri pealetung. Keeletehnoloogia alal on raskesuuremate keeltega sammu pidada.

Eesti keele kaitseks on loodud mitu riiklikku organi-satsiooni. Keeleinspektsioon hoiab silma peal keelesea-duse täitmisel. Haridus- ja teadusministeeriumi keele-osakondplaneeribEesti keelepoliitikat ja hoolitsebmeiekeele maailmale tutvustamise eest. Ministeeriumi hal-dusalas olev Eesti Keelenõukogu on koostanud “Eestikeele arengukava”.

3.4 KEELEHOOLE EESTISPõhiseaduse kohaselt onEestiVabariigi riigikeeleks eestikeel ja riigi kohus on tagada eesti rahvuse, keele ja kul-tuuri säilimine läbi aegade. Eesti keele säilitamiseks jaarenguks vajalikud meetmed on sätestatud “Eesti keelearendamise strateegias (2004–2010)” [10] ja valmivas“Eesti keele arengukavas (2011–2017)” [15]. Eesti keeleigapäevast kasutust reguleerib keeleseadus ja sellel põhi-nev seadusandlus.

Eesti keele igapäevast kasutust reguleeribkeeleseadus ja sellel põhinev seadusandlus.

Eesti keele (ja teiste keelte) arengu ja kasutusega seo-tud tegevusi koordineerib Haridus- ja teadusministee-rium. Eesti keelenõukogu jälgib ja analüüsib Eesti keele-olukorda ning koostab keelestrateegia seiret ja jätkustra-teegiaid. Haridus- ja teadusministeeriumi osakondadesttegelevad keeleküsimustega lisaks keeleosakonnale kaRiiklik Eksami- ja Kvalifikatsioonikeskus ja Keeleins-pektsioon. Ministeeriumi hallatavatest üksustest tege-leb nende küsimustega Eesti Keele Instituut. Keelekor-raldusega tegelevad veel Emakeele Seltsi keeletoimkond,Tartu keelehooldekeskus ning Tartu ja Tallinna ülikoo-lide õppejõud.Eesti keel onüksEuroopaLiidu ametlikke keeli, eesti ELterminoloogia areng toimub koostöös Eesti Keele Ins-tituudi terminoloogiaosakonnaga ning Eesti Termino-loogia Ühinguga.2003. aastal koostas Eesti Keelenõukogu eesti keelearendamise strateegia aastateks 2004–2010,mis sisaldaseesti keele olukorra, seatud eesmärkide ja nende saavuta-miseks vajalikke sammude ja asutuste teaduspõhist kir-jeldust [10]. Esimene eesti keele arendamise strateegiaoli planeeritud katma kõiki peamisi keelekasutuse vald-kondi, sealhulgas ka keeletehnoloogiat.Järgmine eesti keele arendamise strateegia koostati EestiKeelenõukogu poolt aastal 2010 [15]. “Eesti keele aren-

11

gukava 2011–2017” on dokument, mis paneb paikapeamised strateegilised suunad eesti keele arenguks,õpetamiseks, uurimiseks ja kaitseks. Koos oma ra-kenduskava, vastavate seadusandlike dokumentide jamuude toetavate tegevustega (nt. rahastamine) kindlus-tab eesti keele arengukava eesti keele staatuse riigikee-lena ja selle jätkuva positsiooni Eesti Vabariigi peamisesuhtluskeelena.

3.5 KEEL JA HARIDUSHaridus on üks tähtsamaid vahendeid keele arengu jastabiilse positsiooni tagamiseks. Üks hariduse ülesan-deid on tagada üldine ja erialane kirjaoskus ning luuamitte-eestlastes positiivne hoiak eesti keele suhtes. Üld-haridus, iseäranis kohustuslik üldharidus, on äärmiselttähtis, sest just seemõjutab keelekasutust kõige rohkem.Seaduse järgi võib põhiharidust omandada ükskõik mil-lises keeles. Praegu kasutatakse gümnaasiumides kahteõppekeelt: kolmveerand koolidest õpib eesti, veerandvene keeles. Eesmärgiga parandada eesti keele oskustmitte-eestlastest gümnaasiumilõpetajate seas alustati2007. aastal muukeelsetes keskkoolides üleminekuprot-sessiga, kus osasid aineid õpetatakse eesti keeles.Eesti keel on kõigis põhikoolides ja gümnaasiumides (shvastava taseme haridust andvates kutsekoolides) kohus-tuslik õppeaine. 2009/2010 õppeaastal oli eestikeelsetespõhikoolides 90 837 õpilast (neist u. 84 000 rahvuselteestlased), keskharidust andvates õppeasutustes oli seearv 23 769 (neist 22 741 eesti rahvusest) [15].

Eesti keel teaduse ja kõrghariduse keelenatugineb pikaajalisele eestikeelse kõrghariduse ja

teadustöö traditsioonile.

Eesti keel teaduse ja kõrghariduse keelena tugineb pi-kaajalisele eestikeelse kõrghariduse ja teadustöö tradit-sioonile. Samas on ülikoolide rahvusvahelistumine too-nud kaasa nii võõrkeelse õppe osakaalu suurenemise

kui ka välismaalt pärit tudengite ja õppejõudude arvukasvu. Eesti ülikoolides on pea kõiki erialasid võima-lik õppida eesti keeles. Bakalaureuseõppes saab tudengpeaaegu alati omandada oma eriala eesti keeles, kuigimõnda erialaspetsiifilist ainet võidakse õpetada ka mõ-nes muus keeles. Siiski on teaduse rahvusvahelistumisetõttu olemas erialakeelte taandumise ja populaarteadusetasemele jäämise oht - paljudel teadusaladel kirjutatakseka Eestis kõik doktoritööd jamuud arvestatavad teadus-publikatsioonid inglise keeles.Mitte-eestlastest täiskasvanute jaoks korraldatakse eestikeele kursusi peamiselt suurema suhtlusvajadusega ame-tite (meditsiiniõed, politseinikud) esindajatele ja neile,kes taotlevad Eesti kodakondsust (edukatele õppijatelekompenseeritakse õpingukulud). Samuti korraldatakseeesti keele kursusi telesaadetena.

3.6 RAHVUSVAHELISEDASPEKTIDEesti keel on kuulunud Euroopa Liidu ametlike keeltehulka 2004. aastast alates. See tähendab, et eesti keeltsaab kasutada rahvusvahelise suhtluse keelena.Eesti muutub turistide seas järjest populaarsemaks. Sa-muti on viimastel aastatel suurenenud eesti keele ja kul-tuuri vastu huvi tundvate inimeste arv.Eesti riik toetab eesti keele õpetamist välismaal – hetkelon üle 30 ülikooli, mis pakuvad eesti keele õpet erinevaltasemel [16].

3.7 EESTI KEEL INTERNETISStatistikaameti andmetel oli Eestis 2010. a ligi 381 300perekonnal kodune internetiühendus ja 758 100 ini-mest (55% elanikkonnast) kasutab internetti regulaar-selt [17].Eesti on tuntud e-valitsuse ja e-riigi poliitika poolest. E-riigi poliitika koosnebkahest osast: ühelt poolt interneti

12

kaudu toimuvad valitsustegevused (valimised, riigi valit-semises osalemine) ja teiselt poolt ligipääs avalikele tee-nustele. Eesti kodanikud saavad interneti teel näiteks va-limistel hääli anda, makse deklareerida, arstiaegu kinnipanna ja isegi jälgida oma lapse edasijõudmist koolis.

Eesti on tuntud e-valitsuse jae-riigi poliitika poolest.

Enamuse siinsete ettevõtete kodulehed on eestikeelsed,ajalehtedel ja -kirjadel on oma uudiste edastamiseksveebiportaalid (http://postimees.ee, http://ohtuleht.ee, http://paevaleht.ee jpm) [18]. On palju teemapõhi-seid internetifoorumeid, kus kasutajad suhtlevad eestikeeles. Suhtlusportaalid nagu Orkut ja Facebook oneesti keelde lokaliseeritud. Lisaks leidub palju jututuba-sid, milles sageli suheldakse kirjakeele normidele mitte-vastavas keeles – kirjalikus slängis. Vikipeediasse on va-batahtlikud lisanud üle 88 900 eestikeelse artikli.Keeletehnoloogia vaatepunktist on interneti suurenevosatähtsus oluline kahest aspektist. Ühest küljest kuju-tab see suur hulk digitaalselt kättesaadavaid keeleand-meid endast rikkalikku materjali loomuliku keele tööt-luseks, eriti statistilise info kogumiseks. Teisest küljestpakub internet laialdaselt erinevaid võimalusi keeleteh-noloogia rakenduseks.

Enim kasutatav veebirakendus on kahtlemata otsingu-mootor, mis sisaldab keele automaattöötlust erinevateltasemetel, nagu käesoleva raporti teises pooles täpsemaltvõib lugeda. Otsingumootor hõlmab arenenud keele-tehnoloogiat, sealjuures iga keele jaoks erinevalt.

Nii Eestis kui mujal Euroopas on välja öeldud, et üheksmeie poliitiliseks eesmärgiks on kõigile võrdsete võima-luste tagamine. Avalikel asutustel on kohustus kindlus-tada puuetega inimestele piiranguteta juurdepääs omaveebilehtedele ja -teenustele. Selle sätte täitmisel on abikasutajasõbralikest keeletehnoloogiarakendustest, näi-teks pimedatele mõeldud kõnesünteesist.

Internetikasutajad ja sisupakkujad saavad keeletehno-loogiast kasu ka vähem ilmsel viisil, näiteks saab sedakasutada veebilehtede automaatselt teise keelde tõlki-misel. Arvestades inimtõlke kõrget hinda, on nõudlu-sega võrreldes reaalselt kasutatavat keeletehnoloogiatvõrdlemisi vähe arendatud ja rakendatud. Selle põhju-seks võib olla eesti keele suhteline keerukus ja tüüpilis-tes keeletehnoloogiarakendustes kasutatavate tehnoloo-giate paljusus.

Järgmises peatükis anname sissejuhatuse keeletehno-loogiasse ja selle põhivaldkondadesse, samuti hinnangueesti keelt toetava keeletehnoloogia hetkeolukorrakohta.

13

http://postimees.ee

http://ohtuleht.ee

http://ohtuleht.ee

http://paevaleht.ee

4

EESTI KEELE KEELETEHNOLOOGILINE TUGI

Keeletehnoloogiaks, sageli kasutatakse ka nimetust“inimkeeletehnoloogia” (ingl k human language tech-nology), nimetatakse inimkeele käsitlemiseks loodudtarkvarasüsteeme. Keelel on nii suuline kui ka kirjalikvorm. Kõne on neist vanem ja evolutsiooniliselt loo-mulikum, samas just kirjalikud tekstid säilitavad kee-rukat informatsiooni ja enamikku inimeste teadmis-test. Kõne- ja tekstitehnoloogiad töötlevad (ja ka gene-reerivad) keele eri vorme, kasutades selleks sõnastikke,grammatikareegleid ja semantikat. Seega väljendavastmeediast (kõne või tekst) sõltumata ühendab keeleteh-noloogia keele erinevaid teadmisi. Joonis 1 illustreeribkeeletehnoloogia maastikku.Suheldes kombineerime keelt teiste kommunikatsiooni-ja informatsioonimeediatega, näiteks vestluses kasu-tame žeste ja miimikat. Digitaalne tekst on ühenda-tud pildi ja heliga. Film sisaldab nii suulises kui kirja-likus vormis olevat keelt. Teisiti öeldes, kõne- ja teksti-tehnoloogiad kattuvad teineteisega ja on omakorda seo-tudmultimodaalset suhtlust jamultimeedia dokumentetöötlevate tehnoloogiatega.Järgnevalt vaatleme peamisi keeletehnoloogia raken-duste valdkondi: keeleline kontroll, veebiotsing, kõne-tehnoloogia ja masintõlge. Nad hõlmavad rakendusi jabaastehnoloogiaid, nagu näiteks:

‚ õigekirjakontroll,

‚ kirjutaja abivahendid,

‚ arvutitoetatud keeleõpe,

‚ infootsing,

‚ info ekstraheerimine,

‚ automaatne sisukokkuvõtete tegemine,

‚ küsimustele vastamine,

‚ kõnetuvastus,

‚ kõnesüntees.

Keeletehnoloogia on väljakujunenud uurimisala, millelon märkimisväärne hulk sissejuhatavat kirjandust. Hu-vitatud lugeja võib tutvuda järgmiste viidetega: [19, 20,21, 22, 23].Ennemainitud rakenduste tutvustamist kirjeldame tüü-pilise keeletehnoloogilise süsteemi arhitektuuri.

4.1 RAKENDUSTE ARHITEKTUURKeeletöötlustarkvara komponendid vastavad keele eri-nevatele tahkudele. Joonis 2 illustreerib tüüpilise teksti-töötlussüsteemi lihtsustatud arhitektuuri. Kolm esimestmoodulit tegelevad tekstisisendi struktuuri ja tähendu-sega:

1. Eeltöötlus puhastab andmed, analüüsib või eemal-dab vorminduse, tuvastab sisendkeele jne.

2. Grammatiline analüüs leiab sõnaliigid, öeldise, sihi-tise, laiendid, teised lauseliikmed ning tuvastab lausestruktuuri.

3. Semantilise analüüsi käigus toimub ühestamine(s.o sõnade konteksti sobivate tähenduste tuvasta-mine), anafooride lahendamine (nimisõnade vasta-vusse seadmine asesõnadega), väljendite asendaminening lause tähenduse esitamine masinloetaval kujul.

Tekstianalüüsi järel alustavad tööd ülesandespetsiifili-sed moodulid nagu automaatne sisukokkuvõtte tegija ja

14

Multimeedia- ja multimodaalsed tehnoloogiad

Keele-tehnoloogiad

Kõnetehnoloogiad

Tekstitehnoloogiad

Teadmustehnoloogiad

1: Keeletehnoloogia infotehnoloogia kontekstis

andmebaasiotsing. See lihtsustatud ja idealiseeritud kir-jeldus näitlikustab keeletehnoloogiliste rakenduste arhi-tektuuri keerukust.Pärast kesksete keeletehnoloogiliste rakenduste tutvus-tamist anname ülevaate keeletehnoloogia-alasest uuri-mistööst ja haridusest ning olnud ja käimasolevatestuurimisprogrammidest. Anname ka eksperthinnangukesksete rakenduste ja ressursside hetkeseisule erineva-tes kategooriates, näiteks kättesaadavus, küpsus ja kvali-teet. Tabelis võtame kokku eesti keele keeletehnoloogiaüldise hetkeolukorra.

4.2 KESKSED RAKENDUSEDSelles peatükis keskendume kõige olulisemate keeleteh-noloogiliste vahendite ja ressursside kirjeldamisele ja an-name ülevaate keeletehnoloogia-alasest tegevusest Ees-

tis. Tekstis rõhutatud vahendeid ja ressursse on kirjelda-tud ka peatüki lõpus olevas tabelis.

4.2.1 Keeleline kontroll

Igaüks, kes on kasutanud tekstiredaktorit (nt MicrosoWord’i), teab, et sellel on olemas õigekirjakontrollija,mis joonib alla kirjavead ja annab soovitusi nende pa-randamiseks. Esimesedõigekirjakorrektorid (ehk spelle-rid) võrdlesid sisestatud sõnu leksikonis olevate korrekt-sete sõnadega. Tänapäevased spellerid on keerulisemad.Keelespetsiifilisi grammatikaanalüüsi algoritme kasu-tades leitakse morfoloogilised vead (nt mitmuse moo-dustamine), süntaksivead, näiteks lausest puuduv tegu-sõna või aluse ja öeldise ühildumise konflikt (nt nad kir-jutas kirja). Kuid enamik spellereid ei suuda leida vigusellisest inglisekeelsest tekstist [24] nagu:

Sisendtekst

Eeltöötlus Grammatiline analüüs

Semantiline analüüs

Ülesandepõhised moodulid

Väljund

2: Tüüpiline keeletöötluse arhitektuur

15

Sisendtekst Õigekirjakontroll Grammatikakontroll Parandusettepanekud

Statistiline keelemudel

3: Keeleline kontroll (üleval: statistiline; all: reeglipõhine)

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea

(Siin on tegemist sõnademänguga, sõnad on asendatudteiste samasuguse hääldusega sõnadega, nii et iga üksikusõna kirjapilt on korrektne.)Taoliste vigade tuvastamine vajab kontekstianalüüsi. Sa-geli juhtub, et hooletu näpulöök klaviatuuril jätab sõ-nast ära eesti keele mitmusetunnuse -d:

värvilise õied

värvilised õied

Sellist tüüpi vigade analüüs vajab kas ekspertide pooltkäsitsi koostatud grammatikat ja seda kasutavat tark-vara või statistilisi keelemudeleid. Viimasel juhul arvu-tabmudel vastava sõna lauses paiknemise tõenäosuse (stsõna eelneva ja järgneva sõna vahel paiknemise tõenäo-suse). Näiteks värvilise õie on tunduvalt tõenäolisem sõ-nade järjend kui värvilise õied. Samuti parandab spellerotsinguteenuste päringuid, näiteks Google’i Kas mõt-lesite …-soovitused.Automaatselt saab statistilist keelemudelit genereeridasiis, kui on olemas suur (korrektsete) tekstide kogum(seda nimetatakse tekstikorpuseks). Kirjeldatud mee-todeid on kasutatud inglise keele analüüsimiseks. Kah-juks ei ole nad otseselt eesti keelele ülekantavad, sesteesti keelel on vabam sõnajärg, peaaegu piiranguteta liit-sõnade moodustamine ning suurem käände- ja pöörde-lõppude hulk.

Keelelist kontrolli kasutatakse ka mujal kuitekstiredaktorites.

Eesti keele spelleri loomine algas 1991. aastal ning see onolnud tihedalt seotud eesti keele morfoloogiaanalüsaa-tori ESTMORF arenguga. Spelleri ja morfoloogiaana-lüsaatori aluseks on 36000-sõnaline leksikon ja reeglidkõikide sõnavormidemoodustamiseks. 1994. aastal antivälja esimene versioon eesti keele spellerist. Hilisematesversioonides on leksikoni täiendatud nimede, lühenditeja neologismidega.Speller on integreeritud kontoritarkvarapakettidesseMS Office, Open Office.org ja IBM Lotus Notes. Spel-lerit arendab erafirma Filoso OÜ [25].Eesti keele jaoks on püütud luua ka teisi, vabavaralisispellereid. Tuntuim neist on leksikon ispelli jaoks. Kah-juks ei suuda need spellerid piisavalt edukalt liitsõnuanalüüsida.Grammatikakontrollija kontrollib lause struktuuri japunktuatsiooni. Eesti keele grammatikakontrollija aren-dustööga alustati Tartu Ülikoolis 2007. aastal. Hetkelon olemas selle prototüüpversioon, mis suudab tuvas-tada komavigu 95% täpsusega.Lisaks tekstiredaktorile kasutatakse keelelist kontrollika kirjutaja abivahendites. Need on tarkvarasüsteemid,millega koostatakse etteantud formaadis infotehnoloo-gia, meditsiini- ja tehnoloogiavaldkondade kasutajaju-hendeid ning dokumentatsiooni. Ettevõtted on haka-nud oluliselt suuremat tähelepanupöörama nii rahvus-

16

vahelise turu vajadustele tõlkimise ja lokaliseerimise val-las kui ka tehnilise dokumentatsiooni kvaliteedile. Keh-vasti koostatud kasutusjuhendid põhjustavad toodetevalesti kasutamist ning sellega kaasnevad klientide kah-junõuded. Keeletehnoloogia arengu käigus on loodudkirjutajaabivahendeid, mis aitavad tehnilise dokumen-tatsiooni koostajal kasutada piiratud sõnavara ja lause-struktuure, mis vastavad firma kehtestatud nõuetele ja(korporatiiv)terminoloogiale.Spellerite ja kirjutajaabivahendite kõrval vajab keelelistkontrolli ka arvutitoetatav keeleõpe.

4.2.2 Veebiotsing

Keeletehnoloogia kõige laialtlevinum rakendus on ot-sing, nii veebis, sisevõrkudes kui ka digitaalsetes raa-matukogudes. 1998. aastast tegutsev Google’i otsingu-mootor teostab praegu umbes 80% kõigist päringutest[26]. 2009. aastast alates on sõna guugeldama lisatudka Eesti Õigekeelsussõnaraamatusse. Google’i otsingu-liidese ja vastuse kuvamise lehekülje kujundus ei olealgusaegadega võrreldes oluliselt muutunud, kuid ontoimunud sisulised muutused. Praegune versioon pa-kub valesti kirjutatud sõnadele õigekirjasoovitusi ningotsingu korrektsust parandab semantiline otsing, misseisneb päringu konteksti sõnade tähenduste analüüsis[27]. Google’i edulugu tõestab, et suure hulga andmeteja efektiivse indekseerimistehnikaga annab statistilinelähenemine häid tulemusi.

Järgmise põlvkonna otsimootorid peavadkasutama palju keerulisemat keeletehnoloogiat.

Keerulisema informatsioonivajaduse rahuldamisekstäiendatakse teksti tõlgendamise süsteeme sügavamalingvistilise teabega. Eksperimendid leksikaalsete res-sursside (masinloetavad tesaurused või ontoloogilisedkeeleressursid, nt wordnet) kasutamiseks otsingutel onnäidanud, et sobivate lehekülgede leidmine paraneb,

sest leitakse ka sünonüüme ja nõrgemaid seosetüüpesisaldavad lehed, näiteks on seotud aatomienergia jatuumaenergia.

Võtmesõnade nimekirja asemel küsimustena või muudtüüpi lausetena esitatud päringute töötlemiseks peaksidjärgmise põlvkonna otsingumootorid sisaldama paljukeerulisemat keeletehnoloogiat. Et vastata päringule“Anna mulle nimekiri kõigist neist ettevõtetest, milleon teised ettevõtted viimase viie aasta jooksul üle võt-nud”, peabKT süsteem tegema lauses nii süntaktilise kuika semantilise analüüsi ning andma kiiresti vastavatedokumentide indeksi. Vastuse andmiseks tuleb kõige-pealt analüüsida lause grammatilist struktuuri ja mõista,et kasutaja tahab just nimekirju ülevõetud ettevõtetest,mitte ettevõtete omandajatest. Rahuldamaks väljendit“viimase viie aasta jooksul”, peab süsteem leidma sobivaaastate vahemiku. Seejärel tükk tüki haaval informat-siooni leidmiseks on vaja sobitada päring meeletu hulgastruktureerimata andmetega. Kirjeldatud protsessi ni-metatakse infootsinguks, see sisaldab nii otsimist kuika leitud dokumentide järjestamist. Ettevõtete nime-kirja genereerimiseks kasutatakse nimeüksuste tuvasta-mise protsessi, mille käigus tuvastab süsteem dokumen-tidest ettevõtte nimeks sobiva sõnajärjendi.

Tunduvalt keerulisem on leida päringule vastust teiseskeeles olevate dokumentide hulgast. Keeltevaheline in-footsing eeldab päringu automaatset tõlkimist kõigissevõimalikesse lähtekeeltesse ja hiljem saadud tulemustetõlkimist sihtkeelde.

Tänapäeval suureneb pidevalt andmete hulk, mis esi-nevad mingil muul kujul kui kirjalik tekst ja on tek-kinud vajadus multimeedia infootsingu teenuse järele,mis otsiks pilte, audiofaile ja videoandmeid.Audio-ja vi-deofailidest otsimiseks teisendab kõnetuvastusmoodulkõne tekstiks või selle foneetiliseks esituseks, mida saabkasutaja päringuga sobitada.

Keelest sõltumatud otsinguvahendid suudavad leida ai-nult sõnavorme, millel on päringusõnaga täpselt sama

17

Kasutaja päring

Veebilehed

Eeltöötlus Päringu analüüs

Eeltöötlus Semantiline töötlus Indekseerimine

Vastavusse viimine &

olulisus/järjestamine

Otsingutulemused

4: Veebiotsing

kuju või mis sisaldavad päringusõna alamsõnena. Kunaeesti keele morfoloogia on rikas ja lisaks lõppudele võibka sõna tüvi muutuda, siis on edukaks otsinguks ja in-dekseerimiseks vaja keelespetsiifilisi vahendeid.

Dokumente hoitakse arvutis kui suur tekstilist andme-baasi. Täistekstiotsing jagatakse kaheks alamülesandeks:indekseerimiseks ja otsimiseks. Indekseerimise protses-sis analüüsitakse tekste sõna-sõnalt ja luuakse otsisõnadenimekiri ehk indeks. Otsimisfaasis kasutatakse konk-reetse päringu töötlemiseks ainult indeksit, mitte koguteksti. Indekseerija loob kirje iga dokumendist leitudsõna või termini jaoks, kirjesse salvestatakse ka doku-mendi viide ja vahel ka selle sõna asukoht dokumendis.Keelespetsiifilised indekseerijad leiavad enne sõnade in-deksisse lisamist nende algvormid ehk lemmatiseerivadotsisõnad. Näiteks sõnavormid käsi, käe, kätt esitatakseindeksis ainult tüvisõna ehk lemma käsi kirjena. Mõneljuhul leiab lemmatiseerija ühele sõnavormile mitu alg-vormi, nt kuue algvormideks on nii kuub kui ka kuus.Sellise mitmesuse lahendamiseks otsib süsteem sõnade

konteksti põhjal õige algvormi (protsessi nimetataksemorfoloogiliseks ühestamiseks).Eesti Infosüsteemide Amet on avalikult soovitanud ka-sutada Eesti avaliku sektori infosüsteemide infootsingulja indekseerimisel lemmatiseerimismoodulit [2].Esimene lemmatiseerijat kasutav otsingumootor oli ka-sutusel 1997–2001 aastal Riigikantselei infosüsteemis.Ka Google’i otsingumootor kasutab eesti keele jaoksmõningast lemmatiseerimist, näiteks päringule ma-jandusminister antakse vastuses viiteid ka dokumen-tidele, milles esineb ainsuse omastavas käändes vormmajandusministri.

4.2.3 Suuline suhtlus

Suuline suhtlus on rakendusvaldkond, mis sõltub kõ-netehnoloogiast ehk suulise keele töötlemise tehnoloo-giast. Suulise suhtluse tehnoloogiat kasutatakse sellisekasutajaliidese loomiseks, kus traditsioonilise graafilisekujunduse, hiire ja klaviatuuri asemel suheldakse arvu-tiga suulist kõnet kasutades. Tänapäeval kasutatakse näi-

18

teks hääljuhitavaid kasutajaliideseid osaliselt või täieli-kult automatiseeritud telefoniteenustes. Hääljuhitavadkasutajaliidesed on kasutusel panganduses, tarneahelatejuhtimises, ühistranspordis, telekommunikatsioonis jateistes ärivaldkondades. Suulise suhtluse tehnoloogiatkasutatakse ka autode navigeerimissüsteemides ning nu-titelefonides graafilise puutetundliku kasutajaliidese al-ternatiivina.

Suulise suhtluse tehnoloogiat kasutatakse sellisekasutajaliidese loomiseks, kus traditsioonilise

graafilise kujunduse, hiire ja klaviatuuri asemelsuheldakse arvutiga suulist kõnet kasutades.

Suuline suhtlus hõlmab nelja tehnoloogiat:

1. Automaatne kõnetuvastus teeb kasutaja poolt kuul-davale toodud helijärjendi põhjal kindlaks tegelikultöeldud sõnad.

2. Loomulikukeelemõistmise protsess analüüsib öeldusüntaktilist struktuuri ja tõlgendab seda vastavaltsüsteemi vajadustele.

3. Dialoogi haldamise moodul määrab süsteemi funkt-sionaalsust arvestades selle, milline tegevus algata-takse vastuseks kasutaja sisendile.

4. Kõnesüntees teisendab süsteemi vastuse helideks.

Kõnetuvastussüsteemi suurimaks väljakutseks on kasu-taja öeldud sõnade tuvastamine. Probleemi lahenda-miseks piiratakse võimalike ütluste hulka konkreetsetevõtmesõnadega või siis luuakse käsitsi rohkelt loomu-liku keele ütlusi sisaldav keelemudel. Masinõppeteh-noloogiaga on võimalik keelemudeleid ka automaat-selt luua, selleks kasutatakse kõnekorpust, mis koos-neb suurest hulgast kõnet sisaldavatest audiofailidest jateksti transkriptsioonidest. Sõnavara piiramine sunnibinimesi kasutama väga jäika hääljuhitavat kasutajalii-dest. Kasutajatele ei pruugi see küll meeldida, kuid sa-mas rikkama sõnavaraga keelemudeli loomine, sobita-mine ja ka haldamine on oluliselt kallim. Kasutajatele

on vastuvõetavamad keelemudelil põhinevad kasutaja-liidesed, mis lubavad neil oma soove võimalikult paind-likult väljendada, näiteks kasutajaliides alustab dialoogilausega “Kuidas ma saan sind aidata?”.

Hääljuhitavate kasutajaliideste tootjad eelistavad väl-jundi genereerimisel kasutada eelsalvestatud professio-naalsete diktorite ütlusi. Staatiliste ütluste korral,mil sõ-nastus ei sõltu kontekstist ega kasutaja andmetest, annabsee parema tulemuse. Dünaamilise sisu korral on tule-mus ebaloomuliku intonatsiooniga, sest audiofaili tükidliidetakse lihtsalt kokku. Tänapäeva kõnesünteesisüs-teemides on loomulikult kõlavate dünaamiliste ütlustegenereerimine muutunud üha paremaks, kuid arengu-ruumi veel on.

Turul olevate kõnetehnoloogialiideste komponendidon viimase kümnendi jooksul standardiseerunud ningkõnetuvastuse ja kõnesünteesi turg on märkimisväär-selt konsolideerunud. G20 riikide rahvuslikel turgudeldomineerivad viis globaalset tegijat, Euroopas on neisttuntuimad Nuance (USA) ja Loquendo (Itaalia). 2011.aastal teatas Nuance, et omandas Loquendo, see märgibkonsolideerumise jätkumist.

Eesti keele automaatse kõnetuvastusega tegeleb peami-selt Tallinna Tehnikaülikooli Küberneetika Instituudifoneetika ja kõnetehnoloogia labor. 2000. aastal valmisprototüüp isoleeritud sõnade tuvastamiseks (eestikeel-sed numbrite ja tähtede nimetused), 2002–2004 valmispiiratud sõnavaraga peidetudMarkovimudelil (HMM)põhinev sidusa kõne tuvastussüsteem. Viimane kõne-tuvastussüsteemi versioon (2010) võimaldab tuvastadapiiramata sõnavara 63–85% täpsusega. Tulemus sõltubkõne žanrist, sõnavarast ja signaali kvaliteedist (müra ta-semest) [28].

On loodud kõnetuvastaja veebirakendus, mis võimal-dab automaatselt transkribeeritud raadiovestlussaateidlehitseda, neid kuulata ja nendest otsida. Samuti onolemas veebiteenus, millega kasutaja saab saata süstee-mile oma helifaile transkribeerimiseks. Arendamisjär-

19

Kõnesisend Signaalitöötlus

Kõneväljund KõnesünteesFoneetilised vasted

& intonatsiooni kavandamine Loomuliku keele

mõistmine ja dialoog

Tuvastamine

5: Kõnepõhine dialoogsüsteem

gus on radioloogidele sobiva kõnetuvastussüsteemi loo-mine, millega on võimalik dikteerida ka spetsiifilisematsõnavara. Esialgsed eksperimenditulemused on paljulu-bavad (10% vigu reaalajalisel tuvastamisel).

Aastatel 1997–2002 loodi kolme organisatsiooni(TTÜ Küberneetika Instituut, Eesti Keele Instituut jaOÜ Filoso) poolt eesti keele tekst-kõnesüntesaator.See kõnesüntesaatori versioon kuulub n.ö süntesaato-rite esimesse põlvkonda, kasutatakse difoone, iga kõne-üksus vastab täpselt ühele andmebaasis olevale difoo-nile (helilt helile üleminekule). Süntesaatori väljund onarusaadav, kuid on monotoonne, veidi hakitud ja pisutebaloomuliku kõlaga. Süntesaator on kohandatud kasu-tamiseks pimedatele. Süntesaator on avatud lähtekoo-diga, seda võib kasutada mitteärilistel ja mittesõjalisteleesmärkidel [29].

Eesti Keele Instituut arendab hetkel ka korpusepõhisekõnesüntesaatori versiooni, milles lisaks difoonidele ka-sutatakse ka pikemaid kõneüksusi (sõnu ja fraase).

Haridus- ja teadusministeeriumi parima keeleteo au-hinna võitsid 2010. aastal MTÜ Jumalalaegas ja EestiHoiuraamatukogu töörühm, kes lõid eestikeelse häälju-hendamise pimedate tehnilistele abivahenditele. Nenderakendused kasutavad soome kõnesüntesaatorit.

Tulevikus on oodata märkimisväärseid muutusi kõne-tehnoloogia arengus. Kõnetehnoloogia kasutamist mõ-jutab ka laialt levima hakanud nutitelefon, mis on ta-valise telefoniside, interneti ja e-maili kõrval uus so-

biv platvorm kliendisuhete halduseks. Ilmselt on tulevi-kutelefonis vähem hääljuhitavaid kasutajaliideseid ningsuuline kõne hakkab mängima nutitelefonides suure-mat rolli kasutajasõbraliku sisendina. Arengu protsesssõltub kõnelejast sõltumatute kõnetuvastussüsteemidekorrektsuse paranemisest. Juba praegu pakutakse nutite-lefonide kasutajatele tsentraliseeritud teenustena kõnedikteerimist. Sarnased Tanel Alumäe ja Kaarel Kal-juranna TTÜ Küberneetika Instituudis välja tööta-tud eestikeelsed kõnetuvastusrakendused nutitelefoni-dele võitsid 2011. aasta parima keeleteo auhinna.

4.2.4 Masintõlge

Mõte kasutada arvuteid loomuliku keele tõlkimisekstekkis juba 1946. aastal. Olulisel määral rahastati sedauurimissuunda viiekümnendatel ja kaheksakümnenda-tel aastatel, kuid vaatamata pikale ajaloole ei täida isegitänapäevane masintõlge algselt talle seatud eesmärki,milleks oli automaatne piirideta tõlge.

Kõige sirgjoonelisem masintõlke viis seisneb ühekeele sõnade asendamises teise keele sõnadega.

Kõige sirgjoonelisem masintõlke viis seisneb ühe keelesõnade asendamises teise keele sõnadega. Selline lähe-nemine sobib piiratud sõnavaraga valdkondade tekstide(nt ilmateadete) tõlkimiseks. Vähem standardiseeritud

20

teksti kvaliteetseks tõlkeks on vajalik suuremale teksti-üksusele (fraasile, lausele või tervele lõigule) sobiva siht-keelse vaste leidmine.Peamiseks takistuseks on inimkeele mitmesus, mis esi-tab väljakutse erinevatel analüüsitasanditel, näiteks sõ-natähenduse mitmesus leksikaalsel tasandil (hiir võibolla nii loom kui arvuti osa) või lause struktuuri mitme-sus süntaktilisel tasandil, vt alljärgnevaid tõlkeid inglisekeelest:

e woman saw the car and her husband, too.

‚ [Naine nägi autot ja tema abikaasa samuti.]

‚ [Naine nägi autot ja samuti oma abikaasat.]

Masintõlkesüsteemvõibpõhinedaka lingvistilistel reeg-litel. Lähedalt seotud keelte tõlkimisel saab kasutada ot-sest asendamist. Reeglipõhised (või lingvistiliste tead-miste põhised) masintõlkesüsteemid analüüsivad lähte-keelset teksti ning loovad selle põhjal vahepealse süm-bolilise esituse hilisemaks sihtkeelsesse teksti generee-rimiseks. Taolised süsteemid vajavad heaks tõlkeks niipõhjalikke leksikone, milles on esitatudmorfoloogiline,süntaktiline ja semantiline informatsioon kui ka mahu-kaid käsitsi koostatud grammatikaid. Vajalike vahenditeloomise protsess on pikk ja seetõttu ka kallis.Hilistel kaheksakümnendatel, kui arvutusvõimsus suu-renes ja ühtlasi ka odavnes, tekkis huvi statistiliste ma-sintõlkemudelite loomise vastu. Statistilised mudelidsaadakse kakskeelsete tekstikorpuste analüüsil. NäiteksEuroparli paralleelkorpus sisaldab Euroopa Parlamendiväljaandeid 21 Euroopa keeles. Piisava andmehulga kor-ral leiab masintõlkesüsteem võõrkeelsele tekstile sellisetõlke, mis annab edasi teksti ligikaudse tähenduse. Eri-nevalt reeglipõhistest süsteemidest genereerib statisti-line masintõlkesüsteem sageli grammatiliselt mittekor-rektse väljundi. Samas statistilise süsteemi loomiseks onvaja vähem inimtööjõudu ning see katab ka teatud keeleeripärasid (nt idiomaatilised väljendid), mida teadmis-tepõhised süsteemid ignoreerivad.

Eesti keele masintõlge on tõsine väljakutse.

Statistiliste ja reeglipõhiste masintõlkesüsteemide tu-gevad ja nõrgad küljed kompenseerivad üksteist, see-tõttu pööratakse hetkel suurt tähelepanu mõlemat lä-henemist kombineerivale hübriidsele meetodile. Üheksselle rakendamise võimaluseks on tõlkida paralleelseltlingvistilist ja statistilist tõlget kasutades ja hiljem va-likumoodulis otsustada, kumb tõlge on parem. Pike-mate lausete (üle 12 sõna) korral on tulemused perfekt-susest kaugel. Kvaliteetsema tulemuse saaks kombinee-rides kummagi tõlke parimaid osi, samas on see küllaltkikeeruline ning alati ei ilmne omavahel täpses vastavusesolevad osad.Eesti keele masintõlge on tõsine väljakutse. Sõnastiku-põhise analüüsi muudab keeruliseks vaba liitsõnamoo-dustus, uusi sõnu saab liitmise teel alati juurde tekitada.Analüüsiprobleemepõhjustavadka vaba sõnajärg jamit-meosalised tegusõnad (ühend- ning väljendverbid). Li-saks kõigele muule on piiratud ka paralleelsete tekstidehulk. Vaatamata sellele kuulub Eesti keel nende ligi 50maailma keele hulka, mida saab arvuti abil tõlkida [30].Eesti keele masintõlke ajalugu ulatub tagasi 50ndatesse,kui Tartu Ülikooli matemaatikud katsetasid matemaa-tiliste tekstide tõlkimist vene keelest eesti keelde. Tolle-aegne riistvara (arvutiUral) töötas kiirusega 100operat-siooni sekundis. Nõrk arvutusvõimsus oligi üks katsetekatkestamise põhjustest.Praegu on eesti keele jaoks olemas kaks masintõlkesüs-teemi.Tuntuimneist onGoogle’i tõlketeenus. Selle kva-liteet ei ole küll alati küllaldane, kuid võimaldab siiskiaru saada teksti üldisest teemast ja põhifaktidest.Teist masintõlkesüsteemi arendab Tartu Ülikooli uuri-misgrupp. Nende uurimistöö keskendub hetkel eesti-inglise masintõlkesuunale. Süsteem (http://masintolge.ut.ee) tõlgib piiratud pikkusega lauseid eesti keelest ing-lise keelde. Masintõlkesüsteem kasutab avatud lähte-koodiga Mosese dekodeerimismooduleid ja seda tree-

21

http://masintolge.ut.ee


Statistiline masintõlge

Lähtetekst

Sihttekst

Tekstianalüüs (formaatimine, morfoloogia, süntaks jms)

Järeltöötlus (formaatimine, kontekst jms)

Tõlkereeglid

6: Masintõlge (vasakul: statistiline; paremal: reeglipõhine)

nitakse erinevatel eesti-inglise paralleelkorpustel, kaasaarvatud JRC-Acquis ning OPUS.

Masintõlkesüsteem suurendab oluliselt töö produktiiv-sust, eriti siis, kui süsteem on integreeritud töövooguning kohandatud kasutajaspetsiifilise terminoloogiaga.Näiteks Siemens kasutab interaktiivset tõlget toetavaidsüsteeme jaVolkswagen kasutab keeleportaali,mis tagabligipääsu sõnaraamatutele, ettevõttespetsiifilisele termi-noloogiale, tõlkemälule ja masintõlketoele.

Masintõlkesüsteemide kvaliteedi parandamisel on veelpalju arenguruumi. Väljakutseks on keeleressursside ko-handamine konkreetse sektori vajadustega ning tehno-loogia integreerimine töövoo protsessidesse, mis jubakasutavad terminoloogiabaasi ja tõlkemälu.

Hindamiskampaaniad võrdlevadmasintõlkesüsteemidekvaliteeti, erinevaid lähenemisi ja süsteemide eri kee-lepaaride olukorda. Euromatrix+ projekti käigus loo-dud tabelis (vt joonis 7) on koondatud keelepaariti (iirikeelt ei võrreldud) 22ELi ametliku keele tulemused.Tu-lemusi on hinnatud BLEU-punktidega, milles parematõlke skoor on alati kõrgem [31]. Inimtõlkija koguksülesandest keskmiselt 80 punkti. Parimad punktisum-mad (tabelis rohelise ja sinise värviga tähistatud) saidkeeled, millesse on koostööprojektides palju panusta-tud ning mille jaoks leidub rohkelt paralleeltekste (ntinglise, prantsuse, hollandi, hispaania ja saksa keel). Ta-belis on punasega märgitud halvimad tulemused. Nen-dele keeltele kas ei ole piisavalt tähelepanu pööratud või

need keeled erinevad struktuurilt oluliselt teistest keel-test (näiteks ungari, malta, soome keel ja eesti keel).

4.3 MUUD RAKENDUSALADKeeletehnoloogiliste rakenduste loomisel tuleb lahen-dada suur hulk süsteemis paiknevaid alamülesandeid,mida vahel ei ole kasutajaga suhtlemisel isegi näha.Need moodulid on vastavuses arvutilingvistika erine-vate alamteemade uurimisobjektidega.

Keeletehnoloogilised rakendused on sagelisuuremate tarkvarasüsteemide osad, tõstes nende

funktsionaalsust kulisside tagant.

Näiteks on aktiivne uurimisteema küsimustele vasta-mine, selle jaoks luuakse eraldi märgendatud korpusining korraldatakse teaduslikke võistlusi. Küsimustelevastamise kontseptsioon arenes välja võtmesõnadepõ-hisest otsingust, mille korral väljastab otsingumootorvastuseks sobivad dokumendid. Idee kohaselt esitab ka-sutaja konkreetse küsimuse, millele süsteem annab ühevastuse. Näiteks:

Küsimus: Kui vana oli Neil Armstrong sel ajal, kui taastus Kuu pinnale?

Vastus: 38.

22

Sihtkeeled – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

7: Masintõlge 22 Euroopa Liidu keele vahel – Machine translation between 22 EU-languages [32]

Kuigi ilmselgelt kuulub küsimustele vastamine veebiot-singu valdkonda, on see praegu katusterminiks sellisteleuurimisteemadele naguküsimuste erinevad liigid, nendekäsitlemine ja oletatavat vastet sisaldavate dokumentideanalüüsimine ja võrdlemine (kas nad annavad vastand-likke vastuseid?) ning konteksti ignoreerimata spetsiifi-lise informatsiooni (vastuse) tekstist välja filtreerimine.

Eelnev on omakorda seotud informatsiooni ekstraheeri-mise (IE, kasutatakse ka mõistet info kurnamine) vald-konnaga, mis oli väga populaarne ja oluline 90ndatealguses, mil arvutilingvistikas hakati eelistama statis-tilisi meetodeid. IE eesmärgiks on dokumentidest väi-keste spetsiifiliste infokildude tuvastamine, näiteks tu-vastada uudisartiklitest firmade ülevõtmise põhitegijad.Teine tuntud ülesanne seisneb terroriaktide identifitsee-rimises. Tekstis leiduv info esitatakse tabelina, milles onnäidatud akti sooritaja, sihtmärk, aeg, koht ja intsidenditulemus. IE keskseks teemaks on valdkonnaspetsiifilise

vormi täitmine andmetega. IE on üks näide tagaplaa-nil töötavast tehnoloogiast, mida saab praktikas erine-vatesse rakenduskeskkondadesse lõimida.

Automaatne sisukokkuvõtete tegemine ja teksti gene-reerimine on kaks sellist piiripealset ala, mille raken-dused toimivad nii iseseisvate programmidena kui katoetavas rollis n.ö kulisside taga. Automaatse sisukokku-võtete tegemise käigus leitakse pikast tekstist oluline in-formatsioon ja esitatakse see lühema tekstina. Seda või-malust pakubkanäiteks tekstiredaktorMicrosoWord.Statistilisi meetodeid kasutatakse teksti oluliste sõnade(sõnad, mis esinevad tekstis väga sageli, kuid ei ole niisagedased tavalises keelekasutuses) kindlaks tegemiseksja enim neid olulisi sõnu sisaldavate lausete leidmiseks.Teksti sisukokkuvõttena esitataksegi just need laused.Kuna sisukokkuvõtte tekst koosneb muutmata kujulalgse teksti lausetest, siis on kirjeldatud stsenaariumi jär-givad programmid pigem tekstist lausete ekstraheerijad,

23

väljavõtete tegijad. Teiseks võimaluseks on genereeridatäiesti uusi lauseid, mida lähtetekstis ei leidu. See lähe-nemine nõuab aga teksti sügavamat mõistmist ning see-tõttu ei ole ta ei piisavalt robustne ega veakindel.Teksti genereerimise programmid on harva iseseisvadrakendused. Enamasti on nad integreeritud suurema-tesse tarkvarasüsteemidesse, näiteks haiglate info- süs-teemi, mis kogub, salvestab ja töötleb patsientide and-meid. Andmete põhjal aruannete koostamine on ükspaljudest sisukokkuvõtte tegemise rakendustest.Eesti keele jaoks leidub sisukokkuvõtete tegemiseks ai-nult prototüüpvahend. Eesti keele automaatne sisukok-kuvõtja (EstSum) teeb väljavõtted ühe dokumendi pii-res. Tekstižanr on samuti piiratud – EstSum eeldab, etsisendtekst kuulub uudiste valdkonda.

4.4 HARIDUSPROGRAMMIDKeeletehnoloogia on väga interdistsiplinaarne uurimis-ala, milles on kombineeritud keeleteaduse, arvutitea-duse, matemaatika, filosoofia, psühholingvistika ja neu-roteaduste ühised kogemused.Keeletehnoloogia-alast haridust annavad Eestis kaksülikooli: TartuÜlikool ja Tallinna Tehnikaülikool [33].

‚ Tartu Ülikooli eesti ja soome-ugri keeleteaduse üli-õpilased võivad õppida arvutilingvistika moodulitnii bakalaureuse- kui ka magistriõppes. See moo-dul sisaldab keeleteooria ja arvutiteaduse alaseidkursuseid, näiteks programmeerimist lingvistidele.Infotehnoloogia eriala bakalaureuse- ja magist-riõppe tudengid võivad õppida keeletehnoloo-giat eraldi moodulina. Paljud keeletehnoloogia-ja arvutilingvistika-alased kursused on loodudmatemaatika-informaatikateaduskonna ja filosoo-fiateaduskonna koostöös.

‚ Tallinna Tehnikaülikoolis ei ole üliõpilastekeeletehnoloogia-alane juhendamine nii laialdane.Mõned informatsioonitehnoloogia doktorandid

spetsialiseeruvad kõnetehnoloogia õppele, kasuta-des selleks individuaalseid õppeprogramme.

2009. a-l rajati kaks doktorikooli, milles osale-vad keeleteaduse ja keeletehnoloogia doktorandid:informatsiooni- ja kommunikatsioonitehnoloogia dok-torikool (keeletehnoloogia doktorantidele) ja keele-teooria, filosoofia ja semiootika doktorikool (arvuti-lingvistika doktorantidele).

4.5 RIIKLIKUD PROGRAMMID JAALGATUSEDKeeletehnoloogia-alase uurimistööga alustati Eestisjuba 1950ndatel, kui ülikoolidesse ja uurimislaboritessejõudsid esimesed suurarvutid. 1990ndate alguses muu-tusid oluliselt senised finantseerimisviisid ja ka uuri-misteemad ning järjepidevas uurimistöös tekkis taga-silangus. Tänu rahvusvahelistes projektides (nt Coper-nicus) osalemisele elasid keeletehnoloogia uurimisrüh-mad keerulised ajad siiski küllaltki hästi üle [33].1990ndate lõpul avanesid uued rahastamisvõimalused:

‚ Eesti Informaatikakeskuse poolt (1998–2000) al-gatatud programm “Eesti keeletehnoloogia”. Selleprogrammi raames loodi ka 1999. aastal esimeneeesti keele keeletehnoloogia arendamise kava.

‚ Riiklikud programmid “Eesti keel ja kultuurimälu”(1999–2003) ja “Eesti keel ja rahvuslik mälu”(2004–2008) sisaldasid keeletehnoloogia alamprog-ramme.

‚ Keeletehnoloogia võtmeisikud olid samuti kaasa-tud EL 5. raamprogrammi projekti “eVikingsII: Vir-tuaalse infoühiskonna tehnoloogiate teadus- ja aren-duskeskuse asutamine Eestis” (2002–2005).

2005. aastal koostati riikliku programmi “Eesti keelekeeletehnoloogiline tugi” (EKKTT) kava. 2006. aas-tal käivitas haridusministeerium selle programmi viieks

24

aastaks (2006–2010). Programmi peaeesmärk oli aren-dada eesti keele keeletehnoloogilist tuge tasemele, mislubaks eesti keelel moodsas infoühiskonnas vabaltfunktsioneerida. EKKTT rahastas keeletehnoloogia-alast teadus- ja arendustööd, kaasa arvatud taaskasu-tatavate keeleressursside loomist ja keeletehnoloogilisebaastarkvara arendamist, ning keeletehnoloogilise inf-rastruktuuri kaasajastamist. Programmis rahastatud res-sursid ja prototüübid on vabaks kasutamiseks [34].

Ühe projektina kasvas EKKTT riiklikust program-mist välja Eesti Keeleressursside Keskus (http://www.keeleressursid.ee), mille eesmärgiks on luua infrastruk-tuur, mis teeb eestikeelsed keeleressursid ja keeletehno-loogilise tarkvara huvilistele kättesaadavaks. 2011. aastalõpul moodustati Eesti Keeleressursside Keskus kon-sortsiumina, kuhu kuuluvad kolm partnerit: Tartu Üli-kool, Tallinna Tehnikaülikooli Küberneetika Instituutja Eesti Keele Instituut.

Hetkel on käimas uus riiklik keeletehnoloogiat toetavprogramm “Eesti keeletehnoloogia (2011–2017)” [35].Programm eristub eelnenud EKKTT riiklikust prog-rammist selle poolest, et lisaks tarkvaraprototüüpide jakeeleressursside arendamisele pööratakse eriliselt tähe-lepanu just keeletehnoloogia rakenduste loomisele.Ole-masolevad ning programmi käigus loodavad ressurssidning tarkvara tehakse kättesaadavaks Eesti Keeleressurs-side Keskuse kaudu.

Haridus- ja teadusministeerium rahastab ka rohkem tea-dusele orienteeritud keeletehnoloogilisi projekte, pak-kudes sihtfinantseerimist ja Eesti Teadusfondi grante.Arvutiteaduse tippkeskuse (2008–2015) töösse on kaa-satud samuti arvutilingviste nii Tartu Ülikoolist kui kaTallinna Tehnikaülikooli Küberneetika Instituudist.

Eesti on osalenud üle-euroopalise keeleressursside ja -tehnoloogia võrgustikuCLARIN (Common LanguageResources and Technology Infrastructure, http://www.clarin.eu) tegevuses alates 2008. aastast. 29. veebruarist2012 on CLARINi organisatsioonivormiks ERIC (Eu-

ropean Research Infrastructure Consortium) ning Eestikui CLARIN ERICu liikme kohustusi hakkab elluviima Eesti Keeleressursside Keskus, mis kuulub riiklikutähtsusega teaduse infrastruktuuri objektide hulka.

4.6 VAHENDITE JA RESSURSSIDEKÄTTESAADAVUSTabel 8 võtab kokku eesti keele keeletehnoloogilise toehetkeseisu. Oma ala eksperdid hindasid olemasolevaidvahendeid ja ressursse vastavalt seitsmele kriteeriumileskaalal 0 (väga madal) kuni 6 (väga kõrge).Eesti keeletehnoloogia hetkeseisu analüüsi võib võttakokku järgnevalt:

‚ Eesti keele jaoks on olemas nii kõnetuvastuse kuika -sünteesi vahendid.Nende edasine arendustöö onhetkel aktiivselt käimas. Kõnetuvastuse ja kõnesün-teesi vahendid on loodud uurimisasutustes, seetõttuon nad pigem prototüübid kui valmis tooted.

‚ Vaatamata eesti keele keerulisele morfoloogiale, oneesti keele morfoloogiaanalüsaatori efektiivsus võr-reldav teiste Euroopa keelte vastavate vahenditega.Kuna parim morfoloogiaanalüsaator on loodudkommertstarkvarana, siis ei ole see laiemale üldsuselevabalt kasutatav. Teised, vaba tarkvarana loodud ana-lüsaatorid, on tagasihoidlikumate näitajatega ningpole laialdases kasutuses. Eesti keele süntaksianalü-saatorid põhinevad ühel samal reeglipõhisel forma-lismil, selle baasil loodud grammatika on kohanda-tud erinevate tekstiliikide analüüsiks. Süntaksiana-lüsaatoritel on edaspidi veel palju arenguruumi. Se-mantikat on raskem analüüsida kui süntaksit ningtekstisemantika töötlus on keerulisem kui sõna- jalausesemantika. Üldiselt on semantilised vahendidja ressursid saanud madalad hinded. Seega oleks vajaprogramme ja algatusi, et kiirendada selle ala arengutnii baasuurimistöö kui ka korpuste mahu suurenda-mise osas.

25

http://www.keeleressursid.ee

http://www.keeleressursid.ee

http://www.clarin.eu


‚ Tekstitõlgendamise programmid vajavad mahukatsemantilist analüüsi ning eesti keele jaoks on need al-les loomisjärgus.

‚ Keele genereerimise vahenditest on olemas ainultmorfoloogilise sünteesi programmid.

‚ Laiem üldsus kasutab masintõlkeks Google’i tõlke-teenust. Tartu Ülikoolis on arendamisel ka eesti-inglise masintõlkesüsteem. Ilmselt oleks suur nõud-lus ka eesti-vene-eesti masintõlkele.

‚ Viimastel kümnenditel on loodud märkimisväärnehulk Eesti keele ressursse (korpused, leksikonid,WordNet), seega olukord on küllaltki hea. Eestikeele üldkorpused on väga mahukad ja kõrge kvali-teediga, kuid süntaktiliselt ja semantiliselt märgen-datud korpuste maht on veel väike. Alles hiljutialustati tööd multimeedia korpustega.

‚ Sageli ei ole uurimistöö tulemusel valminud kõr-gekvaliteediline tarkvara või ressurss piisavalt stan-dardiseeritud või on puudu toetav dokumentat-sioon. Samuti ei pruugi selle ressursi või vahendiedaspidine hooldus ja säilitamine olla garanteeritud.

Kokkuvõtvalt näitavad tulemused, et eesti keele keele-tehnoloogia baastehnoloogiat ja -ressursse (morfoloo-giaanalüsaator, morfoloogiline ühestaja, süntaksiana-lüsaator, kõnetehnoloogia programmid, üldkorpused,puudepank, leksikaalne andmebaas ja kõnekorpused)puudutav olukord on küllaltki hea. Lisaks on loodudprogramme ning vajalikke ressursse sisukokkuvõtete au-tomaatseks loomiseks, masintõlkeks ning dialoogsüs-teemideks. Kuid need vahendid ja ressursid on pigemlihtsakoelised või piiratud funktsionaalsusega. Näiteksleidub paralleelkorpusi vaid väheste keelepaaride jaoksning needki on piiratud tekstižanrites.Mis puutub keerukamatesse valdkondadesse nagu teks-tisemantika, keele genereerimine jamärgendatudmulti-modaalsed ressursid, siis eesti keele jaoks põhivahendidja -ressursid puuduvad. Uurimistöö kõige komplitseeri-tumate vahendite ja ressursside loomiseks nagu diskur-

suse töötlus, dialoogihaldus, semantilised ja diskursusekorpused on juba saanud esimesi tulemusi, kuid needressursid vajavad täiendamist ning ka vahendite kvali-teedi ulatus on piiratud. Enamik neist vahenditest (v.amorfoloogiaanalüsaator) on loodud uurimisasutustes janeid võib pidada pigem prototüüpideks, mitte valmistoodeteks. Nende arendamist on toetanudmitmed riik-likud keeletehnoloogia-alased uurimisprogrammid, see-tõttu on need vahendid vabaks kasutamiseks.

4.7 KEELTEVAHELINE VÕRDLUSPraegune keeletehnoloogiline tugi varieerub keelitimärkimisväärselt. Erinevate keelte olukorra võrdle-miseks hinnatakse selles peatükis kahte rakendusvald-konda (masintõlget ja kõnetöötlust) ning nende baas-tehnoloogiat (tekstianalüüsi), samuti keeletehnoloogi-liste rakenduste loomiseks vajalike ressursside taset. 5-pallisüsteemis hindamistulemuste põhjal jagunesid kee-led keeletehnoloogilise toe taseme poolest viie hin-nangu vahel:

1. Suurepärane

2. Hea

3. Rahuldav

4. Osaline

5. Nõrk või puuduv

Keeletehnoloogist tuge hinnati järgmiste kriteeriumitepõhjal:Kõnetöötlus: olemasolevate kõnetuvastustehnoloo-giate kvaliteet, olemasolevate kõnesünteesitehnoloo-giate kvaliteet, valdkondade katvus, kõnekorpuste arvja maht, kõnetehnoloogiliste rakenduste arv ja kättesaa-davus.Masintõlge: olemasolevate masintõlketehnoloogiatekvaliteet, kaetud keelepaaride arv, lingvistiliste nähtusteja valdkondade katvus, olemasolevate paralleelkorpustekvaliteet ja maht, masintõlkerakenduste arv ja varieeru-vus.

26

Kog

us

Kättesa

adav

us

Kvalite

et

Kat

vus

Küp

sus

Jätk

usuu

tlikk

us

Koh

anda

tavu

s

Keeletehnoloogia: vahendid, tehnoloogiad ja rakendused

Kõnetuvastus 2 5 2.8 2.8 3 3 3

Kõnesüntees 2 5 2.8 2.8 3 2 3

Grammatiline analüüs 2.5 3.5 3.2 2.8 4 2.5 3.5

Semantiline analüüs 1 1.3 0.9 0.9 1.3 1.3 1.7

Teksti genereerimine 0 0 0 0 0 0 0

Masintõlge 3 3 1.4 2.1 3 4 2

Keeleressursid: ressursid, andmed ja teadmusbaasid

Tekstikorpused 3 5 2.5 2.1 3 3 2.5

Kõnekorpused 2 5 2.1 2.8 4 4 4

Paralleelkorpused 2 2 2.1 1.4 3 3 2

Leksikaalsed ressursid 3.5 4 3.2 2.8 3.5 3.5 3.5

Grammatikad 2 5 2.8 2.8 3 3 3

8: Eesti keele keeletehnoloogilise toe olukord

Tekstianalüüs: olemasolevate tekstianalüüsitehnoloo-giate kvaliteet ja katvus (morfoloogia, süntaks, semna-tika), lingvistiliste nähtuste ja valdkondade katvus, kät-tesaadavate rakenduste arv ja varieeruvus, olemasole-vate (märgendatud) tekstikorpuste maht ja kvaliteet,olemasolevate leksikaalsete ressursside (nt WordNet) jagrammatikate kvaliteet ja katvus.

Ressursid: olemasolevate teksti-, kõne- ja paralleelkor-puste kvaliteet ja maht, olemasolevate leksikaalsete res-sursside ja grammatikate kvaliteet ja katvus.

Joonised 9 kuni 12 näitavad, et kuigi valitsus on vii-mastel aastatel suurendanud eesti keele keeletehnoloo-gia toetamist, kuulub eesti keel võrdluses teiste keeltegasiiski neljandatesse ja viiendatesse klastritesse. Eesti jasoome keele tulemused on kohati võrreldavad ning eestikeel paikneb pisut kõrgemal kui teised sama kõneleja-

arvuga keeled, nagu läti, leedu ja malta keel. Kõik needkeeled aga jäävad oluliselt alla arvuka kasutajaskonnagaja palju uuritud keeltele nagu näiteks saksa või prantsusekeel. Kuid isegi nende keelte keeletehnoloogised ressur-sid ei küündi kvaliteedilt ja katvuselt inglise keele tase-meni, mis juhib kõigis keeletehnoloogilistes valdkonda-des. Ja ka inglise keele ressurssides on puudujääke, mistakistab kõrgekvaliteediliste rakenduste loomist.Selleks, et luua keerukaid rakendusi, nagu näiteks ma-sintõlget, on vaja ressursse ja tehnoloogiaid, mis katak-sid laias ulatuses kõik lingvistilised aspektid ja võimal-daksid sisendteksti sügavat semantilist analüüsi.

27

4.8 JÄRELDUSED

Selles keeleraportite sarjas tegime olulise katse hinnata 30Euroopa keele keeletehnoloogist tuge ja koostada nendetaset õrdle kõrgetasemeline analüüs. Kui on üles leitudtühimikud, vajadused ja puudujäägid, on Euroopa keele-tehnoloogilisel kogukonnal ja kõigil asjaosalistel õima-lik kavandada suuremahulist uurimis- ja arendusprog-rammi, mille eesmärgiks on luua tõeliselt mitmekeelnetehnoloogilise toega Euroopa.

Nägime, et Euroopa keelte vahel on tohutud erinevu-sed.Kuimõnedekeelte ja rakendusalade jaoks onolemasnii hea kvaliteediga tarkvara kui ka ressursse, siis teis-tel (enamasti väiksematel) keeltel neid pole. Mitmetekeelte jaoks puudub tekstitöötluse baastarkvara ja karessursid selle loomiseks. Teiste jaoks on küll põhiva-hendid olemas, kuid pole võimalik investeerida nendekeelte semantilisse töötlusse. Seepärast peame pingu-tama, et luua kõrgekvaliteediline masintõlge kõigi Eu-roopa keelte vahel.

Eesti keele keeletehnoloogilise olukorra hinnang annabpõhjust ettevaatlikuks optimismiks. Eesti keele keele-tehnoloogilist uurimistööd onka varem rahastatudningonolemas inimesed, kes uurimis- ja arendustööga tegele-vad. Kahjuks esindavad Eesti keeletehnoloogiatööstustainult mõned üksikud väikeettevõtted.

Eesti keele jaoks on olemas hulk tehnoloogiaid ja res-sursse, kuid neid on oluliselt vähem kui inglise keelejaoks. Keeletehnoloogiline tugi on täna kaugel sellest,mis ta peaks olema, et toetada tõeliselt mitmekeelsetteadmust, mida ühiskond vajab.Keeletehnoloogia keerukus ning vajadus suure hulgaandmete järele on põhjused, miks on vajalik luua uusinfrastruktuur ja organiseerida uurimistöö sidusamalt,et kannustada suuremat koostööd ning teadmiste vahe-tust.Uurimis- ning arendustöö rahastamine ei ole sageli jär-jepidev. Lühiajalised koordineeritud programmid kipu-vad vahelduma perioodidega, mil rahastamine puudubvõi on ebapüsiv. Samuti on puudulik üleüldine EL rii-kide ja Euroopa Komisjoni programmide koordineeri-mine.Saame seetõttu järeldada, et on hädavajalik luua suure-mahuline, koordineeritud algatus, mis keskenduks Eu-roopa keelte keeletehnoloogiliste erinevuste tasanda-misele.META-NETi pikaajaline eesmärk on viia kõrgekvali-teediline keeletehnoloogia kõigi keelteni, et saavutadakultuurilise mitmekesisuse läbi poliitiline ja majandus-lik ühtsus. Tehnoloogia aitab lammutada olemasolevadbarjäärid ja luua sildu Euroopa keelte vahel. See nõuab,et kõik osapooled, nii poliitikas, uurimistöös kui ka et-tevõtetes ja ühiskonnas, ühendaks oma jõupingutusedtuleviku heaks.

28

Suurepärane Hea Rahuldav Osaline Puuduliktugi tugi tugi tugi tugi

inglise hispaaniahollandiitaaliaportugaliprantsusesaksasoometšehhi

baskibulgaariaeestigaliitsiaiirikatalaanikreekanorrapoolarootsiserbiaslovakisloveenitaaniungari

horvaadiislandileedulätimaltarumeenia

9: Kõnetöötlus: 30 Euroopa keele keeletehnoloogilise toe olukord


inglise hispaaniaprantsuse

hollandiitaaliakatalaanipoolarumeeniasaksaungari

baskibulgaariaeestigaliitsiahorvaadiiiriislandikreekaleedulätimaltanorraportugalirootsiserbiaslovakisloveenisoometaanitšehhi

10: Masintõlge: 30 Euroopa keele keeletehnoloogilise toe olukord

29


inglise hispaaniahollandiitaaliaprantsusesaksa

baskibulgaariagaliitsiakatalaanikreekanorrapoolaportugalirumeeniarootsislovakisloveenisoometaanitšehhiungari

eestihorvaadiiiriislandileedulätimaltaserbia

11: Tekstianalüüs: 30 Euroopa keele keeletehnoloogilise toe olukord


inglise hispaaniahollandiitaaliapoolaprantsuserootsisaksatšehhiungari

baskibulgaariaeestihorvaadigaliitsiakatalaanikreekanorraportugalirumeeniaserbiaslovakisloveenisoometaani

iiriislandileedulätimalta

12: Kõne- ja tekstiressursid: 30 Euroopa keele olukord

30

5

META-NETIST

META-NET on Euroopa Komisjoni rahastatud tipp-teadmiste võrgustik, millel on 54 liiget 33-st Eu-roopa riigist [36]. META-NET edendab MitmekeelseEuroopa Tehnoloogiaühendust META (Multilin-gual Europe Technology Alliance), mis kujutab endastkeeletehnoloogia-alaste professionaalide ja organisat-sioonide üha kasvavat kogukonda.META-NET edendab Euroopa mitmekeelse infoühis-konna tarbeks tehnoloogilist vundamenti, mis:

‚ võimaldaks suhelda ja teha koostööd erinevates keel-tes;

‚ tagaks igale eurooplasele sõltumata keelest võrdse li-gipääsu informatsioonile ja teadmistele;

‚ rajaks ja edendaks võrgustunud infotehnoloogiat jaselle kasutusvõimalusi.

Võrgustik toetab Euroopat, mis ühendab endas digitaal-set turgu ja inforuumi. See ergutab ja edendab mitme-keelse tehnoloogia loomist kõigi Euroopa keelte jaoks.Need tehnoloogiad toetavad masintõlget, sisutootmist,informatsiooni töötlemist ja teadmuse haldamist laiavaldkonna teemade ja rakenduste jaoks. Need tehno-loogiad võimaldavad luua ka intuitiivseid keelepõhiseidkasutajaliideseid erineva tehnika jaoks alates kodumasi-natest, autodest ja arvutitest kuni robotiteni välja. Ala-tes käivitamisest 1. veebruaril 2010 on META-NETjuhtinud mitmeid tegevusi oma kolmel põhilisel tege-vussuunalMETA-VISION,META-SHARE jaMETA-RESEARCH.META-VISION edendab dünaamilist ja mõjukat ko-gukonda, mida ühendab ühine visioon ja ühine stratee-giline uurimisplaan (strategic research agenda). Selle te-

gevussuuna põhirõhk on suunatud sidusa ja ühtse keele-tehnoloogia kogukonna loomisele, ühendades killusta-tud ja eriilmelised huvigrupid üle kogu Euroopa. Valgeraamatu sarjas ilmuvad keeleraportid on koostatud 29keele kohta. Jagatud tehnoloogiline visioon on loodudkolmes valdkondlikus töögrupis: tõlkimine ja lokali-seerimine, meedia- ja informatsiooniteenused, interak-tiivsed süsteemid. META tehnoloogianõukogu on loo-dud arutamaks ja ette valmistamaks strateegilist uuri-misplaani, mis põhineb kogu keeletehnoloogia kogu-konnaga tihedas omavahelises suhtluses loodud visioo-nil.META-SHARE loob hajusa ja avatud vahendi ressurs-side vahetamiseks ja jagamiseks. Hoidlate partnervõrk(P2P) hakkab sisaldama andmeid keeleressursside, kee-letöötlusvahendite ja veebiteenuste kohta, andmed ondokumenteeritud meta-andmetega ja on jagatud stan-dardiseeritud kategooriatesse. Ressurssidele pääseb ot-seselt ligi ja nad on ühtse vormi järgi otsitavad. Kätte-saadavate ressursside hulka kuuluvad nii vabad, avatudlähtekoodiga materjalid kui ka piiratud juurdepääsuga,tasulised kommertstooted.META-RESEARCH ühendab omavahel seotudtehnoloogiavaldkonnad. Ta otsib võimalusi teistetehnoloogiate saavutuste kasutamiseks, et seeläbikeeletehnoloogia-alast innovatiivset uurimistööd eden-dada. See tegevussuund keskendub juhtivatele teadus-saavutustele masintõlkes, andmekogumises ja andmes-tike töötlemises ning korraldab keeleressursside hinda-mist, koostades selleks vahendite ja meetodite ülevaa-teid ning korraldades tööpajasid ja koolitusi võrgustikuliikmetele.

[email protected] – http://www.meta-net.eu

31

English

32

1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinctpolitical and economic structure. Culturally and lin-guistically it is rich and diverse. However, from Por-tuguese to Polish and Italian to Icelandic, everyday com-munication between Europe’s citizens, within businessand among politicians is inevitably confrontedwith lan-guage barriers. e EU’s institutions spend about a bil-lion euros a year onmaintaining their policy ofmultilin-gualism, i. e., translating texts and interpreting spokencommunication. Does this have to be such a burden?Language technology and linguistic research canmake asignificant contribution to removing the linguistic bor-ders. Combined with intelligent devices and applica-tions, language technology will help Europeans talk anddo business together even if they do not speak a com-mon language.

Language technology builds bridges.

eonly (unthinkable) alternative to this kind of amul-tilingual Europe would be to allow a single language totake a dominant position, to replace all other languages.Oneway toovercome the language barrier is to learn for-eign languages. Yet without technological support, mas-tering the 23 official languages of the member states ofthe European Union and some 60 other European lan-guages is an insurmountable obstacle for Europe’s citi-zens, economy, political debate, and scientific progress.e solution is to build key enabling technologies. Lan-guage technology targeting all forms of written text andspoken discourse can help people to collaborate, con-

duct business, share knowledge and participate in socialand political debate regardless of language barriers andcomputer skills. It oen operates invisibly inside com-plex soware systems. Language technology solutionswill eventually serve as a unique bridge between Eu-rope’s languages.An indespensable prerequisite for theirdevelopment is first to carry out a systematic analysis ofthe linguistic particularities of all European languages,and the current state of language technology support forthem.Around one million people speak Estonian as theirmother tongue. Estonian is the only official languagein the Republic of Estonia. Practical language usage inEstonia is regulated by the Language Act and the legis-lation based thereon. At the same time Estonia is well-known by its e-government and e-Estonia policies. eEstonian language is supported by a long tradition of Es-tonian education and research.Estonian does not belong to the family of Indo-European languages. e characteristic features of Es-tonian include the accent on the first syllable, high fre-quency of vowels as opposed to consonants, three differ-ent lengths of vowels and consonants, the lack of gram-matical gender and articles, and a basic vocabulary dif-ferent from that of the Indo-European languages. Esto-nian has a rich morphological system. e compound-ing is relatively free and productive in Estonian and acompound is written as one word-form. Derivation isanother productive device for formingnew lexical items.Although Estonian has been described as an SVO lan-guage, its word order is rather free.

33

Language technology is a key for the future.

e automated translation and speech processing toolscurrently available on the market fall short of the en-visaged goals. e dominant actors in the field are pri-marily privately-owned for-profit enterprises based inNorthern America. As early as the late 1970s, the EUrealised the profound relevance of language technologyas a driver of European unity. At the same time, nationalprojects were set up that generated valuable results, butnever led to a concerted European effort. Supported bylarger research programs in the past, there exists a lan-guage technology research scene in Estonia.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business. Unfortunately, Englishlanguage model is not easily transferable, as Estonianhas a flexible word order, unlimited compound buildingand a richer inflection system.Still, as a product of laborious work, there is a reliablespeller for Estonian that is implemented into main of-fice soware suites.e Google search engine has so many users among Es-tonians that since 2009, the verb guugeldama has evenhad an entry in the Eesti Õigekeelsussõnaraamat (Es-tonian ortographic and explanatory dictionary). Lan-guage independent search tools can only find the wordforms which have the same form as the query word orinclude the query word as a substring. As Estonian is alanguage with rich morphology, and since in additionto the endings the stem itself may vary, the languagespecific tools as lemmatisers are needed for searchingand indexing. It is officially recommended to use Esto-nian lemmatiser for searching and indexing of full-textdatabases in information systems of public sector in Es-tonia [2].e two main types of systems ‘acquire’ language ca-pabilities in a similar manner to humans. Statistical (or

‘data-driven’) approaches obtain linguistic knowledgefrom vast collections of concrete example texts.e sec-ond approach to language technology is to build rule-based systems. e great advantage of rule-based sys-tems is that the experts have more detailed control overthe language processing.Drawing on the insights gainedso far, today’s hybrid language technology mixing deepprocessing with statistical methods should be able tobridge the gap between all European languages and be-yond.European research in the area of language technologyhas already achieved a number of successes. For example,the translation services of the European Union now usethe Moses open-source machine translation soware,which has been mainly developed in European researchprojects.Machine translation is particularly challenging for theEstonian language. e potential for creating arbitrarynew words by compounding makes dictionary analysisand dictionary coverage difficult; free word order andsplit verb constructions pose problems for analysis, also,the amount of available parallel texts is limited. In spiteof this, Estonian belongs to one of the languages (cur-rently, around 50) which can be translated by computer.In the long term spoken language applications will playa far more central role as a user-friendly input for smart-phones. is will be largely driven by stepwise improve-ments in the accuracy of speaker-independent speechrecognition via the speech dictation services already of-fered as centralised services to smartphone users. Suchlanguage recognition applications for smart phones de-veloped at Institute of Cybernetics at TUT won thegrand prize of Estonian Language Deed 2011.

Language Technology helps unify Europe.

As this series of white papers shows, there is a dramaticdifference between Europe’s member states in terms of

34

both the maturity of the research and in the state ofreadiness with respect to language solutions Even forlarge European languages like German or English withwell studied language technologies there are still manyopen research issues, thus for Estonian the amount offurther research is even more extensive.In the case of the Estonian language, we can be cau-tiously optimistic about the current state of languagetechnology support. For Estonian, a number of tech-nologies and resources exist, but far less than forEnglish.Language technology support today is by far not in astate that is needed for offering the support a true mul-tilingual knowledge society needs.Tools for speech recognition and speech synthesis havebeen developed by leading research institutions in Esto-nian LT. Although the automatic morphological analy-sis of Estonian is complicated, the efficiency ofmorpho-logical tools (such as tokeniser, lemmatiser andmorpho-logical analyser) is comparable to similar tools for othermajor European languages. e development of syntac-tic parsers must continue for achieving better perfor-mance. e only available tool for Estonian text genera-tion is morphological synthesiser.Most of the users pre-fer Google machine translation service. Also, Estonian-English machine translation system is under develop-ment in the University of Tartu. ere would prob-

ably be a high demand for the Russian-Estonian andEstonian-Russian automatic translation service.Most ofthese tools have been developed by research institutionsand can be regarded as prototypes, not as mature prod-ucts. Unfortunately, the industry consists only of a fewSMEs. With regard to resources such as reference cor-pora, lexicons, wordnets and terminologies, the situa-tion is also reasonably good for Estonian since substan-tial resources have been built in recent decades.

When it comes to more advanced fields like text seman-tics, language generation, and annotated multimodaldata, Estonian clearly lacks basic tools and resourceseven if some of these are currently under development.

e research and development was supported by differ-ent national programmes of language technology whatguarantees the availability of these tools and resources.

is white paper series complements the other strate-gic actions taken by META-NET (see the appendix foran overview). Up-to-date information such as the cur-rent version of the META-NET vision paper [3] or theStrategic Research Agenda (SRA) can be found on theMETA-NET web site: http://www.meta-net.eu.

META-NET’s vision is high-quality language technol-ogy for all languages that supports political and eco-nomic unity through cultural diversity.

35

http://www.meta-net.eu

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in information and communication tech-nology are sometimes compared to Gutenberg’s inven-tion of the printing press. What can this analogy tell usabout the future of the European information societyand our languages in particular?

We are witnessing a digital revolution that iscomparable to Gutenberg’s invention of the

printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication were accomplished by efforts such asLuther’s translation of the Bible into vernacular lan-guage. In subsequent centuries, cultural techniques havebeen developed to better handle language processingand knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

‚ the teaching and translation of languages enabled ex-changes across languages;

‚ the creationof editorial andbibliographic guidelinesassured the quality of printed material;

‚ the creation of different media like newspapers, ra-dio, television, books, andother formats satisfieddif-ferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many processes:

‚ desktop publishing soware has replaced typewrit-ing and typesetting;

‚ Microso PowerPoint has replaced overhead projec-tor transparencies;

‚ e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

‚ Skype offers cheap Internet phone calls and hostsvirtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ web search engines provide keyword-based access;

‚ online services like Google Translate produce quick,approximate translations;

‚ social media platforms such as Facebook, Twitterand Google+ facilitate communication, collabora-tion, and information sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully-sustainable,multilingual European society in which informationand goods can flow freely.

36

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. However, there is a strong like-lihood that the revolution in communication technol-ogy is bringing together people who speak different lan-guages in new ways. is is putting pressure both on in-dividuals to learnnew languages and especially ondevel-opers to create new technology applications to ensuremutual understanding and access to shareable knowl-edge. In the global economic and information space,there is increasing interaction between different lan-guages, speakers and content thanks to new types ofme-dia. e current popularity of social media (Wikipedia,Facebook, Twitter, YouTube, and, recently, Google+) isonly the tip of the iceberg.

A global economy and information spaceconfronts us with different languages, speakers

and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it isin a language that we do not understand. According toa recent report from the European Commission, 57%of Internet users in Europe purchase goods and servicesin non-languages; English is the most common foreignlanguage followedbyFrench,GermanandSpanish. 55%of users read content in a foreign language while 35%use another language to write e-mails or post commentson the Web [4]. A few years ago, English might havebeen the lingua franca of the Web – the vast majorityof content on the Web was in English – but the situa-tion has now drastically changed. e amount of onlinecontent in other European (as well as Asian and MiddleEastern) languages has exploded.

Surprisingly, this ubiquitous digital linguistic dividehas not gained much public attention; yet, it raises avery pressing question: Which European languages willthrive in the networked information and knowledge so-ciety, and which are doomed to disappear?

2.2 OUR LANGUAGES AT RISK

While the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Cor-nish and Dalmatian were limited to oral forms of trans-mission, which in turn restricted their scope of use.Willthe Internet have the same impact on our modern lan-guages?

The wide variety of languages in Europe is oneof its richest and most important cultural assets.

Europe’s approximately 80 languages are one of our rich-est and most important cultural assets, and a vital partof this unique social model [5]. While languages suchas English and Spanish are likely to survive in the emerg-ing digitalmarketplace,manyEuropean languages couldbecome irrelevant in a networked society. is wouldweakenEurope’s global standing, and run counter to thestrategic goal of ensuring equal participation for everyEuropean citizen regardless of language. According toa UNESCO report on multilingualism, languages arean essential medium for the enjoyment of fundamentalrights, such as political expression, education and par-ticipation in society [6].

37

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investments in language preservation fo-cussed primarily on language education and transla-tion. According to one estimate, the European marketfor translation, interpretation, soware localisation andwebsite globalisation was €8.4 billion in 2008 and isexpected to grow by 10% per annum [7]. Yet this fig-ure covers just a small proportion of current and futureneeds in communicating between languages. e mostcompelling solution for ensuring the breadth and depthof language usage in Europe tomorrow is to use appro-priate technology, just as we use technology to solve ourtransport and energy needs among others.Language technology targeting all forms of written textand spoken discourse can help people to collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us already today to:

‚ find information with a search engine;

‚ check spelling and grammar in a word processor;

‚ view product recommendations in an online shop;

‚ follow the spoken directions of a navigation system;

‚ translate web pages via an online service.

Language technology consists of a number of core ap-plications that enable processes within a larger applica-tion framework. e purpose of the META-NET lan-guage white papers is to focus on how ready these coreenabling technologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments.Without language technology, wewill not beable to achieve a really effective interactive, multimediaand multilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising knowledge. We had to wait until Edisonto record spoken language – and again his technologysimply made analogue copies.

Language technology can now simplify and automatethe processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive speech-based interfaces forhousehold electronics, machinery, vehicles, computersand robots. Real-world commercial and industrial ap-plications are still in the early stages of development,yet R&D achievements are creating a genuine windowof opportunity. For example, machine translation is al-ready reasonably accurate in specific domains, and ex-perimental applications provide multilingual informa-tion and knowledge management, as well as contentproduction, in many European languages.

As with most technologies, the first language applica-tions such as voice-based user interfaces and dialoguesystems were developed for specialised domains, andoen exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, simula-

38

tion environments and training programmes.Mobile in-formation services, computer-assisted language learningsoware, eLearning environments, self-assessment toolsand plagiarism detection soware are just some of theapplication areas inwhich language technology can playan important role. e popularity of social media ap-plications like Twitter and Facebook suggest a need forsophisticated language technologies that can monitorposts, summarise discussions, suggest opinion trends,detect emotional responses, identify copyright infringe-ments or track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous opportu-nity for the European Union. It can help to address thecomplex issue of multilingualism in Europe – the factthat different languages coexist naturally in Europeanbusinesses, organisations and schools.However, citizensneed to communicate across the language borders of theEuropean Common Market, and language technologycan help overcome this final barrier, while supportingthe free and open use of individual languages. Lookingeven further ahead, innovative European multilinguallanguage technology will provide a benchmark for ourglobal partners when they begin to support their ownmultilingual communities. Language technology can beseen as a form of “assistive” technology that helps over-come the “disability” of linguistic diversity and makeslanguage communitiesmore accessible to each other. Fi-nally, one active field of research is the use of languagetechnology for rescue operations in disaster areas, whereperformance can be amatter of life and death: Future in-telligent robots with cross-lingual language capabilitieshave the potential to save lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although usefulfor quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.

The current pace of technologicalprogress is too slow.

Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technological chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let’s look briefly at the way humans acquire first and sec-ond languages, and then see how language technologysystems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between their parents, siblings and other family

39

members. From the age of about two, children producetheir first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.

Learning a second language at an older age requiresmore cognitive effort, largely because the child is not im-mersed in a language community of native speakers. Atschool, foreign languages are usually acquired by learn-ing grammatical structure, vocabulary and spelling usingdrills that describe linguistic knowledge in terms of ab-stract rules, tables and examples.

Humans acquire language skills in two differentways: learning from examples and learning the

underlying language rules.

Moving now to language technology, the two maintypes of systems ‘acquire’ language capabilities in a sim-ilar manner. Statistical (or ‘data-driven’) approaches ob-tain linguistic knowledge from vast collections of con-crete example texts. While it is sufficient to use text in asingle language for training, e. g., a spell checker, paral-lel texts in two (or more) languages have to be availablefor training a machine translation system. e machinelearning algorithm then “learns” patterns of how words,short phrases and complete sentences are translated.

is statistical approach usually requiresmillions of sen-tences to boost performance quality. is is one rea-son why search engine providers are eager to collect asmuchwrittenmaterial as possible. Spelling correction inword processors, and services such asGoogle Search andGoogle Translate, all rely on statistical approaches. egreat advantage of statistics is that the machine learnsquickly in a continuous series of training cycles, eventhough quality can vary randomly.

e second approach to language technology, and tomachine translation in particular, is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than 20 years.e great ad-vantage of rule-based systems is that the experts havemore detailed control over the language processing.ismakes it possible to systematically correct mistakes inthe soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. However, due to the high cost of this work,rule-based language technology has so far only been de-veloped for a few major languages.

The two main types of language technologysystems acquire language in a similar manner.

As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focusses on hybrid approaches that combine thetwo methodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology, particularly in Europe’s eco-nomic and information space. Although this technol-ogy hasmade considerable progress in the last few years,there is still huge potential to improve the quality of lan-guage technology systems. In the next section, we de-scribe the role of Estonian in European information so-ciety and assess the current state of language technologyfor the Estonian language.

40

3

THE ESTONIAN LANGUAGE IN THEEUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTSAround one million people speak Estonian as theirmother tongue. Most of the speakers (922,000) livein the territory of modern Estonia, but approximately160,000 people speak the language also in Russia, US,Sweden, Canada, Finland andmany other countries [8].According to the census of the year 2000, there are1,370,052 inhabitants the Republic of Estonia, and ofthose 167,804 speak Estonian as a second language [9].Estonian is the only official language in the Republic ofEstonia.

Around one million people speak Estonian astheir mother tongue.

Varieties of Estonian include the regional varieties (di-alects and the corresponding written forms); varieties ofEstonian spoken by Estonians living abroad, social va-rieties (various sociolects) and varieties used by peoplewith specific linguistic needs, including sign language.e biggest regional linguistic differences occur be-tween the Northern and Southern dialects. ese dif-ferences date from the times before Christ when differ-ent languages started to secede from the original Balto-Finnic branch of theUralic languages.e fact that peo-plewere very sedentary until the 19th century conducedto the development of regional language forms whichcan be divided up to 100 parish dialects. ContemporaryStandard Estonian evolved on the basis of theNorthern

dialects but acquired some features also from the South-ern dialects [37].

Nowadays, the regional varieties are mostly spoken inSouthern Estonian and on the western islands.e Setuand Võru regional varieties spoken in the South-Easterncorner of Estonia are the most different from StandardEstonian.e state supports the use of regional varietiesand their preservation as a cultural treasure, as a devel-opment source of StandardEstonian and as bearer of thelocal identity. Many schools in Võru and Viljandi coun-ties in SouthEstonia teach local dialects (Võru, Setu andMulgi) as an optional subject.

e Estonian spoken abroad consists of several varietiesall influenced to some extent by the dominating lan-guage spoken in the country of residence of the speak-ers. In some cases the Estonian spoken by an emigrantgroup abroad has developed on its own for more than acentury.

Estonian sign language – more precisely, Estonian signlanguage and signed Estonian are the mother tongue ofnearly 2000 deaf people [11]. It is also one the mainmeans of communication for the people with impairedhearing (and for the attendants of both groups).

3.2 PARTICULARITIES OF THEESTONIAN LANGUAGEEstonian belongs to the Finnic branch of the Finno-Ugric languages, alongwithFinnish,Karelian, andother

41

closely related languages. Also, Estonian is distantly re-lated to Hungarian. It is important to note that Uraliclanguages do not belong to the family of Indo-Europeanlanguages.

Estonian does not belong to the family ofIndo-European languages.

Typologically, Estonian represents a transitional formfrom an agglutinating language to a fusional language.Over the course of Estonian history, German has exer-cised a strong influence on Estonian, both in vocabularyand syntax. e characteristic features of Estonian in-clude the accent on the first syllable, high frequency ofvowels as opposed to consonants, three different lengthsof vowels and consonants (so-called gradation), the lackof grammatical gender (even in pronouns) and articles,and a basic vocabulary different from that of the Indo-European languages.Estonianhas a richmorphological system: thenouns de-cline in 14 cases both in singular andplural; the verbs areinflected for tense, person, mood and voice. AlthoughEstonian has 14 cases, there is no accusative, the typ-ical case for coding the syntactic object, which is in-stead coded using the partitive, genitive or nominativecase forms. e compounding is relatively free and pro-ductive in Estonian and a compound is written as oneword-form. e compounds are produced on the fly, ifneeded, and as so there is no possibility of listing all ofthem in a lexicon. Derivation is another productive de-vice for forming new lexical items.InEstonian, there is no grammatical future tense and thefuture actions are most oen expressed using a verb in apresent tense form with the time being indicated by thecontext:

Ta saabub homme.(He/she will arrive tomorrow.)

e conditional and oblique moods of verbs are alsoquite exceptional typologically. Conditional mood ismarked by affix -ks(i)- and it expresses hypothetical stateof affairs or an uncertain event:

Kui ta treeniks rohkem, jookseks ta kiiremini.(If he/she trained more, he/she would run faster.)

Verbs in oblique mood are marked with an ending -vat.ismood is used to report a non-witnessed event with-out confirming it:

Ta jooksvat kiiresti.(It has been told that he/she runs fast.)

Although Estonian has been described as an SVO lan-guage, its word order is rather free. e only dominat-ing tendency is to use the finite verb form in the secondposition in the clause. e word order is affected by theinformation structure of the clause, i. e. it distinguishesgiven and new information:

‚ Ta jooksis kiiresti koju.(He/she ran home fast.)

‚ Kiiresti jooksis ta koju.(It was very fast how he/she ran home.)

‚ Koju jooksis ta kiiresti.(He/she ran home fast [but not so fast to school].)

‚ Jooksis ta kiiresti koju?(Did he/she run home fast?)

‚ Kui ta kiiresti koju jooksis, siis …(While he/she was running home fast, …)

Although Estonian is close to Finnish, the long-timeGerman influence has induced several features char-acteristic to the so-called Standard Average European(SAE) [12]. e SAE-like features include the wordorder in some clause types, the massive use of particleverbs, especially for coding the aspect of the action. Sofor saying He did it one needs free words in Finnish:Hän teki sen and the same words plus an extra aspectual

42

particle in Estonian: Ta tegi selle ära. Estonian vocab-ulary also contains more foreign words and loanwordsthan Finnish.Estonian uses phonetic spelling and is written in Latinalphabet. In addition to the basic character set the extracharacters õ, ä, ö, ü are used, also š and ž in foreignwords.ere is a thorough typological description of the lan-guage edited by Mati Erelt [14].

3.3 RECENT DEVELOPMENTSEstonian has been influenced byGerman (initiallyMid-dle Low German, later also standard German), Russianand English, though it is not related to them genetically.Aer theWorldWar II, Estonianwas a subject to russifi-cation. Estonian, which had been the official languagesince the establishment of the independent state of Es-tonia in 1918, was downgraded.Aer the collapse of theSoviet Union, Estonian once again became the only of-ficial language of the Republic of Estonia.Today, Estonian (as also, e. g., Icelandic) is one of thesmallest languages in the world functioning as an offi-cial language at all levels of social interaction: adminis-tration, media, literature, theatre, business, school, uni-versities, research, etc.During the last decades, aer Estonia had regained in-dependence from the Soviet Union, on one hand, theposition of Estonian has strengthened: it has the statusof official language and its preservation is guaranteedby laws, and on the other hand, the position has beenweakened due to the globalisation and the develop-ment of the information society. e problems knownto many other languages are also seen as the greatestthreats to Estonian: the drop in the number of mother-tongue speakers, blurring of the language norms, ex-cessive influence of foreign languages, especially that oftheEnglish-speaking and -writing socialmedia andpop-culture. Keeping up with the bigger languages in termsof language technology is also a complicated task.

The problems known to many other languagesare also seen as the greatest threats to Estonian:

the drop in the number of mother-tonguespeakers, blurring of the language norms,excessive influence of foreign languages,

especially that of the English-speaking and-writing social media and pop-culture.

In order to preserve Estonian language, several state in-stitutions have been established. e Language Inspec-torate checks the enforcement of the legislative acts con-cerned with the language matters. e Language PolicyDepartment at the Ministry of Education and Researchis involved with Estonia’s language policy planning andhelps to make the language better known abroad. eEstonian Language Council is ministry’s advisory coun-cil on language and has compiled the strategy for main-taining and developing the Estonian language.

3.4 LANGUAGE CULTIVATIONIN ESTONIAAccording to the Constitution, the official language ofthe Republic of Estonia is Estonian and it is the state’sobligation to preserve the Estonian language, nationand culture “through the ages”. e measures neces-sary for the preservation and development of the Es-tonian language are defined in the Development Strat-egy of the Estonian Language (2004–2010) [37] andthe upcoming Estonian Language Development Plan(2011–2017) [15].

Practical language usage in Estonia isregulated by the Language Act and the

legislation based thereon.

Practical language usage in Estonia is regulated by theLanguage Act and the legislation based thereon.e ac-

43

tivities related to the development and usage of Esto-nian (as well as other languages) is coordinated by theMinistry of Education andResearch.eEstonian Lan-guage Council observes and analyses the language sit-uation and prepares monitoring reports and follow-upstrategies concerning the language strategy. Among thedivisions of the Ministry of Education and Research,the National Examinations and ualifications Centreand the Language Inspectorate are engaged in language-related issues. Among the agencies under the adminis-tration of the ministry, such issues are dealt with by theInstitute of Estonian Language. e Language Com-mission of the Mother Tongue Society, the Tartu Lan-guage Cultivation Centre and also the professors andresearchers of the Tartu and Tallinn Universities are in-volved in language cultivation.

Estonian is one of the official languages of the EuropeanUnion and Estonian EU legislative terminology is beingdeveloped in cooperation with the terminology depart-ment of the Institute of Estonian Language and the Es-tonian Terminology Society.

In 2003, theDevelopment Strategy of theEstonianLan-guage 2004–2010 was compiled by the members of theEstonian Language Council [37]. e strategy providesa research-based description of the situation of the Esto-nian language, the objectives that need to be achieved,the necessary steps and institutions andpeople involved.e development strategy of the Estonian language cov-ers all themajor areas of language use including languagetechnology.

e next development plan for Estonian language hasbeen compiled in 2010 by Estonian Language Coun-cil [15]. e development plan for Estonian language2011–2017 is a document which lays downmain strate-gic directions for the development, teaching, research-ing and protection of Estonian. Together with its ap-plication plan, relevant legislative documents and othersupporting activities (e. g., financing), the development

plan for Estonian language will ensure the status of Es-tonian as an offcial language and its continuous use asthe primary language of communication in theEstonianstate.

3.5 LANGUAGE IN EDUCATIONEducation is one of the most important means of guar-anteeing the development and position of a language.One of the roles of education is to provide general andprofessional literacy and to shape favorable attitudestowards Estonian language among the non-Estonians.General education, especially compulsory general ed-ucation, is of fundamental importance because it in-fluences the language use most of all.According to the law, any language can serve as the tu-ition language in basic school. At present time, two lan-guages of tuition are used in secondary schools: threequarters of schools teach in Estonian, one quarter inRussian. In order to improve the proficiency of Esto-nian among non-Estonian secondary school graduates,a transition process for non-Estonian secondary schoolshas begun in 2007 for teaching some of the topics in Es-tonian.Estonian language is a compulsory subject in all basicand secondary schools (including all schools of simi-lar levels which teach various professionals). In fall andspring semester of 2009/2010, the number of studentsin Estonian basic schools was 90,837 (ca 84,000 beingnative Estonians), while in secondary schools the num-ber of students was 23,769 (22,741 being native Estoni-ans) [15].

The Estonian language is supported bya long tradition of Estonian higher education

and research.

e Estonian language is supported by a long tradi-tion of Estonian higher education and research. How-

44

ever, internationalisation has increased the proportionof teaching in foreign languages, and also the numberof foreign students and university lecturers. In Estonianuniversities, almost all fields can be studied in Estonianat all levels. At the bachelor level, the studentwill almostalways study his/her field in Estonian, although somespecific topics might be taught in other languages.Among non-Estonian adults, Estonian language courseshave been mostly organised for professionals with thegreatest communicative needs (e. g., medical nurses, po-lice officers) and for people applying for Estonian cit-izenship (tuition fees are refunded to successful learn-ers); TV courses of Estonian are also being organised.

3.6 INTERNATIONAL ASPECTSEstonianhas beenoneof the official languages of theEu-ropeanUnion since 2004.ismeans that Estonian canbe used as a language in international communication.Estonia is becoming more and more attractive totourists. As a result, the number of people interested inEstonian language and culture has increased during therecent years.Estonia supports teaching of Estonian abroad – at themoment there aremore than30universities offering var-ious opportunities to study Estonian [16].

3.7 ESTONIAN ON THEINTERNETAccording to statistics, in 2010 about 381,300 fami-lies in Estonia have Internet connection at home, and758,100 people use Internet regularly [17].

Estonia is well-known by its e-government ande-Estonia policies.

Estonia is well-known by its e-government and e-Estonia policies. e-Governance comes in two parts; theact of governing using the Internet (voting, participa-tion) and the delivery of public services. For example, byusing these e-services, citizens/residents of Estonia canvote at elections, declare taxes, register to medical con-sultations, or even monitor the achievements of theirchildren at school.

Most of the local companies have their web pages in Es-tonian, the newspapers publish their news in the newsportals (e. g., http://postimees.ee, http://ohtuleht.ee,http://paevaleht.ee, and many others) [18]. ere are alot of specialised Internet forums, where users commu-nicate in Estonian. Also the social networks like Orkutand Facebook have been localised to Estonian. In addi-tion, there exist numerous chatrooms where the userscommunicate in Estonian slang. e voluntary commu-nity is developing Estonian Wikipedia with more than88,900 pages.

e growing importance of the Internet is critical forlanguage technology. e vast amount of digital lan-guage data is a key resource for analysing the usage ofnatural language, in particular, for collecting statisticalinformation about patterns. And the Internet offers awide range of application areas for language technology.

e most commonly used web application is search,which involves the automatic processing of language onmultiple levels as will be shown inmore detail later.Websearch involves sophisticated language technology thatdiffers for each language.

It is an expressed political aim in Estonia as well as otherEuropean countries to ensure equal opportunities foreveryone. Public agencies need to make sure that theirweb sites and Internet services can be used by the dis-abled without restrictions. User-friendly language tech-nology tools offer the principal solution to satisfy thisregulation, for example by offering speech synthesis forthe blind.

45

http://postimees.ee

http://ohtuleht.ee

http://paevaleht.ee

Internet users and providers of web content can alsouse language technology in less obvious ways, for ex-ample, by automatically translating web page contentsfrom one language into another. Despite the high costofmanually translating this content, comparatively littlelanguage technology has been developed and applied tothe issue of website translation in light of the supposed

need.ismay be due to the complexity of the Estonianlanguage and to the range of different technologies in-volved in typical applications.enext chapter gives an introduction to language tech-nology and its core application areas, together with anevaluation of current language technology support forEstonian.

46

4

LANGUAGE TECHNOLOGY SUPPORTFOR ESTONIAN

Language technology is used to develop soware sys-tems designed to handle human language and are there-fore oen called “human language technology”. Humanlanguage comes in spoken and written forms. Whilespeech is the oldest and in terms of human evolution themost natural form of language communication, com-plex information and most human knowledge is storedand transmitted through the written word. Speech andtext technologies process or produce these differentforms of language, using dictionaries, rules of grammar,and semantics. is means that language technology(LT) links language to various forms of knowledge, in-dependently of the media (speech or text) in which it isexpressed. Figure 1 illustrates the LT landscape.When we communicate, we combine language withother modes of communication and information media– for example speaking can involve gestures and facialexpressions. Digital texts link to pictures and sounds.Movies may contain language in spoken and writtenform. In otherwords, speech and text technologies over-lap and interact with other multimodal communicationand multimedia technologies.In this section, we will discuss the main applicationareas of language technology, i. e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies include

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[19, 20, 21, 22, 23].Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to bevery complex, figure 2 shows a highly simplified archi-tecture of a typical text processing system.efirst threemodules handle the structure and meaning of the textinput:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

47

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

1: Language technology in context

3. Semantic analysis: performs disambiguation (i. e.,computes the appropriate meaning of words in agiven context); resolves anaphora (i. e., which pro-nouns refer towhich nouns); represents themeaningof the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-formother operations, such as automatic summarisationand database look-ups.In the remainder of this section, we firstly introducethe core application areas for language technology, andfollow this with a brief overview of the state of LT re-search and education today, and a description of pastand present research programmes. Finally, we present anexpert estimate of core LT tools and resources for Esto-nian in terms of various dimensions such as availability,maturity and quality.e general situation of LT for theEstonian language is summarised in a matrix (figure 7).Tools and resources that are boldfaced in the text canalso be found in figure 7 (p. 60) at the end of this chap-ter. LT support for Estonian is also compared to otherlanguages that are part of this series.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and provide an overview of LT activitiesin Estonia.

4.2.1 Language Checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-lights spelling mistakes and proposes corrections. efirst spelling correction programs compared a list of ex-tracted words against a dictionary of correctly spelledwords. Today these programs are farmore sophisticated.Using language-dependent algorithms for grammaticalanalysis, they detect errors related tomorphology (e. g.,plural formation) as well as syntax-related errors, suchas a missing verb or a conflict of verb-subject agreement(e. g., she *write a letter). However, most spell checkerswill not find any errors in the following text [24]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Handling these kinds of errors usually requires an anal-ysis of the context. For example: deciding whether thenoun phrase has an agreement in case and number, asin:

‚ värvilise õiedcolourful-SG-GEN blooms

‚ värvilised õiedcolourful-PL-NOM blooms

48

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

2: A typical text processing architecture

is type of analysis either needs to draw on language-specific grammars laboriously coded into the sowareby experts, or on a statistical language model. In thiscase, a model calculates the probability of a particularword as it occurs in a specific position (e. g., betweenthe words that precede and follow it). For example:värvilised õied is a much more probable word sequencethan värvilise õied. Language checking applications alsoautomatically correct search engine queries, as found inGoogle’s Did you mean… suggestions.A statistical language model can be automatically cre-ated by using a large amount of (correct) language data(called a text corpus). Most of these two approacheshave been developed around data fromEnglish. Neitherapproach can transfer easily to Estonian because the lan-guage has a flexible word order, unlimited compoundbuilding and a richer inflection system.

The use of language checking is not limited toword processors. It also applies to

authoring support systems.

e development of Estonian speller dates back to1991. e implementation of speller soware has beenstrongly related to the progress of development of mor-phological analyser for Estonian, known under thename ESTMORF. e base for the speller and analyserwas the lexicon of 36,000 simple words and the descrip-tions for forming all word forms of them. e further

development focused on the modeling of compound-ing and derivation. In 1994, the first version of Estonianspeller was released. e later versions have had betterlexicons of proper names, abbreviations, neologisms etc.

e speller has been integrated with MS Office,OpenOffice.org and IBM Lotus Notes programs. espeller is being developed by the private companyFiloso [25].

Also, there have been other attempts for developingspellers for Estonian. Several versions of open sourcetools for spell-checking Estonian have been created.elexicon for ispell is most widely known. Its main disad-vantage is the inability to handle compounds.

Grammar checker verifies the structure andpunctuationof the sentence. e development of Estonian grammarchecker started in 2007 in the University of Tartu. Atpresent time, a prototype of the checker has been cre-atedwhich is able to find places ofmissing commaswiththe precision of 95%.

Language checking is not limited to word processors;it is also used in “authoring support systems”, i. e., so-ware environments in which manuals and other typesof technical documentation for complex IT, healthcare,engineering and other products, are written. To off-set customer complaints about incorrect use and dam-age claims resulting from poorly understood instruc-tions, companies are increasingly focusing on the qual-ity of technical documentation while targeting the in-ternational market (via translation or localisation) at

49

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

3: Language checking (top: statistical; bottom: rule-based)

the same time. Advances in natural language process-ing have led to the development of authoring supportsoware, which helps the writer of technical documen-tation to use vocabulary and sentence structures that areconsistentwith industry rules and (corporate) terminol-ogy restrictions.Besides spell checkers and authoring support, languagechecking is also important in the field of computer-assisted language learning.

4.2.2 Web Search

Searching theWeb, intranets or digital libraries is proba-bly themostwidely used yet largely underdeveloped lan-guage technology application today. e Google searchengine, which started in 1998, now handles about 80%of all search queries [26]. Since 2009, the verb guugel-dama has even had an entry in the Eesti Õigekeelsussõ-naraamat (Estonian ortographic and explanatory dic-tionary). e Google search interface and results pagedisplay has not significantly changed since the first ver-sion. However, in the current version, Google offersspelling correction for misspelled words and incorpo-rates basic semantic search capabilities that can improvesearch accuracy by analysing the meaning of terms ina search query context [27]. e Google success storyshows that a large volume of data and efficient indexingtechniques can deliver satisfactory results using a statis-tical approach to language processing.For more sophisticated information requests, it is essen-tial to integrate deeper linguistic knowledge to facili-

tate text interpretation. Experiments using lexical re-sources such as machine-readable thesauri or ontologi-cal language resources (e. g., WordNet for English) havedemonstrated improvements in finding pages using syn-onyms of the original search terms, such as aatomiener-gia [atomic energy] and tuumaenergia [nuclear energy],or even more loosely related terms.

The next generation of search engineswill have to include much more sophisticated

language technology.

e next generation of search engines will have to in-clude much more sophisticated language technology,especially to deal with search queries consisting of aquestion or other sentence type rather than a list of key-words. For the query, Give me a list of all companiesthat were taken over by other companies in the last fiveyears, a syntactic as well as semantic analysis is required.e system also needs to provide an index to quickly re-trieve relevant documents. A satisfactory answer will re-quire syntactic parsing to analyse the grammatical struc-ture of the sentence and determine that the user wantscompanies that have been acquired, rather than compa-nies that have acquired other companies. For the expres-sion last five years, the system needs to determine therelevant range of years, taking into account the presentyear.e query then needs to bematched against a hugeamount of unstructured data to find the pieces of infor-mation that are relevant to the user’s request. is pro-

50

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

4: Web search

cess is called information retrieval, and involves search-ing and ranking relevant documents. To generate a list ofcompanies, the system also needs to recognise a particu-lar string of words in a document represents a companyname, using a process called named entity recognition.

A more demanding challenge is matching a query inone language with documents in another language.Cross-lingual information retrieval involves automati-cally translating the query into all possible source lan-guages and then translating the results back into theuser’s target language.

Now that data is increasingly found in non-textual for-mats, there is a need for services that deliver multime-dia information retrieval by searching images, audio filesand video data. In the case of audio and video files,a speech recognition module must convert the speechcontent into text (or into a phonetic representation)that can then be matched against a user query.

Language independent search tools can only find theword formswhich have the same form as the querywordor include the query word as a substring. As Estonian is

a language with rich morphology, and since in additionto the endings the stem itselfmay vary, the language spe-cific tools are needed for searching and indexing.

Documents are held in the computer as one big textualdatabase. e problem of full text search is oen di-vided into two sub-tasks: indexing and searching. eindexing stage will scan the texts of all documents andbuild a list of search terms, oen called the index. In thesearch stage, when performing a specific query, only theindex is referenced rather than the text of the originaldocuments. e indexer will make an entry in the indexfor each term or word found in a document and possi-bly its relative positionwithin the document. Language-specific indexers also employ language-specific stem-ming (lemmatising) on the words being indexed, so forexample any token of the Estonian words käsi, käe, orkätt (hand in nominative, genitive and partitive case)will be recorded in the index under a single stem-form(lemma) käsi. In some cases, automatic lemmatiser mayfind many lemmas for one word form. For example, thelemmas of kuue are kuub (jacket) or kuus (six). In order

51

to solve this ambiguity, the system has to take accountthe context of theword and performmorphological dis-ambiguation process.It is officially recommended to use Estonian lemma-tiser for searching and indexing of full-text databasesin information systems of public sector in Estonia [2].e first use of lemmatiser-based search was imple-mented 1997–2001 for information systems of StateChancellery. Also Google search for Estonian includessome probably stochastic lemmatisation, e. g., searchword majandusminister would also return hits for ma-jandusministri, the singular genitive of majandusminis-ter (minister of economy).

4.2.3 Speech Interaction

Speech interaction is one of many application areas thatdependon speech technology, i. e., technologies for pro-cessing spoken language. Speech interaction technol-ogy is used to create interfaces that enable users to in-teract in spoken language instead of using a graphicaldisplay, keyboard and mouse. Today, these voice userinterfaces (VUI) are used for partially or fully auto-mated telephone services provided by companies to cus-tomers, employees or partners. Business domains thatrely heavily on VUIs include banking, supply chain,public transportation, and telecommunications. Otheruses of speech interaction technology include interfacesto car navigation systems and the use of spoken languageas an alternative to the graphical or touchscreen inter-faces in smartphones.Speech interaction technology comprises four tech-nologies:

1. Automatic speech recognition (ASR) determineswhich words are actually spoken in a given sequenceof sounds uttered by a user.

2. Natural language understanding analyses the syntac-tic structure of a user’s utterance and interprets it ac-cording to the system in question.

3. Dialogue management determines which action totake given the user input and system functionality.

4. Speech synthesis (text-to-speech or TTS) trans-forms the system’s reply into sounds for the user.

One of the major challenges of ASR systems is to ac-curately recognise the words a user utters. is meansrestricting the range of possible user utterances to alimited set of keywords, or manually creating languagemodels that cover a large range of natural language ut-terances. Using machine learning techniques, languagemodels can also be generated automatically from speechcorpora, i. e., large collections of speech audio files andtext transcriptions. Restricting utterances usually forcespeople to use the voice user interface in a rigid way andcan damage user acceptance; but the creation, tuningand maintenance of rich language models will signifi-cantly increase costs. VUIs that employ language mod-els and initially allow a user to express their intent moreflexibly – prompted by a How may I help you? greeting– tend to be automated and are better accepted by users.

Speech interaction is the basis for creatinginterfaces that allow a user to interact with spoken

language instead of a graphical display,keyboard and mouse.

Companies tend to use utterances pre-recorded by pro-fessional speakers for generating the output of the voiceuser interface. For static utterances where the wordingdoes not depend on particular contexts of use or per-sonal user data, this can deliver a rich user experience.But more dynamic content in an utterance may sufferfrom unnatural intonation because different parts of au-dio files have simply been strung together.roughopti-misation, today’s TTS systems are getting better at pro-ducing natural-sounding dynamic utterances.Interfaces in speech interaction have been considerablystandardised during the last decade in terms of their

52

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

5: Speech-based dialogue system

various technological components. ere has also beenstrong market consolidation in speech recognition andspeech synthesis.enationalmarkets in theG20 coun-tries (economically resilient countries with high popu-lations) have been dominated by just five global play-ers, withNuance (USA) andLoquendo (Italy) being themost prominent players in Europe. In 2011, Nuance an-nounced the acquisition of Loquendo, which representsa further step in market consolidation.

During the last decade, the research on automaticspeech recognition in Estonia has been carried outmainly at the Laboratory of Phonetics and SpeechTech-nology, Institute of Cybernetics at Tallinn Universityof Technology (IOC). In 2000, a prototype for iso-lated word recognition (Estonian numbers and namesof Estonian letters) was developed. In 2002–2004 a lim-ited vocabulary connected speech recognition systembased on hidden Markov models (HMM) as context-dependent phone units was developed. e last version(2010) of the system with unlimited vocabulary is ableto recognize 63–85%ofwords.e result depends heav-ily on the genre of the speech, vocabulary and the qualityof the signal (the noise level) [28].

ere is a web application of speech recogniser whichenables to browse automatically transcribed conversa-tional broadcasts, and both listen and search them.Also,a web service is available for users to send their ownsound files to the system for the transcription. For more

specific purposes, there is a speech recognition systemfor radiologists under development. e first experi-ments with it yielded promising results (only 10% errorsin real-time recognition).

During the years 1997–2002 the first Estonian text-to-speech synthesiser has been developed in the coop-eration of IOC, Institute of Estonian Language (IEL)and Filoso. It belongs to the first generation of speechsynthesisers based on diphones. Every speech unit cor-responds to exactly on diphone (sound-to-sound tran-sition) in the database. e output of the synthesiseris understandable, but the sound itself is monotonous,with somewhat unnatural tone and poorly coherent.is synthesiser is adapted for use by blinds. e syn-thesiser is an open-source product, and may be used fornon-commercial and non-military purposes [29].

IEL is developing the new corpus-based version of thesynthesiser where the longer speech units have beenused in addition to diphones (word and phrase).

e prize for the Best Language Deed in 2010 (estab-lished by the Ministry of Education and Research) wasawarded to OÜ Jumalalaegas and the Estonian Libraryfor the Blind for developing voice guidance tools forblinds. ese tools use partially the speech synthesiserfor Finnish.

Looking ahead, there will be significant changes, due tothe spread of smartphones as a new platform for man-aging customer relationships, in addition to fixed tele-

53

phones, the Internet and e-mail. is will also affecthow speech interaction technology is used. In the longterm, there will be fewer telephone-based VUIs, andspoken language apps will play a far more central roleas a user-friendly input for smartphones. is will belargely driven by stepwise improvements in the accu-racy of speaker-independent speech recognition via thespeech dictation services already offered as centralisedservices to smartphone users.“Language recognition applications for smart phones”by Tanel Alumäe and Kaarel Kaljurand developed at In-stitute of Cybernetics at TUT won the grand prize ofLanguage Deed 2011.

4.2.4 Machine Translation

e idea of using digital computers to translate naturallanguages can be traced back to 1946 and was followedby substantial funding for research during the 1950s andagain in the 1980s. Yetmachine translation (MT) stillcannot deliver on its initial promise of providing across-the-board automated translation.

At its basic level, machine translation simplysubstitutes words in one natural language with

words in another language.

e most basic approach to machine translation is theautomatic replacement of the words in a text writtenin one natural language with the equivalent words ofanother language. is can be useful in subject do-mains that have a very restricted, formulaic languagesuch as weather reports. However, in order to produce agood translation of less restricted texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty is that human language isambiguous. Ambiguity creates challenges on multiplelevels, such as word sense disambiguation at the lexical

level (a mouse is an input device of computer or an ani-mal) or the assignment of case on the syntactic level, forexample:

Naine nägi autot jamees ka.Naine nägi autot jameest ka.

e woman saw the car and the man, too.

One way to build an MT system is to use linguisticrules. For translations between closely related languages,a translation using direct substitution may be feasible incases such as the above example. However, rule-based(or linguistic knowledge-driven) systems oen analysethe input text and create an intermediary symbolic rep-resentation from which the target language text can begenerated.e success of thesemethods is highly depen-dent on the availability of extensive lexicons with mor-phological, syntactic, and semantic information, andlarge sets of grammar rules carefully designed by skilledlinguists.is is a very long and therefore costly process.In the late 1980s when computational power increasedand became cheaper, interest in statistical models formachine translation began to grow. Statistical modelsare derived from analysing bilingual text corpora, paral-lel corpora, such as the Europarl parallel corpus, whichcontains the proceedings of the European Parliamentin 21 European languages. Given enough data, statis-tical MT works well enough to derive an approximatemeaning of a foreign language text by processing parallelversions and finding plausible patterns of words. Unlikeknowledge-driven systems, however, statistical (or data-driven) MT systems oen generate ungrammatical out-put. Data-driven MT is advantageous because less hu-man effort is required, and it can also cover special par-ticularities of the language (e. g., idiomatic expressions)that are oen ignored in knowledge-driven systems.e strengths and weaknesses of knowledge-driven anddata-drivenmachine translation tend to be complemen-tary, so that nowadays researchers focus on hybrid ap-

54

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

6: Machine translation (left: statistical; right: rule-based)

proaches that combine both methodologies. One suchapproach uses both knowledge-driven and data-drivensystems, together with a selection module that decideson the best output for each sentence. However, resultsfor sentences longer than, say, 12 words, will oen befar from perfect. A more effective solution is to com-bine the best parts of each sentence from multiple out-puts; this can be fairly complex, as corresponding partsof multiple alternatives are not always obvious and needto be aligned.

Machine Translation is particularly challengingfor the Estonian language.

Machine translation is particularly challenging for theEstonian language. e potential for creating arbitrarynew words by compounding makes dictionary analysisand dictionary coverage difficult; free word order andsplit verb constructions pose problems for analysis, also,the amount of available parallel texts is limited. In spiteof this, Estonian belongs to one of the languages (cur-rently, around 50) which can be translated by computer[30].e history of machine translation of Estonian datesback to the end of 50s when mathematicians of Univer-sity of Tartu experimented with building a system forautomatic translation of mathematical texts from Rus-sian to Estonian.e hardware used during these exper-

iments (computer Ural) had a speed of 100 operationsper second, and this mediocre performance was one ofthe main reasons for discontinuing the experiments.

ere exist two statistical machine translation systemsfor Estonian. e best known is the translation serviceby Google. Its quality is not always satisfactory but stillenables the rough understanding of the text topic andbasic facts.

e research group in the University of Tartu is cur-rently working on the idea of Estonian-English ma-chine translation. is translation system (located onthe page http://masintolge.ut.ee) allows for the trans-lation of sentences with a limited length from Esto-nian to English. is system uses open source SMT de-coder Moses and is trained using JRC-Acquis, OPUSand other Estonian-English parallel corpora.

e use of machine translation can significantly in-crease productivity provided the system is intelligentlyadapted to user-specific terminology and integratedinto a workflow. Special systems for interactive transla-tion support were developed, for example, at Siemens.Language portals such as the Volkswagen site provideaccess to dictionaries, company-specific terminology,translation memory and MT support.

ere is still a huge potential for improving the qual-ity of MT systems. e challenges involve adapting lan-guage resources to a given subject domain or user area,and integrating the technology into workflows that al-

55


ready have term bases and translation memories. An-other problem is that most of the current systems areEnglish-centred and only support a few languages fromand into other European languages. is leads to fric-tion in the translation workflow and forces MT users tolearn different lexicon coding tools for different systems.Evaluation campaigns help to compare the quality ofMT systems, the different approaches and the statusof the systems for different language pairs. Figure 7(p. 23), whichwas prepared during theECEuromatrix+project, shows the pair-wise performances obtained for22 of the 23 official EU languages (Irish was not com-pared). e results are ranked according to a BLEUscore, which indicates higher scores for better transla-tions [31]. A human translator would normally achievea score of around 80 points.ebest results (in green andblue)were achievedby lan-guages that benefit from a considerable research effortin coordinated programmes and the existence of manyparallel corpora (e. g., English, French, Dutch, Span-ish and German). e languages with poorer results areshown in red. ese languages either lack such develop-ment efforts or are structurally very different from otherlanguages (e. g., Hungarian, Maltese, Finnish and Esto-nian).

4.3 OTHER APPLICATION AREASBuilding language technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but they provide significantservice functionalities “behind the scenes” of the sys-tem in question.ey all form important research issuesthat have now evolved into individual sub-disciplines ofcomputational linguistics. uestion answering, for ex-ample, is an active area of research for which annotatedcorpora have been built and scientific competitions havebeen initiated. e concept of question answering goesbeyondkeyword-based searches (inwhich the search en-

gine responds by delivering a collection of potentiallyrelevant documents) and enables users to ask a concretequestion to which the system provides a single answer.For example:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While question answering is obviously related to thecore area of web search, it is nowadays an umbrella termfor such research issues as which different types of ques-tions exist, and how they should be handled; how a setof documents that potentially contain the answer can beanalysed and compared (do they provide conflicting an-swers?); and how specific information (the answer) canbe reliably extracted from a document without ignoringthe context.

Language technology applications often providesignificant service functionalities ‘behind the

scenes’ of larger software systems.

uestion answering is in turn related to information ex-traction (IE), an area that was extremely popular andinfluential when computational linguistics took a sta-tistical turn in the early 1990s. IE aims to identify spe-cific pieces of information in specific classes of docu-ments, such as the key players in company takeovers asreported in newspaper stories. Another common sce-nario that has been studied is reports on terrorist in-cidents. e task here consists of mapping appropriateparts of the text to a template that specifies the per-petrator, target, time, location and results of the in-cident. Domain-specific template-filling is the centralcharacteristic of IE, which makes it another exampleof a “behind the scenes” technology that forms a well-demarcated research area, which in practice needs to beembedded into a suitable application environment.

56

Text summarisation and text generation are two bor-derline areas that can act either as standalone applica-tions or play a supporting role. Summarisation attemptsto give the essentials of a long text in a short form, andis one of the features available in Microso Word. Itmostly uses a statistical approach to identify the “im-portant” words in a text (i. e., words that occur very fre-quently in the text in question but less frequently in gen-eral language use) and determine which sentences con-tain the most of these “important” words. ese sen-tences are then extracted and put together to create thesummary. In this very common commercial scenario,summarisation is simply a form of sentence extraction,and the text is reduced to a subset of its sentences. Analternative approach, for which some research has beencarried out, is to generate brand new sentences that donot exist in the source text.

is requires a deeper understanding of the text, whichmeans that so far this approach is far less robust. On thewhole, a text generator is rarely used as a stand-alone ap-plicationbut is embedded into a larger soware environ-ment, such as a clinical information system that collects,stores and processes patient data. Creating reports is justone of many applications for text summarisation.

ere exist only prototype versions of these tools for Es-tonian. e summarisation tool for Estonian (EstSum)focuses on extraction methods from a single document.e area of texts is limited: EstSum considers that theinput text consists of a formatted news text.

uestion answering, information extraction, and sum-marisation have been the focus of numerous opencompetitions in the USA since the 1990s, primarilyorganised by the government-sponsored organisationsDARPA and NIST. ese competitions have signifi-cantly improved the state of the art, but their focushas mostly been on the English language. As a result,there are hardly any annotated corpora or other specialresources for these tasks in Estonian. When summari-

sation systems use purely statistical methods, they arelargely language-independent and a number of researchprototypes are available. For text generation, reusablecomponents have traditionally been limited to surfacerealisationmodules (generation grammars) andmost ofthe available soware is for the English language.

4.4 EDUCATIONALPROGRAMMESLanguage technology is a very interdisciplinary fieldthat involves the combined expertise of linguists, com-puter scientists, mathematicians, philosophers, psy-cholinguists, and neuroscientists among others.Two universities in Estonia are involved in languagetechnology education [33]:

‚ University of Tartu. Students of Estonian andFenno-Ugric languages can study computer linguis-tics as a specialized module both during BSc andMSc program. e module includes various lan-guage theory and computer science courses, e. g.,Programming for Linguists and Language eoryfor Linguists. BSc and MSc students of InformationTechnology can study Language Technology as aspecializedmodule.Many of these courses have beencreated jointly by the Department of Mathematicsand Informatics and the Department of Philoso-phy. On the PhD level, the relevant research train-ing is typically carried out under general linguisticsor computer science.

‚ Tallinn University of Technology. Some PhD stu-dents of information technology are specializing inthe field of speech technology, following individualstudy programs.

In 2009, two doctoral schools were established whichinvolve PhD students of computer linguistics and lan-guage technology: the doctoral school of information

57

and communication technology (includes students oflanguage technology), and the doctoral school of lan-guage theory, philosophy and semiotics (includes stu-dents of computer linguistics).

4.5 NATIONAL PROGRAMMESAND INITIATIVESe language technology was actively researched in Es-tonia already in 1950s when the first industrial gradecomputers appeared in universities and research labs.However, in the early 1990s the funding of manyresearch activities changed considerably, with someresearch fields falling into extinction. HLT researchgroups survived quite well due to successful participa-tion in several international projects (e. g., EU Coper-nicus) [33]. Starting at the end of the 1990s, additionalfunding sources were opened:

‚ the Estonian Language Technology programmeinitiated by the Estonian Informatics Centre(1998–2000). Within this programme the first De-velopment Plan for Estonian Language Technologywas compiled in 1999;

‚ the national programmes “Estonian Language andCultural Heritage” (1999–2003) and “EstonianLanguage and National Memory” (2004–2008) in-cluded sub-programmes for HLT.

‚ HLT key-players were involved also in EU FP5project “eVikings II: Establishment of the VirtualCentre of Excellence for IST RTD in Estonia”(2002–2005).

National Programme for Estonian Language Technol-ogy (NPELT) was compiled in 2005 by a group ofHLT experts and launched by the Ministry of Educa-tion and Research in 2006 for a period of five years(2006–2010). e main goal of NPELT was to de-velop technology support for the Estonian language to

the level that would allow functioning of Estonian inthe modern information society. NPELT funded HLT-related R&D activities including creation of reusablelanguage resources anddevelopment of essential linguis-tic soware (up to the working prototypes) as well asbringing the relevant language technology infrastruc-ture up to date.e resources and prototypes funded bythe national programme are publicly available [34].

e Center of Estonian Language Resources (CELR)spun out of a project financed by NPELT. e aim ofthe Centre is to create an infrastructure to make avail-able Estonian language resources and NLP soware. Bythe end of 2011 a consortiumwas formed by three part-ners: University of Tartu, the Institute of Cyberneticsat TallinnUniversity of Technology and the Institute ofthe Estonian Language.

Continuing National Programme [35] regarding thesupport of Estonian language technology is going on2011–2017. is programme will focus more on ap-plications and on making the developed resources andtools publicly available.

eMinistry of Education and Research is funding alsomore research-oriented projects on language technol-ogy using targeted financing schema and grants of Es-tonian Science Foundation.

e Center of Excellence of Computer Science (actingfrom 2008 to 2015) includes computational linguistsfrom theUniversity of Tartu and the Institute of Cyber-netics of TTU (Tallinn University of Technology).

Estonia has taken part inCommonLanguageResourcesand Technology Infrastructure (CLARIN, see http://www.clarin.eu) activities since 2008. CLARIN legalform is ERIC (European Research Infrastructure Con-sortium) from February 29, 2012. Center of EstonianLanguage Resources as an object included in the Esto-nian Research Infrastructures Roadmapwill function asCLARIN centre of Estonia.

58



4.6 AVAILABILITY OF TOOLSAND RESOURCES

Figure 7 provides a rating for language technology sup-port for the Estonian language. is rating of existingtools and resources was generated by leading experts inthe field who provided estimates based on a scale from 0(very low) to 6 (very high) using seven criteria. e keyresults for Estonian can be summed up as follows:

‚ Tools for speech recognition and speech synthesishave been developed by research institutions; how-ever these tools can be regarded as prototypes, notas mature products.

‚ Although the automatic morphological analysis ofEstonian is complicated, the efficiency of morpho-logical tools (such as tokeniser, lemmatiser andmor-phological analyser) is comparable to similar toolsfor other major European languages. Since the toolshave been developed as commercial products, theirlicensing conditions have not allowed for unre-stricted use by general public. On the other hand,the quality of publicly available tools has remainedfairlymodest, therefore thepublic preferencehas set-tled for commercial utilities. Syntactic parsers witha broad coverage of Estonian have been developedonly using one rule-based grammatical formalism.e grammar of the parser has been adapted for dif-ferent genres of language. Nevertheless, the devel-opment of these tools must continue for achievingbetter performance. Semantics is more difficult toprocess than syntax, and text semantics is more dif-ficult to process than word and sentence semantics.Semantic tools and resources are scored low. us,programs and initiatives are needed to substantiallyboost this area bothwith regard to basic research andthe development of annotated corpora.

‚ Programs for text interpretation require extensive se-mantic analysis and these programs are only in theinitial state of development.

‚ e only available tool for Estonian text generationis morphological synthesiser.

‚ Most of the users prefer Google machine transla-tion service. Also, Estonian-English machine trans-lation system is under development in theUniversityof Tartu. ere would probably be a high demandfor the Russian-Estonian and Estonian-Russian au-tomatic translation service.

‚ With regard to resources such as reference corpora,lexicons, wordnets and terminologies, the situationis also reasonably good for Estonian since substantialresources have been built in recent decades. Whilesome reference corpora of high quality exist, syntac-tically and semantically annotated corpora are smallin size. e work on multimodal corpora has begunrecently.

‚ Research was successful in designing particular highquality soware, butmany of the resources lack stan-dardisation and detail documentation, i. e., even ifthey exist, sustainability is not given; concerted pro-grams and initiatives are needed to standardize dataand interchange formats.

To sum up, the results indicate that Estonian stands rea-sonably well with respect to the most basic languagetechnology tools and resources, such as tokenisers, PoStaggers, morphological analysers, shallow parsers, refer-ence corpora, treebanks and tools for speech technol-ogy. Furthermore, there exist some tools for summarisa-tion, machine translation, as well as resources like par-allel corpora, and specialized corpora. However, thesetools and resources are rather simple and have a limitedfunctionality for some of the areas. For instance, paral-lel corpora only exist for very few language pairs and forlimited text genres. When it comes to more advanced

59

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech Recognition 2 5 2.8 2.8 3 3 3

Speech Synthesis 2 5 2.8 2.8 3 2 3

Grammatical analysis 2.5 3.5 3.2 2.8 4 2.5 3.5

Semantic analysis 1 1.3 0.9 0.9 1.3 1.3 1.7

Text generation 0 0 0 0 0 0 0

Machine translation 3 3 1.4 2.1 3 4 2

Language Resources: Resources, Data and Knowledge Bases

Text corpora 3 5 2.5 2.1 3 2.5

Speech corpora 2 5 2.1 2.8 4 4 4

Parallel corpora 2 2 2.1 1.4 3 3 2

Lexical resources 3.5 4 3.2 2.8 3.5 3.5 3.5

Grammars 2 5 2.8 2.8 3 3 3

7: State of language technology support for Estonian

fields like text semantics, language generation, and an-notated multimodal data, Estonian clearly lacks basictools and resources even if some of these are currentlyunder development.e research regarding themost ad-vanced tools and resources like discourse processing, di-alogue management, semantics and discourse corporahas yielded first results but the resources need still tocomplement in amount and quality and tools have aquite limited scope. Most of these tools (except mor-phological analyser) have been developed by researchinstitutions and can be regarded as prototypes, not asmature products. e development was supported bydifferent national programmes of language technologywhat guarantees the availability of these tools.

4.7 CROSS-LANGUAGECOMPARISONe current state of LT support varies considerablyfrom one language community to another. In order tocompare the situation between languages, this sectionpresents an evaluation based on two sample applicationareas (machine translation and speech processing) andone underlying technology (text analysis), as well as ba-sic resources needed for building LT applications. elanguages were categorised using a five-point scale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

60

LTsupportwasmeasured according to the following cri-teria:

Speech Processing:uality of existing speech recogni-tion technologies, quality of existing speech synthesistechnologies, coverage of domains, number and size ofexisting speech corpora, amount and variety of availablespeech-based applications.

Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size ofexisting parallel corpora, amount and variety of availableMT applications.

Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) text corpora, quality and coverageof existing lexical resources (e. g., WordNet) and gram-mars.

Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars.

Figures 8 to 11 show that, although the government hasincreased the support to the Estonian LT recent years,Estonian language belongs to the fourth or fih clusters.e results of Estonian andFinnish are quite similar andEstonian is slightly better equipped thanmost other lan-guages with a similar number of speakers, such as Lat-vian, Lithuanian, Icelandic and Maltese. All these lan-guages lag far behind large languages like German andFrench, for instance. But evenLT resources and tools forthose languages clearly do not yet reach the quality andcoverage of comparable resources and tools for the En-glish language,which is in the lead in almost all LTareas.And there are still plenty of gaps in English language re-sources with regard to high quality applications

For building more sophisticated applications, such asmachine translation, there is a clear need for resources

and technologies that cover a wider range of linguis-tic aspects and allow a deep semantic analysis of theinput text. By improving the quality and coverage ofthese basic resources and technologies, we shall be ableto openupnewopportunities for tackling a vast range ofadvanced application areas, including high-quality ma-chine translation.

4.8 CONCLUSIONSIn this series of white papers, we have made an impor-tant effort by assessing the language technology supportfor 30 European languages, and by providing a high-leel comparison across these languages. By identifying thegaps, needs and deficits, the European language technol-ogy community and its related stakeholders are now ina position to design a large scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled communication across Europe.

e results of this white paper series show that there is adramatic difference in language technology support be-tween the various European languages. While there aregood quality soware and resources available for somelanguages and application areas, others, usually smallerlanguages, have substantial gaps. Many languages lackbasic technologies for text analysis and the essential re-sources. Others have basic tools and resources but theimplementation of for example semanticmethods is stillfar away.erefore a large-scale effort is needed to attainthe ambitious goal of providing high-quality languagetechnology support for all European languages, for ex-ample through high quality machine translation.

In the case of the Estonian language, we can be cau-tiously optimistic about the current state of languagetechnology support. Supported by larger research pro-grams in the past, there exists a language technologyresearch scene in Estonia. Unfortunately, the industryconsists only of a few SMEs.

61

For Estonian, a number of technologies and resourcesexist, but far less than for English. Language technologysupport today is by far not in a state that is needed foroffering the support a true multilingual knowledge so-ciety needs.e need for large amounts of data and the extremecomplexity of language technology systems makes it vi-tal to develop a new infrastructure and a more coherentresearch organisation to spur greater sharing and coop-eration.Finally there is a lack of continuity in research anddevel-opment funding. Short-term coordinated programmes

tend to alternate with periods of sparse or zero funding.In addition, there is an overall lack of coordination withprogrammes in other EU countries and at the EuropeanCommission level.e long term goal of META-NET is to enable the cre-ation of high-quality language technology for all lan-guages. is requires all stakeholders - in politics, re-search, business, and society - to unite their efforts.e resulting technology will help tear down existingbarriers and build bridges between Europe’s languages,paving theway for political and economic unity throughcultural diversity.

62

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanian

8: Speech processing: state of language technology support for 30 European languages


English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedish

9: Machine translation: state of language technology support for 30 European languages

63


English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbian

10: Text analysis: state of language technology support for 30 European languages


English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMaltese

11: Speech and text resources: State of support for 30 European languages

64

5

ABOUT META-NET

META-NET is a Network of Excellence funded bythe European Commission [36]. e network currentlyconsists of 54 members from 33 European countries.META-NET forges META, the Multilingual EuropeTechnologyAlliance, a growing community of languagetechnology professionals and organisations in Europe.META-NET fosters the technological foundations fora truly multilingual European information society that:

‚ makes communication and cooperation possibleacross languages;

‚ grants all Europeans equal access to information andknowledge regardless of their language;

‚ builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-sion and a common strategic research agenda (SRA).

e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.

META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peernetwork of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.

META-RESEARCH builds bridges to related technol-ogy fields. is activity seeks to leverage advances inother fields and to capitalise on innovative research thatcan benefit language technology. In particular, the ac-tion line focuses on conducting leading-edge research inmachine translation, collecting data, preparing data setsand organising language re-sources for evaluation pur-poses; compiling inventories of tools and methods; andorganising workshops and training events for membersof the community.

[email protected] – http://www.meta-net.eu

65

A

KIRJANDUS REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann,Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeital-ter – e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and HansUszkoreit (Series Editors). Springer, 2012.

[2] Riigiportaal. https://www.eesti.ee/est/teemad/ettevotja/riigiportaali_abi/partnerile_1/lemmatiseerja.

[3] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information So-ciety – Vision Paper for a Strategic Research Agenda, 2011. http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf.

[4] Directorate-General Information Society&Media of the EuropeanCommission. User Language PreferencesOnline, 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[5] European Commission. Multilingualism: an Asset for Europe and a Shared Commitment, 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[6] Directorate-General of the UNESCO. Intersectoral Mid-term Strategy on Languages and Multilingualism,2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[7] Directorate-General for Translation of the European Commission. Size of the Language Industry in the EU,2009. http://ec.europa.eu/dgs/translation/publications/studies.

[8] Estonian Institute. Estonian in a world context. http://www.estonica.org/en/Society/The_Estonian_Language/Estonian_in_a_world_context/.

[9] Anastassia Zabrodskaja. Eesti keel Eestis teise keelena. http://www.emakeeleselts.ee/vaatmikud/eesti_keel_teise_keelena.pdf, 2008. In Estonian. English title: Estonian as a Second Language in Estonia.

[10] Eesti keelenõukogu. Eesti keele arendamise strateegia 2004-2010. http://eki.ee/keelenoukogu/strat_et.pdf.In Estonian. English title: Development Strategy of the Estonian Language 2004–2010.

[11] Estonian Institute. Estonian Sign Language. http://www.estinst.ee/publications/language/sign.html.

[12] Helle Metslang. Estonian grammar between Finnic and SAE: some comparisons. In Language Typology andUniersals, pages 49–71, 2009.

67

https://www.eesti.ee/est/teemad/ettevotja/riigiportaali_abi/partnerile_1/lemmatiseerja

http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf

http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf

http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf

http://ec.europa.eu/languages/pdf/comm2008_en.pdf

http://ec.europa.eu/languages/pdf/comm2008_en.pdf

http://unesdoc.unesco.org/images/0015/001503/150335e.pdf

http://ec.europa.eu/dgs/translation/publications/studies

http://www.estonica.org/en/Society/The_Estonian_Language/Estonian_in_a_world_context/

http://www.estonica.org/en/Society/The_Estonian_Language/Estonian_in_a_world_context/

http://www.emakeeleselts.ee/vaatmikud/eesti_keel_teise_keelena.pdf

http://www.emakeeleselts.ee/vaatmikud/eesti_keel_teise_keelena.pdf

http://eki.ee/keelenoukogu/strat_et.pdf

http://www.estinst.ee/publications/language/sign.html

[13] Mati Erelt, Tiiu Erelt, and Kristiina Ross. Eesti keele käsiraamat. Eesti Keele Sihtasutus, Tallinn, 2007. InEstonian. English title: e handbook of Estonian language.

[14] Mati Erelt. Estonian language. In Linguistica Uralica Supplementary Series, volume 1, 2003.

[15] Estonian Language Council. Development plan for Estonian language (2011-2017). http://ekn.hm.ee/system/files/Eesti_keele_arengukava_2011-2017_0.pdf.

[16] Estonian Institute. Eesti keel ja kultuur maailmas — Ülikoolid (universities). http://ekkm.estinst.ee/keskused/ylikoolid/.

[17] Eesti Statistikaamet. Kolmveerand Eesti elanikest kasutab internetti. http://www.stat.ee/dokumendid/47013, 2010. In Estonian. English title: ree-fourths of Estonian population uses the internet.

[18] neti.ee. http://www.neti.ee/cgi-bin/teema/INFO_JA_MEEDIA/Ajalehed/.

[19] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, ed-itors. Computerlinguistik und Sprachtechnologie: Eine Einführung. Spektrum Akademischer Verlag, 2009. InGerman. English title: Computational Linguistics and Language Technology: An Introduction.

[20] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2009.

[21] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. MITPress, 1999.

[22] Language Technology World (LT World). http://www.lt-world.org/.

[23] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology (Studies in Natural LanguageProcessing). Cambridge University Press, 1998.

[24] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.

[25] Filoso OÜ. http://www.filosoft.ee/index_en.html.

[26] Spiegel Online. Google zieht weiter davon (Google is still leaving everybody behind), 2009. http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html.

[27] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities, 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

[28] Laboratory of Phonetics and Speech Technology Institute of Cybernetics at TTU. http://www.phon.ioc.ee/dokuwiki/doku.php?id=software:software.en.

[29] Eesti Keele Instituut. Eesti keele kõnesüntees. http://www.eki.ee/keeletehnoloogia/projektid/syntees/. InEstonian. English title: Speech Synthesis for Estonian Language.

68

http://ekn.hm.ee/system/files/Eesti_keele_arengukava_2011-2017_0.pdf

http://ekn.hm.ee/system/files/Eesti_keele_arengukava_2011-2017_0.pdf

http://ekkm.estinst.ee/keskused/ylikoolid/

http://ekkm.estinst.ee/keskused/ylikoolid/

http://www.stat.ee/dokumendid/47013

http://www.stat.ee/dokumendid/47013

http://www.neti.ee/cgi-bin/teema/INFO_JA_MEEDIA/Ajalehed/

http://www.lt-world.org/

http://www.filosoft.ee/index_en.html

http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html

http://www.spiegel.de/netzwelt/web/0,1518,619398,00.html

http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html

http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html

http://www.phon.ioc.ee/dokuwiki/doku.php?id=software:software.en

http://www.phon.ioc.ee/dokuwiki/doku.php?id=software:software.en

http://www.eki.ee/keeletehnoloogia/projektid/syntees/

[30] Heiki-Jaan Kaalep and Mare Koit. Kuidas masin tõlgib. Keel ja Kirjandus, pages 726–738, 10 2010. InEstonian. English title: How Does a Machine Translate.

[31] Kishore Papineni, SalimRoukos, ToddWard, andWei-Jing Zhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation. In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[32] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. InProceedings of MT Summit XII, 2009.

[33] Einar Meister, Tiit Roosmaa, and Jaak Vilo. Estonian language technology anno 2009. In R. Domeij,K. Koskenniemi, S. Krauwer, B. Maegaard, E. Rögnvaldsson, and K de Smedt, editors, Proceedings of theNODALIDA 2009 workshop Nordic Perspectives on the CLARIN Inastructure of Common Language Re-sources, number 5 in NEALT Proceedings Series, pages 21–26. University of Tartu, 2009.

[34] National Programme for Estonian Language Technology. Riiklik programm “Eesti keele keeletehnoloogilinetugi (2006–2010)”. http://www.keeletehnoloogia.ee/ekktt-1.

[35] National Programme for Estonian Language Technology. Riiklik programm “Eesti keeletehnoloogia(2011–2017)”. http://www.keeletehnoloogia.ee.

[36] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual,22(3):51–52, April/May 2011.

[37] Estonian Language Council. Development strategy of the Estonian language 2004–2010. http://eki.ee/keelenoukogu/strat_en.pdf.

69

http://www.keeletehnoloogia.ee/ekktt-1

http://www.keeletehnoloogia.ee

http://eki.ee/keelenoukogu/strat_en.pdf

http://eki.ee/keelenoukogu/strat_en.pdf

B

META-NETI LIIKMED META-NET MEMBERS

Austria Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Belgia Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre for Processing Speech and Images,University of Leuven:Dirk vanCompernolle

Bulgaaria Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Eesti Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Hispaania Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Aholab Signal Processing Laboratory, University of the Basque Country:Inma Hernaez Rioja

Centre for Language and Speech Technologies and Applications, Universitat Politèc-nica de Catalunya: Asunción Moreno

Department of Signal Processing and Communications, University of Vigo:Carmen García Mateo

Horvaatia Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Za-greb: Marko Tadić

Iirimaa Ireland School of Computing, Dublin City University: Josef van Genabith

Island Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Itaalia Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

Kreeka Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Küpros Cyprus Language Centre, School of Humanities: Jack Burston

Leedu Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Läti Latvia Tilde: Andrejs Vasiļjevs

Institute of Mathematics and Computer Science, University of Latvia: Inguna Skadiņa

Luksemburg Luxembourg Arax Ltd.: Vartkes Goetcherian

Madalmaad Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

71

Computational Linguistics, University of Groningen: Gertjan van Noord

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Norra Norway Department of Linguistic, Literary and Aesthetic Studies, University of Bergen:Koenraad De Smedt

Department of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Poola Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department of Computer Linguistics and Artificial Intelligence, Adam MickiewiczUniversity: Zygmunt Vetulani

Portugal Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering andComput-ers: Isabel Trancoso

Prantsusmaa France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour la Mé-canique et les Sciences de l’Ingénieur and Institute for Multilingual and MultimediaInformation: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Rootsi Sweden Department of Swedish, University of Gothenburg: Lars Borin

Rumeenia Romania Research Institute for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Saksamaa Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen University:Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Serbia Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vranes

Slovakkia Slovakia Ľudovít Štúr Institute of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Sloveenia Slovenia Jožef Stefan Institute: Marko Grobelnik

Soome Finland Computational Cognitive Systems Research Group, Aalto University: Timo Honkela

Department of Modern Languages, University of Helsinki: Kimmo Koskenniemi,Krister Lindén

Suurbritannia UK School of Computer Science, University of Manchester: Sophia Ananiadou

72

Institute for Language, Cognition and Computation, Centre for Speech TechnologyResearch, University of Edinburgh: Steve Renals

Research Institute of Informatics andLanguageProcessing,University ofWolverhamp-ton: Ruslan Mitkov

Šveits Switzerland Idiap Research Institute: Hervé Bourlard

Taani Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Tšehhi Vabariik Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Ungari Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications and Media Informatics, Budapest University ofTechnology and Economics: Géza Németh, Gábor Olaszy

Ligi 100 keeletehnoloogiaeksperti – META-NETis osalevate maade ja keelte esindajad – arutasid läbi ja vi-imistlesid Valge raamatu sarja põhitulemusi META-NETi koosolekul Berliinis 21. ja 22. oktoobril 2011.— About100 language technology experts – representatives of the countries and languages represented in META-NET –discussed and finalised the key results and messages of the White Paper Series at a META-NET meeting in Berlin,Germany, on October 21/22, 2011.

73

C

META-NETI VALGERAAMATU SARI

THE META-NETWHITE PAPER SERIES

baski Basque euskarabulgaaria Bulgarian българскиeesti Estonian eestigaliitsia Galician galegohispaania Spanish españolhollandi Dutch Nederlandshorvaadi Croatian hrvatskiiiri Irish Gaeilgeinglise English Englishislandi Icelandic íslenskaitaalia Italian italianokatalaani Catalan catalàkreeka Greek εηνικάleedu Lithuanian lietuvių kalbaläti Latvian latviešu valodamalta Maltese Maltinorra Bokmål Norwegian Bokmål bokmålnorra Nynorsk Norwegian Nynorsk nynorskpoola Polish polskiportugali Portuguese portuguêsprantsuse French françaisrootsi Swedish svenskarumeenia Romanian românăsaksa German Deutschserbia Serbian српскиslovaki Slovak slovenčinasloveeni Slovene slovenščinasoome Finnish suomitaani Danish dansktšehhi Czech češtinaungari Hungarian magyar

75

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Estonian language. It is part of a se-ries that analyses the available language resources andtechnologies for 30 European languages. The analysiswas carried out by META-NET, a Network of Excellencefunded by the European Commission. META-NET con-sists of 54 research centres in 33 countries, who cooper-ate with stakeholders from economy, government agen-cies, research organisations, non-governmental organi-sations, language communities and European universi-ties. META-NET’s vision is high-quality language tech-nology for all European languages.

Oma igapäevases suhtluses puutuvad Euroopa ko-danikud, äripartnerid ja poliitikud paratamatult kokkukeelebarjääridega. Keeletehnoloogia suudab neidbarjääre ületada ning võimaldada uudseid liideseidtehnoloogiatele ja teadmistele. Käesolev valge raa-mat esitab eesti keele keeletehnoloogilise toe het-keseisu, moodustades osa seeriast, mis analüüsib30 Euroopa keele olemasolevaid keeleressursse ja -tehnoloogiaid. Selle analüüsi viis läbi Euroopa Komis-joni rahastatud tippteadmiste võrgustik META-NET.META-NET koosneb 33 riigi 54 uurimiskeskusest,mis teevad koostööd ärimaailma, valitsus- ja teadus-asutuste, valitsusväliste organisatsioonide, keeleko-gukondade ja Euroopa ülikoolide huvitatud osapool-tega. META-NETi eesmärk on saavutada kõrgekvali-teediline keeletehnoloogia kõigile Euroopa keeltele.

“If we do not implement the development plan for language technology or do not cooperate with other countriesin the same direction, in future Estonian will [...] be marginalized in information society.”— Development Plan of the Estonian Language 2011–2017

“Kas eesti keelt on võimalik kasutada kõige moodsamas tehnoloogias ja kas arvuti on võimeline suhtlema kujund-likus eesti keeles — see määrab meie keele säilimise tuleviku maailmas.”— Tõnis Lukas, haridus- ja teadusminister 2007–2011, EV90 raames korraldatud Keeletalgutel