93
White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária Šimková Radovan Garabík Katarína Gajdošová Michal Laclavík Slavomír Ondrejovič Jozef Juhár Ján Genči Karol Furdík Helena Ivoríková Jozef Ivanecký

White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Embed Size (px)

Citation preview

Page 1: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

White Paper Series

THE SLOVAKLANGUAGE IN

THE DIGITALAGE

Séria bielych kníh

SLOVENSKÝJAZYKV DIGITÁLNOMVEKU

Mária ŠimkováRadovan GarabíkKatarína GajdošováMichal LaclavíkSlavomír OndrejovičJozef JuhárJán GenčiKarol FurdíkHelena IvoríkováJozef Ivanecký

Page 2: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária
Page 3: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

White Paper Series

THE SLOVAKLANGUAGE IN

THE DIGITALAGE

Séria bielych kníh

SLOVENSKÝJAZYKV DIGITÁLNOMVEKU

Mária Šimková Jazykovedný ústav Ľ. Štúra SAV

Radovan Garabík Jazykovedný ústav Ľ. Štúra SAV

Katarína Gajdošová Jazykovedný ús-

tav Ľ. Štúra SAV

Michal Laclavík Ústav informatiky SAV

Slavomír Ondrejovič Jazykovedný ús-

tav Ľ. Štúra SAV

Jozef Juhár Technická univerzita v Košiciach

Ján Genči Technická univerzita v Košiciach

Karol Furdík Technická univerzita v Košiciach

Helena Ivoríková Studia Academica Slovaca UK

Jozef Ivanecký European Media Laboratory

Georg Rehm, Hans Uszkoreit(redakcia, editors)

Page 4: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

PREDHOVOR PREFACE

Táto biela kniha je súčasťou série, ktorá propaguje is white paper is part of a series that promotesnajnovšie poznatky a potenciál jazykových technológií. knowledge about language technology and its poten-Je určenánovinárom, politikom, jazykovýmspoločnostiam, tial. It addresses journalists, politicians, language com-učiteľoma iným. Veurópskychkrajináchmajú jazykové munities, educators and others. e availability andtechnológie rozličnúúroveň aj využitie. Z tohodôvodu use of language technology in Europe varies betweensú aj opatrenia potrebné na ďalšiu podporu výskumu languages. Consequently, the actions that are requireda vývoja jazykových technológií pre každý jazykodlišné. to further support research and development of lan-Požadované opatrenia závisia od mnohých faktorov, guage technologies also differ. e required actionsakými sú napríklad zložitosť daného jazyka či veľkosť depend on many factors, such as the complexity of ajazykovej komunity. given language and the size of its community.META-NET, sieť excelentnosti, financovaná z fondov META-NET, a Network of Excellence funded by theEurópskej komisie, vypracovala v tejto sérii bielych European Commission, has conducted an analysis ofkníh (s. 85) analýzu súčasných jazykových zdrojov current language resources and technologies in thisa technológií. Analýza zahŕňala okrem 23 oficiálnych white paper series (p. 85). e analysis focuses on theeurópskych jazykov aj iné dôležité národné i regionálne 23 official European languages as well as other impor-jazyky Európy. Výsledky analýzy poukázali na značné tant national and regional languages in Europe. e re-nedostatky v technologickej podpore a na medzery sults of this analysis suggest that there are tremendousvo výskume pre každý jazyk. Podrobnejšia expertná deficits in technology support and significant researchanalýza a zhodnotenie momentálnej situácie pomôže gaps for each language. e given detailed expert anal-maximalizovať efektivitu ďalších výskumov. ysis and assessment of the current situation will helpOdnovembra2011META-NETpozostáva z54 výskumnýchmaximise the impact of future research.centier v 33 krajinách Európy (s. 81). META-NET As of November 2011, META-NET consists of 54spolupracuje so zainteresovanými stranami z oblasti research centres in 33 European countries (p. 81).ekonómie (sovérové spoločnosti, poskytovatelia technológiíMETA-NET is working with stakeholders from econ-apoužívatelia), z oblasti vládnych agentúr, výskumných omy (soware companies, technology providers andorganizácií, nevládnychorganizácií, jazykových spoločenstievusers), government agencies, research organisations,a európskychuniverzít. META-NETspoločne s týmito non-governmental organisations, language communi-komunitami vytvára jednotnú technologickú víziu a ties and European universities. Together with thesestrategický plán výskumu pre multilingválnu Európu communities,META-NET is creating a common tech-2020. nology vision and strategic research agenda for multi-

lingual Europe 2020.

III

Page 5: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

META-NET – [email protected] – http://www.meta-net.eu

Autori tohto dokumentu ďakujú autorom Bielej knihy prenemčinu za povolenie používať vybrané jazykovo nezávislémateriály z ich dokumentu [1].

Táto biela kniha bola financovaná prostredníctvom Siedmeho

rámcového programu a Programu podpory politiky v oblasti

informačných a komunikačných technológií Európskej

komisie na základe dohôdT4ME (Grantová dohoda 249119),

CESAR (Grantová dohoda 271022), METANET4U

(Grantová dohoda 270893) a META-NORD (Grantová

dohoda 270899).

e authors of this document are grateful to the authors ofthe White Paper on German for permission to re-use selectedlanguage-independent materials from their document [1].

e development of this White Paper has been funded by the

Seventh Framework Programme and the ICT Policy Support

Programme of the European Commission under the contracts

T4ME (Grant Agreement 249119), CESAR (Grant Agree-

ment 271022), METANET4U (Grant Agreement 270893)

and META-NORD (Grant Agreement 270899).

IV

Page 6: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

OBSAH CONTENTS

SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU

1 Zhrnutie 1

2 Ohrozenie našich jazykov: Výzva pre jazykové technológie 32.1 Jazykové hranice spomaľujú európsku informačnú spoločnosť . . . . . . . . . . . . . . . . . . . . 42.2 Naše jazyky v ohrození . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Jazykové technológie sú kľúčovými technológiami . . . . . . . . . . . . . . . . . . . . . . . . . . 52.4 Príležitosti pre jazykové technológie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.5 Výzvy pre jazykové technológie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.6 Osvojovanie si jazyka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Slovenčina v európskej informačnej spoločnosti 83.1 Všeobecné fakty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2 Špecifiká slovenčiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Slovenčina na internete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4 Slovenčina ako cudzí jazyk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.5 Slovenský národný korpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Jazykové technológie na podporu slovenčiny 174.1 Architektúra aplikácií . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.2 Základné aplikačné oblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3 Ďalšie aplikačné oblasti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.4 Jazykové technológie vo vzdelávaní . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.5 Štátne programy a iniciatívy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.6 Dostupnosť nástrojov a zdrojov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.7 Porovnanie jazykov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.8 Závery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 O META-NET-e 37

Page 7: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

THE SLOVAK LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 39

2 Languages at Risk: a Challenge for Language Technology 412.1 Language Borders Hold back the European Information Society . . . . . . . . . . . . . . . . . . 422.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.3 Language Technology is a Key Enabling Technology . . . . . . . . . . . . . . . . . . . . . . . . 422.4 Opportunities for Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.5 Challenges Facing Language Technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.6 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 Slovak in the European Information Society 463.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.2 Particularities of the Slovak Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.3 Slovak on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.4 Slovak as a Foreign Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.5 Slovak National Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4 Language Technology Support for Slovak 554.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.3 Other Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.4 Language Technology in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 664.5 National Projects and Initiatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.6 Availability of Tools and Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.7 Cross-language Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.8 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5 About META-NET 74

A Zoznam literatúry -- References 75

B Členovia META-NET-u -- META-NET Members 81

C Séria bielych kníh META-NET-u -- The META-NET White Paper Series 85

Page 8: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

1

ZHRNUTIE

Európa sa počas posledných 60 rokov stala významnoupolitickou a ekonomickou silou, kultúrne a jazykovoje však stále veľmi rôznorodá. To znamená, že odPortugalska po Poľsko a od Talianska po Island je bežnákomunikácia medzi občanmi Európy podobne akokomunikácia v oblasti podnikania a politiky neustálekomplikovaná kvôli jazykovým bariéram. Európskeinštitúcieminú ročne približnemiliardu eur na prekladyinojazyčných textov a na tlmočenie. Nemuselo by to takbyť, ak by moderné jazykové technológie a lingvistickývýskumpomohli prekonať jazykové hranice. Ak vhodnevyužijeme inteligentné zariadenia a aplikácie, budememôcť navzájom diskutovať alebo obchodovať a rôznosťjazykov nebude pre nás prekážkou.

Jazykové technológie predstavujú mosty

Jedným zo spôsobov, ako prekonať jazykové bariéry,je naučiť sa niekoľko cudzích jazykov. Zvládnuť 23oficiálnych jazykov členských štátov EÚ a približne60 ďalších európskych jazykov je však málopravdepodobné. Vďaka technologickej podpore uždokážeme viesť politické aj ekonomické rokovania, akoaj napredovať vo výskume.Riešením mnohojazyčnosti je vybudovanie kľúčovýchtechnológií, ktoré európskym činiteľom ponúknuobrovské výhody, a to nielen v rámci spoločnéhoeurópskeho trhu, ale aj pri obchodných vzťahochs krajinami tretieho sveta, najmä s krajinamirozvíjajúcich sa ekonomík. Aby sme dosiahli tento cieľa zároveň zachovali kultúrnu a jazykovú rozmanitosť,

musíme systematicky analyzovať špecifiká všetkýcheurópskych jazykov, ako aj stav súčasných jazykovýchtechnológií. Navrhnuté riešenia budú mostom medzijazykmi.

Jazykové technológie sú kľúčom do budúcnosti

Rozvoj jazykových technológií pre slovenčinu apočítačového spracovania slovenského jazyka vporovnaní so susednými krajinami značne zaostáva.Napríklad v Českej republike sa výskum spracovaniaprirodzeného jazyka realizuje od polovice 90. rokovminulého storočia a zároveň tu majú jazykovétechnológie silnú komerčnú podporu. Za prvývýznamný krok rozvoja jazykových technológií sana Slovensku považuje vybudovanie Slovenskéhonárodného korpusu na začiatku 21. storočia.Prvé veľké projekty zamerané na jazykové technológiea zdroje na Slovensku boli osobitne schválené afinancované vládou. Išlo o projekty VybudovanieNárodného korpusu sloenského jazyka a elektronizáciajazykovedného výskumu v rokoch 2002 – 2006 aKomplexné spracovanie sloenského jazyka a jehoelektronizácia na účely jazykovedného výskumu.Obidva projekty sa realizovali v Jazykovednom ústaveĽudovíta Štúra Slovenskej akadémie vied. Projektďalej pokračoval pod názvom Budovanie Sloenskéhonárodného korpusu a elektronizácia jazykovednéhovýskumu na Sloensku (druhá etapa) na základe zmluvyo jeho spolufinancovaní medzi Ministerstvom školstvaSR, Ministerstvom kultúry SR a SAV.

1

Page 9: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Ďalším významným projektom v spracovaníslovenského jazyka bol projekt APD – Automatickýprepis diktátu pre Ministersto spraodliosti Sloenskejrepubliky koordinovaný Oddelením analýzy a syntézyreči Ústavu informatiky Slovenskej akadémie vied vspolupráci s Katedrou elektroniky a multimediálnychkomunikácií Technickej univerzity v Košiciach,realizovaný v rokoch 2009–2011. Cieľom bolo vytvoriťsystém na prepis hovoreného slovenského jazyka,špeciálne v oblasti súdnictva. Projekt bol financovanýMinisterstvom spravodlivosti SR. V súčasnosti sasystém začína využívať v pilotnej prevádzke na súdochSlovenskej republiky.Tieto projekty sú na Slovensku doteraz jedinouvýznamnou iniciatívou v oblasti počítačovéhospracovania slovenčiny. Ako uvádza naša séria bielychkníh, úroveň výskumu a stavu jazykových technológiíje na Slovensku v porovnaní s inými európskymikrajinami oveľa nižšia. Preto je nevyhnutné zvýšiťúroveň jazykových technológií pre slovenčinu.

Dlhodobým cieľom META-NET-u je poskytnúťkvalitné jazykové technológie všetkým jazykom, abysa napriek kultúrnym rozdielom dosiahla politickáa ekonomická jednota. Technologické nástroje pomôžuprekonať existujúce bariéry. Všetky zainteresovanéstrany (z oblasti politiky, vedy, obchodu a pod.) bysa mali snažiť o zjednotenie.

Jazykové technológie pomáhajú zjednotiť Európu

Séria bielych kníh dopĺňa aj ďalšie aktivity META-NET-u (pozri prílohu). Aktuálne informácie, napríkladnajnovšie vízie alebo strategický výskumný programMETA-NET-u, sú dostupné na oficiálnej webovejstránke META-NET-u: http://www.meta-net.eu.

2

Page 10: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

2

OHROZENIE NAŠICH JAZYKOV: VÝZVA PREJAZYKOVÉ TECHNOLÓGIE

V poslednej dekáde sme svedkami digitálnejrevolúcie, ktorá má značný vplyv na komunikáciua spoločnosť. Nedávne pokroky v digitálnycha sieťových komunikačných technológiách sa niekedyprirovnávajú ku Gutenbergovmu vynájdeniu kníhtlače.Ako nám môže táto analógia konkrétne priblížiťbudúcnosť európskej informačnej spoločnosti a našichjazykov?

Sme svedkami digitálnej revolúcie, ktorú môžemeprirovnať ku Gutenbergovmu vynálezu kníhtlače

Po Gutenbergovom vynáleze nastal skutočný prelomv komunikácii a výmene poznatkov vďaka takýmsnahám, ako bol napr. Lutherov preklad Biblie dozrozumiteľného jazyka. V ďalších storočiach nastalrozvoj kultúrnych postupov, ktoré rozšírili výmenupoznatkov a zefektívnili spracovávanie jazyka. Zmeny,ktoré nastali:

ortografické a gramatické ustálenie významnejšíchjazykov umožnilo rýchle rozšírenie novýchvedeckých a intelektuálnych ideí;

rozvoj oficiálnych jazykov pomohol obyvateľomkomunikovať v rámci určitých (často politických)hraníc;

vyučovanie a preklad jazykov umožnil výmenupoznatkov medzi jazykmi;

vytvorenie žurnalistických a bibliografickýchpríručiek prinieslo zlepšenie kvality a dostupnostitlačeného materiálu;

vytvorenie rôznych médií, akými sú knihy,noviny, rozhlas, televízia a i. uspokojilo rozmanitékomunikačné potreby.

Za posledných dvadsať rokov pomohli informačnétechnológie automatizovať a uľahčiť celý rad procesov:

DTP sovér nahradil strojopis a sadzbu;

prezentačný sovér, ako napríklad Open/Libre-Office Impress alebo Microso PowerPointnahradili spätný projektor;

zasielanie a prijímanie dokumentov e-mailom jerýchlejšie ako prostredníctvom faxu;

SIP telefónia alebo Skype umožňujú internetovévolania a virtuálne stretnutia;

efektívne kódovanie zvukových a obrazovýchsúborov uľahčuje výmenumultimediálneho obsahu;

nástroje na vyhľadávanie umožňujú na bázekľúčových slov efektívny prístup na webové stránky;

on-line služby, ako napríklad Google Translate,ponúkajú rýchle, aj keď približné preklady;

platformy sociálnych médií (Pokec, Facebook,Twitter, Google a i.) uľahčujú spoluprácua sprístupnenie informácií.

Spomenuté nástroje a aplikácie ľuďom pomáhajú, nov súčasnosti nedokážu dostatočne pokryť potreby

3

Page 11: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

multilingválnej modernej európskej informačnejspoločnosti, v ktorej je neustály tok informácií a tovaru.

2.1 JAZYKOVÉ HRANICESPOMAĽUJÚ EURÓPSKUINFORMAČNÚ SPOLOČNOSŤV súčasnosti nemôžeme presne odhadnúť, aká budeinformačná spoločnosť o niekoľko rokov. Je všakveľmi pravdepodobné, že revolúcia v komunikačnýchtechnológiách spojí ľudí, ktorí hovoria rozličnýmijazykmi, napriek jazykovým bariéram. Momentálnemôžeme cítiť istý tlak na ľudí, aby sa učili cudziejazyky, a najmä na ľudí, ktorí by mali vytvárať novétechnologické aplikácie na zabezpečenie vzájomnéhodorozumenia. V aktuálnej globálnej ekonomikea informačnom priestore sa denne konfrontujemes narastajúcim počtom jazykov, hovoriacimi a novýmitémami. Súčasná popularita sociálnych médií(Wikipedia, Facebook, Twitter, YouTube, Pokec,Google+) je len špičkou tohto pokrokového ľadovca.

V globálnej ekonomike a informačnom priestoresa denne konfrontujeme s rôznymi jazykmi,

hovoriacimi a novými témami

Dnes dokážeme prenášať gigabajty textu po celom sveteza pár sekúnd, hoci sú v jazyku, ktorému nerozumieme.Podľa nedávnej správy, ktorú vydala Európska komisia,57 % používateľov internetu platí za tovar a službyv cudzom jazyku (angličtina je najbežnejšia, hneď za ňounasleduje francúzština, nemčina a španielčina). 55 %používateľov číta obsah v cudzom jazyku, pričom iba35 % používa iný jazyk na písanie e-mailov aleboposielanie komentárov na webe [2]. Pred niekoľkýmirokmi mohla byť angličtina internetová lingua franca,pretože prevažná väčšina materiálov na webe bola

v angličtine. Situácia sa však medzičasom modifikovala– rozrástlo sa množstvo inojazyčného on-line obsahu(najmä ázijského a arabského).Táto digitálna priepasť, ktorá je zapríčinená jazykovýmibariérami, prekvapivo nezískala dostatok pozornostina verejnosti. Digitálny svet si kladie naliehavúotázku: „Ktorým európskym jazykom sa bude dariťv zosieťovanej informačnej a znalostnej spoločnostia ktoré zaniknú?“

2.2 NAŠE JAZYKY V OHROZENÍKníhtlač značne prispela k výmene informácií v Európe,ale napomohla tiež zániku mnohých európskychjazykov. V regionálnych a menšinových jazykoch sadokumenty rozmnožovali zriedkakedy. Výsledkombolo, že mnohé jazyky, ako napríklad rómsky aleborusínsky, sa zredukovali viacmenej len na ústne podanie,čo obmedzovalo ich kontinuálne osvojenie a rozšírenie.Bude mať internet podobný vplyv aj na naše jazyky?

Rôznorodosť jazykov v Európe je súčasťoukultúrneho bohatstva Európy

Približne 80 jazykov je časťou najvzácnejšiehoa najdôležitejšieho kultúrneho bohatstva Európy.Množstvo európskych jazykov je takisto nevyhnutnousúčasťou jej sociálneho úspechu [3]. Zatiaľ čo sabudú populárne jazyky ako angličtina a španielčinav rozvíjajúcej sa digitálnej spoločnosti a na trhuurčite udržiavať, mnohé európske jazyky sa vynechajúz digitálnych komunikácií a pre internetovú spoločnosťsa stanú irelevantné. Takýto vývoj by oslabil európskustabilitu, pretože by bol v rozpore s cieľom zabezpečiťrovnaké postavenie každého európskeho občana bezohľadu na jazykovú príslušnosť. V správe Unescao multilingvizme sa uvádza, že jazyky sú médiomuplatňovania základných ľudských práv, ako je právo

4

Page 12: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

na vyjadrenie politického názoru, vzdelanie a účasťna spoločenskom živote [4].

2.3 JAZYKOVÉ TECHNOLÓGIESÚ KĽÚČOVÝMITECHNOLÓGIAMIV minulosti sa najviac investovalo do jazykovéhovzdelávania a prekladu. Podľa niektorých odhadov sanapríklad v roku 2008 v Európe minulo na preklad,interpretáciu, sovérovú lokalizáciu a internetovúglobalizáciu približne 8,4 miliardy eur, pričom sa rátalos 10-percentným nárastom ročne [5]. Faktom je, žetieto finančné prostriedky napriek tomu nestačia nauspokojenie súčasných ani budúcich potrieb. Najlepšieriešenie pre dostatočný výskum používania jazyka jevýber technológie, ktorú používame aj na riešenieproblémov vdoprave, energetike, sociálnej oblasti a pod.Digitálne jazykové technológie (v písanom ajhovorenom diskurze) pomáhajú ľuďom spolupracovať,podnikať, sprístupňovať vedomosti a zúčastňovať sana sociálnych a politických diskusiách bez ohľaduna jazykové bariéry alebo počítačové zručnosti. Súužitočné v prípade:

vyhľadávania informácií pomocou internetovéhovyhľadávača,

kontroly pravopisu a gramatiky v textovýchprocesoroch,

odporúčania produktu v internetovom obchode,

počúvania inštrukcií automobilového navigačnéhosystému,

prekladu webových stránok prostredníctvom on-line služieb.

Jazykové technológie sa skladajú z niekoľkýchzákladných aplikácií, ktoré sú bázou väčšieho

aplikačného rámca. Účelom bielej knihy META-NET-u je preskúmať stav základných technológií všetkýcheurópskych jazykov.Aby si Európa udržala svoju pozíciu na čeleinovatívneho pokroku, mali by sa jazykové technológieadaptovať dôkladne a cenovo dostupne na všetkyeurópske jazyky a zároveň sa pevne integrovať dokľúčových sovérových prostredí. Bez jazykovýchtechnológií Európa nedosiahne efektívne, interaktívne,multimediálne a viacjazyčné používateľské prostredie.

Európa potrebuje vhodné a cenovo dostupnéjazykové technológie pre všetky európske jazyky

2.4 PRÍLEŽITOSTI PRE JAZYKOVÉTECHNOLÓGIEVoblasti tlače bolo technologickýmzlomomvynájdenietlačiarne. Ľudia sa namáhali pri prácnom vyhľadávaní,čítaní, prekladaní a sumarizácii poznatkov. Čakali smeaž na Edisona, ktorý zachytil hovorenú reč, a jehotechnológia vytvárala stále iba analógové kópie.Digitálne jazykové technológie dokážu vytvoriťautomatický preklad, vygenerovať obsah, spracúvaťinformácie a riadiť vedomostný manažment,ktorý je aplikovateľný na všetky európske jazyky.Jazykové technológie môžu tiež podporovať rozvojpoužívateľských rozhraní pre domácu elektroniku,zariadenia, dopravné prostriedky, počítače či roboty.Hoci existuje mnoho takýchto prototypov, komerčnéa priemyselné aplikácie sú stále iba v prvotnýchštádiách rozvoja. Nedávne úspechy vo výskumea rozvoji vytvorili skutočný priestor na nové možnosti.Povedzme strojový preklad je už primerane presnýv špecifických oblastiach; experimentálne aplikácieposkytujú mnohojazyčnú informáciu a vedomostnýmanažment, ako aj generovanie obsahu v mnohýcheurópskych jazykoch.

5

Page 13: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Ako pri väčšine technológií, aj prvé jazykovéaplikácie, ako napríklad hlasové používateľskérozhrania a dialógové systémy, boli vyvinuté prevysoko špecializované domény a často vykazujúobmedzenú použiteľnosť. Ale v oblasti vzdelávaniaa zábavného priemyslu sú obrovské príležitostina integráciu jazykových technológií do hier,edukačných pomôcok, simulačných prostredí, prípadnevzdelávacích programov. Mobilné informačné služby,sovéry na počítačovú podporu učenia sa jazyka, e-learningové prostredia, nástroje na sebahodnoteniea sovéry na detekciu plagiátorstva sú len zlomkommožností, v ktorých zohrávajú jazykové technológiedôležitú úlohu. Popularita sociálnych aplikácií akoTwitter, Pokec alebo Facebook naznačuje potrebusofistikovanejších jazykových technológií, ktorédokážu monitorovať príspevky, sumarizovať diskusie,navrhnúť názorové trendy, detegovať emocionálnereakcie, identifikovať porušenie autorských práv alebovystopovať zneužitie diela.

Jazykové technológie môžu pomôcť prekonaťbariéry lingvistickej rozmanitosti

Jazykové technológie predstavujú pre Európsku úniuobrovskú príležitosť. Môžu pomôcť pri problematikeviacjazyčnosti v Európe – keďže obchodná sféra,rôzne organizácie či školy sú charakteristické svojounárodnostnou rozmanitosťou. Jazykové technológiemôžu pomôcť prekonať jazykové bariéry vďakaslobodnému a otvorenému používaniu rozličnýchjazykov. Pri pohľade na budúcnosť nám zavedenieinovatívnych amultilingválnych jazykových technológiípre Európu takisto môže pomôcť v komunikáciis celosvetovými partnermi a s ich viacjazyčnýmispoločenstvami. Jazykové technológie možno vnímaťaj ako „podporné“ prostriedky, ktoré prekonávajújazykovú rozmanitosť a zbližujú jazykové spoločenstvá.

Napokon, jedno odvetvie výskumu predstavuje ajpoužívanie jazykových technológií pri záchrannýchakciách v oblastiach postihnutých katastrofami, kdeich použitie môže byť otázkou života a smrti, napríkladbudúce inteligentné roboty s mnohorakými jazykovýmischopnosťami majú potenciál zachraňovať ľudskéživoty.

2.5 VÝZVY PRE JAZYKOVÉTECHNOLÓGIEHoci jazykové technológie za posledné roky napredujú,súčasné tempo technologického vývoja a inovácieproduktov je pomalé. Jazykové technológie so širokýmvyužitím (napríklad kontrola pravopisu a gramatikyv textových editoroch) jestvujú v monolingválnejforme, a preto sú dostupné len pre hŕstku jazykov.On-line služby, ako sú profesionálne aplikáciestrojovýchprekladov, prinášajú so seboumnohé ťažkostiv situáciách, v ktorých sú potrebné veľmi presné a úplnépreklady. Vzhľadom na zložitosť ľudského jazykaa modelovanie nášho jazyka do sovéru je následnétestovanie pridlhé a nákladné a vyžaduje si neustálufinančnú podporu. Ak si chce Európa zachovať svojepostavenie priekopníka v prijímaní technologickýchvýziev viacjazyčnej jazykovej komunity, musí neustálepredkladať novémetódy na urýchlenie technologickéhorozvoja, napríklad progres v oblasti počítačovejtechnológie a techník ako crowdsourcing.

Súčasné tempo technologickéhovývoja je príliš pomalé

2.6 OSVOJOVANIE SI JAZYKAAby sme si vedeli lepšie predstaviť prácu počítačas osvojovaním si jazyka, stručne zhrnieme spôsoby,

6

Page 14: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

akými si ľudia osvojujú prvý a druhý jazyk. Potom sinačrtneme, ako si jazyk osvojujú jazykové technológie.Ľudia si jazyk osvojujú dvoma rozličnými spôsobmi.V prvom prípade sa dieťa učí jazyk tak, že počúvarozhovory medzi hovoriacimi v danom jazyku.Presnejšie, jazykovými vzormi sú preňho používateliajazyka, ako napríklad rodičia, súrodenci alebo inírodinní príslušníci. Dieťa začína produkovať prvé slováa krátke frázy vo veku približne dvoch rokov. Deje sato vďaka špeciálnej genetickej dispozícii imitovať zvukya následne si odôvodniť to, čo počuje.Učenie sa druhého jazyka zvyčajne vyžaduje oveľaviac úsilia, lebo dieťa už nie je súčasťou jazykovéhospoločenstva rodených hovoriacich. V školskomveku sa cudzie jazyky väčšinou osvojujú učenímgramatických štruktúr, slovnej zásoby a pravopisuz kníh a vzdelávacích materiálov, ktoré opisujú jazykovésystémy pomocou abstraktných pravidiel, tabulieka textových ukážok. Učenie sa cudzieho jazyka sivyžaduje veľa času i úsilia a s pribúdajúcim vekom touž nie je také jednoduché.Jazykové technológie nadobúdajú jazykové schopnostipodobným spôsobom ako ľudia. Štatistické prístupyzískavajú jazykové schopnosti z rozmanitého výberukonkrétnych príkladov textov. Tieto algoritmystrojového učenia modelujú istý druh jazykovejschopnosti, ktorá dokáže odvodzovať vzory ako slová,krátke frázy a celé vety používané v jednom jazyku aleboprekladané z jedného jazyka do druhého.

Ľudia si osvojujú jazyk pozorovaním komunikáciea učením sa jazykových pravidiel

Tento štatistický prístup vyžaduje obsah miliónovviet a svoj kvalitatívny výkon zvyšuje s narastajúcimmnožstvom analyzovaných textov. To je jedenz dôvodov, prečo sa prevádzkovatelia vyhľadávačovsnažia získať čo najviac písomnýchmateriálov. Korekcia

pravopisu v textových procesoroch a služby ako GoogleHľadať na webu (oficiálny názov služby) a GoogleTranslate sú závislé od štatistických prístupov. Veľkouvýhodou štatistiky je, že stroj sa učí veľmi rýchlo, hocikvantita nie vždy korešponduje s kvalitou.

Systémy založené na pravidlách sú druhým najväčšímtypom jazykových technológií. Vysoko špecializovaníodborníci z oblasti lingvistiky, počítačovej lingvistikya počítačovej vedy kódujú gramatické analýzy (pravidláprekladu) a zostavujú zoznam slovnej zásoby (lexikóny).Vytvorenie týchto systémov je časovo náročné a prácne.Niektoré z týchto hlavných systémov strojovéhoprekladu založených na pravidlách sa rozvíjajú už viacnež 20 rokov. Ich výhodou je, že odborní pracovnícimôžu systematickejšie kontrolovať spracúvanie jazyka,čo prispieva k oprave prípadných chýb v sovéri. Vďakatýmto systémom sa používateľovi poskytne detailnejšiaspätná väzba, osobitne vtedy, keď sa tieto systémypoužívajú na výučbu jazykov. Z finančných dôvodovsú systémy založené na pravidlách prístupné iba prerozšírenejšie jazyky.

Silné a slabé stránky štatistických systémov a systémovzaložených na pravidlách sa navzájom dopĺňajú.Aktuálny výskum sa sústreďuje na hybridné prístupy,ktoré tieto dva systémy kombinujú. Doteraz sa všakviac uplatnili v priemyselných aplikáciách než v oblastivýskumu.

Ako sme si v tejto kapitole mohli prečítať, v dnešnejinformačnej spoločnosti sa využíva množstvojazykových technológií. Kvôli viacjazyčnosti to platínajmä pre európsky ekonomický a informačný priestor.Jazykové technológie zaznamenali v posledných rokochznačný rozmach. Ich permanentné zdokonaľovanie všakje nevyhnutnosťou.

V nasledujúcich kapitolách opíšeme úlohu slovenskéhojazyka v európskej informačnej spoločnostia zhodnotíme súčasný stav jazykových technológií preslovenský jazyk.

7

Page 15: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

3

SLOVENČINA V EURÓPSKEJ INFORMAČNEJSPOLOČNOSTI

3.1 VŠEOBECNÉ FAKTYSlovenský jazyk patrí – v rámci indoeurópskej rodinyjazykov – spolu s poľštinou, češtinou a lužickousrbčinou k západnej vetve slovanských jazykov.Jazykové, historické a archeologické fakty ukazujú,že slovenčina sa vyvíjala priamo z praslovančiny(nie cez štádium pračeskoslovenčiny). Praslovanskýzáklad slovenčiny sa sformoval v priestore medziKarpatmi, Dunajom a dolnou Moravou, a tov dotyku so západoslovanským areálom na západod tohto priestoru a s východoslovanským areálomna sever a severovýchod. Do tohto priestoru prišliSlovania, predchodcovia Slovákov, v 6. storočíz juhovýchodu. Za základ slovenčiny možnopokladať rekonštruovaný jazyk veľkomoravskéhoetnika členený na nárečia, ale reprezentovaný aj istoukultúrnou podobou. Najbúrlivejší vývin slovenčinaprekonala v 10.–12. storočí, v 13.–15. storočí sapredovšetkým stabilizovala. V 16.–18. storočí sa naúzemí Slovenska používala ako kultúrny jazyk čeština,ale aj niekoľko typov kultúrnej slovenčiny: kultúrnazápadoslovenčina, kultúrna stredoslovenčina a kultúrnavýchodoslovenčina. Od konca 18. storočia sa začínajúpokusy o formovanie spisovnej slovenčiny. AntonBernolák koncom 18. storočia založil svoju kodifikáciuna západnej kultúrnej slovenčine, ale v dôsledkuzmenených spoločenských ahospodárskychpodmienoknemal želaný úspech. Ľudovít Štúr vychádzalzo stredoslovenského základu, ním kodifikovaná

spisovná slovenčina sa ujala a po istých úpravách(Martina Hattalu, Michala Miloslava Hodžu) používaaž dodnes. Slovenský jazyk je štátnym jazykomSlovenskej republiky a od mája 2004 je slovenčinajedným z úradných jazykov EÚ. Po slovensky hovoríokolo štyri a pol milióna obyvateľov Slovenska, viac akomilión vysťahovalcov v USA a okolo 300-tisíc v Českejrepublike. Menšie rečové skupiny sa nachádzajúaj v Maďarsku, Rumunsku, Srbsku, Chorvátsku,Bulharsku, Poľsku, vo Francúzsku, v Nemecku,Belgicku, Rakúsku, Nórsku, Dánsku, vo Fínsku,Švédsku, v Taliansku, vo Švajčiarsku, v Holandsku,na Cypre, v Rusku a na Ukrajine, v Kirgizsku, Izraeli,Kanade, Juhoafrickej republike, Argentíne, Brazílii,Uruguaji, Austrálii, na Novom Zélande, vo VeľkejBritánii a v niektorých ďalších krajinách. Slovenčinaje známa ako „esperanto“ slovanských jazykov, vnímasa ako najzrozumiteľnejšia aj pre používateľov inýchslovanských jazykov.

Slovenčina je známa ako „esperanto“slovanských jazykov

Slováci v zahraničí predstavujú rôzne skupiny: súto potomkovia pôvodných obyvateľov Slovenska,ktorí odchádzali do iných oblastí bývalého Rakúsko-Uhorska, potomkovia novších vysťahovalcov zoSlovenska v zámorí (emigrantské vlny od konca19. do polovice 20. storočia), politicko-ekonomickí

8

Page 16: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

emigranti po r. 1945, resp. 1948 a po r. 1968a ich potomkovia, napokon prevažne mladí ľudiausídlení v zahraničí po r. 1990. Odhaduje sa, že priposlednej emigrantskej vlne v r. 2007–2008 odišlodo zahraničia asi 270-tisíc Slovákov. Osobitnúskupinu predstavujú potomkovia Slovákov, ktorí ostaliza hranicami Slovenska po politicko-geografickýchzmenách po r. 1918, resp. 1945. Na Slovensku zároveňžijú národnostné menšiny (Maďari, Rómovia, Česi,Rusíni, Ukrajinci,Nemci, Poliaci,Moravania, Chorváti,Bulhari, Židia), ktoré spolu tvoria 14,2 % obyvateľovSlovenska. Používanie štátneho jazyka a jazykovmenšínna území Slovenska upravuje Zákon o štátnom jazykua Zákon o používaní jazykov národnostných menšín.

Slovenský jazyk má viacero foriem: spisovná slovenčinaje predovšetkým jazykom písanej podoby a úradnej,oficiálnej komunikácie, hovorová slovenčina ještandardnou podobou predovšetkým hovorenejkomunikácie. V každej forme sú osobitné podskupiny,ktoré tvoria stratifikačný systém slovenčiny: spisovnáforma/celoslovenská štandardná forma/celoslovenskásubštandardná forma/regionálne varianty/lokálnevarianty, teritoriálna forma (nárečia), sociálne formy(slangy, žargóny, argoty, profesionálne jazyky). Zareguláciu jazyka a jazykovú politiku bolo v dobe písaniatohto dokumentu zodpovedné Ministerstvo kultúrySR (Zákon o štátnom jazyku SR, Ústredná jazykovárada). Vo svojich rozhodnutiach by sa malo opieraťo poznatky a názory vedeckej a odbornej obce, naktorej čele stojí Jazykovedný ústav Ľudovíta ŠtúraSlovenskej akadémie vied (ďalej JÚĽŠ SAV). JÚĽŠ SAVje zriaďovateľom a koordinátorom činnosti viacerýchkomisií s celoslovenskou pôsobnosťou: pravopisnákomisia, ortoepická komisia, onomastická komisiaa kodifikačná komisia. Jednotlivé komisie pripravujúa odporúčajú kodifikáciu ortoepickej, pravopisnej,gramatickej a lexikálnej normy. Pravopisné pravidláprechádzajú osobitnou diskusiou aj so zapojením širšej

verejnosti, ale vzhľadom na vzájomnú prepojenosťmnohých faktorov a celospoločenský dosah každejzmeny sa nemenia príliš často. Posledné zmeny najmäv oblasti pravidla o rytmickom krátení a v písaníveľkých písmen sa udiali v r. 1991. V lexikografickýchpríručkách, ktoré vznikajú v JÚĽŠ SAV a z rôznychhľadísk opisujú slovnú zásobu slovenčiny (Krátkyslovník slovenského jazyka, Slovník súčasnéhoslovenského jazykaA–G,H–L, Synonymický slovník,Slovník cudzích slov – akademický [6, 7, 8, 9, 10]), saokrem pravopisnej normy zachytáva aj lexikálna a sčastiaj gramatická a ortoepická norma. Stav slovenčiny vrôznych jej podobách mapujú aj osobitné monografie aštúdie v časopisoch vydávaných JÚĽŠ SAV.Územné usporiadanie Slovenska (územie s rozlohounecelých 50-tisíc km² je situované najmä na dĺžku, ktorádosahuje od východnej po západnú hranicu takmer430 km) a špecifiká jednotlivých nárečí ovplyvňujúaj podobu slovenčiny v jednotlivých regiónocha lokalitách, s čím sa musia vyrovnávať predovšetkýmcudzinci učiaci sa slovenčinu a pohybujúci sa na územíSR.

3.1.1 Slovenské nárečia

Slovenské nárečia predstavujú dorozumievacíprostriedok autochtónneho obyvateľstva príslušnýchnárečových oblastí v každodennom spoločenskoma pracovnom styku s najbližším okolím. Slovenskénárečia sa doteraz dedia z generácie na generáciu v ústnejpodobe, hoci aj tu dochádza v porovnaní s minulosťouk procesu nivelizácie.Slovnú zásobu jednotlivých nárečí na území Slovenskaopisuje Slovník slovenských nárečí, podrobnejšiea v rozšírení na ďalšie jazykové roviny sú viaceré nárečiaopísané v samostatných monografiách.Slovenské nárečia sa členia na tri základné skupiny(pozri obrázok 1):

a) Západoslovenské nárečia sú rozšírené v trenčianskej,

9

Page 17: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

1743

42

1814

1210

11

40 40

4041

41 41

34

353331

3230

20

4243

43 43

2442

25 23 15

2622

2113

16

42

1: Mapa slovenských nárečí

nitrianskej, trnavskej, myjavskej oblasti a v ďalšíchregiónoch.

20. Hornotrenčianske nárečia

21. Dolnotrenčianske nárečie

22. Považské nárečie

23. Stredonitrianske nárečia

24. Dolnonitrianske nárečia

25. Nárečia trnavského okolia

26. Záhorské nárečia

b) Stredoslovenskými nárečiami sa hovorí v regiónochLiptov, Orava, Turiec, Tekov, Hont, Novohrad,Gemer a vo zvolenskej oblasti.

10. Liptovské nárečia

11. Oravské nárečia

12. Turčianske nárečie

13. Hornonitrianske nárečia

14. Zvolenské nárečia

15. Tekovské nárečia

16. Hontianske nárečie

17. Novohradské nárečia

18. Gemerské nárečia

c) Východoslovenské nárečia možno nájsť v regiónochSpiš, Šariš, Zemplín a Abov.

30. Spišské nárečia

31. Abovské nárečia

32. Šarišské nárečia

33. Zemplínske nárečia

34. Sotácke nárečia

35. Užské nárečia

40. Oblasť goralských nárečí

41. Oblasť ukrajinských nárečí

42. Nárečovo rôznorodé oblasti

43. Oblasť maďarských nárečí

Tieto skupiny sa ďalej bohato a pestro členia („Čodedina, to reč iná“), pričom členitosťou sa nárečiavyznačujú predovšetkým v hornatých oblastiach.

10

Page 18: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Práve hornatosť krajiny spôsobovala v minulosti istú(rečovú) izolovanosť obyvateľstva v rámci jednotlivýchžúp. Pod tieto špecifiká sa podpísalo ďalej ajprevrstvovanie a migrácia obyvateľstva, kolonizácie,miešanie odlišných nárečových typov, pôsobeniesusedných slovanských i neslovanských jazykov, zmenyv zamestnaní obyvateľstva a pod. Podľa povahynárečí a výskytu jednotlivých charakteristických javovmožno zaradiť do uvedených skupín aj slovenskénárečia v Maďarsku, Srbsku, Chorvátsku, Rumunsku,Bulharsku a v iných krajinách, kam sa v minulostipresídlili veľké kompaktné skupiny. Pri menšom počtestarých písomných pamiatok sú slovenské nárečiazákladným prameňom slovenskej historickej gramatiky.

3.2 ŠPECIFIKÁ SLOVENČINYSlovenčina sa začala samostatne vyvíjať priamoz praslovančiny od 10. storočia. Hlavné zmenyv nej prebehli a ustálili sa do 15. storočia, niektorérovnomerne (zánik nosoviek), iné diferencovane(vokalizácia tvrdých jerov vo východnej a západnejčasti dnešného Slovenska bola západoslovanskéhotypu, v centrálnej časti nezápadoslovanského typu).Súčasťou týchto zmien bol aj rozpad praslovanskejstavby slabiky, čo ovplyvnilo zmeny v skloňovanía časovaní. Aj keď sa slovenčina a čeština dlhý čas vyvíjaliza rozdielnych podmienok (Slovensko sa v 11. storočístalo súčasťouUhorského kráľovstva), ostali si navzájomblízke. Niektoré špecifické črty slovenského jazyka(formy lakeť, Česi, prípona -m pri slovesách v prvejosobe jednotného čísla atď.) však súčasne existujúaj v jazykoch južných Slovanov. Niektorými menejdôležitými charakteristikami slovenčina pripomínapoľštinu (predpona pre- na rozdiel od českého pro-, zachovanie spoluhlásky dz a niekoľko výrazov,napríklad teraz, pivnica). Inými charakteristikami sablíži k východoslovanským jazykom. Hovorí sa pretoo centrálnej pozícii slovenčiny medzi slovanskými

jazykmi a o dobrej zrozumiteľnosti slovenčiny prepríslušníkov ostatných slovanských národov.Slovenčina používa upravené latinské písmo. Keďže preniektoré slovenské hlásky v latinskej abecede chýbajúosobitné písmená, slovenská abeceda si vypomáhadiakritickými znamienkami. Mäkkosť konsonantovsa zaznačuje mäkčeňom (ď, ť, ň, ľ, používa sa aj prigrafémach ž, š, č, dž), dĺžka vokálov, resp. konsonantovdĺžňom (á, é, í, ý, ó, ú, ŕ, ĺ ). Vokály nepodliehajúredukcii, v každej pozícii sa vyslovujú v plnej forme.Okrem samohlások a spoluhlások existujú v slovenčinetakzvané i-dvojhlásky (ia, ie, iu) a jedna u-dvojhláska(/u

"

o/, píše sa ô; /ou"

/ sa nepovažuje za dvojhlásku),pričom prvý úsek sa vyslovuje ako polosamohláska.

Niektoré špecifické črty slovenského jazykaexistujú aj v jazykoch južných Slovanov

Fonetickým špecifikom štandardnej slovenčiny(a stredoslovenských dialektov) je takzvaný rytmickýzákon, podľa ktorého by vedľa seba nemali byť dve dlhéslabiky (pekný – krásny, prosím – smútim). Slovenčinamá prízvuk viazaný na prvú slabiku slova, ktorý nieje príliš silný (slabší ako v ruštine alebo v poľštine).V predložkových frázach s jednoslabičnou predložkousa prízvuk zvyčajne kladie na predložku: pri škole.

Slovenčina používa upravené latinské písmo

Slovenčina má v porovnaní s ruštinou, alenapríklad aj s češtinou, jednoduchšiu štruktúruskloňovacích a časovacích paradigiem. Tvarovýsystém substantívnych a slovesných foriem je všaknapriek unifikačným tendenciám dostatočne jasnečlenený. Slovenský jazyk má šesť gramatickýchpádov (nominatív, genitív, datív, akuzatív, lokála inštrumentál). Vokatív sa v slovenčine na rozdiel

11

Page 19: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

od češtiny aktívne nevyužíva, zvyčajne je identickýs nominatívom. Slovenčina rozoznáva 4 rody: mužskýživotný a mužský neživotný, ženský a stredný rodpodstatných mien a súvisiacich prídavných mien,zámen a čísloviek. Mužský a ženský rod sa priživotných konkrétach určuje podľa prirodzeného rodu,v ostatných prípadoch je to vec konvencie, ktoránie je signalizovaná nijakým členom, iba niekedyzakončením (napr. strom – masculínum inanimatum,jabloň – feminínum, jablko – neutrum). Pre každýrod sú v školských učebniciach uvedené viaceré vzory,ktorých paradigmy sa odlišujú najmä v G/A sg. a N/Gpl. (napr. mužský životný chlap / chlapa / chlapi /chlapov, hrdina / hrdinu / hrdinovia / hrdinov; žena/ ženy / ženu / ženy / žien, dlaň / dlane / dlaň / dlane/ dlaní). Súčasne je v niektorých vzoroch a pádochznačná pádová homonymia: G a A sg. životnýchmaskulín, N a A sg. neživotných maskulín, v ženskomrode G sg. a N pl. a pod. Medzi vzormi sú možnéprechody, napr. ženský vzor kosť je v súčasnostiproduktívnejší ako vzor dlaň. Slová zaradené k istémuvzoru sa odneho často odlišujú, čo sa rieši vymenovanímvýnimiek; vo vedeckých a počítačovo-lingvistickýchprácach sa však uvádza oveľa väčší počet vzorov [11,12, 13].

Pri slovesách sa rozlišujú tri časy: minulý, prítomnýa budúci. Okrem troch slovesných spôsobov –indikatívu, imperatívu a kondicionálu – má väčšinaslovies jeden z nasledujúcich vidov – nedokonavý(olať ) a dokonavý (zaolať ). Slovenčina je silneflektívny jazyk s prvkami analytických konštrukcií(hlavne v slovesných formách ako budem písať, bol bysom prišiel). Gramatickú funkciu slova jasne určujeskloňovanie, slovosled vety je teda pomerne voľný.V syntaktickej typológii slovenčinu charakterizujezákladná konštrukcia S(ubjekt) – V(erbum) –O(bjekt), ide však skôr o teoretickú schému, ktoráv praxi nadobúda rozličné formy v dôsledku voľného

slovosledu. Jednoznačnému určeniu S a O napomáhajúpády (S je v N, O je zvyčajne v A alebo G, D,zriedkavejšie v ostatných pádoch), homonymia tvarovvšakmôže spôsobiť neistotu v obsadení funkcie subjektua objektu (najmä pri cudzích vlastných menách, alev školskej praxi a v počítačovej analýze vo viacerýchďalších prípadoch).

Osobitné problémy cudzincom a počítačovémuspracovaniu slovenčiny robia slovesné morfémy sa, si,ktoré môžu stáť pred slovesom alebo za ním, a to ajvo vzdialenosti viacerých slov či dokonca v inej častirozdelenej vety v súvetnej štruktúre (Netrvalo dlho, keďsa im ich hviezda, ktorú predtým videli v diaľke, zrazupriblížila). V slovenčine sú najčastejšie dvojčlennéfrázy so subjektom (agensom), ale často sa používajúaj jednočlenné frázy bez agensa (Prší. – Prišlo mu zle. –Na stavbe sa tvrdo pracuje.). Subjekt známy z kontextua tvaru prísudkového slovesa sa formálne nevyjadruje(Našiel som ho.), jeho prítomnosť vo vete v podobeosobného zámena je pre slovenčinu príznaková (Ja somho našiel!).

3.3 SLOVENČINA NAINTERNETENa konci roka 2010 bola veľkosť slovenskej internetovejpopulácie približne 2 394 000, čo je viac ako 44%všetkých Slovákov. V prípade mladšej generácieje toto percento omnoho vyššie, keďže mladí ľudiatrávia počas dňa mnoho času na internete. Dokonca roka 2010 prekročil počet slovenských doménhranicu 231-tisíc [14]. Podiel .sk domén na svetovominternete bol na konci roka 2010 približne 1‰(počet všetkých domén podľa http://www.verisigninc.com dosahoval približne 200 miliónov). Na internetesa slovenčina s diakritikou objavila v polovici 90. rokov20. storočia. Sféra internetovej komunikácie a texty,ktoré sa na internete nachádzajú, sú zaujímavé z hľadiska

12

Page 20: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

výskumuprirodzeného jazyka, ale aj z hľadiskamožnostizberu štatistických materiálov. Internet je aj miestomvyužívania rôznych aplikačných oblastí, ktoré ako zdrojvyužívajú jazykové dáta.

Rovnako ako pri mnohých iných európskych jazykoch,aj pre začiatky používania slovenčiny na internete(a všeobecne vo výpočtovej technike) bolo typickévynechávanie diakritiky. Kvôli zmätkom s kódovanímznakov na konci 80. a začiatkom 90. rokov 20. storočiaa nedostatočnej sovérovej podpore rozličnýchznakových kódovaní začal „správny“ pravopis nainternete prevládať až koncom 90. rokov. V súčasnosti,pri takmer univerzálnompoužívaní kódovaniaUnicodea UTF-8, neexistujú žiadne nevyriešené problémya diakritika sa používa univerzálne (v neformálnychkontextoch, napr. v e-mailoch a na diskusných fóracha hlavne v SMS správach sa však bežne používaslovenčina bez diakritiky).

Osobitnou kategóriou sú bilingválne slovníky,ktoré sú voľne prístupné slovenským používateľominternetu na troch veľkých slovenských portáloch(azet.sk, centrum.sk, zoznam.sk).

Spoločnosť Google vyvíja voľne dostupný automatickýprekladač textov z rôznych jazykov do slovenčinya naopak. Miera správnosti je však v prípade väčšinyjazykov nízka. Zaujímavý je vzájomný preklad medziblízkopríbuznými jazykmi slovenčina-čeština a čeština-slovenčina, kde je úspešnosť a správnosť prekladupomerne dobrá. Samozrejme, aj tento preklad jemiestami nesprávny, ale je omnoho úspešnejší akopreklad medzi slovenčinou a angličtinou, nemčinou,francúzštinou a inými rozšírenými jazykmi.

O využívaní internetových zdrojov používateľmislovenského internetu svedčí aj vyše 60-tisíc slovenskýchregistrovaných používateľov internetovej encyklopédieWikipédia v slovenskom jazyku. Slovenská Wikipédiaobsahuje vyše 285-tisíc článkov.

3.4 SLOVENČINA AKO CUDZÍJAZYK3.4.1 Slovak Online

Slovak Online [15] je projekt umožňujúci bezplatnéštúdium slovenského jazyka prostredníctvom e-learningu na webovom portáli. Ponúkané jazykovékurzy rôznych úrovní (minikurz pre turistov, kurzyA1 a A2 podľa Spoločného európskeho referenčnéhorámca) sú rozdelené do tematických kapitol a doplnenéaudio a videonahrávkami a cvičeniami. Stránkaobsahuje aj prehľad slovenskej gramatiky a pravopisu,prekladový slovník a jazykové hry. Sprístupňujúsa tu takisto základné informácie a zaujímavostio Slovensku a slovenčine, knižnica s ukážkami dielslovenských autorov a možnosť komunikácie medzizaregistrovanými používateľmi formou textových správ.

Cieľovou skupinou sú cudzinci, partneriv zmiešaných manželstvách, obyvatelia

pohraničných oblastí, Slováci žijúci v zahraničí,slovakisti, slavisti a ďalší záujemcovia

Cieľovou skupinou projektu sú cudzinci žijúci naúzemí Slovenska, partneri v zmiešaných manželstvách,obyvatelia pohraničných oblastí, Slováci žijúciv zahraničí, slovakisti a slavisti, imigranti, študentia turisti. V súčasnosti stránka existuje v nemeckej,anglickej, esperantskej, francúzskej, litovskej, poľskeja slovenskej verzii.Projekt, ktorý je prvým svojho druhu, vznikolna základe skúseností získaných prevádzkou stránkylernu! [16], najväčšieho portálu na učenie sa jazykaesperanto. Projekt Slovak Online podporila Európskakomisia v rámci programu KA2 – languages – programceloživotného vzdelávania. Realizátorom projektu jeobčianske združenie Edukácia@Internet (Slovensko),partnermi sú Jazykovedný ústav Ľudovíta Štúra SAV

13

Page 21: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

(Slovensko), Studio GAUS (Nemecko), Vilniausuniversitas (Litva), Wyższa Szkoła Informatyki,Zarządzania i Administracji w Warszawie (Poľsko)a Slovak Centre London (Spojené kráľovstvo VeľkejBritánie a Severného Írska).

3.4.2 Studia Academica Slovaca

Studia Academica Slovaca – centrum pre slovenčinuako cudzí jazyk (SAS) je špecializovaným pracoviskomFilozofickej fakulty Univerzity Komenského (FFUK) v Bratislave. Ťažiskom pedagogickeja vedeckovýskumnej činnosti je vzdelávaniezahraničných záujemcov o slovenský jazyk a kultúru,propagácia slovenskej vedy, kultúry a umeniav zahraničí, realizácia a koordinácia výskumu slovenčinyako cudzieho jazyka, riešenie medzinárodnýcha domácich vedeckovýskumných projektov a edičnáčinnosť zameraná na tvorbu a vydávanie vedeckýchslovakistických publikácií a učebníc slovenčinyako cudzieho jazyka. Okrem toho SAS akoodborné centrum pre slovenčinu ako cudzí jazyk užtradične participuje na odborno-metodickej prípravelektorov slovenčiny ako cudzieho jazyka pôsobiacichna zahraničných univerzitách. Výsledkom spolupráces lektorátmi a zahraničnými slovakistami je databázaslovakistiky v zahraničí.

Ťažiskom činnosti je vzdelávaniezahraničných záujemcov, propagácia

slovenskej vedy, kultúry a umenia

Osobitnou zložkou činnosti centra je každoročnáorganizácia a realizácia letnej školy slovenskéhojazyka a kultúry Studia Academica Slovaca, ktorúFF UK ponúka zahraničným záujemcom už odroku 1965. Na jej úspešnú históriu nadviazaloMetodické centrum SAS (1992), ktoré sa v roku 2006pretransformovalo na SAS – centrum pre slovenčinu

ako cudzí jazyk. Za takmer polstoročie existencieSAS využilo služby tejto inštitúcie takmer šesťtisíczahraničných záujemcov o slovenský jazyk, kultúrua slovenské reálie z viac ako 50 štátov sveta. Napôde Studia Academica Slovaca boli položené základyvedeckého opisu a didaktiky slovenčiny ako cudziehojazyka a vznikli tu prvé učebnice a príručky slovenčinypre cudzincov. Vzhľadom na svoju bohatú tradíciua skúsenosti v súčasnosti pôsobí SAS ako koordinačnéa informačné centrums celoslovenskou a exteritoriálnoupôsobnosťou. V roku 2006 centrum SAS získaloakreditáciu Ministerstva školstva Slovenskej republikyna poskytovanie vzdelávacích aktivít Slovenčina akocudzí jazyk – jazykový kurz v kontaktnej a dištančnejformepre všetky stupne jazykového vzdelávania, a to prezačiatočníkov A1, A2, mierne a stredne pokročilých B1,B2 a pokročilých C1, C2, ktorých obsah je publikovanýv tlačenej verzii [17] a takisto na webovej stránke [18].

Na základe grantu Ministerstva školstva Slovenskejrepubliky sa v rámci projektu Vzdelávací programSlovenčina ako cudzí jazyk ponúka záujemcom oslovenský jazyk e-learningový kurz slovenčiny [19]pre 1. stupeň A1 (úplný začiatočník) a 2. stupeňA2 (začiatočník). Cieľom projektu je tvorba obsahua foriem jazykového vzdelávania cudzincov prejednotlivé stupne podľa Spoločného európskehoreferenčného rámca pre jazyky, ako aj špecifikáciajednotných kritérií hodnotenia a certifikácie jazykovejkompetencie. Hlavnou náplňou je prípravaštandardných a špecializovaných učebných materiálovpre študentov a metodických príručiek pre učiteľov.Každoročne sa koná odborno-metodický seminár preučiteľov základných a stredných škôl v zahraničí, ako ajpre lektorov pôsobiacich na zahraničných univerzitáchs cieľom informovať o novinkách v oblasti lingvistiky,literatúry, kultúry a didaktiky slovenčiny ako cudziehojazyka.

14

Page 22: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Za realizáciu projektu, ktorý rieši kolektív StudiaAcademica Slovaca, Vzdeláací program Sloenčina akocudzí jazyk, získala Filozofická fakulta UK ocenenieiniciatívy Európskej komisie v oblasti jazykovéhovzdelávania Európska značka 2007.

3.4.3 Letná škola slovenského jazykaa kultúry Studia Academica Slovaca

Letná škola slovenského jazyka a kultúry StudiaAcademica Slovaca (SAS) je určená zahraničnýmslovakistom a slavistom, študentom na zahraničnýchuniverzitách, kultúrnym pracovníkom, manažérom,lektorom, prekladateľom a všetkým záujemcomo štúdium slovenského jazyka a kultúry. Cieľom kurzuje získanie a prehĺbenie komunikačnej kompetenciev slovenskom jazyku na rôznych stupňoch a rozšíreniepoznatkov zo slovenskej lingvistiky, literatúry, históriea kultúry.

Letná škola SAS je najstaršou letnou univerzitouna Slovensku - existuje od roku 1965 a od roku1966 pod názvom Studia Academica Slovaca. SASsi od svojho vzniku kontinuálne zachováva profilslovakistických akademických štúdií. Letnú školuSAS každoročne absolvuje približne 150 frekventantovz viac ako 30 krajín sveta. Na príprave a realizáciivzdelávacieho programu sa podieľajú vysokoškolskípedagógovia a lektori odborne vyškolení v oblastislovenčiny ako cudzieho jazyka, z ktorých mnohí majúskúsenosti aj z pôsobenia na lektorátoch zahraničnýchuniverzít.

Cieľom je získanie a prehĺbenie komunikačnejkompetencie v slovenskom jazyku

3.5 SLOVENSKÝ NÁRODNÝKORPUS

Celosvetový trend rozvoja jazykových a informačnýchtechnológií a potreba zodpovedajúcej materiálovej bázypre koncipovanie slovníkov a opis slovenského jazykapodnietil vznik korpusov a korpusovej lingvistiky aj naSlovensku. V r. 2002 vzniklo s podporou Ministerstvakultúry SR (program starostlivosti o štátny jazyk),Ministerstva školstva SR (informatizácia a využívanieinovatívnych metód vo výučbe) a Slovenskej akadémievied oddelenie Slovenského národného korpusuJazykovedného ústavu Ľ. Štúra SAV (SNK JÚĽŠSAV). Kolektív ôsmich, prevažne mladých vedeckých,odborných a technických pracovníkov bol poverenýriešením úlohy Budovanie Slovenského národnéhokorpusu a elektronizácia jazykovedného výskumu naSlovensku [20].

V začiatkoch budovania pracoviska, korpusovejdatabázy a špecifických nástrojov na jej tvorbua využívanie sa na pôde oddelenia SNK konalipravidelné vedecké semináre, na ktorých prednášalivýznamní zahraniční odborníci. Vybrané príspevkyboli zhrnuté do publikácie Insight into the Sloakand Czech Corpus Linguistics [21]. Od r. 2005organizuje kolektív SNK bienálnu medzinárodnúkonferenciu Slovko [22] o počítačovom spracovaníprirodzených jazykov a korpusovolingvistickýchvýskumoch. Na podujatí sa pravidelne zúčastňujúdomáci aj zahraniční bádatelia (z Bulharska, Česka,Francúzska, Chorvátska, Maďarska, Nemecka, Poľska,Rakúska, Ruska, Slovinska, Španielska, Ukrajiny a i.).V zborníkoch z týchto konferencií je publikovanýchvyše sto príspevkov o príprave, riešení a výsledkochnárodných a medzinárodných projektov v oblastibudovania a využívania všeobecných i špecifickýchkorpusov a databáz, v oblasti analýzy a syntézy reči,automatizovaného prekladu, počítačovej lexikografie

15

Page 23: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

a termínografie, e-learningu a pod.Pracovníci oddelenia SNK JÚĽŠ SAV sa doterazzapojili do 7 projektov v rámci Slovenska a do 6medzinárodných projektov a spoluprác [23]. V r. 2005získali Cenu SAV za budovanie infraštruktúry pre vedu.

3.5.1 Korpus písaných textov

Primárny, všeobecný korpus prim obsahuje textyv slovenskom jazyku, ktoré vznikli po r. 1955.Zastúpené sú tri hlavné štýly: publicistický, umelecký,odborný (populárno-náučný), ako aj rôzne žánre a vecnéoblasti. Texty sú z celého Slovenska i od Slovákovžijúcich v zahraničí, originálne slovenské aj preloženéz iných jazykov. Na špecifické výskumy sa z hlavnéhokorpusu prim-*-all tvoria samostatné podkorpusy:

sane – neobsahuje lingvistické texty, texty bezdiakritiky, texty od zahraničných Slovákov a pod.;

vyv – publicistické, umelecké a odborné texty súzastúpené tretinovým podielom;

inf – iba publicistické texty;

prf – iba odborné texty;

img – iba umelecké texty;

skimg – iba pôvodné slovenské umelecké texty.

Použitie textov v Slovenskom národnom korpuse sariadi ustanoveniami slovenského autorského zákona.Textom a textovým jednotkám v korpuse sa štandardnepriraďuje vonkajšia: bibliografická a štýlovo-žánrováanotácia [24] a vnútorná, morfologická alebomorfosyntaktická anotácia [25]. Všetky slová súlematizované.

3.5.2 Slovenský hovorený korpus

Databáza hovoreného korpusu [26] obsahuje zvukovézáznamy spontánnych aj (polo)pripravených prejavovz celého územia Slovenska a ich textové prepisy.

V prepisoch sú výberovo zachytené špecifické vlastnostihovorenej reči: nepravidelná štruktúra výpovede,výslovnostné varianty, prostriedky modulácie reči,prítomnosť nejazykových prvkov. Slovenský hovorenýkorpus poskytuje materiál na výskum a opis reálnejpodoby súčasnej štandardnej hovorenej slovenčiny.

3.5.3 Slovenská terminologická databáza

V Slovenskej terminologickej databáze [27]sa nachádzajú slovenské termíny a relevantnéterminologické informácie z viacerých disciplín.Databáza slúži na ustaľovanie a zjednocovanieterminologických sústav na základe spolupráceodborníkov z príslušných vecných oblastí a lingvistov,jej cieľom je sumarizácia a štandardizácia terminológiena Slovensku. Termíny sa do databázy získavajúaj zo špecializovaných odborných korpusov (korpusprávnych textov, korpus ekonomických textov a pod.).

3.5.4 Paralelné korpusy

V rámci Slovenského národného korpusu je aktuálneprístupný slovensko-ruský [28], slovensko-francúzsky[29], slovensko-anglický [30] a slovensko-český [31]paralelný korpus.

3.5.5 Lingvistické zdroje

Najznámejším a najvyužívanejším produktomelektronizácie jazykovedného výskumu na Slovenskuje bezplatne prístupný súbor elektronickýchverzií aktuálnych vydaní Krátkeho slovníkaslovenského jazyka, Pravidiel slovenského pravopisu,Synonymického slovníka slovenčiny, Slovníka cudzíchslov, staršieho Slovníka slovenského jazyka [32], akoaj ďalších slovníkových diel, monografií, zborníkova lingvistických časopisov [33]. Do databázylingvistických zdrojov smeruje v priemere 40 000dopytov denne.

16

Page 24: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

4

JAZYKOVÉ TECHNOLÓGIE NA PODPORUSLOVENČINY

Jazykové technológie sú informačné technológie,ktoré sa zameriavajú na prácu s ľudským jazykom,preto sa tieto technológie často zaraďujú pod pojemľudské jazykové technológie. Ľudský jazyk existujev hovorenej a písomnej forme. Kým reč je najstaršía najprirodzenejší spôsob jazykovej komunikácie,komplexné informácie a súhrn ľudského poznaniasa zaznamenávajú a prenášajú vo forme písomnýchtextov. Rečové a textové technológie spracúvajú aleboprodukujú jazyk v uvedených dvoch formách. Avšakjazyk má aj črty, ktoré sú spoločné pre -hovorenúaj písanú formu, napr. slovníky obsahujú zväčšagramatiku, ale zároveňopisujú aj významviet. Veľkú časťjazykových technológií teda nemožno zaradiť výlučnepod rečovú alebo textovú technológiu. Znalostnétechnológie sú technológie, ktoré spájajú jazyks vedomosťami. Obrázok2 znázorňuje záber jazykovýchtechnológií. V našej komunikácii miešame jazyks inými druhmi komunikácie a ďalšími informačnýmimédiami. Reč kombinujeme s gestami a výrazmi tváre.Texty je možné kombinovať s obrázkami a zvukmi.Filmy môžu obsahovať jazyk v hovorenej aj písomnejforme. Rečové a textové technológie sa teda prekrývajúa pôsobia v interakcii smnohýmiďalšími technológiami,ktoré uľahčujú spracovaniemultimodálnej komunikáciea multimediálnych dokumentov. V tejto časti sabudeme zaoberať hlavnými aplikačnými oblasťamijazykových technológií, ako sú kontrola pravopisu,vyhľadávanie na webe, syntéza reči a strojový preklad.

Tieto aplikácie a základné technológie zahŕňajú:

opravu pravopisu

systém autorskej podpory

výučbu cudzích jazykov s využitím informačnýchtechnológií

získavanie informácií

extrakciu informácií

sumarizáciu textu

zodpovedanie otázok

rozpoznávanie reči

syntézu reči.

O jazykových technológiách, o ktoré sa zaujíma aj vedaa výskum, existuje značné množstvo literatúry. Čitateľsi ju v prípade záujmu môže vyhľadať v referenciách:[34, 35, 36, 37, 38].Predtým ako sa budeme zaoberať spomínanýmiaplikačnými oblasťami, stručne opíšeme architektúrutypického systému jazykových technológií.

4.1 ARCHITEKTÚRA APLIKÁCIÍTypické sovérové aplikácie na spracovanie jazyka saskladajú z niekoľkých zložiek, ktoré odrážajú rôzneaspekty jazyka a úlohu, ktorú plnia. Obrázok 3zobrazuje veľmi zjednodušenú architektúru, ktorúmožno nájsť v systéme na spracovanie textu. Prvé trimoduly sa zaoberajú štruktúrou a významom textovéhovstupu:

17

Page 25: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Multimediálne & multimodálne technológie

Jazykové technológie

Technológie spracovania hovoreného jazyka

Technológie spracovania textu

Znalostné technológie

2: Záber jazykových technológií

Predbežné spracovanie: vyčistenie dát, odstránenieformátovania, detekcia vstupného jazyka, detekciachýbajúcej diakritiky atď.

Gramatická analýza: hľadanie slovesa a jehoprislúchajúceho predmetu alebo zvratného zámenaatď.; zistenie vetnej štruktúry.

Sémantická analýza: odstránenie viacznačnosti(Ktorý význam slova mier je správny v danomkontexte?), vyriešenie anafory a odkazujúcichvýrazov ako on, to auto atď.; prezentácia významuvety v strojovo čitateľnej forme.

Moduly na špecifické úlohy potom vykonávajú rôzneoperácie, ako je automatická sumarizácia vstupnéhotextu, databázové hľadania a mnoho ďalších. Ďalejukážeme základné aplikačné oblasti a zdôrazníme ichzákladné moduly. Opäť pripomíname, že architektúryaplikácií sú veľmi zjednodušené a idealizované

pre vyjadrenie komplexnosti aplikácií jazykovýchtechnológií všeobecne zrozumiteľným spôsobom.

Po predstavení základných aplikačných oblastíposkytneme stručný prehľad situácie jazykovýchtechnológií v oblasti výskumu a vzdelávania, pričomna záver uvedieme prehľad minulých a prebiehajúcichvýskumných programov. Na konci tejto časti budemeprezentovať odborný odhad situácie oblasti základnýchnástrojov a zdrojov jazykových technológií z viacerýchhľadísk, napríklad z hľadiska dostupnosti, zrelosti alebokvality. Situácia jazykových technológií pre slovenčinuje zobrazená v tabuľke na obrázku 9 na konci tejtokapitoly (s. 31). Tabuľka poskytuje prehľad všetkýchnástrojov a zdrojov, ktoré sú v texte zvýraznené tučnýmpísmom. Jazykové technológie pre slovenčinu súporovnané s inými jazykmi, ktoré sú taktiež súčasťoutejto série.

Vstupný text

Predbežné spracovanie Gramatická analýza Sémantická analýza Účelové moduly

Výstup

3: Typická architektúra aplikácie na spracovanie textu

18

Page 26: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

4.2 ZÁKLADNÉ APLIKAČNÉOBLASTI4.2.1 Kontrola pravopisu

Každý, kto používa kancelársky balík, ako napríkladLibreOffice, už pravdepodobne narazil na funkciuKontrola pravopisu a gramatiky, ktorá poukazujena pravopisné chyby a navrhuje ich opravu. 40 rokovpo tom, čo Ralph Gorin uviedol prvý program nakontrolu pravopisu, sa tieto programy jazyka stalioveľa sofistikovanejšími a už nepracujú len na princípeporovnávania zoznamu vybraných slov s pravopisnýmslovníkom. Oproti jazykovo závislým algoritmom nazvládnutie morfológie (napr. tvorenie plurálu) existujúaj algoritmy schopné rozpoznať syntaktické chyby, typuchýbajúce sloveso alebo sloveso nezhodné s podmetomv osobe a čísle, ako to môžeme pozorovať napríkladaj vo vete ‘She *write a letter.’ („Ona písať list.“).Najdostupnejšie funkcie kontroly pravopisu (vrátaneuplatnených v balíku LibreOffice) však v nasledujúcejprvej strofe básne Jerrolda H. Zara založenej nahomofónii nenájdu žiadnu chybu (1992) [39]:

Eye have a spelling chequerIt came with my Pea Sea.It plane lee marks four my revueMiss Steaks I can knot sea.

Na spracovanie tohto typu chýb je v mnohýchprípadoch potrebná analýza daného kontextu, ktorá je

napríklad potrebná aj na rozhodnutie, či sa má isté slovopísať s „y“ alebo s „i“, ako napríklad v prísloví:

Kto chce psa biť, palicu si nájde.

Kto chce psom byť, pána si nájde.

Takýto postup si vyžaduje buď formuláciu gramatickýchpravidiel špecifických pre daný jazyk, čo zároveňpredpokladá vysoký stupeň expertízy amanuálnej práce,alebo využitie takzvaného štatistického jazykovéhomodelu. Takétomodely prepočítavajúmožnosť výskytuistého slova v danom kontexte (tzn. s predchádzajúcimia nasledujúcimi slovami). Napríklad, chce psom byťje oveľa pravdepodobnejší sled slov ako chce psom biťa naopak, chce psa biť je oveľa pravdepodobnejšia vetnákonštrukcia než chce psa byť (napriek tomu by smenepochybne dokázali vymyslieť kontexty, v ktorých súgramaticky správne všetky štyri uvedené fragmenty).Štatistický jazykový model môže byť automatickyderivovaný využívaním veľkého množstva (korektných)jazykových dát (t. j. korpusu). Tieto prístupy však bolivyvinuté a hodnotené len na anglických jazykovýchdátach a nedajú sa automaticky priamo aplikovaťna slovenčinu s jej nestálym slovosledom a bohatouflexiou.Používanie funkcie Kontrola pravopisu a gramatiky nieje obmedzené len na nástroje spracovania textu, alevyužíva sa aj v autorských systémoch. Spolu s rastúcimpočtom technických produktov sa za posledné obdobierapídne zvýšil aj počet technickej dokumentácie. Strachspoločností zo sťažností zákazníkov a z nárokov na

Vstupný text Kontrola pravopisu Kontrola gramatiky Návrhy opráv

Štatistický jazykový model

4: Kontrola pravopisu a gramatiky (štatistická; na báze pravidiel)

19

Page 27: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

náhradu škody, ktorá bola zapríčinená nesprávnymialebo nesprávne pochopenými inštrukciami, spôsobil,že sa spoločnosti začali viac sústreďovať na kvalitutechnickej dokumentácie a zároveň na medzinárodnýtrh. Pokroky v spracovávaní prirodzeného jazyka vedúk rozvoju autorského podporného sovéru, ktorý slúžizostavovateľovi technickej dokumentácie na využívanieslovnej zásoby a vetných štruktúr v súlade s istýmipravidlami a terminologickými obmedzeniami.

Funkcie kontroly pravopisu a gramatiky preslovenský jazyk sú väčšinou založené na slovníku

základných slovných tvarov (lem) a súborepravidiel na odvodenie ostatných tvarov

Existujúce zariadenia kontroly pravopisu a gramatikypre slovenský jazyk sú väčšinou založené na slovníkuzákladných slovných tvarov (lem) skombinovanomso súborom morfologických pravidiel, ktorý umožňujeanalýzu alebo generovanie všetkých (správnych)slovných tvarov. Hoci sa zdá tento jednoduchýuspokojivý, má dve zásadné nevýhody. Prvounevýhodou je nesprávne určenie zdanlivo správnychslovných tvarov v dôsledku nesprávneho kontextu.Druhou nevýhodou je neschopnosť rozlišovať skutočnépravopisné chyby od správnych slovných tvarov, ktorévšak nie sú obsiahnuté v slovníku. Takéto slová všakbudú vzhľadom na prirodzené pribúdanie nových slov,vedeckých a technických termínov v lexikóne existovaťstále.

Okrem kontroly pravopisu a autorskej podpory jefunkcia kontrola pravopisu a gramatiky takisto dôležitáv oblasti výučby jazyka. Aplikácie nakontrolu gramatikya pravopisu taktiež dokážu pri preklepoch navrhnúťsprávne slovo, napríklad Google frázou „Mali ste namysli…“

4.2.2 Vyhľadávanie na webe

Vyhľadávanie na webe, intranete alebo v digitálnychknižniciach je dnes pravdepodobne najpoužívanejšia,no zároveň najmenej vyvinutá jazyková technológia.Google Vyhľadávač, ktorý vznikol v roku 1998, sav súčasnosti využíva na vyhľadávanie 80 % všetkýchvyhľadávacích dopytov po celom svete. V roku 2006sa sloveso googloať/googliť len veľmi tesne nestihlozaradiť do prvého zväzku nového Sloníka súčasnéhosloenského jazyka, čo sa jeho autoromneustále vyčítalo.Od prvej verzie Google sa dlhšiu dobu výraznenezmenilo ani rozhranie vyhľadávania, ani zobrazovaniezískaných výsledkov. V súčasnej verzii ponúka Googleopravu pravopisu nesprávne napísaných hľadanýchslov a v roku 2009 začal vo svojich algoritmochpracovať aj so základnou sémantickou analýzou [40],čo môže zvýšiť presnosť vyhľadávania analyzovanímvýznamu požadovaných výrazov v kontexte. Úspechspoločnosti Google poukazuje na fakt, že s veľkýmmnožstvom dostupných dát a s efektívnymi technikamina zaraďovanie týchto dát môže prevažne štatistickyzaložený prístup viesť k uspokojivým výsledkom.

Pre sofistikovanejšie požadovanie informácií jevšak nevyhnutné integrovať hlbšie jazykovévedomosti. Experimenty vo výskumných laboratóriáchs používaním strojovo čitateľných tezaurova ontologických jazykových zdrojov ako WordNetukázali, že je možné zvýšiť úspešnosť vyhľadávaniaumožnením vyhľadať stránku na základe synonýmvyhľadávaných výrazov, napr. jadrová, atómováa nukleárna energia alebo dokonca aj nie veľmisúvisiacich pojmov.

Budúca generácia vyhľadávačov musí zahrnúť oveľasofistikovanejšie jazykové technológie. Ak hľadanápožiadavka nepozostáva zo zoznamu kľúčových slov,ale z otázky alebo z iného typu vety, získavanierelevantnej odpovede na danú požiadavku si vyžadujesyntaktickú a sémantickú analýzu tejto vety, ako

20

Page 28: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Hľadaný výraz

Webové stránky

Predbežné spracovanie Analýza hľadaného výrazu

Predbežné spracovanie Sémantická analýza Indexácia

Párovanie &

relevancia

Výsledky vyhľadávania

5: Architektúra vyhľadávania na webe

aj dostupnosť indexu, ktorý by počítal s rýchlymzískaním relevantných dokumentov. Predstavte sinapríklad zadanú vstupnú požiadavku „Dajte mizoznam spoločností, ktoré boli za posledných (niektoríľudia by tu dokonca použili výraz „ostatných“ – ideálnyvyhľadávací systém by si s tým vedel poradiť) päť rokovodkúpené inými spoločnosťami“. Pre uspokojujúcuodpoveď je potrebná syntaktická analýza na určeniegramatických štruktúr vety a stanovenie faktu, žezadávateľ hľadá spoločnosti, ktoré boli odkúpené, a niespoločnosti, ktoré ich odkúpili. Podobne musí byťspracovaný aj výraz posledných päť rokov, aby sa zistilo,na ktoré roky sa výraz vzťahuje.

Budúca generácia vyhľadávačov musí zahrnúťoveľa sofistikovanejšie jazykové technológie

Pre úspešné vyhľadanie požadovanej informáciesa napokon musí spracovaná požiadavka porovnaťs obrovským množstvom neštruktúrovaných dát,v ktorých by sa vyhľadala aspoň časť požadovanej

informácie. To sa často označuje termínom získavanieinformácií a zahŕňa vyhľadávanie a posúdenierelevantných dokumentov. Navyše, ak chcemezískať zoznam spoločností, potrebujeme extrahovaťinformácie, že určitý reťazec slov v dokumentesa vzťahuje na názov spoločnosti. Tento druhinformácie nám sprístupňujú takzvané rozpoznávačepomenovaných entít.

Ešte náročnejší je pokus spojiť zadávateľovu požiadavkus dokumentmi napísanými v inom jazyku. Premedzijazykové získanie informácií musí byť požiadavkaautomaticky preložená do všetkých možnýchvýchodiskových jazykov a získaná informácia musí byťprenesená späť do cieľového jazyka. Rastúce percentodát dostupných v netextových formátoch zvyšuje dopytpo službách umožňujúcich získavanie multimediálnychinformácií, tzn. vyhľadávanie obrázkov, zvukovýcha obrazových dát. Pri zvukových a obrazových súborochide o modul rozpoznávania reči na konvertovanierečového obsahu do textovej alebo fonetickej podoby,ktorá by zodpovedala požiadavkám zadávateľa.

21

Page 29: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Na Slovensku existovali viaceré firmy, ktoré rozvíjalitechnológie vyhľadávania, alebo sa takisto používalivyhľadávacie technológie vyvinuté českými firmami.Prvý slovenský vyhľadávač , ktorý začal brať doúvahy slovenskú morfológiu (systém bol vyvinutý naMatematicko-fyzikálnej fakulte Karlovej univerzityv Prahe), bol morfeo.sk, prevádzkovaný internetovýmportálom centrum.sk, ktorý začal poskytovať fulltextovévyhľadávanie webových stránok s doménou .skv roku 2003. Na vyhľadávanie ohýbaných slovvyužíval lematizáciu a morfologickú anotáciu, abytak používateľovi poskytol relevantnejšie výsledkyako len tie, ktoré zahŕňali iba základnú formu slov.Taktiež disponoval fuzzy vyhľadávaním. Do roku 2009presiahol počet indexovaných stránok 117 miliónov,pretože už vtedy Google zahrnul podporu slovenskejmorfológie, prevýšil počet indexovaných stránoka centrum.sk prešlo na Google Vyhľadávanie.

V tejto oblasti pracuje napríklad Forma, s. r. o. [41],ktorá na báze dát z Jazykovedného ústavu Ľ. Štúra SAVvypracovala lingvistické moduly: jazykový korektor,rozdeľovač slov, lematizátor a slovník synoným. Takistomá samostatné produkty na fulltextové vyhľadávaniev slovenčine a doteraz prevádzkuje vyhľadávaniev starších verziách niektorých slovníkov.

Pozornosť pri rozvoji vyhľadávacích technológiísa kladie na poskytovanie doplnkov a modernýchvyhľadávačov pre záujmovo špecifické portály, pričomsa čo najviac využíva sémantika relevantná pre danúoblasť. Vzhľadom na vysoké nároky na výpočtovývýkon sa takéto vyhľadávače využívajú len v relatívnemalých textových korpusoch. Časom spracovaniaa tisícnásobným rozsahom ľahko prekoná bežnýštatistický vyhľadávač, aký poskytuje napríkladGoogle. Tieto vyhľadávače majú vysoké nároky ajna modelovanie tematicky zameranej domény, čoznemožňuje používať tieto mechanizmy na webe. Tejtooblasti výskumu sa venuje hlavne Ústav informatiky

SAV, kde sa v roku 2006 začali venovať oblastispracovania písaného prirodzeného jazyka. V tom časesa inicioval aj vznik workshopov WIKT [42], ktorýchsúčasťou je v každom ročníku vydávanie niekoľkýchčlánkov alebo celej sekcie venovanej spracovaniuslovenského jazyka. Výskum v ÚI SAV v spoluprácis Univerzitou Pavla Jozefa Šafárika v Košiciach sa odr. 2006 rozvíjal hlavne v rámci projektu NAZOU[43], kde sa tvorili nástroje na získanie, spracovanie,organizovanie a prezentáciu informácií z internetu.Konkrétnou aplikáciou boli pracovné ponuky, nástrojesa testovali aj na textoch slovenských pracovnýchponúk. VÚISAVbola vypracovaná analýza spracovaniaslovenčiny [44] a zároveň bol vyvinutý nástroj naextrakciu informácií Ontea [45, 46, 47], ktorý bolintegrovaný s nástrojmi na identifikáciu jazyka [48]a nástrojom na lematizáciu [49].

Ontea pracuje na základe hľadania vzorov. Tieto vzorymôžu byť jednak jazykovo závislé vzory, ako napríkladpoužitie predložiek, vetná skladba, ale aj jednoduchšievzory typu použitie veľkých písmen, skratiek, akonapríklad s. r. o., a. s. na hľadanie firiem, Sk, SKK, EUR,EURO, € na hľadanie ceny, alebo skratiek slovenskýchkrstných mien na hľadanie osôb v texte. Princíp jeplatný pre rôzne jazyky, ale vzory sa musia tvoriť prekonkrétny jazyk, napríklad slovenčinu. V súčasnostibol nástroj Ontea rozvíjaný na spracovanie e-mailovejkomunikácie. V rámci projektu AIIA [50, 51] bolsystém otestovaný na slovenských e-mailoch firmyAnaso a združenia SANET. Ontea používa nielenvzory, ale aj slovníky urbanoným (gazetteers), ako aj ichkombináciu na extrakciu a identifikáciu entít v texte.Pri použití slovníkov (ale aj niektorých typov hľadania)nastáva problém identifikácie entity, ak je v inom akozákladnom tvare, preto je vhodné použiť lematizátor.Keďže ide hlavne o názvoslovné entity ako ľudia,miesta, názvy produktov, mená projektov alebo služieb,je ťažké ich lematizovať. Tieto problémy sa zatiaľ

22

Page 30: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

nepodarilo uspokojivo vyriešiť, je však možné riešiť ichnovým spôsobom kombinácie slovníka, tokenizácie poznakoch, lematizácie a overenia entity v slovníku.Extrakcia entít pomocou vzorov bola použitáaj v experimente na rozsiahlych dátach, keď saspracúvali slovenské webové stránky s cieľom extrakciegeografických dát (slovenských adries) a následnéhovyhľadávania [52].

4.2.3 Rečová technológia

Rečová technológia tvorí základ na vytvorenierozhrania, ktoré umožňuje používateľovi komunikovaťso zariadeniami prostredníctvom hovoreného jazykajednoduchšie než napríklad pomocou grafickéhodispleja, klávesnice alebo myši. Dnes sa takéto hlasovépoužívateľské rozhrania používajú na plne alebočiastočne automatizované ponuky služieb poskytovanéspoločnosťami ich zákazníkom, zamestnancom alebopartnerom na telefóne. Obchodné činnosti, ktorévo veľkej miere závisia od hlasových používateľskýchrozhraní, sú bankovníctvo, logistika, verejná dopravaa telekomunikácie. Iné využitia technológie rečovejinterakcie sú rozhrania pre špeciálne zariadenia,napríklad navigačné systémy do áut či uplatneniehovoreného jazyka ako alternatívy k vstupno-výstupným modalitám grafických používateľskýchrozhraní, napríklad v smartphonoch alebo tabletoch.Vo svojej podstate pozostáva rečová interakcia zoštyroch rôznych technológií:

Automatické rozpoznávanie reči zodpovedáza určenie, ktoré slová v slede zvukov vypovedanýchpoužívateľom boli aktuálne hovorené.

Syntaktická analýza a sémantická interpretáciasa zaoberajú analyzovaním syntaktickej štruktúryvýpovede používateľa a jej interpretáciou podľaúčelu príslušného systému.

Dialógový manažment je potrebný pri určovaníopatrení, ktoré by sa mali podniknúť na strane

systému, s ktorým používateľ komunikuje,vzhľadomna vstup používateľa a funkčnosť systému.

Syntéza reči (Text-to-Speech, TTS) sa uplatňujena transformovanie textovej výpovede do zvukovejformy, ktorá bude pre používateľa výstupom.

Jednou z najväčších výziev je vytvoriť systémautomatického rozpoznávania reči, ktorý by dokázalčo najpresnejšie rozpoznať používateľove slová. Tosi vyžaduje buď obmedzenie možných výpovedípoužívateľa na limitovaný súbor kľúčových slov, alebomanuálne vytvorenie jazykových modelov, ktoré bypokrývali veľké množstvo prirodzených výpovedív jazykupoužívateľa. Základnoupožiadavkoupre dobrývýkon je takisto dobre natrénovaný akustický modelzaložený na obrovskom množstve zaznamenanýchdát rozlišujúcich prízvuk, vekovú skupinu, pohlavieatď. Kým prvá možnosť vedie skôr k strnulémua nepružnému využívaniu hlasového používateľskéhorozhrania a pravdepodobne by ju používatelia dobreneprijali, tvorenie, ladenie a zlepšovanie akustickýcha jazykových modelov by zas výrazne zvýšilo náklady.Hlasové používateľské rozhrania, ktoré využívajújazykové modely a dovoľujú na začiatku používateľoviflexibilne vyjadriť svoju potrebu – po vyzvaní napríkladfrázou „Ako vám môžem pomôcť“ – vykazujúlepšiu možnosť automatizácie, aj lepšiu akceptáciupoužívateľmi, a teda majú výhodu oproti než menejflexibilnému prístupu riadeného dialógu. Výnimkutvoria tzv. embedded systémy, ktoré vyžadujú naovládanie relatívne málo príkazov. V takom prípade jepoužitie jazykových modelov skôr nevýhodou a aj dnessa takéto systémy úspešne budujú s použitím gramatík.Pre výstupné časti hlasového používateľského rozhraniainklinujú spoločnosti k používaniu vopred nahranýchvýpovedí profesionálov – ideálne registrovanýchhovoriacich. V prípade statických výpovedí, ktorýchobsah nezávisí od kontextu použitia alebo od osobnýchúdajov daného používateľa, bude výsledkom vysoká

23

Page 31: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Hovorený vstup Spracovanie signálu

Hovorený výstup Syntéza reči Fonetický prepis & výber intonácie

Porozumenie prirodzenému

jazyku a dialóg v prirodzenom jazyku

Rozpoznávanie

6: Architektúra jednoduchého dialógového systému

spokojnosť používateľa. Čím dynamickejší bude obsahvýpovede, tým väčšie problémy môže mať používateľs nejasnou prozódiou vyplývajúcou z reťazeniajednotlivých zvukových segmentov. Dnešné systémyna syntézu reči sa vzhľadom na optimalizovateľnúprozodickú prirodzenosť dynamických výpovedí javiaako lepšie.

Trh technológií rečovej interakcie prešiel počasposlednej dekády silnou štandardizáciou rozhranímedzi odlišnými technologickými komponentmi,ako aj štandardmi na tvorenie daných sovérovýchartefaktov pre danú aplikáciu. Za posledných desaťrokov takisto prebieha silná konsolidácia trhu, hlavnev oblasti automatického rozpoznávania reči a syntézyreči. Národné trhy krajín G20, tzn. ekonomicky silnýchkrajín so značnou populáciou, sú celosvetovo ovládanéniekoľkými veľkými súpermi, pričom Nuance, Googlea Microso patria dnes medzi najvýznamnejšie.

Na Slovensku má rozpoznávanie reči dlhú históriu,ale vykonávalo sa len na pôde univerzít a vovedeckých inštitúciách. Väčšina z nich sa sústreďujena základný výskum a riešenia špecifických problémovrozpoznávania reči. Oddelenie analýzy a syntézyreči Ústavu informatiky Slovenskej akadémie viedako účastník projektu SpeechDat-E sa sústreďujeprevažne na akustické modely telefónnych systémov.S rastúcim množstvom iných rečových nahrávok, ako

napríklad parlamentné diskusie, sa ústav pomocouexistujúcich nástrojov na rozpoznávanie reči snažívytvoriť širšie použiteľné akustické modely preprepis diktovaného textu. Hlavný dôraz sa kladiena rozpoznávanie reči závislé od rečníka. Katedraelektroniky a multimediálnych komunikácií SlovenskejTechnickej univerzity v Bratislave sa sústreďuje hlavnena spracovanie rečového signálu v podmienkach hluku(detekcia reči/hluku, extrahovanie atď.). Okremmnohého iného vytvorila katedra aj početné malésystémy na rozpoznávanie reči, aby mohla porovnávaťich výkonnosť a použiteľnosť na rozpoznávanievoľnej reči v slovenskom jazyku. Na Technickejuniverzite v Košiciach existujú viaceré katedry, ktoré sasústreďujú na automatické rozpoznávanie reči. Katedratelekomunikácií Slovenskej technickej univerzity sapôvodne zameriavala na základný výskum digitálnehospracovania rečového signálu, ktorý postupne svojvýskum zamerala na rozvoj rečových interaktívnychsystémov.

Katedra vytvorila v spolupráci so Slovenskouakadémiou vied, Slovenskou technickou univerzitoua Žilinskou univerzitou inteligentný komunikačnýrečový systém, ktorý je prístupný verejnostiv slovenskom jazyku a demonštruje rečové interaktívnesystémy pri telefonovaní. V súčasnosti je na katedrejedným z jej najpozoruhodnejších produktov v oblasti

24

Page 32: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

jazykového modelovania systém na rozpoznávanieplynulej reči. Bázou jazykového modelu je korpuspozostávajúci z 2 � 109 tokenov.

Druhé významné pracovné miesto na Technickejuniverzite v Košiciach je Katedra kybernetiky a umelejinteligencie, kde bol pre slovenčinu vytvorený prvýrečový dialógový informačný systém a fonetickáabeceda SAMPA. Dnes na katedre zohrávajúaktivity týkajúce sa rozpoznávania reči okrajovúrolu. Katedra aplikovanej matematiky a štatistiky naFakulte matematiky, fyziky a informatiky UniverzityKomenského v Bratislave pracuje predovšetkýmna rozpoznávaní reči prostredníctvom izolovanýchslov detských hlasov. Výsledky boli aplikované vovzdelávacom procese na verifikovanie textu čítanéhodeťmi. Zo zvukových dát zaznamenaných pre akustickýmodelový nácvik boli vytvorené len dve rečové databázy(Alica a Viktória). Hlavná inštitúcia na rozpoznávaniereči na Žilinskej univerzite je Katedra telekomunikáciía multimédií. Jej tím sa zameriava predovšetkým naspracovanie digitálneho signálu pre rozpoznanie rečia rozpoznávanie izolovaných slov pomocou použitiaskrytých Markovovských modelov.

Úzka spolupráca medzi Katedrou elektronikya multimediálnych komunikácií TU v Košiciacha Oddelením analýzy a syntézy reči Ústavu informatikySlovenskej akadémie vied vyústila do prvých viditeľnýchúspechov rozvoja systému na rozpoznávanie plynulejreči. Výsledkom spolupráce je automatický systémprepisovania reči, ktorý možno využiť v oblastisúdnictva.

Z komerčných systémov na rozpoznávanie rečiv slovenčine stojí za pozornosť produkt českej firmyNewton Technologies, ktorý možno považovať za prvýsystém prepisovania v slovenčine, ktorý je nezávislý odrečníka.

Odhliadnuc od súčasného stavu technológie môžemekonštatovať, že v blízkej budúcnosti nastanú výrazné

zmeny, ktoré budú okrem vplyvov telefónu, internetua e-mailových spojení podnietené hlavne rozšírenímsmartphonov ako novej platformy na manažovaniezákazníckych vzťahov. Tento trend ovplyvní ajvyužívanie technológií rečovej interakcie. Najednej strane sa dopyt po hlasových používateľskýchrozhraniach na telefonickej báze postupom časuzníži, na druhej strane používanie hovoreného jazykaako užívateľsky komfortnej vstupnej modality presmartphony výrazne získa na dôležitosti. Tentotrend je podporovaný aj očividným zlepšením kvalityrozpoznávania reči nezávisle od hovoriaceho, a to prepotreby diktovania, ktoré sa už ponúkajú používateľomsmartphonov ako centralizované služby. Ak posuniemeoutsourcing rozpoznávania reči do infraštruktúryaplikácií, využitie základných lingvistických technológiípre špecifické využitie pravdepodobne v porovnaní sosúčasnosťou získa na dôležitosti.

4.2.4 Strojový preklad

S myšlienkou využívať digitálne počítače na prekladprirodzených jazykov prišiel v roku 1946 A. D. Bootha uchytila sa aj vďaka značnej finančnej podpore tejtooblasti v 50. a 80. rokoch 20. storočia. Napriek tomusa strojovému prekladu nepodarilo splniť očakávania,ktoré naň boli kladené už v začiatočných rokoch po jehovzniku.

Strojový preklad jednoducho nahrádza slová jednéhoprirodzeného jazyka slovami iného jazyka. To sa dávyužiť v oblastiach s veľmi obmedzeným, stereotypnýmjazykom, akým je napríklad jazyk predpovede počasia.Pre dobrý preklad menej štandardizovaných textovvšak treba pričleniť väčšie textové celky (frázy,vety alebo dokonca celé pasáže) k ich najbližšímnáprotivkom v cieľovom jazyku. Hlavný problémtkvie vo fakte, že ľudský jazyk je dvojznačný. Jazykovádvojznačnosť prináša problémy namnohých jazykovýchúrovniach, napríklad viacznačnosť slovných významov

25

Page 33: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

na lexikálnej rovine („Leopard“ môže znamenať zvieraalebo operačný systém) alebo pripojenie atribútov nasyntaktickej rovine ako v príkladoch:

Otcovi priatelia neprišli, moji áno.

Otcovi priatelia neprišli, mne áno.

Jeden z možných prístupov k problému sa zakladána lingvistických pravidlách. Pre preklad medziblízko príbuznými jazykmi (ako však aj už uvedenýchpríkladoch) je prípustná aj metóda priameho prekladu.Takéto systémy založené na pravidlách analyzujúvstupný text a vytvárajú „prostredníka“, symbolickúreprezentáciu, z ktorej sa generuje text cieľového jazyka.Úspech týchto metód veľmi závisí od dostupnostirozsiahlych lexikónov s morfologickými, syntaktickýmia sémantickými údajmi a aj s veľkými súbormigramatických pravidiel vypracovaných skúsenýmilingvistami.Koncom 80. rokov 20. storočia, teda v čase, keď sapočítače začali rozmáhať a stali sa cenovo dostupnejšie,zvýšil sa záujem o štatistické modely pre strojovýpreklad. Parametre týchto štatistických modelov súodvodené z analýzy bilingválneho textového korpusu,akým je aj paralelný korpus Europarl, ktorý obsahujerokovania Európskeho parlamentu v 21 európskychjazykoch. Ak dostane štatistický strojový prekladdostatok údajov, funguje dostatočne dobre na to, abyodvodil približný význam cudzieho jazyka v texte.Na rozdiel od systémov riadených znalosťami všakštatistický (alebo dátami riadený) strojový preklad častogeneruje gramaticky nesprávne výstupy. Na druhejstrane však okrem zníženej potreby ľudského úsiliana pravopisné písanie dokáže strojový preklad riadenýdátami pokryť také špecifiká jazyka, akými sú napríkladidiomatické výrazy, ktoré zas chýbajú v systémochriadených vedomosťami.Keďže sa silné a slabé stránky strojového prekladuriadeného vedomosťami a strojového prekladu

riadeného dátami navzájom dopĺňajú, v súčasnosti savedci usilujú kombinovaním oboch metód uplatniťhybridné postupy. To je uskutočniteľné mnohýmispôsobmi. Jedným z nich je možnosť použiť obatypy systémov a nechať rozhodnúť výberový modulo najvhodnejšom výstupe pre každú vetu. Pre dlhšievety však nebude dokonalý žiadny výsledok. Lepšímriešením je preto skombinovanie najlepších častíkaždej vety z viacerých výstupov, čo však môže byťznačne zložité, keďže korešpondujúce časti rozličnýchalternatív nie sú vždy zrozumiteľné a musia byť nanovousporiadané.V 90. rokoch 20. storočia bol navrhnutý prototypstrojového prekladu medzi blízko príbuznou češtinoua slovenčinou na Karlovej univerzite v Prahe.TEOS Trenčín uviedol na trh prvý praktickýmnohojazyčný sovér strojového prekladu preslovenský jazyk spolu s ich PC slovníkovým sovérom.Keďže však systém nepoužíval nijakú hlbšiu lingvistickúanalýzu a jednoducho nahrádzal slová jedného jazykaslovami druhého jazyka (zväčša obmedzené len nalemy), jeho uplatnenie sa obmedzovalo len na jazyky,ktoré nedisponujú bohatým morfologickým systémom,t.j. na angličtinu. Novšie verzie vedia prekladať webovéstránky za behu, čo je funkcia mimoriadne užitočná preanglicko-slovenské preklady (zároveň jediný fungujúcismer prekladu).

Kvalita systémov strojového prekladu disponujestále obrovským potenciálom na zlepšenie

Kvalita systémov strojového prekladu disponuje stáleobrovským potenciálom na zlepšenie. Súčasné výzvyspočívajú hlavne v adaptabilite jazykových zdrojovna danú doménu alebo používateľskú oblasť a v ichintegrácii do existujúceho pracovného toku výrazovýchzákladní a prekladových pamätí. Väčšina súčasnýchsystémov (nielen tých orientovaných na slovenský

26

Page 34: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Štatistický strojový preklad

Východiskový text

Cieľový text

Analýza textu (formátovanie, morfológia, syntax, atď.)

Posteditácia textu (formátovanie, kontext, atď.)

Pravidlá pre preklad

7: Strojový preklad (štatistický; založený na pravidlách)

jazyk) je orientovaná na angličtinu. Najvyššiu kvalituprekladu z/do angličtiny ponúka predovšetkým GoogleTranslate.

Dostupnosť veľkého množstva bilingválnych textov jev štatistickom strojovom preklade skutočne kľúčová.Pre slovenčinu sa v súčasnosti korpus paralelnýchtextov spolu s mnohými inými jazykmi len buduje.Najviac dát – spolu milióny párov viet – je dostupnýchv slovensko-českom a slovensko-anglickom paralelnomkorpuse, ktorý sa zostavuje v Jazykovednom ústaveĽ. Štúra. Obsah korpusu tvorí prevažne beletria a vetysú automaticky zarovnané.

Na obrázku 1 (s. 28) je tabuľka, ktorá bola vytvorenáv rámci projektu Euromatrix+, znázorňuje presnosťprekladov medzi 22 jazykmi z 23 oficiálnycheurópskych jazykov (neporovnávala sa írčina). Výsledkysa hodnotili podľa BLUE skóre (čím viac bodov, týmlepší preklad) [54]. Za bežných podmienok dokážečlovek získať približne 80 bodov.

4.3 ĎALŠIE APLIKAČNÉ OBLASTITvorba aplikácií jazykových technológií v sebe zahŕňamnožstvo čiastkových úloh, ktoré síce v interakciis používateľom nevyjdú vždy na povrch, ale poskytujúrozličné funkcie skrytého systému. Koncipujú pretov danej oblasti výskumu dôležité otázky, ktoré sastali samostatnými akademickými subdisciplínami

počítačovej lingvistiky.Zodpovedanie otázok sa stalo aktívnou oblasťouvýskumu, pre ktorý boli vytvorené anotované korpusya ktorý odštartoval vedecké súperenie. Idea spočívav posune od vyhľadávania pomocou klávesnice (naktoré prístroj odpovedá celým súborom potenciálnerelevantných dokumentov) k variantu, v ktorompoužívateľ kladie konkrétnu otázku a systém generujejedinú odpoveď:

Otázka: Koľko rokov mal Neil Armstrong, keďvystúpil na Mesiac?

Odpoveď: 38.

Pokiaľ to súvisí s už spomínanou základnou oblasťouvyhľadávania na webe, zodpovedanie otázok jepredovšetkým zastrešujúcim výrazom výskumnýchotázok typu: Aké druhy otázok by sa mali rozlišovaťa ako by sa malo s nimi zaobchádzať, ako sa môže súbordokumentov, ktorý potenciálne obsahuje odpoveď,analyzovať a porovnávať (dávajú tieto dokumentykonfliktnú odpoveď?) a ako môže byť špecifickáinformácia – odpoveď – spoľahlivo extrahovanázdokumentubezneoprávneného ignorovania kontextu.

V Centre pre informačné technológie v Košiciachbola vyvinutá softvérová knižnica, ktorá spravuje

textové dokumenty

27

Page 35: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Cieľový jazyk – Target languageEN BG DE CS DA EL ES ET FI FR HU IT LT LV MT NL PL PT RO SK SL SV

EN – 40.5 46.8 52.6 50.0 41.0 55.2 34.8 38.6 50.1 37.2 50.4 39.6 43.4 39.8 52.3 49.2 55.0 49.0 44.7 50.7 52.0BG 61.3 – 38.7 39.4 39.6 34.5 46.9 25.5 26.7 42.4 22.0 43.5 29.3 29.1 25.9 44.9 35.1 45.9 36.8 34.1 34.1 39.9DE 53.6 26.3 – 35.4 43.1 32.8 47.1 26.7 29.5 39.4 27.6 42.7 27.6 30.3 19.8 50.2 30.2 44.1 30.7 29.4 31.4 41.2CS 58.4 32.0 42.6 – 43.6 34.6 48.9 30.7 30.5 41.6 27.4 44.3 34.5 35.8 26.3 46.5 39.2 45.7 36.5 43.6 41.3 42.9DA 57.6 28.7 44.1 35.7 – 34.3 47.5 27.8 31.6 41.3 24.2 43.8 29.7 32.9 21.1 48.5 34.3 45.4 33.9 33.0 36.2 47.2EL 59.5 32.4 43.1 37.7 44.5 – 54.0 26.5 29.0 48.3 23.7 49.6 29.0 32.6 23.8 48.9 34.2 52.5 37.2 33.1 36.3 43.3ES 60.0 31.1 42.7 37.5 44.4 39.4 – 25.4 28.5 51.3 24.0 51.7 26.8 30.5 24.6 48.8 33.9 57.3 38.1 31.7 33.9 43.7ET 52.0 24.6 37.3 35.2 37.8 28.2 40.4 – 37.7 33.4 30.9 37.0 35.0 36.9 20.5 41.3 32.0 37.8 28.0 30.6 32.9 37.3FI 49.3 23.2 36.0 32.0 37.9 27.2 39.7 34.9 – 29.5 27.2 36.6 30.5 32.5 19.4 40.6 28.8 37.5 26.5 27.3 28.2 37.6FR 64.0 34.5 45.1 39.5 47.4 42.8 60.9 26.7 30.0 – 25.5 56.1 28.3 31.9 25.3 51.6 35.7 61.0 43.8 33.1 35.6 45.8HU 48.0 24.7 34.3 30.0 33.0 25.5 34.1 29.6 29.4 30.7 – 33.5 29.6 31.9 18.1 36.1 29.8 34.2 25.7 25.6 28.2 30.5IT 61.0 32.1 44.3 38.9 45.8 40.6 26.9 25.0 29.7 52.7 24.2 – 29.4 32.6 24.6 50.5 35.2 56.5 39.3 32.5 34.7 44.3LT 51.8 27.6 33.9 37.0 36.8 26.5 21.1 34.2 32.0 34.4 28.5 36.8 – 40.1 22.2 38.1 31.6 31.6 29.3 31.8 35.3 35.3LV 54.0 29.1 35.0 37.8 38.5 29.7 8.0 34.2 32.4 35.6 29.3 38.9 38.4 – 23.3 41.5 34.4 39.6 31.0 33.3 37.1 38.0MT 72.1 32.2 37.2 37.9 38.9 33.7 48.7 26.9 25.8 42.4 22.4 43.7 30.2 33.2 – 44.0 37.1 45.9 38.9 35.8 40.0 41.6NL 56.9 29.3 46.9 37.0 45.4 35.3 49.7 27.5 29.8 43.4 25.3 44.5 28.6 31.7 22.0 – 32.0 47.7 33.0 30.1 34.6 43.6PL 60.8 31.5 40.2 44.2 42.1 34.2 46.2 29.2 29.0 40.0 24.5 43.2 33.2 35.6 27.9 44.8 – 44.1 38.2 38.2 39.8 42.1PT 60.7 31.4 42.9 38.4 42.8 40.2 60.7 26.4 29.2 53.2 23.8 52.8 28.0 31.5 24.8 49.3 34.5 – 39.4 32.1 34.4 43.9RO 60.8 33.1 38.5 37.8 40.3 35.6 50.4 24.6 26.2 46.5 25.0 44.8 28.4 29.9 28.7 43.0 35.8 48.5 – 31.5 35.1 39.4SK 60.8 32.6 39.4 48.1 41.0 33.3 46.2 29.8 28.4 39.4 27.4 41.8 33.8 36.7 28.5 44.4 39.0 43.3 35.3 – 42.6 41.8SL 61.0 33.1 37.9 43.5 42.6 34.0 47.0 31.1 28.8 38.2 25.7 42.3 34.6 37.3 30.0 45.9 38.2 44.1 35.8 38.9 – 42.7SV 58.5 26.9 41.0 35.6 46.6 33.3 46.6 27.4 30.9 38.9 22.7 42.0 28.2 31.0 23.7 45.6 32.2 44.2 32.7 31.3 33.5 –

8: Strojový preklad medzi 22 jazykmi EU – Machine Translation between 22 EU-languages [53]

To na druhej strane súvisí s úlohou získavaniainformácií, s oblasťou, ktorá sa tešila veľkej popularitea vplyvu v období „štatistického obratu“ v počítačovejlingvistike v raných 90. rokoch 20. storočia.Extrahovanie informácií sa sústreďuje na identifikáciušpecifických informácií v špecifických triedachdokumentov; akými by mohli byť napríklad detekciakľúčových hráčov prevzatia podnikov, ktorí sú uvedenív novinových článkoch. Druhý variant, na ktorom sapracovalo, sú správy o teroristických útokoch, v prípadektorých problémom zostáva zmapovanie textu došablóny špecifikujúcej páchateľa, cieľ, čas amiesto útoku,ako aj jeho dôsledky. Doménovo špecifická náplňšablóny je ústrednou charakteristikou extrahovaniainformácií, ktorá je aj z tohto dôvodu ďalším príkladom„zákulisnej“ technológie, ktorá predstavuje dobreohraničenú oblasť výskumu, ale z praktických dôvodovmusí byť vsadená do vhodného aplikačného prostredia.

JBOWL (Java knižnica Bag-Of-Words) sovérováknižnica bola vyvinutá v Centre pre informačnétechnológie (FEI-CIT) v Košiciach na podporuNLP Text Mining aplikácií. JBOWL jemodulárny systém umožňujúci spravovanie textovýchdokumentov. Poskytuje funkcie a prostriedkypodporujúce spracovanie textov prirodzeného jazyka(napr. tokenizáciu, morfologickú analýzu, lematizáciu,viacznačnosť, syntaktickú analýzu založenú na sieťachATN, identifikáciu klasterov a fráz, meranie závažnostitermínov a ich označovanie), objavuje znalostia ťaží z neštruktúrovaných textových dokumentov.Okrem iného systém implementuje viaceré algoritmykontrolovaného a nekontrolovaného strojového učenias nastaviteľnými vstupnými parametrami a metódamina hodnotenie kvality modelov Text Miningu.

Dve hraničné oblasti, ktoré niekedy hrajú rolusamostatnej aplikácie a inokedy rolu podporného,

28

Page 36: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

skrytého komponentu, sú sumarizovanie a generovanietextu. Sumarizovanie zjavne súvisí s úlohou skracovaniatextu a ponúka sa napríklad aj ako funkcia MSWordu. Pracuje prevažne na základe štatistickýchmetód, pričom najprv identifikuje „dôležité“ slováv texte (napríklad slová, ktoré sú v tomto texte vysokofrekventované, ale výrazne menej používané v bežnomjazyku), a následne určuje tie vety, ktoré obsahujúveľa „dôležitých“ slov. Tieto vety sú v dokumentevyznačené alebo sú z neho extrahované a použité natvorbu sumáru. V tomto variante, ktorý je doteraznajpoužívanejší, sa sumarizovanie rovná extrahovaniuviet: text je redukovaný na podskupinu jeho viet.Všetky komerčné sumarizéry využívajú práve tentonápad. Alternatívny postup, ktorému sa venuje lenčasť výskumu, spočíva v aktuálnej syntéze noých viet,t. j. buduje súhrn viet, ktoré sa nemusia ukázať v takejtoforme vo východiskovom texte. Takýto postup si všakvyžaduje určité hlbšie porozumenie textu a je oveľamenej priamočiary. Textový generátor ako celok voväčšine prípadov nie je samostatnou aplikáciou, aleje včlenený do väčšieho sovérového prostredia, akonapríklad do klinického informačného systému, kde saúdaje o pacientoch zhromažďujú, skladujú, spracúvajú,pričom generovanie správ je len jednou z mnohýchfunkcií.

4.4 JAZYKOVÉ TECHNOLÓGIEVO VZDELÁVANÍJazykové technológie predstavujú vysoko interdisciplinárnuoblasť, ktorá si okrem iného vyžaduje expertízylingvistov, vedcov výpočtovej techniky, matematikov,filozofov, psycholingvistov a neurológov. Jazykovétechnológie si na slovenských fakultách stále hľadajúpevné miesto.

Pracovníci Ústavu informatiky SAV vedú kurzzískavania informácií, grafových algoritmov na

ich podporu a spracovania veľkého množstva dát

Od roku 2007 viedli výskumníci z Ústavu informatikySlovenskej akadémie vied (Michal Laclavík a MartinŠeleng) na Fakulte informačných technológiíSTU kurz získavania informácií, v ktorom sazameriavali na problematiku získavania a extrahovaniainformácií [55], grafových algoritmov na ich podporua spracovania veľkého množstva dát. Študenti riešiav tejto doméne rozličné projekty, pričom viacerípoužívajú slovenské zdroje, prípadne, niektorí riešiapriamo problémy spracovania slovenského jazyka.Ako príklad uvádzame viaceré projekty zamerané navytvorenie štatistického, slovníkovo orientovanéhoalebo algoritmického stemera založeného na projektochSnowbal alebo Egothor, ako aj projekty zameranéna určovanie účinnosti a štatistiky pri jednoduchýchstemeroch, ktoré fungujú na princípe vynechaniasamohlások, diakritických znamienok, celých slovnýchzakončení atď. Takisto sem patria aj súbežneprebiehajúce projekty štatistických prekladov alebotvorba automatického slovníka, ktorý prekladá medzislovenčinou a inými jazykmi (angličtinou, češtinou).Napokon sú to projekty využívajúce slovníky alebofrekvenčné jazykové slovníky pre aplikácie ako T9,extrahovanie pomenovaných entít s použitím metódstrojového učenia, knižnice ako OpenNLP, tvorbamorfologického analyzátora, ako aj extrahovanieudalostí z e-mailov alebo zo slovenských webovýchstránok a pod.

Dodnes neexistuje žiadny pravidelný študijný programpočítačovej lingvistiky.

29

Page 37: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

4.5 ŠTÁTNE PROGRAMY AINICIATÍVY

Jazykové technológie a ich vývoj sa na Slovenskustále považujú za súčasť vedy a výskumu. Zaraďujúsa najmä do oblasti aplikovaného výskumu, a tov rámci lingvistiky (predovšetkým lexikografie)alebo informatiky. Kontakt s komerčnou sférou jenedostatočný až sporadický. V súčasnosti sa všakzačínajú jazykové technológie v značnej miere využívaťv rôznych sovérových aplikáciách. Prvé veľké projektyzamerané na jazykové technológie a zdroje na Slovenskuboli osobitne schválené a financované vládou. Išlo oprojekty Vybudovanie Národného korpusu sloenskéhojazyka a elektronizácia jazykovedného výskumu v rokoch2002–2006 aKomplexné spracovanie sloenského jazykaa jeho elektronizácia na účely jazykovedného výskumu.Oba projekty sa realizovali v Jazykovednom ústaveĽudovíta Štúra Slovenskej akadémie vied.

Projekt Vybudovanie Národného korpusu sloenskéhojazyka a elektronizácia jazykovedného výskumuv rokoch 2002–2006 bol schválený uznesenímvlády č. 137/2002. Jeho cieľom bolo vybudovaťreprezentatívny korpus slovenského jazyka, ktorý jenevyhnutným základom a materiálovým zdrojom prevšetky lingvistické výskumy a výskumy počítačovéhospracovania prirodzeného jazyka. Jazykový materiálkorpusu je základnou bázou pri tvorbe veľkéholexikografického diela – Slovníka súčasnéhoslovenského jazyka.

V rámci projektu sa vytvorilo oddelenie Slovenskéhonárodného korpusu, ktoré sa následne stalo vedúcimpracoviskom v oblasti spracovania prirodzeného jazykana Slovensku. V rokoch 2007–2011 (druhá fáza)projekt pokračoval pod názvom Budovanie Sloenskéhonárodného korpusu a elektronizácia jazykovednéhovýskumu na Sloensku na základe zmluvy a jehospolufinancovaní medzi Ministerstvom školstva SR,

Ministerstvom kultúry SR a SAV.

V rokoch 2003–2006 sa v rámci štátneho programuvýskumu a vývoja Aktuálne otázky rozvoja spoločnostizároveň realizovala úloha č. 2003SP200280307Komplexné spracovanie sloenského jazyka a jehoelektronizácia na účely jazykovedného výskumu. Vďakariešeniu tejtoúlohy samohli vyvíjať potrebnénástroje napočítačové spracovanie slovenského jazyka a rozširovaťďalšie zdroje: morfologická a syntaktická anotácia,elektronické lingvistické zdroje, terminologickádatabáza a pod. Výsledky tohto projektu sa využívajúa ďalej rozvíjajú v pokračujúcom projekte a našli si cestuaj do komerčnej sféry.

Ďalším významným projektom v spracovaníslovenského jazyka bol projekt APD – Automatickýprepis diktátu pre Ministersto spraodliosti Sloenskejrepubliky koordinovaný Oddelením analýzy a syntézyreči Ústavu informatiky Slovenskej akadémie vied vspolupráci s Katedrou elektroniky a multimediálnychkomunikácií Technickej univerzity v Košiciach. Projektsa realizoval v rokoch 2009–2011. Cieľom bolovytvoriť kompletný systém na prepis hovorenéhoslovenského jazyka, špeciálne v oblasti súdnictva.Projekt bol financovaný Ministerstvom spravodlivostiSlovenskej republiky. V súčasnosti sa systém začínavyužívať v pilotnej prevádzke na súdoch Slovenskejrepubliky. Tieto projekty boli na Slovensku doterazjedinou významnou iniciatívou v oblasti počítačovéhospracovania slovenčiny. Pripravili východisko prehlbší výskum, ako aj rozmach komerčných projektovv tejto oblasti. Financovanie ďalšieho výskumu je všakjednoznačne nevyhnutné.

4.6 DOSTUPNOSŤ NÁSTROJOVA ZDROJOVNa obrázku 9 ponúkame sumarizáciu súčasnéhostavu jazykových technológií pre slovenčinu. Kritériá

30

Page 38: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Kvan

tita

Dos

tupn

osť

Kvalita

Pokr

ytie

Zrelos

ť

Udr

žateľn

osť

Ada

ptab

ilita

Jazyková technológia: Nástroje, technológie a aplikácie

Rozpoznávanie reči 3 1 2 2 3 3 2

Syntéza reči 3 3 3 3 3 3 3

Gramatická analýza 2 2 3 2 2 3 3

Sémantická analýza 1 2 1 1 1 3 3

Generovanie textu 1 1 1 1 0 1 1

Strojový preklad 2 2 2 2 2 1 2

Jazykové zdroje: Zdroje, dáta a znalostné databázy

Textové korpusy 2 4 4 5 4 4 4

Hovorené korpusy 3 4 2 2 3 3 3

Paralelné korpusy 2 3 2 2 2 2 3

Lexikálne zdroje 3 2 3 4 3 4 3

Gramatiky 2 3 3 2 1 2 1

9: Stav podpory jazykových technológií v slovenčine

existujúcich nástrojov a zdrojov v rozmedzí 0 (veľminízky) až 6 (veľmi vysoký) navrhli poprední odborníci.

1. Kvantita: Existuje pre daný jazyk nejakýnástroj/zdroj? Čím viac nástrojov/zdrojov existuje,tým je hodnotenie vyššie.

0: neexistujú žiadne nástroje/zdroje

6: mnoho nástrojov/zdrojov, veľká rôznorodosť

2. Dostupnosť: Sú nástroje/zdroje dostupné? –t. j. sú Open Source voľne použiteľné na akejkoľvekplatforme alebo sú dostupné len za vysokú cenu,resp. za obmedzených podmienok?

0: takmer všetky nástroje/zdroje sú dostupné lenza vysokú cenu

6: veľké množstvo nástrojov/zdrojov je voľnedostupných vďaka licenciám OpenSource, akonapr. Creative Commons, ktoré umožňujú

opätovné použitie a prispôsobenie potrebámpoužívateľa (v prípade, že tam sú napr. dva rôznezdroje, jeden znichúplne otvorený adruhýúplneuzavretý, do tabuľky zadáme priemer, t. j. 3)

3. Kvalita: Do akej miery sa jednotlivé kritériásprávania nástrojov a ukazovatele kvality zdrojovpribližujú ku kvalite najlepších dostupnýchnástrojov, aplikácií či zdrojov? Sú tietonástroje/zdroje aktuálne a udržiavané?

0: amatérsky nástroj/zdroj

6: kvalitný nástroj/zdroj, anotácie v zdroji sakvalitou rovnajú ručným anotáciám

4. Pokrytie: Do akej miery spĺňajú najlepšiedostupné nástroje príslušné kritériá pokrytia (štýlov,žánrov, druhov textov, jazykových javov, typovvstupov/výstupov, počtu jazykov podporovaných

31

Page 39: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

MT systémami atď.)? Do akej miery sú zdrojereprezentantmi daných jazykov, resp. subjazykov?

0: zdroj/nástroj určený na špecifické účely,osobité prípady, malé pokrytie, používa sa len voveľmi špecifických, neobvyklých prípadoch

6: zdroj so širokým pokrytím, robustnýnástroj, široko uplatniteľný, veľké množstvopodporovaných jazykov

5. Vyspelosť: Môže sa nástroj/zdroj považovaťza vyspelý, stabilný a pripravený na trh? Dajúsa najlepšie dostupné nástroje/zdroje priamopoužiť alebo sa musia upraviť? Je výkon takýchtotechnológií dostatočný a použiteľný? Alebo sú tolen prototypy, ktoré sú nevhodné pre produktívnesystémy? Ukazovateľom vyspelosti môže byť prijatienástrojov/zdrojov do komunity a ich úspešnépoužívanie v systémoch jazykových technológií.

0: predbežný prototyp, amatérsky systém,overenie koncepcie

6: okamžite integrovateľný/použiteľný prvoksystému

6. Udržateľnosť: Ako sa dá nástroj/zdroj udržiavať,resp. integrovať do súčasných informačnýchsystémov? Spĺňa nástroj/zdroj určitú úroveňudržateľnosti vzhľadom na dokumentáciu/manuály,vysvetlenie prípadov použitia, front-endy, GUI atď.?Využíva daný nástroj štandardné/najspoľahlivejšieprogramovacie jazyky (napr. Java EE)? Existujútechnické/výskumné normy, resp. kvázinormy? Akáno, vyhovuje nástroj/zdroj týmto normám (dátovéformáty a pod.)?

0: súkromné zdroje, dátové formáty aAPI ad hoc

6: zdroje úplne vyhovujúce normám, kompletnádokumentácia

7. Adaptabilnosť: Do akej miery sa dajú najlepšienástroje/zdroje adaptovať, resp. rozšíriť na nové

úlohy/domény/žánre/typy textov/prípady použitiaatď.?

0: je prakticky nemožné adaptovať nástroj/zdrojna nové úlohy, dokonca ani s použitím veľkéhomnožstva zdrojov či človekohodín

6: vysoká úroveň adaptabilnosti; nástroje/zdrojesa dajú veľmi jednoducho a efektívne adaptovať

Tabuľka sa dá zhrnúť do niekoľkých kľúčových bodov:

Na Slovensku existuje niekoľko špecializovanýchkvalitných korpusov, ale dosiaľ tu nie je dostupnýžiaden veľký, syntakticky anotovaný korpus.

Referenčným korpusom pre slovenčinu je Slovenskýnárodný korpus. Kvôli licenčným obmedzeniam jevšak prístupné len jeho vyhľadávacie rozhranie.

Na druhej strane, korpus hovorených textovnepodlieha zákonu o ochrane autorských práv a jeverejne dostupný. Jeho rozsah je však oproti rozsahukorpusu písaných textov nepatrný.

Mnohé zdroje sú neštandardizované, t. j. aj keďexistujú, nie sú udržiavané. Na štandardizáciu dáta výmenu formátov je nevyhnutné spoločné úsiliea iniciatíva.

Spracovať sémantiku je ťažšie ako spracovať syntax;spracovať textovú sémantiku je ťažšie než spracovaťlexikálnu a vetnú sémantiku.

Slovenčina má ontologický zdroj (zmapovanýna anglické ontologické zdroje), no jeho pokrytieje obmedzené.

V zmysle reprezentácie vedomostí o svete existujúštandardy pre sémantiku (RDF, OWL, atď.), ktorésa však ťažko aplikujú na úlohy NLP.

Spracovanie písaného textu je rozvinutejšieako spracovanie hovoreného textu (najmärozpoznávania reči).

V slovenčine chýbajú mnohé zdroje, ktoré sa v inýchjazykoch považujú za štandard; jazykový výskumNLP je na Slovensku veľmi slabo financovaný.

32

Page 40: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Niektoré výskumné a vývojové aktivity preslovenčinu sa realizujú v Českej republike –na českých univerzitách alebo v súkromnom sektore.

Výskum rozpoznávania reči pre slovenčinuprebieha na niekoľkých univerzitách a výskumnýchpracoviskách, no množstvo voľne dostupnýchnástrojov a dát je obmedzené.

Naopak, syntézu reči spracúvajú univerzity a inévedecké pracoviská v oveľa menšom rozsahu.

V oblasti syntézy reči sú dostupné OpenSourcebalíky a niekoľko jednoduchých syntetizátorov reči,no syntéza reči s prirodzenejšími hlasmi nie jedostupná.

Slovenské dialógové systémy sú veľmimálo rozšírenév dôsledku nízkej dostupnosti kvalitných modulovrozpoznávania reči pre slovenčinu.

4.7 POROVNANIE JAZYKOVSúčasný stav jazykových technológií je rozdielnyv každej krajine. Na porovnanie situácie medzijednotlivými jazykmi slúži nasledujúce ohodnotenievzorových aplikácií v oblasti strojového prekladua spracovania jazyka, textovej analýzy a zdrojovpríslušného jazyka, ktoré sú nevyhnutné na tvorbujazykových technológií. Tieto jazyky sa zoskupili nazáklade nasledujúcej päťbodovej škály:

1. vynikajúca podpora jazykových technológií

2. veľmi dobrá podpora

3. dobrá podpora

4. čiastočná podpora

5. slabá alebo žiadna podpora

Podpora jazykových technológií sa merala podľanasledovných kritérií:

Spracovanie reči: Kvalita existujúcich technológií narozpoznávanie reči, kvalita existujúcich technológií

rečovej syntézy, záber domén, počet a veľkosťexistujúcich hovorených korpusov, množstvoa pestrosť dostupných na reči založených aplikácií

Strojový preklad: Kvalita existujúcich technológiístrojového prekladu, počet pokrytých jazykovýchpárov, pokrytie lingvistických fenoménov a domén,kvalita a veľkosť existujúcich paralelných korpusov,množstvo a pestrosť dostupných aplikácií strojovéhoprekladu

Textová analýza: Kvalita a pokrytie existujúcichtechnológií textovej analýzy (morfológie, syntaxe,sémantiky), pokrytie lingvistických fenoménova domén, množstvo a pestrosť dostupných aplikácií,kvalita a veľkosť existujúcich (anotovaných)textových korpusov, kvalita a pokrytie existujúcichlexikálnych zdrojov (napr. WordNet) a gramatík

Zdroje: Kvalita a veľkosť existujúcich textovýchkorpusov, hovorených korpusov a paralelnýchkorpusov, kvalita a pokrytie existujúcich lexikálnychzdrojov a gramatík

4.8 ZÁVERYTouto sériou bielych kníh sme uskutočnili prvé krokyna stanoenie stupňa podpory jazykových technológií pre30 európskych jazykov a na vysokej úrovni sme ponúkliporovnanie situácie medzi jednotliými jazykmi. Poodhalení medzier, potrieb a nedostatkov môže Európskajazyková komunita a jej zainteresované strany realizovaťrozsiahly výskuma rozojový program s cieľom vybudovaťs pomocou technológií v Európe skutočne multilingálnukomunikáciu.Biela kniha dokazuje, že na Slovensku existuje kvalitnéprostredie pre lingvistický výskum aj napriek tomu,že daný technologický priemysel sa tu dostatočnenerozvinul. Slovenský výskum sa realizuje iba s malýmpočtom dostupných technológií a zdrojov. Tento početje nižší ako v prípade iných jazykov ako sú čeština alebo

33

Page 41: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

poľština a podstatne nižší ako je to v prípade hlavnýchjazykov EÚ (angličtiny, nemčiny alebo francúzštiny).Slovenské jazykové technológie a zdroje majú navyšezjavne horšiu kvalitu.Náš pohľad na technologickú podporu slovenskéhojazyka naozaj nemôže byť optimistický. Na Slovenskumáme rodiaci sa výskum v oblasti jazykovýchtechnológií pre slovenčinu, a to najmä na univerzitách,vo vedeckých pracoviskách, ako aj v malých a strednýchpodnikoch, ktoré sa zameriavajú na základný výskum ariešenia špecifických problémov v oblasti jazykovýchtechnológií. Rôzne inštitúcie zasvätili svoj výskumrozvoju jazykových technológií, ako sú tvorba veľkýchkorpusov slovenčiny (písaných textov ale aj hovorenéhojazyka), morfologická analýza, strojový preklad,komplexné rečové interaktívne systémy, rozpoznávaniereči a podobné. Ich rozvoj je však nutné ďalej rozvíjať apodporovať.

Ako uvádza táto správa, skôr ako bude možné urobiťnejaký posun v spracovávaní slovenčiny, musia sapodniknúť okamžité kroky. Je jasné, že samusí vynaložiťväčšia snaha vytvoriť zdroje jazykových technológiípre slovenčinu a viesť výskum, inováciu a rozvojako taký. Potreba veľkoobjemových dát a extrémnakomplikovanosť systémov jazykových technológií robírozvoj novej infraštruktúry veľmi dôležitým. Podporiloby to spoluprácu všetkých zainteresovaných strán.Vo financovaní výskumu a rozvoja chýba kontinuita.Krátkodobo koordinované programy sa striedajú sobdobiami nízkeho až zriedkavého financovania,pričom je tu badateľný celkový nedostatok koordinácieprogramov v ďalších krajinách EÚ a v samotnejEurópskej komisii. Slovenčine by spolu s ďalšímijazykmi pomohol väčší záujem o jazykové technológiea vytvorenie viacjazyčného programu pre európskekrajiny a celý svet [56].

34

Page 42: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Vynikajúca Veľmi dobrá Dobrá Čiastočná Slabá/Žiadnapodpora podpora podpora podpora podpora

angličtina nemčinataliančinafínčinafrancúzštinaholandčinaportugalčinašpanielčinačeština

baskičtinabulharčinadánčinaestónčinagalícijčinagréčtinaírčinakatalánčinanórčinapoľštinašvédčinasrbčinaslovenčinaslovinčinamaďarčina

islandčinachorvátčinalotyštinalitovčinamaltčinarumunčina

10: Klastre jazykov pre spracovanie reči

Vynikajúca Veľmi dobrá Dobrá Čiastočná Slabá/Žiadnapodpora podpora podpora podpora podpora

angličtina francúzštinašpanielčina

nemčinataliančinakatalánčinaholandčinapoľštinarumunčinamaďarčina

baskičtinabulharčinadánčinaestónčinafínčinagalícijčinagréčtinaírčinaislandčinachorvátčinalotyštinalitovčinamaltčinanórčinaportugalčinašvédčinasrbčinaslovenčinaslovinčinačeština

11: Klastre jazykov pre strojový preklad

35

Page 43: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Vynikajúca Veľmi dobrá Dobrá Čiastočná Slabá/Žiadnapodpora podpora podpora podpora podpora

angličtina nemčinafrancúzštinataliančinaholandčinašpanielčina

baskičtinabulharčinadánčinafínčinagalícijčinagréčtinakatalánčinanórčinapoľštinaportugalčinarumunčinašvédčinaslovenčinaslovinčinačeštinamaďarčina

estónčinaírčinaislandčinachorvátčinalotyštinalitovčinamaltčinasrbčina

12: Klastre jazykov pre textovú analýzu

Vynikajúca Veľmi dobrá Dobrá Čiastočná Slabá/Žiadnapodpora podpora podpora podpora podpora

angličtina nemčinafrancúzštinaholandčinašvédčinačeštinapoľštinamaďarčinataliančinašpanielčina

baskičtinabulharčinadánčinaestónčinafínčinagalícijčinagréčtinakatalánčinachorvátčinanórčinaportugalčinarumunčinasrbčinaslovenčinaslovinčina

írčinaislandčinalotyštinalitovčinamaltčina

13: Klastre jazykov pre zdroje

36

Page 44: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

5

O META-NET-E

META-NET je sieť excelentnosti čiastočne financovanáz fondov Európskej komisie. Sieť tvorí v súčasnosti54 výskumných centier z 33 krajín [57]. META-NETbudujeMultilingválnu európsku technologickú alianciuMETA, ktorá predstavuje narastajúcu komunituprofesionálov jazykových technológií a organizáciív Európe.META-NET podporuje technologické základymultilingválnej európskej informačnej spoločnosti tým,že:

umožňuje komunikáciu a spoluprácu v rôznychjazykoch;

garantuje všetkým Európanom rovnaký prístupk informáciám a vedomostiamv ľubovoľnom jazyku;

buduje a vylepšuje funkcie zosieťovanýchinformačných technológií.

Sieť podporuje Európu tým, že ju spája ako jedinýdigitálny trh a informačný priestor. META-NETstimuluje a podporuje rozvoj viacjazyčných technológiívšetkých európskych jazykov. Tieto technológievyužívajú automatický preklad, generujú obsah,spracúvajú informácie, riadia vedomostný manažmenta i. Využívajú tiež intuitívne jazykové rozhraniaaplikovateľné na rozmanité technologické výdobytkyako je domáca elektronika, stroje, autá alebo počítače čiroboty.Od 1. februára 2010 v sebe META-NET zahŕňa trinasledujúce okruhy činností: META-VISION,META-SHARE a META-RESEARCH.META-VISION podporuje dynamickú a vplyvnúkomunitu zainteresovaných strán, ktorú zjednocuje

strategický výskumný program (SRA; StrategicResearch Agenda) pre oblasť európskych jazykovýchtechnológií. Hlavným cieľom META-VISION jevytvoriť v Európe ucelenú a súdržnú komunitujazykových technológií cez zoskupenie rôznychzainteresovaných strán. Súčasná séria bielychkníh bola pripravovaná v 29 jazykoch. Spoločnátechnologická vízia sa vytvárala v troch vizionárskychskupinách. Technologická rada META vznikla s cieľomprediskutovať a pripraviť strategický výskumný programzaložený na vízii vzájomnej spoluprácie celej komunityjazykových technológií.META-SHARE vytvára možnosti na výmenua sprístupnenie zdrojov. Sieť dátových úložísk budeobsahovať publikácie, súbory dát, multimediálnesúbory, výpočtové nástroje, služby a aplikácieusporiadané do štandardizovaných kategórií. Zdrojesa dajú jednoducho vyhľadať. Sú to jednak bezplatnéa voľne prístupné materiály, ale aj zdroje s obmedzenýma spoplatneným použitím.META-RESEARCH spája príbuzné technologickéoblasti. Táto oblasť sa snaží využiť poznatky inýchoblastí a zužitkovať ich na výskum jazykovýchtechnológií. Tento okruh sa obzvlášť zameriavana špičkový výskum v oblasti strojového prekladu,zbierania dát, prípravy dátových súborov aorganizovania jazykových zdrojov na účel hodnotenia;na zostavovanie inventára nástrojov a metód aorganizovanie seminárov či školení pre členovkomunity.

37

Page 45: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

[email protected] – http://www.meta-net.eu

English

38

Page 46: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

1

EXECUTIVE SUMMARY

During the last 60 years, Europe has become a distinctpolitical and economic structure, yet culturally and lin-guistically it is still very diverse. is means that fromPortuguese to Polish and Italian to Icelandic, every-day communication between Europe’s citizens as well ascommunication in the spheres of business and politics isinevitably confronted with language barriers. e EU’sinstitutions spend about a billion euros a year on main-taining their policy of multilingualism, i. e., translatingtexts and interpreting spoken communication. Yet doesthis have to be such a burden? Modern language tech-nology and linguistic research can make a significantcontribution to pulling down these linguistic borders.When combined with intelligent devices and applica-tions, language technology will in the future be able tohelp Europeans talk easily to each other and do businesswith each other even if they do not speak a common lan-guage.

Language technology builds bridges.

One classic way of overcoming the language barrier is tolearn foreign languages. Yet without technological sup-port, mastering the 23 official languages of the memberstates of the European Union and some 60 other Euro-pean languages is an insurmountable obstacle for the cit-izens of Europe and its economy, political debate, andscientific progress.e solution is to build key enabling technologies.ese will offer European actors tremendous advan-tages, not only within the common European market

but also in trade relations with third countries, espe-cially emerging economies. To achieve this goal and pre-serve Europe’s cultural and linguistic diversity, it is nec-essary to first carry out a systematic analysis of the lin-guistic particularities of all European languages, and thecurrent state of language technology support for them.Language technology solutions will eventually serve asa unique bridge between Europe’s languages.

Language technology as a key for the future.

Language technologies and natural language processingof the Slovak language have been lagging behind a lot,compared with the situation in neighbouring countries.For example, there was a high quality natural languageprocessing research carried on in theCzech Republic al-ready in the mid-1990s, and the Czech language tech-nologies have strong commercial backing. In Slovakia,the first foray into the field was in the beginning of thismillennium, with the creation of the Slovak NationalCorpus.e first two big government funded research projectswith a focus on language technologies and resourcesin Slovakia were National Corpus of the Sloak Lan-guage and Electronisation of Linguistic Research in theyears 2002–2006 and Integrated Computational Pro-cessing of the Sloak Language for Linguistic ResearchPurposes, both carried out at Ľ. Štúr Institute of Lin-guistics, Slovak Academy of Sciences, and their contin-uation as Construction of Sloak National Corpus andElectronisation of Linguistic Research in Sloakia (in the

39

Page 47: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

years 2007–2011), sponsored by theMinistry of Educa-tion of the Slovak Republic, Ministry of Culture of theSlovak Republic and the Slovak Academy of Sciences.Another major project concerning the Slovak languageprocessing was the project Automatic Transcription ofDictate for the Ministry of Justice of the Sloak Repub-lic, coordinated by the Department of Speech Analysisand Synthesis of the Institute of Informatics of the Slo-vak Academy of Sciences, with participation of the De-partment of Electronics and Multimedia Communica-tions of the Technical University of Košice, carried outin the years 2009–2011, funded by the Ministry of Jus-tice of the Slovak Republic. e goal of the project wasto create a complete system for transcribing spoken Slo-vak language, specialised for judicial domain and is cur-rently being deployed in the courts of law in the SlovakRepublic.ese three projects were so far the only major initia-tives concerning natural language processing of the Slo-vak language. As this white paper series shows, there isa dramatic difference between the level of research and

the state of language tools and resources for Slovak andother European languages. erefore, a focused effort isneeded to bring up the Slovak language technologies toa comparable level.

Language technology helps unify Europe.

META-NET’s long-term goal is to introduce high-quality language technology for all languages in order toachieve political and economic unity through culturaldiversity. e technology will help tear down existingbarriers and build bridges between Europe’s languages.is requires all stakeholders - in politics, research, busi-ness, and society - to unite their efforts for the future.is white paper series complements other strategic ac-tions taken by META-NET (see the appendix for anoverview). Up-to-date information such as the currentversion of the META-NET vision paper [58] or theStrategic Research Agenda (SRA) can be found on theMETA-NET web site: http://www.meta-net.eu.

40

Page 48: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in digital information and communicationtechnology are sometimes compared to Gutenberg’s in-vention of the printing press. What can this analogy tellus about the future of the European information societyand our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press.

Aer Gutenberg’s invention, real breakthroughs incommunication and knowledge exchange were accom-plished by efforts such as Luther’s translation of theBible into vernacular language. In subsequent centuries,cultural techniques have been developed to better han-dle language processing and knowledge exchange:

the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas;

the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries;

the teaching and translation of languages enabled ex-changes across languages;

the creationof editorial andbibliographic guidelinesassured the quality and availability of printed mate-rial;

the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

In the past twenty years, information technology hashelped to automate and facilitate many of the processes:

desktop publishing soware has replaced typewrit-ing and typesetting;

presentation soware, such asOpenOffice/LibreOfficeImpress or Microso PowerPoint has replaced over-head projector transparencies;

e-mail send and receive documents faster than a faxmachine;

SIP telephony and Skype offers cheap Internetphone calls and hosts virtual meetings;

audio and video encoding formatsmake it easy to ex-change multimedia content;

search engines provide keyword-based access to webpages;

online services like Google Translate produce quick,approximate translations;

social media platforms such as Facebook, Twitter,and Google+ facilitate communication, collabora-tion, and information sharing.

Although such tools and applications are helpful, theyare not yet capable of supporting a sustainable, multi-lingual European society for all where information andgoods can flow freely.

41

Page 49: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informa-tion society will look like. But there is a strong like-lihood that the revolution in communication technol-ogy is bringing people speaking different languages to-gether in new ways. is is putting pressure on individ-uals to learn new languages and especially on develop-ers to create new technology applications to ensure mu-tual understanding and access to shareable knowledge.In a global economic and information space, more lan-guages, speakers and content interactmore quickly withnew types of media. e current popularity of socialmedia (Wikipedia, Facebook, Twitter, YouTube, Pokec,Google+) is only the tip of the iceberg.

The global economy and information spaceconfronts us with different languages, speakers

and content.

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language we do not understand. According to a re-cent report from the EuropeanCommission, 57% of In-ternet users in Europe purchase goods and services innon-native languages (English is the most common for-eign language followed by French, German and Span-ish). 55% of users read content in a foreign languagewhile only 35% use another language to write e-mails orpost comments on theWeb [2]. A few years ago, Englishmight have been the lingua franca of the Web – the vastmajority of content on the Web was in English – butthe situation has now drastically changed. e amountof online content in other European (as well as Asianand Middle Eastern) languages has exploded. Surpris-ingly, this ubiquitous digital divide due to language bor-

ders has not gainedmuchpublic attention; yet, it raises avery pressing question: Which European languages willthrive in the networked information and knowledge so-ciety, and which are doomed to disappear?

2.2 OUR LANGUAGES AT RISKWhile the printing press helped step up the exchange ofinformation in Europe, it also led to the extinction ofmany European languages. Regional and minority lan-guages were rarely printed and languages such as Ro-mani and Rusyn were mostly limited to oral forms oftransmission, which in turn restricted their scope ofuse. Will the Internet have the same impact on our lan-guages? Europe’s approximately 80 languages are oneof its richest and most important cultural assets, anda vital part of its unique social model [3]. While lan-guages such as English and Spanish are likely to sur-vive in the emerging digital marketplace, many Euro-pean languages could become irrelevant in a networkedsociety. is would weaken Europe’s global standing,and run counter to the strategic goal of ensuring equalparticipation for every European citizen regardless oflanguage. According to a UNESCO report on multi-lingualism, languages are an essential medium for theenjoyment of fundamental rights, such as political ex-pression, education and participation in society [4].

The variety of languages in Europe is one of itsrichest and most important cultural assets.

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investment efforts in language preservationfocused on language education and translation. Accord-

42

Page 50: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

ing to one estimate, the European market for transla-tion, interpretation, soware localisation and websiteglobalisationwas €8.4 billion (short scale, i. e., 8.4�109.)in 2008 and is expected to grow by 10% per annum [5].Yet this figure covers just a small proportion of currentand future needs in communicating between languages.e most compelling solution for ensuring the breadthand depth of language usage in Europe tomorrow is touse appropriate technology, just as we use technology tosolve our transport, energy and disability needs amongothers.Digital language technology (targeting all forms ofwrit-ten text and spoken discourse) helps people collaborate,conduct business, share knowledge and participate insocial and political debate regardless of language barri-ers and computer skills. It oen operates invisibly insidecomplex soware systems to help us:

find information with an Internet search engine;

check spelling and grammar in a word processor;

view product recommendations in an online shop;

hear the verbal instructions of a car navigation sys-tem;

translate web pages via an online service.

Language technology consists of a number of core appli-cations that enable processes within a larger applicationframework. e purpose of the META-NET languagewhite papers is to focus on how ready these core tech-nologies are for each European language.

Europe needs robust and affordable languagetechnology for all European languages.

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology adaptedto all European languages that is robust, affordable andtightly integrated within key soware environments.

Without language technology, we will not be able toachieve a really effective interactive, multimedia andmultilingual user experience in the immediate future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text (a page) usinga suitably powered printing press. Human beings had todo thehardworkof lookingup, reading, translating, andsummarizing knowledge. We had to wait until Edisonto record spoken language – and again his technologysimply made analogue copies.

Digital language technology can now automate thevery processes of translation, content production, andknowledge management for all European languages. Itcan also empower intuitive language/speech-based in-terfaces for household electronics, machinery, vehicles,computers and robots. Real-world commercial and in-dustrial applications are still in the early stages of devel-opment, yet R&D achievements are creating a genuinewindow of opportunity. For example, machine transla-tion is already reasonably accurate in specific domains,and experimental applications provide multilingual in-formation and knowledge management as well as con-tent production in many European languages.

As with most technologies, the first language appli-cations such as voice-based user interfaces and dia-logue systems were developed for highly specialised do-mains, and oen exhibit limited performance. Butthere are huge market opportunities in the educationand entertainment industries for integrating languagetechnologies into games, cultural heritage sites, edu-tainment packages, libraries, simulation environmentsand training programmes. Mobile information ser-vices, computer-assisted language learning soware, e-learning environments, self-assessment tools and plagia-

43

Page 51: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

rism detection soware are just some of the applicationareas where language technology can play an importantrole. e popularity of social media applications likeTwitter, Pokec or Facebook suggest a further need forsophisticated language technologies that can monitorposts, summarise discussions, suggest opinion trends,detect emotional responses, identify copyright infringe-ments or track misuse.

Language technology helps overcome the“disability” of linguistic diversity.

Language technology represents a tremendous oppor-tunity for the European Union. It can help addressthe complex issue of multilingualism in Europe – thefact that different languages coexist naturally in Euro-pean businesses, organisations and schools. But citi-zens need to communicate across these language borderscriss-crossing the European Common Market, and lan-guage technology can help overcome this final barrierwhile supporting the free andopenuse of individual lan-guages.

Looking even further forward, innovative Europeanmultilingual language technology will provide a bench-mark for our global partners when they begin to enabletheir own multilingual communities.

Language technology can be seen as a form of ‘assistive’technology that helps overcome the ‘disability’ of lin-guistic diversity and make language communities moreaccessible to each other. Finally, one active field of re-search is the use of language technology for rescue op-erations in disaster areas, where performance can be amatter of life and death: Future intelligent robots withcross-lingual language capabilities have the potential tosave lives.

2.5 CHALLENGES FACINGLANGUAGE TECHNOLOGYAlthough language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely-used technologies such as the spelling and gram-mar correctors in word processors are typically mono-lingual, and are only available for a handful of languages.Online machine translation services, although usefulfor quickly generating a reasonable approximation of adocument’s contents, are fraught with difficulties whenhighly accurate and complete translations are required.Due to the complexity of human language, modellingour tongues in soware and testing them in the realworld is a long, costly business that requires sustainedfunding commitments. Europe must therefore main-tain its pioneering role in facing the technology chal-lenges of a multiple-language community by inventingnewmethods to accelerate development right across themap. ese could include both computational advancesand techniques such as crowdsourcing.

Technological progress needs to be accelerated.

2.6 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them to use it, let’s look briefly atthe way humans acquire first and second languages, andthen see how language technology systems work.Humans acquire language skills in two different ways.Babies acquire a language by listening to the real inter-actions between its parents, siblings and other familymembers. From the age of about two, children produce

44

Page 52: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

their first words and short phrases. is is only possi-ble because humans have a genetic disposition to imitateand then rationalise what they hear.Learning a second language at an older age requiresmore effort, largely because the child is not immersedin a language community of native speakers. At school,foreign languages are usually acquired by learning gram-matical structure, vocabulary and spelling using drillsthat describe linguistic knowledge in terms of abstractrules, tables and examples. Learning a foreign languagegets harder with age.

Humans acquire language skills in two differentways: learning from examples and learning the

underlying language rules.

e two main types of language technology systems ‘ac-quire’ language capabilities in a similar manner. Sta-tistical (or ‘data-driven’) approaches obtain linguisticknowledge from vast collections of concrete exampletexts. While it is sufficient to use text in a single lan-guage for training, e. g., a spell checker, parallel texts intwo (or more) languages have to be available for train-ing a machine translation system. e machine learn-ing algorithm then “learns” patterns of howwords, shortphrases and complete sentences are translated.is statistical approach can require millions of sen-tences and performance quality increases with theamount of text analysed. is is one reason why searchengine providers are eager to collect as much writtenmaterial as possible. Spelling correction in word pro-cessors, and services such as Google Search and GoogleTranslate all rely on statistical approaches. e great ad-vantage of statistics is that the machine learns fast incontinuous series of training cycles, even though qual-ity can vary arbitrarily.

e second approach to language technology and ma-chine translation in particular is to build rule-basedsystems. Experts in the fields of linguistics, computa-tional linguistics and computer science first have to en-code grammatical analyses (translation rules) and com-pile vocabulary lists (lexicons). is is very time con-suming and labour intensive. Some of the leading rule-basedmachine translation systems have been under con-stant development for more than twenty years. egreat advantage of rule-based systems is that the expertshavemoredetailed control over the languageprocessing.is makes it possible to systematically correct mistakesin the soware and give detailed feedback to the user, es-pecially when rule-based systems are used for languagelearning. But due to the high cost of this work, rule-based language technology has so far only been devel-oped for major languages.As the strengths and weaknesses of statistical and rule-based systems tend to be complementary, current re-search focuses on hybrid approaches that combine thetwomethodologies. However, these approaches have sofar been less successful in industrial applications than inthe research lab.As we have seen in this chapter, many applicationswidely used in today’s information society rely heavilyon language technology. Due to its multilingual com-munity, this is particularly true of Europe’s economicand information space. Although language technologyhas made considerable progress in the last few years,there is still huge potential in improving the quality oflanguage technology systems. In the following, we willdescribe the role of Slovak in European information so-ciety and assess the current state of language technologyfor the Slovak language.

45

Page 53: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

3

SLOVAK IN THE EUROPEAN INFORMATIONSOCIETY

3.1 GENERAL FACTSe Slovak Republic is a country in Central Europeneighbouring both Slavic (Czech Republic, Poland,Ukraine) and non-Slavic countries (Hungary, Austria).Its geographic location, mostly mountainous landscapeand historical development created the considerablymulti-ethnic and multicultural character of the coun-try. It also caused a variety of Slovak dialects and thesubsequent codification of (modern) standard Slovakas an over-regional communication mean by as late as1843. Although part of the territory of Slovakia be-longed to the historic Great Moravia, where Constan-tine andMethodius, invited from the Byzantine Empirein the 9th century were spreading the Christian religionand education through Old Church Slavonic and theGlagolitic alphabet. Later development of Slovakia andthe Slovak language was influenced by the Latin alpha-bet andRoman culture. Several influences subsequentlyoccurred that le traces on the Slovak language as well.

e Slovak language– in the Indo-European family oflanguages, together with Polish, Czech, Lower and Up-per Sorbian – belongs to the West branch of Slavic lan-guages. Linguistic, historic, and archaeological sourcesprove that Slovak developed directly from Proto-Slavic.e Proto-Slavic basis of Slovak was formed in the areabetween the Carpathians, the Danube, and the UpperMoravia. e Slavonians, predecessors of the Slovaks,came to this area in the 6th century from the south-east.e reconstructed language of the Great Moravian eth-

nic group, which was divided into dialects but formeda certain cultural form can be regarded as the basis ofSlovak. eSlovak languagewent through fast develop-ment in the 10th to 12th centuries (jer vocalisation, dis-appearance of nasal vowels), and stabilised in the 13th to15th centuries. In the 16th to 18th centuries, Czech wasused as the cultural language in Slovakia, together withseveral types of cultural Slovak, such as cultural WestSlovak, culturalCentral Slovak and cultural East Slovak.By the end of the 18th century, attempts at the forma-tion of literary Slovak had started. At the end of the 18th

century, Anton Bernolák based his codification on cul-turalWest Slovak, but failed to getwide recognition dueto changed social and economic conditions. ĽudovítŠtúr used Central Slovak as the basis and his idea tookhold very soon, and with certain modifications (MartinHattala, Michal Miloslav Hodža) lasts up to these days.

Slovak is the official language in the Slovak Republic.Since May 2004 it has also been one of the administra-tive languages of the European Union. Slovak is spo-ken by 4.5 million inhabitants of Slovakia, more than 1million emigrants in theUnited States, and approx. 300thousand people in the Czech Republic. Smaller lan-guage groups of Slovaks are situated in Hungary, Ro-mania, Serbia, Croatia, Bulgaria, Poland, the UnitedKingdom, France, Germany, Belgium, Austria, Nor-way, Denmark, Finland, Sweden, Italy, Switzerland, theNetherlands, Cyprus, Russia, Ukraine, Kyrgyzstan, Is-rael, Canada, South Africa, Argentina, Brazil, Uruguay,Australia, New Zealand, and other countries. e Slo-

46

Page 54: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

vak language is the “esperanto” of all the Slavic lan-guages due to its most comprehensible character forother users of Slavic langugages.

The Slovak language is the “esperanto” of all theSlavic languages.

Slovaks abroad pertain to different groups: they are de-scendants of indigenous inhabitants of Slovakia, whomoved to other areas of former Austro-Hungary; de-scendants of later migrants from Slovakia, living over-seas (emigration wave from the late 19th to the mid20th century); political and economic migrants aer1945, 1948, and 1968 and their descendants; and fi-nally, mostly young people settled abroad aer theyear 1990. It is estimated that some 270 000 Slovakswent abroad in the last wave of emigration in the years2007–2008. A special group consists of descendantsof Slovaks, who remained abroad due to political andgeographical changes aer the year 1918 or the year1945. At the same time, there are ethnic minorities liv-ing in Slovakia (Hungarians, Gypsies, Czechs, Rutheni-ans, Ukrainians, Germans, Poles, Moravians, Croatians,Bulgarians, Jews), which together account for 14.2% ofpopulation of Slovakia.e Slovak language has several forms: standard Slo-vak is mainly used in written form and in official com-munication and colloquial Slovak represents a standardmainly used in verbal communication. Each form hasspecific subgroups, which form the Slovak languagestratification: literary language / nationwide standardlanguage / nationwide substandard language / regionalvariant / local variant, territorial variant (dialects), socialvariant (slang, jargon, argot, professional languages). Atthe time of compiling this dcument, responsibility forcontrol over language and language policy was borne bythe Ministry of Culture (Act on State Language, Cen-tral Language Board). Its decisions should be based on

the knowledge and opinions of the scientific and pro-fessional community led by the Ľudovít Štúr Instituteof Linguistics of the Slovak Academy of Sciences. eInstitute is a founder and coordinator of several com-missions with nationwide coverage: spelling commit-tee, orthoepic committee, onomastic committee, andthe committee for codification. e committees pre-pare and recommendcodificationof orthoepic, spelling,grammatical and lexical rules. Spelling rules are sub-ject to a broader discussion with the involvement ofthe general public, but due to the interconnection ofmany factors and social impact of any changes they arenot amended too oen. e last amendments, espe-cially in the rules of rhythmic alternation and capital-isation, were made in 1991. e lexicographic works(Krátky slovník slovenského jazyka, Slovník súčasnéhoslovenského jazykaA–G,H–L, Synonymický slovník,Slovník cudzích slov – akademický [6, 7, 8, 9, 10]) com-piled at the Ľ. Štúr Institute of Linguistics of the SlovakAcademy of Sciences cover not only the orthographybut also lexical, grammar and orthoepic rules. Mono-graphs and scientific articles published by the Institutecapture the Slovak language situations in all its areas.

e territorial arrangement of Slovakia (a territory withan area of almost 50 000 km2 is mainly situated length-wise; the length between eastern and western border-lines is almost 430 km) and specifics of individual di-alects also affect forms of Slovak language in specific re-gions and locations, which represents a problem to becoped with mainly by foreigners learning Slovak andmoving throughout the territory of the Slovak Repub-lic.

3.1.1 Slovak Dialects

Slovak dialects are ameans of communication of the au-tochthonous population of the respective dialect areasin everyday social and working relations with the near-est environment. Slovak dialects are inherited from one

47

Page 55: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

1743

42

1814

1210

11

40 40

4041

41 41

34

353331

3230

20

4243

43 43

2442

25 23 15

2622

2113

16

42

1: Map of Slovak Dialects

generation to the next in verbal form, although the pro-cess of levelling can be observed in this area.

Vocabularies of individual dialects in Slovakia are de-scribed in more detail in the Dictionary of Slovak Di-alects and several dialects are described in separate stud-ies with an extension to other linguistic levels.

Slovak dialects are divided into three basic groups (seefigure 2):

a) e Western Slovak dialects are spread throughoutthe Trenčín, Nitra, Trnava, Myjava areas and otherregions.

20. Upper Trenčín dialects

21. Lower Trenčín dialect

22. Váh river dialect

23. Central Nitra dialects

24. Lower Nitra dialects

25. Trnava area dialects

26. Záhorie dialect

b) e central Slovak dialects are spoken in the regionsof Liptov, Orava, Turiec, Tekov, Hont, Novohrad,Gemer and in the Zvolen area.

10. Liptov dialects

11. Orava dialects

12. Turiec dialect

13. Upper Nitra dialects

14. Zvolen dialects

15. Tekov dialects

16. Hont dialect

17. Novohrad dialects

18. Gemer dialects

c) e eastern Slovak dialects can be found in the re-gions of Spiš, Šariš, Zemplín and Abov.

30. Spiš dialects

31. Abov dialects

32. Šariš dialects

33. Zemplín dialect

48

Page 56: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

34. Soták dialects

35. Už dialects

40. Goral dialects

41. Ukrainian dialects

42. Various dialects

43. Hungarian dialects

ese groups are further divided into a variety of subdi-alects (each village has its owndialect); especiallymoun-tainous regions have highly varied dialects. In the past,the mountainous character of the country caused cer-tain (language) isolation of the population in individ-ual provinces. ese specific characteristics were alsocaused by the reorganisation and migration of the pop-ulation, colonisation, mixing of different dialect types,influence from neighbouring Slavic and non Slavic lan-guages, changes in the employment of the population,etc. According to the nature of dialects and the occur-rence of the individual characteristics, Slovak dialects inHungary, Serbia, Croatia, Romania, Bulgaria and othercountries, where large compact groups moved to in thepast, can be included in these groups. In view of the lim-ited number of old written monuments, Slovak dialectsare the basic source of historical Slovak grammar.

3.2 PARTICULARITIES OF THESLOVAK LANGUAGEe Slovak language started to develop directly fromOldChurch Slavonic in the 10th century. Main changestook place and were stabilised before the 15th century;some of them equally (reduction of the nasal vowels)and the others differentially (vocalisation of hard jersin eastern and the western parts of contemporary Slo-vakia was of western Slavic type and in the central part itwas of non-western Slavic type). A part of these changeswas also the decomposition of theOldChurch Slavonic

syllable structure, which influenced the changes in de-clension and conjugation. Although the Slovak andCzech languages developed under different conditionsfor a long period (Slovakia became a part of the King-dom of Hungary in the 11th century), they have re-mained close to each other. However, some specificfeatures of the Slovak language (the forms lakeť/elbow,Česi/the Czechs, the suffix -m in the first person singu-lar, etc.) are parallel in South Slavic languages. Withsome less significant characteristics, Slovak resemblesPolish (prefix pre- unlike the Czech pro-, preservationof the consonant dz, and several expressions such asteraz/now, pivnica/cellar). By other characteristics it ap-proaches East Slavic languages. erefore we talk aboutthe central position of Slovak among the Slavic lan-guages and about the good understandability of Slovakfor the members of other Slavic nations.

Some specific features of the Slovak languagesare parallel in South Slavic languages.

Modified Latin with diacritical marks is used in Slo-vakia. e palatalisation of consonants is marked with acaron (ď, ť, ň, ľ ; also used for graphemes ž, š, č, dž) andthe length of vowels and consonants by an acute accent(á, é, í, ý, ó, ú, ŕ, ĺ ). Vowels are not subject to reduc-tion, they are pronounced in full form in each position.In Slovak, besides vowels and consonants, several diph-thongs (ia, ie, iu) and one u-diong (ô) occur.

Modified Latin with diacritical marksis used in Slovakia.

A phonetic speciality of the Slovak standard lan-guage (and of Central Slovak dialects) is the so-calledrhythmic rule, which is a tendency not to have twolong syllables adjacent (pekný/nice – krásny/beautiful,

49

Page 57: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

prosím/please – smútim/I am sad). Slovak has dynamicstress on the first syllable of the word that is not verystrong (it is weaker than in Russian or Polish). Inprepositional phraseswithone-syllable prepositions, thestress is usually put on the prepositions: v škole/near theschool.

Unlike Russian or Czech, Slovak has a simpler structureof declension and conjugation paradigms. However, thesystem of substantive and verbal forms is clearly struc-tured, in spite of unification tendencies. e Slovak lan-guage has six grammatical cases (nominative, genitive,dative, accusative, locative and instrumental). UnlikeCzech, the vocative is not frequently used in Slovak any-more; it is usually identical with the nominative. Slovakrecognises 4 genders: masculine animate and masculineinanimate, feminine, and neuter for nouns and relatedadjectives, pronouns and numerals. Masculine and fem-inine genders with animate concreta are determined ac-cording to the natural gender and in other cases it is amatter of convention, which is not signalised by any arti-cle, and only sometimes by the ending (e. g., strom/tree–masc. inanimate, jabloň/apple tree– fem., jablko/apple–neuter.). For each gender there are given several patternsin student grammar books and their paradigms differespecially in – G/A sing. and N/G plur. (e. g., mascu-line animate chlap / chlapa / chlapi / chlapov, hrdina /hrdinu / hrdinovia / hrdinov; žena / ženy / ženu / ženy/ žien, dlaň / dlane / dlaň / dlane / dlaní). In somepatterns and cases there is some significant homonymy:G and A sing. of animate masculine, N and A sing. ofinanimate masculine, in feminine gender of G sing. andN plur., etc. ere are possible transitions among theparadigms, e. g., the feminine paradigm kosť is nowa-days more productive than the paradigm dlaň. Wordsformally assigned to a certain paradigm quite oen donot follow the pattern, which is the reason for many ex-ceptions. In NLP literature a much larger number ofparadigms is mentioned [11, 12, 13].

In the conjugation of verbs, three tenses are distin-guished: past, present, and future. In addition to thethree forms – indicative, imperative, and conditional,most of the verbs exist in two aspects – perfective (za-olať ) and imperfective (olať ). Slovak is a highly in-flectional languagewith elements of analytical construc-tions (especially in verb forms such as budem písať, bolby somprišiel). e grammar function ofwords is clearlydesignated by inflection, therefore the word order ina sentence is relatively free. From the syntactic pointof view, Slovak is characterised by a basic constructionscheme S(ubject) – V(erb) – O(bject), however, it is arather theoretical scheme, whose realisation varies as aconsequence of the free word order. Cases are helpfulfor the unambiguous determination of S and O (S is inN case, O is usually in A or G, D cases, rarely in othercases), homonymy of the forms, however, can be a causeof an uncertainty in subject and object functions (espe-cially in foreign proper names but also in several othercases).

Highly unbound verbal morphemes causeproblems for foreigners and computer processing.

Special problems for foreigners and computer process-ing of the Slovak language are caused by highly movableverbal morphemes sa, si, by which the verb can be pre-ceded or followed even in distance of several words, oreven in a different part of the sentence structure (Netr-valo dlho, keď sa im ich hviezda, ktorú predtým videli vdiaľke, zrazu priblížila). In Slovak, two-unit sentenceswith a subject (agents) are the most frequent but one-unit constructions without agents are also frequentlyused (Prší., Prišlo mu zle., Na stavbe sa tvrdo pracuje.).e subject is known from the context and the formof the predicative verb is not expressed formally (Našielsomho.); its presence in the sentence in the formof a per-sonal pronoun marks an emphasis (Ja som ho našiel!).

50

Page 58: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

3.3 SLOVAK ON THE INTERNETAt the end of 2010, the size of the Slovak Internetpopulation reached approximately 2 394 000 which ismore than 44% of all Slovak inhabitants. In the case ofthe younger generation, this percentage has been muchhigher as young people spend a lot of time on the In-ternet. By the end of 2010 the number of Slovak do-mains exceeded the level of 231 thousand [14]. eamount of .sk domains on the worldwide webwas about1‰ (the number of all domains according to http://www.verisigninc.com was reaching approximately 200million) by the end of 2010. e style of Internet com-munication and the texts to be found on the Internet areinteresting for natural language research but also for textcollecting purposes. e Internet is also a place for theusage of various applications which use language data asa source.

Shared with many other European languages, a specificfeature of early Slovak language presence on the inter-net (and generally, in anything computer related) wasthe habit of using the language without diacritics. Ow-ing to the “character encoding mess” in the late 80’s and90’s and the lack of soware support for different char-acter encodings, the “proper” language on the Internetstarted to dominate only in the late 1990’s. Nowadays,with the almost universal Unicode and UTF-8 encod-ing, there are nomore outstanding problems and the di-acritics are used universally (however, in informal con-texts such as in e-mails and discussion forums, and espe-cially in SMS, Slovak without diacritics is common).

A special category consists of bilingual dictionaries,which are freely accessible to Slovak users through threemajor Slovak portals (azet.sk, centrum.sk, zoznam.sk).

Google is developing a freely accessible automatic texttranslator from various languages into Slovak and viceversa. e degree of correctness is, however, low in thecase of the majority of languages. ere is an inter-esting result regarding the mutual translation between

the closely related languages SlovakØCzech,where thepercentage of correctness of the translation is good. Ofcourse, even these translations are sometimes incorrect,however, they are much more successful than transla-tions between Slovak andEnglish, German, French, andother major languages.e use of the Internet by Slovak Internet users is re-flected by more than 60 000 registered Slovak users ofthe Internet encyclopedia Wikipedia in the Slovak lan-guage. Slovak Wikipedia includes more than 285 000articles.

3.4 SLOVAK AS A FOREIGNLANGUAGE3.4.1 Slovak Online

Slovak Online [15] is a project enabling free-of-chargeSlovak language studies by means of e-learning on theweb. Provided language courses in different levels (minicourse for tourists, courses A1 and A2 according to theCommon European Framework of Reference for Lan-guages) are divided into topical chapters and they aresupplemented by audio and video recordings and ex-ercises. e site includes an outline of Slovak gram-mar and orthography, amultilingual dictionary and lan-guage games. It also provides some basic informationand trivia about Slovakia and the Slovak language, alibrary with extracts from Slovak literary works andthe possibility of instant messaging communication be-tween registered users.

The target group is foreigners living in Slovakia,partners in mixed marriages, inhabitants of

border area, Slovaks living abroad, slovakistsand slavists, etc.

e target group of the site is foreigners living in Slo-vakia, partners in mixed marriages, inhabitants of bor-

51

Page 59: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

der area, Slovaks living abroad, slovakists and slavists,immigrants, students and tourists. Currently, the sitehas a German, English, Esperanto, French, Lithuanian,Polish and Slovak version.

e project, the first of its kind, came into existenceon the basis of experience gained by the operation ofthe lernu! [16] site – the biggest portal for Esperantolanguage studies. e Slovak Online project was sup-ported by European Committee in the frame of theKA2 programme – languages – lifelong learning. eproject is coordinated by a civic association Eduká-cia@Internet (Slovakia), with the partnership of Ľu-dovít Štúr Institute of Linguistics (Slovakia), StudioGAUS (Germany), Vilniaus universitetas (Lithuania),Wyższa Szkoła Informatyki, Zarządzania i Adminis-tracji wWarszawie (Poland) and SlovakCentre London(UK).

3.4.2 Studia Academica Slovaca

Studia Academica Slovaca – e Centre for Slovak asa Foreign Language (SAS) is a specialised centre at theFaculty of Arts (officially also called Faculty of Philoso-phy), Comenius University (FF UK) in Bratislava. epedagogical and research activities focus on the edu-cation of foreigners interested in Slovak language andculture, propagation of Slovak science, culture and artabroad, implementation and coordination of the re-search of Slovak as a foreign language, realisation of in-ternational and domestic research projects and activi-ties aimed at creating and publishing academic Slovakistmaterial and textbooks of Slovak as a foreign language.Besides the SAS being an expert centre for Slovak as aforeign language, it also traditionally participates in sci-entific methodical preparation for lecturers of Slovakas a foreign language at universities abroad. e resultof the cooperation with the lectorates and foreign Slav-ists builds a database of Slavonic studies abroad. An-other part of the Centre’s activities is the annual organ-

isation and realisation of a Summer School of SlovakLanguage andCultureStudiaAcademicaSloaca, whichhas been offered to foreign applicants since 1965. eMethodicalCentre SAS reassumed its successful historyin 1992, and in 2006 it was transformed into SAS –eCentre for Slovak as a Foreign Language. In its almosthalf-century of existence of SAS, almost 6 000 foreignalumni interested in Slovak language, culture and re-alia frommore than 50 countries all over the world haveutilised its services. On the grounds of Studia Academ-ica Slovaca the basis of scientific description and didac-tics of Slovak as a foreign language was laid, and the firsttextbooks and didactics of Slovak as a foreign languagewere written. In relation to its wide tradition and ex-perience, SAS currently works as a coordination and in-formation centrewith slovakiawide as well as an exteriorsphere of activity.

The activities focus on the education of foreignersinterested in Slovak language and culture.

In 2006 the SASCentre acquired accreditation from theMinistry of Education of the Slovak Republic for pro-viding educational activities concerning Slovak as a For-eign Language – language courses in contact and dis-tance form for all levels of language development in-cluding beginners (A1, A2), intermediate and upper-intermediate (B1, B2) and advanced (C1, C2). eircontents are published in printed version [17] and pub-lished on the web [18]. Based on a grant from theMinistry of Education of the Slovak Republic underthe project Educational Programme Slovak as a For-eign Language, SAS offers those who are interested inSlovak language a Slovak e-learning course for level A1(Basic User – Breakthrough) and level A2 (Basic User– Waystage). e objective of the project is to cre-ate both content and forms of language developmentfor foreigners on individual levels corresponding to e

52

Page 60: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Common European Framework of Reference for Lan-guages, as well as to specify individual criteria of theevaluation and certification of language competence.e main scope is the preparation of standard and spe-cialised learning materials for students and methodicalmaterials for teachers. Every year aMethodical seminaryon Slovak as a foreign language for teachers of grammarand secondary schools abroad and for university lectorstakes place to informaboutnewapproaching linguistics,literature, culture and didactics of Slovak as a foreignlanguage.A product of the implementation of the project bythe Studia Academica Slovaca group “Educational pro-gramme Slovak as a Foreign Language”, the Faculty ofArts of Comenius University has been awarded the Eu-ropean label 2007 by the European Commission in thefield of language education.

3.4.3 Summer School of Slovak Languageand Culture

e Summer School of Slovak Language and CultureStudia Academica Slovaca is aimed at Slovakists andSlavists abroad, cultural workers, managers, lecturers,language teachers, translators and all those interested instudying Slovak language and culture. e aim of thecourse is to enable students to acquire and improve theirSlovak language competence on various levels, as well asto extend their knowledge in Slovak linguistics, litera-ture, history and culture.

The aim is to enable students to acquire andimprove their Slovak language.

Established in 1965, Summer School SAS is the oldestsummer university in Slovakia and has been under thename Studia Academica Slovaca since 1966. Since itsestablishment, SAS has continually maintained its pro-file of Slovakist academic studies. e Summer School

SAS is usually attended by approximately 150 partici-pants from more than 25 countries all over the world.ose creating andholding the seminars are professionalteachers and lecturers, experts in teaching Slovak as aforeign language, oen experienced in teaching in Slo-vakia as well as abroad.

3.5 SLOVAK NATIONALCORPUSe creation of the Slovak National Corpus Depart-ment of Ľ. Štúr Institute of Linguistics has been stim-ulated by the worldwide trend involving the languageand information technology development, the need tocreate the source data for dictionaries. e departmentwas founded in 2002 with the support of the Ministryof Culture of the Slovak Republic (program for main-taining the national language), the Ministry of Edu-cation (informatisation and use of innovative methodsin teaching) and the Slovak Academy of Sciences. Aneight-member team of predominantly young scientistsis involved in the project: Construction of the SlovakNationalCorpus and the electronisationof linguistic re-search in Slovakia [20].

In the initial stages of forming the department, its cor-pus database, and the specific tools for its construc-tion and use, the Slovak National Corpus departmentregularly held scientific seminars presented by eminentforeign specialists. Selected contributions were com-piled in publication [21]. Since 2005 the Slovak Na-tional Corpus team has organised the biennial inter-national conference Slovko [22] on natural languageprocessing and corpus linguistic research, with partic-ipation by Slovak as well as foreign researchers (fromAustria, Bulgaria, Croatia, the Czech Republic, France,Germany, Hungary, Poland, Russia, Slovenia, Spain,Ukraine, etc.). e published conference proceedingscontain contributions on the preparation, research, and

53

Page 61: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

results of diverse national and international projects inthe field of construction and use of general and specificcorpora and databases, in the field of language analysisand synthesis, automatic translations, computer lexicog-raphy and terminography, e-learning etc.e department members have been involved in 7 Slo-vak projects and 6 international projects and coopera-tion. In 2005 they were awarded the SlovakAcademy ofSciences Prize for construction of scientific infrastruc-ture.

3.5.1 Corpus of Written Language

e primary, general corpus prim covers Slovak textswhich arose aer the year 1955. ree major stylesare represented in the corpus: journalistic, fiction, pro-fessional (including popular science) as well as variousother genres and areas. e corpus database comprisestexts from throughout Slovakia as well as texts by Slo-vaks living abroad, texts originally in Slovak and trans-lated from other languages. For specialised research, thegeneral corpus prim-*-all can be divided into indepen-dent subcorpora:

sane – does not contain linguistic texts, texts with-out diacritics, texts from Slovaks living abroad etc.

vyv – journalistic, fiction, and professional texts arerepresented by a third share each

inf – journalistic texts only

prf – professional texts only

img – fiction texts only

skimg – original Slovak fiction texts only

e use of the texts the in Slovak National Corpus isgoverned by the provisions of the Copyright Act.e corpus texts and text units are accompanied by: ex-ternal, bibliographical, style, and genre annotation [24]and internal, morphological or morphosyntactic anno-tation [25]. All the words are lemmatised.

3.5.2 Corpus of Spoken Language

e database of the Spoken Corpus of Slovak [26] con-tains audio records of spontaneous and semi-preparedspeech from the entire Slovak territory and their texttranscripts. Specific characteristics of spoken languageare selectively captured in the transcripts, such as irreg-ular structure of an utterance, pronunciation variants,means of speech modulation, and presence of the non-linguistic elements. e Spoken Corpus of Slovak pro-vides material for research and description of the realform of contemporary standard spoken Slovak.

3.5.3 Slovak Terminology Database

e Slovak Terminology Database [27] includes Slo-vak terms and relevant terminological information fromvarious disciplines. e database serves for the stabiliz-ing and unification of terminological systems, throughthe cooperation of linguists and experts from relevantprofessional fields. Its aim is to summarise and standard-ise the Slovak terminology. e terms are obtained fromthe specialised professional corpora (corpus of law texts,economy texts, etc.).

3.5.4 Parallel Corpora

Currently, in the Slovak National Corpus Departmentthere are available Slovak-Russian [28], Slovak-French[29], Slovak-English [30], Slovak-Czech [31] parallelcorpora.

3.5.5 Linguistic Resources

e most renowned and usable product of linguistic re-search electronisation in Slovakia is a free file of the elec-tronic forms of up-to-date editions of the Short Dic-tionary of Slovak, Rules of Slovak Orthography, Slo-vak SynonymDictionary, Dictionary of ForeignWords,and the older Slovník slovenského jazyka [32] as well asother dictionary works, monographs, miscellanies, andlinguistic periodicals [33]. On average, 40 000 inputqueries are searched a day in the database.

54

Page 62: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

4

LANGUAGE TECHNOLOGY SUPPORT FORSLOVAK

Language technologies are information technologiesspecialised in human language processing. ereforethese technologies are also oen subsumed under theterm human language technology. Human languageoccurs in spoken and written form. While speech isthe oldest and most natural mode of language com-munication, complex information and the bulk of hu-man knowledge is recorded and transmitted in writ-ten texts. Speech and text technologies process or pro-duce language in these two forms. However, languagealso has aspects common to both forms such as dictio-naries, most of the grammar, and the meaning of sen-tences. us, large parts of language technology can-not be subsumed under either speech or text technolo-gies. Knowledge technologies include technologies thatlink language to knowledge. Figure 2 illustrates the lan-guage technology in context. In our communication,we mix language with other modes of communicationand other informationmedia. We combine speech withgestures and facial expressions. Texts can be combinedwith pictures and sounds. Films may contain languagein spoken andwritten form. us, speech and text tech-nologies overlap and interactwithmanyother technolo-gies that facilitate the processing of multi-modal com-munication and multimedia documents. In this sec-tion, we will discuss the main application areas of lan-guage technology, i. e., language checking, web search,speech interaction, and machine translation. ese ap-plications and basic technologies include

spelling correction

authoring support

computer-assisted language learning

information retrieval

information extraction

text summarisation

question answering

speech recognition

speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. e in-terested reader is referred to the following references:[34, 35, 36, 37, 38].

Before discussing the above application areas, we willbriefly describe the architecture of a typical LT system.

4.1 APPLICATIONARCHITECTURESTypical soware applications for language processingconsist of several components that mirror different as-pects of language and of the task they implement. Fig-ure 3 displays a highly simplified architecture that canbefound in a text processing system. e first three mod-ules deal with the structure and meaning of the text in-put:

55

Page 63: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

2: Language technologies

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, detects ifthe text lacks diacritics and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure.

3. Semantic analysis: disambiguation (Whichmeaningofmier is the right one in a given context?), resolvinganaphora and referring expressions like on, to auto,etc.; representing the meaning of the sentence in amachine-readable way.

Task-specific modules then perform many different op-erations such as automatic summarisation of an inputtext, database look-ups and many others. In figure 3, wewill illustrate core application areas and highlight theircore modules. Again, the architectures of the applica-tions are highly simplified and idealised, to illustrate the

complexity of Language Technology applications in agenerally understandable way.

Aer introducing the core application areas, wewill givea short overview of the situation in language technologyresearch and education, concluding with an overview ofpast and ongoing research programs. Finally, we willpresent an expert estimation on the situation regardingcore language technology tools and resources on a num-ber of dimensions such as availability, maturity, or qual-ity. e general situation of LT for the Slovak languageis summarised in figure 8 (p. 68) at the end of this chap-ter. is table lists all tools and resources that are bold-faced in the text. LT support for Slovak is also comparedto other languages that are part of this series.

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

3: A typical text processing architecture

56

Page 64: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

4.2 CORE APPLICATION AREAS4.2.1 Language Checking

Anyone using a word processing tool such as MicrosoWord has come across a spell checking component thatindicates spelling mistakes and proposes corrections.40 years aer the first spelling correction program byRalph Gorin, language checkers nowadays do not sim-ply compare the list of extracted words against a dic-tionary of correctly spelled words, but have becomeincreasingly sophisticated. In addition to language-dependent algorithms for handling morphology (e. g.,plural formation), some are now capable of recognizingsyntax–related errors, such as a missing verb or a verbthat does not agree with its subject in person and num-ber, e. g., in ‘She *write a letter.’ However, most availablespell checkers (including Microso Word) will find noerrors in the following first verse of a poem by JerroldH. Zar (1992) [39]:

Eye have a spelling chequer,It came with my Pea Sea.It plane lee marks four my revueMiss Steaks I can knot sea.

For handling these types of errors, analysis of the con-text is needed in many cases, e. g., for deciding if a wordneeds to be written with “y” or “i”, as in:

Kto chce psa biť, palicu si nájde.[He who wants to beat a dog will find a stick.]

Kto chce psom byť, pána si nájde.

[He who wants to be a dog will find his master.]

is either requires the formulation of language-specificgrammar rules, i. e., a high degree of expertise and man-ual labour, or the use of a so-called statistical languagemodel. Such models calculate the probability of a par-ticular word occurring in a specific environment (i. e.,the preceding and following words). For example, chce

psom byť is a much more probable word sequence thanchce psom biť, and chce psa biť is a much more probablesentence than chce psa byť (nevertheless, we can contrivecontexts where all four sequences are grammatical). Astatistical language model can be automatically derivedusing a large amount of (correct) language data (i. e.,a corpus). Up to now, these approaches have mostlybeen developed and evaluated onEnglish language data.However, they do not necessarily transfer straightfor-wardly to Slovak with its flexible word order and richerinflection.e use of Language Checking is not limited to wordprocessing tools, but is also applied in authoring sup-port systems. Accompanying the rising number of tech-nical products, the amount of technical documenta-tion has rapidly increased over the last decades. Fear-ing customer complaints about wrong usage and dam-age claims resulting from bad or badly understood in-structions, companies have begun to increasingly focuson the quality of technical documentation, at the sametime targeting the international market. Advances inNLP lead to the development of authoring support so-ware, which assists the writer of technical documenta-tion to use vocabulary and sentence structures consis-tent with certain rules and terminology restrictions.

Spelling checkers for Slovak are mostly based ona dictionary of basic word forms (lemmas).

e existing spelling checkers for Slovak are mostlybased on a dictionary of basic word forms (lemmas)combinedwith a set ofmorphological rules enabling theanalysis or generation of all (correct) word forms. Al-though this simple approach seems to be satisfactory,it has two substantial drawbacks. e first issue con-cerns the superficially correct word forms appearing in awrong context. e second drawback is the inability todistinguish between real spelling errors and word forms

57

Page 65: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

4: Language checking (top: statistical; bottom: rule-based)

which are correct, but which are not contained in thedictionary. Such words will always exist due to the nat-ural enhancement of a lexicon by newly created words,by new scientific or technical terms etc.Besides spell checkers and authoring support, LanguageChecking is also important in the field of computer-assisted language learning. Language checking applica-tions also automatically correct search engine queries,e. g., Google’s ‘Did you mean…’ suggestions.

4.2.2 Web Search

Searching on the web, in intranets, or in digital librariesis probably the most widely used and yet underdevel-oped Language Technology today. e search engineGoogle, which started in 1998, is nowadays used forabout 80%of all search queriesworld-wide. In 2006, theverb googloať/googliť very narrowly missed being in-cluded in thefirst volumeof thenewDictionary ofCon-temporary Slovak Language (Sloník súčasného sloen-ského jazyka), a fact that is over being used to reproachthe dictionary authors for. Neither the search interfacenor the presentation of the retrieved results have sig-nificantly changed since the first version. In the cur-rent version, Google offers a spelling correction for mis-spelled words and also, in 2009, incorporated basic se-mantic search capabilities into their algorithmic mix[40], which can improve search accuracy by analysingthe meaning of the query terms in context.e success story of Google shows that with a lot ofdata at hand and efficient techniques for indexing these

data, a mainly statistically-based approach can lead tosatisfactory results. However, for a more sophisticatedrequest for information, integrating deeper linguisticknowledge is essential. In research labs, experiments us-ingmachine-readable thesauri and ontological languageresources like WordNet, have shown improvements byallowing to find a page on the basis of synonyms of thesearch terms, e. g., jadrová, atómová and nukleárna en-ergia (nuclear, atomic and nuclear energy) or evenmoreloosely related terms.

The next generation of search engines will haveto include much more sophisticated Language

Technology.

e next generation of search engines will have to in-clude much more sophisticated Language Technology.If a search query consists of a question or another typeof sentence rather than a list of keywords, retrieving rel-evant answers to this query requires an analysis of thissentence on a syntactic and semantic level as well as theavailability of an index that allows for a fast retrieval ofthe relevant documents. For example, imagine a user in-puts the query ‘Give me a list of all companies that weretaken over by other companies in the last five years’. Fora satisfactory answer, syntactic parsing needs to be ap-plied to analyse the grammatical structure of the sen-tence and determine that the user is looking for com-panies that have been taken over and not companiesthat took over others. Also, the expression last five years

58

Page 66: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

User Query

Web Pages

Pre-processing Query Analysis

Pre-processing Semantic Processing Indexing

Matching&

Relevance

Search Results

5: Web search architecture

needs to be processed in order to find out which years itrefers to.

Finally, the processed query needs to bematched againsta huge amount of unstructured data in order to find thepiece or pieces of information the user is looking for.is is commonly referred to as information retrievaland involves the search for and ranking of relevant doc-uments. In addition to generating a list of companies,we also need to extract the information that a particularstring ofwords in a document refers to a company name.is kind of information is made available by so-callednamed-entity recognisers.

Even more demanding is the attempt to match a queryto documents written in a different language. For cross-lingual information retrieval, we have to automaticallytranslate the query to all possible source languages andtransfer the retrieved information back to the target lan-guage. e increasing percentage of data available innon-textual formats drives the demand for services en-abling multimedia information retrieval, i. e., informa-tion search on images, audio, and video data. For audio

and video files, this involves a speech recognitionmod-ule to convert speech content into text or a phoneticrepresentation, to which user queries can be matched.

In Slovakia, there were several different small andmedium enterprises (SMEs) developing search tech-nologies, or search technologies developed by CzechSMEs were used. e first Slovak search engine takingSlovak morphology (developed at the Faculty of Math-ematics and Physics, Charles University, Prague) intoaccount was morfeo.sk, run by the internet portal cen-trum.sk, which started to provide a fulltext search ofthe .sk domain webpages in 2003. It used lemmatisa-tion and morphology annotation to look for inflectedwords in order to be able to provide the user with morerelevant results than those including the basic forms ofthe words. It also included fuzzy search possibilities andsearch by synonyms. By 2009 the number of indexedpages was over 117million. Since that time, Google hasalready included Slovak morphology support and sur-passed the number of the indexed pages and centrum.skhas switched to a customised Google Search.

59

Page 67: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

One of the enterprises engaged in this field is Formas. r. o. [41], a company that developed three linguisticmodules: speech check, hyphenator, lemmatiser andthesaurus, on the basis of data obtained from the Ľ. ŠtúrInstitute of Linguistics of the Slovak Academy of Sci-ences. e company also developed separate programsfor full-text Slovak search and still operates online ver-sions of some older dictionaries.

Focus on development for search technologies lies inproviding add-ons and advanced search engines forspecial-interest portals by exploiting topic-relevant se-mantics. Due to the still high demands in processingpower, such search engines are only economically usablein relatively small text corpora. eprocessing time eas-ily exceeds that of a common statistical search engine as,e. g., provided by Google by a magnitude of thousands.ese search engines also have a high demand in topic-specific domain modelling, making it infeasible to usethese mechanisms on a web scale.

Research in this field is mainly performed by the Insti-tute of Informatics of the Slovak Academy of Sciences,which started to deal with the processing of written nat-ural language in 2006. At the same time, WIKT [42]workshops, containing several articles or even entire sec-tions dedicated to the processing of Slovak language ineach year have been initiated. Since 2006, the researchin the Institute of Informatics in cooperationwith PavolJozef Šafárik University in Košice has been mainly per-formed within the NAZOU [43] project aimed at thedevelopment of the tools for obtaining, processing, or-ganising and presenting Internet information. Job offersrepresented a specific application with the tools havingbeen tested on Slovak job offers as well. e Instituteprepared an analysis of processing texts in Slovak [44]and, at the same time, Ontea [45], a tool for extractingof information [46, 47] was developed. e tool waslater integrated with the tools for language identifica-tion [48] and lemmatisation [49].

Ontea works on the basis of searching for patterns,which can either be linguistically dependent patterns,such as use of prepositions and sentence structure, butalso simpler patterns, such as use of capitals and abbre-viations e. g. s. r. o. and a. s. for searching for businesses,SK, SKK, EUR, EURO, € for price searching, or abbre-viations of Slovak first names for searching for peoplein a text. A principle is applicable to various languages,but the patterns have to be made for a specific language,e. g., Slovak. At the present, the Ontea tool is being im-proved for use in the processing of e-mail communica-tion. e system was tested within the AIIA project[50, 51] on Slovak e-mails from the Anaso companyand SANET association. Ontea not only uses the pat-terns, but also dictionaries (gazetteers) as well as theircombinations in order to extract and identify entities ina text. Since the use of dictionaries (but also some pat-terns) can cause problems with the identification of anentity that is in other than basic form, use of lemmatiserseems to be appropriate. Since the entities are mostly ofa nomenclatural nature, such as people, locations, prod-uct names, names of projects or services, they are dif-ficult to be lemmatised. Although the problems havenot yet been successfully resolved, they could be settledby a new method with the combination of dictionaries,character based tokenisation, lemmatisation, and verifi-cation of an entity in a dictionary.

e extraction of entities using patterns was also usedin an experiment with large group of data, when Slovakwebsites were processed with an aim of extraction of ge-ographical data (Slovak addresses) and their subsequentfinding [52].

4.2.3 Speech Technology

Speech technology is the basis for the creation of in-terfaces that allow a user to interact with machines us-ing spoken language rather than with graphical display,keyboard, and mouse. Today these voice user interfaces

60

Page 68: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

(VUIs) are employed for partially or fully automatingservice offerings provided by companies to their cus-tomers, employees, or partners via telephone. Businessdomains that rely heavily onVUIs are banking, logistics,public transportation, and telecommunications. Otherusages of Speech technology are interfaces to particulardevices such as in-car navigation systems, and the em-ployment of spoken language as an alternative to the in-put/output modalities of graphical user interfaces, e. g.,in smartphones or tablets.At its core, Speech technology comprises the followingfour different technologies:

1. Automatic speech recognition (ASR) is responsiblefor determining which words were actually spokengiven a sequence of sounds uttered by a user.

2. Syntactic analysis and semantic interpretation dealwith analysing the syntactic structure of a user’s ut-terance and interpreting the latter according to thepurpose of the respective system.

3. Dialogue management is required for determining,on the part of the system the user interacts with,which action shall be taken given the user’s input andthe functionality of the system.

4. Speech synthesis (Text-to-Speech, TTS) technol-ogy is employed for transforming the wording ofthat utterance into sounds that will be output to theuser.

One of the major challenges is to have an ASR systemrecognising the words uttered by a user as precisely aspossible. is requires either a restriction of the rangeof possible user utterances to a limited set of keywords,or the manual creation of language models that cover alarge range of natural language user utterances. A fun-damental requirement for good performance is also awell trained acoustic model based on a huge amountof recorded data covering different accents, age groups,genders etc. Whereas the former results in a rather

rigid and inflexible usage of a VUI and possibly causesa poor user acceptance, the creation, tuning and main-tenance of acoustic and language models may increasethe costs significantly. However, VUIs that employ lan-guagemodels and initially allow a user to flexibly expresstheir intent – evoked by a ‘Howmay I help you’ greeting– show both a higher automation rate and higher useracceptance and may therefore be considered as advanta-geous over a less flexibly directed dialogue approach. Anexception to the above mentioned are so-called embed-ded systems. ey require a small set of commands andthe usage of languagemodels in such cases is a disadvan-tage. Embedded systems are today still successfully builtwith grammars. For the output part of a VUI, compa-nies tend to use utterances pre-recorded by professional– ideally corporate – speakers a lot. Static utterancesin which the wording does not depend on the partic-ular contexts of use or the personal data of the givenusers will result in a rich user experience. However, themore dynamic the content an utterance needs to con-sider, the more the user experience may suffer from apoor prosody resulting from concatenating single audiofiles. In contrast, today’s TTS systems prove superior,though optimisable, regarding the prosodic naturalnessof dynamic utterances.

Regarding the market for Speech technology, the lastdecade underwent a strong standardisation of the inter-faces between the different technology components, aswell as by standards for creating particular soware arte-facts for a given application. ere also has been strongmarket consolidation in the last ten years, particularly inthe field of ASR andTTS.Here, the nationalmarkets inthe G20 countries – i. e., economically strong countrieswith a considerable population - are dominated by fewbig players worldwide led mainly by Nuance, Googleand Microso.

Speech recognition in Slovakia has a long history buthas been done only at universities or scientific institu-

61

Page 69: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

6: Speech-based dialogue system

tions. Most places focus on basic research and solutionsof specific problems of speech recognition. eDepart-ment of SpeechAnalysis andSynthesis of the Institute ofInformatics of the Slovak Academy of Sciences as a par-ticipant of the SpeechDat-E project focuses mainly onacoustic models for telephony systems. With a grow-ing number of speech data such as for example parlia-mentary discussions the institute is using existing toolsfor speech recognition to try to create widely usableacoustic models for applications such as dictation, talktranscription, etc. with focus on speaker dependent sys-tems. e main focus of the Department of Telecom-munication of the Slovak Technical University in Bra-tislava is the processing of speech signals in noisy con-ditions (speech/silence detection, features extraction,etc.). Among others, the department created severalsmall speech recognition systems to compare the per-formance and usability of different free speech recogni-tion systems for the Slovak language. At the TechnicalUniversity of Košice there are several departments fo-cusing on automatic speech recognition. e Depart-ment of Electronics and Multimedia Communications,which was originally focused mainly on basic researchfor the digital processing of speech signals, has graduallyextended its research focus toward developing complexinteractive speech systems. A few years ago in cooper-ation with research teams from the Slovak Academy ofSciences, Slovak University of Technology and Univer-

sity of Žilina the Smart SpeechCommunication Systemwas developed at the Department of Electronics andMultimedia Communications. e system is availableto public and continually serves as a demonstrator of thespeech interactive services in Slovak over the telephone.Today one of themost noticeable outputs represents theactivities in the field of language modelling for the Slo-vak large vocabulary continuous speech recognition sys-tem. e language model created at the department isbased on a corpus of 2 � 109 tokens.

e second important workplace at the Technical Uni-versity of Košice is the Department of Cybernetics andArtificial Intelligence where the first voice retrieval in-formation dialogue system and SAMPA for the Slovaklanguage were created. Today the speech recognitionactivities at the department plays a rather minor role.e Department of Applied Mathematics and Statis-tics of the Faculty of Mathematics, Physics and Infor-matics at Comenius University in Bratislava is workingmainly on speech recognition of isolated words for chil-dren’s voices. e results were applied in an educationalprocess to verify a text read by children. From the au-dio data recorded for the acoustic model training twospeech databases have been created (Alica andViktória).e main institution for speech recognition at the Uni-versity of Žilina is the Department of Telecommunica-tions and Multimedia. Its team focuses mainly on dig-ital signal processing for speech recognition and recog-

62

Page 70: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

nition of isolated words using Hidden Markov Models.

Close cooperation between the Department of Elec-tronics and Multimedia Communications of the Tech-nical University of Košice and the Department ofSpeech Analysis and Synthesis of the Institute of Infor-matics of the SlovakAcademy of Sciences resulted in thefirst visible success in developing the Slovak large vocab-ulary continuous speech recognition system. e resultof the cooperation is an automatic speech dictation sys-tem commercially usable in judiciary.

Regarding commercial systems for Slovak speech recog-nition, it is worth mentioning the product from New-ton Technology Company. It can be considered as thefirst usable speaker independent dictation system forthe Slovak language. Looking beyond today’s state oftechnology, there will be significant changes due to thespread of smartphones as a new platform for managingcustomer relationships – in addition to the telephone,internet, and email channels. is tendency will also af-fect the employment of technology for Speech Interac-tion. On one hand, demand for telephony-based VUIswill decrease in long run. On the other hand, the usageof spoken language as a user-friendly input modality forsmartphones will gain significant importance. is ten-dency is supported by the observable improvement ofspeaker-independent speech recognition accuracy forspeech dictation services that are already offered as cen-tralised services to smartphone users. Given this ‘out-sourcing’ of the recognition task to the infrastructureof applications, the application-specific employment oflinguistic core technologies will supposedly gain impor-tance compared to the present situation.

4.2.4 Machine Translation

e idea of using digital computers for the translationof natural languages came up in 1946 by A. D. Boothand was followed by substantial funding for research inthis area in the 1950s and beginning again in the 1980s.

Nevertheless, Machine Translation (MT) still fails tofulfil the high expectations it gave rise to in its earlyyears.At its basic level, MT simply substitutes words in onenatural languagewithwords in another. is can be use-ful in subject domains with a very restricted, formulaiclanguage, e. g., weather reports. However, for a goodtranslation of less standardised texts, larger text units(phrases, sentences, or even whole passages) need to bematched to their closest counterparts in the target lan-guage. e major difficulty here lies in the fact that hu-man language is ambiguous, which yields challenges onmultiple levels, e. g., word sense disambiguation at thelexical level (‘Leopard’ can mean an animal or an oper-ating system) or the attachment of attributes on the syn-tactic level as in:

Otcovi priatelia neprišli, moji áno.[Father’s friends did not come, mine did.]

Otcovi priatelia neprišli, mne áno.[e friends did not come to the father,

[but] to me.]

One way of approaching the task is based on linguis-tic rules. For translations between closely related lan-guages, a direct translation may be feasible in caseslike the example above. But oen, rule-based (orknowledge-driven) systems analyse the input text andcreate an intermediary, symbolic representation fromwhich the text in the target language is generated. esuccess of these methods is highly dependent on theavailability of extensive lexicons with morphological,syntactic and semantic information as well as large setsof grammar rules carefully designed by a skilled linguist.Beginning in the late 1980s, as computational powerincreased and became less expensive, more interest wasshown in statistical models for MT. e parameters ofthese statistical models are derived from the analysis ofbilingual text corpora such as the Europarl parallel cor-pus, which contains the proceedings of the European

63

Page 71: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

7: Machine translation (left: statistical; right: rule-based)

Parliament in 21 European languages. Given enoughdata, statistical MT works well enough to derive an ap-proximatemeaning of a foreign language text. However,unlike knowledge-driven systems, statistical (or data-driven) MT oen generates ungrammatical output. Onthe other hand, besides the advantage that less humaneffort is required for grammar writing, data-driven MTcan also cover particularities of the language that gomissing in knowledge-driven systems, for example id-iomatic expressions.

As the strengths and weaknesses of knowledge- anddata-driven MT are complementary, researchers nowa-days unanimously target hybrid approaches by combin-ing the methodologies of both. is can be done inseveral ways. One is to use both knowledge-driven anddata-driven systems and have a selection module decideon the best output for each sentence. However, forlonger sentences, no result will be perfect. A better solu-tion is to combine the best parts of each sentence frommultiple outputs, which can be fairly complex, as cor-responding parts of multiple alternatives are not alwaysobvious and need to be aligned.

In the 1990s a prototype of MT between closely relatedlanguages was proposed for the pair Czech and Slovakat Charles University in Prague.

TEOS Trenčín markets the first practical multilingualMT soware for the Slovak language, bundled withtheir PC dictionary soware. However, since the sys-

tem did not use any further linguistic analysis and sim-ply substituted words from one language with words inthe other language (mostly limited to lemmas), its us-ability was limited to languages that do not have muchmorphology – i. e., English. A later version allowedto translate webpages on the fly, a functionality that isparticularly useful in the EnglishÑ Slovak translation,which coincidentally was the only translation directionthat “worked”.

e quality of MT systems is still considered to havea huge improvement potential. Challenges include theadaptability of the language resources to a given subjectdomain or user area and the integration into existingworkflows with term bases and translation memories.In addition, most of the current systems (not limited tothe Slovak language) are English-centred. In particular,Google Translator offers the best translation quality fortranslations from/to English.

e availability of large amounts of bilingual texts is re-ally the key in statisticalMT. For Slovak, corpora of par-allel texts with several other languages are currently be-ing created. e largest data – in total several millionpairs of sentences – is available in the Slovak-Czech andSlovak-English parallel corpora compiled at the Ľ. ŠtúrInstitute of Linguistics. e corpora contain mostly fic-tion and are automatically sentence aligned.

Figure 1 (p. 28), which was prepared during the ECEuromatrix+ project, shows the pair-wise performances

64

Page 72: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

obtained for 22 of the 23 official EU languages (Irishwas not compared). e results are ranked according toa BLEU score, which indicates higher scores for bettertranslations [54]. A human translator would normallyachieve a score of around 80 points.

The quality of MT systems is still considered tohave a huge improvement potential.

4.3 OTHER APPLICATION AREASBuilding Language Technology applications involves arange of subtasks that do not always surface at the levelof interaction with the user, but provide significantservice functionalities ‘under the hood’ of the system.erefore, they constitute important research issues thathave become individual sub-disciplines of Computa-tional Linguistics in academia.uestion answering has become an active area of re-search, forwhich annotated corpora have been built andscientific competitions have been started. e idea is tomove from a keyword-based search (towhich the engineresponds with a whole collection of potentially relevantdocuments) to the scenario of the user asking a concretequestion and the system providing a single answer:

Question: How old was Neil Armstrong when hestepped on the moon?

Answer: 38.

While this is obviously related to the aforementionedcore area Web Search, question answering nowadays isprimarily an umbrella term for research questions suchas what types of questions should be distinguished andhow they should be handled, how a set of documentsthat potentially contain the answer can be analysed andcompared (do they give conflicting answers?), and how

specific information – the answer – can be reliably ex-tracted from a document, without unduly ignoring thecontext.

is is in turn related to the information extraction (IE)task, an area that was extremely popular and influen-tial at the time of the ‘statistical turn’ in ComputationalLinguistics in the early 1990s. IE aims at identifyingspecific pieces of information in specific classes of docu-ments; this could be, e. g., the detection of the key play-ers in company takeovers as reported in newspaper sto-ries. Another scenario that has been worked on is re-ports on terrorist incidents, where the problem is tomapthe text to a template specifying the perpetrator, the tar-get, time and location of the incident and the resultsof the incident. Domain-specific template-filling is thecentral characteristic of IE, which for this reason is an-other example of a ‘behind the scenes’ technology thatconstitutes a well-demarcated research area but for prac-tical purposes then needs to be embedded into a suitableapplication environment.

e JBOWL (Java Bag-Of-Words Library) soware li-brary was developed at the Centre for InformationTechnologies (FEI-CIT) in Košice for the support ofNLP and Text Mining applications. JBOWL is a mod-ular system enabling the maintenance of textual docu-ments. It provides functions and the means of support-ing the processing of natural language texts (e. g., tokeni-sation, morphological analysis, lemmatisation, disam-biguation, syntactic analysis based on ATN networks,clustering and phrase identification, termweighting andindexing) aswell as theknowledgediscovery andminingfrom unstructured textual documents. In addition, thesystem provides implementations of several algorithmsof controlled and uncontrolled machine learning withcustomisable input parameters and methods for evalu-ating the quality of Text Mining models.

Two ‘borderline’ areas, which sometimes play the roleof a standalone application and sometimes that of a sup-

65

Page 73: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

portive, ‘under the hood’ component are text summari-sation and text generation. Summarisation, obviously,refers to the task of making a long text short, and is of-fered for instance as a functionality within MS Word.It works largely on a statistical basis by first identifying‘important’ words in a text (that is, for example, wordsthat are highly frequent in this text but markedly lessfrequent in general language use) and then determin-ing those sentences that containmany important words.ese sentences are thenmarked in the document, or ex-tracted from it, and are taken to constitute the summary.In this scenario, which is by far the most popular one,summarisation equals sentence extraction: the text is re-duced to a subset of its sentences. All commercial sum-marisers make use of this idea. An alternative approach,to which some research is devoted, is to actually synthe-sise new sentences, i. e., to build a summary of sentencesthat need not show up in that form in the source text.is requires a certain amount of deeper understandingof the text and therefore is much less robust. All in all, atext generator is inmost cases not a stand-alone applica-tion but embedded into a larger soware environmentsuch as a clinical information system where patient datais collected, stored and processed, and report generationis just one of many functions.

The software library was developed at the Centrefor Information Technologies in Košice to maintain

textual documents.

4.4 LANGUAGE TECHNOLOGYIN EDUCATIONLanguage Technology is a highly interdisciplinary fieldinvolving the expertise of linguists, computer scien-tists, mathematicians, philosophers, psycholinguists,

and neuroscientists among others. As such, it has notyet acquired a fixed place in the Slovak faculty system.

A course on information retrieval, informationextraction, graph algorithms for their support andprocessing large amounts of data can be studied

at the Institute of Informatics.

Since 2007 the researchers from the Institute of Infor-matics of the Slovak Academy of Sciences (Michal La-clavík and Martin Šeleng) have been teaching the In-formation retrieval course [55] at the Faculty of Infor-mation Technologies of the Slovak Technical Univer-sity. is course focuses on such themes as informationretrieval, information extraction, graph algorithms fortheir support aswell as processing large amounts of data.e students solve various practical projects in this do-main, while many of them use Slovak text sources, andsome of them directly solve the NLP problems of Slo-vak language processing. As an example, let us men-tion several projects aimed at the creation of a statisti-cal, dictionary-oriented or algorithmic stemmer basedon the “snowball” or “Egothor” projects, and at the de-termination of the efficiency and statistics for the simplestemmers which function on the principle of omittingthe vowels, diacritic marks or, eventually, word endingsetc. At the same time, there are also statistical transla-tion projects or the automatic dictionary creation be-tween the Slovak or other languages (English, Czech).Finally, let us mention the projects utilising dictionar-ies or frequency language dictionaries for applicationssuch as T9, named entities extraction using computerlearning methods and libraries such as OpenNLP, thecreation of POS tagging algorithms as well as the extrac-tion of events frome-mails or fromSlovakwebpages andthe like.

ere is no regular Computational Linguistics studyprogramme otherwise.

66

Page 74: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

4.5 NATIONAL PROJECTS ANDINITIATIVESIn Slovakia, the language technologies and their devel-opment are still considered mostly a scientific area andare included predominantly in applied research, eitherlinguistic (particularly lexicography) or computer sci-ence. e connection with the business sector has beenrather weak and sporadic. However, recently the lan-guage technologies have been making strong and reso-lute entrance to many soware applications.e first two big government funded research projectswith a focus on language technologies and resources inSlovakia were National Corpus of the Sloak Languageand Electronisation of Linguistic Research in the years2002–2006 and Integrated Computational Processing ofthe Sloak Language for Linguistic Research Purposes,both carried out at Ľ. Štúr Institute of Linguistics, Slo-vak Academy of Sciences.National Corpus of the Sloak Language and Electron-isation of Linguistic Research in years 2002–2006, ap-proved by a government resolution n. 137/2002, wasaimed at building a representative corpus of Slovak lan-guage, as a necessary foundation and data source for anylinguistic and natural language processing research. ecorpus data form the base in compiling the comprehen-sive Dictionary of Contemporary Slovak.In this project, the SlovakNationalCorpusDepartmentwas created and subsequently became the leading insti-tution in NLP research in Slovakia. e project contin-ued in its 2nd period as Construction of Sloak NationalCorpus and Electronisation of Linguistic Research in Slo-vakia (in the years 2007–2011) as agreed by the Min-istry of Education of the Slovak Republic, Ministry ofCulture of the SlovakRepublic and the SlovakAcademyof Sciences.e project Integrated Computational Processing ofthe Sloak Language for Linguistic Research Pur-poses, n. 2003SP200280307 was carried out in years

2003–2006 in the frame of the State research and de-velopment programme Current Issues in Society Devel-opment. e project supplemented the Slovak languageresourceswith necessary tools and additional data (mor-phological a stylistic annotation, electronic linguistic re-sources, terminology database etc.). e results of theproject are further used in subsequent projects and alsoin commercial environment.

Another major project concerning the Slovak languageprocessing was the project Automatic Transcription ofDictate for the Ministry of Justice of the Sloak Republic,coordinated by the Department of Speech Analysis andSynthesis of the Institute of Informatics of the SlovakAcademy of Sciences, with participation of the Depart-ment of Electronics and Multimedia Communicationsof the Technical University of Košice, carried out in theyears 2009–2011. e goal of the project was to createa complete system for transcribing spoken Slovak lan-guage, specialised for judicial domain. e project hasbeen funded by theMinistry of Justice of the Slovak Re-public, and is currently being deployed commercially inthe courts of law throughout the Slovak Republic.

ese three projects were so far the only major initia-tives concerning natural language processing of the Slo-vak language. ey paved the way for further researchand commercial projects, but the need for additional re-search and its funding is clearly necessary.

4.6 AVAILABILITY OF TOOLSAND RESOURCESFigure 8 (p. 68) summarises the current state of languagetechnology support for the Slovak language. e ratingfor existing tools and resources was generated by lead-ing experts in the field who provided estimates based ona scale from 0 (very low) to 6 (very high) according toseven criteria.

67

Page 75: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech Recognition 3 1 2 2 3 3 2

Speech Synthesis 3 3 3 3 3 3 3

Grammatical analysis 2 2 3 2 2 3 3

Semantic analysis 1 2 1 1 1 3 3

Text generation 1 1 1 1 0 1 1

Machine translation 2 2 2 2 2 1 2

Language Resources: Resources, Data and Knowledge Bases

Text corpora 2 4 4 5 4 4 4

Speech corpora 3 4 2 2 3 3 3

Parallel corpora 2 3 2 2 2 2 3

Lexical resources 3 2 3 4 3 4 3

Grammars 2 3 3 2 1 2 1

8: State of language technology support for Slovak

1. uantity: Does a tool/resource exist for the lan-guage at hand? e more tools/resources exist, thehigher the rating.

0: no tools/resources whatsoever

6: many tools/resources, large variety

2. Availability: Are tools/resources accessible, i. e.,arethey Open Source, freely usable on any platform oronly available for ahighprice or under very restrictedconditions?

0: practically all tools/resources are only avail-able for a high price

6: a large amount of tools/resources is freely,openly available under sensible Open Source orCreativeCommons licenses that allow re-use andre-purposing (if there are, e. g., two resources,one of them completely open and the other com-

pletely closed, we put the average (i. e., 3))

3. uality: How well are the respective performancecriteria of tools and quality indicators of resourcesmet by the best available tools, applications or re-sources? Are these tools/resources current and alsoactively maintained?

0: toy resource/tool

6: high-quality tool, human-quality annotationsin a resource

4. Coverage: Towhat degree do the best toolsmeet therespective coverage criteria (styles, genres, text sorts,linguistic phenomena, types of input/output, num-ber of languages supported by an MT system etc.)?To what degree are resources representative of thetargeted language or sublanguages?

0: special-purpose resource or tool, specific case,

68

Page 76: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

very small coverage, only to be used for very spe-cific, non-general use cases

6: very broad coverage resource, very robust tool,widely applicable, many languages supported

5. Maturity: Can the tool/resource be considered ma-ture, stable, ready for themarket? Can the best avail-able tools/resources be used out-of-the-box or dothey have to be adapted? Is the performance of sucha technology adequate and ready for production useor is it only a prototype that cannot be used for pro-duction systems? An indicator may be whether re-sources/tools are accepted by the community andsuccessfully used in LT systems.

0: preliminary prototype, toy system, proof-of-concept, example resource exercise

6: immediately integratable/applicable compo-nent

6. Sustainability: How well can the tool/resourcebe maintained/integrated into current IT systems?Does the tool/resource fulfill a certain level ofsustainability concerning documentation/manuals,explanation of use cases, front-ends, GUIs etc.?Does it use/employ standard/best-practice pro-gramming environments (such as Java EE)? Do in-dustry/research standards/quasi-standards exist andif so, is the tool/resource compliant (data formatsetc.)?

0: completely proprietary, ad hoc data formatsand APIs

6: full standard-compliance, fully documented

7. Adaptability: How well can the best toolsor resources be adapted/extended to newtasks/domains/genres/text types/use cases etc.?

0: practically impossible to adapt a tool/resourceto another task, impossible even with largeamounts of resources or person months at hand

6: very high level of adaptability; adaptation alsovery easy and efficiently possible

e key results for the Slovak language are as follows:

While some specific corpora of high quality exist, avery large syntactically annotated corpus is not avail-able.

For Slovak, the Slovak National Corpus is the refer-ence language corpus, but only the query interface isgenerally available, due to licensing restrictions.

On the other hand, the Corpus of Spoken Slovak isnot encumbered by copyright law and is thereforepublicly available, but its size is minuscule comparedto the corpus of written language.

Many of the resources lack standardisation, i. e., evenif they exist, sustainability is not given; concertedprograms and initiatives are needed to standardisedata and interchange formats.

Semantics is more difficult to process than syntax;text semantics is more difficult to process than wordand sentence semantics.

ere is an ontological resource for Slovak (evenmapped to English ontological resources) but itscoverage is limited.

Standards do exist for semantics in the sense ofworldknowledge (RDF, OWL, etc.); they are, however,not easily applicable to NLP tasks.

Written text processing is more mature than speechprocessing (especially speech recognition)

Many of the resources taken as standard in otherlanguages are missing for Slovak; NLP language re-search in Slovakia is severely underfunded.

Some of the research and development activities forthe Slovak language is carried out in the Czech Re-public by Czech universities and Czech SMEs.

Speech Recognition of the Slovak language is stud-ied at several universities and workplaces but theamount of free tools and data is limited.

69

Page 77: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

In contrast with speech recognition, speech synthe-sis is less covered by universities and other work-places.

In the field of speech synthesis, there are open sourcepackages available togetherwith several other simplesynthesizers but the speech synthesis with more nat-ural voices is not available.

Slovak dialogue systems are not extended due to thepoor accessibility of high quality speech recognitionmodules of the Slovak language.

4.7 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applica-tion areas (machine translation and speech processing)and one underlying technology (text analysis), as wellas basis resources needed for building LT applications.e languages were categorised using the following five-point scale:

1. excellent support

2. good support

3. moderate support

4. fragmentary support

5. weak or no support

LTsupportwasmeasured according to the following cri-teria:

SpeechProcessing: uality of existing speech recog-nition technologies, quality of existing speech syn-thesis technologies, coverage of domains, numberand size of existing speech corpora, amount and va-riety of available speech-based applications

Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, cover-age of linguistic phenomena and domains, qualityand size of existing parallel corpora, amount and va-riety of available MT applications

Text Analysis: uality and coverage of existingtext analysis technologies (morphology, syntax, se-mantics), coverage of linguistic phenomena and do-mains, amount and variety of available applications,quality and size of existing (annotated) text corpora,quality and coverage of existing lexical resources(e. g., WordNet) and grammars

Resources: uality and size of existing text corpora,speech corpora andparallel corpora, quality and cov-erage of existing lexical resources and grammars

4.8 CONCLUSIONSIn this series of white papers, we have made an impor-tant effort by assessing the language technology supportfor 30 European languages, and by providing a high-leel comparison across these languages. By identifyingthe gaps, needs and deficits, the European language tech-nology community and its related stakeholders are nowin a position to design a large scale research and develop-ment programme aimed at building a truly multilingual,technology-enabled communication across Europe.is white paper demonstrates that high-quality lin-guistic research in Slovakia exists; however, the technol-ogy industry here is not sufficiently developed. Slovakresearch exists only in a small number of available tech-nologies and resources. is number is lower than forlanguages such as Czech and Polish, and substantiallylower than for themainEU languages (English,Germanor French). Slovak language technologies and resourcesare of noticeably poorer quality.

We cannot really be optimistic about technology sup-port for the Slovak language. ere is a nascent re-

70

Page 78: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

search scene in Slovakia concerning Slovak LanguageLT, mostly in universities, scientific institutions, muchlike at the small and medium enterprises that focus onbasic research and solutions of specific LT problems.Various institutions have devoted their efforts to re-search and development of the LT products such as pro-duction of huge corpora of Slovak (of both written andspoken language), the morphology analysis, machinetranslation, complex speech interactive system, speechrecognition system, etc. But those must be further de-veloped and supported.According to the assessment detailed in this report, im-mediate action must be taken before any breakthroughsfor the Slovak language can be achieved. It is clear thatthere must be a greater effort to create LT resources

for Slovak, and drive research, innovation and develop-ment in general. e need for large amounts of data andthe extreme complexity of language technology systemsmakes it vital to develop a new infrastructure to spurgreater sharing and cooperation.ere is also a lack of continuity in research and devel-opment funding. Short-term coordinated programmestend to alternate with periods of low or sparse fund-ing, and there is an overall lack of coordination amongprogrammes in other EU countries and at the EuropeanCommission.A large coordinated effort focused on language tech-nologies would help save the Slovak language, togetherwith other languages, and establish a genuine multilin-gual agenda for Europe and the world as a whole [56].

71

Page 79: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English GermanItalianFinnishFrenchDutchPortugueseSpanishCzech

BasqueBulgarianDanishEstonianGalicianGreekIrishCatalanNorwegianPolishSwedishSerbianSlovakSloveneHungarian

IcelandicCroatianLatvianLithuanianMalteseRomanian

9: Speech processing: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

GermanItalianCatalanDutchPolishRomanianHungarian

BasqueBulgarianDanishEstonianFinnishGalicianGreekIrishIcelandicCroatianLatvianLithuanianMalteseNorwegianPortugueseSwedishSerbianSlovakSloveneCzech

10: Machine translation: state of language technology support for 30 European languages

72

Page 80: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English GermanFrenchItalianDutchSpanish

BasqueBulgarianDanishFinnishGalicianGreekCatalanNorwegianPolishPortugueseRomanianSwedishSlovakSloveneCzechHungarian

EstonianIrishIcelandicCroatianLatvianLithuanianMalteseSerbian

11: Text analysis: state of language technology support for 30 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English GermanFrenchDutchSwedishCzechPolishHungarianItalianSpanish

BasqueBulgarianDanishEstonianFinnishGalicianGreekCatalanCroatianNorwegianPortugueseRomanianSerbianSlovakSlovene

IrishIcelandicLatvianLithuanianMaltese

12: Speech and text resources: State of support for 30 European languages

73

Page 81: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

5

ABOUT META-NET

META-NET is a Network of Excellence partiallyfunded by the European Commission. e networkcurrently consists of 54 research centres in 33 Europeancountries [57]. META-NET forges META, the Multi-lingual EuropeTechnologyAlliance, a growing commu-nity of language technology professionals and organisa-tions in Europe. META-NET fosters the technologicalfoundations for a truly multilingual European informa-tion society that:

makes communication and cooperation possibleacross languages;

grants all Europeans equal access to information andknowledge regardless of their language;

builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-sion and a common strategic research agenda (SRA).

e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peer network of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.META-RESEARCH builds bridges to related tech-nology fields. is activity seeks to leverage advancesin other fields and to capitalise on innovative researchthat can benefit language technology. In particular, theaction line focuses on conducting leading-edge researchin machine translation, collecting data, preparing datasets and organising language resources for evaluationpurposes; compiling inventories of tools and methods;and organising workshops and training events formem-bers of the community.

[email protected] – http://www.meta-net.eu

74

Page 82: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

A

ZOZNAM LITERATÚRY REFERENCES

[1] Aljoscha Burchardt, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann,Georg Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache imDigitalen Zeitalter– e German Language in the Digital Age (Nemecký jazyk v digitálnom veku). META-NET White PaperSeries. Georg Rehm and Hans Uszkoreit (Series Editors). Springer, 2012.

[2] Directorate-General Information Society&Media of the EuropeanCommission (Generálne riaditeľstvo Eu-rópskej komisie pre informačnú spoločnosť a médiá). User Language Preferences Online (Preferencie jazykapoužívateľa), 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[3] European Commission (Európska komisia). Multilingvalizmus: an Asset for Europe and a Shared Commit-ment (Multilingvalizmus: Výhoda pre Európu, ale aj spoločný záväzok), 2008.http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[4] Directorate-General of the UNESCO (Generálne riaditeľstvo organizácie UNESCO). Intersectoral Mid-term Strategy on Languages and Multilingualism (Medzisektorová strednodobá stratégia pre jazyky a multi-lingvalizmus), 2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[5] Directorate-General for Translation of the European Commission (Generálne riaditeľstvo pre preklad). Sizeof the Language Industry in the EU (Veľkosť jazykového priemyslu v EÚ), 2009.http://ec.europa.eu/dgs/translation/publications/studies.

[6] Matej Považaj, Ján Kačala, and Mária Pisárčiková. Krátky sloník sloenského jazyka (Short Dictionary ofSloak). Veda, Bratislava, 2003.

[7] Klára Buzássyová and Alexandra Jarošová. Sloník súčasného sloenského jazyka A – G (Dictionary of Con-temporary Sloak A–G). Veda, Bratislava, 2006.

[8] Klára Buzássyová and Alexandra Jarošová. Sloník súčasného sloenského jazyka H – L (Dictionary of Con-temporary Sloak H–L). Veda, Bratislava, 2011.

[9] Mária Pisárčiková and Matej Považaj. Synonymický sloník sloenčiny (Sloak Synonym Dictionary). Veda,Bratislava, 2004.

[10] Ľubica Balážová, Ján Bosák, Jozef Genzor, Ivor Ripka, and Jana Skladaná. Sloník cudzích slo – akademický(Dictionary of Foreign Words – Academic). Slovenské pedagogické nakladateľstvo, Bratislava, 2005.

75

Page 83: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

[11] Emil Páleš. Sapfo – paraázovač sloenčiny (Sapfo – a Paraphraser of Sloak). Veda, Bratislava, 1994.

[12] Miloslava Sokolová, Gustáv Moško, František Šimon, and Vladimír Benko. Morfematický sloník sloenčiny(Sloak Dictionary of Morphemes). Náuka, Prešov, 1999.

[13] Miloslava Sokolová. Nový deklinačný systém sloenčiny (NewDeclension System in Sloak). Filozofická fakultaPrešovskej univerzity v Prešove, Prešov, 2007.

[14] SK-NIC – správa Slovenských internetových domén najvyššej úrovne (SK-NIC – Slovak top level domainregistry). Prevádzková správa systému SK-NIC za druhý polrok 2010 (1. 7. 2010 – 31. 12. 2010) (OperationReport of SK-NIC in the Second Half of 2010 (2010-07-01 – 2010-12-31)).https://www.sk-nic.sk/documents/pdf/2010-12-31_SK-NIC_PS.pdf.

[15] E@I. Slovak Online, 2011. http://www.slovake.eu.

[16] E@I. lernu!, 2011. http://www.lernu.net.

[17] Jana Pekarovičová, Ľudmila Žigová, and Michaela Mošaťová. Vzdeláací program Sloenčina ako cudzí jazyk.Jazykový kurz v kontaktnej a dištančnej forme (Educational Programme Sloak as a Foreign Language. Lan-guage Course in Contact and Distance Learning). Stimul, Bratislava, 2007.

[18] Jana Pekarovičová, Ľudmila Žigová, and Michaela Mošaťová. Vzdelávací program Slovenčina ako cudzí jazykJazykový kurz v kontaktnej a dištančnej forme (Educational Programme Slovak as a Foreign Language. Lan-guageCourse inContact andDistanceLearning), 2007. http://www.fphil.uniba.sk/fileadmin/user_upload/editors/sas/slavic/Vzdelavaci_program.pdf.

[19] Studia Academica Slovaca. Slovenčina ako cudzí jazyk (Slovak as a Foreign Language), 2007.http://www.e-slovak.sk.

[20] Mária Šimková. Insight into Sloak and Czech Corpus Linguistics (Sondy do sloenskej a českej korpusovejlingistiky). Veda, Bratislava, 2006.

[21] Mária Šimková. SlovakNationalCorpus – history and current situation (Slovenský národný korpus – históriaa súčasný stav). In Insight into Sloak and Czech Corpus Linguistics (Sondy do sloenskej a českej korpusovejlingistiky), pages 151–159, Bratislava, 2006. Veda.

[22] Slovenský národný korpus (Slovak National Corpus). SLOVKO. http://korpus.juls.savba.sk/~slovko.

[23] Slovenský národný korpus (Slovak National Corpus). Projekty – Projects. http://korpus.sk/projects.html.

[24] Slovenský národný korpus (SlovakNationalCorpus). Bibliografická a štýlovo-žánrová anotácia (Bibliograph-ical, style and genre annotation). http://korpus.sk/bibstyle.html.

[25] Slovenský národný korpus (Slovak National Corpus). Morfologická anotácia textov Slovenského národnéhokorpusu (Morfological annotation of texts in the Slovak National Corpus). http://korpus.sk/morpho.html.

76

Page 84: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

[26] Slovenský národný korpus (SlovakNationalCorpus). Slovenský hovorený korpus (Corpus of Spoken Slovak),2012. http://www.korpus.sk/shk.html.

[27] Slovenský národný korpus (Slovak National Corpus). Slovenská terminologická databáza (Slovak Terminol-ogy Database). http://data.juls.savba.sk/std/.

[28] Slovenský národný korpus (SlovakNationalCorpus). Rusko-slovenský paralelný korpus (Russian-Slovak Par-allel Corpus). http://korpus.sk/parus/.

[29] Slovenský národný korpus (SlovakNational Corpus). Francúzsko-slovenský paralelný korpus (French-SlovakParallel Corpus). http://korpus.sk/frask/.

[30] Slovenský národný korpus (Slovak National Corpus). Slovensko-anglický paralelný korpus (Slovak-EnglishParallel Corpus). http://korpus.sk/sken.html.

[31] Slovenský národný korpus (Slovak National Corpus). Slovensko-český paralelný korpus (Slovak-Czech Par-allel Corpus). http://korpus.sk/skcs.html.

[32] Slovenský národný korpus (Slovak National Corpus). Slovenské slovníky (Slovak dictionaries).http://slovniky.korpus.sk.

[33] Slovenský národný korpus (SlovakNational Corpus). Lingvistické zdroje a slovníky (Linguistic resources anddictionaries). http://korpus.sk/dicts.html.

[34] Kai-UweCarstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Hagen Langer, and Ralf Klabunde, edi-tors. Computerlinguistik undSprachtechnologie: EineEinführung (Úoddo počítačovej lingistiky a jazykovýchtechnológií). Spektrum Akademischer Verlag, 2009.

[35] Daniel Jurafsky and James H. Martin. Speech and Language Processing (Počítačové spracovanie reči a jazyka).Prentice Hall, 2nd edition, 2009.

[36] Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing (Zák-lady štatistického spracovania prirodzených jazykov). MIT Press, 1999.

[37] Language Technology World (Svet jazykových technológií). http://www.lt-world.org.

[38] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zam-polli, editors. Survey of the State of the Art in Human Language Technology (Prehľad o súčasnom stave jazyko-vých technológií). Cambridge University Press, 1998.

[39] Jerrold H. Zar. Ecology and Evolution (Ekológia a evolúcia), 2011. http://www.bios.niu.edu/zar/zar.shtml.

[40] Juan Carlos Perez. Google Rolls out Semantic Search Capabilities (Google uvádza semántické vy-hľadávanie), 2009. http://www.pcworld.com/businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.

77

Page 85: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

[41] Forma, s. r. o., 2012. http://www.forma.sk/.

[42] Fakulta informatiky a informačných technológií STU v Bratislave (Faculty of Informatics and InformationTechnologies STU in Bratislava). WIKT. http://conference.ui.sav.sk/wikt2010/.

[43] Fakulta informatiky a informačných technológií STU v Bratislave (Faculty of Informatics and InformationTechnologies STU in Bratislava). NAZOU. http://nazou.fiit.stuba.sk.

[44] Michal Laclavík,MarekCiglan, Stanislav Krajči, LadislavHluchý, andKarol Furdík. Dostupné zdroje a výzvypre počítačové spracovanie informačných zdrojov v slovenskom jazyku (Available Sources and Challenges forthe Information Sources Processing in Slovak). In Michal Laclavík, Ivana Budinská, and Ladislav Hluchý,editors, 1st Workshop on Intelligent and Knowledge oriented Technologies – WIKT 2006 Proceedings, pages92–97, Bratislava, 2007.

[45] Štefan Dlugolinský, Michal Laclavík, and Martin Šeleng. Ontea: Pattern based Semantic Annotation Plat-form (Sémantická anotačná platforma založená na vzoroch). http://ontea.sourceforge.net/.

[46] Michal Laclavík, Marek Ciglan, Martin Šeleng, Stanislav Krajči, Peter Vojtek, and Ladislav Hluchý. Semi-automatic Semantic Annotation of Slovak Texts (Poloautomatická sémantická anotácia slovenských textov).In Jana Levická and Radovan Garabík, editors, Computer treatment of Slaic and East European languages(Počítačové spracovanie sloanských a východoeurópskych jazykov), pages 126–138, Bratislava, 2007. SlovakNational Corpus, Ľ. Štúr Institute of Linguistics Slovak Academy of Sciences.

[47] Michal Laclavík, Martin Šeleng, Marek Ciglan, and Ladislav Hluchý. Ontea: Platform for pattern based au-tomated semantic annotation (Ontea: Platforma pre sémantickú anotáciu založenú na vzoroch). Computingand informatics, 28(4):555–579, 2009.

[48] Peter Vojtek and Vladimír Grlický. Identification of Natural Language using n-grams and Markov processes(Identifikácia prirodzeného jazyka s použitím techniky n-gramov a Markovových procesov). In Pavol Návratet al., editor,Tools forAcquisition, Organisation andPresenting of Information andKnowledge, pages 154–161,Bratislava, 2006. Vydavateľstvo Slovenskej technickej univerzity.

[49] Stanislav Krajči and Róbert Novotný. Hľadanie základného tvaru slovenského slova na základe spoločnéhokonca slov (Searching for the Base Form of Slovak Word according to Common Word Endings). In MichalLaclavík, Ivana Budinská, and Ladislav Hluchý, editors, 1st Workshop on Intelligent and Knowledge orientedTechnologies – WIKT 2006 Proceedings, Bratislava, 2007.

[50] Michal Laclavík. AIIA. http://aiia.ui.sav.sk/.

[51] Michal Laclavík, Martin Šeleng, Emil Gatial, Štefan Dlugolinský, Zoltán Balogh, Ladislav Hluchý, EugenJeckel, and Pavol Horváth. AIIA: adaptívna platforma na podporu interoperability v súkromnom a verejnomsektore (AIIA – Adaptive Platform for Interoperability Support in Private and Public Sector). In Pavel Smrž,editor, Znalosti 2010: Sborník příspěvků 9. ročníku konference (Znalosti 2010: Proceedings of the 9th annualconference), pages 227–230, Praha, 2010. Vysoká škola technická v Praze.

78

Page 86: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

[52] Štefan Dlugolinský, Michal Laclavík, and Ladislav Hluchý. Towards a search system for the Web exploitingspatial data of a web document (Vyhľadávací systém využívajúci priestorové dáta webového dokumentu). InRoland Wagner, editor, DEXA 2010: Database and Expert Systems Applications, pages 27–31, Los Alamitos,2010. IEEE Computer Society.

[53] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe (462systémov strojového prekladu pre Európu). In Proceedings of MT Summit XII, 2009.

[54] Kishore Papineni, SalimRoukos, ToddWard, andWei-JingZhu. BLEU:AMethod forAutomatic Evaluationof Machine Translation (BLEU: Metóda automatického hodnotenia strojového prekladu). In Proceedings ofthe 40th Annual Meeting of ACL, Philadelphia, PA, 2002.

[55] Michal Laclavík. Vyhľadávanie informácií (Information retrieval). http://vi.ikt.ui.sav.sk/.

[56] Viviane Reding and Ján Figeľ. Human Language Technologies for Europe – Preface ( Jazykové technológiepre Európu – Predslov). http://www.tcstar.org/pubblicazioni/D17_HLT_ENG.pdf).

[57] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language technologies (Multi-lingválna Európa: Výzva pre jazykové technológie). MultiLingual, 22(3):51–52, April/May 2011.

[58] Aljoscha Burchardt, Georg Rehm, and Felix Sasaki. e Future European Multilingual Information Society– Vision Paper for a Strategic Research Agenda (Budúca európska multilingválna informačná spoločnosť –vízia pre strategickú výskumnú agendu), 2011.http://www.meta-net.eu/vision/reports/meta-net-vision-paper.pdf.

79

Page 87: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária
Page 88: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

B

ČLENOVIAMETA-NET-U

META-NETMEMBERS

Belgicko Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre for Proc. Speech and Images, University of Leuven: Dirk van Compernolle

Bulharsko Bulgaria Inst. for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Cyprus Cyprus Language Centre, School of Humanities: Jack Burston

Česká republika Czech Republic Inst. of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Dánsko Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Estónsko Estonia Inst. of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Fínsko Finland Computational Cognitive Systems Research Group, Aalto University: TimoHonkela

Dept. of Modern Languages, University of Helsinki: Kimmo Koskenniemi,Krister Lindén

Francúzsko France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour laMécanique et les Sciences de l’Ingénieur and Inst. for Multilingual and MultimediaInformation: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Grécko Greece R.C. “Athena”, Inst. for Language and Speech Proc.: Stelios Piperidis

Holandsko Netherlands Utrecht Inst. of Linguistics, Utrecht University: Jan Odijk

Computational Linguistics, University of Groningen: Gertjan van Noord

Chorvátsko Croatia Inst. of Linguistics, Faculty of Humanities and Social Science, University of Zagreb:Marko Tadić

Island Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Írsko Ireland School of Computing, Dublin City University: Josef van Genabith

Litva Lithuania Inst. of the Lithuanian Language: Jolanta Zabarskaitė

Lotyšsko Latvia Tilde: Andrejs Vasiļjevs

Inst. of Mathematics and Computer Science, University of Latvia: Inguna Skadiņa

Luxembursko Luxembourg Arax Ltd.: Vartkes Goetcherian

81

Page 89: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Maďarsko Hungary Research Inst. for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Dept. of Telecommunications and Media Informatics, Budapest University of Tech-nology and Economics: Géza Németh, Gábor Olaszy

Malta Malta Dept. Intelligent Computer Systems, University of Malta: Mike Rosner

Nemecko Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

HumanLanguageTechnology and PatternRecognition, RWTHAachenUniversity:Hermann Ney

Dept. of Computational Linguistics, Saarland University: Manfred Pinkal

Nórsko Norway Dept. of Linguistic, University of Bergen: Koenraad De Smedt

Dept. of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Poľsko Poland Inst. of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski, Ma-ciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Dept. of Computer Linguistics andArtificial Intelligence, AdamMickiewicz Univer-sity: Zygmunt Vetulani

Portugalsko Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Inst. for Systems Engineering andComputers:Isabel Trancoso

Rakúsko Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Rumunsko Romania Research Inst. for Artificial Intelligence, Romanian Academy of Sciences:Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Slovensko Slovakia Ľudovít Štúr Inst. of Linguistics, Slovak Academy of Sciences: Radovan Garabík

Slovinsko Slovenia Jožef Stefan Inst.: Marko Grobelnik

Spojené kráľovstvo UK School of Computer Science, University of Manchester: Sophia Ananiadou

Inst. for Language, Cognition and Computation, Center for Speech Technology Re-search, University of Edinburgh: Steve Renals

Research Inst. of Informatics and Language Proc., University of Wolverhampton:Ruslan Mitkov

Srbsko Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vraneš

Španielsko Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

82

Page 90: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Aholab Signal Proc. Laboratory, University of the Basque Country:Inma Hernaez Rioja

Center for Language and Speech Technologies and Applications, Universitat Politèc-nica de Catalunya: Asunción Moreno

Dept. of Signal Proc. and Communications, University of Vigo:Carmen García Mateo

Švajčiarsko Switzerland Idiap Research Inst.: Hervé Bourlard

Švédsko Sweden Dept. of Swedish, University of Gothenburg: Lars Borin

Taliansko Italy ConsiglioNazionale delle Ricerche, Istituto di LinguisticaComputazionale “AntonioZampolli”: Nicoletta Calzolari

Human Language Technology Research Unit, Fondazione Bruno Kessler:Bernardo Magnini

83

Page 91: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

Takmer 100 odborníkov na jazykové technológie – predstaviteľov krajín a jazykov META-NET-u – prediskutovaloa sformulovalo kľúčové východiská a odkazy série bielych kníh na stretnutí META-NET-u 21. a 22. októbra vBerlíne v Nemecku. — About 100 language technology experts – representatives of the countries and languagesrepresented in META-NET – discussed and finalised the key results and messages of the White Paper Series at aMETA-NET meeting in Berlin, Germany, on October 21/22, 2011.

84

Page 92: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

C

SÉRIA BIELYCHKNÍH META-NET-U

THE META-NETWHITE PAPER SERIES

angličtina English Englishbaskičtina Basque euskarabulharčina Bulgarian българскиčeština Czech češtinadánčina Danish danskestónčina Estonian eestifínčina Finnish suomifrancúzština French françaisgalícijčina Galician galegogréčtina Greek εηνικάholandčina Dutch Nederlandschorvátčina Croatian hrvatskiislandčina Icelandic íslenskaírčina Irish Gaeilgekatalánčina Catalan catalàlitovčina Lithuanian lietuvių kalbalotyština Latvian latviešu valodamaďarčina Hungarian magyarmaltčina Maltese Maltinemčina German Deutschnórčina (bokmål) Norwegian Bokmål bokmålnórčina (nynorsk) Norwegian Nynorsk nynorskpoľština Polish polskiportugalčina Portuguese portuguêsrumunčina Romanian românăslovenčina Slovak slovenčinaslovinčina Slovene slovenščinasrbčina Serbian српскиšpanielčina Spanish españolšvédčina Swedish svenskataliančina Italian italiano

85

Page 93: White Paper Series Séria bielych kníh THE SLOVAK … · White Paper Series THE SLOVAK LANGUAGE IN THE DIGITAL AGE Séria bielych kníh SLOVENSKÝ JAZYK V DIGITÁLNOM VEKU Mária

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Slovak language. It is part of a se-ries that analyzes the available language resources andtechnologies for 30 European languages. The analysiswas carried out by META-NET, a Network of Excellencefunded by the European Commission. META-NET con-sists of 54 research centres in 33 countries, who cooper-ate with stakeholders from economy, government agen-cies, research organisations, NGOs, language commu-nities and European universities. META-NET’s vision ishigh-quality language technology for all European lan-guages.

V bežnej komunikácii sú občania Európy, obchodnípartneri či politici neustále konfrontovaní sjazykovými bariérami. Jazykové technológieby mohli časom prekonať tieto bariéry a poskytnúťinovatívne technologické a znalostné prístupy.Táto biela kniha odráža súčasný stav jazykovýchtechnológií pre slovenčinu. Je súčasťou série, ktoráanalyzuje dostupné jazykové zdroje a technológiepre 30 jazykov Európy. Analýza sa realizuje podzáštitou META-NET-u, siete excelentnosti, ktoráje financovaná Európskou komisiou. META-NETpozostáva z 54 výskumných centier v 33 krajinách,ktoré spolupracujú so zainteresovanými stranamiz oblasti ekonómie, vládnych agentúr, výskumnýchorganizácií, nevládnych organizácií, jazykovýchkomunít a európskych univerzít. Víziou META-NET-uje tvorba vysokokvalitných jazykových technológiípre všetky európske jazyky.

“This book is proof of deeper European integration increasing with the need for qualitative progress in LT for Slo-vak.”— Jozef Ivanecký (European Media Laboratory)

„Aktuálne globalizačné procesy, mnohojazyčná Európa a existencia jazykových technológií vytvárajú podmienkypre vývoj nástrojov uľahčujúcich komunikáciu v rôznych oblastiach. Interdisciplinárny projekt META-NET pred-stavuje cestu, ktorou sa bude uberať ďalší rozvoj jazykových technológií v podmienkach jazykovej plurality zo-hľadňujúc potreby nositeľov väčších aj menších jazykov.“— Viera Rosová (podpredsedníčka Slovenskej akadémie vied pre ekonomiku)