I SEKCIJA - elibrary.lt · Skendelio „SKIEMUO“ skiria skiemenis, tačiau galima suskiemenuoti tik žodį, kurį reikia perkelti į kitą eilutę tekste, tad sužinoti, kaip skiemenuojamas

III SEKCIJA

Informacinės technologijos kalbų inžinerijoje

SPRENDIMO MEDŽIŲ PANAUDOJIMAS SKIEMENAVIMO PROBLEMAI SPRĘSTI

Dalia Daukantaitė, Gailius Raškinis Vytauto Didžiojo universitetas

Šiame darbe lietuvių kalbos automatinio skiemenavimo uždavinys suformuluotas kaip atpažinimo problema. Darbe nagrinėjami metodai, kurie leidžia atskirti greta einančių balsių porų klases: klasę, kai balsiai sudaro dvibalsį ir priklauso

vienam skiemeniui, bei klasę, kai balsiai priklauso dviems skirtingiems skiemenims. Skirtingai nuo panašių darbų, kuriuose klasių atskyrimas paremtas išsamiu mažesnės klasės objektų išvardijimu, šiame darbe klases siūloma atskirti naudojant

sprendimo medžius (ID3). Mokymui buvo panaudota beveik 600000 skirtingų žodžių formų, paimtų iš VDU KLC tekstyno. Eksperimentai parodė, kad net ir paprastas požymių rinkinys, grindžiamas balsių poros aplinkoje esančiomis raidėmis, leidžia

pasiekti mažesnę nei 0,3 % atpažinimo klaidą. Sprendimo medžius naudojanti atpažinimo metodika palyginta su kitais atpažinimo metodais ir su skiemenavimu išsamaus išvardijimo būdu.

1. Įvadas Skiemenavimas lietuvių kalboje yra sudėtingas uždavinys. Labiausiai jį apsunkina tai, kad neaišku kada

išskirti, o kada ne tokius skiemenis, kuriuose yra dvi ar daugiau greta stovinčios balsės (pavyzdžiui, žodyje „paukštis“ dvibalsis „au“ skiemenuojant negali būti išskirtas, o žodyje „paupyje“ - gali). Tačiau galima išmokyti kompiuterį skiemenuoti tokius žodžius, kad nereikėtų, kiekvieną kartą susidūrus su sunkiau skiemenuojamu žodžiu, ieškoti pagalbos. Tam gali būti panaudotas sprendimų medžio indukcijos algoritmas ID3. Skiemenavimo problemą taip pat galima spręsti remiantis taisyklių indukcija (RIPPER[5] algoritmas), kuri yra panaši į sprendimų medžio indukciją, tačiau sukuriamas ne sprendimų medis, o paprastos „jei-tai“ taisyklės, kuriomis remiantis ir skiemenuojama.

Skiemenavimo problema lietuvių kalboje spręsta ir kitų autorių. G. Norkevičiaus darbe [1] remiamasi žodžio dalimis, garsais ir žodynu. J. Skendelio „SKIEMUO“ skiria skiemenis, tačiau galima suskiemenuoti tik žodį, kurį reikia perkelti į kitą eilutę tekste, tad sužinoti, kaip skiemenuojamas pats žodis, sudėtinga.

2. Panašūs darbai G. Norkevičiaus darbe[1] skiemenų ribos problema sprendžiama remiantis žodį sudarančiomis balsėmis ir priebalsėmis, priesagų, priešdėlių ir kitų žodžius sudarančių dalių atskyrimu. Kad būtų gaunami rezultatai taip pat naudojamasi ir žodynu. Toks būdas ne visada teisingai suskiemenuoja tuos žodžius, kuriuose dvibalsiai išskiriami(minėtas pavyzdys su paukščiu ir paupiu). Taigi sprendimų medžio indukcijos algoritmo atvejis truputį paprastesnis, kadangi čia sudėtingiausia yra tinkamai paruošti mokymo imtį, o algoritmui vykdyti jokie papildomi duomenys nereikalingi.

3. Sprendimo medžių indukcija Sprendimų medžio indukcijos algoritmas remiasi jam pateikiamais pavyzdžiais(mokymo imtimi). Mokymo imtyje nurodoma kuriam požymių rinkiniui esant, gaunama konkreti klasė. Iš pateiktų pavyzdžių randami panašumai, apibendrinama kokiu atveju gaunama kokia klasė ir sukuriamas medis, kurio kiekviena šaka einant galima nustatyti tą klasę. Pateikiamais pavyzdžiais remiasi ir panašus - taisyklių indukcijos - algoritmas(Ripper), tačiau jame sukuriamas ne medis, o „jei-tai“ taisyklių rinkinys. Požymiams nustatyti naudojama diskretizacija. Pavyzdžiui, norint diskretizuoti žmogaus požymius galima išskirti ūgį, svorį, kūno sudėjimą arba plaukų, akių spalvą, pėdos dydį ir pan. Labai svarbu kuriuos požymius pasirinksime. Ieškant dėsningumų (kuriant medį) sveikatos požiūriu daug svarbesnė būti organizmo temperatūra nei plaukų spalva, o, pavyzdžiui, mėgstamiausios spalvos tyrimui tokie požymiai visai neinformatyvūs. Pagal išskirtus požymius kuriamas indukcinis sprendimų medis. Tačiau reikia išrinkti požymių naudojimo chronologiškumą. Tam naudojama „skaldyk ir valdyk“ strategija. Į medį reikia įtraukti tą požymį, kuriame yra daugiau reikšmių, nurodančių kokia klasė gaunama, nes tada tolimesnis medžio kūrimas yra efektyvesnis. Be to, taip atmetami tie požymiai, kurie nesuteikia naudingos informacijos nagrinėjamu atveju. Konkretus „skaldyk ir valdyk“ strategijos pavyzdys yra ID3 algoritmas, pristatomas šiame darbe. Jame skaldymas atliekamas pasirenkant mažiausią entropiją (informacijos kiekį) turintį požymį. 3.1 ID3 algoritmas ID3 yra sprendimų medžio mokymo algoritmas, išplėtotas Rosso Quinlano (1983). Pagrindinė šio algoritmo idėja - sukonstruoti sprendimų medį pritaikant indukcinius metodus mokymo imčiai apdoroti. Turėdami paruoštą mokymo imtį(požymius ir klasę) išrenkame mažiausią entropiją turintį požymį ir jį įtraukiame į kuriamą medį. Tokius veiksmus kartojame tol, kol randame visus požymius, pagal kuriuos jau

– 53 –

Dalia Daukantaitė, Gailius Raškinis

galima atskirti klases(medžio lapai; „skaldyk ir valdyk“ strategija), arba patikriname visus galimus požymius (kai mokymui pateikiami prieštaringi duomenys).

Kai mokymo imtyje yra dvi klasės, entropiją galima apskaičiuoti pagal formulę:

∑∈

+

⋅+

−+

⋅+

−+

=Ki ii

i

ii

i

ii

i

ii

iii

kkk

kkk

kkk

kkk

visokkpožymisEB

212log

212

211log

21121),( 22

(1)

Formulėje k1i – konkretaus požymio vienai klasei priklausančių elementų skaičius, k2i – kitos klasės elementų skaičius; viso yra visos mokymo imties elementų skaičius; K – galimų požymio reikšmių kiekis. E yra nagrinėjamos medžio šakos požymio visos galimos reikšmės, kurių eilutėse yra jau ankstesnėse šakose išskirti požymiai. Skaičiuojant k1i ir k2i atsižvelgiama tik į šių eilučių klases.

Keli metodo privalumai: • Gali apdoroti dideles mokymo imtis. • Nebūtinai klasifikuojama pagal visus požymius – išrenkami geriausiai tikslą atitinkantys. • Sprendimų medis yra patogus duomenų saugojimo būdas. Turėtas pradinis didelis mokymo

imties failas sukuriant medį sumažinamas daugiau kaip 200 kartų. Metodo trūkumai:

• Negali apdoroti prieštaringų duomenų. • Labai jautriai reaguoja į mažiausius duomenų pakeitimus(pakeitus vieną eilutę mokymo imtyje,

visas medis turi būti kuriamas iš naujo). • Naudojamas baigtinis požymių skaičius (kai kuriais atvejais tai gali būti privalumas, nes

sumažėja kompiuterio atmintyje saugomų duomenų kiekis).

4. Skiemenavimas naudojant sprendimo medžius ID3 algoritmas pagal jam pateikiamą mokymo imtį kuria medį. Taigi norint gauti tikslius duomenis

labai svarbu paruošti tinkamą mokymo imtį. Konkrečiai šiam, skiemenavimo, atvejui mokymo imtis yra failas, kuriame išrinkti tik tokie žodžiai, kuriuose yra dvi ar daugiau greta esančios balsės. Klasės, reikalingos algoritmui ir sužymėtos mokymo imtyje, yra dvi: neskaidytinos balsės išskirtos „+“ ženklu, atskiriamos balsės žymimos „-“. 1 pav. pateikiamas mokymo imties failo fragmentas.

1 pav. Mokymo imties failo fragmentas

Kad mokymo imtis būtų kuo informatyvesnė, paimta beveik 600000 žodžių iš VDU Kompiuterinės lingvistikos centro tekstyno. Ženklai sudėti remiantis visiems žinomomis elementariomis taisyklėmis: lietuvių kalbos dvibalsių sąrašu ir minkštumo ženklo i vartojimo principais. Dėl sudėtingesnių atvejų (pavyzdžiui, tarptautinių žodžių skiemenavimo) tartasi su kalbininkais. Skiemenuojant atsirado tokių atvejų, kai žodis gali būti skiemenuojamas dvejopai. Pavyzdžiui, žodžio fragmente „ne?imanti“ ? negali būti pakeistas vien tik „-“ arba vien tik „+“ ženklu, nes mokymo imtyje yra žodžiai „ne-imanti“ ir „Ne+imanti+enė“. Imant tik 6 raides į vieną ir į kitą pusę nuo klasės skirtuko (diskretizavimo žingsnis), gaunamas tas pats požymių rinkinys, todėl algoritmas neranda sprendinio. Be to, rasta tokių atvejų, kurie neteisingai parašyti arba yra nelietuviški žodžiai. Kai kuriuos jų būtų galima suskiemenuoti, tačiau yra žodžių, kurių skiemenavimas sudėtingesnis(pavyzdžiui, yedioth), todėl faile pastebėti nelietuviški žodžiai iškelti į kitą failą(siuksles.txt). Kaip jau buvo paminėta, algoritme naudojami požymiai, kurie šiuo atveju yra raidės į vieną pusę nuo klasės ženklo ir į kitą. Kadangi, esant vienodoms požymių entropijoms, pasirenkama pirma rastoji, tai požymių išrinkimas iš žodžio atliekamas taip, kaip pavaizduota 2 pav.

– 54 –

Sprendimo medžių panaudojimas skiemenavimo problemai spręsti

2 pav. Požymių išrinkimo pavyzdys

Algoritmo realizacijai pasirinktas 12 požymių rinkinys – 6 raidės nuo klasės simbolio į dešinę ir 6 į kairę. Šitoks požymių skaičius yra gana informatyvus, nes yra tik keli žodžiai, kurių algoritmas negali išskirti(anksčiau paminėtas pavyzdys). Jei pasirinktume mažesnį požymių skaičių, tai tokių žodžių būtų gerokai daugiau, todėl gautu medžiu negalėtume patikimai skiemenuoti. Jei pasirinktume daugiau požymių, tai medžio kūrimui turėtume labai daug nereikalingų duomenų dėl žodžių ribos. Pasiekus žodžio ribą, požymiui suteikiamas koks nors simbolis, kuris pasirenkamas žodžio riboms žymėti.

Sprendimo medžių algoritmas ID3 realizuotas dviem būdais, kurie skiriasi tik požymių rinkiniu, įtraukiamu į medį jį kuriant. Radę mažiausios entropijos požymį suskaičiuojame, kiek kartų tokia reikšmė pasikartojo, kai nurodyta klasė buvo „+“ ir kai klasė „-“. Galima gauti, kad visais šios reikšmės atvejais ji priklausė tik vienai klasei, tokiu atveju medyje užpildomas klasės laukelis. Tačiau jei reikšmė pasirodė tiek teigiamos, tiek neigiamos klasės atvejais, tai žymima, kad klasės dar nepavyko rasti ir šitos reikšmės šakelė smulkinama(šakojama, skaldoma) ir galbūt tada bus galima rasti klasę. Realizuojant algoritmą vienu atveju tikrinama, kiek iš viso požymis gali įgyti reikšmių ir jos apibendrinamos (eksperimentas A). Kitu atveju į medį įtraukiamos ne visos galimos reikšmės, o tik viena, ir jai priešinga (eksperimentas B). Šiais būdais gautų medžių pavyzdžiai pateikiami 3 pav.

3 pav. Dviem skirtingais realizavimo būdais gautų medžių pavyzdžiai

Tačiau išsprendus vieną problemą atsiranda kita. Pirmuoju būdu sukurtas medis didesnis ir ne toks lankstus (blogiau suskiemenuojami tokie žodžiai, kurių mokymo imtyje nebuvo) kaip antrasis. Tačiau antrajam medžiui sukurti reikia daug daugiau laiko. Be abejo, medžio naudojimo atžvilgiu, antrojo būdo (eksperimentas B) privalumų nuginčyti jau negalima. 5. Tyrimų rezultatai

Skirtumus tarp dviejų minėtų eksperimentų geriausiai atskleidžia gauti rezultatai. Eksperimento A atveju sukurtas medis nėra lankstus, todėl, kad norint suskiemenuoti žodį einama kažkuria iš šakų, o jei tokios nėra, tai suskiemenuojam „nežinoma“(„?“) simboliu. Be abejo, galima suskiemenuoti ir mokymo imtyje nesančius žodžius, tačiau neaišku, ar taisyklingai. Eksperimento B atveju medis lankstesnis, nes galima eiti šaka „ne-<raidė>“(„~“), o tai leidžia geriau suskiemenuoti tokius žodžius, kurių mokymo imtyje nebuvo. Tuo galima įsitikinti ir patikrinus gautus rezultatus. 1 lentelėje pateikiami tokie duomenys: sukūrus medį iš nurodyto dydžio(%) mokymo imties failo (nurodytas kiekis eilučių atrenkamas atsitiktinai ir naudojamas abiem atvejams patikrinti), gauta (%) klaidingai suskiemenuotų likusių mokymo imties failo žodžių abiem atvejais.

– 55 –

Dalia Daukantaitė, Gailius Raškinis

1 lentelė. Klaidos priklausomybė nuo mokymo imties procento ir eksperimento A ar B

mokymo imties dydis eksperimentas A eksperimentas B 10 % 5,69 % 1,97 % 20 % 2,91 % 1,08 % 30 % 2,05 % 0,76 % 40 % 1,50 % 0,57 % 50 % 1,30 % 0,49 % 60 % 1,17 % 0,45 % 70 % 1,09 % 0,40 % 80 % 0,97 % 0,37 % 90 % 0,92 % 0,34 %

Klaidų procentas nustatomas pagal formulę:

%100%100 ⋅−

−=V

KVA (2)

Formulėje: A – klaidingų žodžių skaičius gautame faile; V – bendras mokymo failo eilučių skaičius (naudojamas eilučių skaičius, nes paruoštoje mokymo imtyje vienoje eilutėje yra tik vienas žodis); K – klaidingų žodžių kiekis, nustatytas lyginant suskiemenuotus remiantis medžiu žodžius ir paruoštus mokymo imtyje. Kai tikrinami rezultatai, naudojant visą mokymo imtį, tai atpažinimo klaida abiem atvejais sutampa ir sumažėja iki 0,0012 %.

Patikrinę, kokias klaidas dažniau atlieka algoritmo sukurtas medis, kai mokymui naudojama 90 % mokymo imties failo, matome (2 lentelė), kad daugiausiai suklystama, kai priskiriama klasė „-“, o turi būti „+“. Nors eksperimento B atveju padaroma daugiau klaidų, tačiau ir teisingai suskiemenuojama daugiau, o eksperimento A atveju nežinomi pavyzdžiai tiesiog suskiemenuojami „?“(nežinoma) simboliu.

2 lentelė. Klaidų sumaišymo lentelė, kai mokymui naudojama 90 % mokymo imties failo

eksperimentas A eksperimentas B Gauta klasė\ pažymėta imtyje - + - +

- 4389 87 4444 105 + 65 81418 88 81709 ? 387 0

Akivaizdu, kad eksperimentas B yra pranašesnis už eksperimentą A. Galima palyginti ir sukuriamus

skiemenavimo medžius. Eksperimento A atveju visas sukuriamas medis turi 14413 lapus iš visų sukuriamų 16895 mazgų. Eksperimento B atveju bendras mazgų skaičius 14851, tačiau iš jų tik 7423 turi klasės simbolius(yra lapai). Tai ypač svarbu, kai norima išsaugoti sukurtą medį, mat eksperimento B atveju daug mazgų yra tarpiniai, ir visus jų duomenis būtina išsaugoti. Tačiau B atveju medžiui sukurti reikia 11 kartų daugiau laiko (A atveju medžiui sudaryti sugaištama 811s (13min 31s), o B - 8975 s (2val 29min 35s), kai naudojamas 1.5GHz, 256 MB RAM kompiuterio procesorius). Tačiau kad ir kurį atvejį pasirinktume, pradinė paruošta mokymo imtis sukūrus medį gali būti sumažinama daugiau kaip 200 kartų, o suskiemenuoti pasirenkamą žodį galima tik 0,002 % nepatikimumu. 6. Išvados Šiame darbe įrodoma, kad ID3 algoritmas gali būti nesudėtingai pritaikytas lietuvių kalbos žodžiams skiemenuoti. Pagal mokymo imtį sukurtu medžiu tą pačią imtį galima suskiemenuoti taip, kad paruoštas mokymo imties ir gautas suskiemenuotų žodžių failas atitiktų 100 %.

Algoritmą programuoti nėra sudėtinga, tačiau sunkiausia dalis yra paruošti mokymo imtį. Jei norima gauti geresnius, plačiau pritaikomus rezultatus, tai reikia paruošti didesnę mokymo imtį. Vis dėlto visada gali atsirasti žodis, į kurį mokymo imtyje panašaus nebuvo, ir pagal gautą medį jo negalėsime suskiemenuoti. Kad sumažintume tokių atvejų (kai pagal gautą medį neįmanoma suskiemenuoti žodžio), galima algoritmą realizuoti skaidant visas mokymo imties požymio reikšmes ne į atskiras raides (eksperimento A atvejis), o skirstant į „raidė“ ir „ne-raidė“ grupes(eksperimentas B). Tokiu atveju, jei sutinkamas nežinomas žodžio požymių rinkinys, jis gali būti suskiemenuotas, nes ieškant reikšmės nueinama keliu „ne-raidė“. Žinoma, rezultatas ne visada bus teisingas, tačiau netgi jei mokymui naudojama tik 10 % paruoštos mokymo imties, suskiemenuoti nežinomus žodžius galima daugiau nei 90 % patikimumu.

– 56 –

Sprendimo medžių panaudojimas skiemenavimo problemai spręsti

– 57 –

Literatūra [1] G. Norkevičius „Knowledge-based grapheme-to-phoneme conversion of Lithuanian words“ [2] G. Raškinis „Sprendimų medžio indukcija“,

http://donelaitis.vdu.lt/~gailius/kursai/aisys/skaidres/SprendimuMedis.pdf [3] Machine Learning – Introduction, http://www.computing.edu.au/~lazaresc/ml-intro.pdf [4] Decision Tree Construction, http://www.cs.ucdavis.edu/~vemuri/classes/ecs271/Decision%20Trees-Construction.htm [5] Feature Transformation through Rule Induction: A Case Study with the k-NN Classifier,

http://www.ke.informatik.tu-darmstadt.de/events/ECML-PKDD-04-WS/Proceedings/bosch.pdf

USAGE OF DECISION TREES FOR THE PROBLEM OF HYPHENATION

In this paper automatic hyphenation problem is stated as identification task. Methods described here allow separating classes of vowels that are alongside in the word: class when vowels compose to diphthong and are in one syllable and class when vowels belong to two different syllables. Differently from similar jobs where separating of vowels is based on comprehensive enumeration of smaller class objects, here is described case of separating classes using decision trees (ID3). There were used almost 600000 different words from VDU KLC text corpus for learning purposes. Experiments showed that even simple set of signs, based on letters from a pair of vowels environment allow to achieve less than 0.3 % identification error. Methods that use decision trees for identification are compared with other identification methods and with a method of comprehensive enumeration.

SPEKTRO ĮVERTINIMAS IŠ TRUMPOS KALBOS SIGNALO ATKARPOS

Gintautas Daunys Šiaulių universitetas

Kalbėjimo metu kalbos trakto forma gana greitai keičiasi. Norint nustatyti formančių dažnių kitimą balsių tarimo metu, reikia objektyviai įvertinti spektrą iš trumpos signalo atkarpos. Tuo tikslu netinka įprastiniai metodai: Furjė transformacija ir

tiesinė prognozė, kadangi šiais metodais gaunamo spektro maksimumų dažniai nėra tikslūs. Pasiūlytas naujas spektro įvertinimo metodas. Jis remiasi tiesine prognoze, tačiau pakeistas optimizavimo kriterijus. Dėl to reikia taikyti netiesinius

optimizavimo metodus. Metodas labiau imlus skaičiavimams, tačiau duoda žymiai tikslesnius rezultatus.

1 Įvadas Aprašant kalbėjimo procesą dažnai laikomasi nuostatos, kad kalbos signalas yra laike kintančios

tiesinės sistemos atsakas į žadinantį signalą. Sistemos charakteristikos priklauso nuo kalbos trakto formos, ir sistema gali būti aprašyta sistemos funkcija. Skardžių garsų uždaros fazės analizės metodika remiasi prielaida, kad signale galima išskirti intervalus, kurių metu gerklos yra uždarytos. Šie intervalai geriausiai atspindi kalbos trakto savybes. Todėl pagal juos yra tikslinga ieškoti sistemos funkcijos. Neatsižvelgsime į faktą, kad ir uždaros fazės metu gali būti nežymus žadinimas [1].

Šio tyrimo tikslas yra sukurti metodą, kurio pagalba būtų galima tirti kalbos trakto kitimą, tariant garsus. Signalo trumpo intervalo spektras gali būti įvertintas diskretinės Furjė transformacijos (DFT) arba tiesinės prognozės (TP) [2] metodais. Norint gauti gerą skiriamąją gebą dažnių srityje, reikalinga ilga stacionaraus signalo atkarpa. Tačiau intervalas, kada gerklos yra uždaros, yra trumpas, ypač, kai kalba moterys. Tokiu atveju klasikiniai spektrinio tyrimo metodai yra netikslūs.

Darbe yra siūlomas naujas tiesine prognoze pagrįstas spektro įvertinimo metodas. Metodas yra aprašytas 2 skyriuje. Skaičiavimo su dirbtiniais signalais rezultatai pateikti 3 skyriuje. 4-ame skyriuje yra pateikti analizės pavyzdžiai, kai tyrimui buvo panaudoti lietuvių kalbos balsių signalai.

2 Tiesinės prognozės koeficientų optimizavimas Tiesinės prognozės metodas yra paremtas faktu, kad šalia esančių kalbos signalo atskaitų vertės yra

koreliuotos. Todėl, panaudojant M ankstesnių laiko momentų atskaitų, gana tiksliai galima prognozuoti n-tosios atskaitos vertę tiesine lygtimi:

. (1) ∑=−−=

M

i i insans1

)()(ˆ

Čia ai - tiesinės prognozės koeficientai. Prognozavimo paklaida: ).(ˆ)()( nsnsn −=ε (2)

Tiesinės prognozės koeficientai surandami, panaudojus mažiausių kvadratų metodą. Koeficientų skaičiavimas suvedamas į minimizavimą kriterijaus J, išreiškiamo lygtimi:

(3) { } .)()()(2

12

−−== ∑ =

M

i i insansEnEJ ε

Suradus tiesinės prognozės koeficientus, galima užrašyti kalbos trakto sistemos funkciją:

.1

)(

1

0

∑=−−

= M

ii

i za

HzH (4)

Įstatę z=ejw į H(z) išraišką, gauname dažninę charakteristiką. Šio metodo trūkumas, kad gaunami platūs spektro maksimumai. Dėl to arti esantys spektro maksimumai gali susilieti į vieną platų spektro maksimumą.

Naujame metode yra siūloma (1) lygtyje užregistruotas signalo reikšmes pakeisti prognozuojamomis reikšmėmis, jeigu jos jau yra prieinamos. Tuo atveju minimizavimo kriterijų galima užrašyti taip:

(5) ,)()(ˆ)(2

1 1

−−−−= ∑ ∑= +=

L

i

M

Li ii insainsansEJ

čia L yra skaičius jau gautų pagal (1) formulę verčių arba lygus M, jeigu gautų verčių skaičius yra didesnis už M.

)(ˆ ns

– 58 –

Spektro įvertinimas iš trumpos kalbos signalo atkarpos

Šis pakeitimas žymiai padidino skaičiavimų apimtį. Tiesinės prognozės koeficientų nebegalima rasti iš tiesinių lygčių sistemos. Todėl reikia naudoti netiesinį optimizavimą.

Pasiūlytas metodas buvo įgyvendintas c++ kalba Microsoft Visual Studio .NET aplinkoje. Tiesinės prognozės koeficientai, gauti įprastais metodais, buvo naudojami kaip nulinis artėjimas. Toliau koeficientai buvo tikslinami sujungtinių gradientų metodu. Buvo panaudota Polak-Ribiere lygtis, kad būtų surasta tolesnė minimumo paieškos kryptis.

3 Rezultatai gauti su dirbtiniais signalais Pirmiausia metodas buvo patikrintas su dirbtiniais signalais. Pasirinkome tiesinės prognozės eilę 48

(M=48). Garso signalų diskretizavimui pasirinkome dažnį F=44100 Hz. Jeigu paimsime, kad garso greitis ore v=340 m/s, tuomet per 48-ių atskaitų laiko intervalą signalas nusklinda 37,4 cm atstumu. Tai yra dvigubai daugiau negu dvigubas kalbos trakto ilgis.

Pirmiausia tyrėme harmoninį signalą: ),2sin()( fnns π= (6)

čia f=1000(Hz)/F.

0 1.0 2.0 3.0 4.0 5.00

0.2

0.4

0.6

0.8

1.0

Dažnis, kHz

Am

plitu

dės s

pekt

ras

1 pav. Harmoninio signalo amplitudės spektras, gautas trimis metodais:

a) ištisinė linija – naujas metodas; b) brūkšninė linija – TP metodas; c) taškinė linija - DFT metodas

Analizės rezultatai pavaizduoti 1 ir 2 paveiksluose. 1 paveiksle yra pavaizduoti to paties signalo amplitudės spektrai, gauti trimis metodas. Buvo parinktas signalo ilgis lygus 96-ioms atskaitoms. Autokoreliacinės TP analizės rezultatai yra pavaizduoti brūkšnine linija. Kreivė yra plati ir turi ilgą uodegą. Furjė analize gautas spektras (taškinė linija) turi daug bangų. Ištisine linija pavaizduoti rezultatai gauti nauju metodu. Šiuo atveju gaunamas labai aštrus spektro maksimumas. Buvo atlikti spektro įvertinimai 100-e greta esančių intervalų. Autokoreliacinės TP metodu gauti rezultatai pavaizduoti 2 paveiksle. Iš grafiko matyti, kad visais atvejais gaunamas plati spektrinė kreivė.

0 1.0 2.0 3.0 4.0 5.00

0.2

0.4

0.6

0.8

1.0

Dažnis, kHz

Am

plitu

dės s

pekt

ras

2 pav. Amplitudės spektras gautas tiesinės prognozės metodu

(ištisinė linija –mediana iš 100 kreivių, brūkšninės linijos - minimalios ir maksimalios vertės)

– 59 –

Gintautas Daunys

Spektrinių maksimumų pasiskirstymo rezultatai yra susumuoti 1 lentelėje. Iš jos matyti, kad naujas

metodas visuomet duoda tikslią dažnio vertę. 1 lentelė. Spektrinių maksimumų dažnių pasiskirstymas

Metodas Vidurkis, Hz Maksimalus dažnis, Hz Minimalus dažnis, Hz DFT 1000 985 1010 TP 1005 991 1011 Naujas 1000 1000 1000

Taip pat buvo patikrinta, kokią formą įgis signalai, jeigu jie bus apskaičiuoti pagal lygtį :

, (7) ∑∑ +==−+−=

M

Li iL

i i insainsans11

)()(ˆ)(ˆ

čia L turi tą pačią prasmę, kaip ir (5) lygtyje. Skaičiavimų rezultatai pavaizduoti 3 paveiksle.

0 0.5 1.0 1.5 2.0 2.5-1

0

1

Laikas, ms

Sign

alo

ampl

itudė

3 pav. Signalų formos: ištisinė linija – originalus signalas ir apskaičiuotas su optimizuotais koeficientais;

brūkšninė linija – apskaičiuotas naudojant TP koeficientus; taškinė linija – skirtumas tarp originalaus ir apskaičiuoto signalo, naudojant TP koeficientus

Kaip ir tikėjomės, rekonstruotas signalas mažėja laike, kai yra naudojami TP koeficientai. Tačiau signalo amplitudė gana gerai išlaikoma, kai yra naudojami optimizuoti koeficientai.

Sekantis bandymas buvo atliktas su signalu, kurį sudaro du gęstantys harmoniniai virpesiai: )exp()2sin()exp()2sin()( 22221111 nknfcnknfcns −++−+= ϕπϕπ , (8)

čia f1=F1/F, f2=F2/F, F - diskretizavimo dažnis, F1- pirmos harmonikos dažnis, F2 – antros harmonikos dažnis, c1,c2 – harmonikų amplitudės, k1, k2 – slopinimo koeficientai. Bandymui mes pasirinkome šias dydžių reikšmes: F=44100 Hz, F1=1000 Hz, F2=1260 Hz, c1=1, c2=0.5, k1=0.002, k2=0.0025. Gautas signalas pavaizduotas 4 paveiksle.

0 2 4 6 8 10-1.5

-1.0

-0.5

0

0.5

1.0

1.5

Laikas, ms

Am

plitu

dė

4 pav. Signalas, sudarytas iš dviejų gęstančių harmoninių signalų

– 60 –


Aprašyto signalo analizės rezultatai yra pavaizduoti 5 paveiksle. Paveikslo a dalyje pavaizduotas amplitudės spektras, gautas tiesinės prognozės metodu. Abu spektriniai maksimumai susiliejo į vieną platų spektrinį maksimumą. Paveikslo b dalyje yra pavaizduotas amplitudės spektras, gautas nauju metodu. Šiuo atvejus spektrinių maksimumų dažniai labai gerai atitinka pradinius dažnius, panaudotus signalo generavimui.

0 5.0 1.0 1.5 2.00

0.2

0.4

0.6

0.8

1.0

Dažnis, kHz

Am

plitu

dės s

pekt

ras

a)

0 0.5 1.0 1.5 2.0 0

0.2

0.4

0.6

0.8

1.0

Dažnis, kHz

Am

plitu

dės s

pekt

ras

b) 5 pav. Dirbtinio signalo analizės rezultatai: a) amplitudės spektras gautas iš tradicinės tiesinės prognozės; b) amplitudės

spektras, gautas nauju metodu

4 Rezultatai gauti su balsių signalais Naujas metodas buvo pritaikytas lietuvių kalbos balsių garsų tyrimui uždarų gerklų fazės metu.

Pirmiausia buvo patikrintas optimizuotų TP koeficientų atsikartojimas. Testavimui buvo paimtas ilgosios i (/i:/)garso signalas. Analizė buvo atlikta kaimyniniuose languose, kurie vienas kito atžvilgiu perstumti per vieną atskaitą. Dvidešimties langų rezultatai pavaizduoti 6 paveiksle. Jame pavaizduotos kiekvieno koeficiento vidutinės vertės ir sklaidos intervalas. Šio signalo amplitudės spektras yra pavaizduotas 7 paveiksle. Čia pavaizduota 20 amplitudės spektro kreivių iš gretimų langų. Spektras buvo gautas dviem metodais: mūsų pasiūlytu metodu (a grafikas), kovariaciniu TP metodu (b grafikas). Pirmame grafike galima matyti keturis spektro maksimumus. Du maksimumai yra stabilūs. Jų padėtys dažnių ašyje: 240 Hz ir 3000 Hz. Kiti du maksimumai (ties dažniais 2275 Hz ir 3770 Hz) yra mažiau stabilūs. Jų amplitudės kinta nuo lango prie lango. Panašiai keturis maksimumus galima matyti b grafike. Vienas papildomas maksimumas ties 1,2 kHz atsirado tik vieną karta. Tačiau šiuo metodu apskaičiuotų maksimumų padėtys ir amplitudės labiau išsibarstę. Šio garso analizė patvirtino, kad naujas metodas duoda stabilesnius rezultatus ir eksperimentiškai užrašytų signalų atveju. Garso /i:/ ypatybė yra ta, kad formančių dažniai vienas nuo kito yra gana daug skiriasi.

Balsės ilgoji a (/a:/) spektre yra du spektriniai pikai ties 770 Hz ir 1170 Hz. 8 paveiksle yra pavaizduotas amplitudės spektras, gautas nauju metodu. Naudojant įprastinius tiesinės prognozės metodus, tuo atveju dažniausiai gaunamas tik vienas platus maksimumas.

– 61 –

Gintautas Daunys

0 10 20 30 40 50

-0.4

-0.2

0.0

0.2

Koeficiento numeris

Ver

tė

6 pav. Tiesinės prognozės koeficientai, gauti naujuoju metodu. Koeficientai buvo apskaičiuoti 20-yje langų, paslinktų vienas

kito atžvilgiu kas viena atskaita

0 1.0 2.0 3.0 4.0 5.00

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1

Dažnis, kHz

Am

plitu

dės s

pekt

ras

a)

0 1.0 2.0 3.0 4.0 5.00

0.2

0.4

0.6

0.8

1.0

Dažnis, kHz

Am

plitu

dės s

pekt

ras

b) 7 pav. Garso /i:/ amplitudės spektras, apskaičiuotas 20-yje langų, paslinktų per vieną atskaitą:

a) naujasis metodas; b) kovariacinis tiesinės prognozės metodas

– 62 –


– 63 –

0 1.0 2.0 3.0 4.0 5.00

0.2

0.4

0.6

0.8

1.0

Dažnis, Hz

Am

plitu

dės s

pekt

ras

8 pav. Garso /a:/ amplitudės spektras, gautas naujuoju metodu

5 Išvados Sukurtas naujas kalbos signalo trumpos atkarpos spektro įvertinimo metodas. Metodas remiasi netiesine

tiesinės prognozės koeficientų optimizacija. Naujasis metodas leidžia tiksliau įvertinti skardžių balsių garsų spektrą, negu tradiciniai tiesinės prognozės metodai.

Pagrindinis naujo metodo trūkumas – žymiai didesnė skaičiavimų apimtis. Metodas gali būti pritaikytas kalbėjimo proceso modeliavimui.

Literatūra [1] J. N. Holmes. Formant excitation before and after glottal closure. Proceedings of ICASSP 1976, vol. 1, p. 39-42. [2] J. R. Jr. Deller, J. H. L. Hansen, J. G. Proakis. Discrete-Time Processing of Speech Signals. IEEE Press, New

York, 2000, 908 p. [3] W. C. Chu. Speech Coding Algorithms. Wiley-Interscience, New Yersey, 2003, 550 p. [4] H. Deng, R. K. Ward, M. P. Beddoes, M. Hodgson. Estimating Vocal-Tract Area Functions from Vowel Sound

Signals over Closed Glottal Phases. Proceedings of ICASSP 2004, vol. 1, p. 589-592. Spectrum estimation from short speech signal section

Existing spectrum estimation methods suffer from low time resolution. The very short time linear prediction (LP) method gives unstable results. The new method was proposed for short speech signal section analysis over closed glottal phase. The coefficients of LP analysis are optimised using new optimisation criterion. The tests of method were carried out with synthetic and natural vowel sound signals. The better frequency resolution was achieved with proposed method.

NATURAL LANGUAGE UNDERSTANDING AGENTS USAGE WITH CONCEPTUAL MODELS

Algirdas Laukaitis, Olegas Vasilecas

Gedimino Technical University

Abstract. In this paper we present AI agents architecture for user natural language interfaces in data exploration domain. We present an evaluation of an intelligent interface when user tries to explore corporate databases by means of natural language. More specifically, we describe an experiment that evaluates IBM corporation natural language toolbox in the data explora-tion domain. Unsatisfactory results from that experiment triggered our research to improve user interface with the natural

language modality on architecture and algorithm levels. We extend traditional natural language interfaces in data exploration domain in two directions: 1) data conceptual modelling is a keystone for successful intelligent interface and we present our results and arguments for one of the most successful conceptual data models – IBM financial services data model (FSDM), 2) we suggest to use feedforward neural network as concepts indexes in the users natural language interfaces. All presented

concepts are realized as the open source project JMining Dialog.

Keywords: Natural language interfaces, data conceptual modelling, neural network, databases web interface.

1 Introduction Corporate data environments are becoming more and more complex as the amount of information con-

tinues to grow. Companies can have tens or even hundreds databases with thousands of entities and attributes and it takes a long time for employees to acquire knowledge of corporate metadata and to get needed informa-tion at a time. We have been for years consulting mostly financial industry how to cope with complicity of metadata and build decision support systems. And we believe that one solution is to add natural language modal-ity to the database interfaces. The idea is not new but our contribution is the way we integrate such modality in corporate decision support mainstream.

From the early 80's and 90's there was many efforts involved in the research of natural language use for information extraction from data base management systems (DBMS). The system that supports natural language functionality automatically translates user sentences to adequate SQL script, query some DBMS and return re-sults to the user (see [1] for reviews of the field). There was some successes and some commercial applications emerged but the NLP techniques have not become a popular approach for DBMS interfaces. As mentioned by researchers in [1], [2] this is due to:

1. Graphical and menu driven interfaces achieved the level of sophistication that data analyst can do job without deep knowledge of some data queering language (e.g. SQL), and on the other side NLP techniques has not been able to deliver interfaces of adequate sophistication.

2. Most research results reports on the possibility to generate only one data queering script (in most cases this was one SQL sentence) generated from one natural language sentence. They do not sup-port complex dialog, which is the most usual case in real life when we query data analysis expert.

3. Some systems are commercial products [1] and they are close systems with difficulties in extending such systems. We think that only open source projects can bring more attention from researchers to natural language database interface systems (NLDBIS) field.

4. In available systems only system administrators are able to parameterise the system. We think that resent advances is building personal assistants in such fields like an adaptive information research from internet or personalized learning knowledge maps [11] will help to renew researches interest in (NLDBIS) field.

To coupe with house challenges we developed system JminingDialog [9] that uses dialog instead of one sentence and which is a constituent part of our open source information delivery web portal JMining [8]. Figure 1 shows main blocks in our system. White block represents our research concerning information delivery portals infrastructure. In this paper we report on our distributed knowledge management and hybrid neural network natural language understanding agents architecture to support entity identification in information extraction process (grey blocks). Our solution presents an agent architecture consisting of a set of asynchronously operat-ing agents. This architecture enables us to perform sophisticated data and interaction analysis, without loosing the property of short respond times essential for interactive work in real-time. Based on the paradigm of neural networks, we present a model for expressing knowledge that has been acquired continuously by individuals and groups of users and for using this as a means for semantic identification of various elements to build portal in-formation extraction queries.

– 64 –

Natural language understanding agents usage with conceptual models

Figure 1. Basic architecture modules in information delivery portal with natural language modality

There is no way for the one team to build natural language understanding system from scratch. In our architectural implementation we used several well-established Java toolboxes. For hybrid neural networks natu-ral language understanding module we used JOONE neural networks toolbox [7]. For text information pre-processing we used GATE [3] - general natural language architecture and toolbox and WordNet [10] - English language dictionary.

The contribution of this paper is as follows: Firstly, we describe conceptual model that we used in our experiments and conceptual modelling in the natural language modality support. Next we present our experi-ment with IBM natural language understanding solution WebSphere Voice Server as the black box approach for natural language supporting systems. The problems revealed triggered our research in the uses of hybrid neural network for natural language understanding. The main idea behind this new proposal is to resemble ontological or conceptual knowledge base of specific domain (in our case financials institutions conceptual information model).

2. Conceptual model driven NLU understanding Ambiguity and vagueness is the nemesis of all information systems (IS) business applications and is

rampant in all business domains. Ambiguity and vagueness exists because in all IS business applications lifecy-cle stages (analysis, design, testing etc.) natural language is essential part in communication between people involved in business activities (policies, regulations, laws, and other documents).

Conceptual data centric modelling can be effective tool for driving ambiguity and vagueness out of IS business applications. That can help to extend the analysts capabilities, enabling the analyst to discover the business concepts, characteristics, behaviours, and interactions. Conceptual data centric enterprise wide models are rarely build and few organizations even tried to surround their IS and business activities with such models. The problem with conceptual data centric enterprise wide models is that they are difficult to understand. Their abstract and generic concepts are unfamiliar to both business users and IS professionals, and remote from their local organizational contexts [4]. And it was exact problem that we experienced in our 6 years IS projects in several Baltic and Scandinavian banks with one of the most successful conceptual data model - the IBM financial services data model (FSDM) [5] - domain specific model, based on IBM’s banking solution centre experts ideas.

To boast awareness and project centric approach we integrated model into our data exploration and information extraction framework JMining [9] natural language modality subsystem JMining Dialog. The model is shown to consist of a high level strategic classification of domain classes integrated with particular business solutions (e.g. Credit Risk Analysis) and logical and physical data entity-relationship (ER) models. In our JMining Dialog system the user tries to identify concepts by using natural language on all conceptual models levels: the ‘A’ level identifies nine data concepts that define the scope of the enterprise model (involved party, Products, arrangement, event, location, resource items, condition, classification, business), the ‘B’ level contains with business concepts hierarchies (more than 3000 concepts), the ‘A/B’ business solutions (integrates more than 6000 concepts with more than 50 solutions) and ‘C’ level - ER diagram with about 6000 entities, relationships and attributes.

– 65 –


Figure 2. Extract from conceptual model used to support natural language modality in data querying system JMining

In figure 2 we can see the small part from conceptual model. If the user for example brings the input, “show all arrangements with the type loan”, the system activates the conceptual model graph paths with different probabilities for each concept e.g.: 1) Arrangement (0.59) -> Arrangement Family (0.42) -> Account Arrangements (0.40) -> Loan Arrangements (0.14), 2) Arrangement (0.59) -> Arrangement Family (0.42) -> Arrangements Type (0.25) -> Product Arrangements Type (0.23) etc.

As we see the user natural language input activates not just one concept with highest probability but different paths on conceptual graph. Then intelligent agents can act on that information e.g. agent responsible for SQL understanding can build the SQL sentences from identified databases, agent responsible for dialog handling can propose several options for user and ask to specify more accurately what the user has in mind.

3. Natural language understanding by means of IBM NLU black box approach At he beginning of our research we looked for the state-of-the-art natural language understanding

(NLU) systems that can be found in the market and that can be used as plugging to our concepts identification system. We have done primary evaluation on WebSphere Voice Server part of the IBM WebSphere software platform and as alternative we considered Microsoft’s Speech Engine. IBM solution had more impressive results to present and it was more open for integration. In addition we chose IBM solution because it is based on Java technologies and was easier integrate with our system that is Java based as well. From IBM presentations [6] appeared that the primary use of they system is intended in telephony market and for as it was interesting to test it on more complex system - full conceptual model for financial service. The IBM NLU system use statistically based models, which they claim, provides more flexibility and robustness than traditional grammar based methods. Much of the algorithm is not clear as the product is proprietary. So our approach was as with the use of the black box: we put the learning data, compile and test the system reaction on the new arriving data.

For statistical learning we provided the simple set of pairs: the concept and the sentences describing the concept. Various versions of sentences describing the concept provide the learning base for the NLU module. There is one drawback in IBM NLU module and we think it is important one for successful use for concepts learning in dynamic corporate environment. The user must compile all learning data before starting to use the model each time the new learning data appears. For limited telephony applications it is not the serious issuer but in our system vision new learning data for concepts identification appears constantly (various meeting protocols, e-mails and other employees documents).

The following experiment that we conducted with IBM NLU solution revels some basic problems with the current state of the art technology when we want to apply them beyond simple telephony voice applications. The group of 3 students with introduction course to the IBM financial services data model (presented above) query NLU agent (based on IBM NLU WebSpher NLU solution). They queried with about 20 questions and tried to identify “Involved Party” concept. We constantly increased the number of concepts that we put into IBM NLU model for learning. At the beginning only 9 top ‘A’ level concepts are on the consideration. For learning data in that case we extracted description of those concepts from original IBM model and our own additional descriptions. On the second stage we added descriptions from child concepts and added it to the learning data for those 9 top parent concepts (second row in the table). Next we increased number of concepts up to 50 and finally extracted 500 concepts with their descriptions and putted to the IBM NLU statistical learning data. Table 1 shows the results from our experiment. For the classification error we used the proportion of correct identified concepts.

– 66 –

Natural language understanding agents usage with conceptual models

Table 1. Concepts identification experiment (CN – number of concepts for identification)

CN=9 CN=50 CN=500 1. IBM NLU 0.1521 .0405 0.0152 2. IBM NLU (child nodes descrip-tions added)

0.3682 .1726 0.0822

3. FF NN (one network for all con-cepts)

0.3285 0.0648 0.0154

4. FF NN (modular structure resem-bling conceptual model structure)

0.3087 0.1108 0.0387

5. Hybrid modular FF NN (NL pars-ers integrated in the network struc-ture)

0.4590 0.2814 0.1874

We discovered a critical scalability problem. There were several instances during training where the

system divergence from any reasonably acceptance level. While it was possible to make the training successful through manual intervention by adding more training data, the problem of divergence remained when number of concepts increased up to he full conceptual model. Our research shows that there is lack of descriptive power for entities identification if the learned data includes only conceptual model entities short descriptions (as in IBM FDWM).

4. Hybrid neural network architecture for NLU module To better understand the problem that we met with IBM NLU experiment’s curse of the dimensionality

(the requirement that the number of samples per variable increase exponentially with the number of variables to maintain a given level of accuracy) and to improve concepts identification accuracy, we done experiment with Separate Multi-Layer Feedforward Network (MLF) with one hidden layer. The new idea about this experiment was that there is feedforward network representing each node (concept) in the conceptual model. To build such separates networks as the one network we suggested inheritance links in conceptual model be represented by separate input at the networks input layers. In that case our network topology will resemble conceptual model topology as in figure 2.

To train the network unit, which represents one node, we suggested to build the dictionary different for each network. For parents nodes we used children’s training data as above in IBM NLU experiment. In our architecture each network is concentrated on identification of one entity. But each network has a connection with other networks representing different concepts.

We found that such “week” connectionism between separate neural networks can increase concepts identification. In addition to that corpus we used document corpus as well as some experimentally generated machine human dialog examples. Forty dialog examples written in the English language are collected. Each dialog contains a few sentences or phrases representing the two specified categories in the entity identification domain. One of the categories represents positive match with the entity another one negative.

The collected dataset consist of a combination of about twenty sentences for each concept. This dataset contains more than thousand different words. For each concept we used no more than twenty words plus ten words as noise. At the beginning we used the unipolar (where active neurons are represented by +1 and 0 repre-sents in-active neurons) input representation. The activation of a neuron depends on the presence of the word that the neuron represents in the input stream of words. We have deduced that, in order to obtain a fair word-to-concept map distribution from any trained neural network, the training dataset must be carefully selected. In other words, the training sentences and phrases should be prepared such that the neutral (common) words must be represented equally for all the defined categories in the training dataset.

At the beginning we tested our modular network without symbolic pre-processing. In the training proc-ess we constructed concept maps from the training examples. These concept maps relate the each input sen-tence/phrase to a specific concept in the problem domain. All patterns consist of a unipolar representation of the training sentence or phrase. For example, the sentence could be: Show all my arrangements. Then the pattern for concept arrangement would be: 1 0 0 0 … 0 0 … .

We found that if there is the case where there is no symbolic preprocessing we must to have textual in-put that quit accurately matches network dictionary. And that was the main reason why we decided to improve performance results by transforming our dictionary input into Vector Space Model VSM’s. For that purpose we used the same methodology as in [12] where authors used WordNet [10] for additional semantic mapping. Term weighting is a well-known representation approach that transforms a term to a weight vector in text processing. For neural models, this representation plays a key role in model performance. The most common term-weighting method, is based on the bag-of-words approach, which ignores the linear ordering of words within the context

– 67 –


– 68 –

and uses basic occurrence information. In addition we used GATE [3] to extend semantic mapping of the WordNet initially used by others [12]. GATE helps us to identify the true meaning of a word or document and reduce the redundancy of similar words. With GATE toolboxes we integrate some natural language processing techniques, such as tagging, parsing, and word sense disambiguation with statistical word knowledge.

Table 1 shows the results of the experiment. In the row 3 we used simple neuron network without struc-turing it to resemble conceptual model. It serves as the benchmark of naïve approach in using neural networks for natural language processing. The row 4 in the table show that we can have considerable improvement by putting knowledge base (conceptual model) topological structure into natural language understanding system structure (in our case- neural networks). The row 5 shows that combined symbolic natural language processing with the connectionism paradigm can improve father concepts prediction accuracy.

5. Conclusions and Future Work We presented agent based natural language understanding framework for data querying from database

management systems and presenting it to the user. Our experiments presented reasons why it is important to have hybrid approach when building NLU systems. Our experience showed that even if we have limited amount of data for teaching process, the right strategies can be found. We believe that integration between agents that extract information from Internet and others unstructured information sources and information delivery software brings optimal solution for companies data analysts.

Finally we like to say several remarks concerning open source projects. In the past ten years, open source software has become one of the most discussed topics among software users and practitioners. The in-creasing interest in open source software has been motivated by several factors: 1. The success of products such as Linux (operating systems),Apache (http servers, etc.) , MySQL (DBMS) , GATE ( NL processing), Weka (machine learning), etc.2. The uneasiness about the Microsoft or Oracle monopoly in the software industry 3. The increasingly strong opinion that "classical" approaches to software development are failing to provide a satisfactory answer to the increasing demand for effective and reliable software applications. At the initial stage of our project we understood that to be successive in promoting our ideas the code of our project must be open source. On the other hand the success of our project has been determined by the fact that we used three open sources projects in various areas: GATE in NLP, JOONE in neural networks. We hope that our paper will stimu-late new research in this new software area.

References [1] Androutsopoulos, I., Ritchie, G.D., Thanisch, P. Natural Language Interfaces to Databases – An Introduction.

Natural Language Engineering, 1(1):29–81, (1995). [2] Androutsopoulos, I., Ritchie, G.D., Thanisch, P. Experience Using TSQL2 in a Natural Language Interface. In J.

Clifford and A. Tuzhilin, editors, Recent Advances in Tem- poral Databases – Proceedings of the International Workshop on Temporal Databases, Zurich, Switzerland, Workshops in Computing, pages 113–132. Springer-Verlag, Berlin, (1995).

[3] Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V., Wilks, Y. Experience of using GATE for NLP R/D. In Proceedings of the Workshop on Using Toolsets References 200 and Architectures To Build NLP Systems at COLING-2000, Luxembourg, (2000).

[4] Darke, P & Shanks, G. Understanding Corporate Data Models, Information and Management 35 19-30, (1999). [5] IBM IBM Banking Data Warehouse General Information Manual. Available from on the IBM corporate site

http://www.ibm.com (accessed July 2005). [6] IBM. An Introduction to IBM Natural Language Understanding. An IBM White Paper. Available from on the IBM

corporate site http://www.ibm.com (accessed July 2005). [7] Joone - Java Object Oriented Neural Engine. http://www.jooneworld.com/. [8] Laukaitis, A., Vasilecas, O., Berniunas, R. JMining - information delivery web portal architecture and open source

implementation // Edited by O. Vasilecas et al. Information Systems. Development: Advances in Theory, Practice and Education., Springer, 2005.

[9] Laukaitis, A., Vasilecas, O. An architecture for natural language dialog applications in data exploration and presen-tation domain. ADBIS 2005 m.

[10] Miller, G.A. WordNet: A Dictionary Browser, Proc. 1st Int’l Conf. Information in Data, pp. 25–28, (1985). [11] Novak, J., Wurst, M., Fleischmann1, M., Strauss, W. Discovering, Visualizing, and Sharing Knowledge through

Personalized Learning Knowledge Maps. White paper. (2002). [12] Wermter, S. Hybrid Connectionist Natural Language Processing, Neural Computing Series, Chapman & Hall,

(1995).

AUDIOVIZUALINĖ VARTOTOJO IR PROGRAMINĖS ĮRANGOS SĄSAJA

Jonas Kaukėnas, Gediminas Navickas, Laimutis Telksnys Matematikos ir informatikos institutas, Vilnius

Nagrinėjama žmogaus ir atsitiktinių procesų analizės bei modeliavimo programinės įrangos audiovizualinės sąsajos įgyvendinimo koncepcija. Pateikiami pavyzdžiai, demonstruojantys audiovizualinės sąveikos privalumus prieš sąsają,

grindžiamą vien tik šnekos panaudojimu.

1 Įvadas Analizuojant atsitiktinių procesų savybes, siekiant išryškinti jų svarbiausius požymius, sprendžiant procesų

identifikavimo, klasterizavimo, atpažinimo problemas pasitelkiami kompiuteriai. Kompiuteriai plačiai naudojami nagrinėjant stochastinių dinaminių sistemų generuojamų signalų modeliavimo uždavinius.

Atliekant šiuos darbus tyrinėtojams tenka dirbti neaiškiai apibrėžtoje situacijoje. Sprendimus tenka priimti neturint arba beveik neturint informacijos apie nagrinėjamus procesus. Tenka remtis savo patirtimi, žiniomis, intuicija ir palaipsniui artėti prie priimtino sprendimo. Šiame darbe į pagalbą pasitelkiami kompiuteriai. Jie greitai skaičiuoja, nepailsta, gali pateikti skaičiavimo rezultatus tyrinėtojui patogiame pavidale. Tačiau tam, kad tokius darbus kompiuteriai darytų, eksperimentatoriai turi teikti jiems suprantamas, griežtai suformuluotas užduotis - komandas. Tokių užduočių - komandų tenka formuluoti daug ir, priklausomai nuo tarpinių skaičiavimo rezultatų, vis kitokių. Šias užduotis – komandas tyrinėtojas kompiuteriui paprastai užduoda naudodamas kompiuterio klaviatūrą ir/ar pelę. Toks darbas blaško eksperimentatoriaus dėmesį, trukdo jam produktyviai dirbti intelektualių pastangų reikalaujantį darbą. Būtų daug patogiau, jeigu su kompiuteriu būtų galima dirbti ne jam komanduojant, o bendraujant, pasikeičiant informacija, panašiai kaip dirbant su laborantu.

Patogus bendravimas pasikalbant su kompiuteriu gali būti įgyvendintas pasitelkus šnekos atpažintuvus su šnekos generatoriais. Tačiau tais atvejais, kai tenka dirbti triukšmingoje aplinkoje iškyla šnekos atpažinimo problemų. Atpažintuvai gali daryti neleistinai daug klaidų. Šį trūkumą galima sumažinti pasitelkus audiovizualinę vartotojo-tyrinėtojo sąsają bendravimui su kompiuteriu, jo programine įranga. Šiuo atveju, norint įgyvendinti žmogaus dialogą su kompiuteriu, kartu su šnekos garsais tikslinga naudoti tyrinėtojo siunčiamus šnekos artikuliacinio trakto ar/ir kūno judesių video signalus.

Todėl panagrinėsime žmogaus ir atsitiktinių procesų analizės bei modeliavimo programinės įrangos audiovizualinės sąsajos įgyvendinimo koncepciją. Pateiksime pavyzdžių, demonstruojančių audiovizualinės sąveikos privalumus prieš sąsają, grindžiamą vien tik šnekos panaudojimu. Pateiksime žmogaus ir kompiuterio dialogo, vykstančio analizuojant atsitiktinių procesų savybes bei modeliuojant atsitiktinius procesus, komandų aibės apribojimo sistemą.

2 Situacijos apžvalga Daugialypė vartotojo sąsaja (DVS), tai žmogaus ir kompiuterio sąsaja, kai naudojama keletas informacijos

įvedimo ir gavimo kanalų: klaviatūra ir pelė, vaizdas, garsas, gestai bei siekiama tuos kanalus sujungti į harmoningą visumą tokiu būdu užtikrinant žmogaus bendravimą su kompiuteriu, kuris yra panašus į bendravimą tarp žmonių ir patogesnis, lengviau išmokstamas ir naudojamas [3].

Žmonės tarpusavyje bendrauja kalba. Dažniausia bendraudami naudojame akustinį signalą ir vadinamąją kūno kalbą – įvairius judesius (dažniausiai rankų gestus ir žvilgsnį). Bendravimo psichologijos specialistai teigia, kad nuo 60 iki 80 proc. informacijos perduodama nežodinėmis bendravimo priemonėmis ir tiktai 20-50 proc. – verbaliniu būdu [2]. Daugialypės (multimodalinės) vartotojo sąsajos idėja yra pagrįsta teiginiu, kad bendravimas su kompiuteriu turi būti natūralesnis – panašus į tokį, kai bendrauja žmogus su kitu žmogumi, siekiama pereiti nuo kompiuterio valdymo, prie bendravimo su kompiuteriu [8].

Daugialypės sąsajos kanalai gali būti suskirstyti į tokias grupes: 1. Taktiliniai (lytėjimo) – kai naudojami: klaviatūra, pelė, lytėjimui jautrūs ekranai, specialūs rašikliai bei

kiti kontaktiniai įvedimo prietaisai. 2. Akustiniai – kai fiksuojama žmogaus kalba ar kitokie skleidžiami garsai. 3. Vizualiniai – kai fiksuojami žmogaus kūno dalių padėtis arba judesiai (pavyzdžiui, lūpų judesiai, rankų

gestai, galvos padėtis). Žmonės bendraudami tarpusavyje daugiausia naudoja kalbą, žvilgsnį (akių judesius) ir labai platų gestų

spektrą [11]. Iš šito teiginio galima daryti išvadą, kad taktiliniai bendravimo su kompiuteriu būdai yra ne natūralūs, o padiktuoti techninių apribojimų, kurie buvo aktualūs atsiradus pirmiesiems kompiuteriams. Todėl

– 69 –

Jonas Kaukėnas, Gediminas Navickas, Laimutis Telksnys

daugialypės sąsajos kūrėjai naudoja akustinį ir vizualinį kanalą tokiu būdu siekdami padaryti sąsają antropomorfiškesnę [10].

Daugialypės sąsajos šalininkai jokiu būdų nesako, kad jau netolimoje ateityje bus galima atsisakyti klaviatūros ir pelės, kai kuriose situacijose sugalvoti ką nors geresnio būtų sunku. Tačiau yra atvejų, kada valdymas klaviatūra ir pele tampa nepatogus: vartotojas negali fiziškai kontaktuoti su valdymo prietaisais (yra toliau nuo kompiuterio, užimtos rankos, reikia nuolatos judėti), kompiuteris turi priimti komandas iš keleto žmonių, kai žmogus neįgudęs dirbti pele ir klaviatūra.

Daugialypės sąsajos šiuo metu yra pritaikytos tokiose srityse: grafinio projektavimo (CAD) programų valdymui [6], robotų valdymui ir jų sąsajos su aplinka realizavimui [25], medicininės technikos valdymui [1], geografinių informacinių sistemų (GIS) valdymui, bendram keleto žmonių ir keleto kompiuterių darbui tinkle [13]. Egzistuoja daugialypės vartotojo sąsajos, kuriose naudojami tokie sąsajos kanalai: klaviatūra, pelė, vaizdas (veido, akių, lūpų), garsas, gestai, specialūs komunikacijos prietaisai (pvz.: specialios jutiklinės pirštinės). Kanalai naudojami įvairiai juos kombinuojant, tokiu būdu ieškant geriausio sąsajos varianto.

„Put-That-There“ („padėk šitą ten“) sistema [4], sukurta Masačūsetso technologijos institute (MIT), yra laikoma pirmuoju daugialypės vartotojo sąsajos pavyzdžiu. Devintajame praėjusio amžiaus dešimtmetyje, kai kompiuteriai dar net neturėjo grafinės vartotojo sąsajos, mokslininkas R. A. Bolt‘as pademonstravo sistemą, kuri buvo valdoma kalba ir gestais.Vėliau buvo išleista knyga, kuri laikoma pirmu rimtu daugialypės sąsajos šaltiniu [5] . MIT mokslininkai toliau tęsia savo darbus ir parodo, kaip galima naudoti balsą, gestus ir žvilgsnį žmogaus ir kompiuterio sąsajoje [29]. Tobulėjant kompiuterinei technikai atsiranda prielaidos padaryti tokią sąsają lengviau prieinamą.

Daugialypės sąsajos kanalai gali būti integruojami tokiais būdais: 1. Duomenų srautai iš kelių sąsajos kanalų sudaro sudėtinę komandą. Pavyzdžiui, vartotojas pasako „padėk

raudoną objektą čia“ ir ranka parodo vietą, kur objektas turi būti padėtas [29]. 2. Vienu metu lygiagrečiai keli kanalai papildo vienas kitą ir tokiu būdu padidina komandos robastiškumą.

Pavyzdžiui, vienu metu ta pati komanda duodama balsu ir gestu. Abu srautai išanalizuojami ir suformuojama viena komanda. Tokiu atveju, jei dėl aplinkos triukšmo komanda balsu buvo priimta netiksliai, ji patikslinama iš vizualinės informacijos ir atvirkščiai.

Daugialypė sąsaja reiškia ne tik papildomų įvedimo signalų naudojimą, bet ir naujas koncepcijas: garsines piktogramas, sumaniosios sąsajos idėją, dialogą su kompiuteriu, o ne jo valdymą.

Viena iš vyraujančių koncepcijų yra tokia, kad reikia atsiriboti nuo „Windows, icons, menus, pointers“ (WIMP) (liet. „Langai, piktogramos, meniu, rodyklė“) paradigmos, tokiu būdu siekiant padidinti sąsajos išraiškingumą, natūralumą, lankstumą bei mobilumą [24].

Kuriant DVS reikia turėti omenyje, kad programinė įranga turi būti pritaikyta tokiai sąsajai, jei norima gauti naudos iš DVS naudojimo. Visų pirma reikia atsakyti į klausimus: kokiu tikslu kuriama DVS, kodėl netinka tradicinis valdymas, ar sąsaja neapribos vartotojo veiksmų?

Keli sąsajos kanalai turi būti integruojami tokiu būdu, kad būtų gaunamas sinergetinis efektas ir daugialypė sąsaja taptų efektyvesnė bei patogesnė už vienalypę [13]. Tokiu būdu atsiranda naujos sąsajos koncepcijos [4, 5, 8], nauji programinės įrangos ir jos vartotojo sąsajos kūrimo principai [16], bei metaforos (garsinės piktogramos, sumani sąsaja), sąsajos efektyvumo vertinimo kriterijai [12] ir netgi mitai [24].

Daugialypė sąsaja – tai daugiadisciplininė sritis, kurioje dirba informatikos, matematikos, psichologijos, ergonomikos, medicinos bei kitų sričių specialistai.

Daugiau informacijos apie įvairius DVS aspektus galima rasti Masačūsetso technologijos instituto (MIT) [5], Švedijos Karališkojo technologijos instituto [7], Kinijos Mokslų Akademijos [16], Oregono sveikatos ir mokslo universiteto [23, 16], Niudžersio Valstybinio instituto [13, 12], Tarptautinio pažangių telekomunikacijos technologijų tyrimo instituto (Japonija) [19] mokslininkų darbuose.

3 Procesų analizės uždavinys ir eksperimentatoriaus sąsajos su kompiuteriu koncepcija Mechanizmų darbas ir organizmų veikla susiję su įvairios prigimties atsitiktiniais procesais. Todėl iškyla

būtinybė analizuoti šiuos atsitiktinius procesus, tyrinėti jų savybes, kurti jų matematinius modelius. Tyrinėtojas, spręsdamas tokius uždavinius, pradžioje apie procesus neturi informacijos. Norint aprašyti tokių atsitiktinių procesų savybes, eksperimentatorius kelia apie juos hipotezes, pateikia kompiuteriui užduotis, reikalingas hipotezėms patikrinti. Kompiuteris atlieka skaičiavimus būtinus hipotezėms tikrinti. Žmogus iš kompiuterio gauna skaičiavimo rezultatus ir, remiantis jais, priima savo iškeltą hipotezę ar kelia naujas. Taigi jam tenka dirbti dialogo režime.

Tokiam darbui įgyvendinti yra sukurta atsitiktinių procesų statistinės analizės dialoginė sistema STADIA 3. Eksperimentatorius, dirbdamas su dialogine sistema STADIA 3, užduotis kompiuteriui teikia naudodamas kompiuterio klaviatūrą ar/ir pelę. Tai trukdo sutelkti dėmesį iš kompiuterio gautų rezultatų analizei ir naujų hipotezių apie proceso savybes formulavimui.

Pasitelkus audiovizualinę vartotojo ir atsitiktinių procesų statistinės analizės programinės įrangos sąsają toks trūkumas būtų sumažintas.

– 70 –

Audiovizualinė vartotojo ir programinės įrangos sąsaja

Todėl kuriama atsitiktinių procesų statistinės analizės sistema STADIA 4, su kuria dialogas įgyvendinamas bendraujant per audiovizualinę sąsają. Eksperimentatoriaus sąsaja su procesų analizės sistema STADIA 4 parodyta 1 pav.:

1 pav. Eksperimentatoriaus sąsajos su procesų analizės sistema STADIA 4 schema

Vartotojas bendrauja su procesų analizės programa STADIA 4 balsu bei gestais. Tuo tikslu naudojamos:

1. Techninės priemonės: mikrofonas, vaizdo kamera. 2. Programinė įranga, registruojanti garsą ir vaizdą. Abi registruojančios programinės įrangos gautą

informaciją, apiforminusios atitinkamais protokolais, perduoda atpažinimo programoms. 3. Programinė įranga atpažįstanti garsą ir vaizdą. Garso atpažinimo programa atpažįsta užduotą kiekį

komandų (frazių, žodžių). Vaizdo atpažinimo programa atpažįsta užduotą kiekį mikro arba makro judesių, kuriuos vadinsime gestais. Tiek vienos tiek kitos atpažinimo programų rezultatai yra valdymo kodai. Vartotojas gali keisti atpažinimo programų darbo režimus. Programa gali pranešti apie pakitusias atpažinimo sąlygas, prašyti patikslinti užduotis, pakartoti arba pranešti apie tai, kad garsinė komanda nesiderina su gestais.

4. Programinė įranga – garso ir vaizdo agentai. Agentai yra atsakingi, kad tiek vienos, tiek kitos atpažinimo programos gauti komandų kodai būtų apipavidalinti atitinkamais apsikeitimo protokolais ir perduoti valdomai programinei įrangai STADIA 4.

Sistemos STADIA 4 programinė įranga, gavusi iš agento komandas, atlieka atitinkamus veiksmus, praneša apie įvykdymą arba negebėjimą įvykdyti, gautą komandą.

Grįžtamasis ryšys, kaip ir vartotojo siunčiamos komandos, yra audiovizualinis. STADIA 4 siunčia savo pranešimus garsu bei rodo ekrane.

Pasikalbėjimo su kompiuteriu dialogo koncepcija grindžiama tuo, kad sistemoje STADIA 4 yra numatyta darbų aibė, kuriuos ji gali atlikti. Eksperimentatorius per audiovizualinę sąsają, susidedančią iš garso ir vaizdo atpažintuvų bei garso ir vaizdo agentų, pateikia užduotis sistemai STADIA 4. Pastaroji apie užduočių vykdymo rezultatus per grįžtamąjį garso ir vaizdo kanalą pateikia pranešimus eksperimentatoriui.

Šioje situacijoje galimas toks eksperimentatoriaus (jį žymėsime simboliu E) pasikalbėjimo su sistema STADIA 4 (ją žymėsime simboliu S) scenarijus:

E: Pradėkim S: Pradedam E: Sugeneruok autoregresijos seką S: Pasakykite sekos parametrus E: Ilgis penki tūkstančiai reikšmių E: Pirmas lygties koeficientas vienas kablelis vienas E: Antras lygties koeficientas minus nulis kablelis devyni E: Triukšmas vienas kablelis trys S: Negalima. Nestabilus modelis E: Pakeisk lygties koeficientus E: Pirmas lygties koeficientas vienas kablelis du E: Antras lygties koeficientas nulis kablelis devyni S: Prašau (kompiuteris sugeneruoja ir nubraižo sekos grafiką) E: Paskaičiuok spektrinį tankį S: Prašau (kompiuteris paskaičiuoja spektrinio tankio funkciją ir nubraižo jos grafiką) E: Padidink spektrinio tankio ordinačių mastelį S: Prašau E: Baikime S: Baigiame

– 71 –


4 Audiovizualinėje žmogaus-kompiuterio sąsajoje naudojami metodai ir priemonės. Audiovizualinio šnekos atpažinimo sistemą sudaro tokios pagrindinės dalys: vaizdo ir garso fiksavimas bei

pirminis apdorojimas, vaizdo požymių išskyrimas, garso požymių išskyrimas, vaizdo ir garso požymių integravimas (2 pav.).

2 pav. Audiovizualinio šnekos atpažinimo sistemos komponentai

Pirmiausia vaizdo signale aptinkamas vartotojo veidas ir burna, o paskui yra sekamas jų judėjimas. Vėliau iš

gauto duomenų srauto išskiriami vaizdo požymiai. Mūsų veiklos sritis – vaizdo požymių išskyrimas ir jų integravimas, o pirminis signalo apdorojimas ir veido bei burnos aptikimas bei sekimas vykdomas pagal koncepciją pasiūlytą I. Shdaifat 2005 m. [27].

Šiame straipsnyje pateiktoje vartotojo ir programinės įrangos sąsajos koncepcijoje bendruoju atveju garso ir vaizdo kanalai yra nepriklausomi (1 pav.). Naudojant Suporintą paslėptąjį Markovo modelį (SPMM), schema yra tokia:

3 pav. Eksperimentatoriaus sąsajos su procesų analizės sistema STADIA 4 schema, kai atpažinimui naudojamas SPMM

Toliau kalbėsime apie vaizdo požymių išskyrimą iš signalo. Nagrinėjami vartotojo burnos vaizdai: 8 bitų paveikslėliai, vadinami aktualiosiomis sritimis (AS) (angl. ROI

– Regions of Interest). Tada iš šių sričių sekos yra išskiriami vaizdo požymiai naudojant pakopinę požymių išskyrimo sistemą, panašią į aprašytąsias [22, 17]. Aktualiųjų sričių vaizdų seka normalizuojama į 32x32 taškų dydžio paveikslėlius ir pateikiama sistemai, pavaizduotai 4 pav. Iš pradžių pirminis AS vaizdas yra atvaizduojamas į 32-matę požymių erdvę naudojant svarbiausiųjų komponentų analizės (SKA) funkcijas. Tada skaitmenizuoto signalo reikšmės (diskretai) yra interpoliuojamos (angl. upsampling), kad atitiktų garso požymių seką. Vėliau seka normalizuojama naudojant požymių vidurkių normalizavimą (PVN) pagal algoritmus, aprašytus [22]. Gaunamas vaizdo aprašymas, modeliuojantis vaizdo stebėjimų tarpusavio sąryšius. Ir galiausiai atliekama vizemomis pagrįsta tiesinė diskriminantinė analizė (TDA). Kaip rezultatas gaunamas vaizdo stebėjimų vektorius.

4 pav. Pakopinė vaizdo požymių išskyrimo sistema

– 72 –


Audiovizualinis požymių integravimas (API) (angl. audiovisual integration, audiovisual fusion) – tai operacija, kai iš garso ir vaizdo signalų išskirti požymiai yra sujungiami į vieną sistemą ir priimamas bendras sprendimas dėl atpažinimo rezultato. Egzistuoja trys API strategijos: ankstyvojo, vidutiniojo (angl. intermediate) ir vėlyvojo integravimo [21, 26 ,9 ]. Mūsų atveju naudojamas vidutinysis integravimas.

Savo sistemoje audiovizualiniam požymių integravimui naudojame Suporintą paslėptąjį Markovo modelį (SPMM) (angl. CHMM – Coupled Hidden Markov Model) [20, 18 ] (5 pav.).

5 pav. SPMM – suporintas paslėptasis Markovo modelis

5 pav. kvadratėliais pavaizduotos paslėptosios būsenos (garso ir vaizdo), apskritimais – stebimosios būsenos (garso ir vaizdo), tamsiomis rodyklėmis vaizduojamos perėjimo tarp būsenų tikimybės, o šviesiomis – išėjimo (stebėjimo) tikimybės.

SPMM modeliuoja vaizdo ir garso būsenų asinchroniškumą ir išsaugo natūralias priklausomybes laike tarp vaizdo ir garso kanalų per perėjimo tikimybes tarp paslėptųjų būsenų.

SPMM modelyje garso ar vaizdo būsenos perėjimo tikimybė laiko momentu t yra priklausoma nuo garso ir vaizdo būsenos laiko momentu t-1. Vaizdo ir garso būsenų priklausomybė paprastai yra ribojama: |qa – qv| < 2, kur qa 0{1, ..., Na}, qv 0{1, ..., Nv}, Na ir Nv – garso ir vaizdo būsenų skaičius. Garso ir vaizdo srautų išėjimo (stebėjimo) tikimybės yra nepriklausomos viena nuo kitos.

SPMM būsenos pasikeitimo (perėjimo) tikimybė: ),|(),|()|( 1111 −−−− ======= t

vvtaa

tav

tvv

taa

taa qjqjqiPqjqjqiPjia

SPMM išėjimo (stebėjimo) tikimybė: )()()( vv

vtaa

att qibqibib ===

Sistemoje garsai gali būti aprašomi įvairiais požymiais. Pavyzdžiui, melų skalės kepstriniais koeficientais

(MFCC) [28]. Audiovizualinės sąsajos pranašumai prieš vien garsinio signalo atpažinimu pagrįstą sąsają išryškėja

akustiškai triukšmingose sąlygose. Vaizdo signalas yra atsparus akustiniam triukšmui, todėl padidėja atpažinimo tikslumas. Vaizdo kanalo naudojimas padeda išvengti tam tikrų keblumų atpažįstant garsą, kurie iškyla naudojant tik garso kanalą. Pavyzdžiui: priebalsiai m ir n akustiniame signale yra sunkiai atskiriami, tačiau vaizdo signale jie akivaizdžiai skiriasi (6 pav.). Dar vienas pavyzdys gali būti priebalsiai p ir t (7 pav.).

6 pav. Priebalsių m ir n artikuliacinis vaizdas

– 73 –


7 pav. Priebalsių p ir t artikuliacinis vaizdas

6 Išvados 1. Produktyviam atsitiktinių procesų analizės ir modeliavimo darbui užtikrinti, tikslinga pasitelkti naujus

eksperimentatoriaus bendravimo su kompiuteriu būdus, grindžiamus pasikalbėjimo su kompiuteriu panaudojimu. 2. Audiovizualinė sąsaja atveria galimybę užtikrinti patikimesnį vartotojo – eksperimentatoriaus bendravimą

su specializuota kompiuterio programine įranga. 3. Pateikta eksperimentatoriaus bei programinės įrangos audiovizualinės sąsajos koncepcija. 4. Pateiktas pavyzdys eksperimentatoriaus bendravimo su atsitiktinių procesų analizės ir modeliavimo

sistema STADIA 4.

Literatūra [1] M. Akay, I. Marsic, A. Medl, G. Bu. A system for medical consultation and education using multimodal

human/machine communication. IEEE Transactions on Information Technology in Biomedicine, 1998, 2(4), pages: 282-291.

[2] A. Ališauskas. Sutrikusios klausos asmenų vizualinė komunikacija. ŠPI, Šiauliai, 1996, p. 8. [3] Y. Bellik. Media Integration In Multimodal Interfaces. IEEE First Workshop on Multimedia Signal Processing, 1997,

pages: 31 – 36 [4] R. A. Bolt. “Put-that-there”: Voice and gesture at the graphics interface. Proceedings of the 7th annual conference on

Computer graphics and interactive techniques, ACM Press, 1980, pages: 262 – 270. [5] R. A. Bolt. Human Interface: Where People and Computers Meet. John Wiley & Sons Inc., New York, USA,

1984. [6] M. Billinghurst. Put That Where? Voice and Gesture at the Graphics Interface. SIGGRAPH Computer Graphics

Newsletter [Elektroninis dokumentas], Vol.32 No.4, November 1998, [Žiūrėta 2005-01-05]. Prieiga per internetą: < http://www.siggraph.org/publications/newsletter/v32n4/contributions/billinghurst.html>.

[7] L. Bretzner, I. Laptev, T. Lindeberg, S. Lenman, Y. Sundblad. A Prototype System for Computer Vision Based Human Computer Interaction. Technical report ISRN KTH/NA/P-01/09-SE, KTH (Royal Institute of Technology) [Elektroninis dokumentas], 2001[Žiūrėta 2005-01-05]. Prieiga per internetą: <http://www.nada.kth.se/cvap/abstracts/cvap251.html>

[8] S. Card, T. Moran, A. Newell. The Psychology of Human-Computer Interaction. Erlbaum, Hillsdale, NJ, 1983, p. 7. [9] C.C. Chibelushi, F. Deravi, J.S.D. Mason. A review of speech-based bimodal recognition. IEEE Transactions on

Multimedia, 2002, Volume 4, issue 1, pages: 23 – 37. [10] L. M. Encarnação, L. J. Hettinger. Guest Editors' Introduction: Perceptual Multimodal Interfaces. IEEE Computer

Graphics and Applications, IEEE Computer Society Press Los Alamitos, CA, USA, Volume 23, Issue 5, (September 2003), pages: 24 – 25.

[11] J. Flanagan. Multimodal Communication for Collaborative Environments [Elektroninis dokumentas]. [Žiūrėta 2005-01-05]. Prieiga per internetą: <http://nsf-workshop.engr.ucf.edu/papers/Flanagan.asp>.

[12] J. Flanagan, I. Marsic. Issues in measuring the benefits of multimodal interfaces. IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-97, 1997, Volume 1, pages: 163 – 166.

[13] J. Flanagan, I. Marsic, A. Medl et al. Multimodal Human/Machine Communication. [14] F. J. Huang, T. Chen. Real-Time Lip-Synch Face Animation driven by human voice. IEEE Workshop on

Multimedia Signal Processing, Los Angeles, California, 1998. [15] D.B. Koons, C.J. Sparrell, K.R. Thorisson. Integrating simultaneous input from speech, gaze, and hand gestures.

Intelligent Multimedia Interfaces. M. Maybury, Ed. MIT Press, Menlo Park, CA, 1993, pages: 257–276. [16] M. Li, G. Zhang, G. Dai. A Primitive-Based Architecture of Multimodal Interface (PBA_MMI). IEEE International

Conference on Intelligent Processing Systems, ICIPS '97, 1997, Volume 1, pages: 858 – 862. [17] L. H. Liang, X. X. Liu, Y. B. Zhao, X. Pi, A.V. Nefian. Speaker Independent Audio-Visual Continuous Speech

Recognition. In Proc. of IEEE ICME, Lausanne, Switzerland, 2002. [18] X. Liu, Y. Zhao, X. Pi, L. Liang, A. V. Nefian. Audio-Visual Continuous Speech Recognition Using A Coupled

Hidden Markov Model. Proc. Internatinal Conference of Spoken Language Processing, Denver, 2002, pages: 213–216.

[19] K. Murai, S. Nakamura. Real Time Face Detection for Multimodal Speech Recognition. Proc. IEEE International Conference on Multimedia and Expo(ICME2002), 2002, vol.2, pages:373-376.

[20] A. V. Nefian, L. Liang, X. Pi, L. Xiaoxiang, C. Mao, K. Murphy. A Coupled HMM For Audio-Visual Speech Recognition. IEEE Int‘l Conference on Acoustics, Speech and Signal Processing, 2002, pages: 2013-2016.

– 74 –


[21] A. V. Nefian, L. Liang, X. Pi, X. Liu, K. Murphy. Dynamic Bayesian Networks for Audio-Visual Speech Recognition. EURASIP, Journal of Applied Signal Processing 11, 2002, pages: 1–15.

[22] C. Neti, G. Potamianos, J. Luettin, I. Matthews, D. Vergyri, J. Sison, A. Mashari, J. Zhou. Audio visual speech recognition. In Final Workshop 2000 Report, 2000.

[23] S. Oviat, R. Coultson, R. Lunsford. When Do We Interact Multimodally? Cognitive Load and Multimodal Communication Patterns. Proceedings of the 6th international conference on Multimodal interfaces, State College, PA, USA, 2004, pages: 129 – 136.

[24] S. Oviat. Ten Myths of Multimodal Interaction. Communications of the ACM, ACM Press, November 1999, Volume 42, Issue 11, pages: 74 – 81.

[25] D. Perzanowski, D. Brock, W. Adams, M.Bugajska, A.C. Schultz, J.G. Trafton, S. Blisard, M. Skubic. Finding the FOO: a pilot study for a multimodal interface. IEEE International Conference on Systems, Man and Cybernetics, 2003, Volume 4, pages: 3218 – 3223.

[26] G. Potamianos, J. Luettin, C. Neti. Hierarchical discriminant features for audio-visual LVCSR. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '01), 2001, pages: 165-168.

[27] I. Shdaifat. Design of a Visual Front End for Audio-Visual Speech Recognition. Ph.D. Disertation, Technische Universität Hamburg-Harburg, Hamburg, 2005.

[28] D.G. Stork, M.E. Hennecke, eds. Speechreading by Humans and Machines. Springer, Berlin, 1996, pages: 351-371. [29] K. Thorisson, D. Koons, R. Bolt. Multi-Model Natural Dialogue. CHI 92 Video Proceedings, 1992, p. 653.

HUMAN-COMPUTER AUDIOVISUAL INTERFACE The concept of audiovisual interface between human and stochastic processes’ modelling and analysis software is investigated. Examples revealing the advantages of audiovisual interface over audio only interface are given.

LIETUVIŲ ŠNEKOS SIGNALŲ SEGMENTAVIMAS KVAZIFONEMOMIS

Mantas Skripkauskas Matematikos ir informatikos institutas, Vilnius

Nagrinėjami lietuvių automatiniai šnekos signalų žymėjimo ir segmentavimo metodai naudojami šnekos atpažinimo procese. Pateikiamas lietuvių šnekos signalų segmentavimas į kvazifonemas pasitelkiant modifikuotą „aklo“ šnekos signalo

segmentavimo metodą. Aprašoma technologija, kuria gautoms kvazifonemoms buvo priskiriamos atitinkamos reikšmės. Pateikiami atliktų eksperimentų rezultatai, kuriais buvo siekiama nustatyti, kiek skiriasi automatiniu būdu nustatytos

kvazifonemų ribos nuo rankiniu būdu bei kiek ir kokių klaidų yra padaroma suteikiant kvazifonemoms reikšmes.

1 Įvadas Šiuo metu šnekos signalų atpažinimo procesas daugiau ar mažiau visiems yra aiškus. Dažniausiai

taikomi paslėptųjų Markovo modelių arba hibridiniai neuroninių tinklų ir paslėptųjų Markovo modelių metodai. Pagrindinės dabar sprendžiamos problemos yra akustinių ir kalbos modelių, naudojamų šnekai atpažinti sudarymas. Šiame straipsnyje bus pristatytas vienas iš galimų akustinių modelių sudarymo būdų.

Akustiniai modeliai parodo, į kokius šnekos segmentus mes perdaliname akustinį signalą, kad galėtume jį atpažinti. Dažniausiai tokiais segmentais būna fonemos, skiemenys, žodžiai ar ištisos frazės. Akustinis modelis šnekos atpažinimo sistemoje yra parenkamas vadovaujantis dviem pagrindiniais principais: pagal sistemos paskirtį-sudėtingumą ir sistemoje naudojamo žodyno dydį. Šiame darbe nagrinėsime tokius akustinius segmentus, kurie galėtų būti naudojami vidutinio sudėtingumo atpažinimo sistemoje, kai atpažįstamų žodžių žodyną sudaro daugiau kaip keliasdešimt tūkstančių žodžių.

Akustiniai modeliai gali būti sudaromi rankiniu, pusiau automatiniu arba visiškai automatiniu būdu. Kai dalinimo segmentai yra žodžiai ar frazės, dažniausiai akustiniai modeliai bus sudaromi rankiniu būdu, kai skiemenys, pusiau automatiniu, kai fonemos, visiškai automatiniu būdu. Kiekvienas iš šių metodų turi savo privalumų ir trūkumų. Pagrindiniai rankinio metodo privalumai yra labai tikslių garsynų, kurių elementai yra akustiniais modeliais apibrėžti šnekos segmentai. Šiuo atveju žodžiai arba frazės. Dažniausiai tokie garsynai neviršija 2000 žodžių ribos [1]. Garsynų specifika šnekos atpažinimo sistemos taikomai sričiai ir imlumas darbui sudarant minėtus garsynus yra pagrindiniai tokios sistemos minusai. Pusiau automatinių metodų [2] privalumai ir minusai yra panašūs į rankinio metodo, tik sudaromo garsyno apimtis dažniausiai būna kiek didesnė, sistema gali būti naudojama platesnės srities uždaviniams spręsti, bet ji vis tiek dar yra imli darbui, dėl dažnai rankiniu būdu taisomo garsyno. Automatinis garsyno sudarymo būdas [3] tinka sudaryti garsynus skirtus atpažinimo sistemoms naudojamoms įvairiose srityse. Tokie garsynai sudaromi gana greitai, juose yra daugiau kaip 10000 skirtingų akustinių modelių. Tačiau signalų segmentai, atitinkantys šiuos modelius, ne visada būna tikslūs, tai yra gali būti tokių atvejų, kai akustinio signalo segmentas dalinai arba visiškai neatitinka jam priskiriamo akustinio modelio. Šiame darbe bus nagrinėjamas trečiasis akustinių modelių sudarymo būdas.

Kaip jau anksčiau buvo minėta, sistemos garsyno akustinio modelio elementai, kai garsynas yra sudaromas visiškai automatiniu būdu, dažniausiai būna fonemos. Tačiau su fonemomis iškyla problema, nes ne visas fonemas yra paprasta atskirti vieną nuo kitos, ypač, kai reikia išskirti trumpus priebalsius iš šalia esančių ilgesnių ir stipresnių garsų – balsių. Šią problemą būtų galima išspręsti vietoje fonemų naudojant skiemenų akustinius modelius, tačiau norint automatiniu būdu akustinį signalą sudalinti į skiemenų segmentus, reikia mokėti atlikti žodžių morfologinę analizę. Tokios sistemos lietuvių kalboje yra [4], tačiau jos dar nėra visai patikimos. Todėl buvo nuspręsta pasirinkti kaip akustinį modelį tarpinį variantą tarp fonemų ir skiemenų – kvazifonemą, kuri yra sudaroma naudojantis ir akustine, ir lingvistine informacija. Šiame darbe bus pristatyta sistema, kuri iš duotų akustinių signalų sugeneruos garsyną, paremtą kvazifonemų akustiniu modeliu.

2 Teorinė dalis Taigi, kaip jau buvo minėta, straipsnyje yra pristatoma automatinė lietuvių šnekos signalų

segmentavimo į kvazifonemas sistema, kuri bus naudojama sudaryti garsynui susidedančiam iš kvazifonemų elementų. Pagrindinės šios sistemos dalys yra pats akustinio signalo segmentavimas, analizuojamo akustinį signalą atitinkančios tekstinės informacijos transkribavimas, gautų segmentų klasterizavimas ir reikšmių kvazifonemoms suteikimas. Šios sistemos bendra schema yra pavaizduota paveikslėlyje 1. Antra sistemos dalis – transkribavimas buvo aprašyta atskiru straipsniu, todėl čia ji nebus detaliai aprašoma. Transkribavimas šiame uždavinyje buvo reikalingas susiejant turimą tekstinę informaciją su ją atitinkančiais akustinio signalo segmentais – kvazifonemomis, tai yra buvo siekiama sužinoti, kokie garsai yra ištariami skaitant analizuojamą tekstą.

– 76 –

Lietuvių šnekos signalų segmentavimas kvazifonemomis

Transkribavimas

Klasterizavimas ir reikšmių suteikimas

Segmentavimas

Ištarto sakinio tekstinė informacija

Sakinyje esantys garsai

Šnekos signalas (ištartas sakinys)

Kvazifonemų akustiniai segmentai

Kvazifonemų garsynas

1 pav. Automatinė lietuvių šnekos signalų segmentavimo kvazifonemomis sistema

2.1 Kvazifonemos Siekiant sukurti visiškai automatinę garsyno sudarymo sistemą reikėjo pasirinkti šnekos signalo

segmentavimo elementą. Dažniausiai kitų panašių sistemų toks elementas būna fonema [5], o šiame darbe garsynas buvo sudaromas naudojant kvazifoneminius šnekos signalų segmentus. Šis šnekos signalo segmentavimo elementas buvo pasirinktas dėl to, kad ne visada galima tiksliai išskirti atskiras fonemas, nes jos būna stipriai įtakotos kitų gretimų fonemų. Be to, tokių gretimų fonemų junginį atpažinti galima lengviau ir tiksliau nei atskiras fonemas. Skiemens, kaip segmentavimo elemento, trūkumas yra tai, kad norint nustatyti, kokie skiemenys sudaro žodį, reikia papildomai naudoti kalbos lingvistines žinias – morfologinę žodžio analizę, kurios nereikia sudarant kvazifonemas. Be to, skiemuo daugiau atspindi nepriklausomą tekstinės informacijos elementą, o ne akustinės.

Taigi kvazifonema yra tarpinis šnekos signalo segmentas tarp fonemos ir skiemens, tai yra kvazifonema gali būti ir kaip fonema, ir kaip skiemuo, ir kaip kelių gretimų išsiskiriančių fonemų, nesudarančių skiemens, junginys. Pavyzdžiui, žodį „paukščiai“ galėtų sudaryti kvazifonemos „pau“, „kš“, „čiai“.

Pagrindinės problemos, su kuriomis susiduriama bandant akustinį signalą sudalinti į kvazifonemas, yra susijusios su jų įvardijimu, tai yra, kokia reikšmė turi būti suteikta kvazifonemai. Šis reikšmių suteikimo kvazifonemai procesas yra būtinas norint kvazifonemas panaudoti kaip automatinės šnekos atpažinimo sistemos akustinį modelį. Problema čia yra ta, kad norint suskaldyti automatiniu būdu šnekos signalą į atskirus segmentus, reikia taip pat panaudoti automatinį metodą, kuris galėtų įvardyti, kokie garsai yra ištarti šiuose segmentuose. Ši problema buvo sprendžiama gautų šnekos signalo segmentų klasterizavimo etape.

2.2 Segmentavimo algoritmas Segmentavimas šnekos atpažinimo sistemoje yra atliekamas dvejopas. Šnekos signalo segmentavimas į

trumpus vienodo ilgio persidengiančius langus [6], kurie vėliau yra naudojami įvairiems požymiams ir statistikai apie segmentuojamą signalą rasti. Kitas šnekos signalo segmentavimo tipas stengiasi analizuojamą akustinį signalą sudalinti į lingvistiškai prasmingus arba į atskirus homogeninius signalo segmentus, iš kurių vėliau yra formuojamas garsynas, naudojamas automatinėse šnekos atpažinimo sistemose kaip apriori informacija. Pagrindinis skirtumas nuo pirmojo segmentavimo tipo yra tai, kad signalas segmentuojamas į skirtingo ilgio nepersidengiančius segmentus. Pastarojo segmentavimo tipo metodas ir yra analizuojamas šiame darbe.

Segmentavimo metodai, funkcine prasme panašūs į aprašomą šiame darbe, jau yra sukurti ir aprašyti kitų autorių. Tokių metodų pagrindas dažniausiai būna viena arba kelios šiuo metu populiarios technologijos:

1. Dinaminio laiko kraipymo metodas [7], [8], [9]. 2. Įvairūs statistiniai metodai, pavyzdžiui: paslėptieji Markovo modeliai [10]-[16], neuroniniai

tinklai [17], [18], hibridinės sistemos [19]-[22]. 3. Šnekos signalo segmentavimas pagal formantinius požymius [23]-[26]. 4. Viterbi segmentavimas [27]. 5. „Aklas“ segmentavimas [28], [29]. 6. Segmentavimas balsavimo būdu [30].

Segmentavimo metodai, pagrįsti pirmom dviem technologijom, ne tik susegmentuoja analizuojamą signalą, bet ir iš karto suteikia jam tam tikrą pavadinimą. Tai jie gali padaryti, nes signalas yra segmentuojamas naudojantis apriorine informacija apie galimus tokių signalų segmentus, kuri yra gaunama iš kitų metodų arba sudaroma rankiniu būdu. Kiti segmentavimo būdai naudoja tam tikrus signalų požymius kaip spektrines, kepstrines charakteristikas, perėjimo per nulį ar signalo energijos funkcijas, norint nustatyti vietas, kuriose signalo požymiai skiriasi.

– 77 –

Mantas Skripkauskas

2.3 Klasterizavimo algoritmas Kad gauti šnekos signalų segmentai būtų prasmingi, būtina juos surūšiuoti į atskiras grupes. Tai galima

atlikti pasinaudojus vienu iš esamų klasterizavimo algoritmų, kuris analizuojamus segmentus suskirstys į taip vadinamus atskirus klasterius. Iš klasterių vėliau bus galima sudaryti garsynus, reikalingus automatinėms šnekos atpažinimo sistemos akustiniams modeliams sudaryti. Be to, prieš klasterizuojant gautus šnekos signalų segmentus, jiems yra priskiriamas atitinkamas pavadinimas, kuris reiškia, kokie garsai-fonemos yra ištarti analizuojamame segmente. Atliekant tokių segmentų grupavimą į klasterius, tuo pačiu yra patikrinama, ar jie įvardinti teisingai, nes skirtingų pavadinimų segmentai negali būti viename ir tame pačiame klasteryje. Segmentai yra klasterizuojami atsižvelgiant ne į jų nešamą tekstinę, o į akustinę informaciją.

Daugumą klasterizavimo algoritmų galime rasti darbe [31], kuriame jie yra suskirstyti į tokias atskiras grupes, kuriose yra klasterizuojama pagal:

panašumų ir skirtumų matus, • • •

• • •

hierarchiją, naudojant įvairius statistinius metodus (pvz. tikimybinę tankio funkciją, fuzy teoriją, neuroninius tinklus ir kitas technologijas), grafų teoriją, nuoseklių duomenų teoriją, duomenų vizualizavimo ir daugiamačių duomenų teorijas.

Šiame darbe gauti šnekos signalų segmentai buvo klasterizuojami pagal pirmą klasterizavimo algoritmų grupę, kur panašumo ir skirtumo matas buvo gautas pasinaudojant dinaminio laiko kraipymo metodu, kurio metu sulyginami du segmentai ir gaunamas matas, parodantis, kiek jie yra skirtingi ir tuo pačiu panašūs. Tai yra, kuo gautas matas didesnis, tuo jie skirtingesni ir atvirkščiai.

3 Praktinė dalis Užsibrėžtas tikslas buvo pasiektas praktiškai, tai yra, buvo sukurta sistema, kuri pasirinktą šnekos

signalą automatiškai padalina į atskirus segmentus ir pagal jį atitinkančią tekstinę informaciją įvardija kiekvieną gautą segmentą. Po to segmentai gauti iš visų analizuotų šnekos signalų buvo padalinti į atskirus klasterius, kur klasterizavimas buvo atliktas remiantis tik akustine informacija. Taigi, šioje dalyje bus aprašyti praktiniai segmentavimo ir klasterizavimo etapai.

3.1 „Aklas“ šnekos signalo segmentavimas Šnekos signalas buvo dalinamas į atskirus segmentus taip vadinamu „aklu“ būdu, kai jokia papildoma

informacija, kuri galėtų padėti šiame procese, kaip pavyzdžiui kokie ir kiek garsų yra analizuojamame signale, nebuvo naudojama. Pirmiausiai iš segmentuojamo šnekos signalo buvo apskaičiuoti pirmos eilės melų skalės kepstriniai koeficientai, kurie sudarė analizuojamą signalą atitinkančią požymių kreivę. Tada buvo atliekamas segmentavimas pasinaudojant „convex-hull“ metodu, kuris randa tokius ribinius kreivės taškus, kuriuos sujungę gauname didžiausią analizuojamos kreivės užimamą plotą. Iš visų jų mums reikalingi tie taškai, kuriuos sujungę gautume kreivę, esančią virš požymių kreivės, o ne po ja. Po to per šiuos taškus nubrėžiame tiesę ir iš kiekvieno požymių kreivės taško brėžiame statmenį į artimiausią tokią tiesę. Taškas, pažymėkime jį raide A, iš kurio nubrėžtas statmuo buvo ilgiausias, žymės vietą, kuriame analizuojamas signalas keičiasi iš vieno garso į kitą. Tada požymių kreivę daliname į dvi dalis, kur pirmoji dalis bus iki taško A, o antroji dalis – nuo taško A iki požymių kreivės galo. Kiekvienai požymių kreivės daliai atliekame vėl tą pačią procedūrą, pradėdami nuo ribinių taškų suradimo. Taip signalą daliname tol, kol analizuojamoje požymių kreivės dalyje nebus nei vieno taško, iš kurio nubrėžtas statmuo būtų ilgesnis nei iš anksto pasirinktas skaičius ( šiuo atveju 4). Visas šis procesas yra pavaizduotas paveikslėlyje 2. Šis segmentavimo metodas yra geras tuo, kad slenkstis, naudojamas sustabdyti segmentavimą, nėra jautrus įvairiems požymių kreivės iškraipymams. Gauti požymių kreivės segmentų taškai vėliau atitinkamai buvo perkeliami į realų akustinį signalą.

3.2 Gautų segmentų įvardijimas ir klasterizavimas taikant dinaminio programavimo metodą Prieš atliekant gautų segmentų klasterizavimo veiksmą, kiekvienam gautam šnekos signalo segmentui,

naudojantis tekstine informacija, pateikta kartu su analizuojamu akustiniu signalu, buvo suteikta reikšmė. Pirmiausiai visi žodžiai analizuojamame teste buvo sutranskribuoti, po to akustinis signalas sudalintas į tiek vienodų dalių, pažymėkime jas F raide, kiek buvo gauta fonemų transkribuojant tekstą. Tada kiekvienam kvazifonemą atspindinčiam segmentui buvo priskiriamas pavadinimas, susidedantis iš fonemų, kurių atitinkamos dalys F akustiniame signale sutapo su analizuojamu segmentu.

Gautų kvazifonemų klasterizavimas buvo atliekamas per keletą žingsnių. Pirmiausia kvazifonemos tarpusavyje palyginamos naudojant dinaminio laiko kraipymo algoritmą, kurio metu gauta kvazifonemų

– 78 –


palyginimo matrica, kuria pasinaudojus buvo atliekamas klasterizavimas. Į vieną klasterį patenka tokios kvazifonemos, kurios tarpusavyje turi mažiausią palyginimų matricos įvertį. Kaip anksčiau buvo minėta, į vieną klasterį negali patekti kvazifonemos su skirtingais pavadinimais. Tačiau žinant, kad kvazifonemos pavadinimas gali būti klaidingas, buvo palikta galimybė jį pakeisti. Kvazifonemos pavadinimas bus keičiamas tik tokiu atveju, kai jos palyginimo įverčiai su kitomis klasteriui priklausančiomis kvazifonemomis neviršija atitinkamo pasirinkto slenksčio ir kai tokių kvazifonemų klasteryje yra nemažiau nei dvi.

2 pav. Šnekos signalo segmentavimas

4 Eksperimentas Su pristatytais šnekos signalų segmentavimo ir klasterizavimo metodais buvo atlikti du eksperimentai

siekiant nustatyti, kiek ir kokios klaidos atsiranda siekiant gauti kvazifonemas iš lietuvių kalbos šnekos signalų. Pirmu eksperimentu buvo bandoma nustatyti, kokia yra paklaida tarp automatiniu būdu gautų kvazifonemos taškų ir artimiausių rankiniu būdu analizuojamame akustiniame signale nustatytų taškų, kuriuose yra matomas aiškus perėjimas iš vieno garso į kitą. O antrame eksperimente buvo bandoma nustatyti, kiek ir kokių klaidų yra padaroma suteikiant kvazifonemoms reikšmes.

Eksperimentuose buvo naudojami lietuvių šnekos signalai, paimti iš MII, VDU ir „Lietuvos radijo“ kuriamo garsyno, kuriame yra sudėta daugiau kaip 10 valandų „Lietuvos radijo“ diktorių skaitomų žinių. Iš viso šiuose eksperimentuose buvo naudota 20 šnekos signalų, kuriuose be pauzių, įkvėpimų ir tylos fragmentų buvo ištarta nuo 5 iki 7 žodžių. Visus analizuojamus signalus ištarė du skirtingų lyčių diktoriai.

3 pav. Lietuvių šnekos signalų sudalinimas į atskiras fonemas. Viršutiniame paveikslėlyje pavaizduotas analizuojamas signalas, o apatiniame gautos ir teisingai įvardintos kvazifonemos. Kiekviena kvazifonema pavaizduota skirtingos spalvos

fone. Juodos vietos žymi tą analizuojamo signalo dalį, iš kurios gautos kvazifonemos įvardytos neteisingai

Sudalinus šiuos signalus, buvo gauti 232 skirtingi segmentai, iš kurių 47% buvo įvardinti teisingai, o automatiniu būdu rastos kvazifonemų ribos nuo patikslintų rankiniu būdu vidutiniškai tesiskyrė 23ms. Pirmojo eksperimento ir kitų autorių panašiuose darbuose, kuriuose šnekos signalas yra segmentuojamas į fonemas ir gauti segmentai įvardijami, rezultatai yra panašūs. Tačiau antrasis eksperimentas parodo, kad gautų kvazifonemų įvardinimas ir klasterizavimas dar turi būti tobulintinas. Pagrindinės klaidų priežastys, kurios iškyla šiame eksperimente, yra didelis garsų, sudarančių analizuojamus signalus, trukmės išsibarstymas bei sprendimo priėmimas pagal gautą dinaminio laiko kraipymo algoritmo sudarytą palyginimų matricą, kuri ne visada tiksliai atspindi skirtumus tarp gautų šnekos signalų segmentų.

– 79 –

Mantas Skripkauskas

5 Išvados 1. Sukurtas algoritmas, padalinantis akustinį šnekos signalą į kvazifonemas, kurias pritaikius

šnekos atpažinimui, gauti geresni šnekos atpažinimo rezultatai. 2. Eksperimentais parodyta, kad automatinio segmentavimo metu gautų kvazifonemų ribos nuo

rankiniu būdu patikslintų vidutiniškai tesiskyrė 23ms. 3. Sukurtas algoritmas, kuris pagal duotą akustinio šnekos signalo tekstinę informaciją, suteikia

gautoms kvazifonemoms prasmę ir ją patikslina klasterizavimo metu. Nors algoritmo daromų klaidų skaičius, įvardinant gautas kvazifonemas, yra didelis (53%), tačiau jis gali būti sumažintas pakeitus kvazifonemų klasterizavimo algoritmo palyginimų matricos sudarymą paslėptaisiais Markovo modeliais.

Literatūra [1] A. Raškinis, G. Raškinis, A. Kazlauskienė. Universalus anotuotas VDU lietuvių šnekos garsynas.

Proceedings of “Information Technologies 2003”, KTU, Kaunas, 2003. [2] Gy.Zsigri, A.Kocsor, L.Tóth, Gy.Sejtes. Phonetic Level Annotation and Segmentation of Hungarian

Speech Databases. Acta Cybernetica, Vol. 16, No. 4, pp. 659-673, 2004. [3] A. Nadas, R. L. Mercer, L. R. Bahl, R. Bakis, P. S. Cohen, A. G. Cole, F. Jelinek, B. L. Lewis. "Continuous

speech recognition with automatically selected acoustic prototypes obtained by either bootstrapping or clustering". Proc. ICASSP'81, pp. 1153 - 1155, March 1981.

[4] P. Kasparaitis. Skiemenavimas ir žodžių kėlimas. Kompiuterinė lingvistika, 2005. [5] J. P.Hosom. “Automatic Time Alignment of Phonemes Using Acoustic-Phonetic Information”. Ph.D. thesis, Oregon

Graduate Institute of Science and Technology (now Oregon Health & Science University, OGI School of Science & Engineering), May 2000.

[6] L.Rabiner, B.H. Juang. Fundamentals of Speech Recognition. Prenticel Hall, New Jersey, 1993. [7] C. S. Myers, L. R. Rabiner. "Connected word recognition using a level building dynamic time warping algorithm".

Proc. ICASSP'81, pp. 951 - 955, March 1981. [8] M. Wagner. "Automatic labelling of continuous speech with a given phonetic transcription using dynamic

programming algorithms". Proc. ICASSP'81, pp. 1156 - 1159, March 1981. [9] J. A. Gómez, M. J. Castro. “Automatic Segmentation of Speech at the Phonetic Level”. Proceedings in Springer-

Verlag, LNCS Vol. 2396 (T. Caelli et al. eds.), pp. 672-680, 2002. [10] K.Sjölander. “An HMM-based system for automatic segmentation and alignment of speech”. ‘Proceedings of

Fonetik 2003’, pp. 93–96, 2003. [11] C. W. Wightman, M. Ostendorf. "Automatic labeling of prosodic patterns". IEEE Trans. Speech Audio Processing,

vol. 2, pp. 469 - 481, October 1994. [12] M. Finke, M. Lapata, A. Lavie, L. Levin, L. M. Tomokiyo, T. Polzin, K. Ries, A. Waibel, and K. Zechner.

“CLARITY: Inferring Discourse Structure from Speech”. In Proceedings of the AAAI 98 Spring Symposium: Applying Machine Learning to Discourse Processing, pages 23--32, Stanford, CA, 1998.

[13] S. Abhinav, N. Shrikanth. "Refined speech segmentation for concatenative speech synthesis". In ICSLP-2002, 149-152, 2002.

[14] T. Kazuyuki, I. Shuichi. "Segmentation of spoken dialogue by interjections, disfluent utterances and pauses". In ICSLP-1996, 697-700, 1996.

[15] P. Bryan L., H. John H. L. "A duration-based confidence measure for automatic segmentation of noise corrupted speech". In ICSLP-1998, paper 0853, 1998.

[16] K. Demuynck, T. Laureys, P. Wambacq, D. Van Compernolle. “Automatic Phonemic Labeling and Segmentation of Spoken Dutch”. In Proc. 4th International Conference on Language Resources and Evaluation, volume I, pages 61--64, Lisbon, Portugal, May 2004.

[17] K. Torkkola. "Automatic alignment of speech with phonetic transcriptions in real time". Proc. ICASSP'88, pp. 611 - 614, April 1988.

[18] T. Kohonen, K. Torkkola, M. Shozakai, J. Kangas, O. Ventä. "Phonetic typewriter for Finnish and Japanese". Proc. ICASSP'88, pp. 607 - 610, April 1988.

[19] J.Kominek, C.Bennett and A.Black. “Evaluating and Correcting Phoneme Segmentation for Unit Selection Synthesis”. Eurospeech 2003, Geneva, Switzerland, 2003.

[20] Torre-Toledano, D. Rodríguez-Crespo, M. A. Escalada-Sardina, J. G. "Trying to mimic human segmentation of speech using HMM and fuzzy logic post-correction rules". In SSW3-1998, 207-212, 1998.

[21] K. Ries. "HMM and neural network based speech act detection". Proc. ICASSP'99, pp. 497 - 500, March 1999. [22] C. T. Hsieh, M. C. Su, E. Lai, C. H. Hsu. “A segmentation method for continuous speech utilizing hybrid neuro-

fuzzy network”. Journal of Information Science and Engineering, vol. 15, no. 4, pp. 615-628, 1999.

– 80 –


– 81 –

[23] H. Shimodaira, M. Kumura. "Accent phrase segmentation using pitch pattern clustering". Proc. ICASSP'92, pp. 217 - 220, March 1992.

[24] H. Shimodaira, M. Nakai. “Accent phrase segmentation using transition probabilities between pitch pattern templates”. In Proc. EuroSpeech'93, pages 1767-1770, Sep 1993.

[25] H. Shimodaira, M. Nakai. "Prosodic phrase segmentation by pitch pattern clustering". Proc. ICASSP'94, pp. 185 - 188, April 1994.

[26] M. Nakai, H. Shimodaira. „Accent Phrase Segmentation by Finding N-best Sequences of Pitch Pattern Templates“. Proc. ICSLP94, 8.10, pages 347-350, Sep 1994.

[27] K. Demuynck, T. Laureys. “A Comparison of Different Approaches to Automatic Speech Segmentation”. In Proc. 5th International Conference on Text, Speech and Dialogue, pages 277--284, Brno, Czech Republic, September 2002.

[28] Sharma, Manish / Mammone, J.Richard. ""Blind" speech segmentation: automatic segmentation of speech without linguistic knowledge". In ICSLP-1996, 1237-1240, 1996.

[29] R. Villing, J. Timoney, T. Ward, J. Costello. "Automatic Blind Syllable Segmentation for Continuous Speech". Irish Signals and Systems Conference (ISSC 2004), June 2004.

[30] A. K.Halberstadt, J. R.Glass. "Heterogeneous acoustic measurements for phonetic classification 1". In EUROSPEECH-1997, 401-404, 1997.

[31] R. Xu, D. Wunsch II. “Survey of Clustering Algorythms”. IEEE Transactions on neural networks, vol. 16, No. 3, May 2005, pp. 645-678. [2] L. Niles, H. F. Silverman, N. R. Dixon. "A comparison of three feature vector clustering procedures in a speech recognition paradigm". Proc. ICASSP'83, pp. 765 - 768, April 1983.

[32] X. Y., Saber E., A.M.Tekalp. “Object Segmentation and Labeling by Learning from Examples”. IEEE Trans. on Image Processing, Vol. 12. 6, 627-638, 2003.

[33] R. De Mori, P. Laface, E. Piccolo. "Automatic detection and description of syllabic features in continuous speech". IEEE Trans. Acoust., Speech, Signal Processing, vol. 24, pp. 365 - 379, October 1976.

[34] S. Eric, D. Andrea, J. Willy, S. Helmer. "Towards automatic word segmentation of dialect speech". In INTERSPEECH-2004, 2745-2748, 2004.

[35] V. Halewijn, M. Jean-Pierre, G. Cynthia, F. Justin, C. Bert Van. "Automatic prosodic labeling of 6 languages". In ICSLP-1998, paper 0045, 1998.

[36] S. Haltsonen, K. Bry. "Automatic selection of phonemes from an equally spaced quasi-phoneme string by the entropy principle". Proc. ICASSP'79, pp. 108 - 111, April 1979.

[37] T. Nagarajan, H. A. Murthy, R. M. Hegde. “Segmentation of speech into syllable-like units”. Proc. EUROSPEECH-03, Geneva, Switzerland, pp.2893-2896, Sep. 2003.

Segmentation of Lithuanian speech signals into quasi-phonemes

There are analyzed methods of automatic labeling and segmenting the signals of Lithuanian speech for the process of automatic speech recognition. There is presented a method of modified “blind” speech signal segmentation of Lithuanian speech signals into quasi-phonemes. There is described a technology with the help of which corresponding names were given for the obtained quasi-phonemes. And there are published obtained results of made experiments, with which there have been trying to test, how much bounds of the quasi-phonemes obtained automatically differ from the manually ones, and how much and what errors have been made during the process of labeling quasi-phonemes.

GARSŲ TRUKMĖS MODELIAVIMAS NAUDOJANT KLASIFIKAVIMO IR REGRESIJOS MEDŽIUS Giedrius Norkevičius, Asta Kazlauskienė, Gailius Raškinis

Vytauto Didžiojo universitetas

Šiuolaikinių šnekos sintezės sistemų signalo kokybė pakankama, kad jas būtų galima praktiškai naudoti, tačiau signalui trūksta natūralumo. To priežastys paprastai esti dvi: netikslūs sintezuotos šnekos garsų trukmės santykiai ir

netinkama intonacijos moduliacija ar jos nebuvimas apskritai. Šios problemos mažai tyrinėtos ir lietuvių kalboje. Straipsnyje aprašomi keli garsų trukmės modeliavimo metodai bei plačiau analizuojamos klasifikavimo ir

regresijos medžių panaudojimo lietuvių kalboje galimybės. Žvalgomojo pobūdžio tyrimui pasirinkta anotuota 60 tūkst. rišlaus teksto garsų pavyzdžių duomenų bazė. Regresijos medis leido sumažinti balsių ir priebalsių trukmių dispersiją

atitinkamai 28 % ir 25 %.

1. Įvadas Šiuolaikinių šnekos sintezės sistemų signalo kokybė pakankama, kad jas būtų galima praktiškai naudoti,

tačiau signalui trūksta natūralumo. To priežastys paprastai esti dvi: netikslūs sintezuotos šnekos garsų trukmės santykiai ir netinkama intonacijos moduliacija ar jos nebuvimas apskritai. Šios problemos mažai tyrinėtos ir lietuvių kalboje.

Reikia pasakyti, kad lietuvių bendrinės kalbos balsyno tos pačios pozicijos ilgųjų ir trumpųjų balsių trukmės santykiai, kokybės, priegaidės ir kirčio įtaka balsių kiekybei gana išsamiai aprašyta [1, 2, 3, 4, 5, 6, 7]. Ypač plačiai balsių kiekybė analizuota Pakerio [4]. Visi šitie darbai yra gera atrama modeliuojant balsių trukmės santykius. Tačiau bendrinės kalbos priebalsių kiekybė visiškai neanalizuota. Reikiamo lietuvių kalbininkų dėmesio vis dar nesulaukia ir fonetiniai intonacijos požymiai, nors techninės tokių tyrimų galimybės dabar tikrai geros. Todėl šiuo atveju paprastai minimi tik senesnės kartos mokslininkų gana fragmentiški darbai [8, 9, 10, 11, 12].

Šio straipsnio tikslas – apžvelgti populiariausius garsų trukmės modelius; išsiaiškinti vieno iš garsų trukmės modeliavimo metodų – klasifikavimo ir regresijos medžių – panaudojimo lietuvių kalboje galimybės. 2. Garsų trukmės modeliavimo metodai 2.1. Modeliavimas naudojant taisykles

Garsų trukmė gali būti modeliuojama įvairiais metodais: sudarant kiekybės santykius nusakančias taisykles [15], naudojant sandaugų sumų modelį [13,14], sukuriant sprendimo medžius [18,19], taikant dirbtinius neuroninius tinklus [16] ar Bajeso tikimybinius tinklus [17]. Pastarieji du metodai – neuroniniai ir tikimybiniai tinklai, – nors ir gali būti gana patikimi modeliuojant trukmę, tačiau sunku (jeigu apskritai įmanoma) interpretuoti jų rezultatus, be to, tai nėra itin populiarūs metodai trukmei modeliuoti . Vienas iš populiariausių yra Klatt taisyklių modelis [15]. Kiekviena taisyklė nusako kiekybės mažėjimą ar didėjimą procentais, o klasifikuotini segmentai negali būti trumpesni nei tam tikras minimumas. Modeliuoti pradedama nuo savaiminės garsų trukmės ir pridedamas kiekvieną garso požymį atitinkantis trukmės santykis.

( )( ) MINDURPRCNTMINDURINHDURDUR +−= 100/* Kur yra segmento savaiminė trukmė ms, segmento minimali trukmė ir

trukmės padidėjimas/sumažėjimas procentais. INHDUR MINDUR PRCNT

Visos taisyklės sudaromos rankomis, o tam reikia išsamių tyrimų. Kaip jau minėta, tik lietuvių kalbos balsių trukmė nemažai tirta, vadinasi, tik jų kiekybės santykius, išanalizavus tempo įtaką balsių trukmei, galima būtų modeliuoti šiuo metodu.

Pasirinkus šį metodą, būtina atkreipti dėmesį į tai, kad kurtinų taisyklių gali būti labai daug, jos gali turėti išimčių, kurioms aprašyti vėl reikės naujų taisyklių. Be to, sudarydamas taisykles žmogus dažnai pasikliauja išankstine nuostata, kuri ne visada yra teisinga.

2.2. Sumų sandaugų modelis

Sandaugų sumų modelis, sukurtas Van Santeno [13, 14], apibendrinamas formule: ∑∏∈ ∈

=Ki Ij

jjii

dSdDUR )()( , ,

Čia d yra parametrų vektorius, nusakantis prognozuojamą segmentą, K – indeksų, atitinkančių kiekvieną sandaugą, aibė, – aibė parametrų, įeinančių į i-tąją sandaugą. Parametrai yra vadinami parametrų svoriais (factor scales).

iI jiS ,

– 82 –

Garsų trukmės modeliavimas naudojant klasifikavimo ir regresijos medžius

Modeliavimas šiuo metodu vyksta trimis etapais: pagal jau žinomus garsų kiekybės santykius kalbininkai sudaro kategorijų medžius –

vienas medžio lapas atspindi garsų grupę, kuriai turi įtakos tam tikri faktoriai/parametrai ar jų sąveikos,

kiekvienam lapui/kategorijai sudaromas atskiras modelis, skaičiuojami modelių parametrai.

Daugelio nurodoma, kad tai vienas patikimiausių metodų, t. y. geriausiai prognozuojantis bei didžiausia koreliacija tarp prognozuojamos ir tikrosios reikšmės pasižymintis modelis. Literatūroje taip pat minima, jog šis modelis geriausiai atsiskleidžia krypties invariantiškumą. Krypties invariantiškumą geriausia pailiustruoti pavyzdžiu: pavyzdžiui, kirčiuotas u yra ilgesnis už nekirčiuotą u, toks pat šių balsių kiekybės santykis išliks ir tuo atveju, jeigu u papriešakės (taigi ankstesnio priebalsio minkštumas neturės įtakos kiekybės santykiams, t. y. kirčiuotas u išliks ilgesnis).

Šio metodo, kaip ir taisyklių, kol kas negalima taikyti lietuvių kalbai, nes nėra pakankamai išsamių garsų trukmės tyrimų duomenų, kurie būtini norint sudaryti kategorijų medį.

2.3. Modeliavimas klasifikavimo ir regresijos medžiais

Šiuo metu lietuvių kalbos garsų trukmei modeliuoti galima pritaikyti vieną iš mašininio mokymo metodų – sprendimo medžio metodą.

Sprendimo medžių vienas iš variantų – klasifikavimo ir regresijos medžiai – yra statistinio modeliavimo metodas, naudojamas prognozuoti kintamojo y reikšmei, atitinkančiai parametrų vektorių f. Modeliavimas susideda iš trijų etapų:

a) medžio konstravimas, b) jo paprastinimas (genėjimas), c) optimalaus medžio parinkimas.

Kaip ir kiekvienam mašininio mokymo algoritmui, taip ir pastarajam reikalinga {fn,yn} pavidalo mokymo imtis L, kur yn – nuo parametrų vektoriaus fn priklausomo objekto reikšmė. Iš pradžių medis susideda iš vieno, vadinamojo šakninio, mazgo t1, kurį sudaro visi aibės L mokymo pavyzdžiai. Užduotis yra surasti optimalų aibės L padalinimą į dvi dalis. Šiuo atveju optimalumo kriterijus yra vidutinė kvadratinė klaida:

Realaus tipo parametrų nustatomi visi padalinimai. Išvardijamojo tipo parametrų

padalinimo pavidalas yra: , kur

τ<inf

Θ∈if Θ gali būti bet koks aibės, sudarytos iš i-tojo požymio reikšmių, poaibis. Tokiu būdu yra išrenkamas geriausią padalinimą atitinkantis parametras ir visi šakninio mazgo pavyzdžiai padalinami į mazgus T . Su gautaisiais mazgais kartojama tokia pati procedūra tol, kol įvykdoma sustojimo sąlyga (paprastai dalinama tol, kol pasiekiamas tam tikras iš anksto apibrėžtas klaidos mažėjimas).

RL T,

Paprastai sudaromas gana didelis medis . Genėdami šakas sukonstruojame medžių seką . Iš šios sekos, panaudodami nuo mokymo duomenų nepriklausomą

validavimo aibę, išrenkame geriausią (mažiausiai klaidų generuojantį) medį.

maxT

1max ...... tTTT Kk =⊇⊇⊇⊇

Segmento trukmę lemiantys parametrai (paties segmento identifikacija, kirtis ir priegaidė, gretimų segmentų nustatymas, segmento pozicija skiemenyje, žodyje, sakinyje ir kt.) [18, 19] yra pasirenkami. Medžius gali sudaryti išvardijimo ir skaitmeniniai parametrai, tačiau jie turi būti nustatomi iš gryno, įprastine rašyba parašyto teksto. Einant medžio šakomis yra tenkinamos įvairios sąlygos, susijusios su parametrais, pvz.: kairiąją šaką reikia rinktis tuomet, kai segmento dešinys kontekstas lygus X, o dešiniąją šaką, kai dešinys kontekstas nelygus X. Kai pasiekiamas lapas, turime prognozuojamą trukmę – lape esančių segmentų trukmių vidurkį. Taip sudaryti regresijos medžiai lengvai interpretuojami ir gali būti koreguojami (to negalima daryti naudojant neuroninius ar tikimybinius tinklus). Šis metodas labai parankus tada, kai kalba mažai ištirta, ir būtent jo duomenys gali būti atspirties taškas atliekant išsamius kiekybės tyrimus, ruošiant taisyklių ar sandaugų sumų modelius, nustatant, kurie parametrai turi didžiausią įtaką trukmei. Dėl šių priežasčių pradiniams trukmės tyrimams pasirinktas klasifikacijos ir regresijos medžio metodas.

– 83 –

Giedrius Norkevičius, Asta Kazlauskienė, Gailius Raškinis

3. Eksperimentas

3.1. Duomenys Lietuvių kalbos garsų trukmės žvalgomojo pobūdžio eksperimento duomenų bazę sudaro 27 tūkst.

balsių ir 33 tūkst. priebalsių pavartojimo atvejai. Tai beveik 1,5 valandos grožinės literatūros tekstas, perskaitytas vieno diktoriaus. Visas įrašas anotuotas ir pažymėtas SAMPA ženklais [20].

Kadangi balsiai ir priebalsiai yra artikuliaciniu, akustiniu ir funkciniu požiūriu dvi visiškai skirtingos garsų klasės, buvo sudaromi du medžiai: balsių ir priebalsių. Parametrų vektorių sudarė vienas parametras: garso identifikacija (SAMPA kodas)

Siekiant suvienodinti tiek trumpųjų, tiek ilgųjų garsų įtaką mokymui bei tinkamai įvertinti rezultatus, prieš modeliavimą buvo atlikta tokia absoliučios trukmės reikšmių transformacija:

1−=VidDZ i

i , kai 1≥VidDi

,1i

i DVid

Z −= kai 1<VidDi ,

Kur – visų balsių ar priebalsių pavyzdžių trukmės aritmetinis vidurkis, – absoliuti i-tojo pavyzdžio trukmė, - naujoji – modeliavimui naudojama reikšmė.

Vid iD

iZ 3.2. Rezultatai

Pasirinkus balsių trukmės prognozavimą pagal jo identifikaciją, t. y. neatsižvelgiant į kontekstinę informaciją, iš viso gauta 13 lapų. Regresijos medis 28 % sumažino pradinės balsių trukmių aibės dispersiją. Sudaryto medžio lapai iš principo atitinka fonetikų jau nustatytus balsių trukmės dėsningumus (žr. 1 pav.):

i.- 1,2308

u-0,83494

i, u.- 0,99082

“i, “i., O, a, a., e., iu, iu.

- 0,51542

“iu, “iu. îe., îo.,

i:, io:-0,26305

“u, e, ie., o.

- 0,39342

“ie., “o.,”u:,

E:, ie, iu:, u:, uo

0,077167

“u., o:- 0,16970

“e, “i:, “iO, “o:,

a:, ai, au, eu, iO, iui, iuo

0,211673

“E:, “a, “ie, “iu:, “uo, e:,

io.-

0,044566

“ai, “au, “ei, “eu, “oi, “ui,

ô.1,11943

“a:, Ê:, â:, âi, âu, ê:, êi, êu, î:, îu:,

û:0,58256

“O, “O., “a., “e., “e:, “io., “io:, “iuo, îe, îo:, îuo, ô:, ûi, ûo,

ei., ui- 0,41298

1 pav. Balsių regresijos medis

1) dvibalsiai koncentruojasi dešinėje medžio pusėje; sutaptiniai dvibalsiai ie, uo yra arčiau medžio centro (jie trumpesni); kirčiuoti dvibalsiai ilgesni už atitinkamus nekirčiuotus; priegaidės įtaka trukmei nėra labai akivaizdi;

2) vienbalsių grupėje išryškėja labai akivaizdūs ir kalbininkų jau patvirtinti trukmės santykiai, jų eilė tokia (nuo trumpiausių iki ilgiausių): a) trumpieji nekirčiuoti balsiai, b) trumpieji kirčiuoti, c) ilgieji nekirčiuoti, d) ilgieji kirčiuoti. c ir d grupėje labai gražiai atsispindi kalbininkų jau pastebėtas trukmės priklausymas nuo liežuvio pakilimo laipsnio: aukštutinio pakilimo balsiai trumpesni už žemutinio pakilimo balsius, bet šie santykiai neišlieka kirčiuotų grupėje, o tai rodo, kad kirčio įtaka skirtingos kokybės balsiams nėra vienoda;

3) daugeliu atvejų mišriajame dvigarsyje esantys balsiai yra trumpesni už atitinkamą ilgąjį balsį; 4) pastebėta neryški tendencija, kad papriešakėję užpakalinės eilės balsiai gali būti trumpesni už

nepapriešakėjusius. Regresijos medis 25 % sumažino pradinės priebalsių trukmių aibės dispersiją. Kaip ir buvo galima

tikėtis, priebalsių medis nerodė kokių nors labai akivaizdžių trukmės dėsningumų. Čia galima kalbėti tik apie tendencijas:

– 84 –

Garsų trukmės modeliavimas naudojant klasifikavimo ir regresijos medžius

– 85 –

1) ilgiausi yra pučiamieji priebalsiai (visi jie dešiniajame medžio krašte), o sprogstamųjų ir pusbalsių trukmė įvairuoja;

2) priebalsių minkštumas neturi akivaizdžios įtakos trukmei, bent jau šie duomenys to nerodo; 3) dvigarsyje esantys nekirčiuoti pusbalsiai irgi ne visada trumpesni už tokius pačius ne dvigarsio

priebalsius, kirčiuoti tvirtagaliai šie dėmenys visada ilgesni už atitinkamus nekirčiuotus; 4) gana akivaizdžiai skardieji priebalsiai ilgesni už atitinkamus dusliuosius. Jeigu įtraukiame ir konteksto iš kairės bei dešinės požymį, tada sunku aprėpti visą vienetų gausą,

nustatyti patikimus dėsningumas ar akivaizdesnes tendencijas. Todėl, norint išsiaiškinti gretimų garsų įtaka, reikia mažinti tiriamų vienetų bazę ir didinti pasirinktinų požymių kiekį.

Literatūra [1] Anusienė L. Kirčiuotų ilgųjų balsių trukmė lietuvių bendrinės kalbos frazėse, Kalbotyra, 34 (1), 1983, 5–13 [2] Dambrauskaitė-Urbelienė J. K voprosy o nekotoryx osobenostex dolgix litobskix glasnix a i e. Kalbotyra, 1967, T.

17, 17–25 [3 Pakerys A., Plakunova, J. Urbelienė, Otnositelnaja dlitelnost glasnyx litovskogo jazyka, Kalbos garsai ir intonacija,

1970 – P. 30–53. [4] Pakerys A. Lietuvių bendrinės kalbos prozodija, 1982 [5] Svecevičius B., Nauji lietuvių literatūrinės kalbos paprastųjų balsių eksperimentiniai duomenys, Eksperimentinės fone-

tikos ir kalbos psichologijos kolokviumo medžiaga, 1964, T. 1, 14–32. [6] Vaitkevičiūtė V., 1960, Lietuvių kalbos balsių ir dvibalsių ilgumas arba kiekybė, Lietuvių kalbotyros klausimai, T. 3,

207–217. [7] Vaitkevičiūtė V., 1961, Lietuvių literatūrinės kalbos balsinės ir dvibalsinės fonemos, Lietuvių kalbotyros klausimai, T.

3, 19–39. [8] Bikulčienė P. Skatinimo ir konstatavimo intonacijų gretinimas, Kalbos garsai ir melodika, 1978, 3–11 [9] Bikulčienė P. Liepimo intonacijos, Kalbos garsai ir prozodija, 1982, 3–16 [10] Pukelis V. Kai kurie fiziniai pagrindinio tono požymiai lietuvių kalbos patikrinamuosiuose klausimuose, Garsai,

priegaidė, intonacija, 1972, 161–164 [11] Pukelis V. Frazės kirčiu pabrėžto žodžio ir jo kirčiuoto skiemens akustiniai požymiai lietuvių kalbos

patikrinamuosiuose klausimuose, Eksperimentinė ir praktinė fonetika, 1974, 199–217 [12] Statkevičienė J. Vienarūšių ir nevienarūšių pažyminių pagrindinis tonas, Eksperimentinė ir praktinė fonetika, 1974,

218–223 [13] Jan P. H. van Santen, Prosodic modeling in Text-To-Speech Synthesis ,Lucent Technologies – Bell Labs, 600

Mountain Ave., Murray Hill, NJ 07974, U.S.A. [14] Jan P. H. van Santen, Quantitative modeling of segmental duration , Bell Labs, 600 Mountain Ave., Murray Hill, NJ

07974, U.S.A. [15] D H Klatt, Synthesis by rule of Segmental Durations in English Sentences, in Frontiers of Speech Communication

Research edited by Lindblom & Ohman, Academic Press 1979 (pp 287-299) [16] Martti Vainio1 & Toomas2 Altosaar, Pitch, loudness, and segmental duration correlates : towards a model for the

phonetic aspects of finnish prosody, [Department of phonetics, University of Helsinki, Finland]1, [Acoustics Laboratory, Helsinki University of Technologie, Finland]2

[17] Olga Gaubanova, Using Bayesian belief networks for model duration in text-to-speech systems, Centre for Speech Technology Research, University of Edinburgh

[18] Robert Batušek, A Duration Model for Czech Text-To-Speech Synthesis , Laboratory of Speech and Dialogue, Faculty of Informatics,Masaryk University, Brno, Czech Republic

[19] Sridhar Krishna & Hema A. Murthy, Duration modelilng of Indian languages Hindi and Telugu, Indian Institute of Technology, Madras, Chennai – 60003

[20] Raškinis A., G. Raškinis, A. Kazlauskienė. SAMPA (Speech Assessment Methods Phonetic Alphabet) for Encoding Transcriptions of Lithuanian Speech Corpora. Information technology and control. Kaunas: Technologija, 2003, No. 4(29), p. 52–55.

Decision trees in phoneme’s duration modelling

Currently, intelligibility of the best TTS systems is extremely good, and certainly good enough for many real applications. However, it definitely lacks naturalness. It is commonly assumed that lack of natural prosody is the main reason for this. It is generally accepted that, next to intonation, timing plays a crucial role for encoding and decoding speech. The prerequisite for appropriate timing in speech synthesis is a high quality model for duration prediction. Research on Text-to-Speech conversion for Lithuanian is a much younger enterprise in comparison with the Text-to-Speech research for English and other European languages. Unfortunately there are no any investigations on duration modeling for Lithuanian. Therefore the purpose of this paper is to review existing models of duration prediction imposing more attention to Decision trees, in particular CART (classification and regression trees) like decision trees and to do some preliminary experiments on modeling phonemes duration for Lithuanian language.

KALBINIŲ DIALOGŲ ORGANIZAVIMO PRINCIPAI BALSINIUOSE TINKLALAPIUOSE

Rytis Maskeliūnas, Kastytis Ratkevičius

Kauno technologijos universitets

Nagrinėjami kalbinių dialogų organizavimo principai, skirti balsiniams tinklalapiams, kai vartotojas kreipiasi į tinklalapį per telefoną ir nemato jokio vaizdo ekrane, negali perskaityti teksto, paspausti reikiamos nuorodos ir t.t.Šiuo atveju efektyvus dialogas - pagrindinis informacijos apsikeitimo būdas tarp vartotojo ir kompiuterio. Pateikiamijau paruoštų balsinių tinklalapių su kalbiniais dialogais pavyzdžiai, trumpai supažindinama su jų paruošimometodika.

1. Įvadas

Šiuo metu populiariausi pasaulyje kalbos technologijų serveriai yra tik metų senumo greitai

išpopuliarėjęs Microsoft Speech Server 2004 V.1 ir jau seniai sukurtas bei tobulinamas IBM WebSphere Voice Server V4.2. Didžiausias skirtumas tarp šių dviejų produktų yra naudojama ženklinimo kalba: IBM WebShpere Voice serveris pagrįstas VoiceXML v2.0, o Microsoft kalbos serveris - SALT v1.0 specifikacija. SALT - tai nedidelis XML elementų rinkinys, leidžiantis panaudoti kalbines technologijas telefonijos ir multimodaliniuose taikymuose. Viena iš esminių SALT architektūros savybių - multimodalinis pritaikymas [1]. Aparatūrinio pritaikymo spektras labai platus: tai telefonai, delniniai, planšetiniai bei įprastiniai kompiuteriai. Pagrindinis VoiceXML pritaikymas - telefonijos programos su Web sąsaja ir interaktyvaus atsako balsu (IVR) programos.

Šiuo metu pagrindiniai programavimo ir internetinių tinklalapių kūrimo priemonių gamintojai į savo naujausių programų versijas integruoja SALT standarto palaikymą. Dominuoja du SALT technologijas palaikantys paketai:

• „Microsoft Speech Application SDK (SASDK)”, naudojamas kartu su „Microsoft Visual Studio .NET” programavimo paketu. Šis paketas leidžia sukurti sudėtingus, Microsoft kalbos serveryje naudojamus ASP.NET tinklalapius [2];

• „Voice Web Studio” kalbos priemonių komplektas, naudojamas kartu su „Macromedia Dreamweaver MX” programiniu paketu. Naudojant šias priemones galima įprastiniuose HTML tinklalapiuose panaudoti „tekstas į kalbą“ sintezę, garsinių failų grojimą, sukurti interaktyvius dialogus tarp vartotojo ir kompiuterio, įdiktuoti reikiamus duomenis ir t.t. [3]. Su SASDK paketu galima kurti „tik balsas“ tipo balsinius tinklalapius ir multimodalinius tinklalapius.

Multimodaliniuose tinklalapiuose vartotojui pateikiama grafinė sąsaja ir orientuotis programos eigoje nesunku. Vartotojas gali pateikti duomenis ištardamas komandas balsu, jei neturi mikrofono, įvesti duomenis į teksto laukelį, pasirinkti iš meniu ir t.t. Multimodalinis tinklalapis, atpažinęs vartotojo komandą, gali išrinkti reikiamą informaciją iš meniu, perskaityti tekstą ir t.t. Balsiniai tinklalapiai su „tik balsas“ sąsaja kuriami kaip ASP.NET (*.aspx) tinklalapiai be grafinės vartotojo sąsajos, kurią atvaizduotų Microsoft Internet Explorer naršyklė. Vartotojas per telefonijos programų serverį sujungiamas su tinklalapiu. Valdymas atliekamas tariant komandas balsu arba spaudant telefono mygtukus (DTMF), o reikiama informacija perskaitoma vartotojui, naudojant „tekstas į kalbą“ sintezatorių arba grojant garso įrašus. 2. Pagrindiniai reikalavimai kalbiniams dialogams balsiniuose tinklalapiuose

Išvardinsime pagrindinius reikalavimus, skirtus balsiniuose tinklalapiuose naudojamiems kalbiniams dialogams [4]:

1. Reikalavimai gramatikos dizainui: svarbu gerai suformuoti gramatikos taisykles, kai užduodami klausimai su nemažu galimų atsakymų variantų skaičiumi, pvz., „Kuo galėčiau padėti?“. Svarbu nustatyti ribą tarp dialogo lankstumo ir gramatikos sudėtingumo;

2. Reikalavimai pauzėms: svarbu teisingai nustatyti pauzės parametrus, pvz., tarp atpažinimo proceso pradžios ir kalbos aptikimo, tarp mygtukų paspaudimo DTMF programoje ir pan. Taip pat reikia įvertinti galimas pauzes dėl serverio kaltės (pvz., gali tekti ilgiau palaukti, kol bus gauti duomenys iš duomenų bazės, jei serveris apkrautas). Tokiu atveju reikia „užimti“ laukiantį vartotoją. Vienas iš būdų - pagroti muziką arba sintezės iš teksto moduliu perskaityti dienos naujienas. Multimodalinėje programoje tai nėra būtina, nes vartotojas gali veikti ką nors kitą;

3. Reikalavimai garso nuorodoms: balsiniuose tinklalapiuose vienintelis atsakas vartotojui iš serverio

– 86 –

Kalbinių dialogų organizavimo principai balsiniuose tinklalapiuose

pusės yra garso nuorodos. Vartotojas privalo gerai ir aiškiai suprasti jam pateikiamą informaciją. Norint sukurti kokybiškas garso nuorodas, reikia atkreipti dėmesį į šiuos faktorius:

• pirmenybė teikiama iš anksto įrašytoms garso nuorodoms, nes jų kokybė aukštesnė už sintezuotų nuorodų kokybę;

• nereiktų naudoti nuorodų su pertekline informacija; • reikia vengti dviprasmiškų posakių, naudoti tik gerai suprantamus vartotojui žodžius ir terminus; • rekomenduojama nustatyti kokią esminę informaciją vartotojas turėtų gauti ir tą informaciją pateikti

kaip pradinę. Papildoma informacija turi būti pateikta po svarbiausios informacijos. Taip vartotojas gali lengvai apsispręsti ar pateikiama informacija jį domina ir nuspręsti, ar klausytis pranešimo iki galo, ar nutraukti skaitymą;

• prieš kuriant balsinį tinklalapį rekomenduojama įvertinti kokio išprusimo lygio vartotojas naudosis programa (tipiniam vartotojui galbūt reikėtų perskaityti naudojimosi instrukciją, kai ekspertui užtektų išvardinti komandas). 4. Reikalavimai tinklalapio struktūrai: rekomenduotina iš anksto numatyti tinklalapio struktūrą prieš

kuriant garso nuorodas. Taip išvengiama galimo pakartotinio garso nuorodų perdarymo proceso pakitus tinklalapio struktūrai. Papildomai reikia atkreipti dėmesį į šiuos faktorius:

• rekomenduojama dialogą sukurti kiek įmanoma trumpesnį; • rekomenduojama naudoti tik tokius atpažįstamus žodžius, kurie būtini programos veikimui.

Rekomenduojama pateikti galimus atsakymo variantus; • rekomenduojama nutraukti dialogą ir pradėti iš naujo, jei vartotojas klysta kelis kartus toje pačioje

dialogo ciklo vietoje. Taip galima išvengti vartotojo susierzinimo ir nepasitenkinimo sistemos darbu. 5. Reikalavimai dialogo valdymo komandoms: rekomenduojama vartotojui suteikti galimybę

paprašyti pagalbos, sustabdyti programos veikimą ar nurodyti keletą kitų komandų, nesusijusių su dialogu. Rekomenduotina panaudoti komandas „Pagalba“ ir „Pakartokite“. Gavus komandą „Pakartokite“, tinklalapis turėtų pakartoti tik ką pateiktą informaciją. Papildomai rekomenduojama naudoti komandas „Nutraukti“ ir „Iš naujo“. Į bet kurį tinklalapio užduotą klausimą vartotojas gali atsakyti neaiškiai arba nesupratęs klausimo visai neatsakyti. Tokiu atveju rekomenduojama išvesti atitinkamas pagalbines garso nuorodas, pvz.:

• vartotojas neaiškiai sumurma. Tinklalapis turėtų ištarti: „Atsiprašau, nesupratau jūsų.“; • vartotojas tyli. Tinklalapis turėtų ištarti: „Atsiprašau, neišgirdau jūsų.“; • vartotojas paprašo pagalbos: „Nesuprantu, padėkite, pagalba ir t.t.“. Tinklalapis turėtų ištarti:

„Naudojimosi programa instrukcijos yra ...“.

3. Pagrindiniai kalbinio dialogo komponentai Dialogą galima aprašyti būsenomis su atpažinimu ir būsenomis be atpažinimo. Būsenose su atpažinimu

vartotojas turi įvesti reikalaujamą informaciją, o būsenose be atpažinimo naudojamos tik garsinės nuorodos. Baziniais dialogo komponentais vadinamos: pagrindinė nuoroda, tylos nuoroda, klaidingo atpažinimo nuoroda. Tipiniu atveju dialogo būsena su atpažinimu turi pagrindinę nuorodą, išvedamą būsenos pradžioje ir eilę pagalbinių nuorodų. Galimos pagalbinės nuorodos: pirmoji ir antroji tylos nuorodos, pirmoji ir antroji klaidingo atpažinimo nuorodos, pagalbos nuoroda, teisingo atpažinimo nuoroda, dialogo nutraukimo nuoroda, būsenos nuoroda, pakartojimo nuoroda, koregavimo nuoroda.

Po pagrindinės nuorodos,jei vartotojas tyli, išvedama pirmoji tylos nuoroda, pvz., „Atsiprašau, neišgirdau jūsų“. Tipiniu atveju naudojamos dviejų lygių tylos nuorodos – antroji tylos nuoroda seka po pirmosios tylos nuorodos, ji gali būti griežtesnė, pvz., gali paraginti pasitikrinti mikrofoną ir pan. Pirmoji klaidingo atpažinimo nuoroda gali būti,pvz., „Atsiprašau, nesupratau jūsų.“. Tipiniu atveju naudojamos taip pat dviejų lygių klaidingo atpažinimo nuorodos – antroji nuoroda seka po pirmosios nuorodos ir gali turėti patarimą kaip vartotojui elgtis toliau. Po dviejų lygių tylos arba klaidingo atpažinimo nuorodų turėtų sekti nuoroda, siūlanti vartotojui,pvz., kitą užklausimo struktūrą arba sujungianti vartotoją su operatoriumi. Pagalbos nuoroda ir nutraukimo nuoroda turėtų būti leistinos bet kurioje dialogo būsenoje. 4. SASDK paketo siūlomų priemonių kalbiniams dialogams ruošti apžvalga

Trumpai apžvelgsime ką siūlo SASDK paketas kalbiniams dialogams projektuoti. 1. Kalbinio dialogo tipai: SASDK paketas įgalina projektuoti dialogus su sistemos iniciatyva (system

iniciative) ir su mišria iniciatyva (mixed iniciative). Dialoguose su sistemos iniciatyva vartotojas pateikia tik reikalaujamą informaciją, tuo tarpu dialoguose su mišria iniciatyva vartotojas gali pateikti ir papildomą informaciją, kuri bus reikalinga tolimesniuose dialogo etapuose. Mišrios iniciatyvos požymis nustatomas QA

– 87 –


valdiklių ExtraAnswers elementuose. 2. Semantinės informacijos apdorojimas: balsinis tinklalapis turi priimti ir apdoroti iš vartotojo

gaunamą informaciją. Ši informacija gaunama kaip atsakymai į garsines nuorodas. Kalbos atpažinimo „variklis“ analizuoja vartotojo atsakymus į nuorodas ir grąžina semantinę informaciją SemanticMap valdikliui. Pastarasis yra sudarytas iš eilės SemanticItem valdiklių, turinčių būsenos požymį, kuris gali būti nustatytas: Empty, NeedsConfirmation, Confirmed. SASDK paketas įgalina valdyti kalbinį dialogą naudojantis atpažinimo proceso pasikliovimo slenksčiais (confidence thresholds): atpažintos informacijos atmetimo (Reject) ir patvirtinimo (ConfirmThreshold) slenksčiais: Atpažinimo „variklis“ grąžina atpažinimo rezultatus su pasikliautinumo įvertinimais tarp 0 ir 1. Jei įvertinimas bus mažesnis už atmetimo slenkstį, bus nustatyta būsena Empty, jei įvertinimas bus didesnis už patvirtinimo slenkstį, bus nustatyta būsena Confirmed, tarpiniu atveju bus nustatyta būsena NeedsConfirmation. Kalbinio dialogo eiga priklausys nuo šios būsenos.

3. Patvirtinimo strategijos, naudojamos kalbiniuose dialoguose: • Patvirtinimas su „taip/ne“ (yes/no confirmation): ši strategija pagrįsta tuo, kad po informacijos iš

vartotojo atpažinimo, sistema išveda garso nuorodą vartotojui su atpažinta informacija, o po to paprašo patvirtinimo. Vatrtotojas turi atsakyti „taip“ arba „ne“. Vartotojui atsakius „taip“, pereinama į sekantį kalbinio dialogo etapą, o atsakius „ne“ – grįžtama į to paties kalbinio dialogo etapo kartojimą.

• Patvirtinimas su pauze (short time-out confirmation): po informacijos iš vartotojo atpažinimo, sistema išveda garso nuorodą vartotojui su atpažinta informacija klausimo forma,o po trumpos pauzės išveda sekančio dialogo etapo klausimą. Tyla iš vartotojo pusės traktuojama kaip atsakymas „taip“. Abi strategijos realizuojamos su “klausimas-atsakymas” QA balso valdikliais. 4. Kalbinio dialogo elementai (meniu, sąrašas}: skaitoma, kad vartotojas negali įsiminti daugiau kaip

3-4 jam siūlomų pasirinkimų. Jei pasirinkimų yra daugiau – juos reikia grupuoti. Tokiu atveju vartotojas pradžioje pasirenka grupę,o po to atlieka pasirinkimą grupės viduje. Kai vartotojas turi rinktis iš sąrašo, naudojami trys sąrašo pateikimo varinatai:

• sąrašas su nuorodomis; • sąrašas su navigacinėmis komandomis: sekantis, ankstesnis; • sunumeruotas sąrašas.

Sąrašo su nuorodomis atveju vartotojui pateikiamas bendras sąrašo sudedamųjų dalių skaičius, po to pristatoma kiekviena sudedamoji dalis su nuoroda į jos vietą sąraše. Vartotojas pasirenka reikalingą dalį pasakydamas reikiamu momentu „taip“, nespėjus to padaryti – sąrašas kartojamas iš naujo. Sąrašo su navigacinėmis komandomis atveju pristatoma pirmoji sąrašo sudedamoji dalis,po tolaukiama iš vartotojo navigacinės komandos: „sekantis“ arba „ankstesnis“. Sunumeruoto sąrašo atveju kiekviena sąrašo sudedamoji dalis pateikiama su numeriu, o vartotojas renkasi numerį.

5. Tinklalapių su kalbiniu dialogu pavyzdžiai

Pavyzdys „Formų pildymas balsu“ skirtas pademonstruoti lietuviškų kalbinių dialogų galimybes tarp vartotojo ir kompiuterio ir galėtų būti pritaikytas elektroninėje bankininkystėje. Jis realizuotas dviem būdais: su „Voice Web Studio” kalbos priemonių komplektu, kaip įprastinis HTML tinklalapis, tik su balsine sąsaja ir su SASDK paketu kaip balsinis tinklalapis su telefonine sąsaja. Scenarijaus aprašymas: pavyzdyje pateikiama duomenų, reikalingų atlikti pinigų pavedimą tam tikrai parduotuvei, surinkimo programa. Tinklalapis pasisveikina su vartotoju ir klausia, kam skirtas pavedimas (galimi atsakymo variantai: minimai arba maximai). Vartotojui atsakius, tinklalapis parodo atpažinimo rezultatą bei tikslumo matą ir pereina prie antro kalbinio dialogo punkto: tinklalapis klausia vartotojo kiek jis norėtų mokėti (vieną litą ar du litus). Vartotojui atsakius į klausimus, tinklalapis paklausia ar teisingai surinkti duomenys (pvz., „ar norite mokėti vieną litą maximai?“). Vartotojas, atsakydamas „taip“ arba „ne“, gali atmesti arba patvirtinti pavedimą. Tylos arba nesuprasto atsakymo atveju tinklalapis informuoja vartotoją apie klaidą (pvz., „atsiprašau, neišgirdau jūsų atsakymo“ arba „atsiprašau, galimi atsakymo variantai minimai arba maximai“ ir t.t.).

Su „Voice Web Studio” kalbos priemonių komplektu paruošto tinklalapio su balso sąsaja pagrindinio lango vaizdas parodytas 1 pav. (prieiga per internetą: http://www.speech.itpi.ktu.lt/demo/eb/default.html). Pagrindinis tinklalapio langas sukurtas iš HTML formų elementų: teksto atvaizdavimo laukelių (text area) ir teksto įvedimo laukelių (text field). Kalbinis dialogas realizuotas naudojantis SALT elementais prompt ir listen.

To paties tinklalapio versija „tik balsas“ paruošta su SASDK paketu. Trumpai pristatysim pagrindinius šio tinklalapio paruošimo etapus. Pirmame etape sukuriamas Speech Web Application tipo projektas. Po to reikia sukurti gramatikos taisykles, kad programa atpažintų žodžius „minimai, maximai, vieną litą, du litus, taip, ne“. Tam gramatikos naršyklėje reikia sukurti trejetą taisyklių: “minimai_maximai”, “viena_du”, “taip_ne”. Taisyklių redaktoriuje iš Grammar įrankių komplekto reikia panaudoti List elementą (atpažįstamų žodžių sąrašui sudaryti) bei papildomai įdėti dar vieną Phrase elementą. Phrase elementuose nustatomi atpažįstami žodžiai, pvz.,

– 88 –


“minimai” ir “maximai” (2 pav.).

1 pav. Įprastinio HTML tinklalapio su balso sąsaja „Formų pildymas balsu“ pagrindinio lango vaizdas

2 pav. Gramatikos taisyklių redaktoriaus vaizdas

Semantinė informacija aprašoma skriptais. Tam prie atpažįstamo žodžio (Phrase) reikia pridėti skripto elementą (Script Tag) iš gramatikos įrankių komplekto. Semantikos priskyrimui semantinių skriptų redaktoriaus Semantic Script Editor stulpelyje Assignment nustatomas požymis Return result in a sub-property of this Rule, o laukelyje Enter value įrašomas tekstas „minimai“. Analogiškai apdorojamas žodis “maximai”.

Sekantis žingsnis yra dialogo struktūros sukūrimas. Dialogams kurti naudojami QA (klausimas-atsakymas) valdikliai. Jais aprašoma, kokią informaciją perskaityti vartotojui, kokius žodžius atpažinti ir kaip apdoroti atpažintus žodžius. Pasisveikinimo valdiklis LabasQA1 patalpinamas atskirai, o likę dialogo QA valdikliai patalpinami į ASPX skydelį tam, kad juos būtų galima kontroliuoti su Command tipo valdikliu QASpeechControlSettings1. Iš anksto į projektą yra įtraukti du kalbos valdikliai AnswerCal1l ir SemanticMap. Dialogo struktūros (failas default.aspx) vaizdas pateiktas 3 pav.

Sekantis žingsnis yra garso nuorodų įrašymas. Visos garsinės nuorodos laikomos nuorodų duomenų bazėje. Garsinių nuorodų tekstiniai atitikmenys įvedami nuorodų redaktoriaus (SpeechPrompt Editor) Transcription laukelyje. Įrašytą tekstą reikia apskliausti laužtiniais skliausteliais [ ], taip nurodant kuri teksto dalis priskiriama garso failui. Laukeliai Display Text, Has Wave ir Has Alignments užpildomi automatiškai, kai įvedamas tekstas į transkripcijų laukelį.

– 89 –


3 pav. Dialogo struktūros (failas default.aspx) vaizdas

Nuorodos įrašomos su integruota programa Recording Tool. Ištarus eilinę frazę, laukiama, kada atpažinimo “variklis” apdoros įvestus duomenis. Apdorojimas baigiamas, kai lentelėje specialiais ženklais pažymimi apdorojamos transkripcijos laukeliai Has wave ir Has Alignments. Jei laukelis Has Alignments nėra pažymimas žaliai – reikia pakartoti apdorojamos frazės įvedimą. Po sėkmingo garsinių nuorodų įvedimo ir apdorojimo gaunamas vaizdas, parodytas 4 pav. Kiekvienam QA valdikliui nurodoma iš kur jis turėtų paimti balso įrašus. Tam naudojamas SpeechControlSettings valdiklis.

4 pav. Garsinių nuorodų redaktoriaus vaizdas

Kalbos atpažinimo “variklis” analizuoja vartotojo atsakymus į nuorodas ir grąžina semantinę informaciją SemanticMap valdikliui. Kiekvienos taisyklės grąžinamai semantinei informacijai reikia priskirti SemanticItem elementą ir nustatyti kaip grąžinta semantinė informacija yra susieta su SemanticItem elementu. Naudojantis SemanticMap valdiklio savybių nustatymo pagalbininku Property Builder, sukuriami SemanticItem tipo elementai: siminimai_maximai, siviena_du, siTaip_Ne. Po to kiekvienam QA valdikliui reikia nurodyti kokias gramatikos taisykles jis turėtų naudoti balso atpažinimui. Tam kiekvieno QA valdiklio savybių nustatymų pagalbininko lange nurodomas kelias į gramatikos biblioteką ir pasirenkama aktyvi atpažinimo taisyklė (Active Rule).

Kalbinis dialogas bus efektyvesnis, jei balsinio tinklalapio garsinėse nuorodose panaudosime informaciją, gautą iš vartotojo. Tam reikia sukurti specialią atsakymo patvirtinimo funkciją ir joje panaudoti atpažintus tekstus iš SemanticItem elementų (5 pav.). Funkcijų redaktoriuje nurodomas parametro pavadinimas (Parameter Name), atpažįstamas tekstas (Validation Value) ir atpažintą parametrą grąžinančios funkcijos pavadinimas (Runtime Value).

– 90 –


– 91 –

5 pav. Atsakymo patvirtinimo funkcijų redaktoriaus vaizdas

Pvz., vartotojo atsakymą patvirtinančios funkcijos kode (5 pav.) naudojami tokie kintamieji: spatvirtinimas – nurodo, kad reikia perskaityti tekstą „Jūs pasirinkote“, satsisveikinimas – nurodo, kad reikia perskaityti tekstą „Ačiū“ ir sprompt – tai visa garsinė nuoroda, kuri bus perskaityta vartotojui. Valdiklis patv_QA1 išves vieną iš dviejų garsinių nuorodų, priklausomai nuo atpažinimo metu gautos kintamojo staip_ne reikšmės: “Jūs pasirinkote taip, ačiū” arba “Jūs pasirinkote ne, ačiū”.

6. Išvados

Išnagrinėti kalbinių dialogų organizavimo principai, skirti balsiniams tinklalapiams, kai vartotojas

kreipiasi į tinklalapį per telefoną ir nemato jokio vaizdo ekrane. Ypatingas dėmesys turi būti skiriamas kalbinio dialogo struktūrai ir garso nuorodoms, kad vartotojas neprarastų orientacijos dialogo metu.

Apžvelgtos priemonės, kurias siūlo SASDK paketas kalbiniams dialogams balsiniuose tinklalapiuose projektuoti: kalbinio dialogo tipai, semantinės informacijos apdorojimo būdai, atsakymo patvirtinimo strategijos.

Paruošti kalbinį dialogą demonstruojantys tinklalapiai: įprastinis tinklalapis „Formų pildymas balsu“, tik išplėstas su balso sąsaja (prieiga per internetą http://www.speech.itpi.ktu.lt/demo/eb/default.html) ir to paties tinklalapio versija „tik balsas“ (demonstracija galima Kalbos signalų tyrimo mokslo laboratorijoje, Studentų 65-108). Trumpai apžvelgiama šio tinklalapio paruošimo su SASDK paketu metodika.

Literatūros sąrašas [1] R.Maskeliūnas, K.Ratkevičius. SALT technologijos apžvalga. Automatika ir valdymo technologijos – 2004, Kaunas,

Technologija, 2004, pp.152-156. [2] R.Maskeliūnas, K.Ratkevičius. Balsinių tinklalapių kūrimo su SASDK paketu aspektai. Automatika ir valdymo

technologijos – 2005, Kaunas, Technologija, 2005, pp.72-77. [3] R.Maskeliūnas, K.Ratkevičius. Balsinių tinklalapių kūrimo su Voice Web Studio paketu aspektai. Informacinės

technologijos – 2005, Kaunas, Technologija, 2005, pp.304-308. [4] Microsoft .NET Speech Technologies, prieiga per internetą: http://www.microsoft.com/speech. The principles of voice dialogues organization in speech-enabled Web pages Paper deals with the voice dialogues organization in speech-enabled Web pages. Requirements to voice dialogues in speech-enabled Web pages are analyzed. The methodology of creating of simple speech enhanced Web application in Visual Studio.NET with Microsoft Speech Application SDK package is prepared. Demo version of speech-enabled Web page is presented (http://www.speech.itpi.ktu.lt/demo/eb/default.html).

BALSO DIALOGŲ RAIDOS ANALIZĖ

Algimantas Rudžionis1,Vytautas Rudžionis2 1Kauno technologijos universitetas

2Vilniaus universitetas, Kauno fakultetas

Analizuojamos pastarojo laikotarpio balso (kalbos signalų) dialogų technologijų (BDT) raidos tendencijos. Nagrinėjami BDT plėtros motyvai, BDT panaudojimu paremtų kontaktų centrų principai ir informacinės savitarnos reikšmė, parodomi BDT

panaudojimo pavyzdžiai, apibendrinami su BDT panaudojimu susiję ES FP6 projekta bei plėtros Lietuvoje problemos.

1 Įvadas Kalbos signalų atpažinimas ir sintezė, suderinti su kitomis balso dialogų priemonėmis, tampa savita

informacine balso dialogų technologija (BDT), kuri esminiai keičia sąveiką tarp žmogaus ir įterptinių kompiuterių. Ši technologija pavadinama ”smogiamąja” (disruptive) tuo lyginant jos reikšmę su garo mašinos, elektros lemputės ar mobilaus telefono sukūrimu [1]. Kitu atveju [2] vardinama tokia esminių technologinių naujovių chronologija: integrinės schemos, asmeninis kompiuteris (PC), internetas, mobilus telefonas ir laukiamos interaktyvios mobiliosios sąveikos šnekamosios kalbos pagrindu. Kai kada [3] labiau akcentuojami programiniai elementai, bet kalbos signalų technologijos išlieka esminiu orientyru. BDT jau naudoja veik visos sėkmingiausiai dirbančios (pvz. Fortune 500) verslo kompanijos, o informacinių technologijų pramonės lyderiai (Microsoft, IBM, Intel ir kt.) sukūrė balso serverius ir ruošiasi rimtoms investicijoms, kad paruošti BDT panaudojimo priemones suprantamomis milijonams pasaulio programuotojų.

Kol kas BDT sėkmingai skverbiasi į kontaktų centrus, bet laukiamas kur kas platesnis jų panaudojimas įvairiuose mobiliuose įtaisuose (delninukai, telefonai, akiniai, klausos aparatai, net implantai).

Čia neliesime itin sudėtingų kalbos signalų atpažinimo (problemų mastą atspindi [4-8]), kalbos sintezės (vienas lituanistinių klausimų nagrinėtas [9]), sąsajos su internetu bei telefonu (standartai SALT, VoiceXML, multimodalumas, balso dialogų projektavimo priemonės [10]) ir kitų pamatinių dalykų. Tačiau čia aptarsime balso dialogų technologijų plėtros motyvus, analizuodami pasaulio lyderių siekius, išnagrinėsime kai kuriuos taikymus (kontaktų centrai, informacinė savitarna, kitos panaudojimo sritys), apibendrinsime Europoje bei Lietuvoje vykdomus darbus.

2 Balso dialogų technologijų plėtros motyvai 2.1. Programa “Making Speech Mainstream”. To pat pavadinimo Microsoft baltojoje knygoje (ji

buvo patalpinta internete 2003 – 2004 metais) pateikiami tokie ekonominiai balso technologijų plėtros argumentai:

• Ženkliai auga informacinės sąveikos kainos. Iki interneto naudotasi tik viena sąveikos moda – telefonu, po to prisidėjo Webas, e-paštas. Skambučių centrai veik nepatobulinti, kad jie pasistumtų link ekonomiškesnių e-mail ir Web modų. Plėtojami brangūs žmogiški resursai, bet ne ekonomiškai pagrįstos automatinės priemonės.

• Aiškesnėmis tampa efektyvios informacinės sąveikos palaikymo galimybės. Įvairovė mobilių įtaisų, kuriais vis labiau pasitiki vartotojai, verčia plėsti mobilaus ryšio pajėgumus. Investicijos ženklios, bet rezultatas menkokas, nes mobilūs įtaisai dažnai neturi tinkamų informacijos prieigos / pateikimo būdų.

• Konverguoja telefonas ir Web’as, pirma - telefono įtaisų skvarba (jau yra virš 1.5 milijardo telefonų, plinta delninukai PDA, ir t.t.) derinama su augančiais bevielio Interneto taikymais (atsiranda mobilus Web’o naršymo įtaisai), antra – bevieliai tinklai evoliucionuoja link 2.5 G ir 3 G).

Savo ruožtu, informacinės sąveikos pagerinimo būtinybę sąlygoja tai, kad: • didelės pastarųjų metų e-verslo investicijos žymiau praturtino sąveikas tik naudojant stalinius kompiuterius

(desktop PC); • vartotojams reikia daugiau sąveikos kanalų bei modų. Tinkamos sąveikos tarp minėtų modų suformavimas turėtų ženkliai įtakoti raktines verslo metrikas

(vartotojų pasitenkinimas bei jų išsaugojimas, informacinio bendravimo našumas) ir prognozuoti bei valdyti verslo konkurentingumą.

Balso technologijos (visų pirma jo atpažinimas - SR = speech recognition) yra kritinis elementas sprendžiant minėtas problemas, o jų reikšmė didės, mažėjant mobilių įtaisų gabaritams. Nuolat auga atpažinimo tikslumas, taip pat auga ir mikroprocesorių našumas. SR pagalba galima apdoroti sudėtingas užklausas, sprendžiant esminius verslo uždavinius.

– 92 –

Balso dialogų raidos analizė

2.2. BDT efektyvumas. Stambiausios informacinių technologijų pramonės įmonės turi įdiegę eilę pavyzdžių, kurie parodo itin aukštus kalbos signalų technologijų ekonominio efektyvumo rodiklius [11]:

• mažėja paslaugų kaina ir auga investicijų grąža; • didėja vartotojų pasitenkinimas paslaugomis; • auga informacinių paslaugų teikėjų darbo našumas; • formuojamos naujos paslaugos (auga finansinės apyvartos). Gartner kompanijos analitikai apskaičiavo, jog 92% vartotojo verslinių santykių atliekama telefonu,

todėl itin svarbus dalykas yra šių santykių automatizavimas, kuo taupomos išlaidos (tipinė sąveikos skambučių centre minutės kaina JAV yra apie $15, o sėkmingai automatizavus krinta iki $0.20), apie 80% vartotojų labiau vertina automatizuotas balso paslaugas, o naujų paslaugų pavyzdžiai vos tik pradeda formuotis.

3 Ekspertų nuomonės ir lyderių programos

3.1 Įtakingų ekspertų nuomonės. Pateiksime pavyzdžius, kaip balso technologijas vertina žmonės, kurių veikla (netgi ir požiūris) jau

aliko pasaulyje ženklų pėdsaką. Buvęs ilgametis kompanijos INTEL vadovas Gordon Moore yra žinomo Mūro dėsnio (jau keleris

dešimtmečius kas dveji metai padvigubėja kompiuterių atminties talpa, tuo pat ir greitis) autorius. Jis pranašauja [12], kad artimiausiais dešimtmečiais balso dialogų technologijos bus barjeras, kurio įveikimas lems pažangą daugelyje sričių.

Visuotinai pripažintas interneto tinklalapių (WWW) technologijos autorius Tim Berners-Lee palygindamas Web’o technologijų ir kalbos signalų atpažinimo technologijų plėtrą, pažymi, kad kalbos signalų technologijų panaudojimas yra itin sudėtingas ir reikia surasti būdus, kaip paruošti vartotojus naujoms technologijoms [13].

Toje pat konferencijoje balso technologijų reikšmę pabrėžė įtakingi politiniai apžvalgininkai J. Carville, M. Matalin (konsultavę buvusį bei dabartinį JAV prezidentus, Anglijos premjerą ir kitus).

Postindustrinės visuomenės vadybos „guru“ Tom Peters (plačiai žinomi jo asmens vertinimai: „ be jo daug JAV kompanijų nebūtų tuo, kuo jos dabar yra“, „mes gyvename Tom Peters pasaulyje“ ir t.t.) tvirtina [14], kad kalbos signalų technologijos yra “revoliuciniai, kvapą užgniaužiantys” įrankiai, kurie turėtų tapti bet kurios veiklos siekiu.

3.2 Informacinių technologijų pramonės lyderių siekiai. Čia remiamasi Intel bei IBM atsakingų atstovų teiginiais. Minėtos kompanijos ruošia esminius kalbos

signalų ir kitų informacinių technologijų infrastruktūros elementus globalia prasme. Intel [15] artimiausiais metais tikisi „skaitmeninės inteligencijos“ plėtros arba (kitais žodžiais)

elektroninių produktų „ humanizavimo“, t.y. siekiama, kad šiais įtaisais būtų galima gerokai lengviau naudotis ir jie būtų ženkliai naudingesni žmogui. Pirmoje eilėje tai siejama su kalbos signalų, ranka rašytų tekstų bei vaizdų atpažinimu. Nors pradiniai produktai gali atrodyti ir labai paprasti (dažnas pastebi, kad galima surasti alternatyvų uždavinio sprendimą jau esamomis priemonėmis), bet jau vien tam reikia perorganizuoti informacinių technologijų pramonės platformas. Panašių pozicijų laikosi ir IBM atstovai [16].

3.3 Kompanijos Microsoft programų analizė. Pastaruoju laikotarpiu Microsoft kompanijos programiniai principai, pateikti valdžios, verslo,

universitetų ir kitose auditorijose, verti atskiros analizės, kadangi jos veikla (milžiniškos išlaidos plėtrai - virš 6.5 milijardo USD 2005 metais, stambūs labdaros fondai) tampa išimtinai reikšminga visuomenine prasme.

Žemiau mes pateikiame balso dialogų reikšmės vertinimus, kurios išreiškė Microsoft vadovas Bill Gates, kalbėdamas įvairiais informacinių (žinių) technologijų plėtros aspektais. Kad parodytume platesnius uždavinius, mes naudojame savas rubrikas jo straipsnių ar pranešimų svarbiausioms mintims išreikšti: “Kas keičia pasaulį”, „Konkurencingumas“, ”Kaip mes dirbsime”, “Kur kreipti investicijas”, “Kurie instrumentai reikšmingesni”, o balso technologijų svarba yra išskleista šių rubrikų viduje autoriaus žodžiais.

Kas keičia pasaulį [17]. Windows Vista ir Office’12’ pristatymo kontekste vertinami pokyčiai pasaulyje ir informacinių technologijų raida. Teigiama, kad programinių priemonių (software) pramonė išaugo iki labiausiai keičiančio pasaulį faktoriaus, nuo ko priklauso kaip atliekamas darbas, kaip pramogaujama ir kaip kinta kitos žmogaus gyvensenos sritys:

• kol kas tai lėmė aparatūriniai pasiekimai (minėtina Intel, AMD veikla), tačiau reikia plėtoti programinius pasiekimus, tokius kaip kalbos signalų atpažinimas, geresnė vizualizacija, ranka rašytų dokumentų įvedimas į kompiuterį, kurie taptų įprastiniais įrankiais.

– 93 –

Algimantas Rudžionis,Vytautas Rudžionis

• dar daug kas samprotauja 90-jų metų pabaigos terminais, kad panašūs dalykai įvyks per naktį. Tačiau dabartinis e-valdžios, e-komercijos pagrindas yra daugybės įtemptų darbo metų ir milžiniškų investicijų inovacijoms pasekmė. Konkurencingumas [18]. Aptariant valstybės vaidmenį, pažymėta, jog strateginiai įrankiai lemia

konkurencingumą, o jų plėtra yra neįmanoma be gerai paruoštos švietimo sistemos. B. Gates maždaug taip apibūdino esamą situaciją ir siektinas ribas:

• dabar turime stalinį asmeninį kompiuterį, portatyvų įrenginį su didoku ekranu ir telefoną kišenėje – taigi visi šie įrenginiai įgis vis daugiau ir daugiau intelekto;

• šie įrenginiai turės tokias savybes kaip rašytinio teksto atpažinimas (rašymas planšetiniame – Tablet PC). Juose bus naudojamas kalbos signalų atpažinimas, todėl daug ką bus galima valdyti balsu, bus susietos kompiuterio ir telefono kitos galimybės.

• taigi programinės priemonės vis labiau viliojančios, mes išleidžiame tyrimams ir plėtrai (R&D) virš 6 milijardų USD, suprasdami, kad kalbos signalų atpažinimas, vaizdų atpažinimas ir kitos sudėtingos problemos - tai sritys, kurias programinės priemonės įveiks. Kaip mes dirbsime [19]. Straipsnyje siekta suformuoti apibendrinimus, kaip kinta darbo pobūdis

pasaulyje, suvokti kaip elgtis kompanijai ir pan. Mūsų problemos prasme minėtini keli teiginiai: • po dviejų dešimtmečių veiklos Microsoft tik pradeda suprasti kaip programinės priemonės padės

žmogui pilniau realizuoti savo potencines galimybes. • žmonės turi turėti vieningą, pilną vaizdinį apie jų komunikacijos galimybes (balsas ar tekstas, bet kur ir

bet kada ir pan.) su paruoštu priėjimu prie tokių priemonių kaip kalbos signalų atpažinimas (speech-to-text) ir mašininis vertimas.

• susiformuos vieningos unifikuotos kompiuterinių ryšių priemonės, besinaudojančios tokiais informacijos prieigos būdais kaip kalbos signalų atpažinimas bei mašininis vertimas iš vienos kalbos į kitą. Kur kreipti investicijas [20]. JAV finansų analitikų konferencijoje buvo aiškinama koks dėmesys

skiriamas kalbos signalų atpažinimo (speech) technologijoms: • šioje srityje mes dirbome itin daug metų ir dabar tik pirmieji metai, kai mes tikrai išleidome produktą su

kalbos signalų atpažinimo panaudojimo galimybėmis; • kalbos signalų atpažinimo vaidmuo vis augs, bet atpažinimo tikslumas žmogaus galimybių lygmenyje

yra dar tolimoje ateityje; • eilė reikalingų proveržių vyksta šiuo metu, taigi daugelis praktiškų dalykų yra visai realūs ir dabar.

Kurie instrumentai reikšmingesni [21]. 2004 kovo mėnesį vyko bendra konferencija mobilių prietaisų, programavimo priemonių ir kalbos signalų technologijų plėtros klausimais. Pirmą kartą viešai buvo demonstruojamas Microsoft kalbos signalų serveris (Microsoft Speech Server). Išvardinsime kai kuriuos argumentus:

• kalbos signalų atpažinimas (kompiuterinių-informacinių sąveikų “šventasis gralis”) yra be galo naudingas kaip viena iš sąveikos su kompiuteriu formų. Netgi asmeniniame kompiuteryje (PC itself), bus kartu naudojama klaviatūros, žymeklio ir kalbos signalų atpažinimo (keyboard, pointing device and speech) kombinacija;

• mobiliuose telefonuose visos žinomos klaviatūrinės sąveikos išliks, bet kalbos signalų atpažinimą (žinoma, jei jis bus pakankamai kokybiškas) vartotojai visada rinksis kaip labiau pageidaujamą;

• mes kuriame ir nuolat tobuliname apie tūkstantį kalbos signalų atpažinimo beta tipo taikymų.

4 Kontaktų centrai ir savitarna Kontaktų centrai (KC) yra bene akivaizdžiausia sritis, kurioje matoma balso technologijų nauda. Labai

svarbu pabrėžti, kad KC tampa pamatiniu informacinio verslo vienetu (prekybos informacija kioskas ar parduotuvė), o BDT yra savitarnos kontaktų centruose pamatas. Paaiškinsime tai kiek plačiau.

4.1 Kontaktų centrų paskirtis Šie centrai (anksčiau jie buvo vadinami skambučių centrais) teikia paties plačiausio pobūdžio

informaciją į tuos centrus besikreipiantiems klientams. Vartotojas, kuriuo nors būdu sužinojęs reikiamą telefono numerį, susisiekia su skambučių centru telefonu, kurio tarnautojas –agentas (live agent) - pateikia reikiamą informaciją arba nukreipia skambutį kitam agentui, kuris gali pateikti reikiamą informaciją. Jei skambučių centruose svarbiausias informacijos pateikimo objektas buvo žmogus, tai moderniuose kontaktų centruose daugumą užklausų aptarnauja automatinės priemonės, o tarnautojams paliekama tik nedidelė dalis sudėtingesnių užduočių.

– 94 –


KC yra tapę reikšminga informacinės pramonės šaka, kurios mastus rodo tokie duomenys: JAV yra virš 50 tūkstančių KC, kuriuose yra arti trijų milijonų agentų darbo vietų, vadinamų AP (agents positions). Švedijoje yra 55 000 AP, o Pietų Afrikos Respublikoje prognuozuojama, kad KC skaičius iki 2008 metų išaugs dvigubai, kur AP sieks apie 70 000.

Nėra požymių, rodančių, kad būtų abejojama KC funkcijų nauda, atvirkščiai, jos vis plečiamos. Tačiau stengiamasi mažinti KC kaštus dviem būdais: a) perkeliant mažiau reikšmingų skambučių apdorojimą į „pigesnes“ šalis (outsourcing); b) įvedant savitarną, t.y. panaudojant naujas technologines priemones, kurios tam tikra prasme pakeičia KC tarnautojus - agentus.

4.2 Savitarna kontaktų centruose Savitarna (naši prekybos forma) ženkliai atpigina informacines paslaugas, o jomis galima pasinaudoti

bet kuriuo metu ir bet kurioje vietoje. Esminiai savitarnos elementai yra vadinamos šnekamosios kalbos (balso) technologijos: atpažinimas, sintezė ir diktoriaus nustatymas pagal jo balsą, kai duomenų prieiga ar pateikimas atliekami kalbos signalų atpažinimo (SR) bei sintezės (TTS) modulių pagalba.

Savitarnos panaudojimo ir jos efektyvumo galimybės yra paremtos ne vien balso technologijų išvystymu, bet ir gerai išaiškintu faktu, kad didžiąją informacinių paslaugų dalį sudaro pakankamai paprastos užklausos, kurias įmanoma automatizuoti. Brangiai kainuojančios žmogaus - operatoriaus paslaugos vidutiniškai užima nedidelę laiko dalį, o gerokai pigesnės automatinės paslaugos dominuoja bendrame laiko balanse.

5 Kiti balso dialogų technologijų panaudojimo pavyzdžiai Mes išskyrėme kontaktų centrus, nes jie yra labai svarbus pamatinis informacinės pramonės vienetas.

Taip pat reikšminga, kad sukurti pirmieji balso serveriai (Microsoft Speech Server, IBM WebSphere Voice Server), kurie keičia situaciją informacinių paslaugų pasaulyje, nes kontaktų centrai tampa prieinamais ir nedidelėms įmonėms.

Telekomunikacinės ar viešojo sektoriaus paslaugos yra tos sritys, kur bene anksčiausiai siekta panaudoti balso technologijas. Šiuo metu jau trečdalyje JAV kontaktų centrų yra naudojamos interaktyvios sąveikos sistemos (IVR), kur vartotojui suteikiama savitarnos galimybė.

Vienok jau įsitikinta BDT panaudojimo nauda įvairiose srityse (automobiliai, švietimas, pramogos, finansai, valdžia, sveikatos apsauga, prekyba, telekomunikacijos, transportas, turizmas, komunalinės paslaugos, prekių transportavimas, sandėliavimas ir pan.).

Lentelėje 1 pateikiamas taikymo pavyzdžių sąvadas, kur siekta aprėpti skirtingas veiklos sferas. Lentelėje yra pateikti šaltinių pavadinimai, nuorodos ir trumpai apibūdinamas naudingas gautas ar tikėtinas rezultatas, kuris dažnai matomas šaltinių pavadinimuose.

Reiktų pabrėžti, kad pozityvūs rezultatai pilniausiai fiksuojami Šiaurės Amerikoje, nes tai paremta išplėtotų technologinių infrastruktūrinių komponentų panaudojimu konkrečių kalbų (US English, US French, US Spanish) atvejais. Daugumoje Europos šalių priimama užjūrio platforma ir plėtojami konkrečiai šaliai svarbūs moduliai.

6 ES FP6 projektai ir veikla Lietuvoje Aukščiau išdėstytų teiginių kontekste naudinga įvertinti Europos Sąjungos šeštosios bendrosios plėtros

programos (Framework Programme 6 – FP6) projektus, kuriuose liečiami kompiuterinių balso dialogų klausimai. Naudotasi tinklalapyje http://www.cordis.lu/fp6/projects.htm pateikta medžiaga, panaudojant raktinį žodį ”speech”. Lentelėje 2 trumpai aprašyta dalis šių projektų, stengiantis pabrėžti taikymo sričių įvairovę.

FP6 projektai yra orientuoti inovacinės pusės akcentavimui, jos informacinei sklaidai paspartinti ir pan., siekiant parodyti, kur verta kreipti investicijas. Tai nėra pramoninių pavyzdžių, bet greičiau jų prototipų, kuriuose pakankamai aiškiai išreikštas naujumas, kūrimas. Čia matoma akivaizdi takoskyra tarp aukščiau minėtų pasaulio lyderių (IBM, Microsoft, Intel) ir panašių siekių Europoje. Pirmuoju atveju didžiausios pastangos skiriamos pamatinių infrastruktūrinių instrumentų (atpažinimo, sintezės metodologija, balso serveriai) plėtotei, o FP6 projektuose dominuoja taikymo klausimai, bet neaišku, ar disponuojama reikiamais baziniais instrumentais.

Paliesime kai kuriuos faktorius, kurie gana reikšmingi šių technologijų plėtrai Lietuvoje. Pirma, Lietuvos vartotojams laipsniškai turi būti parodoma balso technologijų nauda. Šiems

vartotojams jau yra suprantama skambučių centrų (bendros pagalbos telefonas 112, LINTEL tarnyba 118) paskirtis, yra keletas savitarnos paslaugų (OMNITEL – telefonas 1544, BITE ir kiti) pavyzdžių, tačiau visai nėra čia analizuojamų pačių efektyviausių atpažinimu ar sinteze paremtų paslaugų.

Antra, sėkmingos plėtros užtikrinimui, reikia sugebėti adaptuoti bendro pobūdžio priemones ir mokėti tobulinti itin svarbias lietuvių kalbos signalų (balso) atpažinimo bei sintezės komponentes. Šiuo metu perspektyviausi darbai yra sukoncentruoti Valstybinės lietuvių kalbos remiamoje „Lietuvių kalba informacinėje

– 95 –


visuomenėje 2000 – 2006 metais“ programoje. Juos vykdo Kauno technologijos, Vilniaus, Vytauto Didžiojo universitetų, matematikos ir informatikos instituto ir kai kurios kitos grupės. Koordinavimo stoka, ribotas finansavimas yra rimtos problemos.

Trečia, Lietuvos pramonė kol kas pajėgi plėsti tik DTMF priemonėmis paremtus informacinius dialogus. O šios priemonės laikomos pasenusiomis ir net įtvirtinančiomis atsilikusius principus (nejaugi Lietuvos vartotojai turi susitaikyti su tuo, kad ateityje jiems teks mokėti daugiau už panašaus tipo paslaugas, nei kitose šalyse). Neoficialiais duomenimis, pastaruoju metu eilė Lietuvos įmonių pradeda domėtis balso dialogų klausimais. Taigi visapusiško dialogo poreikis auga.

Literatūra [1] James A. Larson. Industry Perspectives and Business Opportunities. ISCA Tutorial and Research & COST278 Final

Workshop “Applied Spoken Language Interaction in Distributed Environments (ASIDE2005)“ November 10 - 11, 2005, Aalborg, Denmark.

[2] G. M. White. Virtual Assistants & Mobile Phones. How Speech Makes the Merger. Speech Technology Magazine. May/June 2005 http://www.speechtechmag.com/issues/9_9/cover/11852-1.html

[3] S. Ehrlich. Wrap It Up.. Speech Technology Magazine. September/October 2003. http://www.speechtechmag.com/issues/8_5/cover/2398-1.html

[4] R.P.Lippmann. " Recognition by Humans and Machines: Miles to Go Before We Sleep // Speech Communication, vol. 18, April 1996.

[5] R. V. Cox, C. A. Kamm, L.R.Rabiner, J. Schroeter, and J. G. Wilpon. Speech and Language Processing for Next-Millenium. // Proceedings of the IEEE, vol. 88, No. 8, August 2000, pp. 1314 – 1337

[6] A.Rudžionis. Pagrindinių kalbos signalų technologijų plėtros ypatumai: atpažinimas. // Garso korta, 2001, Kaunas, Technologija, 2001 (elektroninis leidinys)

[7] Xuedong Huang. Making Speech Mainstream. // July 2003 //http://www.microsoft.com/ speech/docs/HuangSpeechArtfinal.doc

[8] R. K. Moore. Results from a Survey of Attendees at ASRU 1997 and 2003. // in Proc. Interspeech, 2005, pp. 117 -120

[9] P. Kasparaitis, T. Dumbliauskas, A. Rudžionis. Lietuviško sintezatoriaus SAPI sąsaja. // Automatika ir valdymo technologijos, 2003. Kaunas, Technologija, 2003, 45 - 48 p.

[10] R. Maskeliunas, K. Ratkevicius, A. Rudzionis, V. Rudzionis. SALT – markup Language for speech-enabled web pages. Information Technology and Control, Kaunas, Technologija, 2005, No. 2(34), pp. 154 – 162.

[11] The Business Value of Speech. http://www.microsoft.com/ speech/businessvalue/speech/default.mspx [12] D. Berlind. Moore: Speech recognition next hurdle, but a long time away. TechUpdate. July 10, 2002 ,

http://techupdate.zdnet.com/techupdate/stories/main/0,14179,2873890,00.html [13] Tim Berners-Lee. A Head in the Clouds or Hopes on Solid Ground? Speech Technology Magazine.

January/February 2005 vol. 9, no 7 http://www.speechtechmag.com/issues/9_7/cover/11310-1.html [14] Business Icon Tom Peters Tells SpeechTEK West and Service Automation Expo Delegates “It’s Time for Aggressive

Innovation”. Speech Technology Magazine. March 1, 2005 http://speechtek.com/news/newsroom/80-1.html [15] Intel Sees More Natural, Humanized Computing in the Coming Decade; New Tasks Drive Creation of Platforms with

Enhanced Performance and Capabilities. March 03, 2005, http://www.tmcnet.com/usubmit/2005/Mar/1122037.htm [16] J. Huerta, D. Lubensky, D. Nahamoo, R. Pieraccini, T. V. Raman and C. Wiecha. Mainstreaming speech-

enabled Web applications. IBM Pervasive Solutions White Paper. September 2004, http://library.theserverside.com/detail/RES/1114106274_750.html

[17] Remarks by Bill Gates. Microsoft Professional Developers Conference 2005. Los Angeles, California September 13, 2005 http://www.microsoft.com/billgates/speeches/2005/09-13PDC05.asp

[18] Remarks by Bill Gates. Microsoft Government Leaders Forum Americas. Washington, D.C. April 27, 2005, http://www.microsoft.com/billgates/speeches/2005/04-27GLFAmericas.asp

[19] B. Gates. The New World of Work. May 19, 2005, http://www.microsoft.com/mscorp/execmail/2005/05-19newworldofwork.asp

[20] B. Gates. Innovation: Our Most Important Investment. Financial Analyst Meeting 2004 July 29, 2004 http://www.microsoft.com/msft/speech/FY04/GatesFAM2004.mspx

[21] Remarks by Bill Gates. Microsoft Mobile Developers Conference 2004, VSLive! San Francisco 2004 and SpeechTEK Spring 2004. San Francisco, California March 24, 2004 http://www.microsoft.com/billgates/speeches/2004/03-24-VSLive.asp

– 96 –


1 lentelė. Balso (atpažinimas, sintezė) technologijų taikymo pavyzdžiai

Problemų sritis ir nuorodos Panudojimo sfera, nauda etc Atsiskaitymas už komunalines paslaugas E-Pay Leader Expands Consumer Options while Controlling Biller Costs with VoiceXML. http://www.speechtechmag.com/issues/9_7/cover/11304-1.html

Fort Knox bankas (>20 mlrd. USD apyvarta, 700 partnerių) įvedė balsinę – internetinę paslaugą dėl mobilaus atsiskaitymo. Lietuvos žmonės jau įsitikino internetinio atsiskaitymo privalumais.Čia mobilus balsinis telefoninis variantas jau gerokai pranoksta mums žinomą stacionarų internetinį.

Draudimo paslaugų vykdymas Grange Insurance Pumps Premiums With Speech. http://www.speechtechmag.com/issues/9_10/cover/12051-1.html

Draudimo gigantas (Grange Insurance – 7.3 proc. nuo vieno trilijono USD JAV draudimo apyvartos) gauna žymų pelną, panaudodamas kalbos signalų technologijas.

Energetika Pacific Gas & Electric Powers Calls Naturally With Speech. http://www.speechtechmag.com/issues/9_10/cover/12058-1.html

Stambi Kalifornijos kompanija (apie 9 mljn. vartotojų) vysto kontaktus, plėsdama balso technologijas, pateikdama naujų paslaugų pavyzdžius ir nurodydama kai kurias problemas.

Sveikatos sauga Empire Medicare Services Achieves Their Best Performance Level with Speech-Enabled System. http://www.speechtechmag.com/issues/9_10/cover/12049-1.html

Viena stambiausių JAV medicininės priežiūros agentūrų plečia balso technologijų panaudojimą, nes tai leidžia reikšmingai optimizuoti sąveiką su klientais

Transportas Information on the Highway. http://www.speechtechmag.com/issues/6_6/voiceideas/47-1.html

Operatyvus reikiamo transporto tvarkaraščio fragmento suradymas, naudojant balso atpažinimo bei sintezės technologijas jau tapo klasika. Automobilio elementų valdymas balsu ir nelaimių transporte sumažinimas yra dar vienas reikšmingas faktorius.

Stichinių nelaimių prevencija Speech Enables Disaster Recovery Operations. http://www.speechtechmag.com/issues/9_8/cover/11627-1.html

Panašioje medžiagoje fiksuojamas pastovus automatinio žmonių informavimo pagerinimas stichinių nelaimių (tornadai) apimtose JAV srityse.

Prekyba Building Speech-Enabled Self-Service Automation for Seasonal Retail Contact Centers. http://www.speechtechmag.com/issues/9_10/cover/12050-1.html

Prekybos kompanijos pasiekia aukštesnio efektyvumo išplėsdamos kontaktus su klientais sezoninių prekybos nuosmukių periodais.

Švietimas Speech in Education http://www.speechtechmag.com/issues/9_10/cover/12047-1.html

Čia liečiami tik keli reikšmingi faktoriai švietimo srityje (automatizuotas konspektavimas. supaprastintas administravimas, naujos galimybės neįgaliems etc).

Pagalba neįgaliems The Role of Speech in Healthcare. http://www.speechtechmag.com/issues/9_8/cover/11623-1.html

Analizuojamos problemos sveikatos apsaugos srityje ir aptariamos kalbos signalų technologijų galimybės reikšmingai išplečiant didelės grupės neįgaliųjų (aklumas, kurčnebylystė, motorika, autizmas, disleksija, afazija, kvadriplegija ir pan) komunikacines funkcijas.

Valstybės valdymas Speech Technology Gains Ground in Government Services. http://www.speechtechmag.com/pub/6_6/cover/26-1.html

Kontaktų tarp piliečių ir valstybės įstaigų, paslaugų neįgaliems plėtimas, visuomenės saugumo pagerinimas ir kariniai taikymai (įtaisų valdymas balsu esant ekstremalioms perkrovoms, automatinio balsinio vertimo priemonės pasaulio regionuose) yra svarbesni balso technologijų taikymai tradicinėse valstybės priežiūros srityse.

Santykiai tarp kitakalbių žmonių The Global Economy: Translation Software Plays a Key Role in Worldwide Communication. http://www.speechtechmag.com/issues/6_6/cover/28-1.html

Mašininio vertimo derinimas su atpažinimo bei sintezės technologijomis turėtų radikaliai plėsti kitakalbių žmonių bendravimo santykius.

Kriminalistika Bin Laden Speaking http://www.speechtechmag.com/pub/8_1/voiceideas/1584-1.html

Vertinant žinomo teroristo balso autentiškumą, svarbią reikšmę suvaidino kalbos technologijos. Prevencinio faktoriaus reikšmė taip pat yra labai reikšminga.

– 97 –


2 lentelė. ES FP6 projektų trumpa apžvalga.

(čia taip nurodomi ES projektų tipai STREP – Specific Targeted Research Project, IP – Integrated Project, NoE -Networks of Excellence)

Projekto akronimas,

tipas, vykdytojų skaičius, trukmė mėn

Trumpas projekto aprašas (tikslas, uždaviniai ir pan.)

SECUREPHONE STREP, 13, 30

Siekiama sukurti priemones komerciniams kontraktams sudaryti mobilaus telefono pagalba. Biometrinis neinvazinis asmens nustatymas pagal jo balsą (elektroninio parašo forma) yra vienas svarbiausių uždavinių.

HIGHWAY STREP, 10, 30

Siekiama sustiprinti saugius informacinės sąveikos būdus transporto magistralėse (pėstieji, dviratininkai, automobilininkai), derinant kalbos signalų ir lokalizavimo technologijas. Kartu su esafety siekiama pilnesnės ir operatyvesnės informacinės sąveikos

HOPS STREP, 12, 36

Siekiama sudaryti kuo platesnes galimybes, kad balso pagalba (visais galimais telefoninio ryšio įtaisais) būtų galima kreiptis į artimiausią viešo administravimo tarnybą , suintegruojant atpažinimo, sintezės, kalbos apdorojimo, bei semantines Web’o technologijas.

SAFIR IP, 23, 48

Siekiama panašių kaip praeitame projekte uždavinių (egov ir epay informacinė sąveika) , bet žymiai platesnės Europos kontekste. Skiriami, nekvalifikuoti vartotojai, specialios brigades (gaisrininkai, policija ir pan), daugiakalbiškumo bei multimodalumo aspektai.

SIMILAR NoE, 32, 48

Siekiama patobulinti multimodalinės sąveikos būdus, apjungiant balsu, žestais, lytėjimu, smegenų signalais pateikiamas informacijos formas. Vienas orientyrų yra šių priemonių panaudojimas, kai atskiri informaciniai kanalai yra apriboti (neįgalieji, chirurginės operacinės).

HEARCOM IP, 27, derinama

Siekiama rekonstruoti informacinės sąveikos balsu galimybes (klausos negalios, bloga akustinė aplinka ir pan.). Suburti labai įvairaus profilio vykdytojai (universitetai, klinikos, tyrėjai, vartotojai, balso įtaisų, telekomunikacijų, interneto gamintojai), tikintis suformuoti paneuropinę panaudojimo schemą didesnių Europos kalbų pavyzdžiu.

TC-STAR IP,12,36

Siekiama apjungti 3 kone painiausias technologijas – atpažinimas, sintezė ir mašininis vertimas – taip, kad vartotojo ištarta frazė būtų paversta kitos kalbos balsu, o kita kalba tariama frazė būtų girdima vartotojo kalba. Tikimasi paruošti pradinį variantą, paremtą anglų, ispanų ir kiniečių kalbų panaudojimu.

AUBADE STREP, 15, 24

Siekiama implantantų (wearable) pagalba nuolat stebėti (balso netolygumai, veido išraiška ir pan) ir atpažinti asmens emocinę būseną depresijos ar kitos įtampos požiūriu, prognozuojant sveikatos sutrikimus..

HIWIRE STREP, 8, 36

Kuriami reikiami dialogai su prietaisais lakūno kabinoje, tobulinama sąveika balsu aeronautikoje, naudojant delninukus ir kitus mobilius įtaisus.

AGAMEMNON STREP, 6, 30

Stengiamasi išnaudoti balso dialogų galimybes, derinant juos su 3G mobiliais įtaisais, kuriant individualizuotas muziejų bei archeologinių paminklų lankymo paslaugas (lankytojo preferencijos, dinaminis maršruto valdymas, santykiai su administracija ir pan.).

AMI IP, 15, 36

JAST IP, 6, derinama

PASCAL NoE, 56, 48

Tai vieni stambiausių kompleksinių projektų, kuriuose dominuoja kalbinių balso dialogų plėtra ir jų derinimas su kitomis informacinės sąveikos formomis. AMI atveju daugiau akcentuojamas daugiakalbiškumas, multimodalumas bei jų dinamika, JAST- vartotojo autonomijos, verbalinės ir kitų informacijos struktūrų klausimai. Projektą PASCAL vykdo 56 ES šalių institucijos, siekdamos kalbos atpažinimą subalansuoti su vizualia, lytėjimo ir kita informacija.

ANALYSIS OF VOICE BASED TELEPHONE DIALOGUES DEVELOPMENT

Tendencies of the development of automated voice based telephone dialogues (speech signal processing) in recent years are analyzed. Motivation for the AVBTD implementation is emphasized. Importance of the use of AVBDT in modern contact centers is presented as well as the importance of informative self-service technologies is shown. Examples of successfull AVBDT implementationare presented.EU FP, projects related to the voice based telephone dialogues are discussed. Problems of VBTD technologies development in Lithuania are discussed.

– 98 –

DUSLIŲJŲ SPROGSTAMŲJŲ PRIEBALSIŲ POŽYMIŲ TYRIMAI

Arimantas Raškinis, Sigita Dereškevičiūtė Vytauto Didžiojo universitetas

Darbas skirtas požymių, reikalingų automatiniam šnekos atpažinimui, paieškai ir tyrimui. Sprogstamieji priebalsiai užima ypatingą vietą tarp kitų kalbos garsų, nes jų sprogstamosios dalys yra trumpiausi elementai visoje kalbos garsų sistemoje.

Pranešime pristatoma metodika, kurią naudojant anotuotame lietuvių šnekos garsyne galima automatiškai tiksliai nustatyti minėtų priebalsių sprogstamąsias dalis, pateikiami tų dalių fonogramų specifikos tyrimų rezultatai, suformuluojama hipotezė, kad dusliųjų sprogstamųjų priebalsių fonogramoje matomą periodinių svyravimų dažnį lemia po jų einančio balsio antrosios

formantės dažnis.

1 Darbo tikslas Šnekos technologijos – viena sparčiausiai besivystančių informacinių technologijų sritis. Šnekos

fonetinius vienetus charakterizuojančių požymių paieška ir tyrimas tebelieka labai aktualia šios srities tyrinėjimų kryptimi. Sprogstamųjų priebalsių tyrimai ypač aktualūs dėl šių priebalsių specifikos: sprogimas, kuriame glūdi pagrindinė, jį nusakanti akustinė informacija, yra trumpas. Todėl gana sunku nustatyti, kuriuose sprogimo elementuose slypi požymiai, leidžiantys atskirti vienus priebalsius nuo kitų: ar tai išryškina spektras, ar pats sprogimo signalo kitimas laike. O ir patys spektro tyrimo metodai nėra pakankamai tikslūs – užsienio autorių (Blumstein [1], Esposito [2, 3]) pateikiami duomenys skiriasi, o kartais yra net priešingi. Tačiau darbų, kuriuose būtų tiriama priebalsių signalų sprogstamosios dalies onfigūracija, iš viso sunku rasti.

Todėl šio darbo pagrindinis tikslas ir yra ištirti dusliųjų sprogstamųjų priebalsių ypatybes ir patikrinti hipotezę, kad kiekvieno sprogstamojo priebalsio amplitudžių kitimo pavidalas gali būti individualus.

2 Tyrimo duomenys ir metodika Eksperimentui pasirinkti 6 duslieji sprogstamieji priebalsiai, tarpusavyje besiskiriantys artikuliacijos

vieta: abilūpiai [p], [p′], liežuvio priešakiniai dantiniai [t], [t′] ir gomuriniai [k], [k′] ir vartojami prieš balsius. Darbe analizuojami tiek kietieji, tiek minkštieji priebalsiai, todėl atrinkti atitinkami ir tolesni balsiai, t. y. tyrinėjamos priebalsių akustinės ypatybės prieš užpakalinės eilės [a], [o], [u] ir priešakinės eilės [ė], [e], [i] balsius. Kadangi sprogstamųjų priebalsių pradžiai būdingas tylos momentas, tai atsižvelgta tik į po jo einantį balsį, t. y. nagrinėjama akustinė struktūra PB (priebalsis,balsis).

Siekiant reprezentatyvesnių rezultatų, tyrimui parinkti 4 diktorių (2 moterų ir 2 vyrų) įrašai, kurie įtraukti į VDU-ISO4 garsyną. Todėl analizuojami 2008keturių diktorių variantai.

Siekiant patvirtinti arba paneigti hipotezę, jog pats priebalsio signalas išryškina kokius nors jam būdingus svyravimo požymius, iš pradžių analizuotos VDU fonetinių vienetų atlase (Kazlauskiene [4]) pateikiamos oscilogramos. Tačiau dėl itin trumpos sprogstamojo elemento atkarpos įžvelgti dėsningumų nebuvo įmanoma. Todėl šiame darbe pasinaudota Vytautoto Didžiojo universitete paruoštu garsynu, VDU-ISO4 skirtu lietuvių kalbos technologijų tyrimams atlikti (Raškinis [5]). Tyrimams buvo naudojama šnekos analizės programinė įranga PRAAT (4.3.12 versija) [6].

Atlikus preliminarius spektrinių ypatybių tyrimus, kuriais siekta nustatyti, ar turi įtakos priebalsio sprogstamosios dalies tikslus iškirpimas, nustatyta, jog automatinis atkarpos iškarpymo būdas leidžia gauti palyginti gerus rezultatus. Todėl, remiantis ta pačia PRAAT programa, buvo suprogramuotos procedūros, skirtos automatinei VDU garsyno sprogstamųjų priebalsių signalų analizei.

3 Dusliųjų sprogstamųjų priebalsių tyrimai Artikuliuojant dusliuosius sprogtamuosius priebalsius, besiskverbiantis oras sukelia neperiodinius

virpesius, panašius į triukšmą ar trenksmą.Žinant, kad analizuojami priebalsiai skiriasi kalbos padarbų sudarytos kliūties vieta, galima tikėtis, jog oras, skverbdamasis pro skirtingas kliūtis sukelia kitokius pobūdžio neperiodinius virpesius, tačiau būdingus tos pačios grupės garsams. Todėl automatizuotai išrinkti iš garsyno įvairiūs duslieji sprogstamieji priebalsiai vizualiai dar buvo peržiūrimi ir bandoma formuluoti hipotezes dėl jų specifinių požymių, kad vėliau tų požymių būtų galima ieškoti, pasitelkiant matematinius metodus.

Jau pirmieji stebėjimai parodė, jog sprogstamųjų priebalsių oscilogramos pavidalas labai priklauso nuo to, koks balsis yra tariamas po jų.Kad tyrimas būtų tikslesnis, jį suskaidėme į du etapus. Pirmajame etape buvo tyrinėjama dusliųjų sprogstamųjų priebalsių forma: parenkamas fiksuotas balsio kontekstas bei ieškoma požymių, leidžiančių priebalsius atskirti tarpusavyje vienas nuo kito. Antrajame etape tyrinėjama, kokią įtaką oscilogramos pavidalui daro tolesnis balsis bei ieškoma požymių, leidžiančių identifikuoti, koks balsis eina po sprogstamojo priebalsio.

– 99 –

Arimantas Raškinis, Sigita Dereškevičiūtė

3.1 Charakteringų oscilogramų ypatybių tyrimas Charakteringoms oscilogramų ypatybėms tirti buvo pasirinktas [a] balsio kontekstas, nes garsyne VDU-

ISO4 sprogstamųjų su tokiu kontekstu buvo daugiausiai: [ka] – 66, [ta] – 68, [pa] – 41 vieno diktoriaus. Visos fonogramos buvo iškarpomos automatiškai ir pateikiamos vienodo dydžio lange (0,02 sek) bei tuo pačiu mąsteliu.

2–4 paveikslėliuose pateikiamos būdingosios visų trijų dusliųjų sprogstamųjų priebalsių (k, t, p) fonogramų iliustracijos ir apibendrinti ypatybių aprašymai.

2 pav. Priebalsio [k] sprogstamoji dalis balsio [a] kontekste iškirpta iš žodžių „kapai“, „kasa“, „alkanas“

2 pav. pateiktos iliustracijos atskleidžia charakteringą [k] sprogimo savybę: jis sudarytas iš dviejų ar trijų periodinio svyravimo pliūpsnių su dekrementiškai mažėjančia svyravimų amplitude. Iš oscilogramų taip pat matyti, kad priebalsio [k] pirmasis sprogimo pliūpsnis dažniausiai yra mažesnis, po kurio eina didesnio intensyvumo pliūpsnis.

3 pav. Priebalsio [t] sprogstamoji dalis balsio [a] kontekste iškirpta iš žodžių „paltas“, „diktantas“, „alpsta“

Skirtingai nuo priebalsio [k], priebalsio [t] (3 pav.) signalo sprogimo elementai nėra tokie taisyklingi – juose nėra sprogimo pliūpsnių. Tačiau čia galima matyti kitą požymį: jie sudaryti iš nereguliariai išsidėsčiusių didelės amplitudės ir mažos trukmės impulsų sekos, kuri "užsikloja" ant nedidelės amplitudės, bet didesnio dažnio, nei patys impulsai, triukšmo.

– 100 –

Dusliųjų sprogstamųjų priebalsių požymių tyrimai

4 pav. Priebalsio [p] sprogstamoji dalis balsio [a] kontekste iškirpta iš žodžių „kapas“, „kampas“, „padėkok“

Priebalsio [p] sprogimui būdinga jau ne impulsų seka, o vienas ar keli didelės amplitudės impulsai, kylantys daug lėčiau ir su dideliais nuokrypiais kintančios dedamosios fone (žr. 4 pav.). Nors priebalsius [t] ir [p] sunkiau diferencijuoti, matyti, kad priebalsio [t] signalo amplitudės išsidėsčiusios didesnio triukšmo fone nei priebalsio [p].

3.2 Balsinio konteksto tyrimas Pirmojo etapo eksperimentų metu nustatytas dėsningumas, jog priebalsio [k] pliūpsnių svyravimai yra

periodiški, bet neišsibarstę bet kokia tvarka. Tuo paprastai pasižymi visi duslieji priebalsiai. Todėl kyla klausimas, kas gi lemia tų periodinių svyravimų dažnį. Tyrimo metu pastebėta, kad šio priebalsio pliūpsnių svyravimai nėra vienodi, kad jų dažnis priklauso nuo to, koks balsis eina po sprogstamojo priebalsio, svyravimų dažniai apytikriai atitinka po jo einančio balsio antrosios formantės (F2) dažnius. Norint detaliau patikrinti šią hipotezę, buvo paskirtas antrasis tyrimų etapas. 5–10 paveikslėliuose pateikiami priebalsio [k] signalai prieš visus šešis balsis [u], [o], [a], [e], [ė], [i]. Paveikslėliai išdėstyti didėjančio pliūpsnių svyravimų dažnių tvarka. Tą pačią F2 didėjimo tvarką nurodo ir balsių F2 tyrimų duomenys.

5 pav. Priebalsio [k] sprogstamoji dalis balsio [u] kontekste iškirpta iš žodžio „tankus“

6 pav. Priebalsio [k] sprogstamoji dalis balsio [o] kontekste iškirpta iš žodžio „ieško“

7 pav. Priebalsio [k] sprogstamoji dalis balsio [a] kontekste iškirpta iš žodžio „kapai“

– 101 –

Arimantas Raškinis, Sigita Dereškevičiūtė

8 pav. Priebalsio [k] sprogstamoji dalis balsio [e] kontekste iškirpta iš žodžio „keltą“

9 pav. Priebalsio [k] sprogstamoji dalis balsio [ė] kontekste iškirpta iš žodžio „kaukė“

10 pav. Priebalsio [k] sprogstamoji dalis balsio [i] kontekste iškirpta iš žodžio „tanki“

Žinant periodų skaičių ir signalo trukmę, galima suskaičiuoti ir signalo dažnį (F = 1/T). Suskaičiavus šio priebalsio signalo svyravimus (moters diktorės su balsi [a] žr. 7 pav.), gaunama reikšmė apytikriai lygi 1600 Hz (32 / 0,02 s). Kai priebalsis vartojamas prieš priešakinės eilės balsį [i] (balsiui būdingas aukštas tembras, žr. 10 pav.), jo signalo iliustracijoje matyti, kad tuo pačiu laiku įvyksta maždaug dvigubai daugiau svyravimų nei prieš balsį [a]. Atitinkamai ir dažnis yra dvigubai didesnis (2400 Hz). Kaip nurodo A. Pakerys [7], šie skaičiai beveik atspindi ilgųjų balsių [a] ir [i] F2 dažnių reikšmes 1500 Hz ir 2300 Hz atitinkamai.

1 lentelė. Balsių F1 ir F2 dažniai [8]

Balsis F1 F2 [u] 200–300 500–900 [o] 400–700 700–1000 [a] 500–1000 1000 1700 [e] 400–700 1700–2200 [i] 200–300 2000–3000

Apibendrinti anglų kalbos formančių duomenys pateikti 1 lentelėje. A. Pakerys [7] savo lentelėje

pateikia tik ilgųjų balsių formančių reikšmių vidurkius, o kurie taip pat atitinka 1 lentelės rezultatus. Todėl galima teigti, jog tyrimo metu gautas geras sprogimų pliūpsnių dažnio ir po priebalsio einančio balsio F2 dažnio atitikimas.

Kad priebalsis [k] yra moduliuojamas po jo einančio balsio antrosios formantės dažniu, rodo ir skaičiavimų rezultatai, atlikti ir prieš kitus balsius. Sukačiavus pliūpsnių dažnius balsių [u], [o], [ė], bei [e] kontekstuose, gaunamos dažnių reikšmės apytikriai lygios atitinkamai: 800 Hz, 700 Hz, 2700 Hz bei 2500 Hz. Tai beveik atitinka balsių antrųjų formančių dažnių reikšmes.

Iš oscilogramų tyrimų yra aišku, jog tikslinga šiuos tyrimus tęsti, reikėtų labiau diferencijuoti balsius bei taikyti spektro tyrimo metodus. Buvo atlikti ir preliminarūs sprogstamųjų priebalsių spektrų tyrimai. Gauti rerzultatai iš esmės patvirtino hipotezę apie pliūpsnių dažnio ir kontekstinio balsio antrosios formantės F2 priklausomybę.

4 Išvados Priebalsio [k] sprogimui būdingi du ar trys vienas po kito einantys pliūpsniai, sudaryti iš periodiškų,

mažėjančios amplitudės svyravimų. Pastebėta, kad svyravimų dažnis apytikriai atitinka balsio, einančio po [k], antrosios formantės (F2) dažnį.

Priebalsio [t] sprogimui būdinga tai, kad jis sudarytas iš nereguliariai išsidėsčiusių didelės amplitudės ir mažos trukmės impulsų sekos.

– 102 –

Dusliųjų sprogstamųjų priebalsių požymių tyrimai

Priebalsio [p] sprogimui būdinga jau ne impulsų seka, o vienas ar keli didelės amplitudės impulsai, einantys daug lėčiau kintamos dedamosios fone.

Literatūra [1] S. E. Blumstein, K. N. Stevens. Acoustic invariance in speech production: Evidence from measurements of the

spectral characteristics of stop consonants. J. Acoustical Society of America, 1979, p. 66. [2] A. Esposito. The amplitude of the peaks in the spectrum: data from [a] context. In Kokkinakis G. (ed), Proceeding of

EUROSPEECH97, University of Patras, 1997, vol 1, p. 1015-1018. [3] A. Esposito, M. Di. Benedetto. Acoustic analysis and perception of classes of sound (vowels and consonants).

Speech processing, recognition and artificial neural networks. London: Springer-Verlag, 1999, p. 54-84. [4] A. Kazlauskienė, A. Raškinis, G. Raškinis. Fonetinių vienetų atlasas (minimalus universalus rinkinys). Kaunas:

Vytauto Didžiojo universitetas, 2001. [5] A. Raškinis, G. Raškinis, A. Kazlauskienė. Universal Annotated VDU Lithuanian Speech Corpus. Proceedings of

the conference “Information Technologies 2003”, 2003, P. IX 28-34, KTU, Kaunas (in Lithuanian). [6] S. Wood. Praat for Beginners, 2005 – http://www.ling.lu.se/persons/Sidney/praate/frames.html. [7] A. Pakerys. Lietuvių bendrinės kalbos fonetika. Vilnius: Eciklopedija, 2003, p. 45 [8] M. Clark. Spectograph Frequencies. - http://www.vocalist.org.uk/frequencies.html The acoustical analysis of the features of the voiceless stop consonants from the phonograms

The aim of the work is to search and to analyze the attributes, needed for automatic speech recognition. Stop consonant plays an important role among other sounds because of its burst elements’ feature - being the shortest sound in the whole speech system.

In this paper it is represented: the procedure on which basis it was possible to extract automatically the exact burst parts of the stop consonants; the specific phonogram analysis of those burst parts; and it is hypothesized that the frequency of the periodic oscillations of the voiceless stop consonant depends on the second formant of the following vowel.

STATISTINIAI, LOGINIAI IR KOMPIUTERIŲ MOKYMOSI METODAI LIETUVIŲ KALBOS MORFOLOGINIAM DAUGIAREIKŠMIŠKUMUI

RIBOTI

Erika Rimkutė1, Gintarė Grigonytė2 1Vytauto Didžiojo universitetas, 2Kauno technologijos universitetas

Straipsnyje pristatysime naudotus būdus lietuvių kalbos morfologiniam daugiareikšmiškumui riboti: statistinius, loginius ir kompiuterių mokymosi metodus. Parodysime, kaip naudojant šiuos metodus galima automatiškai vienareikšminti

morfologiškai daugiareikšmes formas, pvz., laimės (tai gali būti ir daiktavardžio, ir veiksmažodžio forma). Atsižvelgiant į sakinio kontekstą, parenkama viena labiausiai tinkama žodžio forma. Aptarsime morfologinio daugiareikšmiškumo ribojimo

problemas ir darbo rezultatus.

1 Įvadas Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre yra sudarytas 1 mln. žodžių apimties

morfologiškai anotuotas tekstynas. Plačiau apie anotuotą tekstyną (toliau žymima MAT) žr. 2 skyrių ir [10]. Tvarkant MAT-ą išryškėjo didelis lietuvių kalbos morfologinis daugiareikšmiškumas (toliau žymima MD) – beveik pusė lietuvių kalbos žodžių yra morfologiškai daugiareikšmiai. Šiai problemai spręsti buvo naudoti įvairūs metodai (žr. 3.2.1 skyrių). Vienas iš paskutinių metodų lietuvių kalbos MD-ui riboti yra kompiuterių mokymosi metodas, kuris išsamiau aptartas 3.2.2 skyriuje.

2 Morfologiškai anotuotas lietuvių kalbos tekstynas MAT-o rengimas prasidėjo apie 2000 m. ir buvo baigtas 2005 m. pradžioje, visas tvarkymas truko apie

ketverius metus (2000–2003 m. MAT-o regimą rėmė Valstybinė lietuvių kalbos komisija). Tvarkymo procesas buvo gana ilgas, nes rankiniu būdu buvo peržiūrimi suanotuoti failai, panaikinamos daugiareikšmės lemos ir morfologinės pažymos, pateikiama informacija neatpažintiems žodžiams.

Lietuvių kalbos MAT sudarytas pusiau automatiškai: naudota Vytauto Zinkevičiaus sukurta kompiuterinė programa Lemuoklis, pateikianti visas galimas lemas ir morfologines pažymas [9]. Galima skirti tris pagrindinius automatinės morfologinės analizės etapus: pirmiausiai grynas tekstas lemuojamas – pateikiama tekstyne pavartoto žodžio antraštinė forma, t. y. lema (pvz., daiktavardis namas, prieveiksmis namo, būdvardis tikslus, veiksmažodis daryti ir pan.). Antrojo etapo metu gali būti pateiktos žodžio formos morfologinės pažymos (pvz.: namo – vyriškosios giminės daiktavardžio vienaskaitos kilmininkas; tikslų – nelyginamojo laipsnio neįvardžiuotinio vyriškosios giminės būdvardžio vienaskaitos galininkas (lema tikslus) ir vyriškosios giminės daiktavardžio daugiskaitos kilmininkas (lema tikslas)). Tolesnis etapas – kelių antraštinius pavidalus turinčių žodžių nustatymas, t. y. vienareikšminama (pvz., forma laisvės gali būti sulemuota ir kaip laisvė, ir kaip laisvėti). Tam tikslui reikalinga speciali programa, kurios pagrindinė funkcija būtų dviprasmybių panaikinimas (angliškas terminas – ambiguity resolution) [9, 6]. Dabartinėje Lemuoklio versijoje nėra įdiegta vienareikšminimo funkcija, todėl reikia kurti atskiras MD-ą ribojančias programas.

1 paveiksle matyti visas MAT-o sudarymo ir tvarkymo procesas. Kaip jau rašyta, lemas ir morfologines pažymas kiekvienam žodžiui ar jo formai pateikdavo morfologinis analizatorius Lemuoklis. Ši programa sudaryta iš leksikono, kuris susideda maždaug iš 70 000 šaknų ir skaitmeninių kaitybos bei darybos modelių. Tai reiškia, kad analizuojant konkrečią žodžių formą, nustatoma, kokia tai šaknis ir koks kaitybos ar darybos modelis, t. y. kiekvienas žodis išskaidomas į šaknį ir kaitybinius ar darybinius afiksus, o ne analizuojamas kaip atskiras vienetas. Tada pateikiamas rezultatas, t. y. lema bei atitinkama morfologinė informacija.

Tolesnis MAT-o tvarkymo etapas – rankinis daugiareikšmių lemų ir žodžių formų vienareikšminimas. Po to galutinai sutvarkyti tekstai sugeneruojami į XML formatą ir dar kartą peržiūrimi lingvisto, nes perkeliant anotuotą tekstą į šį formatą ne visos pažymos tiksliai pateikiamos. Taigi galutinį MAT-o pavidalą sudaro XML failai, kuriuose yra 1 012 673 žodžiai.

1 pav. Morfologiškai anotuoto tekstyno sudarymo ir tvarkymo etapai

– 104 –

Statistiniai, loginiai ir kompiuterių mokymosi metodai lietuvių kalbos morfologiniam daugiareikšmiškumui riboti

3 Morfologinis daugiareikšmiškumas ir jo ribojimas

3.1 Morfologinio daugiareikšmiškumo atsiradimo priežastys Tvarkant morfologiškai anotuotus tekstus pastebėtas dažnas MD. MAT-e 47 proc. žodžių yra

morfologiškai daugiareikšmiai, 42 proc. – vienareikšmiai, o 11 proc. – visiškai morfologinio analizatoriaus neatpažinti žodžiai (plačiau apie MD-ą žr. [7]).

Kai kurie MD-o atvejai atsirado dėl Lemuoklio specifikos. Automatinės morfologinės lietuvių kalbos analizės programa neatsižvelgia į kontekstą. Lemuoklyje taip pat nėra įdiegta informacijos apie semantiką. Žodžių reikšmės nustatomos ne naudojantis kokiais nors žodžių formų sąrašais su nurodytais tų formų morfologiniais apibūdinimais, o turint lietuviškų žodžių šaknų sąrašą. Prie kiekvienos šaknies nurodomi atitinkami skaitmeniniai kaitybos ir darybos modeliai. V. Zinkevičiaus sukurtoje programoje taip pat nėra informacijos apie žodžių ar žodžių formų dažnines charakteristikas. Iš Lemuoklio apdorotų tekstų išryškėja MD dar ir dėl tos priežasties, kad analizuojamos rašytinės, be kirčio ženklų žodžių formos, pvz.: vienas gėlės žiedas vs. gėlės buvo apvytusios.

Dėl to, kad neanalizuojamas kontekstas, atsiranda tokių daugiareikšmiškumo atvejų, kurie atrodo visiškai nerealūs, pavyzdžiui, daiktavardžiai padarytis, kokis. Pirmasis žodis sugeneruotas kaip mažybinis daiktavardis (iš padaras), antrasis yra nebevartojamas, bet Dabartinės lietuvių kalbos žodyne pateiktas žodis. Taigi MD-o atsiranda dėl to, kad žodynuose yra pateikiami dabartinėje lietuvių kalboje nebevartojami žodžiai, kurie yra įtraukti į Lemuoklio leksikos duomenų bazę, ir šių žodžių tam tikros formos sutampa su dažnai vartojamais žodžiais (pvz., nevartojamas žodis kokis, reiškiantis „kokybė“, sutampa su dažnai tekstuose pasitaikančio įvardžio koks forma kokio), taip pat dėl to, kad žodynuose nėra aišku, kurios formos yra darybinės, o kurios kaitybinės (pvz., žodynuose nėra pateikiami deminutyvai, todėl jie yra generuojami automatiškai iš visų daiktavardžių. Dėl šios priežasties buvo sugeneruotas nerealusis daiktavardis padarytis, kurio vienaskaitos šauksmininkas sutampa su dažnai vartojama bendratimi padaryti).

3.2 Morfologinio daugiareikšmiškumo ribojimas Ribojant MD-ą taikomi įvairūs metodai. Vienokios priemonės taikomos mažinant lemų, kitokios –

morfologinių pažymų daugiareikšmiškumą. Tobulinant automatinę morfologinę lietuvių kalbos analizę, svarbu papildyti Lemuoklio leksikos bazę, ypač naujažodžiais ir sudurtiniais žodžiais. Lietuvių kalbos žodžius reikėtų suskirstyti į smulkesnes klases; taip pat reikėtų pakeisti kompiuterines žinias apie lietuvių kalbos darybą bei kaitybą, pvz., iš kokių žodžių daryti deminutyvai, kokioms formoms būdingi priešdėliniai vediniai ir pan. Taip pat svarbu nuosekliai aprašyti kai kurias kalbos dalis, gramatines kategorijas, nes tai padės išvengti daugiareikšmiškumo, atsirandančio dėl netikslių kalbinių formuluočių, neaiškiai apibrėžtų gramatinių požymių

Kitų kalbų lemavimo nevienareikšmiškumas dažnai išsprendžiamas ar sumažinamas statistiniais tikimybiniais metodais, panaudojus duomenis apie leksemų ir/ar morfologinių reikšmių vartosenos dažnius. Lietuvių kalbos morfologiniame analizatoriuje tokie problemos sprendimo metodai nenaudojami dėl to, kad labai trūksta informacijos apie lietuvių kalbos morfologinių reikšmių dažnines charakteristikas. Be to, vien žodžių morfologinių formų vartosenos dažninių charakteristikų žymėjimas ortografinio homonimiškumo sukeliamų lemavimo problemų neišspręs, pavyzdžiui, kalba kaip daiktavardžio forma (pvz., lietuvių kalbà) yra gerokai dažnesnė už veiksmažodinę (pvz., kai kurie Lietuvos politikai nuolat kal̃ba absurdus). Be gilesnės konteksto analizės vis tiek negalima vienareikšmiškai nuspręsti, ar kalba tekste yra veiksmažodžio, ar daiktavardžio forma [9].

Lietuvių kalbos MD pradėtas riboti visai neseniai, rezultatai aptarti tolesniuose skyriuose.

3.2.1 Statistiniai ir loginiai morfologinio daugiareikšmiškumo ribojimo metodai Pirmieji lietuvių kalbai taikyti MD-o ribojimo metodai buvo statistiniai. Šie metodai yra pagrįsti kalbos

dalių sekų modelio kūrimu ir jo naudojimu žodžių sekai vienareikšminti. Kuriant kalbos modelį naudojamas eksperto morfologiškai anotuotas tekstas. Kalbos modelis koduojamas kaip skirtingų kalbos darinių tikimybių aibė. Statistinis išmokimas pateikiamas bigramų ir trigramų aibe, t. y. konkrečios n ilgio sekos tikimybė apskaičiuojama pagal sekos pasitaikymo tekstyne dažnumą. Kai turimos apskaičiuotos bigramų ir trigramų tikimybės, nauji pavyzdžiai vienareikšminami pasirenkant morfologinių pažymų seką, turinčią didžiausią tikimybę [1].

2001 m. pradėti tyrimai, kaip automatiškai riboti lietuvių kalbos MD-ą. Tam buvo naudojami algoritmai, paremti HMM. Šių modelių tikslas yra apskaičiuoti žodžio morfologinių pažymų sekos tikimybę, t. y. surasti tikėtiniausią pažymų seką. Iš pradžių taikant HMM, daugiareikšmiškumo uždavinys buvo sprendžiamas iš dalies: bandyta nustatyti tik kalbos dalį, nenagrinėjant kitų morfologinių pažymų. Naudotas Viterbi algoritmas, pagrįstas prielaida, kad kalbos dalis priklauso tik nuo prieš tai buvusios kalbos dalies (bigramų atveju; trigramų atveju – nuo dviejų prieš tai buvusių kalbos dalių), t. y. nepriklauso nuo visos kalbos

– 105 –

Erika Rimkutė, Gintarė Grigonytė

dalių sekos. Tokiais metodais iš kelių galimų Lemuoklio nurodytų kalbos dalių nustatoma viena. Atlikus šią analizę pasiektas apytiksliai 85 proc. efektyvumas [3, 4]. Tiesa, toks daugiareikšmių formų sumažinimo procentas pasiektas įskaitant daugiau negu 50 proc. vienareikšmių kalbos dalių ar žodžių formų.

Pastebėta, kad šis MD-o ribojimo metodas turi kai kurių trūkumų. Pavyzdžiui, analizuojant mor-fologiškai daugiareikšmių formų kontekstą matyti, kad kalbos dalis gali priklausyti ne tik nuo prieš tai buvusios kalbos dalies (ar nuo dviejų kalbos dalių), bet daugiareikšmio žodžio ar žodžio formos ribojimą nulemiantis žodis gali būti nutolęs per daugiau kalbinių vienetų ir prieš tą žodį/žodžio formą, ir po jo. Taigi norint nustatyti teisingus žodžių ryšius reikia analizuoti platesnį kontekstą; neužtenka apsiriboti tik dviem ar trim kalbiniais vienetais.

V. Griciūtės ir G. Pajarskaitės sukurtoje vienareikšminimo sistemoje pritaikius Viterbi algoritmą ran-dama tikėtiniausia sakinį atitinkanti kalbos dalių seka. Jei pasitaiko vienareikšminimo klaidų, sunku rasti ir pašalinti priežastį, dėl kurios atsiranda klaidų. Be to, HMM analizė buvo pritaikyta nustatant tik kalbos dalį, bet negali padėti išspręsti tų atvejų, kai nurodomos kelios morfologinės pažymos, nors pateikiama tik viena lema, pvz., minėtas metodas neapėmė linksnių sinkretizmo, sutampančių veiksmažodžių formų ir pan.

Vėliau (nuo 2002 m.) lietuvių kalbos MD-ui riboti imti taikyti ne tik statistiniai, bet ir kompiuterių loginio mokymosi metodai. Statistiniai metodai skyrėsi nuo anksčiau naudotų. Pirmasis statistinio MD-o sprendimo etapas – morfologinių pažymų modelių sukūrimas. Mokymosi etape naudotas 850 tūkst. žodžių apimties eksperto anotuotas tekstynas. Pašalinus konkrečius žodžius, palikus tik pažymų sekas, kurti pažymų modeliai (plačiau žr. [1]).

Kaip loginis MD-o ribojimo metodas panaudotas ID3 algoritmas (plačiau žr. [8, 1]). Pasirinktas algoritmas sukuria medžius, kurie gana nesudėtingai gali būti perrašomi į taisyklių aibę. Sakiniuose ieškoma atskirų vienareikšminimo požymių kiekvienam daugiareikšmiškumo tipui. Naudojant minėtą algoritmą, atrenkami geriausiai daugiareikšmes formas klasifikuojantys požymiai ir iš jų sukuriami neretai sudėtingos struktūros MD-o sprendimo medžiai.

Pagrindinis ID3 algoritmo veikimo principas yra toks: surandama vienareikšminimo požymį geriausiai klasifikuojanti mokymo imtis (nagrinėjamos MD-o rūšies pavyzdžiai, pvz., vardažodžių linksnių sinkretizmas, veiksmažodžių trečiojo asmens sutapimas). Šis parametras naudojamas kaip medžio šaknis. Minėtas veiksmas kartojamas kuriant kiekvieną sprendimų medžio šaką. ID3 algoritmas sukuria sprendimų medį, kurio lapas žymi klasę (morfologinį apibūdinimą), o mazgas nusako, kad turi būti atlikta tolesnė analizė, kurios rezultatas būtų viena medžio šaka vienai parametro (diskretizuoto vienareikšminimo požymio) reikšmei. Sprendimų medis koduoja vienareikšminimo taisykles. Kiekvienai MD-o rūšiai kuriamas atskiras sprendimų medis. Sprendimų medžiams, sukuriantiems efektyvias vienareikšminimo taisykles, reikalinga didelė homoformų pavyzdžių aibė.

Pritaikius minėtus statistinius ir loginius metodus, pasiektas 90,69 proc. lietuvių kalbos MD-o ribojimo tikslumas [1]. Kol kas patikimiausiai veikia statistiniai metodai, nors juos dar reikia gerokai tobulinti; daugiau tyrimų reikalauja loginių metodų pritaikymas lietuvių kalbos MD-ui mažinti.

3.2.2 Kompiuterių mokymosi metodai morfologiniam daugiareikšmiškumui riboti Šiame darbe kaip vienas iš gerus rezultatus duodančių būdų lietuvių kalbos MD-ui riboti pasirinktas

kompiuterių sintaksinės analizės mokymosi metodas. Sintaksinė analizė nėra vien tik priemonė MD-ui riboti. Tai jau antrasis automatinės kalbos analizės lygis. Po automatinės morfologinės analizės atliekama sintaksinė analizė. Šio proceso metu nustatomi ryšiai tarp žodžių, kartu išsprendžiamas ir MD. Kita vertus, sintaksinė analizė be semantinės nėra pakankama ir gali būti netgi pavojinga, nes taikant gramatines taisykles sakiniui ir neatsižvelgiant į jo reikšmę galima nustatyti daugybę žodžių ryšių, o tai vėl didina daugiareikšmiškumą. Automatinę sintaksinę lietuvių kalbos analizę apsunkina tai, kad lietuvių kalbos žodžių tvarka nėra griežta, kad dažnai tarp susijusių žodžių įsiterpia kitų, todėl nežinia, kaip nustatyti ryšius tarp žodžių.

Automatinė sintaksinė lietuvių kalbos analizė kuriama priklausomybių gramatikos principu (plačiau žr. [5]). Morfologinis vienareikšminimas atliekamas iš kelių žodžio morfologinio sąrašo narių išrenkant vieną. Pastebėta, kad tam tikruose junginiuose beveik visada vartojama tik kuri nors viena konkreti veiksmažodžio forma, pvz., junginyje galima daryti išvadą, kad... forma galima yra neveikiamosios rūšies bevardės giminės dalyvis, o ne moteriškosios giminės dalyvio vienaskaitos vardininkas ar įnagininkas; junginyje galimas daiktas pavartotas vyriškosios giminės neveikiamosios rūšies dalyvio vienaskaitos vardininkas, o ne moteriškosios giminės daugiskaitos galininkas. Analizuojant pavienes formas automatiškai, negalima nustatyti, kuri forma yra tinkama tame kontekste. 1 lentelėje pateikiamos kelios vienareikšminimo taisyklės (vienareikšminimo taisyklės buvo sudarytos apibendrinant įvairių modelių pavyzdžius).

Atpažįstant veiksmažodžių junginius, bandoma panaikinti netinkamus junginius, paliekant tik sintaksiškai taisyklingas struktūras. Pritaikius ši metodą tiriamiems junginiams, gaunami vienareikšmiai prasmingi ir sintaksiškai taisyklingi veiksmažodžių junginiai.

– 106 –

Statistiniai, loginiai ir kompiuterių mokymosi metodai lietuvių kalbos morfologiniam daugiareikšmiškumui riboti

1 lentelė. Morfologinio daugiareikšmiškumo ribojimo taisyklės

Nr. Morfologiškai daugiareikšmis sąrašas Vienareikšmis sąrašas po automatinės analizės

1 Asmenuojamoji forma, daiktavardis (pvz., sakė: jis sakė vs. japoniška degtinė sakė)

Asmenuojamoji forma

2 Asmenuojamoji forma, būdvardis (pvz., įtaria: jis kažką įtaria vs. atėjo su įtaria drauge)

Asmenuojamoji forma

3 Asmenuojamoji forma, dalyvis (pvz., būtų: būtų galima kažką padaryti vs. čia netrūksta būtų ir nebūtų dalykų)

Asmenuojamoji forma

4 Bendratis, dalyvis (daryti: nežinau, ką daryti vs. netinkamai daryti darbai) Bendratis 5 Bendratis, dalyvis, būdvardis (apginkluoti: skubama apginkluoti sukilėlius vs.

apginkluoti sukilėliai) Bendratis

6 Būdvardis, dalyvis (žinomas žmogus – būdvardis ir dalyvis vartojami visiškai taip pat)

Dalyvis

7 Būdvardis, tariamoji nuosaka, dalyvis (perkvalifikuotų: reikia daugiau perkvalifikuotų darbuotojų vs. norima, kad firma perkvalifikuotų kuo daugiau žmonių (būdvardis ir dalyvis vartojami visiškai taip pat)

Tariamoji nuosaka

8 Tariamoji nuosaka, dalyvis (žr. ankstesnį pavyzdį) Tariamoji nuosaka

Analizuojant veiksmažodinius junginius yra automatiškai nustatoma, kuri iš morfologiškai

daugiareikšmių formų yra pavartota konkrečiame junginyje. Kaip matyti iš 1 lentelės, pavyksta išspręsti labai dažnus asmenuojamųjų veiksmažodžio formų ir daiktavardžių, bendraties ir dalyvio, būdvardžio ir dalyvio bei kitus sutapimus. Vadinasi, panaikinama daugybė MD-o atvejų.

Kompiuterių mokymosi metodas, kurį taikėme savo eksperimente, yra įsiminimu pagrįstas kompiuterių mokymosi metodas (toliau žymima MBL – angl. memory based learning) [2]. MBL remiasi įvairių pavyzdžių išsaugojimu ir apdorojimu. Pagrindiniai MBL etapai yra mokymasis, klasifikacija ir taikymas. Mokymosi metu yra išrenkami dažnai vartojami kalbos pavyzdžiai, pvz., daiktavardžių, būdvardžių, veiksmažodžių, vienarūšių sakinio dalių junginiai (nepainioti su kolokacijomis). Atsižvelgiant į informacijos, naudojamos MBL, kiekį (pvz., ar naudojama informacija apie lemas, morfologines pažymas, dažnumus) ir ypatybes, yra klasifikuojama. Klasifikuojama atsižvelgiant į kalbos dalis junginiuose ir kitas gramatines kategorijas. Po to suklasifikuoti junginiai yra peržiūrimi.

Analizuojant naujus junginius algoritmas bando lyginti turimus pavyzdžius su esamais duomenimis. Tiems naujiems junginiams algoritmas priskiria atitinkamas morfologines pažymas. Vienareikšminant pasirenkamos tinkamos tam tikrų leksinių požymių kombinacijos žodžio kontekste.

2 lentelė. Gramatinių kategorijų priskyrimas žodžiui atsižvelgiant į kontekstą

Žodžiai Nėra didesnės nelaimės kaip nežinoti savo aistros ribų Vksm

vnsk III asm

Bdvr vnsk K

Dktv vnsk K Dll Vksm bndr įvrd Dktv vnsk

K Dktv

Vksm dgsk III

asm

Bdvr dgsk V

Dktv dgsk V Prvks Dlv Dktv dgsk

V

Vksm III asm Vksm vnsk

III asm Jngt

Galimos morfologinės

pažymos

Vksm dgsk III asm

Tinkama morfologinė

pažyma

Vksm vnsk III

asm

Bdvr vnsk K

Dktv vnsk K Jngt Vksm bndr įvrd Dktv vnsk

K Dktv

4 Išvados Straipsnyje trumpai pristatyti lietuvių kalbai taikyti statistiniai (HMM, Viterbi), loginiai (ID3) ir kom-

piuterių mokymosi metodai (MBL). Apžvelgtas morfologiškai anotuoto tekstyno kūrimo procesas. Pristatytas MAT-e išryškėjęs MD ir nagrinėti metodai jam riboti. Vienas iš naujesnių lietuvių kalbos MD-o ribojimų darbų yra MBL pagrįsta automatinė sintaksinė analizė. Ateityje bus taikomi bendri morfologijos ir sintaksės metodai, ypač daug dėmesio bus skiriama dar tik kuriamai automatinei sintaksinei analizei. Planuojama sudaryti sintaksiškai anotuotą lietuvių kalbos tekstyną.

– 107 –

Erika Rimkutė, Gintarė Grigonytė

Literatūros sąrašas [1] A. Bartkuvienė. Morfologinio daugiareikšmiškumo problemos sprendimas ir jo įtaka kalbos technologijų produktų

kūrimui. VDU Informatikos fakulteto magistro darbas, 2005. [2] W. Daelemans A. van den Bosh. Memory-based Language Processing, 2005. [3] V. Griciūtė. Morfologinio daugiareikšmiškumo problemų sprendimas. Statistinio modelio realizacija taikant Viterbi

algoritmą. VDU Informatikos fakulteto bakalauro darbas, 2001. [4] V. Griciūtė, G. Pajarskaitė G. Paslėptų Markovo modelių (HMM) taikymas morfologinio daugiareikšmiškumo

problemos sprendimui. 6-tosios magistrantų ir doktorantų konferencijos Informacinė visuomenė ir universitetinės studijos pranešimų medžiaga, 2001, 66–71.

[5] G. Grigonytė, E. Rimkutė E., Formal Specifications for a Dependency Grammar of the Lithuanian Language. Tarptautinės konferencijos „The Second Baltic Conference on Human Language Technologies“ pranešimų medžiaga, 2005, 237–242.

[6] R. Marcinkevičienė. Tekstynų lingvistika (teorija ir praktika). Darbai ir Dienos, 2000, Nr. 24, 7–64. [7] E. Rimkutė. Morfologinio daugiareikšmiškumo tipologija. Lituanistica, 2003, 4 (56), 60–78. [8] E. Rimkutė, A. Grybinaitė. Dažniausios lietuvių kalbos morfologinio daugiareikšmiškumo rūšys ir jų automatinis

vienareikšminimas. Kalbų studijos, 2004, 5, 74–78. [9] V. Zinkevičius. Lemuoklis – morfologinei analizei. Darbai ir Dienos, 2000, 24, 245–273. [10] V. Zinkevičius, V. Daudaravičius, E. Rimkutė. The Morphologically Annotated Lithuanian Corpus. Konferencijos

„The Second Baltic Conference on Human Language Technologies“ pranešimų medžiaga, 2005, 365–370. Syntactic analysis of Lithuanian Language for the Disambiguation of Morphological Ambiguity The methods that have been used for solving disambiguation of morphological ambiguity of Lithuanian language are introduced in this article. These are as follows: statistical, logical, and machine learning. We claim these methods to be useful for solving automated disambiguation (e. g., word laimės (a noun or a verb)). We think that the context of a word plays a big role for morphological disambiguation. Related problems and results of the experiment are presented in this paper.

ENGLISH-LITHUANIAN-ENGLISH MACHINE TRANSLATION LEXICON AND ENGINE: CURRENT STATE AND FUTURE WORK

Gintaras Barisevičius, Bronius Tamulynas Kaunas University of Technology

This article overviews the current state of the English-Lithuanian-English machine translation system. The first part of

the article describes the problems that system poses today and what actions will be taken to solve them in the future. The second part of the article tackles the main issue of the translation process. Article briefly overviews the word sense disambiguation for MT technique using Google.

1 Introduction The English-Lithuanian-English (ELE) dictionary-lexicon was chosen to be open to the user, so that he

could modify the database on-demand. This dictionary contains Lithuanian and English words related to each other according to their meaning. However, this is not an ordinary dictionary and compare to it such dictionary contains much more attributes and morphological information of speech parts that are required for the MT. Currently, the lexicon supports all parts of speech for Lithuanian and English languages. Since the Lithuanian and English parts are strictly separated, so it is possible to extend the database by adding additional languages either for Lithuanian or English language [3].

Polysemy problem is also solved in the dictionary by adding an additional table between two tables linking different translations of the word in the target language. The translations for the same words are enumerated in descending priority in both directions. In this way it is possible to ensure that even if the translation won’t be very exact, the user will be able to choose the suitable words himself and the system will choose the word with highest priority. Additionally, there is a possibility to include domain attributes for the nouns in the dictionary. That allows choosing the word during the translation not only by its translation priority but also by the domain, i.e. the word with the top domain goes the first [3].

The word entry is quite simple, since the lexicographer can see all generated morphological forms in the tables, which layout is so that it would be easy to check the correctness of all forms. That eases the lexicographer work and speeds up the word entrance process.

The Lithuanian Government approved to support this project according to the national program “Lithuanian language in Information society for the years 2005-2006 for the development of the Lithuanian language technologies including computer-based translation”. The first phase of this project for the year 2005 has been completed and the prototype of the lexicon has been finally created.

2 Current system state Lexicon. Currently the database of the dictionary-lexicon contains 57 tables that already contain 250 words

from Lithuanian to English and vice versa. Of course, each word requires much more than one record, since every morphological form is stored as a related record. So since Lithuanian noun has at least 14 forms and verb have more than 300 forms [4].

There is 11 part of speech windows for Lithuanian and 12 (one additional for auxiliary words and determiners) for English. For the moment the word can be entered to the dictionary only with its translation. When the phrase dictionary implemented, we will consider splitting the interface into two windows or panels which can be created for both languages or alone for one language.

The manual testing of the system has been performed for several months. Graphical user interface was tested by independent tester. A lot of errors were discovered and had to be fixed. Total sum of tested words reaches about 1000 words, but if you consider, that each word has at least several morphological forms and at least several attributes to be tested (here interjections, conjunctions and similar words which are not variable and not inflectional are excluded).

Phrase dictionary. Phrase dictionary was separated from the core word dictionary. The reason for that was the large number of phrases and if they were related physically to the word dictionary, when the word deleted all related phrases would be deleted as well. That is not very efficient, especially if the word deletion occurs accidentally. Besides, the phrases are stored into the same dictionary if you look from database management system view, but the tables do not relate to the lexicon tables. The phrase dictionary is still in implementation state, but the architectural decisions were already made.

Data entry. Theoretically data entry to the database could be performed parallel on-line by several lexicographers, but then there is “who did what” problem. If one of lexicographers involves the error into the database it is almost impossible to define which one is responsible for it. Of course, we could incorporate logging of

– 109 –

Gintaras Barisevičius, Bronius Tamulynas

each database modification according to the logged in user, but then we would get a huge overhead, since the same data should be replicated twice. Even, if we save only the reference to the modified data not replicating the data one more time, still we will have to access the database to save that reference. Due to that problem we decided that for the time being the data entry will be made locally by one lexicographer and the data later will be transferred to the on-line database.

The translation detects the words that are not in the dictionary, so monolingual text corpora will be possible to use, for extracting the words that are not in the dictionary. Then the words will be automatically passed to the chosen part of speech window for entrance. This is applicable either for Lithuanian or English language. This method of word entrance should be quite effective, since it is possible to choose the texts that contain the most frequent words in the language so that they would be entered to the database.

Translation engine. Current translation core uses direct translation and simple ending tuning according to grammar rules. Syntax rules are already incorporated into translation and they let to define which grammar structures are not allowed and which should be eliminated from the translation variants. However the transformational syntax rules are still being incorporated into the translation process.

Negations are not taken into account yet, but will be also incorporated into translation during the further development and improvement of translation engine.

The present state of translation engine would be not much in use for the real user, translating the texts neither from English nor Lithuanian, because the ending tuning is not entirely complete and word sense disambiguation is not incorporated yet. Besides, the tenses are not treated entirely correctly from Lithuanian language as well as from English. After some improvements first evaluations by independent tester could be already performed.

3 Current problems and future work Java Caching System. Currently the connection to the database is straight-forward and doesn’t use any

additional caching, except for standard MySql cache. For the moment it is enough, since the system is in the testing state and doesn’t require huge amounts of data to be processed, so the current MySql cache is enough. However, when the text size is large enough and if the database is in the remote host the caching on client side is needed, since the retrieval time from the local cache is shorter. For that purpose Java Caching System (JCS) can be used. As it is stated in [1] JCS is most useful for high read, but low put applications as it is exactly our system. And usage of the JCS noticeably decreases the latency time and the database is not a bottleneck in the system anymore [1]. The settings of the MySql database can be viewed by executing the following query (1table):

“SHOW VARIABLES LIKE '%query_cache%';”

1 table. MySql cache settings

Variable name Value have_query_cache YES query_cache_limit 1048576 query_cache_size 26214400

Optimization. Optimization problem is always an issue when implementing a large system and should always be taken into account. If leaving out optimization, the system may result in long latency and unacceptable response time. During the automated testing very huge optimization problem was found. The table representing the list of words was working with an object array, which had to be recreated every time when new record added. When the number of words reached several thousands the insertion of each record took a large amount of time and it was clearly unacceptable. Very easy solution was made. The object array was replaced with an ArrayList, which obviously is faster than object array, especially when the new objects are consequently added to the list.

Another outstanding optimization problem is that when the word is looked up, all its morphological forms are return together with an object. Here the solution should as simple as implementing the additional queries returning only the required form of an object according to the word id number.

Semantics: Word Sense Disambiguation. ”Word sense disambiguation is essential for the proper translation of words” as it is stated in [5]. Word sense disambiguation (WSD) process usually contains two steps that are: (1) determining all different senses for that word and (2) assigning the occurrences of a word to the appropriate sense [5].

Usually Word Sense disambiguation is performed manually, but this process is tedious and time consuming and today there are a number of techniques handling WSD, but most of them have those two steps mentioned above [5]. The second step requires information about the context of the word which is disambiguated and external knowledge sources [5], i.e. monolingual dictionary, encyclopaedia and etc.

– 110 –

English-Lithuanian-English Machine Translation Lexicon and Engine: Current State and Future Work

In our MT system we have chosen using slightly different approach. That was done for two reasons. The latter information source is problematic to get, since there is not much encyclopaedias and monolingual dictionaries available in public that can be used and such disambiguation requires a lot computational power. As external knowledge source we will use monolingual text corpus, which can be quite effective performing word sense disambiguation for machine translation [7]. However, even monolingual text corpora for both English and Lithuanian are hard to get, even if they exist, but their usage is usually restricted only for research purposes. In addition to that, the different monolingual corpora usually tend to have different structures and we don’t want to implement disambiguation algorithm for two different corpora. Here comes Google as a largest text database in the world, which has quite fast look-up and result display. Most importantly, Google displays the result number for each requested query. As it is stated in [6] Google can be used to find contextually relevant terms and their usage context.

In out MT system, actually we don’t have to look up for different word senses (skipping step 1), since the translation gives the different senses for the word automatically as they are stored in the dictionary. So all we need only to choose the appropriate sense and as we mentioned before we are going to use Google for that purpose. There is an automated API for Google queries, but unfortunately it is limited to 1,000 queries per day and may return only 10 results per query. The total count fortunately is acquired this way. However 1,000 queries are not enough. For the beginning that should be enough to see the effectiveness of the algorithm and later if the usage of Google will be reasonable we will use indirect Google queries (not using API, but URL for queries) or we will have to extract our own monolingual corpora. We will have to decide which sense is most appropriate by calculating maximum likelihood estimation for the word sense with related words to it. For example, if we translate the sentence ”pen is on the table” and then will look up all the senses in the Google (2 table) we will end up with such results (assuming that table has three meanings, and pen has also three meanings):

2 table. Possible sentence “pen is on the table” translations

Translation Results by Google Gulbė yra ant lentelės 13 Rašiklis yra ant lentelės 16 Areštinė yra ant lentelės 5 Gulbė yra ant stalo 219 Rašiklis yra ant stalo 301 Areštinė yra ant stalo 18 Gulbė yra ant plokščiakalnio 0 Rašiklis yra ant plokščiakalnio 0 Areštinė yra ant plokščiakalnio 0

It is obvious from the results, that the correct translation is the fifth one. Of course, the fourth one is quite close, but considering that ”Pen” sense as ”Gulbė“ is not likely to be used in technical texts so it won’t be in our dictionary.

4 Conclusions The lexicon and translation subsystems states were discussed in the article. It is obvious that the biggest

current task is to collect large word dictionary. Next, we have to implement and also collect phrase dictionary. Phrase dictionary implementation will be performed parallel to translation engine implementation. The translation engine is only in its early stage and much work must be done there. Negations, tuning and sense disambiguation problems must be handled as well as syntax rule incorporation for transformation of the sentences must be finished implementing. When the phrase dictionary will be complete it will have to be incorporated into translation as well.

The data entry enhancement using text corpus was discussed and word sense disambiguation solution was briefly overviewed in the end of the article.

References [1] Apache Software Foundation, 2002-2005, last checked 2006 01 08, Internet access

<http://jakarta.apache.org/jcs/index.html>s [2] B. Tamulynas, G. Barisevičius, D. Venckienė, J. Mikelionienė. Valdomas kompiuterinis vertimas: projektavimas,

programinės įrangos kūrimas ir tyrimas. Ataskaita VLKK už 2005 metus, 2005, priedai 6-7. [3] G. Barisevičius, B. Tamulynas. Multilingual lexicon design tool and database management system for MT. Proceedings

the Second Baltic Conference on Human Language Technologies, Tallinna Raamatutrukikoda, 2005, ISBN 9985-894-83-9, 219-224.

– 111 –

Gintaras Barisevičius, Bronius Tamulynas

[4] Lietuvių kalbos institutas. Dabartinės lietuvių kalbos gramatika. Mokslo ir enciklopedijų leidyklą, 1994, ISBN 5-420-01007-0, 68-79, 290-385.

[5] N. Ide, J. Véronis. Introduction to the special issue on word sense disambiguation: the state of the art. Computational Linguistics. 1998, 1-40, last checked 2006 01 08 , Internet access <http://www.up.univ-mrs.fr/veronis/pdf/1998wsd.pdf>

[6] S. Manandhar, I. P. Klapaftis. Google & WordNet based Word Sense Disambiguation. Proceedings of the Workshop on Learning and Extending Ontologies by using Machine Learning methods, International Conference on Machine Learning (ICML05), Bonn, Germany, 2005., last checked 2006 01 08 , Internet access <http://www-users.cs.york.ac.uk/~giannis/publications/wsd.pdf>

[7] T. M. Miangah and A.D. Khalafi. Word Sense Disambiguation Using Target Language Corpus in a Machine Translation System. Shahre Kord University, ISSN 0268-1145., last checked 2006 01 08 , Internet access <http://www-users.cs.york.ac.uk/~giannis/publications/wsd.pdf>

VERTIMO ATMINTYS: PRAKTIKA IR TAIKYMO PERSPEKTYVOS KOMPIUTERINIO VERTIMO SISTEMOSE

Bronius Tamulynas, Dalia Venckienė Kauno technologijos universitetas

Straipsnyje aptariama vertimo atminčių (translation memory) naudojimo patirtis ir vertimo metu

kaupiamų kalbos resursų platesnė naudojimo galimybė kompiuterinio vertimo sistemose. Medžiaga paruošta remiantis šios vertimo technologijos naudojimo praktika KTU užsienio kalbų centre.

1 Įvadas Šiuo metu, kai kompiuterių atminties resursai ženkliai išaugo, tikslinga kurti kompiuterines vertimo (KV)

sistemas, kurių žinių bazėje būtų saugomi vertimo pavyzdžiai, t.y. sistema, suradusi teksto fragmentą, kuris anksčiau jau buvo išverstas, kopijuotų jį atitinkančią frazę ir taip leistų sparčiau generuoti pažodinį teksto vertimą. Panašus principas yra taikomas naujos kartos KV sistemose ir vadinamas „atmintine vertėjui“ – translation memory [1,2]. Šiandien iš vertėjų tikimasi greitai atliekamų geros kokybės vertimų. Taigi, reikia siekti, kad vertimas būtų atliktas laiku tuo pačiu metu mažinant vertimo sąnaudas bei gerinant kokybę. Vertimo atminčių sistemų naudojimas yra viena iš galimybių tai pasiekti. Ši technologija leidžia vartotojui išsaugoti išverstas frazes ar sakinius specialioje duomenų bazėje ir naudoti juos savo darbo vietoje ar per kompiuterinius tinklus, t.y. galima pasiekti vertimo atmintis, kurios yra išsaugotos tik vartotojo darbo kompiuteryje. Duomenų bazės saugo išverstus tekstus kartu su atitinkamais originalo tekstais. Tačiau tekstai nesaugomi ištisi. Jie saugomi suskaidyti į vertimo vienetus arba segmentus. Skirtingai nei KV sistemos, VA apdoroja ne visą tekstą, bet jo segmentus. Preliminari sukauptos vertimo medžiagos analizė leidžia daryti prielaidas, kad VA saugyklose esančios vertimams naudingos žinios gali būti netgi efektyviau panaudotos nei šiuo metu vyraujanti tendencija į KV procesą įjungti lygiagrečiuosius tekstynus. Tokių tekstynų paruošimas yra nepaprastai sudėtingas darbas dėl daugelio priežasčių: reikalinga pakankamai tobula šiuolaikinė programinė įranga, kuri garantuotų sąsają su kitomis KV posistemėmis, jame turi būti pakankamai sukaupta medžiagos, lygiagretūs tekstai turi būti paskirstyti pagal mokslų sritis ir t. t. VA naudojimo praktika ir jų kokybinė analizė teikia vilčių, kad naujos kartos KV sistemų lankstumui ir kokybei pagerinti reikėtų išnaudoti galimybę KV žodyno bazę papildyti vertimui naudingomis žiniomis, kurios yra kaupiamos VA saugyklose. Tai, žinoma, nėra lengvai išsprendžiamas uždavinys, tačiau kompleksinė VA ir KV sistemų kooperacija teikia tam vilčių.

2. Vertimo atmintys KV sistemose Vertimo atminties segmentai. Dažniausiai vertimo vienetas atitinka sakinį ar paragrafą, tačiau vertimo vienetais

gali būti ir mažesni segmentai, pavyzdžiui, vienos lentelės celės įrašas, sąrašo eilutė ar net vienas žodis. Daugelyje tekstų, ypač techniniuose dokumentuose, yra daug pasikartojančių dalių. Tarkime, daug gaminių remiasi jau anksčiau sukurtaisiais, todėl su jais susijusi dokumentacija yra panaši į ankstesniąją. Tyrimai rodo, kad 50 proc. ar daugiau elementų gali kartotis tame pačiame tekste. Jei pastarieji buvo išversti anksčiau, akivaizdžiai naudinga vertėjui turėti galimybę pasinaudoti ankstesniais jų vertimais.

Naudodamos paieškos algoritmus, VA sistemos lygina iš naujo verčiamą tekstą su esančiais duomenų bazėje ir nustato identiškus ar panašius vertimo vienetus. Tai leidžia vertėjui gauti duomenų bazėje saugomą informaciją ir ją panaudoti naujame vertime. Vertimo atmintys apdoroja jau sukauptus vertimus ir padeda taupyti laiką, mažinti darbo sąnaudas, gerinti vertimo kokybę ir nuoseklumą. VA lygina duomenų bazėje esančius terminus ir sakinius su verčiamo teksto terminais bei sakiniais. Jei randamas atitikmuo, sistema pasiūlo vertimą.

Vertimo atminties duomenų bazė iš pradžių yra tuščia, todėl žingsnis po žingsnio ją kuria pats vertėjas. Verčiamas tekstas turi būti elektroniniame formate ir vertėjui pateikiamas paeiliui po segmentą. Kai vertimas atliktas, originalo ir vertimo tekstų segmentai automatiškai išsaugomi kaip poros. Šie tekstai ir sudaro vertimų duomenų bazę. Kuo daugiau tekstų verčiama, tuo didesnė duomenų bazė. Yra galimybė sukurti vertimo atmintį naudojant jau atliktus vertimus. Tam reikia specialios sugretinimo („alignment“) programos. Ją naudojant (pvz., TRADOS WinAlign), galima originalo ir vertimo tekstus paruošti taip, kad juos galėtų apdoroti VA sistema. Sugretinimo programa analizuoja originalo ir vertimo tekstus ir nustato, kurios sakinių poros atitinka. Tada sukuriamas failas, kurį gali naudoti VA sistema.

VA sistema nuolat atnaujina savo duomenų bazę. Kai reikia išversti segmentą, kuris yra panašus į išverstą anksčiau, vertimo atmintis parodo ankstesnį vertimo variantą ir leidžia jį panaudoti arba pakeisti. Panašių segmentų suderinimas leidžia vertimo atmintyje rasti ne tik identiškus, bet ir panašius vertimo vienetus. Vartotojai gali nustatyti mažiausią panašumo laipsnį, į kurį turi lygiuotis vertimo atminties surastas panašus vertimo vienetas. Vertimo atmintis pateikia 3 paieškos rezultatų kategorijas:

– 113 –

Bronius Tamulynas, Dalia Venckienė

• tikslus atitikmuo („perfect/exact match“) – duomenų bazėje rastas vertimo vienetas visiškai atitinka naują verčiamo teksto elementą (100 proc. atitikmuo);

• visiškas atitikmuo („full match“) – duomenų bazėje rastas vertimo vienetas yra identiškas išsaugotam vertimo vienetui, išskyrus kintamus elementus, pavyzdžiui, datas, skaičius, matavimo vienetus;

• panašus atitikmuo („fuzzy match“) – visi atitikmenys, kurie tiksliai neatitinka verčiamo segmento, bet patenka į vartotojo nustatytą apytikrio atitikimo skalę, vadinami panašiais atitikmenimis. (Atitikmuo, kurio panašumo laipsnis didžiausias, rodomas pirmas. Visi kiti atitikmenys su mažesniu atitikimo laipsniu įtraukiami į sąrašą, kuriuo vartotojas taip pat gali naudotis).

Jei jokio atitikmens rasti negalima, visą segmentą turi išversti vertėjas. Naujas vertimas išsaugomas duomenų bazėje ir tik tada gali būti naudojamas verčiant ateityje. Šiuo metu naudojami du vertimo atminčių sistemų tipai: • vertimo atmintys, kurios naudoja autentiškas duomenų bazes – šio tipo VA sistemų yra daugiausia, jose

kiekvienas vertimo vienetas išsaugomas duomenų bazėje ir jį galima naudoti tolesniam vertimui; • vertimo atmintys, kurios naudoja informacinę medžiagą – jos naudoja anksčiau išverstus tekstus, kurie nėra

išsaugoti atskiroje duomenų bazėje. Vartotojas programai turi nurodyti tą medžiagą, pavyzdžiui, ankstesnį verčiamo dokumento vertimo variantą, kuris ir naudojamas lyginant tekstus. Kai kurios vertimo atmintys, tarp jų ir TRADOS Translator’s Workbench [2-5], turi įdiegtą sąsają, darbui su

įprastais tekstų redaktoriais – Word 2000 ar Word Perfect. Tai reiškia, kad galima versti tiesiogiai toje aplinkoje, prie kurios esate įpratę. Tokiu atveju nereikia importuoti ir eksportuoti tekstų. Formatas, kuriuo išverstas tekstas yra išsaugomas vertimo atmintyje, yra tapatus naudojamam teksto redaktoriaus programoje. Pavyzdžiui, paryškintos ar pasvirusios teksto dalys liks nepakeistos. Kitos vertimo atminčių sistemos – Star Transit [6], turi savo redagavimo programas. Tai reiškia, kad versti reikia kitokioje darbinėje aplinkoje, t. y. prieš pradedant versti reikia importuoti verčiamą tekstą į sistemos palaikomą aplinką.

Naudodami VA galime versti beveik bet kokio formato ir bet kokios rūšies tekstus. Tačiau tai nereiškia, kad vertimo atmintys yra naudingos verčiant visų rūšių tekstus. Pasirenkant tinkamą vertimo priemonę, rekomenduojama įvertinti darbo apimtis ir vertimo aplinką pagal šiuos kriterijus: • teksto tipas – kokio tipo tekstą reikia išversti? • pakartotinio panaudojimo galimybė – koks pasikartojančio teksto laipsnis? • teksto apimtis – ar ilgas tekstas, kurį reikia išversti?

Vertimo atmintys ne tik leidžia padidinti našumą bet ir gerokai sumažina vertimo sąnaudas. Tačiau ne visi tekstai yra vienodai tinkami naudoti vertimo atmintis. Tinkamiausi tekstai yra techninė dokumentacija: vartojimo instrukcijos, programinės įrangos aprašymai, ataskaitos, katalogai, teisės aktai, sutartys, nes apskritai tokiuose dokumentuose yra daugiau pasikartojančio teksto. Antrasis svarbus veiksnys yra pasikartojančio teksto laipsnis tame pačiame tekste (vidinis pasikartojimas) bei ankstesniuose vertimuose (išorinis pasikartojimas). Kuo daugiau pasikartojančių elementų, tuo tekstas labiau tinka versti naudojant vertimo atmintis. Turint omenyje priemonės įsigijimo kainą, svarbu atsižvelgti ir į teksto apimtį. Bendra taisyklė tokia – kuo ilgesnis dokumentas, tuo didesnė tikimybė, kad jame bus pasikartojančio teksto, ir tuo didesnė panašių sakinių daugkartinio panaudojimo tikimybė.

VA veikimo principai. Detaliau galima išskirti tokius vertimo atminčių sistemoje vykstančius ir vertėjo vykdomus veiksmus: 1. Verčiamas tekstas konvertuojamas į programos palaikomą failo formatą. 2. Verčiamas tekstas suskirstomas į segmentus. 3. Vertėjas dirba vertimo atminties ar teksto redaktoriaus aplinkoje. 4. Kiekvienas išverstas segmentas išsaugomas su originaliu segmentu. 5. Duomenų bazė pildoma vertimo vienetais. 6. Kiekvienas naujas segmentas lyginamas su duomenų bazėje esančiais segmentais. 7. Išrenkami ir pateikiami ankstesni vertimai. 8. Vertimo atmintis parodo tikslius ar panašius atitikmenis. 9. Verčiamam tekstui ieškomi terminų bazėje esantys terminai. 10. Vertėjas redaguoja ir/arba patvirtina vertimą.

VA trūkumai. Vertimo atminčių sistemų naudojimo privalumai akivaizdūs. Vis dėlto, reikia paminėti ir vertėjų bei kalbos specialistų pastebimus šios technologijos trūkumus. Iš jų paminėtini keturi:

• jei vertimo redagavimas atliekamas ne VA duomenų bazėje, pakeitimų integravimas į duomenų bazę tampa sudėtingu. Ši problema išsprendžiama visus pakeitimus ir redagavimą atliekant vertimo atminčių sistemoje arba naudojant visiškai suredaguoto vertimo ir originalaus teksto sugretinimo funkciją.

• vertėjams gali atrodyti, kad VA sistema ne tokia lanksti kaip teksto redaktorius, kai vertime reikia atlikti paskutinius patobulinimus. Tačiau, vertėjui įpratus dirbti su vertimo atminčių technologija, šis nepatogumas neturi įtakos.

• vertimo atminčių teikiamų atitikmenų redagavimas užima nemažai laiko, lyginant su įprastiniu dokumentų vertimu ir redagavimu. Taip yra dėlto, kad, nors programa ir pateikia verčiamo segmento tikslų ar panašų atitikmenį, iš tikrųjų jo prasmė gali labai skirtis nuo verčiamo segmento prasmės.

– 114 –

Vertimo atmintys: praktika ir taikymo perspektyvos kompiuterinio vertimo sistemose

• išmokti naudotis visomis vertimo atminčių programos galimybėmis reikia nemažai laiko. Jei vertėjas dirba su viena programa, o klientas prašo versti naudojant kitą, vertėjas prieš imdamas užsakymą turi įvertinti tokio projekto sąnaudas.

VA sistemų terminų tvarkybos moduliai. Pasirodžius pirmiesiems asmeniniams kompiuteriams 1980 m.,

asmeninės terminų tvarkybos priemonė buvo viena iš pirmųjų tarp kompiuterinio vertimo (CAT – computer assistant translation) priemonių, gaminamų ir parduodamų specialiai vertėjams. Jas naudodami vertėjai galėjo kurti ir pildyti asmenines terminų bazes (TB). Nors ir būdamos ribotų galimybių, jos greitai išpopuliarėjo. Pirmosios terminų tvarkybos sistemos turėjo šiuos trūkumus: a) vienu metu jas buvo galima naudoti tik iš vieno kompiuterio, t. y. nebuvo galimybių ta pačia baze tuo pat metu naudotis kartu su kolegomis vertėjais bei klientais; b) jos leido kurti tik dvikalbes terminų bazes; c) į terminų bazių laukus buvo galima įvesti tik labai ribotą simbolių skaičių (Bowker iš Somers, 2003:51) [2].

Pasak Lynne Bowker (Somers, 2003:51) [2], viena iš naujausių kompiuterinio vertimo priemonių – terminų atpažinimas. Ją naudojant, atliekama paieška elektroniniame tekstyne ir sudaromas terminų, kuriuos vertėjas norėtų įtraukti į savo TB, sąrašas. Terminų atpažinimo moduliai vis dažniau įtraukiami į vertimo programas, sudarytas iš terminų tvarkybos sistemų, vertimo atminčių ir konkordancijos priemonių. Šiuo metu kuriamos priemonės, kurios automatiškai tekstynuose ieškotų ir kitokią terminologinę informaciją: žodžių samplaikas, apibrėžimus, sinonimus, nustatytų ryšius tarp sąvokų (Bowker iš Somers, 2003:51) [2] ir pan.

Terminijos, įvedamos į KV ir VA sistemas, skirtumai. Informacijos, kurios pakanka vertėjui, kuriančiam ir naudojančiam TB, nepakanka KV sistemoms. Kompiuteris nemąsto ir nesupranta apibrėžimų, kontekstą iliustruojančių pavyzdžių, gramatinės kalbos struktūros ar realių situacijų (Bowker iš Somers, 2003:52) [2]. Į KV sistemoms skirtus terminijos šaltinius turi būti įvedama labai aiški informacija apie kalbos dalis, giminę, skaičių. Turėtų būti įvedama morfologinė informacija apie netaisyklingas daugiskaitos formas ar veiksmažodžių asmenuotes, o taip pat, norėdami „priversti“ KV sistemas teisingai parinkti terminiją, turėtume įvesti specializuotą informaciją apie semantinius požymius, požymių parinkimo apribojimus, junglumą, kalbos linksnių sistemą.

Duomenų saugojimas terminijos valdymo sistemose. Terminijos valdymo sistema, tai programa, kuria naudodamas vertėjas kuria asmenines terminų bazes (Bowker in Somers, 2003:53) [2]. Pagrindinė terminijos valdymo sistemos funkcija yra saugoti terminologinę informaciją, kuri bus panaudota dirbant su vertimo projektais ateityje. Senosios kartos TB galėdavo pateikti tik terminų vertimus iš vienos kalbos į kitą (pvz., tik iš anglų -> prancūzų). Iškildavo problemų, kai TB reikėdavo panaudoti atvirkščiam vertimui iš prancūzų į anglų kalba. Šiuolaikinėms terminijos valdymo sistemoms kalbų kryptis nėra esminė: vienoje terminų bazėje gali būti saugomi terminai daugybe kalbų ir galima naudoti vieną ir tą pačią baze verčiant iš kurios nors kalbos į bet kurią kitą kalbą (Bowker iš Somers, 2003:53) [2]. Taip pat išsiplėtė terminus aprašančių laukų kūrimo ir pildymo galimybės: vartotojams atsirado galimybė patiems kurti terminų bazės laukus (anksčiau laukai būdavo parenkami iš parengtų laukų sąrašų, pvz., apibrėžimo, konteksto, šaltinio laukas) ir nebūtina pildyti visų laukų kiekvienam įrašui. Nebeliko apribojimų ir laukų skaičiui bei simbolių skaičiui jame. Pavyzdžiui, anksčiau, jei programa siūlydavo tik vieną konteksto lauką, vertėjas tik vieną ir galėdavo pildyti, nors jam naudingiau būtų buvę pildyti kelis konteksto laukus. Dauguma naujausių TB dabar leidžia nustatyti „laisvą“ įrašo struktūrą: vertėjas gali pats nustatyti reikiamus laukus, įskaitant ir pasikartojančius (keliems klientams, keletui konteksto pavyzdžių ir pan.) (Bowker iš Somers, 2003:53) [2]. Naujausios terminų tvarkybos programos suteikia galimybę į įrašus įterpti grafikos (pvz., Trados Multiterm) elementus. Vertėjai gali pasirinkti šriftą, spalvas laukams ar kitaip išskirti svarbią informaciją. Vertėjas gali pritaikyti bazę specifinėms reikmėms, o TB gali būti keičiama. Galima sudaryti skirtingas atskirų dalykų bazes bei atskiras TB klientams. Kai kurios iš jų leidžia jungti atskiras bazes (Bowker iš Somers, 2003:53) [2] į vieną bendrą TB.

Informacijos paieška terminų bazėje. TB gali būti naudojama keletas informacijos paieškos būdų: paprasta paieška („simple search“), leidžianti rasti tikslius atitikmenis; panašių įrašų paieška („fuzzy search“), leidžianti rasti ne tik identiškus, bet ir panašius įrašus į ieškomą terminą bazėje (sudėtingiausias paieškos būdas dažnai naudojamas, kai nėra aiškiai žinoma žodžio rašyba); neapibrėžtų įrašų paieška („wildcard search“ – vietoj nežinomų teksto žodžių įrašomas žvaigždutės simbolis: ieškomo žodžių junginio viduryje, prieš ar po žodžių junginio, t. y., ieškant žodžių junginių su konkrečiu žodžiu, tas žodis įrašomas tarp žvaigždutės simbolių). Panašių įrašų paieškos ar neapibrėžtų įrašų paieškos atvejais gali būti pateikiamas rezultatų sąrašas, nes programa gali rasti daugiau nei vieną atitikmenį.

TB sąsaja su vertimo failu, VA ir išankstinis vertimas. Terminų bazės, vertimo failo ir vertimo atminties

sąsajos leidžia vykdyti automatinę terminų paiešką. Vertėjui verčiant tekstą, terminijos atpažinimo sistema automatiškai lygina leksikos vienetus originalo tekste su TB turiniu. Sistemai atpažinus TB esantį terminą, vertėjas gali peržiūrėti termino įrašą bei nukopijuoti terminą ir įkelti jį į vertimo failą.

Kai kurios terminų tvarkybos sistemos gali atlikti ir išankstinį vertimą („pre-translation“). Išankstinio vertimo atveju terminų tvarkybos sistema atpažįsta terminus, įvestus į terminų bazę ir automatiškai įterpia atitinkamus atitikmenis į vertimo tekstą. Tokio išankstinio vertimo rezultatas – tekstas, kurį sudaro dviejų kalbų žodžiai. Vertėjui reikia patikrinti, ar įterpti terminai tikrai tinkami ir išversti teksto dalis, kurioms nebuvo rasta atitikmenų (Bowker iš Somers, 2003:57) [2].

– 115 –


1 lentelė. Vertimo atmintimis grindžiamų sistemų palyginimas

Savybės

Déjà Vu

SDLX

Trados

Transit

Projektų valdymo funkcijos

Sukuria projektą; filtruoja, importuoja failus; parengia ruošinius išoriniams vartotojams; generuoja statistinę informaciją


Sukuria projektą; filtruoja, importuoja failus; parengia ruošinius išoriniams vartotojams; generuoja statistinę informaciją; nustato projekto etapų įvykdymo galutinius terminus; pateikia ataskaitas apie etapų vykdymą


Dokumentų formatai

Visi įprasti formatai, įskaitant „Trados“ ir „InDesign“

Visi įprasti formatai, išskyrus „Interleaf“

Visi įprasti formatai, įskaitant „Ventura“

Visi įprasti formatai, įskaitant „InDesign“

Kalbos Visos Visos Visos Visos

Redagavimas Originali aplinka Originali aplinka

MS Word, T-Window, TagEditor

Originali aplinka

Vertimo atminties koncepcija

Vertimo atmintis Vertimo atmintis

Vertimo atmintis Informaciniai failai

Failų redagavimas

Keletas tuo pačiu metu

Vienas, išskyrus HTML failus

Tik vienas Keletas tuo pačiu metu

Skirstymas į segmentus

Taisyklės gali būti keičiamos




Segmentų vizualizacija

Natūrali tvarka; segmentai pateikiami kaip ištraukos ar posakiai; pateikimas abėcėlės tvarka

Natūrali tvarka Natūrali tvarka Natūrali tvarka; segmentai pateikiami kaip ištraukos ar posakiai

Santykis su kitų programų vertimo atmintimis

Pasikeitimas atmintimis: formatai

TMX, Text, Excel, Access, Trados WB, Catalyst

TMX, Text, Trados WB

TMX TMX

Sugretinimas

Galimybė sugretinti skirtingų formatų originalo- vertimo tekstus

Yra Yra Nėra Nėra

Versijos DVX Standard; DVX Professional; DVX Workgroup

SDLX 2004 Standard; SDLX 2004 Professional;

Trados 6.5 Language Service Provider (LSP);

Transit XV

– 116 –

Vertimo atmintys: praktika ir taikymo perspektyvos kompiuterinio vertimo sistemose

SDLX 2004 Elite

Trados 6.5 Freelance

Nemokama ribotų galimybių versija laisvai samdomiems vertėjams

Yra Yra Nėra (yra tik mokomoji versija)

Yra

Kaina DVX Standard: 603 USD; DVX Professional: 1218 USD; DVX Workgroup: 2769 USD

SDLX 2004 Standard: 595.00 USD; SDLX 2004 Professional: 1,395.00 USD; SDLX 2004 Elite: 3,495.00 USD

Trados 6.5 Language Service Provider (LSP): Trados 6.5 Freelance:

Transit XV

• Lyginimo kriterijai parinkti pagal: François Massion, “Cuatro formas diferentes de traducir”, La

comunicación técnica, 2 (2003). 1-8 [10]. Kelios TB sistemos taip pat gali būti sujungiamos į vieną, jų turinys gali būti eksportuojamas į kitą formatą

(pvz., Trados 5.5 Multiterm terminų bazių turinys gali būti perkeliamas į Multiterm iX formatą), į jas galima importuoti kito formato failus arba atsispausdinti. Naudojant TB, vertimas tampa nuoseklesnis, be to, pradėjus naują vertimo projektą, vertėjui nereikia iš naujo ieškoti terminų,. Kiti privalumai: informaciją elektroniniame formate lengviau atnaujinti nei kartotekas, užtikrinama greita paieška didelėse terminų bazėse, vertimas atliekamas per trumpesnį laiką, nes terminai iš TB kopijuojami tiesiai į vertimo tekstą.

Terminų tvarkybos sistemos gali būti naudojamos ne tik kaip autonominės programos: jas gali naudoti ir pildyti daug vertėjų. Tai ypač svarbu vykdant projektus (Bowker iš Somers, 2001:59) [2], kai reikia keistis duomenimis su klientais ar kitais vertėjais. Skirtingos sistemos saugo informaciją skirtinguose formatuose; informacija galima keistis tik tada, kai failų formatai suderinami ar juos galima keisti. Kai kurios terminų tvarkybos sistemos suteikia galimybę tiesiogiai eksportuoti duomenis į teksto redaktorius ar stalinės leidybos sistemos formatus; kitos leidžia duomenis importuoti ir eksportuoti pagal tarptautinius standartus, pavyzdžiui, MARTIF-ISO 12200. Neseniai Lokalizacijos industrijos standartų asociacija LISA (Localisation Industry Standards Association) sukūrė naują standartą TBX (Term Base eXchange) (Bowker iš Somers, 2003:59) [2]. 1 lentelėje pateikiamos pagrindinės labiausiai paplitusių sistemų charakteristikos [3-9].

Kompiuterizuotas vertimas – viena iš tokių sričių, kur tarptautinė kompiuterinių kalbos resursų teikiamų galimybių taikymo patirtis sparčiai žengia į priekį. Kadangi kompiuterinės lietuvių kalbos apdorojimo technologijos jau yra pakankamai išvystytas, o KV – viena iš tų kompiuterinės lingvistikos sričių, kuri, nors ir būdama labai aktuali, dar tebėra užuomazgos stadijoje, todėl tikslinga pasinaudoti kitų kalbų kompiuterizavimo ir KV patirtimi, t. y. dabar sėkmingai naudojamais tekstynų lingvistikos produktais ir ypač dvikalbiais lygiagrečiaisiais ar palyginamaisiais tekstynais. Tekstynų lingvistikoje, kai kalbama apie dvikalbius (angl. bilingual corpora) ar daugiakalbius tekstynus (angl. multilingual corpora), aptariamos dvi pagrindinės jų rūšys: lygiagretusis tekstynas (angl. parallel c.) ir palyginamasis (angl. comparable c.) tekstynas. Abiejų pagrindas – originalo ir vertimo tekstai, nors šių tekstų santykis ir pateikimo forma skiriasi.

Apie galimybę versti, pasiremiant tiek iš originalių, tiek iš verstinių tekstų sudarytais tekstynais bene pirmą kartą prabilta prieš šiek tiek daugiau nei 10 metų (Baker, 1993) [13]. Prognozės pasitvirtino: dabar ir palyginamieji, ir lygiagretieji tekstynai sėkmingai naudojami kaip šaltiniai gretinamosios kalbų studijoms bei kaip vertimų „treniruokliai“. Gausėjant informacijai, didėja poreikis ir jos vertimams. Įrodyta, kad didelis dvikalbis tekstynas visada geriau nei dvikalbis žodynas. Nenuostabu, kad ieškoma ne tik priemonių pagreitinti įprastą vertėjo darbą, bet apskritai greitesnių vertimo būdų. Kaip rodo kitų šalių, pavyzdžiui, čekų KV specialistų patirtis, nustačius vertimo vienetus ir vertimo ekvivalentus lygiagrečiajame technikos kalbos tekstyne, galima tikėtis 85 proc. vertimo efektyvumo (Čmejrek, Cuřín, 2001) [14].

KTU pradėtas vykdyti KV projektas [11,12] taip pat numato pasinaudoti dvikalbiu (lietuvių – anglų) kalbų tekstynu. Pirmiausia – tai KTU Humanitarinių mokslų fakultete renkamu palyginamuoju technologijų mokslų kalbos tekstynu. Pastarasis tekstynas sudaromas remiantis 1998 m. Lietuvos Respublikos Vyriausybės patvirtinta ir Europos Sąjungoje galiojančia mokslo krypčių ir šakų klasifikacija. Tekstai turėtų atspindėti mokslinio stiliaus žanrus: straipsnį, disertaciją ar jos santrauką, konferencijos pranešimą, tezes, monografiją, vadovėlį ar kitą metodinę priemonę aukštosioms mokykloms. Deja, tokių tekstynų paruošimas yra nepaprastai sudėtingas darbas dėl daugelio

– 117 –


– 118 –

priežasčių: reikalinga pakankamai tobula šiuolaikinė programinė įranga, kuri garantuotų sąsają su kitomis KV posistemėmis; jame turi būti pakankamai sukaupta medžiagos; lygiagretūs tekstai turi būti paskirstyti pagal mokslų sritis ir t. t. VA naudojimo praktika ir jų kokybinė analizė rodo, kad naujos kartos KV sistemų lankstumui ir kokybei pagerinti reikėtų išnaudoti galimybę KV žodyno bazę papildyti vertimui naudingomis žiniomis, kurios yra kaupiamos VA saugyklose. Tai, žinoma, nėra lengvai išsprendžiamas uždavinys, tačiau kompleksinė VA ir KV sistemų kooperacija tam teikia vilčių.

3. Išvados Straipsnyje pateikiama VA kokybinė analizė ir lyginamos žinomos komercinės VA sistemos. Apibrėžiama

galimybė KV žodyno bazę papildyti vertimui naudingomis žiniomis, kurios yra kaupiamos VA saugyklose. Šis sprendimas leistų gerokai padidinti KV lankstumą ir pagerintų jų kokybę. Tai, žinoma, nėra lengvai išsprendžiamas uždavinys, tačiau kompleksinė VA ir KV sistemų kooperacija tam teikia vilčių. VA sukauptos vertimui vertingos kalbos žinios galėtų būti tam tikra alternatyva lygiagretiesiems tekstynams, kurių sudarymas yra pakankamai sudėtingas ir imlaus darbo reikalaujantis procesas.

Literatūra [1] F. Austermühl. Electronic Tools for Translators, UK, St. Jerome Publishing, 2001. [2] H. Somers. Computers and Translation. A Translator’s Guide. Amsterdam, John Benjamins Publ., 2003. [3] TRADOS Translation Guide. Trados Ireland Ltd., 2002. [4] TRADOS MultiTerm iX User Guide. Trados Ireland Ltd., 2002. [5] TRADOS Translator’s Workbench User Guide. Trados Ireland Ltd., 2002. [6] TRADOS internete : http:// www.trados.com; http://www.multiterm.com; http://www.translationzone.com. [7] TRANSIT internete: http://www.star-solutions.net. [8] Déjà Vu internete: http://www.atril.com. [9] SDLX internete: http://www.sdlx.com. [10] F. Massion. Cuatro formas diferentes de traducir, La comunicación téchnica, 2 (2003). 1-8. [11] B. Tamulynas. Valdoma kompiuterinė pagalba vertėjui daugiakalbėse komunikavimo sistemose. IV moksl. konf.

medžiaga „Informacinės Technologijos 2005: aktualijos ir perspektyvos“, Alytus, 2005, p. 7-14. [12] G. Barisevičius, B. Tamulynas. Multilingual lexicon design tool and database management system for MT. Proc. the

Second Baltic Conference on Human Language technologies, Tallinn, Estonia, 4-5 April, 2005, pp. 219-224. [13] M.Bacer, Corpus Linguistic and Translation studies: Implications and Applications. Text and Technology: in Honor of

John Sinclair. Amsterdam Philadelphia: John Benjamins Publishing Company, 1993, pp. 233-250. [14] M. Čmejrek, J.Cuřín. Automatic Extraction of Terminological Translation Lexicon from Czech-English Parallel Texts,

International Journal of Corpus Linguistics. Amsterdam/ Philadelphia: John Benjamins Publishing Company, 2001. pp. 1-12.

The use of translation memories and possibilities for their integration into computer translation systems

The article provides the analysis of functions and characteristics of translation memory systems, as well as the comparison of various aspects of popular commercial translation memory systems. Moreover, the possibilities for integration of translation memories into machine translation systems are highlighted in the article, for this solution would help enhance the effectiveness of machine translation systems. Though this objective is not the one to be easily attained, the mentioned integration seems viable. The contents of translation memory systems can be compared to parallel corpora, compilation of which is a demanding and time-consuming task.

Documents

I SEKCIJA - elibrary.lt · Skendelio „SKIEMUO“ skiria skiemenis, tačiau galima suskiemenuoti tik žodį, kurį reikia perkelti į kitą eilutę tekste, tad sužinoti, kaip skiemenuojamas