37
Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

  • Upload
    greg

  • View
    122

  • Download
    0

Embed Size (px)

DESCRIPTION

Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep. Kes õpetaks arvuti eesti keeles suhtlema?. Vastus: keeletehnoloogia Aga… Lihtne see pole. Mõelge, kuidas suhtlevad omavahel kaks inimest. Inimesed A ja B suhtlevad. A peas tekib mõte . A sõnastab mõtte. - PowerPoint PPT Presentation

Citation preview

Page 1: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Eesti keeles suhtlev arvuti – kas utoopia?

Heli Uibo, Kaili Müürisep

Eesti keeles suhtlev arvuti – kas utoopia?

Heli Uibo, Kaili Müürisep

Page 2: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Kes õpetaks arvuti eesti keeles suhtlema?

Kes õpetaks arvuti eesti keeles suhtlema?

• Vastus: keeletehnoloogia• Aga…• Lihtne see pole. Mõelge, kuidas suhtlevad

omavahel kaks inimest.

Page 3: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Inimesed A ja B suhtlevadInimesed A ja B suhtlevad

• A peas tekib mõte.• A sõnastab mõtte.• A ütleb mõtte välja.• B kuuleb A sõnu.• B saab aru, mida A ütles (oskab seda keelt).• B saab sisuliselt aru, mida A ütles (loodetavasti

on A ja B mõttemaailmad sedavõrd sarnased).• B-l tekib omakorda mõte, ta sõnastab selle, ütleb

välja jne.

Page 4: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Veidi teooriatVeidi teooriat

Kõik keeletehnoloogia rakendused eeldavad osalist või täielikku loomuliku keele analüüsi ja/või sünteesi (natural language processing = NLP)

Kirjaliku keele töötluse etapid:

Morfo-loogia (sõna)

Süntaks

(lause)

Semantika (lause

tähendus)

Analüüs e. tuvastus

Süntees e. genereerimine

Pragmaatika (lause

kontekst)

Page 5: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Veidi teooriat (2)Veidi teooriat (2)

• Mõnede rakenduste puhul on olulised just kõnetuvastus (speech-to-text) või kõnesüntees (text-to-speech)

kõnetuvastus

kõnesüntees

kirjaliktekst

kõne(helisignaalide jada)

Page 6: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Veidi teooriat (3)Veidi teooriat (3)

Loomuliku keele töötluse meetodid:– grammatikapõhised (mingist

lingvistilisest teooriast lähtudes koostatakse spetsiaalse struktuuriga sõnastikud ja reeglid)

– statistilised (suurte tekstikorpuste põhjal leitakse seaduspärasused, keeleteadusest eriti ei hoolita)

Page 7: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Keeletehnoloogia – mis ja milleks?Keeletehnoloogia – mis ja milleks?

• Keeletehnoloogia on infotehnoloogia haru, mis tegeleb inimkeele töötlusega.

• Keeletehnoloogia arendamise reaalsed eesmärgid: – muuta inimese suhtlus masinaga võimalikult

mugavaks (kasutajaliides loomulikus keeles);– aidata inimesel orienteeruda järjest kasvavas

infohulgas (infootsingusüsteemid, automaatsed sisukokkuvõtete tegijad);

Page 8: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Keeletehnoloogia – mis ja milleks? (2)Keeletehnoloogia – mis ja milleks? (2)

– aidata inimest keeleküsimustes (elektroonilised sõnastikud, õigekirja-, grammatika- ja stiilikorrektorid, tesaurused, täis- või poolautomaatsed tõlkijad);

– aidata puudega inimesi (kõne analüüs ja süntees pimedatele, kirjutamise ja lugemise abivahendid düslektikutele jne.)

kõrvalprodukt: kasu keeleteadusele (lingvistiliste teooriate kontroll praktikas, näiteks tekstikorpustel)

Page 9: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Mida keeletehnoloogia kasutabMida keeletehnoloogia kasutab

• Keeletehnoloogia kasutab teadmisi – arvutiteadusest– keeleteadusest– matemaatikast– psühholoogiast – inseneriteadusest

Page 10: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Millega keeletehnoloogia kõige üldisemalt tegeleb

Millega keeletehnoloogia kõige üldisemalt tegeleb

Keeletehnoloogia tegeleb – keeletarkvara väljatöötamisega– keeleressursside loomisega

Page 11: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

KeeletarkvaraKeeletarkvara

• Kõne tuvastus ja süntees• Õigekirja-, grammatika- ja stiilikorrektorid• Optilise tekstituvastuse (OCR) programmid

(teksti skanneerimisel)• Infootsisüsteemid• Keeleõppeprogrammid• Masintõlkesüsteemid

Page 12: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

KeeleressursidKeeleressursid

• Kirja- ja kõnekeelekorpused• Elektroonilised sõnastikud• Leksikaalsed andmebaasid• Formaliseeritud grammatikakirjeldused

Page 13: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Keeletehnoloogia maailmas Keeletehnoloogia maailmas

• Areng algas koos esimeste arvutitega– (“The spirit is strong but the flesh is weak.”)

• Peamiselt “suurte keelte” jaoks (inglise, prantsuse, saksa, hiina, jaapani, vene)

• Euroopa Liit tõlkeprobleemid

Page 14: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Tekstitoimeti juurde kuuluvad abivahendid

Tekstitoimeti juurde kuuluvad abivahendid

• Õigekirjakorrektor (spelling checker) – sõna tasandil õigekiri

• Grammatikakorrektor (grammar checker) – lause tasandil õigekiri

• Stiilikorrektor (style checker) – teksti tasandil õigekiri

• Automaatne poolitus (hyphenation)• Tesaurus (thesaurus) – aitab rikastada teksti

sõnavara sünonüümide abil

Page 15: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

InfootsisüsteemidInfootsisüsteemid• Otsingusüsteemid e. otsingumootorid (information

retrieval = IR)• Mitmekeelne otsing (multilingual information

retrieval)• Info ekstrahheerimissüsteemid (information

extraction = IE)• Dokumentide liigitus (classification)• Automaatne sisukokkuvõtete tegemine (automatic

summarization)

Page 16: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

MasintõlgeMasintõlge

• Sõnastikupõhised süsteemid• Tõlkemälu-põhised süsteemid• Tõelised masintõlkeprogrammid

Väike ülevaade sellest, mida veebist leidsin...

Page 17: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Kõne süntees ja tuvastusKõne süntees ja tuvastus

• Kõne süntees – elektroonilisel kujul olevast tekstist kõne genereerimine ehk arvuti “räägib”.

• Kõne analüüs e. kõnetuvastus – suulisest kõnest elektroonilise teksti genereerimine ehk arvuti “kuuleb”.

Page 18: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

KeeleõpeKeeleõpe

• Sõnastikud• Korpused• Hääldus

Page 19: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Veel keeletehnoloogia rakendusiVeel keeletehnoloogia rakendusi

• Loomuliku keele liidesega infootsi-süsteemid (enamasti valdkond piiritletud: transport, geograafia vm.)

www.askjeeves.com – universaalne• Keelemõistataja - arvuti arvab ära, mis keeles on

tekst kirjutatud http://odur.let.rug.nl/~vannoord/TextCat/Demo/textcat.html (XRCE = Xerox Research Centre Europe)

Page 20: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Keeletehnoloogia EestisKeeletehnoloogia Eestis

• Kõne süntees Küberneetika Instituudis ja Eesti Keele Instituudis(www.ee/eks)

• Sõnastikud Eesti Keele Instituudis (www.eki.ee)

• Korpused Tartu Ülikoolis (www.cl.ut.ee)• Morfoloogia- ja süntaksianalüsaatorid• Tesaurused• Dialoogimudelid

Page 21: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogiline analüüsMorfoloogiline analüüsMorfoloogiaanalüsaatorid: 1) ESTMORF (H. Kaalep). Sellest arendatud ka MS

Office’i speller2) Ü. Viks (Eesti Keele Instituut):

klassifikatoorne morfoloogia “Väike vormisõnastik”avatud morfoloogiamudel

3) H. Uibo kahetasemelise morfoloogiamudeli rakendamise katsed

Page 22: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogiline analüüs (2)Morfoloogiline analüüs (2)

• Morfoloogiaanalüsaator ESTMORF (H.-J. Kaalep) suudab leida õige morfoloogilise tõlgenduse üle 99% sõnadele.

• Üle 45% eesti keele sõnadest morfoloogiliselt mitmeti tõlgendatavad (homonüümid).

morfoloogiline ühestamine

Page 23: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogiline ühestamineMorfoloogiline ühestamine

Morfoloogilised ühestajad:

1) kitsenduste grammatikal põhinev (T. Puolakainen)

2) statistiline (H.Kaalep, T.Vaino)

Page 24: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogiline ühestamine (2)Morfoloogiline ühestamine (2)• Sagedasemad mitmesused:

partitsiipide verbi ja omadussõna tõlgenduste vahel (vrd. Neid ei nähtud. Nähtud film.)

nimisõnade nimetava, omastava ja osastava (saba) või omastava, osastava ja lühikese sisseütleva vahel (metsa)

kaassõna, määrsõna ja nimisõna vahel (andis võtmed minu kätte; kass sai hiire kätte; pani kindad kätte)

Page 25: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogilise ühestamise probleemid (3)

Morfoloogilise ühestamise probleemid (3)

• Sagedased mitmeti tõlgendatavad verbivormid: sai, viis, tee,või, tuli

Page 26: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogiline ühestamine (3)Morfoloogiline ühestamine (3)Näide lahendamatust mitmesusest:

(1) maailma-GEN juhtivad majandusriigid

(2) maailma-PART juhtivad majandusriigid

(3) maailma-ILLAT juhtivad majandusriigid

Page 27: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Morfoloogiline ühestamine - tulemusedMorfoloogiline ühestamine - tulemused

• 85-90 % sõnadest saavad ühese morfoloogilise tõlgenduse.

• Vigu on vähem kui 2 %.

Page 28: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Süntaktiline märgendamine - probleemidSüntaktiline märgendamine - probleemidMäärused või määruslikud täiendid:

Ta võttis praeahjust panniTa võttis vasest ahjuroobi

Omastavas käändes sihitis või eestäiendTa ostis selle linna turult

Alus ja sihitisTal ei olnud enamasti midagi ütelda

Alus ja määrusSee kord ilmus, kord kadus

Page 29: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Süntaktiline märgendamine - veadSüntaktiline märgendamine - vead

Kiilud ja poolitatud osalaused Seega oli samm, mille astus Eesti, palju pikem ja otsustavam.Fraasipiirid: Peapiiskop Korneliuse tegevuses on aimatavad erinevad motiivid.KvantoridAsesõnade ühildumine

Page 30: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Süntaktiline märgendamine - tulemused

Süntaktiline märgendamine - tulemused

• Korrektsus 96,5 - 98,5%• Üheseid analüüse 83-90% • Mitmesus tingitud peamiselt semantikast ja

lause keerulisest struktuurist

Page 31: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Süntaksianalüsaatori rakendusedSüntaksianalüsaatori rakendused

• Nimisõnafraaside tuvastaja• Automaatne sisukokkuvõtete tegija

Page 32: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

TesaurusTesaurus• Arvutileksikon, kus sõnad on nende tähenduste järgi

organiseeritud hierarhilisse struktuuri – sõnade võrku (WordNet).

• Eesti keel kuulub ühena seitsmest keelest EuroWordNet’I (teised keeled: hollandi, itaalia, hispaania, saksa, prantsuse, tšehhi)

• Võrk kajastab erinevaid seoseid, nt ülem- ja alammõisted (auto – liiklusvahend) või osa- tervikuseosed (mootor – auto)

• 12 000 sõna

Page 33: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Veel ...Veel ...

• Semantilise ühestamise programm semyhe (K. Kaljurand, N. Kahusk) - põhineb WordNet’il

• Inglisekeelne infootsimissüsteem WebExtrAns koostöös Zürichi Ülikooliga (projekti juht M. Koit, meeskonnas K. Kaljurand, N. Kahusk)

• Dialoogimudelid (M. Koit, H. Õim, T. Hennoste, M. Kullasaar, E. Vutt jt.)

Page 34: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Tekst-kõne sünteesi demodTekst-kõne sünteesi demod

• MBROLA projekt de Mons'i ülikoolis (Belgias)

http://tcts.fpms.ac.be/synthesis/mbrola.html– vaba kõnesünteesitarkvara– difoonide andmebaasid 24 keele jaoks,

sh. eesti keel (E. Meister, A. Eek, M. Mihkla)

Page 35: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Tekst-kõne sünteesi demod (2)Tekst-kõne sünteesi demod (2)

• Belli laborid http://www1.bell-labs.com/project/tts/

voices.html – inglise keelel põhinev, – annab valida, kas arvuti räägib mehe,

naise, lapse, kohvijooja vm. häälega

Page 36: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Tekst-kõne sünteesi demod (3)Tekst-kõne sünteesi demod (3)

• AT&T laborid http://www.research.att.com/~mim/cgi-bin/ttsdemo – loeb inglise keelt suhteliselt hästi– suurtähtedega kirjutatud või täpitähti

sisaldavat teksti hääldab tähthaaval

Page 37: Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep

Tekst-kõne sünteesi demod (4)Tekst-kõne sünteesi demod (4)

• Eesti keele kõnesüntees - E. Meister jt. TÜ Küberneetika instituudi foneetika ja

kõnetehnoloogia labordemo veebis: kiisu.eki.ee