Upload
greg
View
122
Download
0
Embed Size (px)
DESCRIPTION
Eesti keeles suhtlev arvuti – kas utoopia? Heli Uibo, Kaili Müürisep. Kes õpetaks arvuti eesti keeles suhtlema?. Vastus: keeletehnoloogia Aga… Lihtne see pole. Mõelge, kuidas suhtlevad omavahel kaks inimest. Inimesed A ja B suhtlevad. A peas tekib mõte . A sõnastab mõtte. - PowerPoint PPT Presentation
Citation preview
Eesti keeles suhtlev arvuti – kas utoopia?
Heli Uibo, Kaili Müürisep
Eesti keeles suhtlev arvuti – kas utoopia?
Heli Uibo, Kaili Müürisep
Kes õpetaks arvuti eesti keeles suhtlema?
Kes õpetaks arvuti eesti keeles suhtlema?
• Vastus: keeletehnoloogia• Aga…• Lihtne see pole. Mõelge, kuidas suhtlevad
omavahel kaks inimest.
Inimesed A ja B suhtlevadInimesed A ja B suhtlevad
• A peas tekib mõte.• A sõnastab mõtte.• A ütleb mõtte välja.• B kuuleb A sõnu.• B saab aru, mida A ütles (oskab seda keelt).• B saab sisuliselt aru, mida A ütles (loodetavasti
on A ja B mõttemaailmad sedavõrd sarnased).• B-l tekib omakorda mõte, ta sõnastab selle, ütleb
välja jne.
Veidi teooriatVeidi teooriat
Kõik keeletehnoloogia rakendused eeldavad osalist või täielikku loomuliku keele analüüsi ja/või sünteesi (natural language processing = NLP)
Kirjaliku keele töötluse etapid:
Morfo-loogia (sõna)
Süntaks
(lause)
Semantika (lause
tähendus)
Analüüs e. tuvastus
Süntees e. genereerimine
Pragmaatika (lause
kontekst)
Veidi teooriat (2)Veidi teooriat (2)
• Mõnede rakenduste puhul on olulised just kõnetuvastus (speech-to-text) või kõnesüntees (text-to-speech)
kõnetuvastus
kõnesüntees
kirjaliktekst
kõne(helisignaalide jada)
Veidi teooriat (3)Veidi teooriat (3)
Loomuliku keele töötluse meetodid:– grammatikapõhised (mingist
lingvistilisest teooriast lähtudes koostatakse spetsiaalse struktuuriga sõnastikud ja reeglid)
– statistilised (suurte tekstikorpuste põhjal leitakse seaduspärasused, keeleteadusest eriti ei hoolita)
Keeletehnoloogia – mis ja milleks?Keeletehnoloogia – mis ja milleks?
• Keeletehnoloogia on infotehnoloogia haru, mis tegeleb inimkeele töötlusega.
• Keeletehnoloogia arendamise reaalsed eesmärgid: – muuta inimese suhtlus masinaga võimalikult
mugavaks (kasutajaliides loomulikus keeles);– aidata inimesel orienteeruda järjest kasvavas
infohulgas (infootsingusüsteemid, automaatsed sisukokkuvõtete tegijad);
Keeletehnoloogia – mis ja milleks? (2)Keeletehnoloogia – mis ja milleks? (2)
– aidata inimest keeleküsimustes (elektroonilised sõnastikud, õigekirja-, grammatika- ja stiilikorrektorid, tesaurused, täis- või poolautomaatsed tõlkijad);
– aidata puudega inimesi (kõne analüüs ja süntees pimedatele, kirjutamise ja lugemise abivahendid düslektikutele jne.)
kõrvalprodukt: kasu keeleteadusele (lingvistiliste teooriate kontroll praktikas, näiteks tekstikorpustel)
Mida keeletehnoloogia kasutabMida keeletehnoloogia kasutab
• Keeletehnoloogia kasutab teadmisi – arvutiteadusest– keeleteadusest– matemaatikast– psühholoogiast – inseneriteadusest
Millega keeletehnoloogia kõige üldisemalt tegeleb
Millega keeletehnoloogia kõige üldisemalt tegeleb
Keeletehnoloogia tegeleb – keeletarkvara väljatöötamisega– keeleressursside loomisega
KeeletarkvaraKeeletarkvara
• Kõne tuvastus ja süntees• Õigekirja-, grammatika- ja stiilikorrektorid• Optilise tekstituvastuse (OCR) programmid
(teksti skanneerimisel)• Infootsisüsteemid• Keeleõppeprogrammid• Masintõlkesüsteemid
KeeleressursidKeeleressursid
• Kirja- ja kõnekeelekorpused• Elektroonilised sõnastikud• Leksikaalsed andmebaasid• Formaliseeritud grammatikakirjeldused
Keeletehnoloogia maailmas Keeletehnoloogia maailmas
• Areng algas koos esimeste arvutitega– (“The spirit is strong but the flesh is weak.”)
• Peamiselt “suurte keelte” jaoks (inglise, prantsuse, saksa, hiina, jaapani, vene)
• Euroopa Liit tõlkeprobleemid
Tekstitoimeti juurde kuuluvad abivahendid
Tekstitoimeti juurde kuuluvad abivahendid
• Õigekirjakorrektor (spelling checker) – sõna tasandil õigekiri
• Grammatikakorrektor (grammar checker) – lause tasandil õigekiri
• Stiilikorrektor (style checker) – teksti tasandil õigekiri
• Automaatne poolitus (hyphenation)• Tesaurus (thesaurus) – aitab rikastada teksti
sõnavara sünonüümide abil
InfootsisüsteemidInfootsisüsteemid• Otsingusüsteemid e. otsingumootorid (information
retrieval = IR)• Mitmekeelne otsing (multilingual information
retrieval)• Info ekstrahheerimissüsteemid (information
extraction = IE)• Dokumentide liigitus (classification)• Automaatne sisukokkuvõtete tegemine (automatic
summarization)
MasintõlgeMasintõlge
• Sõnastikupõhised süsteemid• Tõlkemälu-põhised süsteemid• Tõelised masintõlkeprogrammid
Väike ülevaade sellest, mida veebist leidsin...
Kõne süntees ja tuvastusKõne süntees ja tuvastus
• Kõne süntees – elektroonilisel kujul olevast tekstist kõne genereerimine ehk arvuti “räägib”.
• Kõne analüüs e. kõnetuvastus – suulisest kõnest elektroonilise teksti genereerimine ehk arvuti “kuuleb”.
KeeleõpeKeeleõpe
• Sõnastikud• Korpused• Hääldus
Veel keeletehnoloogia rakendusiVeel keeletehnoloogia rakendusi
• Loomuliku keele liidesega infootsi-süsteemid (enamasti valdkond piiritletud: transport, geograafia vm.)
www.askjeeves.com – universaalne• Keelemõistataja - arvuti arvab ära, mis keeles on
tekst kirjutatud http://odur.let.rug.nl/~vannoord/TextCat/Demo/textcat.html (XRCE = Xerox Research Centre Europe)
Keeletehnoloogia EestisKeeletehnoloogia Eestis
• Kõne süntees Küberneetika Instituudis ja Eesti Keele Instituudis(www.ee/eks)
• Sõnastikud Eesti Keele Instituudis (www.eki.ee)
• Korpused Tartu Ülikoolis (www.cl.ut.ee)• Morfoloogia- ja süntaksianalüsaatorid• Tesaurused• Dialoogimudelid
Morfoloogiline analüüsMorfoloogiline analüüsMorfoloogiaanalüsaatorid: 1) ESTMORF (H. Kaalep). Sellest arendatud ka MS
Office’i speller2) Ü. Viks (Eesti Keele Instituut):
klassifikatoorne morfoloogia “Väike vormisõnastik”avatud morfoloogiamudel
3) H. Uibo kahetasemelise morfoloogiamudeli rakendamise katsed
Morfoloogiline analüüs (2)Morfoloogiline analüüs (2)
• Morfoloogiaanalüsaator ESTMORF (H.-J. Kaalep) suudab leida õige morfoloogilise tõlgenduse üle 99% sõnadele.
• Üle 45% eesti keele sõnadest morfoloogiliselt mitmeti tõlgendatavad (homonüümid).
morfoloogiline ühestamine
Morfoloogiline ühestamineMorfoloogiline ühestamine
Morfoloogilised ühestajad:
1) kitsenduste grammatikal põhinev (T. Puolakainen)
2) statistiline (H.Kaalep, T.Vaino)
Morfoloogiline ühestamine (2)Morfoloogiline ühestamine (2)• Sagedasemad mitmesused:
partitsiipide verbi ja omadussõna tõlgenduste vahel (vrd. Neid ei nähtud. Nähtud film.)
nimisõnade nimetava, omastava ja osastava (saba) või omastava, osastava ja lühikese sisseütleva vahel (metsa)
kaassõna, määrsõna ja nimisõna vahel (andis võtmed minu kätte; kass sai hiire kätte; pani kindad kätte)
Morfoloogilise ühestamise probleemid (3)
Morfoloogilise ühestamise probleemid (3)
• Sagedased mitmeti tõlgendatavad verbivormid: sai, viis, tee,või, tuli
Morfoloogiline ühestamine (3)Morfoloogiline ühestamine (3)Näide lahendamatust mitmesusest:
(1) maailma-GEN juhtivad majandusriigid
(2) maailma-PART juhtivad majandusriigid
(3) maailma-ILLAT juhtivad majandusriigid
Morfoloogiline ühestamine - tulemusedMorfoloogiline ühestamine - tulemused
• 85-90 % sõnadest saavad ühese morfoloogilise tõlgenduse.
• Vigu on vähem kui 2 %.
Süntaktiline märgendamine - probleemidSüntaktiline märgendamine - probleemidMäärused või määruslikud täiendid:
Ta võttis praeahjust panniTa võttis vasest ahjuroobi
Omastavas käändes sihitis või eestäiendTa ostis selle linna turult
Alus ja sihitisTal ei olnud enamasti midagi ütelda
Alus ja määrusSee kord ilmus, kord kadus
Süntaktiline märgendamine - veadSüntaktiline märgendamine - vead
Kiilud ja poolitatud osalaused Seega oli samm, mille astus Eesti, palju pikem ja otsustavam.Fraasipiirid: Peapiiskop Korneliuse tegevuses on aimatavad erinevad motiivid.KvantoridAsesõnade ühildumine
Süntaktiline märgendamine - tulemused
Süntaktiline märgendamine - tulemused
• Korrektsus 96,5 - 98,5%• Üheseid analüüse 83-90% • Mitmesus tingitud peamiselt semantikast ja
lause keerulisest struktuurist
Süntaksianalüsaatori rakendusedSüntaksianalüsaatori rakendused
• Nimisõnafraaside tuvastaja• Automaatne sisukokkuvõtete tegija
TesaurusTesaurus• Arvutileksikon, kus sõnad on nende tähenduste järgi
organiseeritud hierarhilisse struktuuri – sõnade võrku (WordNet).
• Eesti keel kuulub ühena seitsmest keelest EuroWordNet’I (teised keeled: hollandi, itaalia, hispaania, saksa, prantsuse, tšehhi)
• Võrk kajastab erinevaid seoseid, nt ülem- ja alammõisted (auto – liiklusvahend) või osa- tervikuseosed (mootor – auto)
• 12 000 sõna
Veel ...Veel ...
• Semantilise ühestamise programm semyhe (K. Kaljurand, N. Kahusk) - põhineb WordNet’il
• Inglisekeelne infootsimissüsteem WebExtrAns koostöös Zürichi Ülikooliga (projekti juht M. Koit, meeskonnas K. Kaljurand, N. Kahusk)
• Dialoogimudelid (M. Koit, H. Õim, T. Hennoste, M. Kullasaar, E. Vutt jt.)
Tekst-kõne sünteesi demodTekst-kõne sünteesi demod
• MBROLA projekt de Mons'i ülikoolis (Belgias)
http://tcts.fpms.ac.be/synthesis/mbrola.html– vaba kõnesünteesitarkvara– difoonide andmebaasid 24 keele jaoks,
sh. eesti keel (E. Meister, A. Eek, M. Mihkla)
Tekst-kõne sünteesi demod (2)Tekst-kõne sünteesi demod (2)
• Belli laborid http://www1.bell-labs.com/project/tts/
voices.html – inglise keelel põhinev, – annab valida, kas arvuti räägib mehe,
naise, lapse, kohvijooja vm. häälega
Tekst-kõne sünteesi demod (3)Tekst-kõne sünteesi demod (3)
• AT&T laborid http://www.research.att.com/~mim/cgi-bin/ttsdemo – loeb inglise keelt suhteliselt hästi– suurtähtedega kirjutatud või täpitähti
sisaldavat teksti hääldab tähthaaval
Tekst-kõne sünteesi demod (4)Tekst-kõne sünteesi demod (4)
• Eesti keele kõnesüntees - E. Meister jt. TÜ Küberneetika instituudi foneetika ja
kõnetehnoloogia labordemo veebis: kiisu.eki.ee