30
Keele ja tehnoloogia piirimail Pille Eslon 26. aprill 2016

Venia Legendi 2016: Pille Eslon

Embed Size (px)

Citation preview

Page 1: Venia Legendi 2016: Pille Eslon

Keele ja tehnoloogia piirimail

Pille Eslon 26. aprill 2016

Page 2: Venia Legendi 2016: Pille Eslon

Piirimaade võlu: uued arengud

� Bioloogia + semiootika = biosemiootika

� Keel + tehnoloogia = keeletehnoloogia

� Arvuti + lingvistika = arvutilingvistika

� Lingvistika + rakendused = rakenduslingvistika

� Tekstid > tekstikogud > korpused + lingvistika = tekstilingvistika ja korpuslingvistika

Page 3: Venia Legendi 2016: Pille Eslon

Arvutilingvistika ja keeletehnoloogia

� Arvutilingvistika ja keeletehnoloogia asuvad lingvistika ja informaatika vahel (Muischnek jt 2012: 67)

– arvutilingvistika on lähemal keeleteadusele, ühendav lüli on teadmine loomulikust keelest

– keeletehnoloogia on lähemal arvutiteadusele, arvutilingvistika rakenduslik pool

Page 4: Venia Legendi 2016: Pille Eslon

Korpus- ja arvutilingvistika

– Korpuslingvistika ja arvutilingvistika pakuvad keeletehnoloogilisi rakendusi, nt leksikograafias, keeleõppes, masintõlkes, loovad automaatselt töötavaid programme jm korpusanalüüsi vahendeid � Morfo- ja süntaksianalüsaator, lemmatiseerija,

poolitaja, speller, silbitaja, grammatikakorrektor, leksikograafide töövahend E-lex, tõlkija töökeskkond, automattõlke programmid, tekst-kõne süntees jm – sh TLÜ-s õppijakeele vealeidja, sõnajärjeleidja,

keeleoskustasemete automaatne tuvastamine, pöördsõnastik

Page 5: Venia Legendi 2016: Pille Eslon

Põhivastuolu

� Grammatikareeglid vs. kasutusreeglid, mentaalne vs. reaalne grammatika, normeeritud kirjakeele standard vs. kasutusstandard (ingl standard-in-use) – Uurimisobjekt: keele süsteemsed vs. keele tekstikasutuse seaduspärad

� Keelestruktuuri paradigmaatiline kirjeldus, keelendite süsteemsed funktsioonid

� Keelekasutus: keelendite omavaheline kombineerimine tekstis ehk süsteemsete seoste rakendus süntagmaatilises aspektis

Page 6: Venia Legendi 2016: Pille Eslon

Väike näide

� Ei lange kokku inglise keele – if-konstruktsiooni põhireegel grammatikas

– if-konstruktsiooni põhireegel emakeelekõneleja tekstikasutuses

– Kasutamisraskused saksa emakeelega inglise keele õppijate tekstiloomes (vead isegi C1 tasemel)

(vt Römer 2007)

� Vastuolud grammatikatest ja õpikutest pärit keeleandmete ning korpusandmete vahel – õpetajate hinnangul puudutab vähemalt 16

leksikaalgrammatilist nähtust (vt Tsui 2005: 336–339)

Page 7: Venia Legendi 2016: Pille Eslon

Põhimõtteline küsimus

� Kas teoreetilise lingvistika ja kasutusgrammatika vahel on otsene seos või peab rakenduslingvistika välja töötama oma teooria, mis lingvistikat ja keelekasutust vahendab ning nendevahelisi seoseid interpreteerib, k.a lingvistika seoseid muude diststipliinidega (nt keeleõppe, automaattõlke, leksikograafia, tekstitöötluse vajadused), vt Widdowson 2000 – Arvutite ja esinduslike korpuste kasutuselevõtmine on

loonud põhimõtteliselt uue olukorra – Korpus- ja arvutilingvistika kui iseseisevad distsipliinid

Page 8: Venia Legendi 2016: Pille Eslon

Väärtustamine

� Biber, Conrad, Reppen 2006: 55–58 – tarkvaraprogrammide ja arvutusmeetodite rakendamine

korpuspõhistes sõnavara- ja grammatikauurimustes on kujundanud uue arusaama, kuidas inimene keelt tegelikult kasutab

– tähelepanu keskmes lekseemide kooskasutus, sõnavormide distributiivsed omadused, semantika-vormi-funktsiooni varieerumine ja varieerumise piirid, esinemus � Joseph Greenberg , Martin Haspelmath, Wolfgang Wurzel,

Wolfgang Dressler:

sage = tavaline ja seega loomulik –– loomulik morfoloogia

Sage = markeerimata – markeerituse teooria (Eckman, Croft, Haspelmath, Lee, Remes jt)

Page 9: Venia Legendi 2016: Pille Eslon

Uued küsimused

� Noam Chomsky (1956) pessimism: kas korpused ja korpuslingvistilised meetodid ikka sobivad teoreetilise lingvistika ülesannete lahendamiseks? – Korpuste representatiivsus, andmete tõeväärsus – Piiratud andmehulk, piiratud rakendused

� Kas nt keeleõppijale piisab korpusainesest, mis tuleb esile kasutussageduse alusel?

– Keeletehnoloogilised probleemid, nt semantiline ühestamine � Keeletehnoloogilised lahendused häälikute, vormide, lekseemide,

konstruktsioonide, lausete analüüsiks ja sünteesiks � Raskused sõna ja lause semantikaga (nt leksikaalsed ja

grammatilised homonüümid) – ühestamise probleemid

Page 10: Venia Legendi 2016: Pille Eslon

Samas ...

� 20. sajandi teisest poolest on korpuslingvistika iseseisev metodoloogiline suund

� korpuslingvistilistilisi meetodeid rakendades lahendatakse keeleõppe, automaattõlke, masinõppe, leksikograafia jm probleeme – keeletarkvara – mitmetasemelised statistilised mudelid – arvutused ja saadud tulemuste põhjal ennustamine – R & erinevad statistilise andmeanalüüsi tehnikad

(vt Gries to appear, 179–180)

Page 11: Venia Legendi 2016: Pille Eslon

Korpusest tulenev avastuspõhine suund

� Rakendatakse erinevaid andmekaeve tehnikaid ja statistilise andmetöötluse vahendeid – Avatud Markovi mudel, n-grammid ehk mitmikud � juhtiv meetod keelelise varieerumise uurimiseks –

lineaarne diskriminantanalüüs

� sageli korrelatsiooni- ja regressioonianalüüs

� hea mõõta kahe valimi andmete sarnasust-erinevust, tuvastada valimitele omaseid kategoriaalseid seoseid ja sõltuvusi, modelleerida keelelise varieerumise piire ja keerukust jne (Vt Jarvis, Crossley 2012)

Page 12: Venia Legendi 2016: Pille Eslon

Klastrileidja

� Analüüsi vahend: Klastrileidja (Ots 2011; 2012) – töötab andmekaeve põhimõttel, otsib libisevalt

ühesuguseid sõnaliigijärjendeid

– Java programmina kasutab EstCG 1,0 parseri kitsenduste grammatika esimest ehk reeglipõhist versiooni (Kaili Müürisep ja Tiina Puolakainen)

– Veebirakendusena Eesti vahekeele korpuse kodulehel uus statistikapõhine versioon (selle versiooni kohta vt Muischnek jt 2012: 75–80)

– Veebirakendus loeb ka esimese versiooniga eelmärgendatud tekste

Page 13: Venia Legendi 2016: Pille Eslon

Kasutaja valikud olenevalt uurimuse või rakenduse eesmärgist

� kasutaja määrab

– n-grammi pikkuse

� tavaliselt bigramm, trigramm (vt Chodorow, Leacock 2000; Conklin, Schmitt 2008)

– analüüsi lingvistilise objekti

� morfoloogia

� süntaks

� morfosüntaks

– kas vaja arvestada kirjavahemärkidega

Page 14: Venia Legendi 2016: Pille Eslon

– programm väljastab analüüsi tulemused Excelis � n-grammi struktuur � struktuurilt sarnaste n-grammide ühendamine klastriteks

– esinemus määratud arvuliselt

� keelenäited

– n-grammide, klastrite, klasside hierarhia tugineb leitud struktuuride sagedusele ja osatähtsusele valimis

– lingvistiline interpreteerimine: � n-grammide varieerumine klastris > klastrite varieerumine

klassis > klasside varieerumine � n-grammide struktuurse, leksikaalsemantilise,

morfosüntaktilise ja funktsionaalse varieerumise piirid, sõna- ja vormivaliku piirangud

Page 15: Venia Legendi 2016: Pille Eslon

Näited

� Eesti vahekeele korpuse vene emakeelega gümnaasiumiõpilaste eesti keele olümpiaadi tööde alamkorpuse esseed

� kolm sagedamat sõnajärjemustrit **CLB @J @SUBJ @+FMV

451 kordust, nt et autor tahab @SUBJ @+FMV @ADVL

446 kordust, nt autor kirjeldab mitte @+FMV @ADVL @ADVL

415 kordust, nt on tänapäeval nii

Page 16: Venia Legendi 2016: Pille Eslon

� kolm sagedamat morfoloogilist struktuuri – tegusõna (V) + määrsõna (D) + määrsõna (D) ehk

VDD-struktuur

64 kordust, nt on veel vara

– eitus (V) + tegusõna (V) + määrsõna ehk

VVD-struktuur

57 kordust, nt ei tule enam

– määrsõna (D) + määrsõna (D) + määrsõna (D) ehk DDD-struktuur

52 kordust, nt juba kusagilt mujalt

Page 17: Venia Legendi 2016: Pille Eslon

� sagedam morfosüntaktiline muster

– kujuneb sageduselt teise morfoloogilise struktuuri VVD (_V_ aux neg + _V_ main indic pres ps neg #FinV #Intr + _D_)

– kuuenda süntaktilise struktuuri @NEG @+FMV

@ADVL põhjal

_V_ aux neg @NEG + _V_ main indic pres ps neg

#FinV #Intr @+FMV + _D_ @ADVL

nt ei tule enam

Page 18: Venia Legendi 2016: Pille Eslon

Mis esile tuleb?

� Keelekasutusmustrid – eelistused sõnaliikide lineaarsel kombineerimisel (vt Croft

1999; Ellis 2006) – seosed lekseemide semantika, morfosüntaksi ja tekstiliste

funktsioonide vahel (vt Tognini-Bonelli 2001; Ibbotson 2013)

– mitmesõnalised kooskasutused � lingvistilised ja statistiliselt ilmnenud (vt Evert 2005: 15-20;

Muischnek & Sahkai 2010: 296 jj) � püsiühendid (Kaalep, Muischnek 2009: 157) � kollokatsioonid, idioomid, vormelid (Masini 2005: 145–146)

– keelendite funktsionaalse potentsiaali avanemine � põhimõtteliselt uus teoreetilise lingvistika uurimistasand

Page 19: Venia Legendi 2016: Pille Eslon

Lingvistiline paradoks – vajab teooriat, mis seda seletaks

� Vastuolulised tendentsid – Keelekasutuse tüüpilisus vs. loomingulisus, kinnistunud

üksused vs. varieerumine � anna valu! on alles uni! pani pihta, võttis üle – keelestruktuurides

domineerib pigem idiomaatilisuse kui avatud valiku printsiip (Krikmann 2004; Sahkai 2008: 171–172)

– Entroopia ehk liiasuse ilmingud � samatähenduslikud sünteetilised ja analüütilised verbid (nt

lahkuma – ära minema) (Eslon, Paeoja 2015)

– Keelesüsteemi leksikaalgrammatilise perifeeria mobiilsus – tagab inimese keelelise kreatiivsuse, sageli kasutatud keelestruktuuridel on semantilised, morfosüntaktilised ja funktsionaalsed piirangud

Page 20: Venia Legendi 2016: Pille Eslon

Analoogia

� Keelekasutuses ei lähe suuremat osa grammatikast vaja – grammatika liiasus – analoogia geneetikanähtusega, kus suurem osa

genoomist kui geneetilise informatsiooni varamust töötab n-ö tühikäigul (junk DNA) ega ole organismi elutegevuseks otseselt vajalik � 95% vs. 5%

– sarnaselt junk DNA-ga ei saa 95% ehk liiasust pidada kasutuks – tagab genoomi säilimise (vt Markov jt 2010)

Page 21: Venia Legendi 2016: Pille Eslon

Keelekasutusmustrite rakendused

1. Empiiriline lingvistika ja kasutuspõhine keelekäsitlus

– Nt eesti keele adverbilised struktuurid verbist vasakul Trainis, Allkivi 2014; Eslon 2014:

� adverb-adverb-verb ehk DDV (küll nüüd jookseb, just alles

tuli, vist ära läinud)

� adverb-verbverb ehk DVV (veel ei liikunud, siis pani põlema)

� adverb-substantiiv-verb ehk DSV (ikka puhtust pidanud, ka

märki tabanud)

� verb-adverb-verb ehk VDV (oli äsja abiellunud, oli järsult

keeldunud)

Page 22: Venia Legendi 2016: Pille Eslon

– Verbist paremal:

� VDD: läks peagi laiali, vaatab otsivalt ringi

� VVD: ei tulnud kaua <oodata>, ei vaata tagasi, ei ole

võlgu, ei seisa paigal

� VDA: oli häirivalt tõsine, tundus nii värske, on

tõepoolest vastastikune, on lausa pöörane

� VSD: pööras pilgu ära, sai alguse juba, läks lukk rikki

� VDS: sai täiesti aru, pole niipea tulekut, tõi endiselt lisa

� VAS: tekkis ähmane lootuskiir, on võõras veri, olid

osavad käed

Page 23: Venia Legendi 2016: Pille Eslon

� Verbist vasakul – valdavalt ühendverbide kasutus

� Verbist paremal – suurem osa on väljendverbid

� Sõnajärg – mida vabam grammatika järgi, seda piiritletum keelekasutus

– Seos öeldise liigiga, adverb liitajavormide ja liitöeldise komponentide vahel:

� Verbi mineviku liitaja vorm – VDV: on/oli ammu kadunud (perfekt ja pluskvamperfekt) > on/oli ammu siit kadunud

� Liitöeldis – VDA: on juba ammu roheline, oli vist tõepoolest hea; VVD: ei vaata naljalt tagasi jne

Page 24: Venia Legendi 2016: Pille Eslon

2. Eesti keele õpe

– Keelekasutusmustrid verbist vasakul ja paremal – aktiivse grammatika põhistruktuurid sõnaliikide kombineerimisel

– Statistilised ja idiomaatilised kooskasutused = aktiivne sõnavara + võimalikud sünonüümsed ja antonüümsed asendused

– Aktiivsed sõnajärjemallid

Page 25: Venia Legendi 2016: Pille Eslon

3. Täpsustatud reeglid tarkvara arendajatele – Adverbide funktsioonid pole süntaksianalüsaatoris

täpsustatud – tähis @ADVL � VDD-struktuur, korduvalt kasutatud samas funktsioonis >

kinnistunud adverbikooslused eitavas kõnes > sidendi funktsioon

mitte ainult, enam üldse ja nii palju

polnud mitte ainult lapsed, vaid ka täiskasvanud (mitte ainult ... vaid ka); polnud enam üldse lapsed, vaid päris täiskasvanud

(enam üldse ... vaid); polnudki nii palju osavõtjaid, kui arvati

(nii palju ... kui)

polnud küll kunagi ja polnud küll päriselt ... aga, kuid, ent

Page 26: Venia Legendi 2016: Pille Eslon

– VDD-struktuur jaatavas kõnes: adverbid tõmbuvad semantilis-süntaktiliseks ja fonoloogiliseks terviküksuseks � partiklid nii, mitte ja ka või levinud kasutusega rõhusõnad

veel, enam, ikka ja küll tõmbuvad järgneva adverbilise komponendiga semantiliselt ja süntaktiliselt

– Analüütiliste üksuste ja liitadverbide kujunemine oli jälle kord ennast tõestanud, oli vaid veidi eemale läinud, oli

niivõrd hästi ette valmistatud, et ..

Varieerumine:

jällekord analoogselt adverbiga veelkord

<taevast> oli allasadanud ja <taevast> oli alla sadanud jm

Page 27: Venia Legendi 2016: Pille Eslon

Viidatud kirjandus

Biber, Douglas; Conrad, Susan; Reppen, Randi 2006. Corpus linguistics. Investigating language structure and use. New York: Cambridge University Press. (First published 1998.)

Chodorow, Martin, Claudia Leacock 2000. An unsupervised method for detecting grammatical errors. – NAACL 2000 Proceedings of the 1st North American chapter of the Assotiation for Computational Linguistics conference. Stroudsburg, USA: Assotiation for Computational Linguistics, 140–147.

Chomsky, Noam 1956. Three Models for the Description of Language. – IRE Transactions on Information theory (2), 113-124.

Conklin, Kathy; Schmitt, Norbert 2008. Formulaic sequences: Are they processed more quickly than nonformulaic language by native and nonnative speakers? – Applied Linguistics, 29/1, 72–89.

Croft , William 1999. Adaptation, optimality and diachrony. – Zeitschrift für Sprachwissenschaft 18 (2), 206–208. http://dx.doi.org/10.1515/zfsw.1999.18.2.206

Ellis, Nick C. 2006. Language aquisition as rational contingency learning. – Applied Linguistics 27 (1), 1–24. http://dx.doi.org/10.1093/applin/ami038

Eslon, Pille 2014. Adverbi sisaldavate struktuuride tekstifunktsioonidest eesti ilukirjandus- ja õppijakeeles. – Lähivõrdlusi/Lähivertailuja, 24, 15–46. doi:10.5128/LV24.01

Eslon, Pille; Paeoja, Heleriin 2015. Samatähenduslike sünteetiliste ja analüütiliste verbide kasutamine. – Lähivõrdlusi/Lähivertailuja, 25, 63–104. doi:10.5128/LV25.04

Page 28: Venia Legendi 2016: Pille Eslon

Evert, Stefan 2005. The Statistics of Word Cooccurrences, Word Pairs and Collocations. PhD dissertation. Institut für maschinelle Sprachverarbeitung Universität Stuttgart.

Gries, Stefan Th. (to appear). Statistics for learner korpus research. – The Cambridge Handbook of Learner Corpus Research. Eds. Gaëtanelle Gilquin, Sylviane Granger, Fanny Meunier. Cambridge: Cambridge University Press, 159–182. http://www.linguistics.ucsb.edu/faculty/stgries/research/ToApp_STG_StatsForLCR_CambHbOfLCR.pdf (12.04.2016).

Ibbotson, Paul 2013. The scope of usage-based theory. – Frontiers in Psychology 4 (article 255), 1–15. http://dx.doi.org/10.3389/fpsyg.2013.00255

Jarvis, Scott; Crossley, Scott A. (Eds.) 2012. Approaching language transfer trough text classification: Exploring in the detection-based approach. Bristol, Buffalo, Toronto: Multilingual Matters.

Kaalep, Heiki-Jaan, Kadri Muischnek 2009. Eesti keele püsiühendid arvutilingvistikas: miks ja kuidas. – Eesti Rakenduslingvistika Ühingu aastaraamat 5, 157–172. http://dx.doi.org/10.5128/ERYa5.10

Krikmann, Arvo 2004. “Sai hea obaduse vastu obadust”: löömist ja peksmist märkivad väljendid eesti keeles. Reetor 3. Tartu: Eesti Kirjandusmuuseumi folkloristika osakond, eesti kultuuriloo ja folkloristika keskus.

Page 29: Venia Legendi 2016: Pille Eslon

Markov jt 2010 = � ✁ ✂ ✄ ☎ ✆ ✝ ✞ ✟ ✄ ✠ ✁ ✡ ☛ ✂ ☞ ✞ ✁ ☛ ✌ ✍ ✌ ✂ ☎ ✆ ✌ ✎ , ☞ ✁ ✞ ✟ ✂ ✌ ✏ ✝ ✡ ✁ ✑ ☎ ✞ ✒ ✟ ✆ ✌ ✎ ✝ ✡ ✌ ✠ ✌ ✍ ☎ ✆ ,

✝ ✡ ☛ ✂ ✟ ✏ ☞ ✌ ✑ ✁ ✞ ✒ ✟ ✆ ✌ ✎ ✓ ☎ ✂ ☎ ✑ ✁ ✟ ✆ 2010. ☞ ✔ ✁ ✌ ✍ ☎ ✠ ✆ ✕ ✔ ✒ ✂ ✁ ✔ ✍ ✟ ✂ ✁ ✖ ✟ ✡ ☎ ✍ ✁ ✌ ✠ ✞ ☎ ✗ ✡ ☎ ✠ ✑ ✌ ☎ ✂ ✖ ✁ ✡ ✌ ✔ ✍ ✁ ✆

✘ ✙ ✚ ✛ ✜ ✢ ✣ ✚ ✤ ✤ ✚ ✥ ✦ ✧ ★ ✩ ✚ ✪ ✫ ✦ ✚ ✬ ✭ ✦ ✣ ✚ ✪ ✬ ✥ ✛ ✮ ✬ ✚ ✫ ✣ ✪ ✭ ✜ ✯ ✣ ✥ . – ✰ ✭ ✛ ✮ ✚ ✤ ✪ ✚ ✛ ✚ ✱ ✣ ✲ ✮ ✳ ✬ ✣ ✴ ✵ ✩ ✦ ✤ ✭ ✛ ✶ 4, 3–14.

Masini, Francesca 2005. Multi-word expressions between syntax and the lexicon: ,e case of Italian verb-particle constructions. – SKY Journal of Linguistics 18, 145–173. http://www.ling.helsinki."/sky/julkaisut/SKY2005/ Masini.pdf (30.5.2014).

Muischnek jt 2012 = Muischnek, Kadri; Fišel, Mark; Kaalep, Heiki-Jaan; Koit, Mare; Müürisep, Kaili; Orav, Heili; Vare, Kadri; Õim, Haldur 2012. Arvutilingvistika ja keeletehnoloogia Tartu Ülikoolis. – Emakeele Seltsi aastaraamat, 57 (2011), 66–102. doi: 10.3176/esa57.05

Muischnek, Kadri, Heete Sahkai 2010. Liitpredikaadid leksikoni-grammatika kontiinumil: konstruktsioonide produktiivsusest verbiga minema moodustatud liitpredikaatide näitel. – ESUKA – JEFUL 1 (2), 295–316.

Ots, Sander 2012. Statistikapõhise tarkvara loomine morfoloogiliste kollokatsioonide eraldamiseks eesti keele tekstidest. Bakalaureusetöö. Tallinna Ülikooli informaatika instituut.

Ots, Sander 2011. Tarkvara statistiliste kollokatsioonide eraldamiseks ning selle rakendus morfosüntaktilises analüüsis. Seminaritöö. Tallinna Ülikooli informaatika instituut.

Page 30: Venia Legendi 2016: Pille Eslon

Römer, Ute 2007. Learner language and the norms in native corpora and EFL teaching materials: A case study of English conditionals. – Anglistentag 2006 Halle. Proceedings. Sabine Volk-Birke, Julia Lippert (Eds.). Trier: Wissenschaftlicher Verlag Trier. 355–363. http://uteroemer.weebly.com/uploads/5/5/7/7/5577406/at_halle_paper_roemer_2007_on_conditionals.pdf (17.08.2015).

Sahkai, Heete 2008. Konstruktsioonipõhine keelemudel ja sõnaraamatumudel. – Eesti Rakenduslingvistika Ühingu aastaraamat 4, 177–186. http://dx.doi. org/10.5128/ERYa4.11

Tognini-Bonelli, Elena 2001. Corpus linguistics at work. Studies in korpus linguistics 6. Amsterdam / Philadelphia: John Benjamins Publ. Co.

Trainis, Jekaterina; Allkivi, Kais 2014. Ilukirjanduskeelest uue pilguga. – Eesti Rakenduslingvistika Ühingu aastaraamat, 10, 283–306. http://dx.doi.org/10.5128/ERYa10.18

Tsui, Amy B. M. 2005. ESL teachers� questions and korpus evidence. – International Journal of Corpus Linguistic, 10:3, 335–356.

Widdowson, H. G. 2000. The limitations of linguistics applied. – Applied Linguistics 21 (1), pp. 3-25.