32
Lõplikel automaatidel põhinev arvutimorfoloogia Heli Uibo TÜ arvutiteaduse instituut e-mail: [email protected]

Lõplikel automaatidel põhinev arvutimorfoloogia

  • Upload
    arav

  • View
    69

  • Download
    0

Embed Size (px)

DESCRIPTION

Lõplikel automaatidel põhinev arvutimorfoloogia. Heli Uibo TÜ arvutiteaduse instituut e-mail: [email protected]. Ettekanne põhineb. raamatul: Kenneth Beesley, Lauri Karttunen “Finite-State Mophology: Xerox Techniques and Tools” http://www.cis.upenn.edu/~cis639/docs/book.ps ja artiklil: - PowerPoint PPT Presentation

Citation preview

Page 1: Lõplikel automaatidel põhinev arvutimorfoloogia

Lõplikel automaatidel põhinev arvutimorfoloogia

Heli Uibo

TÜ arvutiteaduse instituut

e-mail: [email protected]

Page 2: Lõplikel automaatidel põhinev arvutimorfoloogia

Ettekanne põhinebraamatul:

Kenneth Beesley, Lauri Karttunen “Finite-State Mophology: Xerox Techniques and Tools”

http://www.cis.upenn.edu/~cis639/docs/book.ps

ja artiklil:

Lauri Karttunen “Applications of Finite-State Transducers in Natural-Language Processing” Proceedings of CIAA-2000. Lecture Notes in Computer Science. Springer Verlag.

http://www.xrce.xerox.com/Publications/Attachments/2000-302/fst-in-nlp.pdf

Page 3: Lõplikel automaatidel põhinev arvutimorfoloogia

Ülevaade• Arvutimorfoloogia - mis ja milleks?

• Lõplik automaat ja lõplik transduktor

• Ajaloost

• Teoreetilised alused

• Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil?

• Olemasolev tarkvara

• Rakendus: Eesti keele kahetasemeline morfoloogia

Page 4: Lõplikel automaatidel põhinev arvutimorfoloogia

Arvutimorfoloogia - mis ja milleks?

Morfoloogia Süntaks Semantika

Loomuliku keele töötluse (NLP) moodulid:

analüüs

genereerimine

Page 5: Lõplikel automaatidel põhinev arvutimorfoloogia

Arvutimorfoloogia - mis ja milleks? (2)

Sõnavormid

Morfoloogilised tõlgendused

Morfoloogiline analüsaator/generaator

Page 6: Lõplikel automaatidel põhinev arvutimorfoloogia

Näiteidmorfoloogilisest analüüsist

Inglise k.: wrote write+V+PastInd

Saksa k.: schrieb schreiben+V+Ipt+Sg

Rootsi k.: skrev skriva+V+Ipt

Soome k.: kirjoitin kirjoittaa+V+Ind+Ipt+Sg1

Eesti k.: kirjutasin kirjutama+V+Ind+Ipt+Sg1

“I wrote”

Page 7: Lõplikel automaatidel põhinev arvutimorfoloogia

Arvutimorfoloogia rakendusi

• õigekirjakontroll

• infootsimine

• info ekstraheerimine

• masintõlge

• kõnetehnoloogia rakendused

• leksikograafi töövahendid

• jne.

Page 8: Lõplikel automaatidel põhinev arvutimorfoloogia

Lõplikel automaatidel põhinev arvutimorfoloogia: Ajaloost

“English is not a finite state language.” (Chomsky “Syntactic structures” 1957)

Chomsky hierarhia:

Finite-state

Context- free

Context- sensitive

Turing machine

Page 9: Lõplikel automaatidel põhinev arvutimorfoloogia

Ajaloost (2)

Üritati rakendada võimsamaid formalisme: süntaksis fraasistruktuurigrammatikaid (nt. HPSG), morfoloogias ümberkirjutusreegleid (rewrite rules)

AGA: Praktiliselt kasutatavate grammatikate kirjutamine osutus väga keeruliseks.

Page 10: Lõplikel automaatidel põhinev arvutimorfoloogia

Ajaloost (3)

- 25 a. tagasi ei olnud üldist, keelest sõltumatut meetodit morfoloogiliseks analüüsiks ja sünteesiks.

- Olemasolevad morfoloogilise analüüsi programmid ei olnud ümberpööratavad sõnavormide genereerimiseks algvormist ja morfoloogilisest infost.

Page 11: Lõplikel automaatidel põhinev arvutimorfoloogia

Ajaloost (4)

• Chomsky, Halle (1968) generatiivne fonoloogia kasutas morf. sünteesiks kontekstitundlike ümberkirjutusreeglite järjestikust rakendamist, et teisendada abstraktne fonoloogiline esitus pindesituseks (sõnavormiks) läbi vahepealsete esituste.

• Reeglite üldkuju: x y / z _ w, kus x, y, z, w on suvalise keerukusega

tunnusstruktuurid.

Page 12: Lõplikel automaatidel põhinev arvutimorfoloogia

Teoreetilised alused

Lõplike automaatide ja transduktorite kasutatavus arvutimorfoloogias põhineb järgmistel tulemustel:

• D. Johnson, 1972: Fonoloogilised ümberkirjutusreeglid ei ole sisuliselt kontekstitundlikud, vaid neid saab kirjeldada lõplike transduktoritena (finite-state transducer).

• Schützenberger, 1961: Kui kaks lõplikku transduktorit rakendada järjestikku, siis leidub üks lõplik transduktor, mis on nende kahe lõpliku transduktori kompositsioon.

Page 13: Lõplikel automaatidel põhinev arvutimorfoloogia

Teoreetilised alused (2)

Kompositsiooni üldistus n transduktorile: saame läbi ilma vaheesitusteta – süvaesitus teisendatakse pindesituseks üheainsa lõpliku transduktori abil!

1980 - tulemus taasavastati Kaplani ja Kay poolt (Xerox PARC)

Page 14: Lõplikel automaatidel põhinev arvutimorfoloogia

Teoreetilised alused (3)

Süvaesitus Süvaesitus

Pindesitus Pindesitus

”Üks suur reegel” = lõplik transduktor (finite-state transducer e. FST)

Reegel1

Reegel2

Reegeln

………..

Page 15: Lõplikel automaatidel põhinev arvutimorfoloogia

Teoreetilised alused (4)

• Lõplikel transduktoritel põhineva arvutimorfoloogia põhiväide:

Seos keele sõnavormide ja nende algvormide e. lemmade vahel on kirjeldatav regulaarse relatsioonina.

Page 16: Lõplikel automaatidel põhinev arvutimorfoloogia

Teoreetilised alused (5)

• Regulaarse relatsiooni saab kirja panna regulaaravaldisena.

• Regulaaravaldise saab kompileerida lõplikuks transduktoriks (FST), mis realiseerib selle relatsiooni arvutuslikult.

• Transduktoris seab mistahes tee algolekust lõppolekusse omavahel vastavusse mingi sõnavormi (surface form) ja tema lemma+ morfoloogilise info (lexical form).

Page 17: Lõplikel automaatidel põhinev arvutimorfoloogia

Näide: tee transduktoris

Kompaktsemalt:

t u B:b a +S:0 0:d +Pl:e 0:s +El:t

t

t

u

u

B

b

a

a

+S

0

0

d

+Pl

e

0

s

+El

t

Sõnastikuesitus:

Pindesitus:

Page 18: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil?

Morfoloogias tuleb modelleerida kaks põhilist protsessi:

1. Morfotaktika (kuidas kombineeritakse morfeemidest sõnavormid)

- prefiksid ja sufiksid, liitsõnamoodustus - konkatenatsioon

- reduplikatsioon, infiksatsioon, interdigitatsioon - mittekonkatenatiivsed protsessid

Page 19: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil?

(2)2. Fonoloogilised/ortograafilised alternatsioonid

- assimilatsioon (hind : hinna)

- lisandumine (jooksma : jooksev)

- kadu (number : numbri)

- geminatsioon (tuba : tuppa)

Kõik loetletud morfoloogilised fenomenid on kirjeldatavad regulaaravaldiste abil.

Page 20: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem lõplike transduktorite abil?

(3)Aga kuidas?Regulaaravaldistes kasutatavad operatsioonid:ühend A | B (nt. Erinevad kontekstid, milles

sümbolipaar võib esineda)konkatenatsioon A B (väga produktiivne

aglutineerivate keelte puhul - liidete, lõppude, prefiksite lisamine, liitsõnamoodustus)

iteratsioon A+ ja Kleene’i tärn A* (reeglid tüüpi “kui sõnas kusagil eespool esineb x, siis…”)

Page 21: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem? (4)

Veel operatsioone regulaarsete relatsioonidega:

• otsekorrutis A .x. B (teine tähistus a:b)

• kompositsioon A .o. B - lõplike transduktorite järjestrakendamine

Tavaliselt koosneb keele morfoloogiakirjeldus kahest eraldiseisvast osast - leksikon-transduktorist ja reeglitekogu-transduktorist.

Lexical FST = lexicon FST .o. rule FST

Page 22: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem? (5)

Xeroxi vahendeid kasutades:

1) Reeglite kompileerimiseks võib kasutada programmi twolc (kahetasemeliste reeglite kompilaator)

või programmi xfst, kui kasutatakse asendusreegleid (replace rules)

2) Programm lexc kompileerib leksikoni leksikon-FST-ks

Page 23: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem? (6)

3) Leksikon ühendatakse reeglitega (saadakse leksikaalne transduktor) transduktorite kompositsiooni kasutades

Kompositsioon on realiseeritud nii lexc-s (compose result) kui xfst-s (compose net).

Page 24: Lõplikel automaatidel põhinev arvutimorfoloogia

Kuidas kirjeldada kogu morfoloogiline süsteem? (7)

Nii kahetasemelised kui asendusreeglid on formaalselt regulaaravaldised. Operaatoritega

<=>, <=, => ja tähistatakse keerukaid regulaaravaldisi. Näiteks kahetasemeline reegel a:b => L _ R on samaväärne regulaaravaldisega

[ ~[ [ [ ?* L ] a:b ?* ] | [ ?* a:b ~[ R ?* ] ] ]

Lingvistile on harjumuspärased a b || L _ R tüüpi reeglid, meenutades fonoloogilisi

ümberkirjutusreegleid.

Page 25: Lõplikel automaatidel põhinev arvutimorfoloogia

Morfoloogiline analüüs leksikaalses transduktoris

Morfoloogiline analüüs = lookup

Käiakse läbi leksikaalses transduktoris leiduvaid teid, niikaua kui leitakse tee, milles kaarte alumised märgendid annavad kokku analüüsitava sõna. Väljastatakse vastavate kaarte ülemiste märgendite konkatenatsioon. Kui ükski tee ei anna tulemust, ei kuulu sõnavorm transduktori poolt kirjeldatud keelde.

Page 26: Lõplikel automaatidel põhinev arvutimorfoloogia

Morfoloogiline süntees leksikaalses transduktoris

Morfoloogiline süntees = lookdown

Käiakse läbi leksikaalses transduktoris leiduvaid teid, niikaua kuni leitakse tee, milles kaarte ülemised märgendid annavad kokku etteantud lemma+morfoloogilised märgendid. Väljastatakse vastavate alumiste märgendite konkatenatsioon.

Page 27: Lõplikel automaatidel põhinev arvutimorfoloogia

Lõplikel transduktoritel põhinev arvutimorfoloogia: olemasolev

tarkvaraKommertstarkvara:• Kahetasemelised morfoloogilised analüsaatorid inglise,

saksa, rootsi, soome jt. keelte jaoks (K. Koskenniemi et al)

www.lingsoft.fi

• Xerox Finite-State Calculus (L. Karttunen et al, www.xrce.xerox.com/competencies/content-analysis/fst), võimalik tasuta akadeemiline litsents

• Teragram (E. Roche & Y. Schabes)

www.teragram.com

Page 28: Lõplikel automaatidel põhinev arvutimorfoloogia

Lõplikel transduktoritel põhinev arvutimorfoloogia: olemasolev

tarkvara (2)Vabavara:

• AT&T FSM Library - www.research.att.com/sw/tools/fsm

• GertjanVan Noord’s FSA Utils - odur.let.rug.nl/~vannord/FSA/fsa.html

• Jan Daciuk’s finite-state homepage - odur.let.rug.nl/alfa/fsa-stuff/

Page 29: Lõplikel automaatidel põhinev arvutimorfoloogia

Eesti keele kahetasemeline morfoloogia

Reeglitega käsitletavad nähtused:– astmevaheldus kägu : käo, hüpata : hüppan– fonotaktika lumi : lumd* lund– morfofonoloogiline distributsioon seis + da seista– ortograafiakirj* kiri, kristall + ne kristalne

Page 30: Lõplikel automaatidel põhinev arvutimorfoloogia

Eesti keele kahetasemeline morfoloogia (2)

Leksikonide abil kirjeldatavad nähtused:– käänamine – pööramine – omadussõnade võrdlemine – sõnatuletus– liitsõnamoodustus– tüvelõpumuutused ne-se, 0-da, 0-me jne– tüvevokaali valik a, e, i, u

Appropriate suffixes are added to a stem

according to its inflection type

Page 31: Lõplikel automaatidel põhinev arvutimorfoloogia

Eesti keele kahetasemeline morfoloogia (3)

Lahendamist ootavad probleemid:1) tuletatud sõnade ja liitsõnade ülegenereeriminelahendus: komponeerida leksikaalse transduktoriga

erinevaid filtreid, mis kitsendavad sõnatuletuse ja liitsõnamoodustuse protsesse

2) tüvedesõnastiku mahu suurendamine, sealh. korrektsete sõnastikuesituste genereerimine

Vastav programm sai hiljuti valmis.

Page 32: Lõplikel automaatidel põhinev arvutimorfoloogia

Eesti keele kahetasemeline morfoloogia (4)

3) tundmatute sõnade analüüsi oletamine (sõnad, mis ei ole leksikonis)

võimalik lahendus: Kuna leksikonikirjetes võib kasutada ka regulaaravaldisi, tuleks juurteleksikonidesse sisestada kirjed <Alpha*> koos kõikvõimalike jätkuviitadega.