Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Izraba večjezičnih virovIzraba večjezičnih virov

za izgradnjoza izgradnjo

slovenskega wordnetaslovenskega wordneta

Darja FišerOddelek za prevajalstvo

Filozofska fakultetaUniverza v Ljubljani

18. december 2007

JOTA 2007

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 2

Pregled predavanja

• ozadje & motivacija

• osnovne predpostavke & hipoteza

• eksperiment 1

• eksperiment 2

• sklep & načrti za prihodnost

• razprava


Zakaj potrebujemosemantične leksikone

• aplikacije, ki se spopadajo z razumevanjem & interpretacijo jezika– strojno prevajanje– klasifikacija dokumentov– luščenje informacij– povzemanje besedil– …

• most med jezikom in znanjem, ki je z jezikom izraženo– semantična normalizacija– razdvoumljanje


Semantični leksikoni

• definirajo pomen neke besede glede na to, kako je povezan s pomeni drugih besed– strojno berljivi slovarji (LDOCE)– tezavri (Roget)– leksikalne zbirke (FrameNet, WordNet,

MindNet)– ontologije & baze znanj (Cyc, ConceptNet,

HowNet)


Princeton WordNet (http://wordnet.princeton.edu/)

• leksikalna zbirka za modeliranje mentalnega leksikona

• besede so urejene v koncepte, ki so med seboj povezani z relacijami

• konceptom je dodana razlaga, primer uporabe & oznaka za področje

• vsebuje enobesedne & večbesedne nize, upoštevana je tudi metaforična & idiomatska raba


Princeton WordNet (http://wordnet.princeton.edu/)

• WordNet 3.0:

št. literalov (besed) 155.327

št. sinsetov (konceptov) 117.597

samostalniških sinsetov 70 %

glagolskih sinsetov 12 %

št. enopomenskih lit. 128.321

št. večpomenskih lit. 27.006

povp. polisemija za sam. 1,23

povp. polisemija za gl. 2,16



Družina wordnet

• Princeton WordNet:– Miller & Fellbaum, 1980

• EuroWordNet:– Vossen, 1993

• BalkaNet:– Christodoulakis, 2000

• Global WordNet Association:– 50 jezikov


SloWNet 1.0(http://nl.ijs.si/slownet/)

• Erjavec & Fišer (‘06)• Pristop:

– razširitveni pristop (Vossen ‘00)– osnova srbski wordnet (Krstev et al. ‘04)

• Postopek izdelave:– avtomatsko prevajanje sinsetov na podlagi

dvojezičnega slovarja– ID-je sinsetov in relacije med njimi smo prevzeli iz

srbskega wordneta– razlage, primeri in št. pomenov smo izpustili– sinseti ročno popravljeni

• Rezultat:– 5.000 sinsetov (BCS1,2&3)


Koristni viriza gradnjo wordnetov

• obstoječi wordneti

• elektronski slovarji

• taksonomije

• ontologije

• korpusi


Temeljni predpostavki

• Prevodi so koristen vir za semantične informacije:

1. pomene večpomenskih besed pogosto prevajamo z različnimi besedami school-šola vs. school-jata

2. če imata dve ali več različnih besed isti prevod, imajo te besede pogosto skupne pomenske elementefant-boy vs. deček-boy


Hipoteza

• z večjezičnim pristopom in vzporejanjem besedil na besedni ravni bomo:

1. ločili med posameznimi pomeni večpomenskih besed school-šola vs. school-jata oz.

2. pridobili množice sinonimov fant-boy vs. deček-boy


Eksperiment 1: viri

• Multext-East:– George Orwell: “1984”– angleščina, češčina, romunščina, bolgarščina,

slovenščina– 100,000 besed na jezik– stavčno poravnan, oblikoskladenjsko označen

in lematiziran

• Princeton Wordnet• BalkaNet


Eksperiment 1: postopek

• predprocesiranje korpusa:– kodiranje in formatiranje– izločitev funkcijskih besed– avtomatsko vzporejanje na ravni besed

(Uplug)– ekstrakcija dvojezičnih in večjezičnih

leksikonov• primerjava večjezičnih leksikonov z

obstoječimi wordneti• generiranje slovenskih sinsetov


Eksperiment 1:ponazoritev postopka

EN CS RO BG SIbeseda id beseda id beseda id beseda id beseda id

party 01 strana 01 partid 01 партия 01 stranka 01

party 02 večírek 02 petrecere 02 забава 02 zabava 02

army 03 armáda 03 armată 03 армия 03 armada 03

army 03 armáda 03 armată 03 армия 03 vojska 03

• syn01 [party1] {stranka}

• syn02 [party2] {zabava}

• syn03 [army] {armada, vojska}


Eksperiment 1:izluščeni leksikoni

• dvojezični leksikoni:– En-Sl, En-Cz, En-Ro, En-Bg– upoštevane samo 1:1 povezave med besedami

iste besedne vrste– upoštevane samo povezave, ki se pojavijo več kot

enkrat– velikost leksikonov: ~ 1.500 vnosov

• večjezični leksikoni:– upoštevane so vse različice prevodov neke

angleške besede– En-Cz-Sl: 1.703 vnosov– En-Cz-Ro-Sl: 1.226 vnosov– En-Cz-Ro-Bg-Sl: 803 vnosov


Eksperiment 1:generirani sinseti

sinseti 6.746

avg l/s 2,0

bcs1 588

bcs2 1.063

bcs3 663

ostalo 4.432

področja 126

sam. 2.964

max l/s 10

avg l/s 1,4

gl. 2.310

max l/s 76

avg l/s 3,3

• En-Sl

prid. 1.132

max l/s t 4

avg l/s 1,2

prisl. 340

max l/s 20

avg l/s 2,1



sinseti 1.501

avg l/s 1,8

bcs1 324

bcs2 393

bcs3 230

ostalo 554

področja 87

sam. 870

max l/s 7

avg l/s 1,4

gl. 483

max l/s 15

avg l/s 2,7

• En-Cz-Sl

prid. 118

max l/s t 4

avg l/s 1,1

prisl. 30

max l/s 5

avg l/s 1,6



sinseti 1,372

avg l/s 2,4

bcs1 293

bcs2 359

bcs3 22

ostalo 496

področja 83

sam. 671

max l/s 6

avg l/s 1,4

gl. 639

max l/s 30

avg l/s 3,7

• En-Cz-Ro-Sl

prid. 32

max l/s t 2

avg l/s 1,0

prisl. 30

max l/s 3

avg l/s 1,4



sinseti 549

avg l/s 1,8

bcs1 166

bcs2 172

bcs3 99

ostalo 112

področja 60

sam. 291

max l/s 4

avg l/s 1,7

gl. 249

max l/s 26

avg l/s 2,6

• En-Cz-Ro-Bg-Sl

prid. 9

max l/s 2

avg l/s 1,1


Eksperiment 1:avtomatska evalvacija

• primerjava z ročno ustvarjenim referenčnim wordnetom• merjenje priklica in natančnosti• upoštevani so samo sinseti iz skupine BCS• večjezični literali niso upoštevani• upoštevana je pripadnost literalov sinsetom

REFERENČNI

LITERAL ID

stranka syn02, syn04, syn05

armada syn03, syn06

GENERIRANI

LITERAL ID

stranka syn02, syn04, ?

armada syn06, syn07


baseline SLOWN1 SLOWN2 SLOWN3 SLOWN4

sam. 261 322 223 179 103

natančnost 50,6% 70,2% 78,4% 73,0% 84,1%

priklic 89,3% 87,3% 81,7% 77,4% 78,2%

f-mera 64,6% 77,8% 80,0% 75,1% 81,1%

gl. 174 127 79 69 53

natančnost 43,8% 35,8% 54,2% 37,5% 46,0%

priklic 74,7% 70,3% 66,2% 72,5% 59,1%

f-mera 55,3% 47,4% 59,6% 49,4% 51,7%

skupaj 445 449 302 248 156

nat. sk. 48,0% 60,6% 72,3% 63,2% 71,3%

prik. sk. 83,5% 82,6% 77,6% 76,2% 71,5%

f-m. sk. 61,0% 69,9% 74,9% 69,1% 71,4%


Eksperiment 1:ročna evalvacija

• iz vseh različic avtomatsko generiranih wordnetov smo izluščili 165 istih samostalniških sinsetov

• postopek evalvacije:– Ali sinset vsebuje pravilen literal?– tipologija napak: hiponim, hipernim,

soroden literal, napačen literal


SLOWN1 SLOWN2 SLOWN3 SLOWN4

št. sinsetov 165100%

165100%

165100%

165100%

pravilen sinset 58,2% 62,4% 72,1% 81,2%

ni pravilnega lit. 3,6% 3,0% 6,0% 5,4%

min. 1 prav. lit. 26,0% 22,4% 12,1% 8,4%

hipernim 1,8% 1,8% 1,8% 0,0%

hiponim 3,6% 3,6% 6,0% 3,6%

soroden lit. 1,2% 2,4% 1,2% 3,6%

več napak 4,8% 3,0% 0,0% 0,0%

• lahki: specifični koncepti (rat, army, kitchen)• težki: zelo polisemne besede (face, place)


Eksperiment 1:evalvacija glede na št. jezikov

total

60.00%

70.00%

80.00%

90.00%

precision total 62.22% 69.80% 74.04% 77.37%

recall total 82.24% 77.27% 75.13% 75.88%

f-1 total 70.84% 73.19% 74.53% 76.62%

2 lang 3 lang 4 lang 5 lang


Eksperiment 2: viri

• JRC-Acquis– zakonodaja EU v 20+ jezikih– vzporejen na ravni odstavkov (HunAlign)– pri eksperimentu smo uporabili:

• angleški, češki in slovenski del korpusa• prvih 2.000 dokumentov

• Princeton Wordnet• BalkaNet


Esperiment 2:predprocesiranje

• angleščina & slovenščina:– tokenizacija, oblikoskladenjsko označevanje

& lematizacija (totale)

• češčina:– tokenizacija, oblikoskladenjsko označevanje

& lematizacija (Ajka)

• vzporejanje:– samo polnopomenske besede– samo 1:1 odstavke– na stavčni in besedni ravni (Uplug)


Eksperiment 2:izluščeni leksikoni

• dvojezični leksikoni:– En-Sl, En-Cz– upoštevane samo 1:1 povezave med besedami

iste besedne vrste– upoštevane samo povezave, ki se pojavijo več kot

enkrat– pojavnice, ki vsebujejo nečrkovne nize znakov,

smo izločili– velikost leksikonov: ~ 10.000 vnosov

• večjezični leksikoni:– upoštevane so vse različice prevodov neke

angleške besede– En-Cz-Sl: 8.400 vnosov



Orwellen-sl

Orwellen-cs-sl

Jrcen-cs-sl

št. sinsetov 6.746 1.501 4.768

avg l/s 2,0 1,8 2,5

bcs1 588 324 283

bcs2 1.063 393 400

bcs3 663 230 229

ostalo 4.432 554 3.753

področja 126 87 103

sam. 2.964 870 3.528

max l/s 10 7 9

avg l/s 1,4 1,4 2,6


SLOWNJRC

• relativno majhno število generiranih sinsetov glede na velikost korpusa (v primerjavi z Multext East)

• sinseti sodijo v manjše število področij (lastnost korpusa)

• povprečna dolžina sinseta je precej višja (slabša natančnost)


slovarsrp-sl

Orwellen-cs-sl

Jrcen-cs-sl

sam.

natančnost 70,2% 78,4% 67,0%

priklic 87,3% 81,7% 72,0%

f-mera 77,8% 80,0% 69,4%

skupaj

natančnost 60,7% 72,3% 53,4%

priklic 82,6% 77,6% 81,4%

f-mera 69,9% 74,9% 64,5%

Eksperiment 2:avtomatska evalvacija



• 200 sinsetov iz 8 različnih področij:– 100 iz področij administracije, kemije,

ekonomije in prava– 100 iz področij jezikoslovja, književnosti,

založništva in matematike

• postopek evalvacije:– Ali sinset vsebuje pravilen literal?– tipologija napak: vzporejanje,

hiponim/hipernim, napašno razdvoumljanje



D1 D2

popolnoma pravilni 65 33

popolnoma napačni 14 21

napačno vzporejanje 23 22

soroden izraz 9 4

napačno razdvoumljanje 4 19

• napačno pripisovanje pomena večpomenskim besedam je veliko večje pri področjih, ki niso ustrezno zastopana v korpusu (D2)


Sklepi

• semantične informacije iz vzporednih korpusov so se izkazale kot koristen vir za avtomatsko generiranje wordneta

• kakovost sinsetov se izboljšuje s številom jezikov, vključenih v razdvoumljenje

• za kakovost sinsetov je pomembna natančnost v vseh fazah predprocesiranja (od lematizacije do vzporejanja)

• pristop najbolje deluje za samostalniške sinsete

• pristop ne omogoča primernega razdvoumljanja zelo polisemnih besed (znan problem wordneta)


Načrti - večjezični

• razširitev metode na večbesedne termine na podlagi leksiko-sintaktičnih vzorcev

• dodajanje enopomenskih literalov, ki ne zahtevajo razdvoumljanja

• zapolnjevanje lukenj v generirani hierarhiji


Načrti - enojezični

• preverjanje uspešnosti prenosljivosti konceptov med jeziki na podlagi referenčnega korpusa FidaPlus

• razširitev wordneta na podlagi izluščenih relacij iz SSKJ in korpusa FidaPlus

• …


Hvala!

Documents

Izraba večjezičnih virov za izgradnjo slovenskega wordneta