37
Izraba večjezičnih virov Izraba večjezičnih virov za izgradnjo za izgradnjo slovenskega wordneta slovenskega wordneta Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljani 18. december 2007 JOTA 2007

Izraba večjezičnih virov za izgradnjo slovenskega wordneta

  • Upload
    erasto

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

JOTA 2007. Izraba večjezičnih virov za izgradnjo slovenskega wordneta. Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljan i. 18. december 2007. Pregled predavanja. ozadje & motivacija osnovne predpostavke & hipoteza eksperiment 1 eksperiment 2 - PowerPoint PPT Presentation

Citation preview

Page 1: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Izraba večjezičnih virovIzraba večjezičnih virov

za izgradnjoza izgradnjo

slovenskega wordnetaslovenskega wordneta

Darja FišerOddelek za prevajalstvo

Filozofska fakultetaUniverza v Ljubljani

18. december 2007

JOTA 2007

Page 2: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 2

Pregled predavanja

• ozadje & motivacija

• osnovne predpostavke & hipoteza

• eksperiment 1

• eksperiment 2

• sklep & načrti za prihodnost

• razprava

Page 3: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 3

Zakaj potrebujemosemantične leksikone

• aplikacije, ki se spopadajo z razumevanjem & interpretacijo jezika– strojno prevajanje– klasifikacija dokumentov– luščenje informacij– povzemanje besedil– …

• most med jezikom in znanjem, ki je z jezikom izraženo– semantična normalizacija– razdvoumljanje

Page 4: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 4

Semantični leksikoni

• definirajo pomen neke besede glede na to, kako je povezan s pomeni drugih besed– strojno berljivi slovarji (LDOCE)– tezavri (Roget)– leksikalne zbirke (FrameNet, WordNet,

MindNet)– ontologije & baze znanj (Cyc, ConceptNet,

HowNet)

Page 5: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 5

Princeton WordNet (http://wordnet.princeton.edu/)

• leksikalna zbirka za modeliranje mentalnega leksikona

• besede so urejene v koncepte, ki so med seboj povezani z relacijami

• konceptom je dodana razlaga, primer uporabe & oznaka za področje

• vsebuje enobesedne & večbesedne nize, upoštevana je tudi metaforična & idiomatska raba

Page 6: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 6

Princeton WordNet (http://wordnet.princeton.edu/)

• WordNet 3.0:

št. literalov (besed) 155.327

št. sinsetov (konceptov) 117.597

samostalniških sinsetov 70 %

glagolskih sinsetov 12 %

št. enopomenskih lit. 128.321

št. večpomenskih lit. 27.006

povp. polisemija za sam. 1,23

povp. polisemija za gl. 2,16

Page 7: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 7

Page 8: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 8

Družina wordnet

• Princeton WordNet:– Miller & Fellbaum, 1980

• EuroWordNet:– Vossen, 1993

• BalkaNet:– Christodoulakis, 2000

• Global WordNet Association:– 50 jezikov

Page 9: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 9

SloWNet 1.0(http://nl.ijs.si/slownet/)

• Erjavec & Fišer (‘06)• Pristop:

– razširitveni pristop (Vossen ‘00)– osnova srbski wordnet (Krstev et al. ‘04)

• Postopek izdelave:– avtomatsko prevajanje sinsetov na podlagi

dvojezičnega slovarja– ID-je sinsetov in relacije med njimi smo prevzeli iz

srbskega wordneta– razlage, primeri in št. pomenov smo izpustili– sinseti ročno popravljeni

• Rezultat:– 5.000 sinsetov (BCS1,2&3)

Page 10: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 10

Koristni viriza gradnjo wordnetov

• obstoječi wordneti

• elektronski slovarji

• taksonomije

• ontologije

• korpusi

Page 11: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 11

Temeljni predpostavki

• Prevodi so koristen vir za semantične informacije:

1. pomene večpomenskih besed pogosto prevajamo z različnimi besedami school-šola vs. school-jata

2. če imata dve ali več različnih besed isti prevod, imajo te besede pogosto skupne pomenske elementefant-boy vs. deček-boy

Page 12: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 12

Hipoteza

• z večjezičnim pristopom in vzporejanjem besedil na besedni ravni bomo:

1. ločili med posameznimi pomeni večpomenskih besed school-šola vs. school-jata oz.

2. pridobili množice sinonimov fant-boy vs. deček-boy

Page 13: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 13

Eksperiment 1: viri

• Multext-East:– George Orwell: “1984”– angleščina, češčina, romunščina, bolgarščina,

slovenščina– 100,000 besed na jezik– stavčno poravnan, oblikoskladenjsko označen

in lematiziran

• Princeton Wordnet• BalkaNet

Page 14: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 14

Eksperiment 1: postopek

• predprocesiranje korpusa:– kodiranje in formatiranje– izločitev funkcijskih besed– avtomatsko vzporejanje na ravni besed

(Uplug)– ekstrakcija dvojezičnih in večjezičnih

leksikonov• primerjava večjezičnih leksikonov z

obstoječimi wordneti• generiranje slovenskih sinsetov

Page 15: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 15

Eksperiment 1:ponazoritev postopka

EN CS RO BG SIbeseda id beseda id beseda id beseda id beseda id

party 01 strana 01 partid 01 партия 01 stranka 01

party 02 večírek 02 petrecere 02 забава 02 zabava 02

army 03 armáda 03 armată 03 армия 03 armada 03

army 03 armáda 03 armată 03 армия 03 vojska 03

• syn01 [party1] {stranka}

• syn02 [party2] {zabava}

• syn03 [army] {armada, vojska}

Page 16: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 16

Eksperiment 1:izluščeni leksikoni

• dvojezični leksikoni:– En-Sl, En-Cz, En-Ro, En-Bg– upoštevane samo 1:1 povezave med besedami

iste besedne vrste– upoštevane samo povezave, ki se pojavijo več kot

enkrat– velikost leksikonov: ~ 1.500 vnosov

• večjezični leksikoni:– upoštevane so vse različice prevodov neke

angleške besede– En-Cz-Sl: 1.703 vnosov– En-Cz-Ro-Sl: 1.226 vnosov– En-Cz-Ro-Bg-Sl: 803 vnosov

Page 17: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 17

Eksperiment 1:generirani sinseti

sinseti 6.746

avg l/s 2,0

bcs1 588

bcs2 1.063

bcs3 663

ostalo 4.432

področja 126

sam. 2.964

max l/s 10

avg l/s 1,4

gl. 2.310

max l/s 76

avg l/s 3,3

• En-Sl

prid. 1.132

max l/s t 4

avg l/s 1,2

prisl. 340

max l/s 20

avg l/s 2,1

Page 18: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 18

Eksperiment 1:generirani sinseti

sinseti 1.501

avg l/s 1,8

bcs1 324

bcs2 393

bcs3 230

ostalo 554

področja 87

sam. 870

max l/s 7

avg l/s 1,4

gl. 483

max l/s 15

avg l/s 2,7

• En-Cz-Sl

prid. 118

max l/s t 4

avg l/s 1,1

prisl. 30

max l/s 5

avg l/s 1,6

Page 19: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 19

Eksperiment 1:generirani sinseti

sinseti 1,372

avg l/s 2,4

bcs1 293

bcs2 359

bcs3 22

ostalo 496

področja 83

sam. 671

max l/s 6

avg l/s 1,4

gl. 639

max l/s 30

avg l/s 3,7

• En-Cz-Ro-Sl

prid. 32

max l/s t 2

avg l/s 1,0

prisl. 30

max l/s 3

avg l/s 1,4

Page 20: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 20

Eksperiment 1:generirani sinseti

sinseti 549

avg l/s 1,8

bcs1 166

bcs2 172

bcs3 99

ostalo 112

področja 60

sam. 291

max l/s 4

avg l/s 1,7

gl. 249

max l/s 26

avg l/s 2,6

• En-Cz-Ro-Bg-Sl

prid. 9

max l/s 2

avg l/s 1,1

Page 21: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 21

Eksperiment 1:avtomatska evalvacija

• primerjava z ročno ustvarjenim referenčnim wordnetom• merjenje priklica in natančnosti• upoštevani so samo sinseti iz skupine BCS• večjezični literali niso upoštevani• upoštevana je pripadnost literalov sinsetom

REFERENČNI

LITERAL ID

stranka syn02, syn04, syn05

armada syn03, syn06

GENERIRANI

LITERAL ID

stranka syn02, syn04, ?

armada syn06, syn07

Page 22: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 22

  baseline SLOWN1 SLOWN2 SLOWN3 SLOWN4

sam.  261  322  223  179  103

natančnost 50,6% 70,2% 78,4% 73,0% 84,1%

priklic 89,3% 87,3% 81,7% 77,4% 78,2%

f-mera 64,6% 77,8% 80,0% 75,1% 81,1%

gl.  174  127  79  69  53

natančnost 43,8% 35,8% 54,2% 37,5% 46,0%

priklic 74,7% 70,3% 66,2% 72,5% 59,1%

f-mera 55,3% 47,4% 59,6% 49,4% 51,7%

skupaj  445  449  302  248  156

nat. sk. 48,0% 60,6% 72,3% 63,2% 71,3%

prik. sk. 83,5% 82,6% 77,6% 76,2% 71,5%

f-m. sk. 61,0% 69,9% 74,9% 69,1% 71,4%

Page 23: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 23

Eksperiment 1:ročna evalvacija

• iz vseh različic avtomatsko generiranih wordnetov smo izluščili 165 istih samostalniških sinsetov

• postopek evalvacije:– Ali sinset vsebuje pravilen literal?– tipologija napak: hiponim, hipernim,

soroden literal, napačen literal

Page 24: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 24

  SLOWN1 SLOWN2 SLOWN3 SLOWN4

št. sinsetov 165100%

165100%

165100%

165100%

pravilen sinset 58,2% 62,4% 72,1% 81,2%

ni pravilnega lit. 3,6% 3,0% 6,0% 5,4%

min. 1 prav. lit. 26,0% 22,4% 12,1% 8,4%

hipernim 1,8% 1,8% 1,8% 0,0%

hiponim 3,6% 3,6% 6,0% 3,6%

soroden lit. 1,2% 2,4% 1,2% 3,6%

več napak 4,8% 3,0% 0,0% 0,0%

• lahki: specifični koncepti (rat, army, kitchen)• težki: zelo polisemne besede (face, place)

Page 25: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 25

Eksperiment 1:evalvacija glede na št. jezikov

total

60.00%

70.00%

80.00%

90.00%

precision total 62.22% 69.80% 74.04% 77.37%

recall total 82.24% 77.27% 75.13% 75.88%

f-1 total 70.84% 73.19% 74.53% 76.62%

2 lang 3 lang 4 lang 5 lang

Page 26: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 26

Eksperiment 2: viri

• JRC-Acquis– zakonodaja EU v 20+ jezikih– vzporejen na ravni odstavkov (HunAlign)– pri eksperimentu smo uporabili:

• angleški, češki in slovenski del korpusa• prvih 2.000 dokumentov

• Princeton Wordnet• BalkaNet

Page 27: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 27

Esperiment 2:predprocesiranje

• angleščina & slovenščina:– tokenizacija, oblikoskladenjsko označevanje

& lematizacija (totale)

• češčina:– tokenizacija, oblikoskladenjsko označevanje

& lematizacija (Ajka)

• vzporejanje:– samo polnopomenske besede– samo 1:1 odstavke– na stavčni in besedni ravni (Uplug)

Page 28: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 28

Eksperiment 2:izluščeni leksikoni

• dvojezični leksikoni:– En-Sl, En-Cz– upoštevane samo 1:1 povezave med besedami

iste besedne vrste– upoštevane samo povezave, ki se pojavijo več kot

enkrat– pojavnice, ki vsebujejo nečrkovne nize znakov,

smo izločili– velikost leksikonov: ~ 10.000 vnosov

• večjezični leksikoni:– upoštevane so vse različice prevodov neke

angleške besede– En-Cz-Sl: 8.400 vnosov

Page 29: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 29

Eksperiment 2:generirani sinseti

Orwellen-sl

Orwellen-cs-sl

Jrcen-cs-sl

št. sinsetov 6.746 1.501 4.768

avg l/s 2,0 1,8 2,5

bcs1 588 324 283

bcs2 1.063 393 400

bcs3 663 230 229

ostalo 4.432 554 3.753

področja 126 87 103

sam. 2.964 870 3.528

max l/s 10 7 9

avg l/s 1,4 1,4 2,6

Page 30: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 30

SLOWNJRC

• relativno majhno število generiranih sinsetov glede na velikost korpusa (v primerjavi z Multext East)

• sinseti sodijo v manjše število področij (lastnost korpusa)

• povprečna dolžina sinseta je precej višja (slabša natančnost)

Page 31: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 31

  slovarsrp-sl

Orwellen-cs-sl

Jrcen-cs-sl

sam.      

natančnost 70,2% 78,4% 67,0%

priklic 87,3% 81,7% 72,0%

f-mera 77,8% 80,0% 69,4%

skupaj      

natančnost 60,7% 72,3% 53,4%

priklic 82,6% 77,6% 81,4%

f-mera 69,9% 74,9% 64,5%

Eksperiment 2:avtomatska evalvacija

Page 32: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 32

Eksperiment 2:ročna evalvacija

• 200 sinsetov iz 8 različnih področij:– 100 iz področij administracije, kemije,

ekonomije in prava– 100 iz področij jezikoslovja, književnosti,

založništva in matematike

• postopek evalvacije:– Ali sinset vsebuje pravilen literal?– tipologija napak: vzporejanje,

hiponim/hipernim, napašno razdvoumljanje

Page 33: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 33

Eksperiment 2:ročna evalvacija

  D1 D2

popolnoma pravilni 65 33

popolnoma napačni 14 21

napačno vzporejanje 23 22

soroden izraz 9 4

napačno razdvoumljanje 4 19

• napačno pripisovanje pomena večpomenskim besedam je veliko večje pri področjih, ki niso ustrezno zastopana v korpusu (D2)

Page 34: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 34

Sklepi

• semantične informacije iz vzporednih korpusov so se izkazale kot koristen vir za avtomatsko generiranje wordneta

• kakovost sinsetov se izboljšuje s številom jezikov, vključenih v razdvoumljenje

• za kakovost sinsetov je pomembna natančnost v vseh fazah predprocesiranja (od lematizacije do vzporejanja)

• pristop najbolje deluje za samostalniške sinsete

• pristop ne omogoča primernega razdvoumljanja zelo polisemnih besed (znan problem wordneta)

Page 35: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 35

Načrti - večjezični

• razširitev metode na večbesedne termine na podlagi leksiko-sintaktičnih vzorcev

• dodajanje enopomenskih literalov, ki ne zahtevajo razdvoumljanja

• zapolnjevanje lukenj v generirani hierarhiji

Page 36: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 36

Načrti - enojezični

• preverjanje uspešnosti prenosljivosti konceptov med jeziki na podlagi referenčnega korpusa FidaPlus

• razširitev wordneta na podlagi izluščenih relacij iz SSKJ in korpusa FidaPlus

• …

Page 37: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 37

Hvala!