Upload
erasto
View
56
Download
0
Embed Size (px)
DESCRIPTION
JOTA 2007. Izraba večjezičnih virov za izgradnjo slovenskega wordneta. Darja Fišer Oddelek za prevajalstvo Filozofska fakulteta Univerza v Ljubljan i. 18. december 2007. Pregled predavanja. ozadje & motivacija osnovne predpostavke & hipoteza eksperiment 1 eksperiment 2 - PowerPoint PPT Presentation
Citation preview
Izraba večjezičnih virovIzraba večjezičnih virov
za izgradnjoza izgradnjo
slovenskega wordnetaslovenskega wordneta
Darja FišerOddelek za prevajalstvo
Filozofska fakultetaUniverza v Ljubljani
18. december 2007
JOTA 2007
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 2
Pregled predavanja
• ozadje & motivacija
• osnovne predpostavke & hipoteza
• eksperiment 1
• eksperiment 2
• sklep & načrti za prihodnost
• razprava
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 3
Zakaj potrebujemosemantične leksikone
• aplikacije, ki se spopadajo z razumevanjem & interpretacijo jezika– strojno prevajanje– klasifikacija dokumentov– luščenje informacij– povzemanje besedil– …
• most med jezikom in znanjem, ki je z jezikom izraženo– semantična normalizacija– razdvoumljanje
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 4
Semantični leksikoni
• definirajo pomen neke besede glede na to, kako je povezan s pomeni drugih besed– strojno berljivi slovarji (LDOCE)– tezavri (Roget)– leksikalne zbirke (FrameNet, WordNet,
MindNet)– ontologije & baze znanj (Cyc, ConceptNet,
HowNet)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 5
Princeton WordNet (http://wordnet.princeton.edu/)
• leksikalna zbirka za modeliranje mentalnega leksikona
• besede so urejene v koncepte, ki so med seboj povezani z relacijami
• konceptom je dodana razlaga, primer uporabe & oznaka za področje
• vsebuje enobesedne & večbesedne nize, upoštevana je tudi metaforična & idiomatska raba
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 6
Princeton WordNet (http://wordnet.princeton.edu/)
• WordNet 3.0:
št. literalov (besed) 155.327
št. sinsetov (konceptov) 117.597
samostalniških sinsetov 70 %
glagolskih sinsetov 12 %
št. enopomenskih lit. 128.321
št. večpomenskih lit. 27.006
povp. polisemija za sam. 1,23
povp. polisemija za gl. 2,16
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 7
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 8
Družina wordnet
• Princeton WordNet:– Miller & Fellbaum, 1980
• EuroWordNet:– Vossen, 1993
• BalkaNet:– Christodoulakis, 2000
• Global WordNet Association:– 50 jezikov
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 9
SloWNet 1.0(http://nl.ijs.si/slownet/)
• Erjavec & Fišer (‘06)• Pristop:
– razširitveni pristop (Vossen ‘00)– osnova srbski wordnet (Krstev et al. ‘04)
• Postopek izdelave:– avtomatsko prevajanje sinsetov na podlagi
dvojezičnega slovarja– ID-je sinsetov in relacije med njimi smo prevzeli iz
srbskega wordneta– razlage, primeri in št. pomenov smo izpustili– sinseti ročno popravljeni
• Rezultat:– 5.000 sinsetov (BCS1,2&3)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 10
Koristni viriza gradnjo wordnetov
• obstoječi wordneti
• elektronski slovarji
• taksonomije
• ontologije
• korpusi
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 11
Temeljni predpostavki
• Prevodi so koristen vir za semantične informacije:
1. pomene večpomenskih besed pogosto prevajamo z različnimi besedami school-šola vs. school-jata
2. če imata dve ali več različnih besed isti prevod, imajo te besede pogosto skupne pomenske elementefant-boy vs. deček-boy
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 12
Hipoteza
• z večjezičnim pristopom in vzporejanjem besedil na besedni ravni bomo:
1. ločili med posameznimi pomeni večpomenskih besed school-šola vs. school-jata oz.
2. pridobili množice sinonimov fant-boy vs. deček-boy
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 13
Eksperiment 1: viri
• Multext-East:– George Orwell: “1984”– angleščina, češčina, romunščina, bolgarščina,
slovenščina– 100,000 besed na jezik– stavčno poravnan, oblikoskladenjsko označen
in lematiziran
• Princeton Wordnet• BalkaNet
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 14
Eksperiment 1: postopek
• predprocesiranje korpusa:– kodiranje in formatiranje– izločitev funkcijskih besed– avtomatsko vzporejanje na ravni besed
(Uplug)– ekstrakcija dvojezičnih in večjezičnih
leksikonov• primerjava večjezičnih leksikonov z
obstoječimi wordneti• generiranje slovenskih sinsetov
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 15
Eksperiment 1:ponazoritev postopka
EN CS RO BG SIbeseda id beseda id beseda id beseda id beseda id
party 01 strana 01 partid 01 партия 01 stranka 01
party 02 večírek 02 petrecere 02 забава 02 zabava 02
army 03 armáda 03 armată 03 армия 03 armada 03
army 03 armáda 03 armată 03 армия 03 vojska 03
• syn01 [party1] {stranka}
• syn02 [party2] {zabava}
• syn03 [army] {armada, vojska}
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 16
Eksperiment 1:izluščeni leksikoni
• dvojezični leksikoni:– En-Sl, En-Cz, En-Ro, En-Bg– upoštevane samo 1:1 povezave med besedami
iste besedne vrste– upoštevane samo povezave, ki se pojavijo več kot
enkrat– velikost leksikonov: ~ 1.500 vnosov
• večjezični leksikoni:– upoštevane so vse različice prevodov neke
angleške besede– En-Cz-Sl: 1.703 vnosov– En-Cz-Ro-Sl: 1.226 vnosov– En-Cz-Ro-Bg-Sl: 803 vnosov
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 17
Eksperiment 1:generirani sinseti
sinseti 6.746
avg l/s 2,0
bcs1 588
bcs2 1.063
bcs3 663
ostalo 4.432
področja 126
sam. 2.964
max l/s 10
avg l/s 1,4
gl. 2.310
max l/s 76
avg l/s 3,3
• En-Sl
prid. 1.132
max l/s t 4
avg l/s 1,2
prisl. 340
max l/s 20
avg l/s 2,1
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 18
Eksperiment 1:generirani sinseti
sinseti 1.501
avg l/s 1,8
bcs1 324
bcs2 393
bcs3 230
ostalo 554
področja 87
sam. 870
max l/s 7
avg l/s 1,4
gl. 483
max l/s 15
avg l/s 2,7
• En-Cz-Sl
prid. 118
max l/s t 4
avg l/s 1,1
prisl. 30
max l/s 5
avg l/s 1,6
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 19
Eksperiment 1:generirani sinseti
sinseti 1,372
avg l/s 2,4
bcs1 293
bcs2 359
bcs3 22
ostalo 496
področja 83
sam. 671
max l/s 6
avg l/s 1,4
gl. 639
max l/s 30
avg l/s 3,7
• En-Cz-Ro-Sl
prid. 32
max l/s t 2
avg l/s 1,0
prisl. 30
max l/s 3
avg l/s 1,4
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 20
Eksperiment 1:generirani sinseti
sinseti 549
avg l/s 1,8
bcs1 166
bcs2 172
bcs3 99
ostalo 112
področja 60
sam. 291
max l/s 4
avg l/s 1,7
gl. 249
max l/s 26
avg l/s 2,6
• En-Cz-Ro-Bg-Sl
prid. 9
max l/s 2
avg l/s 1,1
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 21
Eksperiment 1:avtomatska evalvacija
• primerjava z ročno ustvarjenim referenčnim wordnetom• merjenje priklica in natančnosti• upoštevani so samo sinseti iz skupine BCS• večjezični literali niso upoštevani• upoštevana je pripadnost literalov sinsetom
REFERENČNI
LITERAL ID
stranka syn02, syn04, syn05
armada syn03, syn06
GENERIRANI
LITERAL ID
stranka syn02, syn04, ?
armada syn06, syn07
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 22
baseline SLOWN1 SLOWN2 SLOWN3 SLOWN4
sam. 261 322 223 179 103
natančnost 50,6% 70,2% 78,4% 73,0% 84,1%
priklic 89,3% 87,3% 81,7% 77,4% 78,2%
f-mera 64,6% 77,8% 80,0% 75,1% 81,1%
gl. 174 127 79 69 53
natančnost 43,8% 35,8% 54,2% 37,5% 46,0%
priklic 74,7% 70,3% 66,2% 72,5% 59,1%
f-mera 55,3% 47,4% 59,6% 49,4% 51,7%
skupaj 445 449 302 248 156
nat. sk. 48,0% 60,6% 72,3% 63,2% 71,3%
prik. sk. 83,5% 82,6% 77,6% 76,2% 71,5%
f-m. sk. 61,0% 69,9% 74,9% 69,1% 71,4%
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 23
Eksperiment 1:ročna evalvacija
• iz vseh različic avtomatsko generiranih wordnetov smo izluščili 165 istih samostalniških sinsetov
• postopek evalvacije:– Ali sinset vsebuje pravilen literal?– tipologija napak: hiponim, hipernim,
soroden literal, napačen literal
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 24
SLOWN1 SLOWN2 SLOWN3 SLOWN4
št. sinsetov 165100%
165100%
165100%
165100%
pravilen sinset 58,2% 62,4% 72,1% 81,2%
ni pravilnega lit. 3,6% 3,0% 6,0% 5,4%
min. 1 prav. lit. 26,0% 22,4% 12,1% 8,4%
hipernim 1,8% 1,8% 1,8% 0,0%
hiponim 3,6% 3,6% 6,0% 3,6%
soroden lit. 1,2% 2,4% 1,2% 3,6%
več napak 4,8% 3,0% 0,0% 0,0%
• lahki: specifični koncepti (rat, army, kitchen)• težki: zelo polisemne besede (face, place)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 25
Eksperiment 1:evalvacija glede na št. jezikov
total
60.00%
70.00%
80.00%
90.00%
precision total 62.22% 69.80% 74.04% 77.37%
recall total 82.24% 77.27% 75.13% 75.88%
f-1 total 70.84% 73.19% 74.53% 76.62%
2 lang 3 lang 4 lang 5 lang
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 26
Eksperiment 2: viri
• JRC-Acquis– zakonodaja EU v 20+ jezikih– vzporejen na ravni odstavkov (HunAlign)– pri eksperimentu smo uporabili:
• angleški, češki in slovenski del korpusa• prvih 2.000 dokumentov
• Princeton Wordnet• BalkaNet
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 27
Esperiment 2:predprocesiranje
• angleščina & slovenščina:– tokenizacija, oblikoskladenjsko označevanje
& lematizacija (totale)
• češčina:– tokenizacija, oblikoskladenjsko označevanje
& lematizacija (Ajka)
• vzporejanje:– samo polnopomenske besede– samo 1:1 odstavke– na stavčni in besedni ravni (Uplug)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 28
Eksperiment 2:izluščeni leksikoni
• dvojezični leksikoni:– En-Sl, En-Cz– upoštevane samo 1:1 povezave med besedami
iste besedne vrste– upoštevane samo povezave, ki se pojavijo več kot
enkrat– pojavnice, ki vsebujejo nečrkovne nize znakov,
smo izločili– velikost leksikonov: ~ 10.000 vnosov
• večjezični leksikoni:– upoštevane so vse različice prevodov neke
angleške besede– En-Cz-Sl: 8.400 vnosov
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 29
Eksperiment 2:generirani sinseti
Orwellen-sl
Orwellen-cs-sl
Jrcen-cs-sl
št. sinsetov 6.746 1.501 4.768
avg l/s 2,0 1,8 2,5
bcs1 588 324 283
bcs2 1.063 393 400
bcs3 663 230 229
ostalo 4.432 554 3.753
področja 126 87 103
sam. 2.964 870 3.528
max l/s 10 7 9
avg l/s 1,4 1,4 2,6
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 30
SLOWNJRC
• relativno majhno število generiranih sinsetov glede na velikost korpusa (v primerjavi z Multext East)
• sinseti sodijo v manjše število področij (lastnost korpusa)
• povprečna dolžina sinseta je precej višja (slabša natančnost)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 31
slovarsrp-sl
Orwellen-cs-sl
Jrcen-cs-sl
sam.
natančnost 70,2% 78,4% 67,0%
priklic 87,3% 81,7% 72,0%
f-mera 77,8% 80,0% 69,4%
skupaj
natančnost 60,7% 72,3% 53,4%
priklic 82,6% 77,6% 81,4%
f-mera 69,9% 74,9% 64,5%
Eksperiment 2:avtomatska evalvacija
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 32
Eksperiment 2:ročna evalvacija
• 200 sinsetov iz 8 različnih področij:– 100 iz področij administracije, kemije,
ekonomije in prava– 100 iz področij jezikoslovja, književnosti,
založništva in matematike
• postopek evalvacije:– Ali sinset vsebuje pravilen literal?– tipologija napak: vzporejanje,
hiponim/hipernim, napašno razdvoumljanje
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 33
Eksperiment 2:ročna evalvacija
D1 D2
popolnoma pravilni 65 33
popolnoma napačni 14 21
napačno vzporejanje 23 22
soroden izraz 9 4
napačno razdvoumljanje 4 19
• napačno pripisovanje pomena večpomenskim besedam je veliko večje pri področjih, ki niso ustrezno zastopana v korpusu (D2)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 34
Sklepi
• semantične informacije iz vzporednih korpusov so se izkazale kot koristen vir za avtomatsko generiranje wordneta
• kakovost sinsetov se izboljšuje s številom jezikov, vključenih v razdvoumljenje
• za kakovost sinsetov je pomembna natančnost v vseh fazah predprocesiranja (od lematizacije do vzporejanja)
• pristop najbolje deluje za samostalniške sinsete
• pristop ne omogoča primernega razdvoumljanja zelo polisemnih besed (znan problem wordneta)
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 35
Načrti - večjezični
• razširitev metode na večbesedne termine na podlagi leksiko-sintaktičnih vzorcev
• dodajanje enopomenskih literalov, ki ne zahtevajo razdvoumljanja
• zapolnjevanje lukenj v generirani hierarhiji
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 36
Načrti - enojezični
• preverjanje uspešnosti prenosljivosti konceptov med jeziki na podlagi referenčnega korpusa FidaPlus
• razširitev wordneta na podlagi izluščenih relacij iz SSKJ in korpusa FidaPlus
• …
Jota07 Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta 37
Hvala!