Upload
zoltin
View
35
Download
0
Embed Size (px)
DESCRIPTION
Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike. Jernej Vičič [email protected]. Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec. Vsebina. Pojmovnik Strojno prevajanje Statistično strojno prevajanje - PowerPoint PPT Presentation
Citation preview
Predstavitev doktorske disertacije
Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne
jezike
Jernej Vičič[email protected]
Mentor: prof. dr Igor Kononenko
Somentor: doc. dr Tomaž Erjavec
Predstavitev doktorske disertacije
Vsebina
1. Pojmovnik2. Strojno prevajanje3. Statistično strojno prevajanje4. Prevajanje na osnovi pravil in plitko
razčlenjevanje5. Jezikovna gradiva in njih hitra izdelava6. Rezultati in nadaljnje delo
Predstavitev doktorske disertacije
1 Pojmovnik
• lema – lemma,
• krn – stem,
• paradigma,
• POS – Part Of Speech,
• oblikoskladenjske oznake MSD
• (projekt MULTEXT-EAST),
• oznake projekta JOS.
Predstavitev doktorske disertacije
2 Strojno prevajanje
• Machine translation (MT) is the application of computers to the task of translating texts from one natural language to another (EAMT)
• (FAMT) Fully Automatic Machine Translation translation of natural languages with no user intervention
Predstavitev doktorske disertacije
2 Strojno prevajanje, zgodovina
• Začetek• prva leta,• petdeseta leta prejšnjega stoletja,• osemdeseta in začetki devetdesetih,• zdaj.
Predstavitev doktorske disertacije
2 Strojno prevajanje, zgodovina
• 1700 in prej: Leibniz in Descartes, • “translating machines”, trak z besedami,• pravi začetki digitalnega MT
• petdeseta leta• Georgetown-IBM experiment,
• ALPAC report (1966),• pozna devetdeseta (IBM Brown - SMT),• danes: Google, Microsoft, odprtokodne rešitve.
Predstavitev doktorske disertacije
2 Strojno prevajanje, zgodovina
The Good News According to Mark:
“The spirit indeed is willing, but the flesh is weak.”
prevod:
“The vodka is good, but the flesh is rotten.”
Predstavitev doktorske disertacije
2 Strojno prevajanje, razdelitev
•Strojno prevajanje - SP•SP na osnovi pravil (Rule-based MT)•Statistično SP (Statistical MT)•SP na osnovi primerov (Example-based MT)•Hibridno SP (Hybrid MT)
Predstavitev doktorske disertacije
Plitko razčlenjevanjePopolno ali delno razčlenjevanje
Predstavitev doktorske disertacije
3 Statistično strojno prevajanje
•temelji na verjetnosti,•temelji na velikih količinah primerov,•matematično „lepi“ modeli,•rezultate težko preverjamo (zakaj),•napake težko odpravljamo.
Predstavitev doktorske disertacije
3 Statistično strojno prevajanje
•Predstavniki:• Google translate,• Microsoft BING translator,• IBM (Brown in sodelavci),• Moses (financiran projekt evropske skupnosti),• Menola (moja malenkost – na podlagi št. 3).
Predstavitev doktorske disertacije
3 Statistično strojno prevajanje
•Potrebujemo velik dvojezični korpus:• poravnane povedi izvornega ter ciljnega jezika;• izdelamo prevajalni model.
•Potrebujemo velik enojezični korpus:• izdelamo jezikovni model ciljnega jezika.
Predstavitev doktorske disertacije
4 Strojno prevajanje na osnovi pravil
•Rule-Based Machine Translation,•najbolj razširjeno (če zanemarimo Google),•osnovni problem:
•dolgotrajna izdelava virov,•možna rešitev problema:
•samodejna izdelava virov.
Predstavitev doktorske disertacije
4 RBMT - viri
•oblikoskladenjsko označeni enojezični slovarji,•dvojezični prevajalni slovarji,•prevajalna pravila,•sistemi za razdvoumljanje (označevalec POS,
MSD),•skladenjski razčlenjevalci povedi.
Predstavitev doktorske disertacije
4 Arhitektura tipičnega sistema
Predstavitev doktorske disertacije
• Apertium kot primer prevajalnega sistema na osnovi pravil.
• leksikon izvornega jezika
• leksikon ciljnega jezika
• dvojezični leksikon
• pravila prenosa
• enojezični korpus, čim večji
• pravila končnega urejanja
5 Jezikovna gradiva
Izvorno besedilo
Post-generator
Oblikoskladenjska sinteza
Strukturni in leksikalni prenos
Razdvoumljanje
Oblikoskladenjska analiza
Označba formatiranja
Uvedba formatiranja
Ciljno besedilo
Predstavitev doktorske disertacije
5 Problemi s slovenščino
mizamizemizimizomizimizo
table
Predstavitev doktorske disertacije
5 Gradnja slovarjev
• gradimo iz korpusa,
• naš korpus je že označen,
• uporabimo paradigme.
Predstavitev doktorske disertacije
5 Paradigme
Paradigma: zvonč-ek[N]
Krn: zvonč
Besedna vrsta N (noun, samostalnik)
ek -- "ncmsa--n“ -- Sometn -- samostalnik občno_ime moški ednina tožilnik -živostek -- "ncmsn" -- Somei -- samostalnik občno_ime moški ednina imenovalnikka -- "ncmda" -- Somdt -- samostalnik občno_ime moški dvojina tožilnikka -- "ncmdn"ka -- "ncmsg"ke -- "ncmpa"kih -- "ncmdl"kih -- "ncmpl"ki -- "ncmpi"ki -- "ncmpn"koma -- "ncmdd"koma -- "ncmdi"kom -- "ncmpd"kom -- "ncmsi"kov -- "ncmdg"kov -- "ncmpg"ku -- "ncmsd"ku -- "ncmsl"ka -- "ncmsa--y"
Predstavitev doktorske disertacije
5 … njih graditev
• Večjezični korpus MULTEXT-EAST;• izbrali smo 2 jezika: slovenščina, srbščina.
• Izdelamo spisek vseh pojavnic z oznakami MSD in lemami.
Predstavitev doktorske disertacije
5 … njih graditev
• izdelava začetnih paradigem za vsako lemo,• lema,• krn,• zapisi za vsako besedno obliko.
Predstavitev doktorske disertacije
5 … njih graditev
• Dve paradigmi združimo v novo paradigmo če:• se ujemata v prvi oznaki MSD – besedna vrsta,• sta istega spola,• se vsi zapisi le dopolnjujejo (se medsebojno ne
izključujejo).
Predstavitev doktorske disertacije
<pardef n="zvonč-ek[N]“ lemmata=“zvonček vsadek”> <e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e> <e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e> <e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e> ... </pardef>
<pardef n=“vsad-ek[N]“ lemmata=“vsadek”> <e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e> <e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e> … </pardef>
<pardef n="zvonč-ek[N]“ lemmata=“zvonček”>
Predstavitev doktorske disertacije
5 … njih graditev
Zapišemo sestavljene paradigme; Zapišemo zapise za vsako lemo.
Predstavitev doktorske disertacije
<pardef n="zvonč-ek[N]" lemmas="zvonček zvitek zvezek zvarek žužek zrezek znesek zmenek zmazek zavojček zavitek zavihek zaslužek zaselek zarodek žarek žarek žarek žarek žarek zapisek zamašek zaključek zajček zaimek zahtevek zadetek zadek začetek vzdevek vsadek vršiček voziček vosek višek venček užitek učinek tujek trenutek trebušček torek sunek strošek strdek stolček stebriček stavek spominek šopek sodček smrček skupek škrjanček škandalček šipek sinček sestavek sestanek sesek samoprispevek samček rožiček razporek razloček prstek prostorček prizidek privesek pristanek prispevek prisesek prirastek pripomoček primerek prijateljček priimek prihranek prigrizek pridržek pridelek preudarek prestopek prestanek presledek presežek presadek preostanek prekršek predsodek predelek prašiček prašek požirek povedek poudarek potoček postopek postanek posnetek popravek popek ponedeljek ponaredek pomenek pododdelek podlistek podatek podaljšek počitek pljunek plamenček petek pesek peklenšček ovinek otoček ostanek osnutek oslinek osebek opravek olupek odtenek odstotek odstavek odpustek odpadek odmerek odlomek oddelek očitek obstanek obronek oblaček obkladek obesek občutek nožek norček nastanek nasmešek našitek napredek napotek napitek nameček nadzidek nadomestek možiček mošnjiček molek mleček mladiček metek mehurček maček lonček ljubljenček ljubček listek kužek kupček krokodilček kozarček kotiček košček konjiček kolek kanček kamenček jermenček jašek jarek izvržek izvleček iztrebek izstrelek izsledek izrodek izrastek izloček izdelek izcedek izbljuvek hribček hrček hlebček grmiček griček gozdiček fantek dvojček dušek dosežek dojenček dohodek dogodek dodatek dobiček delček dedek deček davek curek cucek človeček članek četrtek božiček angelček "><e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e><e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e><e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e><e><p><l>kih</l><r>ek<s n="ncmdl"/></r></p></e><e><p><l>kih</l><r>ek<s n="ncmpl"/></r></p></e><e><p><l>ki</l><r>ek<s n="ncmpi"/></r></p></e><e><p><l>ki</l><r>ek<s n="ncmpn"/></r></p></e><e><p><l>koma</l><r>ek<s n="ncmdd"/></r></p></e><e><p><l>koma</l><r>ek<s n="ncmdi"/></r></p></e><e><p><l>kom</l><r>ek<s n="ncmpd"/></r></p></e><e><p><l>kom</l><r>ek<s n="ncmsi"/></r></p></e><e><p><l>kov</l><r>ek<s n="ncmdg"/></r></p></e><e><p><l>kov</l><r>ek<s n="ncmpg"/></r></p></e><e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e><e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmsa--y"/></r></p></e></pardef>
Predstavitev doktorske disertacije
5 Razdvoumljanje, označevalnik MSD
Ni drevesa v gozdu in videl sem drevesa v gozdu.
• drevesa Soser drevo
• drevesa Sosmt drevo
• uporabimo za razdvoumljanje
Predstavitev doktorske disertacije
5 Prevajalna pravila
• pravila plitkega prenosa• lokalna okolica (končna)• regularni izrazi
končni avtomati
Predstavitev doktorske disertacije
5 Prevajalna pravila
• vzorec
• končna dolžina
• leksikalne enote (LU)
• ukrep• akcije nad vzorcem
Predstavitev doktorske disertacije
5 Prevajalna pravila
• vzorec
• končna dolžina
• leksikalne enote (LU)
• ukrep• akcije nad vzorcem
Predstavitev doktorske disertacije
5 Prevajalna pravila
• vzorec
• končna dolžina
• leksikalne enote (LU)
• ukrep• akcije nad vzorcem
Predstavitev doktorske disertacije
5 Prevajalna pravila - uporaba
• leksikalni in strukturni prenos,
• lokalno ujemanje oblikoskladenjskih kategorij.
Predstavitev doktorske disertacije
6 Rezultati
sl poln leksikon št. zapisov št. lem št. paradigem
Osnovni leksikon 557.970 17.588 17588
Spremenjeni leksikon 587.321 17.588 743
sl osnovni št. zapisov št. lem št. paradigem
Osnovni leksikon ~22000 ~7500 8381
Spremenjeni leksikon ~300000 ~7500 ~750
sr št. zapisov št. lem št. paradigem
Osnovni leksikon 20.294 8.381 8372
Spremenjeni leksikon 296.695 8.381 737
Predstavitev doktorske disertacije
6 Rezultati – ročno popravljen sistem
• Google summer of code
• GSOC2011: sl-es
• GSOC2012: sh-sl
Predstavitev doktorske disertacije
6 Rezultati – ročno popravljen sistem
Prevajalni sistem WRR
Guat (samodejno) 75 %
Ugor (ročno popravljeno)
82 % (trenutno)
Google translate 67,5 %
Predstavitev doktorske disertacije
6 Prevajalni sistem Guat
• naslov: http://jt.upr.si/guat
• preizkus uspešnosti metod,
• kaže najnovejše (dobre) poizkuse,
• omogoča komunikacijo z možnimi sodelavci.
Kupiti ću lep novi automobil i otići ću na more.Kupil bom lep nov avtomobil in odšel bom na morje.
Sutra ću kupiti veoma lepim pištoljem.Jutri bom kupil zelo lepo pištolo.
Čerington, sutra biće lep dan.Gospod, jutri bo lep dan.
Predstavitev doktorske disertacije
6 Nadaljnje delo
• postavitev novih prevajalnih sistemov:
• uporaba predstavljenih metod,
• ročna izboljšava jezikovnih gradiv,
• Ugor (sl-sh) - produkcijska kakovost,
• Sardela (sl-es) – še v povojih.
• http://jt.upr.si/jernejevdoktorat/
Predstavitev doktorske disertacije
7 Prispevki k znanosti
• metoda za statistično strojno prevajanje z drevesi izpeljav za manj uporabljene jezike;
• metoda za samodejno označevanje paradigem;
• metoda za samodejno luščenje paradigem za visoko pregibne jezike in izdelava pripadajočih leksikonov;
• ocenjevanje pravil za strukturni prenos;
• hitra izdelava prevajalnega sistema na osnovi pravil plitkega prenosa za sorodne jezike.