39
Predstavitev doktorske disertacije Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike Jernej Vičič [email protected] Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec

Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike

  • Upload
    zoltin

  • View
    35

  • Download
    0

Embed Size (px)

DESCRIPTION

Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike. Jernej Vičič [email protected]. Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec. Vsebina. Pojmovnik Strojno prevajanje Statistično strojno prevajanje - PowerPoint PPT Presentation

Citation preview

Page 1: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne

jezike

Jernej Vičič[email protected]

Mentor: prof. dr Igor Kononenko

Somentor: doc. dr Tomaž Erjavec

Page 2: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

Vsebina

1. Pojmovnik2. Strojno prevajanje3. Statistično strojno prevajanje4. Prevajanje na osnovi pravil in plitko

razčlenjevanje5. Jezikovna gradiva in njih hitra izdelava6. Rezultati in nadaljnje delo

Page 3: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

1 Pojmovnik

• lema – lemma,

• krn – stem,

• paradigma,

• POS – Part Of Speech,

• oblikoskladenjske oznake MSD

• (projekt MULTEXT-EAST),

• oznake projekta JOS.

Page 4: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

2 Strojno prevajanje

• Machine translation (MT) is the application of computers to the task of translating texts from one natural language to another (EAMT)

• (FAMT) Fully Automatic Machine Translation translation of natural languages with no user intervention

Page 5: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

2 Strojno prevajanje, zgodovina

• Začetek• prva leta,• petdeseta leta prejšnjega stoletja,• osemdeseta in začetki devetdesetih,• zdaj.

Page 6: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

2 Strojno prevajanje, zgodovina

• 1700 in prej: Leibniz in Descartes, • “translating machines”, trak z besedami,• pravi začetki digitalnega MT

• petdeseta leta• Georgetown-IBM experiment,

• ALPAC report (1966),• pozna devetdeseta (IBM Brown - SMT),• danes: Google, Microsoft, odprtokodne rešitve.

Page 7: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

2 Strojno prevajanje, zgodovina

The Good News According to Mark:

“The spirit indeed is willing, but the flesh is weak.”

prevod:

“The vodka is good, but the flesh is rotten.”

Page 8: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

2 Strojno prevajanje, razdelitev

•Strojno prevajanje - SP•SP na osnovi pravil (Rule-based MT)•Statistično SP (Statistical MT)•SP na osnovi primerov (Example-based MT)•Hibridno SP (Hybrid MT)

Page 9: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

Plitko razčlenjevanjePopolno ali delno razčlenjevanje

Page 10: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

3 Statistično strojno prevajanje

•temelji na verjetnosti,•temelji na velikih količinah primerov,•matematično „lepi“ modeli,•rezultate težko preverjamo (zakaj),•napake težko odpravljamo.

Page 11: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

3 Statistično strojno prevajanje

•Predstavniki:• Google translate,• Microsoft BING translator,• IBM (Brown in sodelavci),• Moses (financiran projekt evropske skupnosti),• Menola (moja malenkost – na podlagi št. 3).

Page 12: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

3 Statistično strojno prevajanje

•Potrebujemo velik dvojezični korpus:• poravnane povedi izvornega ter ciljnega jezika;• izdelamo prevajalni model.

•Potrebujemo velik enojezični korpus:• izdelamo jezikovni model ciljnega jezika.

Page 13: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

4 Strojno prevajanje na osnovi pravil

•Rule-Based Machine Translation,•najbolj razširjeno (če zanemarimo Google),•osnovni problem:

•dolgotrajna izdelava virov,•možna rešitev problema:

•samodejna izdelava virov.

Page 14: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

4 RBMT - viri

•oblikoskladenjsko označeni enojezični slovarji,•dvojezični prevajalni slovarji,•prevajalna pravila,•sistemi za razdvoumljanje (označevalec POS,

MSD),•skladenjski razčlenjevalci povedi.

Page 15: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

4 Arhitektura tipičnega sistema

Page 16: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

• Apertium kot primer prevajalnega sistema na osnovi pravil.

• leksikon izvornega jezika

• leksikon ciljnega jezika

• dvojezični leksikon

• pravila prenosa

• enojezični korpus, čim večji

• pravila končnega urejanja

5 Jezikovna gradiva

Izvorno besedilo

Post-generator

Oblikoskladenjska sinteza

Strukturni in leksikalni prenos

Razdvoumljanje

Oblikoskladenjska analiza

Označba formatiranja

Uvedba formatiranja

Ciljno besedilo

Page 17: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Problemi s slovenščino

mizamizemizimizomizimizo

table

Page 18: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Gradnja slovarjev

• gradimo iz korpusa,

• naš korpus je že označen,

• uporabimo paradigme.

Page 19: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Paradigme

Page 20: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Paradigma: zvonč-ek[N]

Krn: zvonč

Besedna vrsta N (noun, samostalnik)

ek -- "ncmsa--n“ -- Sometn -- samostalnik občno_ime moški ednina tožilnik -živostek -- "ncmsn" -- Somei -- samostalnik občno_ime moški ednina imenovalnikka -- "ncmda" -- Somdt -- samostalnik občno_ime moški dvojina tožilnikka -- "ncmdn"ka -- "ncmsg"ke -- "ncmpa"kih -- "ncmdl"kih -- "ncmpl"ki -- "ncmpi"ki -- "ncmpn"koma -- "ncmdd"koma -- "ncmdi"kom -- "ncmpd"kom -- "ncmsi"kov -- "ncmdg"kov -- "ncmpg"ku -- "ncmsd"ku -- "ncmsl"ka -- "ncmsa--y"

Page 21: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 … njih graditev

• Večjezični korpus MULTEXT-EAST;• izbrali smo 2 jezika: slovenščina, srbščina.

• Izdelamo spisek vseh pojavnic z oznakami MSD in lemami.

Page 22: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 … njih graditev

• izdelava začetnih paradigem za vsako lemo,• lema,• krn,• zapisi za vsako besedno obliko.

Page 23: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 … njih graditev

• Dve paradigmi združimo v novo paradigmo če:• se ujemata v prvi oznaki MSD – besedna vrsta,• sta istega spola,• se vsi zapisi le dopolnjujejo (se medsebojno ne

izključujejo).

Page 24: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

<pardef n="zvonč-ek[N]“ lemmata=“zvonček vsadek”> <e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e> <e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e> <e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e> ... </pardef>

<pardef n=“vsad-ek[N]“ lemmata=“vsadek”> <e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e> <e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e> … </pardef>

<pardef n="zvonč-ek[N]“ lemmata=“zvonček”>

Page 25: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 … njih graditev

Zapišemo sestavljene paradigme; Zapišemo zapise za vsako lemo.

Page 26: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

<pardef n="zvonč-ek[N]" lemmas="zvonček zvitek zvezek zvarek žužek zrezek znesek zmenek zmazek zavojček zavitek zavihek zaslužek zaselek zarodek žarek žarek žarek žarek žarek zapisek zamašek zaključek zajček zaimek zahtevek zadetek zadek začetek vzdevek vsadek vršiček voziček vosek višek venček užitek učinek tujek trenutek trebušček torek sunek strošek strdek stolček stebriček stavek spominek šopek sodček smrček skupek škrjanček škandalček šipek sinček sestavek sestanek sesek samoprispevek samček rožiček razporek razloček prstek prostorček prizidek privesek pristanek prispevek prisesek prirastek pripomoček primerek prijateljček priimek prihranek prigrizek pridržek pridelek preudarek prestopek prestanek presledek presežek presadek preostanek prekršek predsodek predelek prašiček prašek požirek povedek poudarek potoček postopek postanek posnetek popravek popek ponedeljek ponaredek pomenek pododdelek podlistek podatek podaljšek počitek pljunek plamenček petek pesek peklenšček ovinek otoček ostanek osnutek oslinek osebek opravek olupek odtenek odstotek odstavek odpustek odpadek odmerek odlomek oddelek očitek obstanek obronek oblaček obkladek obesek občutek nožek norček nastanek nasmešek našitek napredek napotek napitek nameček nadzidek nadomestek možiček mošnjiček molek mleček mladiček metek mehurček maček lonček ljubljenček ljubček listek kužek kupček krokodilček kozarček kotiček košček konjiček kolek kanček kamenček jermenček jašek jarek izvržek izvleček iztrebek izstrelek izsledek izrodek izrastek izloček izdelek izcedek izbljuvek hribček hrček hlebček grmiček griček gozdiček fantek dvojček dušek dosežek dojenček dohodek dogodek dodatek dobiček delček dedek deček davek curek cucek človeček članek četrtek božiček angelček "><e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e><e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e><e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e><e><p><l>kih</l><r>ek<s n="ncmdl"/></r></p></e><e><p><l>kih</l><r>ek<s n="ncmpl"/></r></p></e><e><p><l>ki</l><r>ek<s n="ncmpi"/></r></p></e><e><p><l>ki</l><r>ek<s n="ncmpn"/></r></p></e><e><p><l>koma</l><r>ek<s n="ncmdd"/></r></p></e><e><p><l>koma</l><r>ek<s n="ncmdi"/></r></p></e><e><p><l>kom</l><r>ek<s n="ncmpd"/></r></p></e><e><p><l>kom</l><r>ek<s n="ncmsi"/></r></p></e><e><p><l>kov</l><r>ek<s n="ncmdg"/></r></p></e><e><p><l>kov</l><r>ek<s n="ncmpg"/></r></p></e><e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e><e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e><e><p><l>ka</l><r>ek<s n="ncmsa--y"/></r></p></e></pardef>

Page 27: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Razdvoumljanje, označevalnik MSD

Ni drevesa v gozdu in videl sem drevesa v gozdu.

• drevesa Soser drevo

• drevesa Sosmt drevo

• uporabimo za razdvoumljanje

Page 28: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Prevajalna pravila

• pravila plitkega prenosa• lokalna okolica (končna)• regularni izrazi

končni avtomati

Page 29: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Prevajalna pravila

• vzorec

• končna dolžina

• leksikalne enote (LU)

• ukrep• akcije nad vzorcem

Page 30: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Prevajalna pravila

• vzorec

• končna dolžina

• leksikalne enote (LU)

• ukrep• akcije nad vzorcem

Page 31: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Prevajalna pravila

• vzorec

• končna dolžina

• leksikalne enote (LU)

• ukrep• akcije nad vzorcem

Page 32: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

5 Prevajalna pravila - uporaba

• leksikalni in strukturni prenos,

• lokalno ujemanje oblikoskladenjskih kategorij.

Page 33: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

6 Rezultati

sl poln leksikon št. zapisov št. lem št. paradigem

Osnovni leksikon 557.970 17.588 17588

Spremenjeni leksikon 587.321 17.588 743

sl osnovni št. zapisov št. lem št. paradigem

Osnovni leksikon ~22000 ~7500 8381

Spremenjeni leksikon ~300000 ~7500 ~750

sr št. zapisov št. lem št. paradigem

Osnovni leksikon 20.294 8.381 8372

Spremenjeni leksikon 296.695 8.381 737

Page 34: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

6 Rezultati – ročno popravljen sistem

• Google summer of code

• GSOC2011: sl-es

• GSOC2012: sh-sl

Page 35: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

6 Rezultati – ročno popravljen sistem

Prevajalni sistem WRR

Guat (samodejno) 75 %

Ugor (ročno popravljeno)

82 % (trenutno)

Google translate 67,5 %

Page 36: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

6 Prevajalni sistem Guat

• naslov: http://jt.upr.si/guat

• preizkus uspešnosti metod,

• kaže najnovejše (dobre) poizkuse,

• omogoča komunikacijo z možnimi sodelavci.

Page 37: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Kupiti ću lep novi automobil i otići ću na more.Kupil bom lep nov avtomobil in odšel bom na morje.

Sutra ću kupiti veoma lepim pištoljem.Jutri bom kupil zelo lepo pištolo.

Čerington, sutra biće lep dan.Gospod, jutri bo lep dan.

Page 38: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

6 Nadaljnje delo

• postavitev novih prevajalnih sistemov:

• uporaba predstavljenih metod,

• ročna izboljšava jezikovnih gradiv,

• Ugor (sl-sh) - produkcijska kakovost,

• Sardela (sl-es) – še v povojih.

• http://jt.upr.si/jernejevdoktorat/

Page 39: Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne  naravne  jezike

Predstavitev doktorske disertacije

7 Prispevki k znanosti

• metoda za statistično strojno prevajanje z drevesi izpeljav za manj uporabljene jezike;

• metoda za samodejno označevanje paradigem;

• metoda za samodejno luščenje paradigem za visoko pregibne jezike in izdelava pripadajočih leksikonov;

• ocenjevanje pravil za strukturni prenos;

• hitra izdelava prevajalnega sistema na osnovi pravil plitkega prenosa za sorodne jezike.