14
Angol-magyar statisztikai gépi fordító rendszer minőségének javítása Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása

  • Upload
    maxine

  • View
    44

  • Download
    4

Embed Size (px)

DESCRIPTION

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása. Készítette: Laki László János PPKE Információs Technológiai Kar Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic. Tartalom. Statisztikai gépi fordítás - PowerPoint PPT Presentation

Citation preview

Page 1: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Angol-magyar statisztikai gépi fordító rendszer minőségének javítása

Készítette: Laki László János PPKE Információs Technológiai Kar

Témavezető: Prószéky Gábor PPKE Információs Technológiai Kar, MorphoLogic

Page 2: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Tartalom

• Statisztikai gépi fordítás– Bevezetés– Szótár hozzáadása a korpuszhoz– Hibridizáció– Cigány-magyar SMT

Page 3: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

STATISZTIKAI GÉPI FORDÍTÁS

Page 4: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

SMT formális leírása

E: The cat cought the m ouse.

C SATO R N A BEM EN ET : EZAJO S CSATO R N A

P(F |E )

G EN ER ATÍV IR ÁN Y

F: A m acska m egfogta az egeret.

C SATO R N A KIM EN ET F:

LEG JO BB C ÉLN YELVI M O N D AT: E FO RR ÁSNYELVI M O NDAT:

F

AR G M AX

*N YELVI M O D ELL

P(E)F M O D ELL

P( E)O R D ÍTÁSI

F |

D EKÓ D O LÓ IR ÁN Y

P(E)

–Zajos csatorna modell három komponensből áll:

•Nyelvi modell (folyékonyság)•Fordítási modell (tartalom-hűség)

•Dekódoló

–É=argmax P(E|F) = argmax P(E)*P(F|E)

–É: a legjobb fordítás–E: angol mondat (cél nyelv)

–F: idegen mondat (forrás nyelv)

Page 5: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Felhasznált keretrendszerek

• LitMag (Hunglish) korpusz – 654 939 mondat

• SMT keretrendszer:– Nyelvi modell: SRILM– Fordítási modell: IBM modellek– Dekódoló: MOSES

Page 6: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Kiértékelés• BLEU = BiLingual Evaluation Understudy• A javaslat az IBM-től származik (Papineni és mtsai,

2002)• A fő gondolat:

– Szavak pontos illeszkedése (PONTOSSÁG)– Illeszkedés egy referenciafordításra– Szópontosság-alapú „helyesség”-számítás– n-gram-pontosság alapú „folyamatosság”-számítás

(n=1,2,3,4)– Semmi fedéssel kapcsolatos szám, ui. nehéz a

többszörös referenciák miatt– A fedés hiányzó szerepének ellensúlyozására

bevezetik a BP-t (Brevity Penalty = rövidségi büntetés)– A végső szám az n-gram-eredmények súlyozott átlaga

(a hasonló hosszúságú szerkezetek: mondatok, tagmondatok, szószerkezetek, frázisok külön-külön kiszámolt súlyozott átlaga)

– Nagy teszthalmazon együttes eredmény

Page 7: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Szótár hozzáadása a korpuszhoz

• Szótár:– 344 924 mondat

Rendszer BLEU érték

1 Alaprendszer fordítása: 10.85%

2 Alap+1xszótár rendszer fordítása:

11.18%

3 Alap+2xszótár rendszer fordítása:

11.01%

4 Alap+3xszótár rendszer fordítása:

10.88%

5 Alap+4xszótár rendszer fordítása:

10.88%

6 Alap+5xszótár rendszer fordítása:

10.87%

1-gram

2-gram

3-gram

4-gram

5-gram

6-gram

7-gram

8-gram

9-gram

1 47.05 16.29 7.07 3.54 1.94 1.14 0.74 0.57 0.46

2 47.60 16.62 7.35 3.78 2.02 1.19 0.75 0.57 0.43

3 47.55 16.46 7.25 3.75 2.09 1.25 0.81 0.60 0.46

4 47.32 16.33 7.09 3.64 1.94 1.09 0.68 0.47 0.33

5 47.32 16.33 7.09 3.64 1.93 1.09 0.68 0.47 0.33

6 47.74 16.43 7.19 3.63 1.93 1.08 0.68 0.51 0.39

Page 8: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Példa (angol-magyar)Angol referencia mondat:

" i wonder who 'll be teaching us ? " said hermione as they edged into the chattering crowd .

Magyar referencia mondat:

- kíváncsi vagyok , ki tartja a tanfolyamot - morfondírozott hermione , miközben barátaival befurakodtak a tömegbe .

Alaprendszer fordítása:

- csak tudnám , ki lesz a tanítást ? - kérdezte hermione , mikor ő az .

Alap+1xszótár rendszer fordítása:

- csak tudnám , ki lesz tanított nekünk ? - szólt hermione , mikor elindult a jóvoltából .

Alap+2xszótár rendszer fordítása:

- kíváncsi vagyok , aki tanított nekünk ? - szólt hermione , mikor elindult a zsibongó tömeg .

Alap+3xszótár rendszer fordítása:

- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .

Alap+4xszótár rendszer fordítása:

- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .

Alap+5xszótár rendszer fordítása:

- kíváncsi vagyok , ki lesz tanított nekünk ? - szólt hermione , mikor elindult az összeverődött tömegen .

Page 9: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

További hibridizáció• JOSHUA• Környezetfüggetlen nyelvtan

[S] ||| [X,1] ||| [X,1] ||| 0 0 0[S] ||| [S,1] [X,2] ||| [S,1] [X,2] ||| 0.434294482 0 0

tudta , hogy nem volna béke , ha utazásai közben állandóan az a gondolat , hogy boldogtalan volt .

Page 10: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

JOSHUA rendszer eredményei

• Az eredmény javulása az egyszerű szabályok ellenére

Rendszer BLEU érték

Alaprendszer 10.85%

LitMag+JOSHUA+OOV

9.85%

LitMag+JOSHUA 11.06%Angol referenciamondat:" for a little while only , " said the voice quietly .Magyar referenciamondat:- csak egy kis ideig - mondta a hang csendesen .Alaprendszer fordítása:- egy darabig csak - mondta a hang . JOSHUA rendszer fordítása:- csak egy kis ideig nyugodtan - mondta a hang .

Page 11: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Cigány-magyar SMT

• Eredmény:– Sokkal magasabb BLEU– Olvashatóbb, érthetőbb fordítás

Rendszer BLEU érték

Cigány-magyar (MOSES)

30.53%

Cigány-magyar (JOSHUA)

29.20%

Magyar-cigány (MOSES)

30.38%

Magyar-cigány (JOSHUA)

35.88%

• Hasonló morfológiai gazdagságú nyelvpárok

• Korpusz:– Vesho-Farkas-féle

lovári nyelvű Újszövetség

– Káldi-féle (Neovulgáta) magyar Újszövetség

Page 12: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Példamondat (cigány-magyar)

• Cigány referenciamondat:le but manusha pale tele sharadine penge gada po drom , kavera pale kranzhi phagrenas tele pa kasht haj po drom rispisarnaslen .

• Magyar referenciamondat:a hatalmas tömeg pedig leterítette ruháit az útra , mások meg ágakat vagdostak a fákról és az útra szórták .

• MOSES fordítás:a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa , és az úton rispisarnaslen .

• JOSHUA fordítás:a nép pedig le terítették ruháikat az úton , mások pedig ágakat phagrenas le a fa és az úton rispisarnaslen .

Page 13: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Összefoglalás

• Angol-magyar SMT rendszer minőségének javítása szótár hozzáadásával

• Angol-magyar SMT rendszer minőségének javítása hibridizációval

• Létrehoztam egy cigány-magyar statisztikai gépi fordító rendszert

Page 14: Angol-magyar statisztikai gépi fordító rendszer  minőségének javítása

Köszönöm a figyelmet!

[email protected]