中間⾔語モデルを⽤いた多⾔語機械翻訳の精度向上

中間⾔語モデルを⽤いた多⾔語機械翻訳の精度向上

16/06/20 Akiva Miura AHC-Lab, IS, NAIST 1

第3回 AAMT⻑尾賞学⽣激励賞研究発表

奈良先端科学技術⼤学院⼤学知能コミュニケーション研究室

三浦明波 (Akiva Miura)

⽬次

1. 研究背景2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix

16/06/20 2Akiva Miura AHC-Lab, IS, NAIST

⽬次

1. 研究背景（ピボット翻訳の必要性）2. 従来のピボット翻訳⼿法3. 提案⼿法4. 実験的評価5. まとめ・今後の課題6. Appendix


ü  ⼈⼿によるルール記述が不要

統計的機械翻訳l  統計的機械翻訳（Statistical Machine Translation ; SMT) :

[Brown et al., 1993]


対訳コーパス

⽬的⾔語コーパス

翻訳モデル

⾔語モデル

デコーダ（翻訳機）

学習データ⼊⼒⽂

出⼒⽂

翻訳システム

ü  学習データの⽂量が増えるほど訳出の精度が向上

多⾔語翻訳における課題

16/06/20 5

l ⾔語対によって対訳コーパスの取得性が⼤きく異なる

（例）

•  ⼗分な⽂量の対訳コーパスが得られない場合は…？

Akiva Miura AHC-Lab, IS, NAIST

OKü  ⽇本語 ⇔ 英語:

Web上で1000万⽂以上の⼤規模データが取得可能

NG✗  ⽇本語 ⇔ イタリア語: ？（⽂単位で対訳になっているデータは多くない）

ピボット翻訳

翻訳したいが⼗分な対訳コーパスが無い…


⽇本語イタリア語✗ピボット⾔語（中間⾔語）を導⼊！

⽇本語イタリア語英語

ピボット⾔語を介して翻訳が可能に!!

⽇本語イタリア語英語✔

Source Pivot Target

⽬次



ü  実現が容易、機械翻訳⽅式に依らず組合せ可能✗  翻訳誤りが伝播される、システム全体の最適化困難


SMTS → P

SMTP → TS⽂ P⽂ T⽂

l パイプライン処理によって中間⾔語⽂を介して翻訳 [De Gispert et al.,2006]

逐次的ピボット翻訳 (Cascade)

S: 原⾔語P: 中間⾔語T: ⽬的⾔語

ü 独⽴したモデルを⽣成、最適化が容易ü 逐次的ピボット翻訳よりも⾼精度•  翻訳確率の推定⽅法に精度が依存

テーブル合成⽅式 (Triangulation)


SMTS → P

SMTP → T

S⽂ T⽂SMTS → T

l  2つの翻訳モデルを1つに合成 [Cohn et al., 2007]

S: 原⾔語P: 中間⾔語T: ⽬的⾔語

テーブル合成⼿法の例


approach近似

アプローチ approximation

access接近

approccio

accesso

ravvicinamentoSource（⽇） Pivot（英） Target（伊）

l 学習済みのSource-Pivot、Pivot-Targetのフレーズ対応

Ø  Source-Targetのフレーズ対応を推定（翻訳確率の推定も必要）近似 approccio近似 accesso

・・・

近似 ravvicinamentoアプローチ approccio

✗ 多義語・⽤語法の差異により適切なフレーズ対応の推定は困難

⽬次



着想


ü 翻訳時に⽬的⾔語と中間⾔語の⽂を同時に⽣成ü 中間⾔語では、豊富な単⾔語資源を取得可能Ø 中間⾔語⽂の⾃然性を考慮することで適切な語彙選択に貢献？

近似 approccio(via: approach)

近似 ravvicinamento(via: approach, approximation)

・・・

l 従来法：テーブル合成後には、関連していたピボットの情報が消失

近似〈approccio, approach〉近似〈ravvicinamento, approach〉近似〈ravvicinamento, approximation〉

l 提案法：テーブル合成時に、関連するピボットフレーズも記憶

・・・

提案⼿法: 複数同期ルール合成


•  First train source-pivot and pivot-target SCFG rules using the standard methodX → 〈 src1, pvt1 〉X → 〈 src2, pvt1 〉X → 〈 src3, pvt2 〉 . . .

X → 〈 pvt1, trg1〉X → 〈 pvt2, trg2〉X → 〈 pvt2, trg3〉 . . .

•  Combine source, target and pivot strings as a Multi-SCFG [Neubig+ 15] rules for each common pivot string

X → 〈 src1, trg1, pvt1 〉X → 〈 src2, trg1, pvt1 〉X → 〈 src3, trg2, pvt2 〉X → 〈 src3, trg2, pvt3 〉 . . .

•  First train source-pivot and pivot-target SCFG rules using the standard methodX → 〈 src1, pvt1 〉X → 〈 src2, pvt1 〉X → 〈 src3, pvt2 〉 . . .


•  Combine source, target and pivot strings as a Multi-SCFG [Neubig+ 15] rules for each common pivot string


X → 〈 src1, pvt1 〉X → 〈 src2, pvt1 〉X → 〈 src3, pvt2 〉 . . .


l  Source-Pivot、Pivot-Targetの同期ルール(Chiang 2007)を個別に学習

Ø 共通するピボットフレーズ毎にSource-Target-Pivotの複数同期ルール(Neubig et al., 2015)を合成


同時翻訳確率を推定

φ(trg,pvt | src) φ(src | pvt,trg)

翻訳確率

φ(pvt | src)φ(src | pvt)φ(trg | pvt)φ(pvt | trg)

⽬次



翻訳タスク

16/06/20 15

直接:SMT

S → TS T

SMTS → PS P SMT

P → T T

逐次:

無記憶合成 (ベースライン):

SMTS → P

SMTP → T

SMTS → T

S T

記憶合成 (提案法):SMT

S → PSMT

P → T

SMT (Multi)S → T, PS

T

PAkiva Miura AHC-Lab, IS, NAIST

実験設定

使⽤ツール単語アラインメント推定: GIZA++ [Och et al., 2003]

⾔語モデル学習: KenLM (5-gram) [Heafield, 2011]翻訳モデル学習、翻訳機: Travatar (SCFG, MSCFG) [Neubig, 2013]

⾃動評価尺度: BLEU-4 [Papineni et al., 2002]


データセット欧州議会議事録多⾔語コーパス(Europarl) [Koehn, 2003]

対訳学習: 100k，最適化: 1.5k，評価: 1.5kTarget⾔語モデル: 100kPivot⾔語モデル: 2M

Pivot : 英語 (en)Source, Pivot (全組み合わせ): ドイツ語 (de) スペイン語 (es) フランス語 (fr) イタリア語 (it)

実験結果


Src TrgBLEU-4 スコア [%]

直接逐次無記憶合成記憶合成+PivotLM 2M

de

es 27.10 25.05 25.31 25.75 *

fr 25.65 23.86 24.12 24.58 *

it 23.04 20.76 21.27 22.29 **

es

de 20.11 18.52 18.77 19.40 *

fr 33.48 27.00 29.54 29.95 *

it 27.82 22.57 25.11 25.64 **

fr

de 19.69 18.01 18.73 19.19 *

es 34.36 27.26 30.31 31.00 **

it 28.48 22.73 25.31 26.22 **

it

de 19.09 14.03 17.35 18.52 **

es 31.99 25.64 28.85 29.31 *

fr 31.39 25.87 28.48 29.02 *

* : p < 0.05 ** : p < 0.01

全ての組合せで、

逐次 < 無記憶合成

無記憶合成 < 記憶合成(0.4〜1.2 %の精度向上)

中間⾔語モデル規模の影響

16/06/20 18

21.2 21.4 21.6 21.8

22 22.2 22.4 22.6 22.8

23 23.2

0 500000 1x106 1.5x106 2x106

BLEU

Sco

re [%

]

Pivot-LM Size [sent.]

Direct Tri. SCFG Tri. MSCFG

l 中間⾔語（英語）モデルサイズが翻訳精度に与える影響（例：独伊ピボット翻訳）

✔ 中間⾔語モデル規模の増加に伴い、⽬的⾔語でも精度向上Akiva Miura AHC-Lab, IS, NAIST

↑直接翻訳

↑記憶合成

↓無記憶合成

曖昧性が解消された例

  ⼊⼒⽂ (ドイツ語):Ich bedaure , daß es keine gemeinsame Annäherung gegeben hat .

  正解訳 (イタリア語):Sono spiacente del mancato approccio comune .

  無記憶合成 (ベースライン):Mi rammarico per il fatto che non si ravvicinamento comune . (BLEU+1: 13.84)

  記憶合成 (提案法):Mi dispiace che non esiste un approccio comune . (BLEU+1: 25.10)I regret that there is no common approach . (同時⽣成された英⽂)


✔ ピボットフレーズの情報と中間⾔語モデルが曖昧性解消に寄与

↑✗◯↓

曖昧性を解消できなかった例

  ⼊⼒⽂ (フランス語):Vous avez tout à fait raison et je vous remercie dʼavoir attire´ lʼattention sur ce point .

  正解訳 (スペイン語):Tiene usted toda la razón y le agradezco que nos llame la atención sobre este punto .

  直接翻訳 (上限):Tiene usted razón y le agradezco que haya llamado la atención sobre este punto . (BLEU+1: 56.00)

  記憶合成 (提案法):Tiene usted mucha razón y gracias por haber conseguido la atención sobre este punto . (BLEU+1: 38.91) You have quite right and I thank you for having courageously brought the attention on this point . (同時⽣成された英⽂)


✗ 多品詞語「thank」の影響で訳が変わってしまっている

⽬次



まとめl  提案: 中間⾔語情報を記憶するテーブル合成⼿法

16/06/20 22

近似〈approccio, approach〉近似〈ravvicinamento, approach〉近似〈ravvicinamento, approximation〉

・・・

Ø  結果: 従来のテーブル合成⼿法より有意に精度向上

21.2 21.4 21.6 21.8

22 22.2 22.4 22.6 22.8

23 23.2

0 500000 1x106 1.5x106 2x106

BLEU

Sco

re [%

]

Pivot-LM Size [sent.]

Direct Tri. SCFG Tri. MSCFG

Akiva Miura AHC-Lab, IS, NAIST

Ø  課題: 多品詞語の問題や統語情報の⽋如などは未解決

今後の計画

l 表層的な単語列（語順）の扱いのみでは限界Ø 統語情報を取り⼊れることで更なる曖昧性の解消を狙う

Ø 構⽂部分⽊を中間表現に⽤いるピボット翻訳⼿法


NP

NN

X1:DT book

[X1] 本 [X1] 書

( b ) 部分構⽂⽊が中間表現 (多品詞語に対応可）

[X1] 本

( a ) 記号列が中間表現 (多品詞語による問題）

[X1] book [X1] 預訂✗

✔

ご清聴ありがとうございました

l  本会の受賞および発表のきっかけを作って下りました⻑尾真先⽣、選考に携わって下さった皆様やAAMT役員の皆様に⼼より感謝申し上げます

l  本発表の元となりました修⼠論⽂の執筆にあたって、様々な指導をして下さりました中村哲先⽣指導および本賞へ推薦して下さりましたGraham Neubig先⽣に⼼より感謝申し上げます


Science

中間⾔語モデルを⽤いた 多⾔語機械翻訳の精度向上

中間⾔語モデルを⽤いた多⾔語機械翻訳の精度向上