[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation

NAACL2016Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on

AkivaMiura,GrahamNeubig,

MichaelPaul,SatoshiNakamura

紹介者　関沢祐樹首都大学東京

16/06/23 1

Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on

•  背景•  SMTにおける能動学習はラベル無しデータから

情報性の高いデータを選択し、効率的に学習•  選択されたものが、不変か、翻訳しやすいかが不明•  同じような文脈から冗長なフレーズを選択

•  提案手法（２つ）•  文法的に不変であるフレーズを選択•  冗長なフレーズを減少Ø BLEU値が向上,　翻訳の確信度の向上

16/06/23 2

Introduc.on

•  フレーズの選択•  右の例だと３つ

•  重なっている部分が冗長 à効率が悪くなる•  フレーズのマージを行う•  フレーズ長を任意にでき、線形時間で計算可能

•  フレーズの一部分を取り出す à　翻訳しづらい•  構文木を用いて、文法的に正しいものを選択

16/06/23 3

アルゴリズム

•  SrcPool: 翻訳候補を含む原言語データ•  Translated:翻訳されたパラレルデータ（フレーズのペア）•  Oracle:入力フレーズに対する正しい翻訳を与える

•  ex:humantranslator

•  LoopUn.lStopCondi.on:•  TM ßTrainTransla.onModel（Translated）•  NewSrc ßSelectNextPhrase（SrcPool,Translated,TM）•  NewTrg ßGetTransla.on（Oracle,NewSrc）•  Translated ßTranslated∪{〈NewSrc,NewTrg〉}

16/06/23 4

既存手法

1.  SentenceSelec.onusingN–GramFrequency•  カバーできていないフレーズが最も多く出現する文を選択

（上限n-gram）•  短所:すでにパラレルデータでカバーされているフレーズ

を多く含む à コスト高

2.  PhraseSelec.onusingN–GramFrequency•  最も多く出現し、まだカバーされていないh-gramフレーズを

選択（少ないデータの追加になる）•  短所:冗長性、フレーズの重なり

16/06/23 5

冗長なフレーズの削除

•  Maximalsubstrings•  フレーズpiがコーパス上に何回現れるかocc（pi）

occが等しい場合、マージするマージできなくなったフレーズ:最長単語列（p2,p3）

16/06/23 6

冗長なフレーズの削除

•  利点•  重なるフレーズを最長句のみに削減,長さの上限無し•  最長句、その発生回数はenhancedsuffixarraysによって

線形時間（文書長）で計算される

•  欠点•  先ほどの例だとp2とp3が残るがやはり冗長à共起回数がほぼ等しい場合は削除

16/06/23 7

λを用いる（０〜１の実数値、本研究では０．５）

文法的な判断

•  原言語文を解析し、全ての部分木を走査•  文法的に、句である部分を全て抽出

16/06/23 8

simula.onexperiment•  データを増やすこと、それによる再トレーニングによって翻訳の

accuracyがどうなるかを評価•  人手翻訳なし、データの追加方法の良さを見る

•  英仏の翻訳•  スタート:Europarlcorpus（WMT2014）•  追加:EMEA,PatTR,Wikipedia.tle（全てMedical）

•  英日の翻訳•  スタート:カバレージの広い例文コーパス（英辞郎辞書）•  追加 :ASPEC科学ペーパーのアブストラクトのコーパス•  日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は

除去 à解析、アライメントの正確さを確実

16/06/23 9

データの詳細

16/06/23 10

実験設定

•  フレーズベースSMT（MosesToolkit）を使用•  効率的再トレーニングのためにinc-giza-ppを使用、

これは、単語アライメントを取るGIZA++で、トレーニングデータを増やすこと、変化できるsuffixarrayフレーズテーブル（Moses）を含む。

•  言語モデルは5-gram•  デコーディングのパラメータ : 毎回調整は非現実的•  ベースラインのBLEU値が最大となるパラメータ

16/06/23 11

８つの手法

•  sent-rand:文をランダムに選択•  4gram-rand:n-gram: 単語列をランダムに選択、上限は4•  sent-by-4gram-freq（baseline1）:まだカバーされていないフレーズ（最長

４）を最も多く含む文を選択4gram-freq（baseline2）:最も多く出現する、まだカバーされていないフレーズ（最長４）を選択

•  以下は提案•  maxsubst-freq:最も多く出現する、まだカバーされていない

最長句を選択•  reduced-maxsubst-freq:最も多く出現する、まだカバーされていない

凖最長句を選択•  struct-freq:部分木から抽出された句のうち、最も多く出現する、

まだカバーされていない句を選択•  reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、

まだカバーされていない凖最長句を選択

16/06/23 12

result:BLEUとAddWord英仏

•  冗長句を除くことは良いといえる

16/06/23 13

result:BLEUとAddWord英日

16/06/23 14

result: フレーズ数とLength

•  木構造を用いた方法に注目すると、他のよりも短いフレーズを選択している

16/06/23 15

result:Coverage

16/06/23 16

人手による翻訳の質の評価

•  翻訳の専門家3人に依頼

16/06/23 17

実験設定

•  beseline:sent-by-4gram-freqと4-gram-freq•  提案手法:reduced-struct-freq•  英日と同じ実験設定•  目的言語モデルのトレーニングでは、SRILM

を使用して集めたデータを補間•  パープレキシティが最大になるようにパラメー

タ調整

16/06/23 18

result:BLEUとAddWords

16/06/23 19

result:BLEUと.me

16/06/23 20

result:TimeとConfidence

•  収集単語数:10,000

3の割合:79%

16/06/23 21

result:TimeとPhraseLength

•  length1が時間がかかる•  専門用語になりやすく、辞書を見る必要あり

16/06/23 22

result:ConfidenceとPhraseLength

•  1のとき低い àbaselineはlength1が少ない•  提案手法はlength2以降も安定

16/06/23 23

result:Accuracy（BLEUScore）

•  確信度で分けて実験•  確信度１を除いた時は総じて良くなる•  一方3のみの場合は悪くなる•  データを加えない場合はBLEU:9.37%

16/06/23 24

Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on

•  提案手法•  文法的に不変であるフレーズを選択•  冗長なフレーズを減少Ø BLEU値が向上,　翻訳の確信度の向上

•  改善点•  翻訳に時間がかかる専門用語の対処

•  未知語を対処する方法の組み合わせ•  必要な時間によって選択した単語列を最適化する

•  柔軟な文法の制限による様々なフレーズのアノテーション•  例えば”oneoftheprecedingX”

16/06/23 25

Education

[論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation