Upload
sekizawayuuki
View
412
Download
3
Embed Size (px)
Citation preview
NAACL2016Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on
AkivaMiura,GrahamNeubig,
MichaelPaul,SatoshiNakamura
紹介者 関沢祐樹首都大学東京
16/06/23 1
Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on
• 背景• SMTにおける能動学習はラベル無しデータから
情報性の高いデータを選択し、効率的に学習• 選択されたものが、不変か、翻訳しやすいかが不明• 同じような文脈から冗長なフレーズを選択
• 提案手法(2つ)• 文法的に不変であるフレーズを選択• 冗長なフレーズを減少Ø BLEU値が向上, 翻訳の確信度の向上
16/06/23 2
Introduc.on
• フレーズの選択• 右の例だと3つ
• 重なっている部分が冗長 à効率が悪くなる• フレーズのマージを行う• フレーズ長を任意にでき、線形時間で計算可能
• フレーズの一部分を取り出す à 翻訳しづらい• 構文木を用いて、文法的に正しいものを選択
16/06/23 3
アルゴリズム
• SrcPool: 翻訳候補を含む原言語データ• Translated:翻訳されたパラレルデータ(フレーズのペア)• Oracle:入力フレーズに対する正しい翻訳を与える
• ex:humantranslator
• LoopUn.lStopCondi.on:• TM ßTrainTransla.onModel(Translated)• NewSrc ßSelectNextPhrase(SrcPool,Translated,TM)• NewTrg ßGetTransla.on(Oracle,NewSrc)• Translated ßTranslated∪{〈NewSrc,NewTrg〉}
16/06/23 4
既存手法
1. SentenceSelec.onusingN–GramFrequency• カバーできていないフレーズが最も多く出現する文を選択
(上限n-gram)• 短所:すでにパラレルデータでカバーされているフレーズ
を多く含む à コスト高
2. PhraseSelec.onusingN–GramFrequency• 最も多く出現し、まだカバーされていないh-gramフレーズを
選択(少ないデータの追加になる)• 短所:冗長性、フレーズの重なり
16/06/23 5
冗長なフレーズの削除
• Maximalsubstrings• フレーズpiがコーパス上に何回現れるかocc(pi)
occが等しい場合、マージするマージできなくなったフレーズ:最長単語列(p2,p3)
16/06/23 6
冗長なフレーズの削除
• 利点• 重なるフレーズを最長句のみに削減,長さの上限無し• 最長句、その発生回数はenhancedsuffixarraysによって
線形時間(文書長)で計算される
• 欠点• 先ほどの例だとp2とp3が残るがやはり冗長à共起回数がほぼ等しい場合は削除
16/06/23 7
λを用いる(0〜1の実数値、本研究では0.5)
文法的な判断
• 原言語文を解析し、全ての部分木を走査• 文法的に、句である部分を全て抽出
16/06/23 8
simula.onexperiment• データを増やすこと、それによる再トレーニングによって翻訳の
accuracyがどうなるかを評価• 人手翻訳なし、データの追加方法の良さを見る
• 英仏の翻訳• スタート:Europarlcorpus(WMT2014)• 追加:EMEA,PatTR,Wikipedia.tle(全てMedical)
• 英日の翻訳• スタート:カバレージの広い例文コーパス(英辞郎辞書)• 追加 :ASPEC科学ペーパーのアブストラクトのコーパス• 日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は
除去 à解析、アライメントの正確さを確実
16/06/23 9
データの詳細
16/06/23 10
実験設定
• フレーズベースSMT(MosesToolkit)を使用• 効率的再トレーニングのためにinc-giza-ppを使用、
これは、 単語アライメントを取るGIZA++で、トレーニングデータを増やすこと、変化できるsuffixarrayフレーズテーブル(Moses) を含む。
• 言語モデルは5-gram• デコーディングのパラメータ : 毎回調整は非現実的• ベースラインのBLEU値が最大となるパラメータ
16/06/23 11
8つの手法
• sent-rand:文をランダムに選択• 4gram-rand:n-gram: 単語列をランダムに選択、上限は4• sent-by-4gram-freq(baseline1):まだカバーされていないフレーズ(最長
4)を最も多く含む文を選択4gram-freq(baseline2):最も多く出現する、まだカバーされていないフレーズ(最長4)を選択
• 以下は提案• maxsubst-freq:最も多く出現する、まだカバーされていない
最長句を選択• reduced-maxsubst-freq:最も多く出現する、まだカバーされていない
凖最長句を選択• struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない句を選択• reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない凖最長句を選択
16/06/23 12
result:BLEUとAddWord英仏
• 冗長句を除くことは良いといえる
16/06/23 13
result:BLEUとAddWord英日
16/06/23 14
result: フレーズ数とLength
• 木構造を用いた方法に注目すると、他のよりも短いフレーズを選択している
16/06/23 15
result:Coverage
16/06/23 16
人手による翻訳の質の評価
• 翻訳の専門家3人に依頼
16/06/23 17
実験設定
• beseline:sent-by-4gram-freqと4-gram-freq• 提案手法:reduced-struct-freq• 英日と同じ実験設定• 目的言語モデルのトレーニングでは、SRILM
を使用して集めたデータを補間• パープレキシティが最大になるようにパラメー
タ調整
16/06/23 18
result:BLEUとAddWords
16/06/23 19
result:BLEUと.me
16/06/23 20
result:TimeとConfidence
• 収集単語数:10,000
3の割合:79%
16/06/23 21
result:TimeとPhraseLength
• length1が時間がかかる• 専門用語になりやすく、辞書を見る必要あり
16/06/23 22
result:ConfidenceとPhraseLength
• 1のとき低い àbaselineはlength1が少ない• 提案手法はlength2以降も安定
16/06/23 23
result:Accuracy(BLEUScore)
• 確信度で分けて実験• 確信度1を除いた時は総じて良くなる• 一方3のみの場合は悪くなる• データを加えない場合はBLEU:9.37%
16/06/23 24
Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on
• 提案手法• 文法的に不変であるフレーズを選択• 冗長なフレーズを減少Ø BLEU値が向上, 翻訳の確信度の向上
• 改善点• 翻訳に時間がかかる専門用語の対処
• 未知語を対処する方法の組み合わせ• 必要な時間によって選択した単語列を最適化する
• 柔軟な文法の制限による様々なフレーズのアノテーション• 例えば”oneoftheprecedingX”
16/06/23 25