19
Improved sta-s-cal machine transla-on using monolingually derived paraphrases Yuval Marton, Chris CallisonBurch,Philip Resnik. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp.381–390, 2009. プレゼンテーション 関沢祐樹 2015/06/05 1

読解支援@2015 06-05

Embed Size (px)

Citation preview

Improved  sta-s-cal  machine  transla-on  using  monolingually-­‐

derived  paraphrases    

Yuval  Marton,  Chris  Callison-­‐Burch,Philip  Resnik.      

In  Proceedings  of  the  2009  Conference  on  Empirical  Methods  in  Natural  Language  

Processing,  pp.381–390,  2009. プレゼンテーション   関沢祐樹

2015/06/05 1

概要

•  SMTの問題  – 翻訳されていない単語の存在(問題の大部分)  – パラレル訓練テキストのデータ量で制限される  – ピボッティングでデータ量の増加は可能  – しかし、追加のパラレルテキストを必要とする  

•  問題解決方法の提案  – 意味的に近い単一言語の言い換えを用いる  

•  比較可能で、関連のない単一言語コーパスに        アクセス可能(より大きなデータである)  

–  “翻訳されていない単語の両端”という連語を統合

2015/06/05 2

はじめに

•  カバレージ : 適用範囲(大きいほど良い)  – 成果はあまり良くない(約1,000万単語で約90%)  – 向上しようとすると、  n-­‐gramが難しくなる  – カバレージの正解率の向上は、SMTに重要  – コーパスを大きくすれば向上する  

•  文アラインメントのあるコーパスであることが条件  •  コーパスの数には限界がある  

– 対応付けされていないコーパスで訓練したい  •  アラインメントを抽出する技術が必要  •  早さ、メモリ効率、スケールの拡大なども考慮したい  

2015/06/05 3

はじめに

•  ピボッティング  – 原言語を目的言語に直接翻訳せず、    中間言語を経由することで翻訳すること  – 低密度言語の語彙カバレージ問題を軽減  – 対訳コーパスがなくてもいい反面、    あった場合、翻訳知識を得るという利点あり  

•  双方の利点を、実験を通じて検証  

2015/06/05 4

言い換えの生成

•  言い換えの獲得  – 似た文脈から言い換えの句を生成  – 類似度スコアを与え、最上位を翻訳リストに挿入  – 言い換え生成に、パラレルテキストを使わない  – 高類似度の言い換えの大規模獲得が可能  

 

2015/06/05 5

考慮する単語の取り方

•  SoA(Strength  of  Associa<on)  – ある単語と、その単語とともに出現する単語の          頻度によって計算される  

•  2つの単語の類似度の計算  – それぞれのベクトルによって計算  

•  sliding  window  :  単語のとる範囲をずらす  – n-­‐gramの考え方に似ている  – 語順を考慮する、しない、どちらも可能  

2015/06/05 6

句単位言い換えの探索、スコア付け

•  ある句があり、その句が出現する    文脈の左右に注目する  – 言い換え候補Xに対して、LXRを形成  – L:Xの左の文脈   R:Xの右の文脈  

•  訓練データの似た文脈から、          言い換え候補を収集  •  候補のランク付けを行う  – 言い換えと判断するスコアの閾値あり  

2015/06/05 7

機能の詳細(1)

•  句グラフの制作  – スライドウィンドウによる全ての連語の作成  

•  文脈の蓄積  – 短い、よく出る→情報量が少ない→ストップワード  

•  訓練データで、ストップリスト閾値より高いことが条件  •  ストップワードをとばして、文脈の関係を生成  

– 2-­‐gramのストップリスト  •  ある回数以上出現(t回と表現)  •  1-­‐gramのストップリストから単独に構成される

2015/06/05 8

機能の詳細(2)

•  候補の蓄積:蓄積された文脈を利用  – コーパス中のLXRの頻度で構成(長さは制限)  

•  候補の順位付け  – 言い換え候補それぞれの類似度を数値化  

•  k-­‐best候補の出力  – 類似度を降順に出力(k=20に設定した)  – 閾値スコアより低いスコアの言い換えは除去  

2015/06/05 9

実験

•  対象:未知の句の言い換え  •  言い換え言語:英語→中国語(E2C)、                  スペイン語→英語(S2E)  •  ベースライン:句に基づく統計機械翻訳  –  未知単語はそのまま出力(外国語)  

•  素性の重み:最小誤り割合(BLEUを使用)  •  テスト結果:BLEUとTERを用いて数値化  •  言い換え可能性:Gizaを使用  – 単語アライメントによる句単位の最尤推定  

2015/06/05 10

英語から中国語への翻訳

•  ベースライン:231,586行生成  – 英語:640万トークン、中国語:510万トークン  – 32に分割し、8つに再設計(1つに約2万9千行)  

•  言い換え生成の条件  – 言い換え句のトークンは最大6  – 類似度閾値は任意(0.3とした)  

2015/06/05 11

3つの異形を用いて実験

•  全ての言い換えに1つの素性を追加  – 1−6grams  

•  1−gramのみの言い換えを使用  – 1−gram  

•  全ての言い換えに2つの素性を追加  – 1+2−6grams  – 1−gramの素性、2−6gramの素性の組み合わせ  

•  素性の重み:それぞれの最小エラー率で調整

2015/06/05 12

結果 •  スコアが閾値未満の物は除外  •  ***  :  ベースラインを超える有意差検定(p<0.0001)

2015/06/05 13

スペイン語から英語への翻訳

•  ベースライン:ヨーロッパの多言語コーパス  – 訓練部分集合:アラインメントされた文  

•  1万文、2万文、8万文をそれぞれ使用  

•  ピボットシステムとの比較  – 開発、テストセットに5−gram言語モデルを使用  – 言い換え句は最大4トークン  – 類似度閾値は任意(0.3とした)  – 0.6にもした→高適合率な言い換えのため  

2015/06/05 14

3つの異形

•  全ての言い換えに1つの素性を追加  – 1−4grams  

•  1−gramのみの言い換えを使用  – 1−gram  

•  全ての言い換えに2つの素性を追加  – 1−2+3−4grams  – 1−2gramの素性、3−4gramの素性の組み合わせ

2015/06/05 15

結果

2015/06/05 16

議論

•  単一言語の言い換え訓練セットがより良い   言い換えを生成する  •  対訳テキストに頼らず、言い換え生成可能  •  単一言語の大きな訓練データにアクセス可  •  スペイン語は4−gramでは、他の方法で    上位のものが下位に落ちる  –  句の言い換えは1−gramより低品質  

2015/06/05 17

今後に向けて

•  言い換えの質の向上  – 大きなコーパス必要  – シンタックス情報を用いる  – 語義曖昧性解消のため、意味的な知識の利用  

•  具体例:WordNet  

– 類似度の測定方法の向上  – 類似度閾値をもっともらしく設定  

•  閾値が高すぎると、網羅性が低下  •  閾値が低すぎると、良くない言い換え、翻訳が発生  

2015/06/05 18

今後に向けて

•  動的計画法の使用  – 語義曖昧性解消に使える  – 類似度は、意味適距離の近さで判定されるため  

•  動的計画法で生成された言い換え  – 高品質になりやすい  

•  SMTシステム全体のパフォーマンスが    良くなるだろうと考えられる。  

2015/06/05 19