Upload
sekizawayuuki
View
42
Download
0
Embed Size (px)
Citation preview
Improved sta-s-cal machine transla-on using monolingually-‐
derived paraphrases
Yuval Marton, Chris Callison-‐Burch,Philip Resnik.
In Proceedings of the 2009 Conference on Empirical Methods in Natural Language
Processing, pp.381–390, 2009. プレゼンテーション 関沢祐樹
2015/06/05 1
概要
• SMTの問題 – 翻訳されていない単語の存在(問題の大部分) – パラレル訓練テキストのデータ量で制限される – ピボッティングでデータ量の増加は可能 – しかし、追加のパラレルテキストを必要とする
• 問題解決方法の提案 – 意味的に近い単一言語の言い換えを用いる
• 比較可能で、関連のない単一言語コーパスに アクセス可能(より大きなデータである)
– “翻訳されていない単語の両端”という連語を統合
2015/06/05 2
はじめに
• カバレージ : 適用範囲(大きいほど良い) – 成果はあまり良くない(約1,000万単語で約90%) – 向上しようとすると、 n-‐gramが難しくなる – カバレージの正解率の向上は、SMTに重要 – コーパスを大きくすれば向上する
• 文アラインメントのあるコーパスであることが条件 • コーパスの数には限界がある
– 対応付けされていないコーパスで訓練したい • アラインメントを抽出する技術が必要 • 早さ、メモリ効率、スケールの拡大なども考慮したい
2015/06/05 3
はじめに
• ピボッティング – 原言語を目的言語に直接翻訳せず、 中間言語を経由することで翻訳すること – 低密度言語の語彙カバレージ問題を軽減 – 対訳コーパスがなくてもいい反面、 あった場合、翻訳知識を得るという利点あり
• 双方の利点を、実験を通じて検証
2015/06/05 4
言い換えの生成
• 言い換えの獲得 – 似た文脈から言い換えの句を生成 – 類似度スコアを与え、最上位を翻訳リストに挿入 – 言い換え生成に、パラレルテキストを使わない – 高類似度の言い換えの大規模獲得が可能
2015/06/05 5
考慮する単語の取り方
• SoA(Strength of Associa<on) – ある単語と、その単語とともに出現する単語の 頻度によって計算される
• 2つの単語の類似度の計算 – それぞれのベクトルによって計算
• sliding window : 単語のとる範囲をずらす – n-‐gramの考え方に似ている – 語順を考慮する、しない、どちらも可能
2015/06/05 6
句単位言い換えの探索、スコア付け
• ある句があり、その句が出現する 文脈の左右に注目する – 言い換え候補Xに対して、LXRを形成 – L:Xの左の文脈 R:Xの右の文脈
• 訓練データの似た文脈から、 言い換え候補を収集 • 候補のランク付けを行う – 言い換えと判断するスコアの閾値あり
2015/06/05 7
機能の詳細(1)
• 句グラフの制作 – スライドウィンドウによる全ての連語の作成
• 文脈の蓄積 – 短い、よく出る→情報量が少ない→ストップワード
• 訓練データで、ストップリスト閾値より高いことが条件 • ストップワードをとばして、文脈の関係を生成
– 2-‐gramのストップリスト • ある回数以上出現(t回と表現) • 1-‐gramのストップリストから単独に構成される
2015/06/05 8
機能の詳細(2)
• 候補の蓄積:蓄積された文脈を利用 – コーパス中のLXRの頻度で構成(長さは制限)
• 候補の順位付け – 言い換え候補それぞれの類似度を数値化
• k-‐best候補の出力 – 類似度を降順に出力(k=20に設定した) – 閾値スコアより低いスコアの言い換えは除去
2015/06/05 9
実験
• 対象:未知の句の言い換え • 言い換え言語:英語→中国語(E2C)、 スペイン語→英語(S2E) • ベースライン:句に基づく統計機械翻訳 – 未知単語はそのまま出力(外国語)
• 素性の重み:最小誤り割合(BLEUを使用) • テスト結果:BLEUとTERを用いて数値化 • 言い換え可能性:Gizaを使用 – 単語アライメントによる句単位の最尤推定
2015/06/05 10
英語から中国語への翻訳
• ベースライン:231,586行生成 – 英語:640万トークン、中国語:510万トークン – 32に分割し、8つに再設計(1つに約2万9千行)
• 言い換え生成の条件 – 言い換え句のトークンは最大6 – 類似度閾値は任意(0.3とした)
2015/06/05 11
3つの異形を用いて実験
• 全ての言い換えに1つの素性を追加 – 1−6grams
• 1−gramのみの言い換えを使用 – 1−gram
• 全ての言い換えに2つの素性を追加 – 1+2−6grams – 1−gramの素性、2−6gramの素性の組み合わせ
• 素性の重み:それぞれの最小エラー率で調整
2015/06/05 12
スペイン語から英語への翻訳
• ベースライン:ヨーロッパの多言語コーパス – 訓練部分集合:アラインメントされた文
• 1万文、2万文、8万文をそれぞれ使用
• ピボットシステムとの比較 – 開発、テストセットに5−gram言語モデルを使用 – 言い換え句は最大4トークン – 類似度閾値は任意(0.3とした) – 0.6にもした→高適合率な言い換えのため
2015/06/05 14
3つの異形
• 全ての言い換えに1つの素性を追加 – 1−4grams
• 1−gramのみの言い換えを使用 – 1−gram
• 全ての言い換えに2つの素性を追加 – 1−2+3−4grams – 1−2gramの素性、3−4gramの素性の組み合わせ
2015/06/05 15
議論
• 単一言語の言い換え訓練セットがより良い 言い換えを生成する • 対訳テキストに頼らず、言い換え生成可能 • 単一言語の大きな訓練データにアクセス可 • スペイン語は4−gramでは、他の方法で 上位のものが下位に落ちる – 句の言い換えは1−gramより低品質
2015/06/05 17
今後に向けて
• 言い換えの質の向上 – 大きなコーパス必要 – シンタックス情報を用いる – 語義曖昧性解消のため、意味的な知識の利用
• 具体例:WordNet
– 類似度の測定方法の向上 – 類似度閾値をもっともらしく設定
• 閾値が高すぎると、網羅性が低下 • 閾値が低すぎると、良くない言い換え、翻訳が発生
2015/06/05 18