読解支援@2015 06-05

Improved sta-s-cal machine transla-on using monolingually-‐

derived paraphrases

Yuval Marton, Chris Callison-‐Burch,Philip Resnik.

In Proceedings of the 2009 Conference on Empirical Methods in Natural Language

Processing, pp.381–390, 2009. プレゼンテーション　　　関沢祐樹

2015/06/05 1

概要

•  SMTの問題 – 翻訳されていない単語の存在（問題の大部分） – パラレル訓練テキストのデータ量で制限される – ピボッティングでデータ量の増加は可能 – しかし、追加のパラレルテキストを必要とする

•  問題解決方法の提案 – 意味的に近い単一言語の言い換えを用いる

•  比較可能で、関連のない単一言語コーパスにアクセス可能（より大きなデータである）

–  “翻訳されていない単語の両端”という連語を統合

2015/06/05 2

はじめに

•  カバレージ：適用範囲（大きいほど良い） – 成果はあまり良くない（約1,000万単語で約９０％） – 向上しようとすると、 n-‐gramが難しくなる – カバレージの正解率の向上は、SMTに重要 – コーパスを大きくすれば向上する

•  文アラインメントのあるコーパスであることが条件 •  コーパスの数には限界がある

– 対応付けされていないコーパスで訓練したい •  アラインメントを抽出する技術が必要 •  早さ、メモリ効率、スケールの拡大なども考慮したい

2015/06/05 3

はじめに

•  ピボッティング – 原言語を目的言語に直接翻訳せず、　中間言語を経由することで翻訳すること – 低密度言語の語彙カバレージ問題を軽減 – 対訳コーパスがなくてもいい反面、　あった場合、翻訳知識を得るという利点あり

•  双方の利点を、実験を通じて検証

2015/06/05 4

言い換えの生成

•  言い換えの獲得 – 似た文脈から言い換えの句を生成 – 類似度スコアを与え、最上位を翻訳リストに挿入 – 言い換え生成に、パラレルテキストを使わない – 高類似度の言い換えの大規模獲得が可能

2015/06/05 5

考慮する単語の取り方

•  SoA(Strength of Associa<on) – ある単語と、その単語とともに出現する単語の頻度によって計算される

•  ２つの単語の類似度の計算 – それぞれのベクトルによって計算

•  sliding window : 単語のとる範囲をずらす – n-‐gramの考え方に似ている – 語順を考慮する、しない、どちらも可能

2015/06/05 6

句単位言い換えの探索、スコア付け

•  ある句があり、その句が出現する　文脈の左右に注目する – 言い換え候補Xに対して、LXRを形成 – L：Xの左の文脈　　　R：Xの右の文脈

•  訓練データの似た文脈から、言い換え候補を収集 •  候補のランク付けを行う – 言い換えと判断するスコアの閾値あり

2015/06/05 7

機能の詳細（１）

•  句グラフの制作 – スライドウィンドウによる全ての連語の作成

•  文脈の蓄積 – 短い、よく出る→情報量が少ない→ストップワード

•  訓練データで、ストップリスト閾値より高いことが条件 •  ストップワードをとばして、文脈の関係を生成

– 2-‐gramのストップリスト •  ある回数以上出現（t回と表現） •  1-‐gramのストップリストから単独に構成される

2015/06/05 8

機能の詳細（２）

•  候補の蓄積：蓄積された文脈を利用 – コーパス中のLXRの頻度で構成（長さは制限）

•  候補の順位付け – 言い換え候補それぞれの類似度を数値化

•  k-‐best候補の出力 – 類似度を降順に出力（k=20に設定した） – 閾値スコアより低いスコアの言い換えは除去

2015/06/05 9

実験

•  対象：未知の句の言い換え •  言い換え言語：英語→中国語（E2C）、　　　　　　　　　　スペイン語→英語(S2E) •  ベースライン：句に基づく統計機械翻訳 –  未知単語はそのまま出力（外国語）

•  素性の重み：最小誤り割合（BLEUを使用） •  テスト結果：BLEUとTERを用いて数値化 •  言い換え可能性：Gizaを使用 – 単語アライメントによる句単位の最尤推定

2015/06/05 10

英語から中国語への翻訳

•  ベースライン：231,586行生成 – 英語：６４０万トークン、中国語：５１０万トークン – ３２に分割し、８つに再設計（１つに約２万９千行）

•  言い換え生成の条件 – 言い換え句のトークンは最大６ – 類似度閾値は任意（０．３とした）

2015/06/05 11

３つの異形を用いて実験

•  全ての言い換えに１つの素性を追加 – １−６grams

•  １−gramのみの言い換えを使用 – １−gram

•  全ての言い換えに２つの素性を追加 – １＋２−６grams – １−gramの素性、２−６gramの素性の組み合わせ

•  素性の重み：それぞれの最小エラー率で調整

2015/06/05 12

結果 •  スコアが閾値未満の物は除外 •  *** : ベースラインを超える有意差検定（p<0.0001）

2015/06/05 13

スペイン語から英語への翻訳

•  ベースライン：ヨーロッパの多言語コーパス – 訓練部分集合：アラインメントされた文

•  １万文、２万文、８万文をそれぞれ使用

•  ピボットシステムとの比較 – 開発、テストセットに５−gram言語モデルを使用 – 言い換え句は最大４トークン – 類似度閾値は任意（０．３とした） – ０．６にもした→高適合率な言い換えのため

2015/06/05 14

３つの異形

•  全ての言い換えに１つの素性を追加 – １−４grams

•  １−gramのみの言い換えを使用 – １−gram

•  全ての言い換えに２つの素性を追加 – １−２＋３−４grams – １−２gramの素性、３−４gramの素性の組み合わせ

2015/06/05 15

結果

2015/06/05 16

議論

•  単一言語の言い換え訓練セットがより良い　言い換えを生成する •  対訳テキストに頼らず、言い換え生成可能 •  単一言語の大きな訓練データにアクセス可 •  スペイン語は４−gramでは、他の方法で　上位のものが下位に落ちる –  句の言い換えは１−gramより低品質

2015/06/05 17

今後に向けて

•  言い換えの質の向上 – 大きなコーパス必要 – シンタックス情報を用いる – 語義曖昧性解消のため、意味的な知識の利用

•  具体例：WordNet

– 類似度の測定方法の向上 – 類似度閾値をもっともらしく設定

•  閾値が高すぎると、網羅性が低下 •  閾値が低すぎると、良くない言い換え、翻訳が発生

2015/06/05 18

今後に向けて

•  動的計画法の使用 – 語義曖昧性解消に使える – 類似度は、意味適距離の近さで判定されるため

•  動的計画法で生成された言い換え – 高品質になりやすい

•  SMTシステム全体のパフォーマンスが　良くなるだろうと考えられる。

2015/06/05 19

Education

読解支援@2015 06-05