統計的機械翻訳入門その2 〜フレーズベース機械翻訳〜 #TokyoNLP

統計的機械翻訳入門その2 ～フレーズベース編～

#tokyonlp @nokuno

自己紹介 • @nokuno / id:nokuno

• #TokyoNLP主催 • Social IME / StaKK開発者 • Web系ソフトウェアエンジニア

近況報告

Speller Challengeで入賞しました

ICML読み会 &

ACL読み会やります

今日の内容

1. IBM Model [1-5]の復習 2. アライメントの拡張 3. フレーズベース機械翻訳 4. 色々な拡張

参考文献

•  機械翻訳の教科書 •  5章を中心に •  http://amzn.to/hIvoo6

IBMモデルの復習

統計的機械翻訳とは • 入力： • 出力： • アライメント： • 単語　が単語　に対応

NoisyChannelモデル • 言語モデル×翻訳モデルに分解

• 対訳コーパスから翻訳モデルを学習

(4.23)

IBMモデル1 • 文の翻訳を語彙の翻訳に分解

• アライメントaは隠れ変数 (4.7)

EMアルゴリズム •  Eステップ

• Mステップ (4.11)

(4.14)

(4.13)

人工的な例

IBMモデル2 • アライメントにも確率分布を考える

• 語彙の確率分布tと組み合わせる

(4.25)

IBMモデル2 • 語彙の翻訳とアライメントの ��

2ステップモデル

t：語彙の翻訳

a：アライメント

EMアルゴリズム •  IBMモデル1と同様の計算が可能

• アライメントの頻度も求まる

(4.26)

(4.28)

高次のIBMモデル •  IBMモデル1: アライメントは一様分布 •  IBMモデル2: 絶対アライメントを追加 •  IBMモデル3: 単語数の増減を追加 •  IBMモデル4: 相対アライメントを追加 •  IBMモデル5: 単語の欠損を追加

上位のモデルは下位のモデルを初期値として再学習

IBMモデル3 •  4つのステップを経て翻訳するモデル

単語数の増減

NULL挿入

語彙の翻訳

位置の並べ替え

アライメントの拡張

モチベーション • アライメントを単独で評価したい • 後のフレーズベースで使いたい • アライメントの推定にはIBMモデルを利用可能だが…

•  IBMモデルでは一対多のアライメント • 多対多のアライメントはフレーズベースで

アライメントの表現

アライメントの対称化

アライメントの評価 • 正解セットを使った正解率

•  S (Sure): 完璧なアライメント •  P (Possible): まあまあのアライメント

※AER=Alignment Error Rateのはずが、誤植で逆の意味に

フレーズベース��機械翻訳

モチベーション •  IBMモデルは単語単位で翻訳する • 単語より長いフレーズ単位で翻訳したい • アドバンテージ

•  多対多の関係を翻訳できる •  リッチなコンテキストを考慮できる •  データさえあれば非常に長いフレーズも学習できる

• Google翻訳でも使われている←本当？

フレーズベースモデル • フレーズ単位で翻訳・並べ替えを行う • フレーズの定義は言語学的ではなく機械的

フレーズ翻訳テーブル • 例：natuerlichに対する翻訳テーブル

実際の例 • 例：den Vorschlagに対する翻訳テーブル

確率モデル •  IBMモデルと比べても、単位がフレーズになったくらいの違いしかない

•  d: 距離に応じた並べ替え確率

書いてないけど… • フレーズ分割の周辺化が必要 • 異なる分割で同じ翻訳になる確率を足す •  Sを可能なフレーズ分割として、

距離の計算方法

並べ替え確率 •  d(x)は単純には指数関数とか • 距離が遠いほど確率が低くなる

• ※日本語と英語だとうまくいかない

フレーズベースの学習 • 問題設定：対訳コーパスからフレーズテーブルを学習する

• 以下の3ステップで学習 • 単語アライメントを推定する • 整合するフレーズペアを抽出する • フレーズの翻訳確率を推定する

単語アライメント

フレーズ抽出

抽出結果：assumes that / geht davon aus , dass

整合性とは？ • アライメントと「整合性のある」フレーズを抽出したい

• 「整合性」を定義すると…

見たほうが早い • ルール1：隣り合う■はつながる • ルール2：全ての■がカバーされる

これはOK これはOK これはダメ

フレーズ抽出方法

• 以下のステップでフレーズ抽出 • 最も小さなフレーズを見つける • フレーズをマージして大きなフレーズを見つける

• 文単位のフレーズになるまで続ける

短いフレーズの例

michael assumes michael geht davon aus assumes that geht davon aus , dass that he dass er in the house im haus

長いフレーズの例

michael assumes that he will stay in the house

michael geht davon aus , dass er im haus bleibt

assumes that he will stay in the house

geht davon aus , dass er im haus bleibt

he will stay in the house er im haus bleibt

翻訳確率の推定 • 抽出したフレーズの相対頻度を取るだけ • 最尤推定…？

• フレーズも隠れ変数とみなしてEMアルゴリズムで解く方法もあるが遅い

色々な拡張

識別モデル • これまで言語モデル、フレーズ翻訳確率、並べ替え確率の3つのモデルを考えてきた

• これらを識別モデルで重み付けする

• 他の素性を加えられるようになった • これ以降は追加する素性の話

双方向の翻訳確率 • ベイズの定理で翻訳モデルを逆向きにしたが、順向きのほうが良い場合も

• 珍しい単語eと一般語fではφ(f|e)が不当に高くなりやすい

• 識別モデルの素性としてp(f|e) と p(e|f) の両方を突っ込んでしまう

スムージング • 低頻度なフレーズを正確に評価したい • フレーズを構成する単語の翻訳確率を使ってスムージングする

• 単語の翻訳確率にはIBMモデルを使う

a: フレーズ内部のアライメント

長さに対する罰則項

• 言語モデルは短い出力を好む単語数：

• 長いフレーズが有利になりすぎるフレーズ数：

語彙に基づく��並べ替え

•  距離に基づく並べ替えは貧弱 →語彙ごとに並べ替えを学習しよう！

• 並べ替えのパターンは多すぎる…

• 典型的な3タイプの並べ替えを考える

3タイプの並べ替え

• m (monotne): 連続的 •  s (swap): 隣同士の並べ替え •  d (discontinuous): 非連続的

orientation

並べ替え確率の推定 • 単語ペアごとのorientationの相対頻度

• スパースなのでスムージング

p(o): 語彙による条件がない分布

(5.11)

(5.13)

まとめと感想 •  IBMモデルは正当な確率モデル＋最尤推定

• フレーズベースも確率モデルだが、フレーズ抽出はヒューリスティック

• ちゃんとした方法は遅いので近似する • 識別モデルはなんでもありのフレームワーク

発表者を募集しております

ご清聴ありがとうございました

統計的機械翻訳入門その2 〜フレーズベース機械翻訳〜 #TokyoNLP

Technology

技術的・理論的背景：機械翻訳人間の翻訳と機械翻訳をつな …...AAMT 2019, Tokyo 機械翻訳最前線 2019年11月19日人間の翻訳と機械翻訳をつなぐ

通訳翻訳論翻訳と通訳の歴史

通訳翻訳論日本の翻訳論 - Coocantuuyaku-honyaku.my.coocan.jp/dokkyo/16.pdf翻訳における根本的必要条件である。 →文体と詩想を再現する翻訳『余が翻訳の標準』二葉亭四迷

機械翻訳の利用及び将来性に係る調査結果 - jpo.go.jp · 2020. 10. 19. · 4 Bing翻訳4 Microsoft Translator 5 Infoseekマルチ翻訳5 クロスランゲージ製

2015.06.27 aaa-mdn翻訳

機械翻訳及び機械翻訳評価に関する研究並びに特許・技術文 …aamtjapio.com/kenkyu/files/kenkyu05/AAMT_Japio_20180423.pdf第16 回機械翻訳サミット、特許・技術文書翻訳ワークショップ（PSLT2017）（於日本（名古屋）

カルデロンの翻訳から見る鷗外の翻訳論 - Kansai U...23 カルデロンの翻訳から見る鷗外の翻訳論 ― Acerca de la traducción de Calderón por Ogai Mori

Tree-based Translation Models (『機械翻訳』§6.2-6.3)

深層学習による機械翻訳の発展と同時通訳への挑 …...Augmented Human Communication Laboratory 深層学習による機械翻訳の発展と同時通訳への挑戦

機械翻訳の応用分野：機械翻訳の応用分野： SQL生成技術の紹介数理システムユーザーコンファレンス2018 リクルートテクノロジーズデータテクノロジーラボ部

AIイノベーションとVoceTraを ... - 翻訳バンク · 3/12/2018 · の日本語・英語間のニューラル機械翻訳 • 単語や文の「意味」を抽出し、「意訳」のような翻訳を実現。

修士論文敵対的生成ネットワークを用いたニューラル機械翻訳と …cl.sd.tmu.ac.jp/~komachi/thesis/2018-mthesis-matsumura.pdf · 敵対的生成ネットワークを用いたニューラル機械翻訳と

翻訳会社に聞きたいこと翻訳者に聞きたいこと...2016年11月29日第26回JTF翻訳祭トラック 3 セッション 4「翻訳者に聞きたいこと、翻訳会社に言いたいこと

昔の機械翻訳統計的機械翻訳翻訳の評価

機械翻訳の現状、期待と今後の動向 - Japio · 最近の統計翻訳技術の品質改善は、それをさらに後押ししている。このような機械翻訳技術の翻訳プロセスへの導入への

PFI seminar 2010/05/27 統計的機械翻訳

ALAGIN 機械翻訳セミナー単語アライメント 2 ALAGIN 機械翻訳セミナー - アライメント統計的機械翻訳モデルの構築各モデルを対訳文から学習

大翻訳時代 J T F - JTF 加盟翻訳会社/翻訳者 ... · ※翻訳プラザ、プレゼン・製品説明コーナーへの参加は無料です（事前登録不要）。

統計的機械翻訳入門その3 〜デコーダ編〜 #TokyoNLP

年～主な韓国語通訳 - RIMkobayasi/koreansubsitesite/jjisseki20191011.pdf翻訳某タクシ－会社のスマートフォンアプリケーション翻訳 ... 2017-7 通訳

統計的機械翻訳入門 その2 〜フレーズベース機械翻訳〜 #TokyoNLP

統計的機械翻訳入門その2 〜フレーズベース機械翻訳〜 #TokyoNLP