統計的機械翻訳入門 #TokyoNLP

統計的機械翻訳入門

#tokyonlp

@nokuno

自己紹介

• Twitter: @nokuno

• はてな: id:nokuno

• TokyoNLP主催

• Social IME, StaKK開発者

今日の内容

• 機械翻訳の教科書

• IBM モデル1まで

• http://amzn.to/hIvoo6

統計的機械翻訳とは

• 機械翻訳：プログラムが翻訳すること

• 統計的：コーパスに基づくアプローチ

• 対訳コーパスと単言語コーパスを使う

Google翻訳してみる

• I was among the first Canadians to

own a Kindle.

• 私はこの本を所有している最初のカナダ人の間であった。

http://lemire.me/blog/archives/2011/01/01/surprising2010/

Noisy-Channel Model

• 言語モデルと翻訳モデルに分解

e = argmaxe P(e | f )

= argmaxe P(e)P( f | e)

e: 翻訳先の文、f: 翻訳元の文

P(e): 言語モデル

文の滑らかさに関するスコア

P(f|e): 翻訳モデル

意味の近さに関するスコア

言語モデルの例：単語N-gram

• 文の滑らかさ＝単語の滑らかさの組合せ

P(e) = P(wi |wi-1)i

C(w): コーパス中のwの頻度ブログで日記を書く

0.1 0.05 0.1 0.08

単言語コーパスから推定可能

翻訳モデル

• 単語ベース（IBMモデル）

• フレーズベース

• ツリーベース

今回はIBMモデル2までを扱います

単語の翻訳

• 単語1つを翻訳するには？→辞書を引く

– Haus – house, building, home, household, shell.

• いろいろな翻訳が考えられる

– 「流暢な」翻訳とそうでない翻訳がある

–例えば：houseとbuildingはよく使われている

• ここでドイツ語を英語に翻訳するものとする

訳語の集計

• Hausの訳語を集計する

翻訳確率の推定

• 最尤推定により以下が求まる：

単語アライメント

• 単語の対応付け

• 単語の並び替え

• 単語数の増加

• 単語の削除

• 単語の挿入

IBM Model 1

• 生成モデル：翻訳プロセスをモデル化

• 文の翻訳を語彙の翻訳に帰着させる

入力

出力

アライメント a: j→i : e_jがf_iに対応する

翻訳モデルを学習するには？

• 対訳コーパスから学習したい

• しかし、アライメントがわからない

• 鶏と卵の問題

–アライメントがあれば、パラメータ推定できる

–パラメータがあれば、アライメントを推定できる

EMアルゴリズム

• 不完全データ

–完全データが手に入れば、モデルを推定できる

–モデルがあれば、欠損データを推定できる

• EMアルゴリズムの概要

1. モデルパラメータを初期化（一様分布など）

2. 欠損データに確率を与える

3. 推定データからモデルパラメータを更新する

4. 収束するまで2-3を繰り返す

• 初期化：すべてのアライメントは等確率

• モデル学習：la は theとよく共起する

• 1回目のイテレーション後

• laとtheはより強くアライメントされている

• 2回目のイテレーション後

• fleur とflowerが対応する（鳩の巣原理）

• 収束後

• 隠れたアライメントが推定された

• アライメントからパラメータを推定

IBMモデル1におけるEM

• EMアルゴリズムは2つのステップからなる

• Eステップ：モデルをデータに適用

–モデルは隠れ変数を含む

–取りうる値の確率を推定する

• Mステップ：データからモデルを推定

–確率で重み付けして頻度を集計する

–集計した頻度からモデルを推定する

• これらを収束まで繰り返す

Eステップ(1)

• アライメント確率p(a|e,f)を求める

(IBM Model1の定義）

Eステップ(2)

• 和と積を入れ替える

Eステップ(3)

• 以下の確率を求めれば良い

Mステップ

• P(a|e,f)は既知として尤度の期待値を最大化

そのアライメントでeとfが対応している回数

(最尤推定)

EM：擬似コード

実験結果

日英対訳コーパスの例

• NICTの日英対訳コーパスで実験

• GIZA++を使ってアライメント

• セグメンテーションのミスが多い

日本語英語確率

精神 sentimentality 0.000189816

平安京 Heian-Kyo 0.0121956

李 Takutori-tenno 0.00148212

は NULL 0.251252

まとめ

• 機械翻訳はNoisy Channel Modelの枠組み

• IBMモデル1：語彙の翻訳

• アライメントとEMアルゴリズム

参考文献• 統計的機械翻訳サーベイ, 岡野原大輔

• http://www.slideshare.net/pfi/smt-

survey

• 統計的機械翻訳ことはじめ, 渡辺太郎

• http://www.kecl.ntt.co.jp/icl/kpro/taro/papers/smt-

tutorial.pdf

• Foundations of Statistical Machine Translation:

Past, Present and Future, Taro Watanabe

• http://mastarpj.nict.go.jp/~t_watana/papers/interspeech2010-

tutorial.pdf

ご清聴ありがとうございました

高次のIBMモデル• IBMモデル1: アライメントは一様分布

• IBMモデル2: 絶対アライメントを追加

• IBMモデル3: 単語数の増減を追加

• IBMモデル4: 相対アライメントを追加

• IBMモデル5: 単語の欠損を追加

上位のモデルは下位のモデルによる学習を初期値として再学習

統計的機械翻訳入門 #TokyoNLP

Documents

昔の機械翻訳統計的機械翻訳翻訳の評価

オライリーセミナー翻訳の四方山話 #oreilly0724

WordPress ドキュメンテーション作成と翻訳

TAKARA COグループの通訳・翻訳事業の発展について14 通訳・翻訳事業の歩み 2006 年 2015 年 2018 年 2019 年 2020 年ディスクロージャー翻訳室設置

カルデロンの翻訳から見る鷗外の翻訳論 - Kansai U...23 カルデロンの翻訳から見る鷗外の翻訳論 ― Acerca de la traducción de Calderón por Ogai Mori

年～主な韓国語通訳 - RIMkobayasi/koreansubsitesite/jjisseki20191011.pdf翻訳某タクシ－会社のスマートフォンアプリケーション翻訳 ... 2017-7 通訳

NICTの多言語音声翻訳技術と社会展開 - MLIT · 音声認識結果翻訳結果逆翻訳結果（翻訳の確認） • 31言語間の翻訳、18言語の音声入力、14言語の

特許翻訳上級コース（医薬・バイオ）英日翻訳教材サンプル2特許翻訳上級コース（医薬・バイオ）英日翻訳教材サンプル2

PIC/S GMPガイド翻訳についての注意事項本翻訳は …PIC/S GMPガイド翻訳についての注意事項本翻訳は、参考資料として（株）シーエムプラスがご提供するものです。本翻訳を使用す

Pham UN-REDD safeguards_翻訳付

Bot × 翻訳次世代グローバルチャット

ABC2011W 翻訳プロジェクト@muo_jp

翻訳クィックスタートガイドビュータ用ドキュメン …docs.fedoraproject.org/ja-JP/Fedora_Contributor...Fedora コントリビュータ用ドキュメント翻訳クィックスタートガイド

2020年を見据えた翻訳アプリケーションの開発：てがき翻訳 ......2020年を見据えた翻訳アプリケーションの開発：てがき翻訳 8 NTT DOCOMOテクニカル・ジャーナル

2016.11.19 osc福岡-mozilla翻訳-pub

機械翻訳 - Graham Neubig Graham Neubig - 機械翻訳機械翻訳原言語から目的言語へと自動的に翻訳太郎が花子を訪問した。原言語 Taro visited

機械翻訳を用いた中古和文の現代語訳ー分析と課題ー · 機械翻訳を用いて古文から現代文への翻訳を行っている[星野ら2014]．統計的機械翻訳は，図1

ALAGIN 機械翻訳セミナー単語アライメント 2 ALAGIN 機械翻訳セミナー - アライメント統計的機械翻訳モデルの構築各モデルを対訳文から学習

翻訳品質評価方法に関する業界アンケート - JTF...翻訳品質評価方法に関する業界アンケート」は、日本翻訳連盟が2016 年7 月に国内の翻訳会社と翻訳発注会

自然言語処理の歴史的変遷昔の機械翻訳統計的機械翻訳翻訳の評価