86
機機機機 機機機機機機機機機機機機 機機機機機機 機機機機機機機 機機機機機

自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

  • Upload
    cael

  • View
    93

  • Download
    0

Embed Size (px)

DESCRIPTION

機械翻訳. 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価. 自然言語処理の歴史的変遷. 言語論の歴史を振り返ると : 古代編. モノには正しい名前がある:ソクラテス 言語の背後の論理へ:アリストテレス 修辞法の習得へ:クインティリアヌス 話言葉から書き言葉へ 観念から実用への 流れ. 参考:辻井潤一「ことばとコンピュータ」月間言語に2000年に連載. 言語論の歴史を振り返ると 中世編. 文法(品詞論、統語論、語用論):ポールロワイヤル 観念の表現:ロック 意味の素性への分解:コンディヤック 構造と意味 現代的な問題は出揃っている - PowerPoint PPT Presentation

Citation preview

Page 1: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

機械翻訳

自然言語処理の歴史的変遷昔の機械翻訳統計的機械翻訳翻訳の評価

言語論の歴史を振り返ると 古代編

I モノには正しい名前があるソクラテス

II 言語の背後の論理へアリストテレスIII 修辞法の習得へクインティリアヌス 話言葉から書き言葉へ 観念から実用への流れ

自然言語処理の歴史的変遷参考辻井潤一「ことばとコンピュータ」月間言語に2000年に連載

言語論の歴史を振り返ると中世編

I 文法(品詞論統語論語用論)ポールロワイヤル

II 観念の表現ロックIII 意味の素性への分解コンディヤック 構造と意味現代的な問題は出揃っているI 印刷技術のための統一された言語の構築キャクストン

印刷という実用的問題から言語を制御

言語論の歴史を振り返ると近世編

I 真の言語を求めてインドヨーロッパ祖語フンボルト

II 言語のダーウィニズム そして革命が

ソシュール

bull 思想は星雲のようなものでその中で必然的に区切られているものは何もない

bull 言語が現れる以前は何一つ判別できるものはない

言語の恣意性言語の共時態を対象にした研究言語の構造を明らかにすること

そして今

bull ソシュールの合理的言語処理bull その困難に苦闘するうちにbull 計算機技術の進歩によって巨大なコーパスを得て我々はどこへ向かうのか

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 2: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

言語論の歴史を振り返ると 古代編

I モノには正しい名前があるソクラテス

II 言語の背後の論理へアリストテレスIII 修辞法の習得へクインティリアヌス 話言葉から書き言葉へ 観念から実用への流れ

自然言語処理の歴史的変遷参考辻井潤一「ことばとコンピュータ」月間言語に2000年に連載

言語論の歴史を振り返ると中世編

I 文法(品詞論統語論語用論)ポールロワイヤル

II 観念の表現ロックIII 意味の素性への分解コンディヤック 構造と意味現代的な問題は出揃っているI 印刷技術のための統一された言語の構築キャクストン

印刷という実用的問題から言語を制御

言語論の歴史を振り返ると近世編

I 真の言語を求めてインドヨーロッパ祖語フンボルト

II 言語のダーウィニズム そして革命が

ソシュール

bull 思想は星雲のようなものでその中で必然的に区切られているものは何もない

bull 言語が現れる以前は何一つ判別できるものはない

言語の恣意性言語の共時態を対象にした研究言語の構造を明らかにすること

そして今

bull ソシュールの合理的言語処理bull その困難に苦闘するうちにbull 計算機技術の進歩によって巨大なコーパスを得て我々はどこへ向かうのか

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 3: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

言語論の歴史を振り返ると中世編

I 文法(品詞論統語論語用論)ポールロワイヤル

II 観念の表現ロックIII 意味の素性への分解コンディヤック 構造と意味現代的な問題は出揃っているI 印刷技術のための統一された言語の構築キャクストン

印刷という実用的問題から言語を制御

言語論の歴史を振り返ると近世編

I 真の言語を求めてインドヨーロッパ祖語フンボルト

II 言語のダーウィニズム そして革命が

ソシュール

bull 思想は星雲のようなものでその中で必然的に区切られているものは何もない

bull 言語が現れる以前は何一つ判別できるものはない

言語の恣意性言語の共時態を対象にした研究言語の構造を明らかにすること

そして今

bull ソシュールの合理的言語処理bull その困難に苦闘するうちにbull 計算機技術の進歩によって巨大なコーパスを得て我々はどこへ向かうのか

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 4: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

言語論の歴史を振り返ると近世編

I 真の言語を求めてインドヨーロッパ祖語フンボルト

II 言語のダーウィニズム そして革命が

ソシュール

bull 思想は星雲のようなものでその中で必然的に区切られているものは何もない

bull 言語が現れる以前は何一つ判別できるものはない

言語の恣意性言語の共時態を対象にした研究言語の構造を明らかにすること

そして今

bull ソシュールの合理的言語処理bull その困難に苦闘するうちにbull 計算機技術の進歩によって巨大なコーパスを得て我々はどこへ向かうのか

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 5: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

ソシュール

bull 思想は星雲のようなものでその中で必然的に区切られているものは何もない

bull 言語が現れる以前は何一つ判別できるものはない

言語の恣意性言語の共時態を対象にした研究言語の構造を明らかにすること

そして今

bull ソシュールの合理的言語処理bull その困難に苦闘するうちにbull 計算機技術の進歩によって巨大なコーパスを得て我々はどこへ向かうのか

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 6: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

そして今

bull ソシュールの合理的言語処理bull その困難に苦闘するうちにbull 計算機技術の進歩によって巨大なコーパスを得て我々はどこへ向かうのか

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 7: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

認知革命認知革命以前の問い言語の科学は物理学のように演繹的に構成できるのか (1950年代)データのみから帰納する直観を排除構造主義しかし計算機パワーが貧弱だった計算のモデルを欠いた帰納だけでは大きな発展が難しかった

1960年代認知革命人間の言語処理情報処理についてのトップダウンモデルチョムスキーの変形文法ニューウェルサイモンの問題解決人工知能計算機の能力のそれなりの進歩による部分多し

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 8: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

チューリングテスト チューリングテストをパスする自然言語処理機械を作るには 大きな九九表

文と意味の対応表日本語文と英語文の対応表 これではごまかしみたい本質が分かった気がしない 無限に多い場合を考慮すると対応表が爆発

無限の可能性に対応できる計算メカニズム チョムスキー型人工知能型アプローチ 無限に多い文や文脈を計算モデルとして考えきれるのか

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 9: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Top down vs Bottom up合理主義 vs 経験主義

現実のデータを見ない理論 (TopDown)チョムスキーの文法やソシュールの言語観を反映したもの

理論的方向性のないデータ集積 (BottomUp)言語学者による例文の集積から帰納膨大な言語データ(コーパス)からの機械学習

機械翻訳の研究の歴史を例に T vs B の葛藤の様相を示そう

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 10: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Bottom Up 旧世代構造主義思弁的だった言語学を科学にしようとした試み収集した言語データを主観を排して観察し言語の本質的要素を明らかにする

動詞の接尾辞「て」 vs「で」同じ「て」だが鼻音の動詞「死んで」の後では「で」になる

鼻音 vs  非鼻音 という相補分布でなければいけない

最小対 (minimal pair)の考え方しかし「死んで」と「生きて」を同じカテゴリーだと見るのは全く主観を排して議論できるのだろうか

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 11: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

合理主義 出発点言語から独立した計算のモデルを想定 できるだけ単純なモデルが見通しがよい 言語を実世界から切り離したソシュール的アイデア 最初はパフォーマンスが悪いがいずれは BottomUpシステムを上回る BTは現実のデータしか見ないから予測能力が低いのだ しかし最初のモデルが外れだったら

チョムスキーの個別言語に依存しない言語理論(普遍文法)に依拠

言語だけを相手にしたとき自立した言語のモデルは構文論が最適

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 12: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

下図のどこかのレベルで言語 Aから言語 Bに移行する 移行するレベルにおいては言語 Aと言語 Bの表現の間で変換対応表を作れる(という信念) たとえ対応表が膨大でも

言語独立な表現(=意味)

深層格表現(動作主経験者 etc)

構文構造表現

句構造表現

単語列

言語 Aの文 言語 Bの文

移行派原理主義 transfer fundamentalist

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 13: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

移行派原理主義の問題点レベルが上がるにつれて構造が大きくなるそれでも言語 Aから Bへ移行できるのは

部分の意味は一度決まるとそれを組み合わせることで全体の意味が決まるという構成性原理を前提にしてるからなのだがhelliphellip

言語 AB間で単語の対応は一意的でない湯水  water

一方の言語にしか存在しない文法的性質や機能語あり冠詞名詞の性それでも複雑な変換表を作ればなんとかごまかせるかも

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 14: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

移行派原理主義の問題点 最も深刻なのは

意味の文脈依存性名詞の単数複数の区別のない言語 Aからある言語 Bへ変

換するには文脈情報が必要しかも文脈の数は無限デフォールトを単数に変換し文脈で証拠が出れば複数と変換

「けっこうです」rdquo thank yourdquo or ldquono thank yourdquoデフォールトでは解けない

ようするにあるレベルでの処理結果が非常に大きな曖昧さを含みそれを上位の階層で解決を丸投げするという仕組みに根本的な問題がある

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 15: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

記号について-- 少し視野を広げ人工知能の視点から --

記号と公理系から閉じた知識体系を作る(前記ヴィトゲンシュタイン )記号はそれ自体でひとつの存在記号を用いた推論は想定する集合上での操作として定義できる(外延的論理)

80年代までの人工知能はこの路線だったなにしろ入出力が貧弱で計算機の外側の世界と通信できなかったから

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 16: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

しかし限定目的の貧弱なシステムしか作れなかった(エキスパートシステム)

80年代後半から外界とのインタラクションが重視されるようになったロボットにおける subsumption architecture分散知能エージェント(これは現在ではソフトウェア工学)

文脈情報を考慮した記号処理への動き

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 17: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

記号はa コアになる意味b 文脈に依存したつまり言語使用における意味

からなるそこで bを考慮するために事例を大量に集めて事例ベース翻訳が考案された翻訳事例

「太郎は小説を読んだ」 vs ldquoTaro read a novelrdquoには 太郎=人間小説=文字メディアという文脈によって「読む」を規定する力あり

しかしそれにしても個々の単語のコアな意味は予め与えないと動かない

文脈情報を考慮した記号処理への動き

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 18: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

単語の意味単語の意味を要素に分解して表現する方法( 80年代)Kill = cause (someone (alive death))

何を基本要素におけば十分なのか90年代以降の主流は

その単語が使われた文脈に共起する単語で意味の曖昧さを解消する大規模コーパス(20ヶ月分の NYタイムス)で

capital の資本首都の意味の曖昧さ解消などが90の精度でできた

未知語の翻訳も文脈に共起する単語の類似性を使って推定する方法が提案されている

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 19: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

入力文私はりんごを食べた

形態素解析構文解析 noun verb noun subj predicate object

意味解析 (action= 食べる agent= 私 target=りんご time=past)

英語の語彙に変換(つまり意味表現のレベルないしはそれに近い深さで変換  対訳辞書利用 (action=eat agent=I target=an apple time=past)

構文および形態素の生成(語順の変換)して翻訳出力を得る 対訳辞書利用

noun=I verb( past)=ate noun=an apple

出力文 I ate an apple

移行派原理主義 TopDown 型規則主導の機械翻訳

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 20: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

意味のレベルで精密に日英が同一であることが前提だった

また形態素解析構文解析意味解析が正確に動作すると想定している

しかしなかなかそうとも言い切れない意味レベルでの概念が一致しない例

湯  hot water もったいない checkという習慣が日本にない

規則主導の機械翻訳

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 21: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

対訳辞書日本語意味

りんご APPLE (単数か複数か不明)意味英語

ALLPE if bear noun or singular apple if plural apples

単数の場合には an apple 複数なら applesを選ぶのは構文および形態素のレベル

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 22: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

翻訳対の例文が類似検索可能な形でデータベース化例私はみかんを食べた I ate an orange

入力文私はりんごを食べた翻訳対データベースから類似した日本語例文を検索

私はみかんを食べた違っている部分みかんをりんごに置き換え

さらに日英辞書でりんごを an appleに置き換え

結果出力 I ate an apple当然ながら冠詞の選択などは文法規則によって行うつまり相当程度に従来の構文規則や形態素解析技術と共同することになる

少し前の機械翻訳 example based machine translation

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 23: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

類似検索の部分が重要ここで構文解析を使うことも可能だがだんだん古典的な機械翻訳に近づく

翻訳対を集めれれば集めるほどが翻訳の質があがるこの収集作業は機械的にできる

少し前の機械翻訳 example based translation

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 24: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

旧世代の経験主義合理主義新世代の経験主義あるいはデータ主義

文脈あるいは言語使用における意味というデータ主導の方法をもっとラディカルにするのが経験主義

IBMの統計的機械翻訳( 90年代初頭)人間でも気がつかないような英仏の言い回しの翻訳を純粋に機械的手法(統計的機械学習)で発見したEM ビタビ探索など大量のメモリと高速な計算機大量の質のよい翻訳文の対 ( 教師データ)

これがなかなか簡単に入手できない

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 25: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

統計的機械翻訳Statistic Machine Translation (SMT)

言語的知識を全く使わずに対訳を得るアンチ言語学理論 2言語並行コーパスが蓄積 文どうしの対応付けされた aligned corpus これを使って単語や句どうしの対応付けすなわち対訳を自動的に抽出文同士の対応はあるが単語列同士の対応は不明探索空間が膨大

SMTの発展の概観する IBMの Peter Brown S Della Pietra V Della Pietra Robert

Mercerらの 1993年の Computational Lingusiticsの超有名かつ超難解な論文ldquo The Mathematics of Statistical Machine TranslationParameter Estimationrdquoをまず解説

次にその発展形である Phrase based SMTについて説明

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 26: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

SMTの発展の流れ 1  ベイズ 基本にあるのはベイズの定理

p(e)は翻訳先言語のみのコーパスだけから学べるので資源量は十分

p(f|e)は対訳コーパス (paralle corpus)から学習 training  phase

新規の元言語の文 fnewに対してその翻訳結果 enew=argmaxe p(fnew |e) p(e)

を求める計算を decoderと呼ぶしばらく後で紹介する

が多い)   デル(例えば翻訳先言語の言語モ

   への翻訳モデル翻訳元言語の表現例えば文)翻訳先言語の表現(

翻訳結果

3|

|maxarg

ngramnepfeefp

fe

epefpee

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 27: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

SMTの発展の流れ 2 IBM Model 最初の SMTは 1993の CLの論文で提案された IBM Model1-5 efを翻訳先および翻訳元もとの単語列とし       

   argmax p(f|e) p(e)の計算を行うのがベイズ統計による翻訳 IBM modelは parallel corpusから p(f|e)をEMアルゴリズムで学習するところで使える

Model 1では e-fは 1対 1対応場所の制約なし Model 2では場所の制約(word alignment)を追加 Model 3では eの 1 単語 (ie the)が fの複数単語 (lalelrsquo)のいずれかに訳されることもモデル化

Model 4では複数単語の表現( phrase)の語順の入れ替えもモデル化

Model 5では単語が対応しない位置が存在しないようにするモデル(Model 4ではある位置に対訳する単語が存在しないような結果がでうるのでそれを防ぐ制約も入れた)

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 28: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Bayesの定理Canadian Hansard French-English Bilingual

corpusフランス語の単語列 f に対して妥当な英語の単語列 e  を求めるなお以下では feは単語あるいは句 feは文

Given French string f find e^=arg maxePr(e|f)種々の fに対応しそうな eはやたらと多い

then ))Pr(Pr(argmax

)Pr())Pr(Pr()Pr(

^f|eee

ff|eee|f

e 

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 29: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

なぜ Pr(e|f)ではなく Pr(f|e)timesPr(e)か

対訳コーパスの対訳文はやはり少数無尽蔵に多くあるフランス語の文(文字

列)  f  に対して対応すべき正しい英語を求めるのが目的

Pr(e|f)直接では正しい英文 eに高い確率が割り当てられる可能性が低い

正しい英文という要因を直接考慮するために Pr(e)を別個の情報源から得て利用する

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 30: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Alignmentとは

bull The1 poor2 donrsquot3 have4 any5 money6

bull Les1 pauvres2 sont3 demunis4

(Les pauvres sont demunis |The(1) poor(2) donrsquot(34) have(34) any(34)

money(34))=A(ef)=a

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 31: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

フランス語 vs英語の対訳コーパスを用いて

 フランス語単語列 fが英単語列 eに翻訳される確

t(f | e)を対訳コーパスから評価する方法

彼らの実験ではカナダの国会議事録という英仏対

訳コーパスだったので

さていよいよ難解な論文の説明のさわり

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 32: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求める

1 t(f|e)の初期値を適当に決める2 対訳コーパス中の S 個の対訳文 f(s)e(s) 1=lts =ltS各々の組 (f(s)e(s)) に対して efの翻訳回数の期待値

    を計算する  

  つまり Ccorpus(f|e f(s)e(s)) の値は fe が f(s)e(s)の対訳の組に出現したときだけ0でないまた ei (i=1l)は対訳英文の各単語 lは対訳文に含まれる英単語の語彙数

m

j

l

iij

SScorpus

SScorpus

l

)δ(ee)δ(ffSCorpusefC

efCefteft

eftefc

1 0

0

(s)(s)

ef|

ef|)|()|(

)|()ef|(

におけるの文

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 33: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

フランス語単語 fが英単語 eから翻訳される確率 t(f|e)を求めるーつづき

3  もうひとつの重要な式    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

4   t(f|e)が収束するまで 23を繰り返す

このような繰り返し方法で未知の確率を推定する方法をExpectation and Maximization(EM)algorithmと言い情報科学の基本の

ひとつ

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 34: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

翻訳例 2個の対訳の例文ペアthe learning algorithm  harr 学習 アルゴリズム

the algorithm  harr アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the learning

algorithm

the learning

algorithm

the learning

algorithm

学習 アルゴリズム

学習 アルゴリズム

学習 アルゴリズム

the algorithm

アルゴリズム

the algorithm

アルゴリズム

英仏日英 で考えます

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 35: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

21

212121

1algorithm|the|

algorithm|algorithm|

31

31313131

1algorithm|learning|the|

algorithm|algorithm|

2 step

1

2

1

学習学習学習学習

学習

アルゴリズムアルゴリズムアルゴリズム

アルゴリズム

アルゴリズムアルゴリズムアルゴリズムアルゴリズム

アルゴリズム

tttt

c

tttc

tttt

c

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 36: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

72

31213131

algorithm|algorithm|algorithm|

algorithm|75

3121312131

algorithm|algorithm|

algorithm|

algorithm|3 step

12

1

1

12

1

2

1

学習アルゴリズム

学習学習

学習アルゴリズム

アルゴリズム

アルゴリズム

ccc

t

cc

c

t

i i

i i

i i

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 37: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

もう少し本格的に IBM Model を説明まず記法

bull Alignmentも考慮した Pr(fa|e)

bull 以後は Pr(fa|e)を評価する方法 mef|afmef|aam|

efa

iawhereaaaaa

wordsfrenchmwhereffff

wordsEnglishlwhereeeee

jjj

mjj

j

ai

jmm

mm

ll

j

11

11

1

11

11

211

211

211

a

PrPrePre|afPr

は単語alignmentはef

f

e

)e|afPr()e|fPr(

 は単語列

翻訳元言語の i番目の単語は

翻訳先言語の j番目の単語に対応

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 38: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

IBM Model 1このモデルでは英仏文の単語の出現順序には相関がないとしている-( 1)

また対訳は個々の単語にだけ依存する-( 2)

は単語はは単語列j

j

j

ai

ajm

ajjj

j

jjj

efalignment

eftl

eftmfaf

lmfaa

|m

aef

)3()|()1(

)e|afPr(

)2()|()e|Pr(

)1()1()e|Pr(

)ePr(

m

1

11

11

111

11

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 39: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

bull このモデルでは Alignment aj  は0から m の任意の値をとるラグランジュ未定乗数法によって Pr(f|e)を最大化する

)6()|()|()()()1()|(

0

)5()1)|(()|()1(

)(

1)|( constraint

)4()|()1(

)e|fPr(

m

1

1

0 0 1

m

1

m

1

1

01 0

01 0

ek

ak

l

a

l

a

m

jajm

fee

l

a

l

a jajm

f

l

a

l

aajm

k

m

j

m

j

m

j

eftefteeffleft

h

efteftl

th

efte

eftl

この項を 2 種類の方法で書き換えて等しく置くとこと

がミソ

IBM Model 1

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 40: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

bull c(hellip)  とは翻訳 (f|e)において英単語 e が フランス語単語 f に翻訳される回数2番目のsumはある alignment a において feの接続回数

)8()()()ef|aPr(e)f|(

)7()()()e|afPr(

)|()()()1(

)|(

1

1

1

10 0 1

1

1

m

jaj

a

m

jaj

ae

m

kak

l

a

l

a

m

jajme

j

j

k

m

j

eeffefc

eeff

efteeffl

eft

(10)-e)f|()e|fPr(

)9()e|fPr(

)()()e|afPr(e)f|(

eaf)e|fPr()e|afPr()ef|aPr(

1

1

efce)|t(f

eeffefc

e

m

jaj

aj

は文字列

ミソ その1

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 41: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

t(f|e)を求めるまではもう一工夫      は単項式だから

例これによると

)11()|()|(1 0

m

101 0

i

m

j

l

ij

l

a

l

a jaj efteft

m

j

)|et(fiaj

))(( 212011102111201121102010 tttttttttttt

)12()|()1(

)e|fPr(01

l

iij

m

jm eft

l

ミソ その2

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 42: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

)16()()()|()|(

)|(e)f|()15)(10(

(10)-e)f|()e|fPr(

15)()(

)|(e)|Pr(f

)|()1(

)e|fPr()12()14(

)14()()()|()|()1()|(

0

)13()1)|(()|()1(

)(

1)|( constraint

1 00

1

1 0

01

01

1 101

0

01

m

ji

l

ij

l

e

m

j

l

iij

l

iij

e

l

iij

m

jm

e

m

j

l

iij

l

iij

m

jl

iij

m

fee

l

iij

m

jm

f

eeffefteft

eftefcby

efce)|t(fagain

eeff

eft

eftl

andby

eeffefteftleft

h

efteftl

th

eft

   

                

       

   

そこでまたラグランジュ未定乗数法でミソ その2 (12)式を使って h(tλ)の第 1項を書き換えた

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 43: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

bull (16)式の               の部分は(12)式から fと eの接続回数になることが分かる( alignment aがないのでこの式)下図参照

    

bull 教師データとして S 個の翻訳 (f(s)|e(s)) s=1hellipSがコーパスから知られているので以下の式を使う

m

ji

l

ij eeff

1 0

)()(

)ef|( (s)(s)

1

efcS

s

f

f1 f2=f f3 hellip f7=f hellip fm

e

e1=e

e2

e8=e

el

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 44: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

いよいよ EMで t(f|e)を推定-1

1 t(f|e)の初期値を適当に決める2 各 (f(s)e(s)) 1=lts =ltSに対して

    を利用して c(f|e f(s)e(s))を計算する  この値は fe が f(s)e(s)の要素のときだけ0でない

m

ji

l

ij

l

)δ(ee)δ(ff)t(f|e)t(f|e

t(f|e))ef|c(1 00

ef

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 45: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

いよいよ EMで t(f|e)を推定-2

3                    を   すると左辺が1になるので

この λeの値を用いて t(f|e)の新たな値を推定する

(ただし 上では式 (10)の λe を λePr(f|e)と置き換えた)

4   t(f|e)が収束するまで 23を繰り返す

)ef (s)(s)

1

1 |()|( efceftS

se

f

)|( (s)

1

(s) ef f

S

se efc

f

S

s

S

s

efc

efceft

1(s)(s)

1(s)(s)

)ef|(

)ef|()|(

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 46: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Model 2bull Alignmentが位置に依存するつまり

if jjml

ja

l

a

l

a

m

jj

l

i

j

jjjj

lmjiaeft)ah(t

lmjaaeftthen

lmjia

lmaj

lmfaalmjaa

j

m

)1)|(()1)|((e)|Pr(f

)|()|()e|fPr(

1)|(

)|Pr()|(

ee

0 0 1

0

11

11

1

ラグランジュ

に依存が

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 47: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

ラグランジュ未定乗数法で hを微分し計算すると

jmljml

S

sjml

aj

S

se

e

m

jaj

a

m

jjj

ae

efefaefefa

lmjiclmjia

a(i)lmjic

efcefeft

efcefeft

eeffefc

eeffe|afeft

j

)|Pr()|Pr()|Pr()|Pr(

)ef|()|(

)fe|aPr(e)f|(

)ef|()|Pr()|(

e)f|()|Pr()|(

)()()ef|aPr(e)f|(

)()()Pr()|(

(s)

1

(s)1

(s)(s)

1

1

1

1

1

1

さらに意味的に考えてここまでは同じだが

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 48: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Model 1と同じように計算し

bull Model 1 では (l+1)-1  だった a(i|jml)をModel 2 では変数と見ているので

bull 後は同じく EMアルゴリズムで t(f|e)を求める

bull 初期値にはModel 1の結果を用いる

l|jmla|eft|jmla|eft

i|jmla|efti|jmlc

l|jmlaf|et|jmlaf|eteeδffδi|jmlaf|et

fec

i|jmla|eftε

ljj

ij

m

j

l

i l

ij

m

j

l

iij

0ef

0

e|f

e|fPr

0

1 0 0

1 0

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 49: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Model 3bull 1単語がn単語に翻訳  not =gt ne hellip pasbull n=0(翻訳されない) 冠詞は日本語にはない

bull 対応する単語の出現場所がねじれるndash日英での語順の差

bull こういった現象に対応するモデル

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 50: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

bull 繁殖確率 n(φ|e) 英語単語 eが φ 個のフランス語単語に接続される確率

bull 翻訳確率 t(f|e)英語単語 eがフランス語単語 fに翻訳される確率

bull 歪確率 d(j|iml)英文長さ lフランス文長さ m英文の単語位置 iがフランス文の単語位置 jに接続される確率

bull 空の英単語の繁殖数= φ0

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 51: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

bull 空でない英単語から生成されたフランス語単語の後に空から生成された φ0 個の単語が確率 p1で挿入されるとすると

m

pp

ppe

m

ii

ll l

0

10

1

00

110

1

)|Pr( 001

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 52: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

以上の準備の下

)32()|()|(

)|(

e)|aPr(fe)|Pr(f

1

11

20

0

0

00

00

00

1

1

lmajdeft

enppm

ja

m

jj

ii

l

ii

ml

a

l

a

l

a

l

a

j

m

m

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 53: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

bull (32 )式を用いて ntdp01に関する各々の総和=1の確率による条件をつけてラグランジュ未定乗数法で Pr(f| e) を最大化すればよい

bull しかし model12と異なり和積の交換ができないので直接計算する

bull 組み合わせの数が多いのでビタビ法で近似計算する

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 54: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

SMTの発展の流れ 3 Phrase Based SMT

IBM Model1-5は primitiveで性能がいまいち efとも単語単位ではなく単語列 (phrase) 単位として翻訳される phraseを単位として SMTを行う= Phrase

Based SMTParallel corpusから phraseを取り出し Phraseの対訳確率 p(f-phaese|e-phrase)を求めることはできる

文を Phraseの連鎖と見なしたときにベイズの定理による argmax p(f|e) p(e)を計算 decoder

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 55: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

SMTの発展の流れ 3 Phrase Based SMT

Phrase Based SMTの長所多単語 -対 -多単語の翻訳ができるので意味的に構成的でないイディオムの翻訳などに強い

文脈情報が使えるParallel corpusが大きくなればより長い

phraseが学習できるPhrase の対訳辞書( Phrase Table)の学習法が重要な技術要素

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 56: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase Based SMTにおけるPhrase Tableの学習

IBM Model 1-5によって求めた単語の対訳を用いて求めたWord-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 57: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase Based SMTにおけるPhrase Tableの学習

Word-alignmentの結果から alignmentに矛盾しない phrase対訳を抽出する

Papers publised recently are too difficult

最近発表された論文が難しすぎる

矛盾 矛盾無矛盾

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 58: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 59: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase Based SMTにおけるPhrase Tableの学習

Papers publised recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 60: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 61: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase Based SMTにおけるPhrase Tableの学習

Papers published recently are too difficult

最近発表された論文が難しすぎる

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 62: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Phrase 対訳対の確率抽出された Phrase 対訳対に確率     を与える

Phraseの構成要素である単語の対訳確率 (word-to-word   alignmentの結果)を使う(単純には積)

抽出された Phrase 対訳対の相対確率を使う

こ の 式 で は 分 子 の count が 少 な い ので smoothingしたほうが性能があがるかもしれない

ef |

f

efcountefcountef

|

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 63: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Decoderの枠組みDecoder  新規のソース言語の文に対してターゲット言語の文を生成する

ソ ー ス 言 語 の 文 の Phrase 毎 に Phrase Table(Phrase 単位の対訳テーブルのこと)を引きターゲット言語に置き換える

だがどのような Phraseを切り出してきて置き換えればよいか最近発表された論文 最近最近発表された発表された発表された論文

切り出しの候補は非常に多く解空間は膨大ビームサーチによる絞り込み

ビーム幅に性能が左右される

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 64: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

reorder

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 65: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

マリー は あの 熟した リンゴ を 食べた

Mary ate that riped apple ate

マリーMary

P=08

マリーはMary

P=09

あのthatP=054

熟したripedP=036

リンゴapple

P=0216

熟したリンゴriped apple

P=0428

熟したリンゴをriped apple

P=02996

リンゴをappleP=02212

あのthoseP=027 熟したリン

ゴriped apples

P=0189

熟したリンゴをriped apples

P=01323

リンゴapples

P=018

    で連結された Phraseのシーケンスをパスという

日本語 Phrase

英語 Phrase

PPhrase 対訳確率

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 66: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

ソース言語での Phraseとしての切り出し方の選択肢多し

Phraseの対訳先の選択肢多し極めて膨大な可能性の広がり NP完全

処理の難しい部分を飛ばした前方で確実な対訳がある Phraseを対訳して Phraseの連結したシーケンス ( =パス)の確率を予測する方法もある

合流したパスは合流地点でまとめる性能劣化はないが枝刈りは十分ではない

ビーム幅を決めてパスの候補を枝刈りをしないと計算機で動かない性能の劣化(よい対訳 phraseを探し損なう)

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 67: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

将来のパスの確率を予測まだ調べていない将来の部分に確率の高い Phraseがありそれを現在のパスの確率に乗じてもかなり確率が高ければそれを考慮して現在のパスの順位を変更する

昨日 の 203 で 太郎 と いっしょに

行った 発表 は うまくいったP=05 uncovered P=05 uncovered

P=03 P=04

05times03times 05times04=003  P=001   times  場所か道具か分らないと確率低い

何かの番号らしいが辞書でカバーされてない「 203で」なので場所か道具

かとにかくもう少し先に進みたい

「203で」が「発表を行う」にかかるなら場所とわかり確率が高い

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 68: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

頻度分布と母集団および目的適合性 argmax p(e|f) の decoder計算では対訳コーパスなどの言語資源から IBM model や Phrase SMTで「得られた確率 p(e|f)と p(e)を使っている

しかし真の分布あるいは母集団の分布を使うのが理想

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

は辞書由来の情報かなどの言語モデル+何は加味したい度だけではない要因も    対訳コーパスの頻

は対訳確率だが

DLM

T

DLMT

pgramnp

pepepefpepefpfep

|||

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 69: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

単純にコーパスの頻度だけではなく種々の言語的要因を加味してみたらどうだろうか

eあるいは fの長さ頻度文中での出現位置などなど

すると p(e|f)は多数の要素の重み付け対数をとり最適化する

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべきそもそも真の分布母集団の分布が固定した形で得られるのかどうか分らない

M

ii

ip1

を最適化したいのだがi

M

iii

M

ii pp i

11

loglog

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 70: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

目的は良い対訳文の生成なので「良さ」を最大化するように λiを最適化するべき

「良さ」の尺度は機械翻訳の評価尺度 BLUEなどつまり BLUEWordErrorRate(WER)などを最適化の目的関数にする

以下は BLEUで代表して記述機械翻訳の出力文集合 fiei(i=1S)参照訳 (人間が作った正解訳文 )ri(i=1S)

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 71: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

(a)(b)は λiが両方の式に現れ一挙に解けない以下のような繰り返しで解く

1 適当な λiの初期値を与える best対訳リスト = 空2 (b) n-bestな対訳を作り best対訳リストにまだ入っていなければ best対訳リストに追加

3 (a)で λiを更新4 上記 23を 2で best対訳リストへの新規追加が無くなったら終了

F Och Minimum Error Rate Training in Statistical Machine Translation ACL2003

b or |logmaxarg st

a maxargˆˆ

11

11

ˆˆ1

1

M

kkikk

eMi

S

iMiiM

epfepfe

ferBLEUM

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 72: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

SMTの発展の流れ 4 Syntax Based SMT

言語学的な単位を扱うために構文構造(構文木)を単位として統計的機械翻訳を行う

Syntax Based SMTPhrase の対訳辞書( Phrase Table)の学習法が

重要な技術要素構文解析が入ってくるので構文解析結果を

使う昔の規則ベースの翻訳に近いが構文解析規則は Parallel   corpusから自動的に求める

Synchronous Context Free Grammar SCFG翻訳元先の両方の言語の構文規則が使える両方の言語での構文知識が使える

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 73: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

日本語入力から Syntacticなまとまり(構文木)を探して抽出

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 74: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

of JAVA

PR N

A book

NP PRP

bought

VB PRP

He

NP VB

VB

VB

PRP

PRP N

NP PR N N VB

N PP N PP N PP VB

彼 は JAVA の 本 を 買った

捻れをほどく

reordering

reordering

reordering

英語の構文木に対応させると捻れる捻れをほどくのが reordering

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 75: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Reordering Tableoriginal order(日本語) Reorder

(英語) P(reorder|original order) 作り物です

NP1 PP PRP NP1 072NP1 PRP NP2 NP2 PRP NP1 078

NP1( に) NP2 (を) VB

VB NP1 NP2 067

NP1 (に) NP2(を) VB

VB NP2 to NP1 033

VB NP NP VB( 関係節) 056

VB NP NP REL( 関係代名詞) VB

044

VB PP( か) DoDoes VB 057

このような reordering 規則によってある確率をもったいくつかの仮説となる構文木が生成される

最後は argmax p(f|e)p(e)で評価するが 途中の仮説数が大きくなりすぎたらビームサーチなどで枝刈り

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 76: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Synchronous Grammar Rule Reordering 規則を 2言語の同期文法規則として表す

単語翻訳規則  X 本 |a book

句翻訳規則 X 放り出す |throw away throw out

終端記号非終端記号の混合規則XN を | NP  X X blanc|white XX ne X pas|not X

非終端記号の入れ替えXNP VP| VP NPこの書き換え規則を適用して NP VP VP NPの reorderができる 

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 77: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Synchronous Grammar Ruleの学習Papers published recently are too difficult

最近発表された論文が難しすぎるXYすぎる | too YX発表された Y| Y publishedXZされた Y| Y Z-ed

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 78: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Synchronous Grammar Ruleの学習と問題点

自動的に学習された規則が多すぎる 規則のカバーする範囲の長さを制限する右辺に非終端記号が 2 個以上あると厄介 1 個だけにする

構文解析器の性能が悪いと SMTの性能も悪い果たして今の構文解析器の性能で十分か

未だ効率が良くない(そもそも難しい処理)

構文解析や文法と SMTの両方に詳しい研究者がそもそも少ないので研究が進めにくい

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 79: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

Topdown 型の規則主導の機械翻訳の時代は翻訳結果が人間にとって理解できるか自然な文かなどが評価尺度だった数量的根拠に乏しく種々のシステムを定量的に比較できない

SMTの時代になり種々のシステムの定量的な比較ができる尺度 BLEUが提案された正解として人間の翻訳文を利用し正解と機械翻訳システムの出力を比較する尺度

機械翻訳の評価尺度

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 80: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

代表的なMT評価尺度(1)

BLEU

WER(word error rate)機械翻訳文と参照訳との編集距離を正規化した値

機械翻訳長参考訳長

長い機械翻訳が参照訳より

数文内の全機械翻訳

数で一致した文と参照訳翻訳

1exp1

log41exp

4

1

otherwisefiBP

gramni

gramniiBPBLEU

n i

i

i

i

iiii

WERの語数参照訳

置換語数削除語数挿入語数min

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 81: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

代表的なMT評価尺度(2) PER(position independent WER)

METEOR参照訳中に現れる単語 unigramを正解と見なしたとき機械翻訳に出現する単語 unigramの Recallと Precisionの調和平均

10Prec Recall(Recall+9Prec)GTM(General Text Matcher)

機械翻訳文と参照訳との最長一致単語列の集合 MMS

i

i

i

iiPER

の語数参照訳

の一致語数と参照訳機械翻訳1

recallprerecallpreGTM

iiiMMSrecall

iiiMMSpre

2

)()(の語数参照訳

参照訳機械翻訳文の語数機械翻訳文参照訳機械翻訳文

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 82: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

評価尺度とMT方式の関係

この議論を整理すると評価尺度とMT方式の関係を分析する必要性も浮かび上がる

ルールベース翻訳(RMT)

統計翻訳(SMT)

BLEU 悪い 良い

人間の評価 けっこう良い 部分的な訳は良い

代替尺度 良いところは良いと評価する尺度がほしい

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 83: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

MTの評価尺度として頻繁に使用されているBLEUが人間が見て良い訳文を良い訳文と評価するのかが疑問視されている例えばSYSTRANのようなルールベースMTの結果のBLEU値は悪いが人間が見ると悪くないという場合もある

もう一つの問題としてSMTが良い訳文を生成しているのかという問題がある

機械翻訳評価尺度についての議論

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 84: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

特許文に対するSMTの評価利用データJAPIO提供の公開特許公報要

約PAJ対訳データ (1993年から 2004年までの 12年分G06分野77万文で学習 1000文でパラメータ調整 500文で評価

フレーズベースSMT入力文をフレーズ(翻訳する上で固定的に扱える単

位)に分割 SMTは短い表現の翻訳に強い

各フレーズを統計翻訳フレーズ順序を統計的に調節

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 85: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

動作例

BLEU WER PER GTM02713 0848 0452 088

Tommrow    I       will go       to the conference            in Japan

明日        Φ       日本の     会議に      行きます

機械翻訳のMT評価尺度による評価

MT2006(NIST主催)での Bestな BLEUは 035 よって特許翻訳ではフレーズベース SMTはかなり期待できる

個々のフレーズは統計翻訳で求める

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう 
Page 86: 自然言語処理の歴史的変遷 昔 の機械翻訳 統計的機械翻訳 翻訳の評価

こんな課題をやると BLEUによる評価の

実態がわかるでしょう  NHKのニュースサイト  httpwwwnhkorjpに行くとその日のニュースとその英語版ニュース 

httpwwwnhkorjpnhkworldが掲載されています 一方Google翻訳では日英翻訳ができますこれは統計

ベースの翻訳 IBMモデルとかかぎらないかもしれない また Yahooでも翻訳サービス  httphonyakuyahoocojpがあります 日本語NHKニュースの英語翻訳結果を参照訳としてGoogle翻訳の結果と Yahoo翻訳の結果のBLUE値を計算してくださいそしてBLUE値と実際の読みやすさ理解しやすさを検討してみるとよいでしょう

BLUE値の計算は手計算でけっこうですが評価プログラムは探せば入手可能のはず

  • Slide 1
  • 言語論の歴史を振り返ると 古代編
  • 言語論の歴史を振り返ると 中世編
  • 言語論の歴史を振り返ると 近世編
  • ソシュール
  • そして今
  • 認知革命
  • チューリングテスト
  • Top down vs Bottom up 合理主義 vs 経験主義
  • Bottom Up 旧世代構造主義
  • 合理主義
  • Slide 12
  • 移行派原理主義の問題点
  • 移行派原理主義の問題点 (2)
  • 記号について -- 少し視野を広げ人工知能の視点から--
  • Slide 16
  • Slide 17
  • 単語の意味
  • Slide 19
  • Slide 20
  • 対訳辞書
  • Slide 22
  • Slide 23
  • 旧世代の経験主義 合理主義 新世代の経験主義あるいはデータ主義
  • 統計的機械翻訳 Statistic Machine Translation (SMT)
  • SMTの発展の流れ1  ベイズ
  • SMTの発展の流れ2 IBM Model
  • Bayesの定理
  • なぜPr(e|f)ではなくPr(f|e)timesPr(e)か
  • Alignmentとは
  • Slide 31
  • Slide 32
  • Slide 33
  • 翻訳例2個の対訳の例文ペア the learning algorithm harr 学習 アルゴリズム the algorithm
  • Slide 35
  • Slide 36
  • もう少し本格的に IBM Model を説明 まず記法
  • IBM Model 1
  • IBM Model 1 (2)
  • Slide 40
  • t(f|e)を求めるまではもう一工夫
  • Slide 42
  • Slide 43
  • いよいよEMでt(f|e)を推定-1
  • いよいよEMでt(f|e)を推定-2
  • Model 2
  • ラグランジュ未定乗数法でhを微分し計算すると
  • Model 1と同じように計算し
  • Model 3
  • Slide 50
  • Slide 51
  • 以上の準備の下
  • Slide 53
  • SMTの発展の流れ3 Phrase Based SMT
  • SMTの発展の流れ3 Phrase Based SMT (2)
  • Phrase Based SMTにおける Phrase Tableの学習
  • Phrase Based SMTにおける Phrase Tableの学習 (2)
  • Phrase Based SMTにおける Phrase Tableの学習 (3)
  • Phrase Based SMTにおける Phrase Tableの学習 (4)
  • Phrase Based SMTにおける Phrase Tableの学習 (5)
  • Phrase Based SMTにおける Phrase Tableの学習 (6)
  • Phrase 対訳対の確率
  • Decoderの枠組み
  • Slide 64
  • Slide 65
  • Slide 66
  • 将来のパスの確率を予測
  • 頻度分布と母集団および目的適合性
  • Slide 69
  • Slide 70
  • Slide 71
  • SMTの発展の流れ4 Syntax Based SMT
  • Slide 73
  • Slide 74
  • Reordering Table
  • Synchronous Grammar Rule
  • Synchronous Grammar Ruleの学習
  • Synchronous Grammar Ruleの学習と問題点
  • Slide 79
  • 代表的なMT評価尺度(1)
  • 代表的なMT評価尺度(2)
  • 評価尺度とMT方式の関係
  • Slide 83
  • 特許文に対するSMTの評価
  • 動作例
  • こんな課題をやるとBLEUによる評価の 実態がわかるでしょう