12
Paraphrasing Rules for Automa4c Evalua4on of Transla4on into Japanese Hiroshi Kanayama. In Proceedings of the Second Interna4onal Workshop on Paraphrasing, pp.88–93, 2003. プレゼンテーション:野口真人 1

Paraphrasing rules for automatic evaluation of translation into japanese

  • Upload
    swenbe

  • View
    23

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Paraphrasing rules for automatic evaluation of translation into japanese

Paraphrasing  Rules  for    Automa4c  Evalua4on  of    Transla4on  into  Japanese

Hiroshi  Kanayama.    

 In  Proceedings  of  the  Second  Interna4onal  Workshop  on  Paraphrasing,  pp.88–93,  2003.  

 プレゼンテーション:野口真人

1  

Page 2: Paraphrasing rules for automatic evaluation of translation into japanese

Paraphrasing  Rules  for  Automa4c  Evalua4on  of  Transla4on  into  Japanese

•  どのような問題を解いたのか  • 目的言語が日本語のときの自動翻訳評価方法(BLEU)の改善  

•  どうやって解いたのか  • 言い換え規則を適用することで日本語の表記の揺れを吸収

する  

•  どのような結果を達成したか

• 人手で行った評価との相関係数が0.80(従来手法)から0.93(提案手法)となった

2  

Page 3: Paraphrasing rules for automatic evaluation of translation into japanese

自動評価BLEU:pn • 翻訳の自動評価方法  

• 英語への翻訳で人手の評価との高い相関関係がある (Papineni  et  al  2002a)  

• 原言語と目的言語のパラレルコーパスを使用  

• 以下のような式に基づく  

 

cand:候補文(生成された文) s:文 ngr:n-­‐gram   C:候補文でのカウント数    Cr:参照文(パラレルコーパスの目的言語側)でのカウント数  

3  

Page 4: Paraphrasing rules for automatic evaluation of translation into japanese

pnの計算の例

• 以下のような参照文と候補文があるとする  • 参照文1:I  had  my  watch  repaired  by  an  office  worker.  • 参照文2:A  person  in  the  office  repaired  my  watch.  • 候補文1:I  had  a  man  in  the  office  repair  a  watch.  • 候補文2:I  had  the  person  of  an  office  correct  a  clock.  

• 候補文1の中には11のunigramがある  • そのうち参照文(1    or  2)に出現するunigramは8つ→ 8/11

•  ‘I’,  ‘had’  ,  ‘a’  ,  ‘in’  ,  ‘the’  ,  ‘office’  ,  ‘watch’,  ‘.’  

• 同じように,bigramが  4/10,  trygramが  1/9となる  

• 候補文2も同じように見ると,unigramが  8/11,  bigramが2/10,  trygramが  0/9となる→英訳の良さ候補文1>候補文2

4  

Page 5: Paraphrasing rules for automatic evaluation of translation into japanese

罰則

• n-­‐gram精度には弱点がある  • 頻繁に使用される単語だけからなる短い候補文で高い精度

を出してしまう  • 例)候補文が”the”  だけで参照文に’the’という単語が入ってる

場合,精度は1.0になってしまう  

• BLEUは短い文への罰則によりこの弱点を克服  

 BP:罰則 c:候補文の総単語数 r:参照文の総単語数  

• 候補文が参照文より短いときに点数が減る

5  

Page 6: Paraphrasing rules for automatic evaluation of translation into japanese

BLEUの計算

• BLEUスコアは以下のように求められる  

• BLEU得点は0から1の間となる  

• Nを大きくすると,文の正しさより流暢さを重視することになる  

• 目的言語が英語の場合,N  =  4のとき人の評価との相関関係が高くなる(Papineni  et  al  2002b)  

6  

Page 7: Paraphrasing rules for automatic evaluation of translation into japanese

日本語でのBLEU計算のために

• 日本語を目的言語とする場合にBLEU評価をするためには以下のことが必要  1.  形態的な解析の利用  2.  異なる品詞の区別  3.  規則を用いた言い換え(提案手法)  

1.   形態的な解析の利用  • 日本語には単語間の隙間がないので,形態素解析で切り離

す必要がある  彼が本を読みました。    彼 が 本 を 読 み まし た 。

7  

Page 8: Paraphrasing rules for automatic evaluation of translation into japanese

日本語でのBLEU計算のために

2.  異なる品詞の区別  • 同じ表層でも意味の違う単語がある  

•  例)接続詞の「が」と格助詞の「が」  

• 形態素解析で品詞情報を得られるのでそれを利用  

3.  規則を用いた言い換え(提案手法)  • 日本語では,同じ内容を表すのにも様々な表現方法がある

•  彼が本を読みました。  

•  彼が本を読んだ.  

• これらの表記の揺れを吸収する必要がある  

8  

Page 9: Paraphrasing rules for automatic evaluation of translation into japanese

• 以下の場合,同じ内容の文なのにBLEU値は低くなってしまう  •  参照文1:彼 が 本 を 読 み まし た 。  

•  候補文1:彼 が 本 を 読 ん だ 。  

•  Pnはunigram:6/8,  bigram:4/7,  trigram:3/6,  4gram:2/5  

  (本来ならすべてほぼ 1  になるはず)  

• 参照文に以下のような言い換え規則を適用する  

• 新たな文を言い換えで生成して参照文に追加         →正当なBLEU値が算出される

• 参照文2:彼 が 本 を 読 ん だ 。

規則を用いた言い換え

9  

A $1(verb-c) : ん : だ ↔ $1: み : まし : た  B ない(adj) : 。 ↔ あり : ませ : ん : 。  C $1(noun) : だ ↔ $1 : である  D に : よ : っ : て ↔ に : よ : り  

Page 10: Paraphrasing rules for automatic evaluation of translation into japanese

実験

• 日英の対訳コーパス6,871文からランダムに100文を抜き出し翻訳を行い評価  

• 自動翻訳システムS1〜S5と人手の翻訳H1を評価する  

• 評価システムは以下の5つ(B1〜B4はBLEUで評価)  • B1:「1. 形態的な解析の利用」のみを行う  • B2:B1に加え,「2.  異なる品詞の区別」を行う  • B3:B2に加え,51種類言い換えルールを用いた言い換えを

行ったもの(前の表のA・Bのようにより上品な表現にする)  • B4:B3に加え,他の言い換えを行ったもの(C・Dのような)  • M1:人手による評価(1〜5で評価)

10  

Page 11: Paraphrasing rules for automatic evaluation of translation into japanese

結果

• 結果は以下の通り  • B1とB2から,品詞情報は評価を改善することがわかる  • 言い換え規則を用いた言い換えを行うことで人の評価との相

関度が0.803→0.931に改善した 言い換えにより評価が改善することがわかる  

11  

B1   B2   B3   B4   M1  

S1   0.115   0.114   0.132   0.135   2.38  

S2   0.130   0.129   0.149   0.151   2.74  

S3   0.134   0.132   0.148   0.152   2.77  

S4   0.137   0.135   0.148   0.158   3.16  

S5   0.183   0.177   0.179   0.180   3.38  

H1   0.170   0.166   0.179   0.187   4.40  

correl     0.797   0.803   0.865   0.931   (1.0)  

Page 12: Paraphrasing rules for automatic evaluation of translation into japanese

終わりに

• 言い換え規則を適用したBLEU評価によって,日本語を目的言語としたときの評価が改善した  

• 人手の評価との相関関係が0.80から0.93に  

• これにより今まで難しかった翻訳の品質の客観的な評価が可能となる  

• 課題:他の言い換え規則の開発  • 言い換え規則の自動取得をすることがこれからの研究方針

12