Paraphrasing rules for automatic evaluation of translation into japanese

Paraphrasing Rules for Automa4c Evalua4on of Transla4on into Japanese

Hiroshi Kanayama.

In Proceedings of the Second Interna4onal Workshop on Paraphrasing, pp.88–93, 2003.

プレゼンテーション：野口真人

1

Paraphrasing Rules for Automa4c Evalua4on of Transla4on into Japanese

•  どのような問題を解いたのか • 目的言語が日本語のときの自動翻訳評価方法(BLEU)の改善

•  どうやって解いたのか • 言い換え規則を適用することで日本語の表記の揺れを吸収

する

•  どのような結果を達成したか

• 人手で行った評価との相関係数が0.80(従来手法)から0.93(提案手法)となった

2

自動評価BLEU：pn • 翻訳の自動評価方法

• 英語への翻訳で人手の評価との高い相関関係がある (Papineni et al 2002a)

• 原言語と目的言語のパラレルコーパスを使用

• 以下のような式に基づく

cand：候補文(生成された文)　s：文　ngr：n-‐gram C：候補文でのカウント数 Cr：参照文(パラレルコーパスの目的言語側)でのカウント数

3

pnの計算の例

• 以下のような参照文と候補文があるとする • 参照文1：I had my watch repaired by an office worker. • 参照文2：A person in the office repaired my watch. • 候補文1：I had a man in the office repair a watch. • 候補文2：I had the person of an office correct a clock.

• 候補文1の中には11のunigramがある • そのうち参照文(1 or 2)に出現するunigramは8つ→ 8/11

•  ‘I’, ‘had’ , ‘a’ , ‘in’ , ‘the’ , ‘office’ , ‘watch’, ‘.’

• 同じように,bigramが 4/10, trygramが 1/9となる

• 候補文2も同じように見ると,unigramが 8/11, bigramが2/10, trygramが 0/9となる→英訳の良さ候補文1>候補文2

4

罰則

• n-‐gram精度には弱点がある • 頻繁に使用される単語だけからなる短い候補文で高い精度

を出してしまう • 例)候補文が”the” だけで参照文に’the’という単語が入ってる

場合,精度は1.0になってしまう

• BLEUは短い文への罰則によりこの弱点を克服

BP：罰則　c：候補文の総単語数　r：参照文の総単語数

• 候補文が参照文より短いときに点数が減る

5

BLEUの計算

• BLEUスコアは以下のように求められる

• BLEU得点は0から1の間となる

• Nを大きくすると,文の正しさより流暢さを重視することになる

• 目的言語が英語の場合,N = 4のとき人の評価との相関関係が高くなる(Papineni et al 2002b)

6

日本語でのBLEU計算のために

• 日本語を目的言語とする場合にBLEU評価をするためには以下のことが必要 1.  形態的な解析の利用 2.  異なる品詞の区別 3.  規則を用いた言い換え(提案手法)

1.   形態的な解析の利用 • 日本語には単語間の隙間がないので,形態素解析で切り離

す必要がある彼が本を読みました。彼　が　本　を　読　み　まし　た　。

7

日本語でのBLEU計算のために

2.  異なる品詞の区別 • 同じ表層でも意味の違う単語がある

•  例)接続詞の「が」と格助詞の「が」

• 形態素解析で品詞情報を得られるのでそれを利用

3.  規則を用いた言い換え(提案手法) • 日本語では,同じ内容を表すのにも様々な表現方法がある

•  彼が本を読みました。

•  彼が本を読んだ.

• これらの表記の揺れを吸収する必要がある

8

• 以下の場合,同じ内容の文なのにBLEU値は低くなってしまう •  参照文1：彼　が　本　を　読　み　まし　た　。

•  候補文1：彼　が　本　を　読　ん　だ　。

•  Pnはunigram：6/8, bigram：4/7, trigram：3/6, 4gram：2/5

　　(本来ならすべてほぼ 1 になるはず)

• 参照文に以下のような言い換え規則を適用する

• 新たな文を言い換えで生成して参照文に追加　　　　　　　→正当なBLEU値が算出される

• 参照文2：彼　が　本　を　読　ん　だ　。

規則を用いた言い換え

9

A $1(verb-c) : ん : だ ↔ $1: み : まし : た B ない(adj) : 。 ↔ あり : ませ : ん : 。 C $1(noun) : だ ↔ $1 : である D に : よ : っ : て ↔ に : よ : り

実験

• 日英の対訳コーパス6,871文からランダムに100文を抜き出し翻訳を行い評価

• 自動翻訳システムS1〜S5と人手の翻訳H1を評価する

• 評価システムは以下の5つ(B1〜B4はBLEUで評価) • B1：「1. 形態的な解析の利用」のみを行う • B2：B1に加え,「2. 異なる品詞の区別」を行う • B3：B2に加え,51種類言い換えルールを用いた言い換えを

行ったもの(前の表のA･Bのようにより上品な表現にする) • B4：B3に加え,他の言い換えを行ったもの(C･Dのような) • M1：人手による評価(1〜5で評価)

10

結果

• 結果は以下の通り • B1とB2から,品詞情報は評価を改善することがわかる • 言い換え規則を用いた言い換えを行うことで人の評価との相

関度が0.803→0.931に改善した言い換えにより評価が改善することがわかる

11

B1 B2 B3 B4 M1

S1 0.115 0.114 0.132 0.135 2.38

S2 0.130 0.129 0.149 0.151 2.74

S3 0.134 0.132 0.148 0.152 2.77

S4 0.137 0.135 0.148 0.158 3.16

S5 0.183 0.177 0.179 0.180 3.38

H1 0.170 0.166 0.179 0.187 4.40

correl 0.797 0.803 0.865 0.931 (1.0)

終わりに

• 言い換え規則を適用したBLEU評価によって,日本語を目的言語としたときの評価が改善した

• 人手の評価との相関関係が0.80から0.93に

• これにより今まで難しかった翻訳の品質の客観的な評価が可能となる

• 課題：他の言い換え規則の開発 • 言い換え規則の自動取得をすることがこれからの研究方針

12

Science

Paraphrasing rules for automatic evaluation of translation into japanese