35
整整整整整整整整整 整整整整整整整整整整整整整 整整 整整 Yu Kun 整整整整整整整整整整整整整整整整 整整 整整 整整整整整整整整整整整整整

整合性尺度を用いた 構造的対訳文アラインメント

  • Upload
    mieko

  • View
    30

  • Download
    1

Embed Size (px)

DESCRIPTION

整合性尺度を用いた 構造的対訳文アラインメント. 中澤 敏明  Yu Kun 東京大学大学院情報理工学系研究科 黒橋 禎夫 京都大学大学院情報学研究科. 入力文. 翻訳知識. 対訳 コーパス. EBMT. アライメント. 翻訳. 翻訳文. アラインメントの位置付け. アラインメントの精度は翻訳知識の質に影響する ⇒ 翻訳知識の質は翻訳の精度に影響する ⇒ アラインメントの精度を向上させることは重要!. アラインメント. 統計翻訳( SMT ) さまざまな確率的パラメータを学習 辞書などの言語資源は基本的には利用しない 頑健な数学的知識に基づいている - PowerPoint PPT Presentation

Citation preview

Page 1: 整合性尺度を用いた 構造的対訳文アラインメント

整合性尺度を用いた構造的対訳文アラインメント

中澤 敏明  Yu Kun  東京大学大学院情報理工学系研究科

黒橋 禎夫京都大学大学院情報学研究科

Page 2: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメントの位置付け

対訳コーパス アライメント 翻訳知識

翻訳文

EBMT

入力文

翻訳

アラインメントの精度は翻訳知識の質に影響する

⇒  翻訳知識の質は翻訳の精度に影響する

⇒  アラインメントの精度を向上させることは重要!

Page 3: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメント• 統計翻訳( SMT )

– さまざまな確率的パラメータを学習– 辞書などの言語資源は基本的には利用しない– 頑健な数学的知識に基づいている

• 用例ベース翻訳( EBMT )– 翻訳用例の獲得– 辞書などの言語資源を積極的に利用– アドホックなルールを利用することが多い[Arul 01]

Page 4: 整合性尺度を用いた 構造的対訳文アラインメント

目次

• 研究背景• 用例ベース翻訳におけるアラインメント• 整合性尺度を用いた構造的アラインメン

ト• 実験と考察• 結論

Page 5: 整合性尺度を用いた 構造的対訳文アラインメント

目次

• 研究背景• 用例ベース翻訳におけるアラインメント• 整合性尺度を用いた構造的アラインメン

ト• 実験と考察• 結論

Page 6: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメント

• Step 1:依存構造解析

• Step 2:対応候補の探索

• Step 3:対応候補の選択

• Step 4:未対応部分の推定

Page 7: 整合性尺度を用いた 構造的対訳文アラインメント

Step 1:依存構造解析• 日本語:形態素解析器 JUMAN/ 構文解析器 KNP• 英語: Charniak’s nlparser → ルールによる変換

交差点 で 、突然

あの車 が

飛び出して 来た のです

the car

came

at me

from the side

at the intersection

J: 交差点で、突然あの車が 飛び出して来たのです。

E : The car came at me from

the side at the intersection.

Page 8: 整合性尺度を用いた 構造的対訳文アラインメント

Step 2:対応候補の探索• 対訳辞書 (研究社の和英・英和辞書)• 数字の汎化 (二十三 ⇔ twenty three )• Transliteration (新宿 ⇔ Shinjuku )

交差点 で 、突然

あの車 が

飛び出して 来た のです

the car

came

at me

from the side

at the intersection

Page 9: 整合性尺度を用いた 構造的対訳文アラインメント

Step 3:対応候補の選択• 曖昧性がある候補や、不適切な候補も見つかる

Page 10: 整合性尺度を用いた 構造的対訳文アラインメント

曖昧な対応の例

you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ

Page 11: 整合性尺度を用いた 構造的対訳文アラインメント

Step 3:対応候補の選択• 曖昧性がある候補や、不適切な候補も見つかる   → 様々な対応候補から適切なものを取捨選択      する必要がある

このステップが最も重要!

詳細は後ほど。。。

Page 12: 整合性尺度を用いた 構造的対訳文アラインメント

交差点 で 、突然

あの車 が

飛び出して 来た のです

the car

came

at me

from the side

at the intersection

Step 4:未対応部分の推定• 残っているルートノード同士を対応付け

る• 名詞句内のノードをまとめる• そのほかは親ノードへまとめる

Page 13: 整合性尺度を用いた 構造的対訳文アラインメント

目次

• 研究背景• 用例ベース翻訳におけるアラインメント• 整合性尺度を用いた構造的アラインメン

ト• 実験と考察• 結論

Page 14: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメントの整合性• 1 対 複数、複数 対 複数などの曖昧な対応• 曖昧ではないが誤った対応 (中国=中 ⇔ in )

Page 15: 整合性尺度を用いた 構造的対訳文アラインメント

曖昧な対応の例

you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ

Page 16: 整合性尺度を用いた 構造的対訳文アラインメント

• 1 対 多、多 対 多などの曖昧な対応• 曖昧ではないが誤った対応 (中国=中 ⇔ in )

木構造全体が最も整合的に対応づくような

ロバストなアラインメント手法が必要

アラインメントの整合性

Page 17: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメントの整合性

近い!

遠い!

Page 18: 整合性尺度を用いた 構造的対訳文アラインメント

• 1 対複数、複数対複数などの曖昧な対応• 曖昧ではないが誤った対応 (中国=中 ⇔ in )

木構造全体が最も整合的に対応づくような

ロバストなアラインメント手法が必要

アラインメントの整合性

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 19: 整合性尺度を用いた 構造的対訳文アラインメント

ベースライン手法• 曖昧性のない対応候補は無条件で採用• 曖昧性のある対応候補は整合性尺度を利用• 一つの枝の距離はすべて1  → 二つの対応間の距離=木構造上での移動距

離• 距離 - スコア関数

EJ

EJ ddddf

11,

Page 20: 整合性尺度を用いた 構造的対訳文アラインメント

スコア計算例

you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ 11

21

Page 21: 整合性尺度を用いた 構造的対訳文アラインメント

ベースライン手法• 曖昧性のない対応候補は無条件で採用• 曖昧性のある対応候補は整合性尺度を利用• 一つの枝の距離はすべて1  → 二つの対応間の距離=木構造上での移動距

離• 距離 - スコア関数

EJ

EJ ddddf

11,

距離と距離 - スコア関数を改善

Page 22: 整合性尺度を用いた 構造的対訳文アラインメント

距離 - スコア関数の改善( 1/2 )

• 毎日新聞4万対訳文のアラインメント正解データで距離ペアの頻度分布を計数 [Uchimoto04]

頻度のlog

日本語側の距離英語側の距離

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 23: 整合性尺度を用いた 構造的対訳文アラインメント

距離 - スコア関数の改善( 2/2 )

• 距離が近い同士のペア → プラス• 距離が遠い同士のペア → 0• 距離が近いものと遠いものとのペア → マイナス

スコア

日本語側の距離

英語側の距離

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 24: 整合性尺度を用いた 構造的対訳文アラインメント

係り受けタイプと距離you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ

デ格

文節内

連用

文節内

ノ格

ガ格

NP

NP

NN

PP

NN

PP

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 25: 整合性尺度を用いた 構造的対訳文アラインメント

係り受けタイプと距離日本語

用言:レベル C 6

用言:レベル B+ / B

5

用言:レベル B- / A

4

ト格ヲ格 / ニ格 / デ格

3

ガ格 / ノ格 / 連体

2

文節内 1

用言:レベル A+

英語S / SBAR / SA / : 5

VP / ADVP 4

ADJP / WHADVP

WHADJP

NP / PP / INTJ 3

QP / PRT / PRN

others 2

Page 26: 整合性尺度を用いた 構造的対訳文アラインメント

距離を利用した整合性計算you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ

デ格

文節内

連用

文節内

ノ格

ガ格

NP

NP

NN

PP

NN

PP

距離=(1,1)スコア +

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 27: 整合性尺度を用いた 構造的対訳文アラインメント

距離を利用した整合性計算you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ

距離=(1,7)スコア -

デ格

文節内

連用

文節内

ノ格

ガ格

NP

NP

NN

PP

NN

PP

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 28: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメントの整合性尺度

you

will have to file

insurance

an claim

insurance

with the office

in Japan

日本 で

保険

会社 に 対して

保険

請求 の

申し立て が

可能です よ

i j

jiEjiJalignment

aadaadf ),(),,(maxarg日本語側距離 英語側距離

整合性スコア(整合性尺度)

距離 - スコア関数

Page 29: 整合性尺度を用いた 構造的対訳文アラインメント

目次

• 研究背景• 用例ベース翻訳におけるアラインメント• 整合性尺度を用いた構造的アラインメン

ト• 実験と考察• 結論

Page 30: 整合性尺度を用いた 構造的対訳文アラインメント

アラインメント実験

• 毎日新聞対訳コーパスからランダムに 500文

• 正解データとの比較– 日本語:文字単位  英語:単語単位– 適合率・再現率・ F値

• 対訳辞書– 研究社 和英  36K 見出し  214K エントリー

– 研究社 英和  50K 見出し  303K エントリー

Page 31: 整合性尺度を用いた 構造的対訳文アラインメント

精度の計算例E1

E2

E3

E4

E5

E6

E7

E8

E9

J1 J2 J3 J4 J5 J6 J7 J8 J9

適合率(P)=129 = 75%

再現率(R)=119 = 82%

F値=PとRの調和平均= 78%

Page 32: 整合性尺度を用いた 構造的対訳文アラインメント

結果と考察適合率 再現率 F値

ベースライン 60.26 61.68 58.79

+距離 - スコア関数改善

64.35 61.58 60.81

+係り受け距離 64.93 62.64 61.91

GIZA++ (with JUMAN) 59.9 17.0 26.4

• 距離 - スコア関数改善により大幅な適合率向上

• 係り受け距離を考慮することにより全体的な精度の向上

Page 33: 整合性尺度を用いた 構造的対訳文アラインメント

改善例(1)

J:妥当な判決であると評価したい。E: I would like to commend that it was a reasonable judgment.

Page 34: 整合性尺度を用いた 構造的対訳文アラインメント

改善例(2)

J:チェチェン紛争は、東欧諸国の北大西洋条約機構への加盟要求を一層高めることになろう。E: The Chechen conflict will accelerate the call for the participation of Eastern European nations in NATO

Page 35: 整合性尺度を用いた 構造的対訳文アラインメント

結論と今後の課題• 係り受けタイプと距離 - スコア関数を導入• アラインメントの整合性尺度を定義し、適

切な対応候補の選択を可能とすることにより、アラインメント精度の向上に成功

• 係り受けタイプに基づく距離を自動学習• 距離スコア関数のチューニング• 他の有効なフィーチャの導入