1
文節間の並べ替え: SOV SVO 文節内の並べ替え: 後置詞(助詞など) 前置詞 日中英統計的機械翻訳のための事前並べ替え手法 Pre-ordering Methods for Chinese, English, and Japanese Statistical Machine Translation 連絡先:宮尾祐介(Yusuke Miyao)/ 国立情報学研究所 コンテンツ科学研究系 准教授 TEL/FAX : 03-4212-2590 Email : [email protected] 機械による翻訳=2つの言語の違いを理解して乗り越える 韓丹 Dan Han, 星野翔 Sho Hoshino, 宮尾祐介 Yusuke Miyao 日英翻訳・中日翻訳の精度が向上する並べ替え手法 中国語を日本語風、日本語を英語風にする規則 深い構文解析による言語の理解と翻訳 日本語と中国語、日本語と英語の違いは乗り越えられるか? どんな研究? 何がわかる? 翻訳/機械翻訳とは何か?研究上の難しさと問題点 なぜ高度な機械翻訳が実用化されていないのか? 万能翻訳器(ほんやくコンニャク)は実現可能か? の克服: 2段階の事前並べ替え 事前並べ替え手法 BLEU RIBES 無し:ベースライン MeCabで単語分割 29.19 68.48 (Katz-Brown and Collins 2008) 27.59 66.10 (Komachi et al. 2006) 29.58 69.10 (Neubig et al. 2012) 1万文学習 29.93 70.15 提案手法 KNPで構文解析 30.65 72.26 ベースライン 提案手法 0% 5% 10% 15% -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 0% 5% 10% 15% -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 順位相関係数 (Kendall’τ) の分布比較: 英語風の日本語になった 参考文献(詳細についてはこちらをご覧下さい): Dan Han et al. (2012) Head finalization reordering for Chinese-to-Japanese machine translation. Proc. of SSST-6, pages 57-66. Dan Han et al. (2013) Using unlabeled dependency parsing for pre-reordering for Chinese-to-Japanese statistical machine translation. Proc. of HyTra2013. 星野ら (2013) 日英統計的機械翻訳のための述語項構造に基づく事前並べ替え, NLP2013. 私は京都へ行きます。 I go to Kyoto. は私/行きます/へ京都/機械翻訳 外国語 母国語 統計的機械翻訳システム 並べ替えた外国語 事前並べ替え 大規模対訳データ (数十万~数百万文) 言語モデル、翻訳モデル、並べ替えモデル + 構文情報 古代中国語: SVO文 楚人鬻盾與矛者 現代日本語: SOV楚人に盾と矛を鬻ぐ者有り 彼(は) ご飯(を) 食べ ROOT * * * * 方法一:HPSG構文解析による (Refined-HFC) 方法二:依存構文解析による (DPC) 38.96 39.26 39.94 85.01 84.68 85.22 84.6 84.7 84.8 84.9 85 85.1 85.2 85.3 85.4 38.8 39 39.2 39.4 39.6 39.8 40 Baseline HFC DPC BLEU RIBES 39.26 39.22 39.93 84.83 84.88 85.23 84.4 84.6 84.8 85 85.2 85.4 39 39.2 39.4 39.6 39.8 40 Baseline HFC DPC BLEU RIBES 20.7 23.17 24.14 74.21 75.35 77.17 73 73.5 74 74.5 75 75.5 76 76.5 77 77.5 20 21 22 23 24 25 Baseline HFC Refined-HFC BLEU RIBES 16.74 19.94 20.79 71.24 73.49 75.09 70 71 72 73 74 75 76 16 17 18 19 20 21 22 Baseline HFC Refined-HFC BLEU RIBES BLEU BLEU RIBES RIBES 320万文特許対訳データでの日英翻訳の比較

Pre-ordering Methods for Chinese, English, and Japanese ...Pre-ordering Methods for Chinese, English, and Japanese Statistical Machine Translation 連絡先:宮尾祐介(Yusuke

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Pre-ordering Methods for Chinese, English, and Japanese ...Pre-ordering Methods for Chinese, English, and Japanese Statistical Machine Translation 連絡先:宮尾祐介(Yusuke

• 文節間の並べ替え: SOV ⇒ SVO • 文節内の並べ替え: 後置詞(助詞など) ⇒ 前置詞

人工知能/計算機に思考させるD

日中英統計的機械翻訳のための事前並べ替え手法 Pre-ordering Methods for Chinese, English, and Japanese

Statistical Machine Translation

連絡先:宮尾祐介(Yusuke Miyao)/ 国立情報学研究所 コンテンツ科学研究系 准教授

TEL/FAX : 03-4212-2590 Email : [email protected]

機械による翻訳=2つの言語の違いを理解して乗り越える

韓丹 Dan Han, 星野翔 Sho Hoshino, 宮尾祐介 Yusuke Miyao

• 日英翻訳・中日翻訳の精度が向上する並べ替え手法

• 中国語を日本語風、日本語を英語風にする規則

• 深い構文解析による言語の理解と翻訳

日本語と中国語、日本語と英語の違いは乗り越えられるか?

どんな研究? 何がわかる?

• 翻訳/機械翻訳とは何か?研究上の難しさと問題点

• なぜ高度な機械翻訳が実用化されていないのか?

• 万能翻訳器(ほんやくコンニャク)は実現可能か?

の克服: 2段階の事前並べ替え

事前並べ替え手法 BLEU RIBES

無し:ベースライン MeCabで単語分割 29.19 68.48

(Katz-Brown and Collins 2008) 27.59 66.10

(Komachi et al. 2006) 29.58 69.10

(Neubig et al. 2012) 1万文学習 29.93 70.15

提案手法 KNPで構文解析 30.65 72.26

ベースライン 提案手法

0%

5%

10%

15%

-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0

0%

5%

10%

15%

-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0

順位相関係数 (Kendall’τ) の分布比較: 英語風の日本語になった

参考文献(詳細についてはこちらをご覧下さい): • Dan Han et al. (2012) Head finalization reordering for Chinese-to-Japanese machine translation. Proc. of SSST-6, pages 57-66. • Dan Han et al. (2013) Using unlabeled dependency parsing for pre-reordering for Chinese-to-Japanese statistical machine translation. Proc. of HyTra2013. • 星野ら (2013) 日英統計的機械翻訳のための述語項構造に基づく事前並べ替え, NLP2013.

私は京都へ行きます。

I go to Kyoto. は私/行きます/へ京都/。 機械翻訳

外国語 母国語 統計的機械翻訳システム 並べ替えた外国語

事前並べ替え

大規模対訳データ (数十万~数百万文) 言語モデル、翻訳モデル、並べ替えモデル

+

構文情報

古代中国語: SVO文 楚人有鬻盾與矛者 現代日本語: SOV文 楚人に盾と矛を鬻ぐ者有り

訓読

彼(は) ご飯(を) 食べ た 。

他 吃 了 午饭 。

他 午饭 吃 了 。

他 吃 了 午饭 。

ROOT

他 吃 了 午饭 。

* *

* *

方法一:HPSG構文解析による (Refined-HFC) 方法二:依存構文解析による (DPC)

38.96

39.26

39.94

85.01

84.68

85.22

84.684.784.884.98585.185.285.385.4

38.8

39

39.2

39.4

39.6

39.8

40

Baseline HFC DPC

BLEU

RIBES

39.26 39.22

39.93

84.83 84.88

85.23

84.4

84.6

84.8

85

85.2

85.4

39

39.2

39.4

39.6

39.8

40

Baseline HFC DPC

BLEURIBES

20.7

23.17

24.14

74.21

75.35 77.17

7373.57474.57575.57676.57777.5

20

21

22

23

24

25

Baseline HFC Refined-HFC

BLEU

RIBES

16.74

19.94

20.79

71.24

73.49 75.09

70

71

72

73

74

75

76

16

17

18

19

20

21

22

Baseline HFC Refined-HFC

BLEU

RIBES

BLEU BLEU RIBES RIBES

320万文特許対訳データでの日英翻訳の比較