18
文脈の多様性に基づく 名詞換言の評価 長岡技術科学大学 梶原智之 山本和英

文脈の多様性に基づく名詞換言の評価

Embed Size (px)

Citation preview

Page 1: 文脈の多様性に基づく名詞換言の評価

文脈の多様性に基づく 名詞換言の評価

長岡技術科学大学 梶原智之 山本和英

Page 2: 文脈の多様性に基づく名詞換言の評価

背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない

→ 既存の換言知識に頼らず   大規模コーパスを用いて換言を生成

2

Page 3: 文脈の多様性に基づく名詞換言の評価

提案手法 コーパスを用いた名詞換言

 分布仮説[Harris 54]

似た意味の語は似た文脈で用いられる 1.  入力文と同じ文脈で用いられる名詞を抽出   → 自然な文を出力するための制約

2.  抽出した各換言候補語と文脈の類似度を計算    → 意味を保持するための制約

3

Page 4: 文脈の多様性に基づく名詞換言の評価

提案手法による名詞換言の流れ

4

Page 5: 文脈の多様性に基づく名詞換言の評価

1. 換言候補の収集 「空港へのアクセスを調べる」

「空港への○○」  「○○を調べる」

コーパスを検索して○○を収集

前文脈と後文脈に共通する○○に 換言することで自然な文を出力できる 5

Page 6: 文脈の多様性に基づく名詞換言の評価

2. 換言先の選択(類似度計算)    換言対象の語と換言候補の語が多くの種類    の文脈を共有するほど換言可能性は高い

   換言候補の語が多くの種類の    文脈を持つほど換言可能性は低い sim(nt, nc) = com(nt, nc) * log(N/DF(nc))

 nt:換言対象の名詞、 nc:換言候補の名詞  com(nt, nc):ntとncが共通して用いられる文脈の種類数  N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6

1 2

1 2

Page 7: 文脈の多様性に基づく名詞換言の評価

提案手法の特徴 •  入力文脈に応じた換言が可能

•  単語の出現頻度を使わない •  換言可能な語とは多くの種類の文脈を共有する •  高頻度の単語に影響を受けない •  頻度の偏りにも影響を受けない

→ 文脈の多様性に基づく名詞換言の提案

7

Page 8: 文脈の多様性に基づく名詞換言の評価

関連研究 •  [Marton et al. 09] •  [Bhagat and Ravichandran 08]

1. コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する

2. 特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する

8

Page 9: 文脈の多様性に基づく名詞換言の評価

関連研究 •  [Marton et al. 09] •  未知語の換言により機械翻訳の精度を向上 •  文脈の語との共起頻度で特徴ベクトルを作成

•  [Bhagat and Ravichandran 08] •  大規模コーパスから換言対を獲得 •  文脈の語とのPMIで特徴ベクトルを作成

9

Page 10: 文脈の多様性に基づく名詞換言の評価

関連研究 •  [Marton et al. 09]:共起頻度 •  重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い

•  [Bhagat and Ravichandran 08]:PMI •  重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い

10

Page 11: 文脈の多様性に基づく名詞換言の評価

実験 •  Web日本語Nグラム:1,365,705件を抽出 •  名詞 + … + 名詞 + … + 動詞原形 •  このうち頻出の200件について実験 •  文頭ではない名詞が換言対象の名詞

•  京都大学格フレーム:文脈の類似度計算 •  述語:34,059語 •  名詞:824,639語 •  【荷物を積む】と【経験を積む】を区別できる

11

Page 12: 文脈の多様性に基づく名詞換言の評価

換言可能な名詞数(類似度1位)

12 0 10 20 30 40 50 60

評価者A 評価者B 評価者C

提案手法 [Marton 09] [Bhagat 08]

文脈の出現頻度に依存しない提案手法が最も優れている

Page 13: 文脈の多様性に基づく名詞換言の評価

13 0 20 40 60 80 100

評価者A 評価者B 評価者C

提案手法 [Marton 09] [Bhagat 08]

換言可能な名詞数(類似度上位10位)

10位まで見ると[Bhagat 08]が提案手法に近づいている

Page 14: 文脈の多様性に基づく名詞換言の評価

類似度と換言可能な名詞数

14

0

10

20

30

40

1位 2位 3位 4位 5位 6位 7位 8位 9位 10位

評価者A 提案手法 [Marton 09] [Bhagat 08]

0

10

20

30

40

50

60

1位 2位 3位 4位 5位 6位 7位 8位 9位 10位

評価者C 提案手法 [Marton 09] [Bhagat 08]

0

10

20

30

40

1位 2位 3位 4位 5位 6位 7位 8位 9位 10位

評価者B 提案手法 [Marton 09] [Bhagat 08]

提案手法 1位と2位の差が大きい Bhagat 08 1位と2位の差が小さい  → 提案手法の制約      「入力と同じ文脈で用い       られる名詞に換言する」

Page 15: 文脈の多様性に基づく名詞換言の評価

文脈を考慮した換言事例

•  ~万円以下の【罰金】に処する •  比較手法:懲役、科料、過料、・・・ •  提案手法:罰金刑、過料、・・・

•  腰への【負担】を軽減する •  比較手法:費用、経費、実費、・・・ •  提案手法:負荷、ストレス、ダメージ、・・・

15

Page 16: 文脈の多様性に基づく名詞換言の評価

換言できた例

入力文 出力文

オーナーの【承認】が必要になる オーナーの【許可】が必要になる

重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる

良心的な【料金】を提供する 良心的な【価格】を提供する

国内農業の【発展】を阻害する 国内農業の【成長】を阻害する

教育の【拡充】などがあげられる 教育の【強化】などがあげられる

16

Page 17: 文脈の多様性に基づく名詞換言の評価

適切な換言ができない例

入力文 換言候補

① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル

② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理

17 ①類義語を換言候補に集めることはできるが、  上位下位関係の中で適切な階層の語を選択できない

②句単位の換言が必要  【評価を受ける】→【認められる】

Page 18: 文脈の多様性に基づく名詞換言の評価

まとめ •  提案手法 •  文脈の多様性に基づく名詞の換言

•  提案手法の特徴

•  入力文脈に応じた換言 •  頻度を使用しない文脈の種類数に基づく換言

•  今後の課題 •  上位下位関係の中での語の選択 •  句単位の換言

18