17
文脈の多様性に基づく 名詞換言の提案 長岡技術科学大学 梶原智之 山本和英

文脈の多様性に基づく名詞換言の提案

Embed Size (px)

Citation preview

文脈の多様性に基づく 名詞換言の提案

長岡技術科学大学 梶原智之 山本和英

背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない

→ 既存の換言知識に頼らず   大規模コーパスを用いて換言を生成

2

提案手法 コーパスを用いた名詞換言

 分布仮説[Harris 54]

似た意味の語は似た文脈で用いられる 1.  入力文と同じ文脈で用いられる名詞を抽出   → 自然な文を出力するための制約

2.  抽出した各換言候補語と文脈の類似度を計算    → 意味を保持するための制約

3

提案手法による名詞換言の流れ

4

1. 換言候補の収集 「空港へのアクセスを調べる」

「空港への○○」  「○○を調べる」

コーパスを検索して○○を収集

前文脈と後文脈に共通する○○に 換言することで自然な文を出力できる 5

2. 換言先の選択(類似度計算)    換言対象の語と換言候補の語が多くの種類    の文脈を共有するほど換言可能性は高い

   換言候補の語が多くの種類の    文脈を持つほど換言可能性は低い sim(nt, nc) = com(nt, nc) * log(N/DF(nc))

 nt:換言対象の名詞、 nc:換言候補の名詞  com(nt, nc):ntとncが共通して用いられる文脈の種類数  N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6

1 2

1 2

提案手法の特徴 •  入力文脈に応じた換言が可能

•  単語の出現頻度を使わない •  換言可能な語とは多くの種類の文脈を共有する •  高頻度の単語に影響を受けない •  頻度の偏りにも影響を受けない

→ 文脈の多様性に基づく名詞換言の提案

7

関連研究 •  [Marton et al. 09] •  [Bhagat and Ravichandran 08]

1. コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する

2. 特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する

8

関連研究 •  [Marton et al. 09] •  未知語の換言により機械翻訳の精度を向上 •  文脈の語との共起頻度で特徴ベクトルを作成

•  [Bhagat and Ravichandran 08] •  大規模コーパスから換言対を獲得 •  文脈の語とのPMIで特徴ベクトルを作成

9

関連研究 •  [Marton et al. 09]:共起頻度 •  重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い

•  [Bhagat and Ravichandran 08]:PMI •  重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い

10

実験 •  Web日本語Nグラム:1,365,705件を抽出 •  名詞 + … + 名詞 + … + 動詞原形 •  このうち頻出の200件について実験 •  文頭ではない名詞が換言対象の名詞

•  京都大学格フレーム:文脈の類似度計算 •  述語:34,059語 •  名詞:824,639語 •  【荷物を積む】と【経験を積む】を区別できる

11

評価

12

類似度1位の名詞が換言可能 20%

類似度2位から10位までの名詞が換言可能 21%

同じ文脈で用いられる名詞がない 28%

類似度10位までに換言可能な名詞がない 31%

200文の換言結果

換言できた例

入力文 出力文

オーナーの【承認】が必要になる オーナーの【許可】が必要になる

重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる

良心的な【料金】を提供する 良心的な【価格】を提供する

国内農業の【発展】を阻害する 国内農業の【成長】を阻害する

教育の【拡充】などがあげられる 教育の【強化】などがあげられる

13

同じ文脈の名詞がない例

14

•  「畜産加工等の【案件】がある」 •  文脈に依存する共起の種類が少ない語 •  前文脈に依存する例が多い

•  「更新日順表示に【並び】かえる」 •  複合語の一部は換言できない

適切な換言ができない例

入力文 換言候補

① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル

② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理

15 ①類義語を換言候補に集めることはできるが、  上位下位関係の中で適切な階層の語を選択できない

②句単位の換言が必要  【評価を受ける】→【認められる】

まとめ •  本研究の目的 •  文脈の多様性に基づく名詞の換言手法の提案

•  提案手法の特徴

•  入力文脈に応じた換言 •  頻度を使用しない文脈の種類数に基づく換言

•  今後の課題 •  上位下位関係の中での語の選択 •  句単位の換言

16

予告 JSAI2014@愛媛 3I4:自然言語処理におけるコーパス・辞書生成

「文脈の多様性に基づく名詞換言の評価」

17  入力文脈を考慮した制約の有効性

 頻度を使わない手法の有効性 1 2