論文紹介:WWWからの大規模動詞含意知識の獲得

WWWからの大規模動詞含意知識の獲得

橋本力, 鳥澤健太郎, 黒田航, デサーガステイン, 村田真樹, 風間淳一. 情報処理学会論文誌, Vol.52, No.1, pp.293-‐307, 2011.

プレゼンテーション：野口真人

1

WWWからの大規模動詞含意知識の獲得

• どのような問題を解いたのか • WWWから大規模な動詞含意知識を獲得する

• どうやって解いたのか •  文書の偏りや低頻度動詞に対して頑健な方向付き分布類

似度尺度Scoreを提案 • WWW上にある日本語で書かれた 1 億文書から構築した,

日本語ウェブコーパスから獲得する(52,562 動詞)

• どのような結果を達成したか •  これまでに提案された分布類似度尺度であるLin,Precision,Bincより高精度であった(それぞれ200サンプルの人手評価)

2

含意知識

• 我々は通常,以下のようなことを常識として扱う •  「離婚する」→「結婚する」

•  「勝訴する」→「告訴する」

※(A→B : AがBを含意している)

• このような動詞ペアを大規模に獲得したい • WWW上にある日本語で書かれた 1 億文書から

構築した,日本語ウェブコーパスから獲得 • 文脈(注目する動詞の主語や目的語)から類似度

尺度を求め,含意かどうかを判定 3

一項テンプレートを用いた類似度尺度

•  Lin らが,2 つの変数からなるテンプレートを対象に,DIRT(Discovery of Inference Rules from Text)と呼ばれる言い換え知識獲得手法を提案 • その中で,一項テンプレート間の類似度を以下のよ

う提案した

(l, r : テンプレート　Fx : xに入る名詞の集合　wx( f ) : Fx内の名詞fの重み)

4

r : Yで加熱する

l : Xでソテーする Fl : フライパン, 中華鍋,･･･

Fr : フライパン, コンロ,･･･

f f

f f

※重みは相互情報量(PMI)が最適であった

テンプレート

類似度尺度に方向性を付与

• DIRTは,どちらがどちらを含意するかは示せない. • Weeds らは,Precision と Recall と名付けられた方

向性を付与した概念から構成される枠組みを提案した •  提案手法と直接比較可能な Precision は次のように定

義される(l → r の含意らしさ)

•  Szpektor らは,BInc(BalancedInclusion)という名前の方向性のある類似度計算法を提案した 5

提案手法(Score, Scorebase) • 今回開発した方向付き類似度尺度 Score は次のよ

うに定義される •  一項テンプレートは ⟨p, v⟩(p は助詞,v は動詞)

•  Scorebase は Score の根幹で,以下のようにあらわす

(l, r : テンプレート　Fx : xに入る名詞の集合　f : 共起名詞)

•  P (r|f) ･P (f|l)は最尤推定で求める 6

提案手法(Scoretrick)

•  Scorebase は低頻度動詞における問題を軽減する

•  低頻度の動詞において,共起名詞のうちの1つによって高い類似度が誤って付与されることがある(P (f|l)が高くなる)

•  類似度への貢献度が最大の名詞を無視することで,複数の名詞で安定的に高い類似度が得られるペアだけを含意ペアとみなすようにした

7

テンプレート共起名詞データベースの構築

• 動詞含意知識獲得のためには,一項テンプレート間の含意知識の獲得が必要

• そのために,テンプレート共起名詞データベースを構築する必要がある

• テンプレート共起名詞データベースは,テンプレート ⟨p, v⟩ とその共起名詞 n,⟨p, v⟩ と n の共起頻度 f から構成される三つ組 ⟨n, ⟨p, v⟩, f ⟩ の集合からなる •  頻度が α 未満のものは除外 •  助詞が「は」「が」「を」「に」「で」以外のものは除外

•  α = 20 とするとテンプレート共起名詞データベース 127,808 ･動詞の異なり数 52,562 語を得た

8

含意知識の獲得

• 動詞含意知識は以下のように獲得 1)  テンプレート共起名詞データベースから,テンプレートペ

アとその Score の値からなるリストを生成 2)  テンプレートから助詞と変数を取り去り,動詞ペアのリス

トに変換

3)  重複した動詞ペアを削除する( Score 値が最も高いものだけを残し,他をすべて削除)

4)  Score 値上位 N 位内にある動詞ペアを取得

• テンプレート単位の含意知識も獲得する •  スコア計算格テンプレートとガ格テンプレートを獲得 •  スコア計算格テンプレート：上の 1) の結果 •  ガ格計算格テンプレート：スコア計算格テンプレート内の助詞をす

べて「が」に変換したもの

9

評価実験

• 提案手法の評価として,作業者3名(いずれも著者ではない)が含意知識の正解判定を行った

• 評価指標は次の式で定義される Acculacy を用いた

•  Accuracy はさらに以下のように分かれる •  Accuracy-1:作業者1名以上が正解と判定した場合に正解 •  Accuracy-2:2名以上の正解判定で正解 •  Accuracy-3, 3名とも正解とした場合正解

10

動詞含意知識獲得の精度

•  α = 200 とした場合のテンプレート共起頻度データベース(V200)と α = 20 とした場合のテンプレート共起頻度テータベース(V20)の2種類を用いて動詞含意知識獲得を行った • 評価対象は獲得手法ごとに,スコア上位 20,000 の動詞

ペアの中からサンプリングした 200 ペア •  Lin で獲得された 200 ペアはいずれかの方向で正しい

含意ペアと判定されれば正解と見なす

11

低頻度語でも高い精度が得られる！

その他の精度

12

•  Score 全体,Scoretrick のみ,Scorebase のみの精度(V20)を表3に示す

• テンプレート単位の含意獲得の精度(V20)を表4に示す •  動詞含意知識獲得の場合と比べて 10%ほど精度が低下

した

終わりに

13

• 提案した方向付き分布類似度尺度 Score は, 大規模な動詞含意知識獲得において,これまでに提案された Lin,Precision,Binc より高精度 •  Scoretrick として実装したトリック関数は,動詞含意知

識獲得の精度を大きく向上させる •  Score はテンプレート単位の含意知識獲得にも有効

• 今後の課題 •  矛盾関係の動詞ペアがあった(例：欠場する→出場する) •  理由：本研究で使用した手法はすべて分布類似度に基づ

くものであるため

•  分布類似度の高い動詞ペアの中から含意ペアと,それ以外を区別するモデルの開発が今後の課題

Science

論文紹介:WWWからの大規模動詞含意知識の獲得