26
述述述述述述述述述述述 述述述述述述述述述 述述述述述述述述述述 11/09/16 述述述述 述述述述 述述述述

述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

Embed Size (px)

DESCRIPTION

述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得. 11/09/16 京都大学 柴田知秀 黒橋禎夫. 背景. 自然言語理解のためには様々な知識が必要 述語と項の関係 ⇒ 格フレーム [ 河原 + 06] 述語項 構造 ( 事態 ) 間の 関係 共参照解析 [Bean+ 04] や照応解析 [Gerber+ 10 ] に有用 近年 、事態間関係知識 / スクリプト 知識がコーパスから獲得されて いる [Fujiki+03, Torisawa06, Abe+08, Chambers + 08,09, Kasch + 10]. 概要. - PowerPoint PPT Presentation

Citation preview

Page 1: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

述語項構造の共起情報と格フレームを用いた

事態間知識の自動獲得

11/09/16京都大学

柴田知秀 黒橋禎夫

Page 2: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

背景• 自然言語理解のためには様々な知識が必要

– 述語と項の関係 ⇒ 格フレーム [ 河原 +06]– 述語項構造 ( 事態 ) 間の関係

• 共参照解析 [Bean+ 04] や照応解析 [Gerber+ 10] に有用• 近年、事態間関係知識 / スクリプト知識が

コーパスから獲得されている– [Fujiki+03, Torisawa06, Abe+08, Chambers+ 08,09,

Kasch+ 10]

Page 3: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

概要

人が財布を拾って、警察に届ける財布を拾って、警察に届ける

上記の事態ペアは以下のような文で出現する

• 片一方の述語項構造にしか出現しない格要素を獲得することができない (PA2 の“警察に” )

• 日本語では格要素が頻繁に省略されるため、共有する格要素を獲得するのが難しい (“ 財布を” , “ 人が” )

先行研究 ( 共参照 / アンカーを利用 )

人が 財布を 拾う ⇒ 人が 財布を 警察に 届ける

関連の強い事態ペア

PA1 PA2

述語対だけでなく、関連する項とともに獲得

Page 4: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

概要

人が財布を拾って、警察に届ける財布を拾って、警察に届ける

上記の事態ペアは以下のような文で出現する

提案手法1. 述語項構造ペアの共起情報から、まず、関連の強い事

態ペアとして、“財布を 拾う” と “警察に 届ける”を獲得2. 格フレーム [Kawahara+ 06] を用いて項のアライメントを

とる

人が 財布を 拾う ⇒ 人が 財布を 警察に 届ける

関連の強い事態ペア

PA1 PA2

述語対だけでなく、関連する項とともに獲得

Page 5: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

Webコーパス

述語項構造ペアの抽出

ドライバー ガ 財布 ヲ 拾う

届ける

警察 ニ 届ける彼 ガ 財布 ヲ 拾う

財布 ヲ 拾う ⇒ 警察 ニ 届ける

述語項構造ペアの共起度計算

財布 ヲ 拾う

格フレームに基づく項のアライメント

届ける : 20

財布 , 金 , …

ニ 警察 , 交番 , …

男 , 人 , …ガ

拾う : 10

男 , 女の子 , …

財布 , 電話 , …

A1 : { 人 , 男 , …} ガA2 : { 財布 , …} ヲ ⇒拾う

PA1

A1 : { 人 , 男 , …} ガA2 : { 財布 , …} ヲA3 : { 警察 } ニ

届ける

PA2

PA1 PA2

警察 ニ 届ける

Page 6: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

関連研究 (1/2)

• スクリプト知識の自動獲得 [Chambers+ 08,09]– 共参照関係にある語を共有して構文的関係を

持つ事態ペアの獲得• police arrest - police charge

– 相互情報量の高い事態ペアを獲得

共参照解析結果に依存しているため、省略が頻繁に生じる日本語のような言語には適用しづらい

Page 7: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

関連研究 (2/2)

• 項の共有情報と統語パターンを用いた事態間関係獲得 [ 阿部 + 10]– 統語パターン ( 例 : ~したら~ ) を用いて述語対

候補を得る• 焼く ⇒ 焦げる ( 行為-効果 関係 )

– 2 種類のアンカーを用いてアンカーを満たすものを得る

• インスタンスアンカー : パンを焼く。 …パンが焦げる…。

• タイプ・アンカー : パンを焼いた時焦げる           パンが少し焦げるまで焼く事態の一方のみに出現する項を獲得することができ

ない

Page 8: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

目次1. 述語項構造ペアの抽出2. 述語項構造ペアの共起度計算3. 格フレームに基づく項のアライメント4. 実験結果

Page 9: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

述語項構造ペアの抽出• 構文解析結果から係り受け関係にある述

語項構造ペアを抽出• 抽出する格 : ガ , ヲ , ニ• 大規模単語クラス [ 風間 + 08] で項を汎化

( 単語クラス数 : 2000)– “ 財布” , “ 小銭入れ” , … → <752>

財布を拾って、警察に届けた財布を拾ったので、警察に届けた‥

PA1: 財布ヲ 拾うPA2: 警察ニ 届けるPA1: <752> ヲ 拾うPA2: 警察ニ 届ける

Page 10: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

述語項構造ペアの共起度計算• 任意の述語項構造ペアの組み合わせ数は膨大

– “ 拾う” と “届ける”– “ 財布を拾う” と “届ける”– “ 財布を拾う” と “警察に届ける”– “ 人が財布を拾う” と “警察に届ける”– …

• よく共起する述語項構造ペアをどのようにして効率的に求めるか

 ⇒ アソシエーション分析 [Agrawal+ 93]

Page 11: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

アソシエーション分析 (1/2)

• データベースから価値のあるルールを発見 [Agrawal+ 93]– 例 ) おむつを買う客はビールも買う

• 属性 :          (例 : = おむつ , …)

• トランザクションデータ• ルール :

– X が生じるときに Y も生じやすい

YX ),,( YXIYX

mIIII ...,, ,21 1I

Page 12: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

アソシエーション分析 (2/2)• 3 つの尺度を用いる

• Apriori アルゴリズム– アイテム abc の出現回数  t1

– アイテム abcd の出現回数 t2

– 設定した条件を満たすルールを高速に列挙• Supp, Conf 値の最小値を与え、 Lift 値が閾値以上のルールを採用

||

)()(

T

YXCYXSupp

)(

)(

)(

)()(

XSupp

YXSupp

XC

YXCYXConf

)(

)()(

YSupp

YXConfYXLift

= 相互情報量

t1 > t2 となる性質を利用

Page 13: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

Apriori を述語項構造ペアに適用PA1 PA2

格要素 述語 格要素 述語

財布ヲ 拾う 警察ニ 届ける

彼ガ , 財布ヲ 拾う 警察ニ 届ける

財布ヲ 拾う 届ける

拾う 警察ニ 届ける‥

財布ヲ 拾う 手渡す

財布ヲ 拾う 彼ニ 手渡す

男ガ , 財布ヲ 拾う 手渡す‥

財布ヲ 拾う ⇒ 警察ニ 届ける財布ヲ 拾う ⇒ 手渡す

Page 14: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

項のアライメント (1/2)

• Apriori で抽出されたルールでは、通常、項が欠けている

• 格フレームを使って項のアライメントをとる

財布 ヲ 拾う ⇒ 警察 ニ 届ける

届ける : 20

財布 , 金 , …

ニ 警察 , 交番 , …

男 , 人 , …ガ

拾う : 10

男 , 女の子 , …

財布 , 電話 , …

Page 15: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

項のアライメント (2/2)

• 述語項構造 1,2それぞれにおいて– 格要素があれば、それに基づき格フレームを選択

– 格要素がなければ、すべての格フレームを候補とする

• 最善な格フレームならびに項のアライメントを選ぶ 財布 ヲ 拾う ⇒ 警察 ニ 届け

届ける : 20

財布 , 金 , …

ニ 警察 , 交番 , …

男 , 人 , …ガ

拾う : 10

男 , 女の子 , …

財布 , 電話 , …

Page 16: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

実験• 設定

– 日本語 Web1億ページ (約 16億文 )– 抽出された述語項構造ペアの数 : 約 5億– Apriori アルゴリズム

• Supp 値の最小値 :• Conf 値の最小値 :

• 評価– 抽出されたルール– 項のアライメント– アンカーベースの手法との比較

7100.1 3100.1

Page 17: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

実験結果• アソシエーション分析の結果、約 2万

ルールが得られた• ランダムに 100個選んで評価

抽出されたルール

○ ☓

96 (96%) 4 (4%)

項アライメント○ ☓ ---

76 (79.1%) 20 (20.8%)

Page 18: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

抽出されたルールの例

格要素 述語 格要素 述語 評価

定員ニ 達する ⇒ 締め切る ○

大学ヲ 卒業 ⇒ 会社ニ 就職 ○

転倒 ⇒ 骨折 ○

訪ねる ⇒ 話ヲ 伺う ○

プレゼント 喜ばれる ○

結婚 子供ガ いる ○

利用ニ あたる ⇒ 登録ガ 必要だ ☓

複合辞解析誤り

Page 19: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

獲得された事態ペア (正解例 )

X: が 転倒 ⇒ X が 骨折選手 , 人 , 子供 , ライダー , 男性 , …

X: が 卒業⇒ X が 就職私 , 子供 , 娘 , 人 , …

Y:大学 , 医学部 , …

会社 , 企業 , …

X: が募集 , 申し込み , 受付 , …

定員 に 達する ⇒ X を締め切る

X: が 訪ねる⇒ X が 伺う私 , 人 , 担当者 , 女性 , …

Y:先生 , 友人 , 社長 , 人 , …

を Y に 話 を

にZ:

赤字の項は項アライメントで獲得されたものを示す

Page 20: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

獲得された事態ペア (誤り例 )

X: が プレゼント

⇒ Y が 喜ばれる人 , 女性 , 私 , …

Y: 商品 , 花 , …

を X に

X: が 結婚 ⇒ X が いる子供

Y: が 結婚 ⇒ いる私 , 人 ,女性 , …

正解 X: が子供 Y に

「子供が いる」の格フレームにニ格が集まっていない⇒  より大規模な格フレームの利用

正解 X: が

プレゼント

⇒ Y が 喜ばれる人 , 女性 , 私 , …

Y: 商品 , 花 , …

を Z にZ:彼女 , 親 , …

“ 私が花をプレゼントしたら彼女に喜ばれた”の出現や「プレゼント ⇒ 喜ぶ 」のアライメント結果の利用

Page 21: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

アンカーベースの手法との比較 (1/2)

• [chambers+ 08] と比較• 共参照解析の精度はあまり高くない

–新聞テキストで F 値は約 0.75 [Sasano+07]• ある Web ページで名詞が 2 度出現し、述

語 w と述語 v に対して構文的関係を持てばアンカーとみなす [Pekar+06, 阿部 +10]

Page 22: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

アンカーベースの手法との比較 (2/2)

• 提案手法で獲得されたルールにおいて、アライメントがとれた項における頻度上位k(=5)個の名詞を対象

• それらがアンカーベースの手法で獲得できるかを調べた

X: が 訪ねる⇒ X が 伺う私 , 人 , 担当者 , 女性 , …

Y:先生 , 友人 , 社長 , 人 , …

を Y に 話 を

アンカーベースの手法で獲得された

Page 23: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

アンカーベースの手法との比較 (3/3)

PA1 の格 PA2 の格 カバー率ガ ガ 0.163 (3768/23180)

ガ ヲ 0.282 (549/1944)

ガ ニ 0.176 (474/2689)

ヲ ガ 0.272 (753/2764)

ヲ ヲ 0.483 (7106/14713)

ヲ ニ 0.321 (1054/3284)

ニ ガ 0.163 (344/2113)

ニ ヲ 0.338 (1042/3086)

ニ ニ 0.282 (549/1944)

エージェントに相当

Page 24: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

事態間ネットワーク (1/2)

数字は lift 値を表す

1 つのノードにしか現れない項を獲得できて

いる

Page 25: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

事態間ネットワーク (2/2)

数字は lift 値を表す

Page 26: 述語項構造の共起情報と 格フレームを用いた 事態間知識の自動獲得

まとめ• 大規模コーパスからの事態間知識の自動獲

得– 述語項構造の共起情報– 格フレームによる項アライメント

• 約 20,000 事態間ペアを獲得

• 今後の課題– 事態間関係の分類 ( 時間経過、因果関係、手段

など )– 獲得した事態間知識の利用

• 省略解析 , RTE など