15
Modeling Truth Existence in Truth Discovery KDD2015読み会 2015/8/29 奈良先端大 知能コミュニケーション研究室 D1 品川 政太朗 2015Seitaro Shinagawa AHC-lab NAIST 2015/8/29 twitter : @sei_shinagawa slideshare : http://www.slideshare.net/ShinagawaSeitaro 1/15

150829 kdd2015読み会

Embed Size (px)

Citation preview

Page 1: 150829 kdd2015読み会

Modeling Truth Existence in Truth Discovery

KDD2015読み会2015/8/29

奈良先端大 知能コミュニケーション研究室

D1 品川 政太朗

2015ⒸSeitaro Shinagawa AHC-lab NAIST2015/8/29

twitter : @sei_shinagawa

slideshare : http://www.slideshare.net/ShinagawaSeitaro

1/15

Page 2: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

Truth Discoveryとは?

複数のソース(知識ベース)から得られる情報の中で質問に対して正解となる答えを見つける問題

知識ベースA

知識ベースB

知識ベースZ

・・・晴れ

曇り

昨日の天気は?

どれが正解なんだ・・・

2/15

Page 3: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

Truth Discoveryを解くには?

ナイーブな方法・・・多数決×ソースごとに専門分野が違うので多数派の応答が正解とは限らない

先行研究の方法・・・source quality を考慮[5,11,19]

○信頼度の高いソースの応答はおそらく正解×正解の無い質問にうまく対応できない(後述)

本論文の貢献・・・no-truth questionを考慮○質問を、手持ちのソースの中に正解がある場合(has-truth)とない場合(no-truth)に分ける

3/15

Page 4: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

Slot Filling Task でみるno-truth questionの必要性

𝑞1~𝑞4 : has-truth question

𝑞5~𝑞8 : no-truth question

ちなみに、質問自体に正解がありえない場合もno-truthとして扱う(𝑞8のStuartさんはまだ生きてる)

4/15

Page 5: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

Slot Filling Task でみるno-truth questionの必要性

𝑞1~𝑞8 :質問𝑠1~𝑠13 : ソース

従来の方法1.MajVot

空欄は除外し多数決同数の場合はランダム×正解が無くても応答を返してしまう(Low Accuracy)

2.MajVotEmp

空欄も応答の1つとして多数決×空欄が多数派の場合MajVotで正解だったものがEmptyになる(Low Coverage)

5/15

Page 6: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

提案手法 – TEM (Truth Existence Model)

source qualityを3つの指標で定義しなおしたsilent rate, false spoken rate, true spoken rate

ディリクレ分布を用いたグラフィカルモデルにEMアルゴリズム ソースとその応答からsource qualityと真の正解𝑡を推定する 仮定を導入してパラメータを削減

has-truthとno-truthでそれぞれ定義されるfalse spoken rateは常に同値とする

真の正解tの確率分布の初期化を工夫

𝑡 : 真の正解(隠れ変数)𝐴 : ソース𝑠の応答𝜙 : source quality(EMアルゴリズムのパラメータ)

𝜂 : 真の正解𝑡の確率分布(初期化手法は後述)𝛼 : source qualityの事前分布(ディリクレ分布)

6/15

Page 7: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

Source Quality Measures

𝑎𝑖 : 質問𝑞𝑖に対してソース全体が合意して決めた応答𝑑𝑖 :質問𝑞𝑖に対するソース全体の応答候補(正確には𝑑𝑖𝑛,n = 1,2,⋯ ,𝑁𝑖)𝑡𝑖 : 真の正解𝐸 : empty

has-truth question no-truth question

Silent Rate (SR)

𝑆𝑅 =𝐹𝐸

𝐹𝐸 + 𝐹𝑁𝐸1 + 𝑇𝑁𝐸

False Spoken Rate(FR)

𝐹𝑅 =𝐹𝑁𝐸1

𝐹𝐸 + 𝐹𝑁𝐸1 + 𝑇𝑁𝐸

True Spoken Rate(TR)

𝑇𝑅 =𝑇𝑁𝐸

𝐹𝐸 + 𝐹𝑁𝐸1 + 𝑇𝑁𝐸

7/15

Page 8: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

仮定を導入してパラメータを削減

no-truthへのfalse spoken rate

𝐹𝑅′ =𝐹𝑁𝐸2

𝐹𝑁𝐸2 + 𝑇𝐸= 𝐹𝑅 とおく

Source Quality Measures の再定義

Silent Rate (SR)

𝑆𝑅 =𝐹𝐸

𝐹𝐸 + 𝑇𝑁𝐸(1 − 𝐹𝑅)

False Spoken Rate(FR)

𝐹𝑅 =𝐹𝑁𝐸

𝐹𝐸 + 𝐹𝑁𝐸 + 𝑇𝑁𝐸 + 𝑇𝐸

True Spoken Rate(TR)

𝑇𝑅 =𝑇𝑁𝐸

𝐹𝐸 + 𝑇𝑁𝐸(1 − 𝐹𝑅)

8/15

Page 9: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

EXISTENCEによる𝜼の初期値設定

UNIFORM : 一様分布VOTE : 候補分の数だけ重み付けEXISTENCE : 候補の中に正解が存在する確率p

を定義して推定する

𝑞2に対する𝜂2の設定

9/15

Page 10: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

TEMのEMアルゴリズムによるパラメータ推定

真の正解𝑡がどの値をとるかの確率分布を初期化

source quality 𝝓固定の下で𝑡がどの値をとると尤度が最大となるか計算

𝑡固定の下で尤度を最大化する𝝓を計算

最終的に𝒯,𝝓𝑠が定まる

10/15

Page 11: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

実験用データセット

名前 Source Question Answer

has-truth no-truth non-

empty

empty

SF2013 18 329

/774

445

/774

3,913

/8,504

4,591

/8,504

SF2014 18 160

/406

246

/406

1,268

/2,858

1,590

/2,858

Flight 38 15,714

/17,310

1,596

/17,310

341,732

/657,780

316,048

/657,780

SF2013,SF2014 : TAC Knowledge Base Population slot filling validation track

Flight : 航空会社のフライトの発着などに関する質問応答データセット

11/15

Page 12: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

実験結果

F値では提案手法のTEMが全てのデータセットで他の手法を上回った

has-truthをランダムに抜いてno-truthの割合を増加させると、TEMはno-truthに対して頑健であることがみてとれる

12/15

Page 13: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

各ソースに対するsource qualityの評価

SFV2013_12

false spoken rate が高く、他が低い⇒応答に積極的だが間違いが多い SFV2013_14

false spoken rate が低く、true

spoken rate が高い⇒非常に信頼のおけるソース

EXISTENCEの効果の検証 推定はhas-truthのみに絞る他のベースラインには最初にEXISTENCEを適用した後それぞれの推定を行った

多くのベースラインのF値が上昇⇒EXISTENCEの効果は大きい FlightについてはF値が下がった⇒少ないno-truthを考慮しようとしたため

13/15

Page 14: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

FR=FR’の仮定の妥当性について

SFV2013について各ソースごとhas-truthとno-truthのfalse spoken rate比較

MRSEは0.089論文では問題ない程度だと言っているが、どうなのだろうか?

両者を分けるとF値が下がる※precisionは上がるがrecallがすごく下がる⇒パラメータサイズの影響?

この実験については両者を分けない方がF値が良いので仮定は妥当

14/15

Page 15: 150829 kdd2015読み会

2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST

まとめ

TEMはno-truth questionが多く含まれるslot filling taskに効果を発揮する

おそらく、source qualityを3つに増やしたのが大きいのでは 真の正解𝑡の事前分布を工夫するEXISTENCEはno-truth

questionが多く含まれるslot filling taskに効果を発揮する。しかも他の手法にも適用し、性能を向上可能

false spoken rateがhas-truthとno-truthで同値という仮定はうまく効いていた。ただ、データによるのではという印象もある

説明を省いた部分

TEMのモデルの詳細(数式) 真の正解𝑡の事前分布の比較実験結果 各モデルの収束の速さについての結果

15/15