Upload
shinagawa-seitaro
View
635
Download
0
Embed Size (px)
Citation preview
Modeling Truth Existence in Truth Discovery
KDD2015読み会2015/8/29
奈良先端大 知能コミュニケーション研究室
D1 品川 政太朗
2015ⒸSeitaro Shinagawa AHC-lab NAIST2015/8/29
twitter : @sei_shinagawa
slideshare : http://www.slideshare.net/ShinagawaSeitaro
1/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
Truth Discoveryとは?
複数のソース(知識ベース)から得られる情報の中で質問に対して正解となる答えを見つける問題
知識ベースA
知識ベースB
知識ベースZ
・・・晴れ
曇り
雨
昨日の天気は?
どれが正解なんだ・・・
2/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
Truth Discoveryを解くには?
ナイーブな方法・・・多数決×ソースごとに専門分野が違うので多数派の応答が正解とは限らない
先行研究の方法・・・source quality を考慮[5,11,19]
○信頼度の高いソースの応答はおそらく正解×正解の無い質問にうまく対応できない(後述)
本論文の貢献・・・no-truth questionを考慮○質問を、手持ちのソースの中に正解がある場合(has-truth)とない場合(no-truth)に分ける
3/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
Slot Filling Task でみるno-truth questionの必要性
𝑞1~𝑞4 : has-truth question
𝑞5~𝑞8 : no-truth question
ちなみに、質問自体に正解がありえない場合もno-truthとして扱う(𝑞8のStuartさんはまだ生きてる)
4/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
Slot Filling Task でみるno-truth questionの必要性
𝑞1~𝑞8 :質問𝑠1~𝑠13 : ソース
従来の方法1.MajVot
空欄は除外し多数決同数の場合はランダム×正解が無くても応答を返してしまう(Low Accuracy)
2.MajVotEmp
空欄も応答の1つとして多数決×空欄が多数派の場合MajVotで正解だったものがEmptyになる(Low Coverage)
5/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
提案手法 – TEM (Truth Existence Model)
source qualityを3つの指標で定義しなおしたsilent rate, false spoken rate, true spoken rate
ディリクレ分布を用いたグラフィカルモデルにEMアルゴリズム ソースとその応答からsource qualityと真の正解𝑡を推定する 仮定を導入してパラメータを削減
has-truthとno-truthでそれぞれ定義されるfalse spoken rateは常に同値とする
真の正解tの確率分布の初期化を工夫
𝑡 : 真の正解(隠れ変数)𝐴 : ソース𝑠の応答𝜙 : source quality(EMアルゴリズムのパラメータ)
𝜂 : 真の正解𝑡の確率分布(初期化手法は後述)𝛼 : source qualityの事前分布(ディリクレ分布)
6/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
Source Quality Measures
𝑎𝑖 : 質問𝑞𝑖に対してソース全体が合意して決めた応答𝑑𝑖 :質問𝑞𝑖に対するソース全体の応答候補(正確には𝑑𝑖𝑛,n = 1,2,⋯ ,𝑁𝑖)𝑡𝑖 : 真の正解𝐸 : empty
has-truth question no-truth question
Silent Rate (SR)
𝑆𝑅 =𝐹𝐸
𝐹𝐸 + 𝐹𝑁𝐸1 + 𝑇𝑁𝐸
False Spoken Rate(FR)
𝐹𝑅 =𝐹𝑁𝐸1
𝐹𝐸 + 𝐹𝑁𝐸1 + 𝑇𝑁𝐸
True Spoken Rate(TR)
𝑇𝑅 =𝑇𝑁𝐸
𝐹𝐸 + 𝐹𝑁𝐸1 + 𝑇𝑁𝐸
7/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
仮定を導入してパラメータを削減
no-truthへのfalse spoken rate
𝐹𝑅′ =𝐹𝑁𝐸2
𝐹𝑁𝐸2 + 𝑇𝐸= 𝐹𝑅 とおく
Source Quality Measures の再定義
Silent Rate (SR)
𝑆𝑅 =𝐹𝐸
𝐹𝐸 + 𝑇𝑁𝐸(1 − 𝐹𝑅)
False Spoken Rate(FR)
𝐹𝑅 =𝐹𝑁𝐸
𝐹𝐸 + 𝐹𝑁𝐸 + 𝑇𝑁𝐸 + 𝑇𝐸
True Spoken Rate(TR)
𝑇𝑅 =𝑇𝑁𝐸
𝐹𝐸 + 𝑇𝑁𝐸(1 − 𝐹𝑅)
8/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
EXISTENCEによる𝜼の初期値設定
UNIFORM : 一様分布VOTE : 候補分の数だけ重み付けEXISTENCE : 候補の中に正解が存在する確率p
を定義して推定する
𝑞2に対する𝜂2の設定
9/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
TEMのEMアルゴリズムによるパラメータ推定
真の正解𝑡がどの値をとるかの確率分布を初期化
source quality 𝝓固定の下で𝑡がどの値をとると尤度が最大となるか計算
𝑡固定の下で尤度を最大化する𝝓を計算
最終的に𝒯,𝝓𝑠が定まる
10/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
実験用データセット
名前 Source Question Answer
has-truth no-truth non-
empty
empty
SF2013 18 329
/774
445
/774
3,913
/8,504
4,591
/8,504
SF2014 18 160
/406
246
/406
1,268
/2,858
1,590
/2,858
Flight 38 15,714
/17,310
1,596
/17,310
341,732
/657,780
316,048
/657,780
SF2013,SF2014 : TAC Knowledge Base Population slot filling validation track
Flight : 航空会社のフライトの発着などに関する質問応答データセット
11/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
実験結果
F値では提案手法のTEMが全てのデータセットで他の手法を上回った
has-truthをランダムに抜いてno-truthの割合を増加させると、TEMはno-truthに対して頑健であることがみてとれる
12/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
各ソースに対するsource qualityの評価
SFV2013_12
false spoken rate が高く、他が低い⇒応答に積極的だが間違いが多い SFV2013_14
false spoken rate が低く、true
spoken rate が高い⇒非常に信頼のおけるソース
EXISTENCEの効果の検証 推定はhas-truthのみに絞る他のベースラインには最初にEXISTENCEを適用した後それぞれの推定を行った
多くのベースラインのF値が上昇⇒EXISTENCEの効果は大きい FlightについてはF値が下がった⇒少ないno-truthを考慮しようとしたため
13/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
FR=FR’の仮定の妥当性について
SFV2013について各ソースごとhas-truthとno-truthのfalse spoken rate比較
MRSEは0.089論文では問題ない程度だと言っているが、どうなのだろうか?
両者を分けるとF値が下がる※precisionは上がるがrecallがすごく下がる⇒パラメータサイズの影響?
この実験については両者を分けない方がF値が良いので仮定は妥当
14/15
2015/8/29 2015ⒸSeitaro Shinagawa AHC-lab NAIST
まとめ
TEMはno-truth questionが多く含まれるslot filling taskに効果を発揮する
おそらく、source qualityを3つに増やしたのが大きいのでは 真の正解𝑡の事前分布を工夫するEXISTENCEはno-truth
questionが多く含まれるslot filling taskに効果を発揮する。しかも他の手法にも適用し、性能を向上可能
false spoken rateがhas-truthとno-truthで同値という仮定はうまく効いていた。ただ、データによるのではという印象もある
説明を省いた部分
TEMのモデルの詳細(数式) 真の正解𝑡の事前分布の比較実験結果 各モデルの収束の速さについての結果
15/15