24
論文紹介:Knowledge Vault: A WebScale Approach to Probabilis;c Knowledge Fusion 発表者:M1島岡聖世 15/07/21 知識獲得研究会論文紹介 1

論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Embed Size (px)

Citation preview

Page 1: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

論文紹介:Knowledge  Vault:  A  Web-­‐Scale  Approach  to  

Probabilis;c  Knowledge  Fusion    

発表者:M1島岡聖世

15/07/21 知識獲得研究会論文紹介 1

Page 2: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

背景

•  GoogleがFreebaseのサポートを終了

•  人手による知識ベースの拡大は頭打ちに  

•  ウェブからのマイニングによる知識ベースの自動構築へ     Knowledge  Vault

15/07/21 知識獲得研究会論文紹介 2

Page 3: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Knowledge  Vault

•  WEBからの情報抽出はノイズが多い  •  そこで、異なる複数のソースから情報抽出を

行うことで統計的信頼性を高める  – テキストパターン  – DOM構造  – HTML表構造  – Freebase

Knowledge  Vault

15/07/21 知識獲得研究会論文紹介 3

Page 4: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Knowledge  Vault

貢献1:ノイズの多い情報抽出を既存の知識ベースと  組み合わせることにより信頼性を高めた  

15/07/21 知識獲得研究会論文紹介 4

Page 5: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Knowledge  Vault

およそ33%の事実はFreebaseに存在しないもの

貢献2:かつてない規模の知識ベースの構築  

15/07/21 知識獲得研究会論文紹介 5

Page 6: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Knowledge  Vault

貢献3:複数の異なる情報抽出を組み合わせることで  それぞれを単独で動かすよりも性能が上がることを実証

15/07/21 知識獲得研究会論文紹介 6

Page 7: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

概要

Knowledge  Vaultの目的

15/07/21 知識獲得研究会論文紹介 7

Page 8: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

概要

4種類のシステム

2種類のシステム

4+2=6種類のシステムを一つに統合 15/07/21 8

Page 9: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

概要

Knowledge  Vaultが用いる学習データ

・Knowledge  Vaultが抽出した160億のトリプルを  8:2に分割してそれぞれ訓練、学習データとする

・Local  Closed  World  AssumpBon:    (s,p,o)のラベルは以下のようにして定める  

 もし  (s,p,o)がFreebaseに存在するならTrue    もし  (s,p,o’),  o’  ≠  o  がFreebaseに存在するならFalse    それ以外の場合は未知として、データを除外  

15/07/21 知識獲得研究会論文紹介 9

Page 10: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Extractors •  4種類の情報抽出システム  –  Text  Documents  (TXT)  – HTML  Trees  (DOM)  – HTML  Tables  (TBL)  – Human  Annotated  pages  (ANO)  

•  情報抽出器の出力  – トリプル  (s,p,o)    – スコア  

•  各述語ごとに独立した抽出機を学習する  –  4469個の2値分類器をMapReduceで学習    

15/07/21 知識獲得研究会論文紹介 10

Page 11: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Text  Documents  (TXT)

•  Distant  Supervisionを用いて、2エンティティの現れる文から組成を取り出し、ラベルを付与  

•  Freebaseのトリプルをシードとしてブートストラッピングを行い、述語pを表すテキストを大量に集め、それを教師データとして学習する。  

15/07/21 知識獲得研究会論文紹介 11

Page 12: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

HTML  Trees  (DOM)

•  Text  Documentsと同じように学習する  •  ただし、素性としてテキストではなくHTMLのDOMの経路を利用する

15/07/21 知識獲得研究会論文紹介 12

Page 13: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

HTML  tables  (TBL)

15/07/21 知識獲得研究会論文紹介 13

Page 14: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Human  Annotated  pages  (ANO)

15/07/21 知識獲得研究会論文紹介 14

Page 15: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Graph-­‐based  priors

•  Freebaseを情報抽出の事前知識として利用  •  2種類の事前知識のモデル  – Path  ranking  algorithm  (PRA)  – Neural  network  model  (MLP)  

•  モデルの出力  – トリプルがTrueであるスコア

15/07/21 知識獲得研究会論文紹介 15

Page 16: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Path  ranking  algorithm  (PRA)

•  Freebaseのグラフを予測したい述語以外の経路を通ってランダムウォークして、主語から目的語にたどり着けるかどうかにより経路を評価する  – 大学に行ったかどうかを予測する経路:

15/07/21 知識獲得研究会論文紹介 16

Page 17: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Neural network model (MLP)

エンベディングの  Nearest  Neighbors: 15/07/21 知識獲得研究会論文紹介 17

Page 18: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

Knowledge  fusion

•  複数のモデルを組み合わせることで性能を上げる  

•  入力:10次元ベクトル  – 4つの情報抽出システムの抽出数と平均スコア  – 2つの事前知識モデルのスコア  

•  出力  – トリプルが真である確率  

15/07/21 知識獲得研究会論文紹介 18

Page 19: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

結果の評価

•  各情報抽出システムの性能を調べる

・DOMが抽出量の大部分を占めている  ・4つを組み合わせたシステムの性能が良い

AUC:ランダムに選んだ正例がランダムに選んだ負例よりも高スコアである確率 15/07/21 知識獲得研究会論文紹介 19

Page 20: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

結果の評価

•  システムを組み合わせると性能は上がるか

上がる! 15/07/21 20

Page 21: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

結果の評価

•  文書数を大きくすると性能は上がるか

上がる! 15/07/21 21

Page 22: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

結果の評価

15/07/21 知識獲得研究会論文紹介 22

Page 23: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

結果の評価

15/07/21 知識獲得研究会論文紹介 23

Page 24: 論文紹介 Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion

結果の評価

15/07/21 知識獲得研究会論文紹介 24