23
. . . . . . . . Unsupervised Graph-based Topic Labelling using DBpedia Authors: Ioana Hulpus, Conor Hayes, Derek Greene SEXI/WSDM2013 読み会 @Quasi-quant2010 Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 1 / 21

Unsupervised Graph-based Topic Labelling using DBpedia

Embed Size (px)

DESCRIPTION

SEXI/WSDM2013 読み会にて発表した内容 beamerは筑波大学を拝借

Citation preview

Page 1: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

.

......

Unsupervised Graph-based Topic Labelling usingDBpedia

Authors: Ioana Hulpus, Conor Hayes, Derek GreeneSEXI/WSDM2013読み会

@Quasi-quant2010

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 1 / 21

Page 2: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

Outline

.. Content

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 2 / 21

Page 3: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

Abstruct 動機

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 3 / 21

Page 4: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

Abstruct 動機

...1 文書からラベル抽出をする LDAモデル等には現実的でない仮定正しいラベルは必ずしも文書に存在するとは限らない

正しいラベルを判定できるほどコーパスが十分とは限らない

...2 これらの問題を外部情報を付加する事で解決したい

...3 著者が 2012に発表した Eigen-WSDと DBpedia(外部情報)の組み合わせモデルと、確率モデルとの比較実験を行った

Q. Mei, X. Shen, and C. Zhai. Automatic labeling of multinomialtopic models. In SIGKDD ’07, pages 490-499, 2007

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 4 / 21

Page 5: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

Abstruct 主要結果

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 5 / 21

Page 6: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

Abstruct 主要結果

...1 ラベルが持つ意味の包括範囲がベースラインモデルより向上

...2 ラベルの正確性がベースラインモデルより向上

Figure : 1,縦軸:Precision, Coverage,横軸 top-k. Precision is the relevance fora topic at top-k. Coverage is the topics with at least one Hit at rank

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 6 / 21

Page 7: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

分析の流れ フレームワーク

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 7 / 21

Page 8: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

分析の流れ フレームワーク

.. The Canopy Framework : Four main components

...1 トピック抽出コーパスに LDAを適用しトピックを抽出

...2 the word-sense disambiguation (WSD)The WSD determines a set Cθ of DBpedia concepts, where eachC ∈ Cθ represents the identified sense of one of the top-k words ofa topic.

...3 グラフ抽出a good candidate set by extracting a topic graph G from DBpediaconsisting of the close neighbours of concepts Ci and the linksbetween themwe investigate how to define the relation r(Cθ,C∗)

...4 抽出したグラフへのラべリングWe adopt principles from social network analysis to identify in G themost prominent concepts for labelling a topic θ

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 8 / 21

Page 9: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

分析の流れ 実行例

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 9 / 21

Page 10: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

分析の流れ 実行例

..

Unsupervised Graph-based Topic Labelling usingDBpedia

Figure : 2Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 10 / 21

Page 11: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

分析の流れ 定式化

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 11 / 21

Page 12: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

分析の流れ 定式化

Let Cθ be a set of n DBpedia concepts Ci , i = 1,...n, thatcorrespond to a subset of the top-k words representing one topicThe problem is to identify the concept C∗ from all availableconcepts in DBpedia, such that the relation r(Cθ,C∗) is done byCentrality

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 12 / 21

Page 13: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

DBpedia からのグラフ作成 Sense Graph Connectivity within a Topic Graph

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 13 / 21

Page 14: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

DBpedia からのグラフ作成 Sense Graph Connectivity within a Topic Graph

.. 計測法

PairConnectivityCθ=

∑Ci∈Cθ,Cj∈Cθ IndicatorFunct(Vi ∩ Vj ̸= 0)

|Cθ|(Cθ − 1)

111トピックによる検証では、PairConnectivityの基本統計量が以下のようになった;

...1 NonRandom平均 0.46標準偏差 0.07

...2 RandomShuffle平均 0.07標準偏差 0.02.

従って、DBpediaを用いた Eigen-WSDにより得られたトピックグラフ内の意味グラフは互いに共通する偶然でない要素がある

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 14 / 21

Page 15: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

DBpedia からのグラフ作成 ラべリング

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 15 / 21

Page 16: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

DBpedia からのグラフ作成 ラべリング

.. 中心性

...1 一般的:最短経路のみ考慮Closeness centralityBetweenness centrality

...2 最短経路でなく、ネットワークの接続全接続可能性を考慮Information centralityRandom walk betweenness centrality

...3 筆者が採用した方法Focused Closeness Centrality(fCC)Focused Information Centrality(fIC)Focused Betweenness Centrality(fBC)Focused Random Walk Betweenness Centrality(fRWB)

The above measures fCC; fIC; fBC and fRWB are the ones thatwe experimented with for defining the target function r, whichquantifies the strength of the relation between each candidateconcept and all other concepts in the topic graph G

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 16 / 21

Page 17: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 データ

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 17 / 21

Page 18: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 データ

British AcademicWritten English Corpus

BBC corpus

StackExchange dataset

ただし、ストップ URLによりデータ圧縮

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 18 / 21

Page 19: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 評価方法

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 19 / 21

Page 20: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 評価方法

モニターユーザーに ”Good Fit”, ”Too Broad”, ”Related but not a goodlabel”, ”Unrelated”というラベルをつけさせ、評価には以下の 2つのクラスに分類したデータを使用;

...1 Good FitGood Fit

...2 Good-Fit-or-BroaderGood FitToo Broad

Precision(k) =Hits with rank ≤ k

k

Coverage(k) =topics with at least one Hit at rank ≤ k

topics

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 20 / 21

Page 21: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 結果

.. Outline

...1 Abstruct動機

主要結果

...2 分析の流れ

フレームワーク

実行例

定式化

...3 DBpediaからのグラフ作成Sense Graph Connectivity within a Topic Graphラべリング

...4 実験

データ

評価方法

結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 21 / 21

Page 22: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 21 / 21

Page 23: Unsupervised Graph-based Topic Labelling using DBpedia

. . . . . .

実験 結果

Unsupervised Graph-based Topic Labelling using DBpedia June 30, 2013 21 / 21