Information extraction 1

Session 30: Information Extraction

担当：塚原裕史（デンソーアイティーラボラトリ）

【WWW2012勉強会】

Session 30: Information Extraction 担当：塚原裕史（デンソーＩＴラボラトリ）

論文リスト

2

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions", Kavita Ganesan, ChengXiang Zhai, Evelyne Viegas 要旨 :

人が読んで分かる要約文生成タグ付けや教師データを必要としない

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce", Ke Zhai, Jordan Boyd-Graber, Nima Asadi, Mohamad Alkhouja 要旨 :

MapReduce形式による変分ベイズ法を用いた LDA計算法 Callapsed Gibbs Samplingよりもスケールアウトできる


Paper 1

モチベーションブログやニュース記事として、多くの評判情報が集まっており、これらの評判を文章として段階的に要約し、内容を理解できるようにしたい。

“micropinion” と呼ぶ

これまでの評判情報要約では、元の文章とは異なる構造化された簡潔な情報に変換されていたので、上記のようなことができなかった：

単純な極性判別：　“ positive” or “negative” カテゴリごとの評価値 :　 buttery life: 1 star, screen: 3.5 star etc. Key words or phrases extraction：　 buttery, life, screen, short, clear, etc.

3

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions", 　Kavita Ganesan et. al.


Paper 1

Micropinion の事例 ( 制約： less than 10 words)

MP3 Player Y: (8 words) Very short battery life. Big and clear screen.

Restaurant X: (9 words) Good service. Delicious soup dishes. Very noisy at nights.

ポイント可読な文への要約最大単語数を設定可能

4



Paper 1

方法フレーズの代表性と可読性の指標を設計し、それらの和を最大化するフレーズ（単語の組合せ）の組みを検索する。（最適化問題）

代表性フレーズ内の各単語のローカル相互情報量の平均値

ローカル相互情報量：　コンテキストウインドウ内での補正相互情報量の平均値

補正相互情報量：　コンテキストウインドウ内で共起し易い単語間で値が大きくなるように、ヒューリスティックな補正を入れたもの。通常の相互情報量では、頻出しない単語間で値が大きくなり、代表性という観点では問題がある。

可読性 N-gram言語モデルによる対数尤度の平均値

Microsoft の trigram 言語モデル使用5



Paper 1

最適化手順１．シードとなるバイグラム生成２． Nグラム候補生成３．候補 Nグラムから候補フレーズ生成４． Depth-first search による Micropinion 決定

6


1w 2w 4w3w 5w 6w 7w 8w

1w 2w 4w 5w 6w 8w

1w 2w 4w 8w

フレーズ

シードバイグラム

候補Ｎグラム

スコア( ) ( )mSmS readrep +

m


Paper 1

評価データセット

CNETにおける製品レビューデータ定量的評価指標

ROUGE

定性的評価指標 Gramaticality Non-redundancy Informativeness

ベースライン (従来手法 ) TF-IDFベース KEA Opinosis

7



Paper 1

結論主要な提案：

代表性と可読性に基づく最適化問題による定式化上記最適化問題の高速な近似解探索手法を提案

主要な性質：従来手法にくらべて、可読性の高い要約文を生成できる

モデル的に有利な点：教師なし学習　→　低コスト計算量が小さい　→　高速形態素解析や構文解析不要　→　多言語への拡張性

8



Paper 2

モチベーション LDA の計算手法として Collapsed Gibbs Sampling が良く使われている

実装が簡単 Collapsed Gibbs Samplingは、並列化してもパフォーマンスが出ない

ノード全体で共有する状態があるため（実際には定期的に同期を取りながら計算）明確な収束判定基準がない

Collapsed Gibbs Sampling での計算 (#topics in a document) * (#words in a topic across all documents)

9

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce", 　Ke Zhai et. al.

この部分で同期が必要となり並列化の効率に影響


方法変分ベイズ法による LDA 計算を MapReduce の形式へ並列化

変分ベイズ法における反復更新処理

Paper 2

10


[ ] ( )kkv

eE kvqd γβφ Ψ∝ ,)(

,

∑=

+=V

v

dkkd kv

1

)(, ,

φαγ

( )∑=

+=C

d

dkv

dvkvkv w

1

)(.

)(,, φηλ

文書ごとの処理

文書全体での処理

Map

Reduce

( ) ( )oldoldoldnew gH αααα 1−−= モデル全体の制御 Driver


MapReduceでの処理の流れ

Paper 2

11


( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

{ }( ) ( )11 1

,,,)(

, ,,,

+= =

Ψ−Ψ→ ∑ ∑

t

C

d

K

kkdkdkvt

dkv kv

γγλφη

d

( ) ( )1,, ,,

+→

tkvktkvk λαλα

( ) ( ) 1+→ tktk αα

d

d

d

文書

Mapper

Reducer

Driver

partitioner

Test Convergence(Likelihood Computation)

Hyperparameters

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

{ }( ) ( )11 1

,,,)(

, ,,,

+= =

Ψ−Ψ→ ∑ ∑

t

C

d

K

kkdkdkvt

dkv kv

γγλφη

{ }( ) ( )11 1

,,,)(

, ,,,

+= =

Ψ−Ψ→ ∑ ∑

t

C

d

K

kkdkdkvt

dkv kv

γγλφη


Paper 2

結論従来実装 (Mahout)に比べて、処理速度・事後分布の近似精度の両面で、非常に良く改善されている。

Remark Collapsed Gibbs Sampling の並列化に関しては Mallet というライブラリがあるが、それとの比較がないので、変分ベイズ法の方が本当に良いと言って良いのか、実際にどれくらいの差があるのか気になる。

12


学習時間

事後分布への下限

（論文から引用）

( ) ( )( )[ ] ( )[ ]ZqEZpZDpEL qq loglog −Θ=

変分ベイズでは、この量を最大化する

Documents

Information extraction 1