12
Session 30: Information Extraction 担当: 塚原裕史(デンソーアイティーラボラトリ) WWW2012 勉強会】

Information extraction 1

Embed Size (px)

Citation preview

Page 1: Information extraction 1

Session 30: Information Extraction

担当: 塚原裕史(デンソーアイティーラボラトリ)

【WWW2012勉強会】

Page 2: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

論文リスト

2

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions", Kavita Ganesan, ChengXiang Zhai, Evelyne Viegas 要旨 :

人が読んで分かる要約文生成 タグ付けや教師データを必要としない

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce", Ke Zhai, Jordan Boyd-Graber, Nima Asadi, Mohamad Alkhouja 要旨 :

MapReduce形式による変分ベイズ法を用いた LDA計算法 Callapsed Gibbs Samplingよりもスケールアウトできる

Page 3: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 1

モチベーション ブログやニュース記事として、多くの評判情報が集まっており、これらの評判を文章として段階的に要約し、内容を理解できるようにしたい。

“micropinion” と呼ぶ

これまでの評判情報要約では、元の文章とは異なる構造化された簡潔な情報に変換されていたので、上記のようなことができなかった:

単純な極性判別: “ positive” or “negative” カテゴリごとの評価値 :  buttery life: 1 star, screen: 3.5 star etc. Key words or phrases extraction:  buttery, life, screen, short, clear, etc.

3

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",  Kavita Ganesan et. al.

Page 4: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 1

Micropinion の事例 ( 制約: less than 10 words)

MP3 Player Y: (8 words) Very short battery life. Big and clear screen.

Restaurant X: (9 words) Good service. Delicious soup dishes. Very noisy at nights.

ポイント 可読な文への要約 最大単語数を設定可能

4

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",  Kavita Ganesan et. al.

Page 5: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 1

方法 フレーズの代表性と可読性の指標を設計し、それらの和を最大化するフレーズ(単語の組合せ)の組みを検索する。(最適化問題)

代表性 フレーズ内の各単語のローカル相互情報量の平均値

ローカル相互情報量: コンテキストウインドウ内での補正相互情報量の平均値

補正相互情報量: コンテキストウインドウ内で共起し易い単語間で値が大きくなるように、ヒューリスティックな補正を入れたもの。 通常の相互情報量では、頻出しない単語間で値が大きくなり、代表性という観点では問題がある。

可読性 N-gram言語モデルによる対数尤度の平均値

Microsoft の trigram 言語モデル使用5

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",  Kavita Ganesan et. al.

Page 6: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 1

最適化手順 1.シードとなるバイグラム生成 2. Nグラム候補生成 3.候補 Nグラムから候補フレーズ生成 4. Depth-first search による Micropinion 決定

6

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",  Kavita Ganesan et. al.

1w 2w 4w3w 5w 6w 7w 8w

1w 2w 4w 5w 6w 8w

1w 2w 4w 8w

フレーズ

シードバイグラム

候補Nグラム

スコア( ) ( )mSmS readrep +

m

Page 7: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 1

評価 データセット

CNETにおける製品レビューデータ 定量的評価指標

ROUGE

定性的評価指標 Gramaticality Non-redundancy Informativeness

ベースライン (従来手法 ) TF-IDFベース KEA Opinosis

7

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",  Kavita Ganesan et. al.

Page 8: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 1

結論 主要な提案:

代表性と可読性に基づく最適化問題による定式化 上記最適化問題の高速な近似解探索手法を提案

主要な性質: 従来手法にくらべて、可読性の高い要約文を生成できる

モデル的に有利な点: 教師なし学習 → 低コスト 計算量が小さい → 高速 形態素解析や構文解析不要 → 多言語への拡張性

8

"Micropinion Generation: An Unsupervised Approach to Generating Ultra-Concise Summaries of Opinions",  Kavita Ganesan et. al.

Page 9: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 2

モチベーション LDA の計算手法として Collapsed Gibbs Sampling が良く使われている

実装が簡単 Collapsed Gibbs Samplingは、並列化してもパフォーマンスが出ない

ノード全体で共有する状態があるため(実際には定期的に同期を取りながら計算) 明確な収束判定基準がない

Collapsed Gibbs Sampling での計算 (#topics in a document) * (#words in a topic across all documents)

9

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",  Ke Zhai et. al.

この部分で同期が必要となり並列化の効率に影響

Page 10: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

方法 変分ベイズ法による LDA 計算を MapReduce の形式へ並列化

変分ベイズ法における反復更新処理

Paper 2

10

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",  Ke Zhai et. al.

[ ] ( )kkv

eE kvqd γβφ Ψ∝ ,)(

,

∑=

+=V

v

dkkd kv

1

)(, ,

φαγ

( )∑=

+=C

d

dkv

dvkvkv w

1

)(.

)(,, φηλ

文書ごとの処理

文書全体での処理

Map

Reduce

( ) ( )oldoldoldnew gH αααα 1−−= モデル全体の制御 Driver

Page 11: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

MapReduceでの処理の流れ

Paper 2

11

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",  Ke Zhai et. al.

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

{ }( ) ( )11 1

,,,)(

, ,,,

+= =

Ψ−Ψ→ ∑ ∑

t

C

d

K

kkdkdkvt

dkv kv

γγλφη

d

( ) ( )1,, ,,

+→

tkvktkvk λαλα

( ) ( ) 1+→ tktk αα

d

d

d

文書

Mapper

Reducer

Driver

partitioner

Test Convergence(Likelihood Computation)

Hyperparameters

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

( ) ( )11

,,)(

,)(

, ,,,,,

+=

Ψ−Ψ→ ∑

t

K

kkdkd

dkdt

dkd kvkv

γγφγφγ

{ }( ) ( )11 1

,,,)(

, ,,,

+= =

Ψ−Ψ→ ∑ ∑

t

C

d

K

kkdkdkvt

dkv kv

γγλφη

{ }( ) ( )11 1

,,,)(

, ,,,

+= =

Ψ−Ψ→ ∑ ∑

t

C

d

K

kkdkdkvt

dkv kv

γγλφη

Page 12: Information extraction 1

Session 30: Information Extraction 担当:塚原裕史(デンソーITラボラトリ)

Paper 2

結論 従来実装 (Mahout)に比べて、処理速度・事後分布の近似精度の両面で、非常に良く改善されている。

Remark Collapsed Gibbs Sampling の並列化に関しては Mallet というライブラリがあるが、それとの比較がないので、変分ベイズ法の方が本当に良いと言って良いのか、実際にどれくらいの差があるのか気になる。

12

"A Flexible Large Scale Topic Modeling Package using Variational Inference in MapReduce",  Ke Zhai et. al.

学習時間

事後分布への下限

(論文から引用)

( ) ( )( )[ ] ( )[ ]ZqEZpZDpEL qq loglog −Θ=

変分ベイズでは、この量を最大化する