20
Topic Discovery through Data Dependent and Random Projections ICML 読読 2013/7/9

Topic discovery through data dependent and random projections

Embed Size (px)

DESCRIPTION

ICML読み会

Citation preview

Page 1: Topic discovery through data dependent and random projections

Topic Discovery through Data Dependent and Random Projections

ICML 読会2013/7/9

Page 2: Topic discovery through data dependent and random projections

概要• トピックモデルで推定されるトピック別単語

行列(分布)で、キ-ワ-ド抽出やクラスタリングについて、十分な文書量がある場合の統計的な性質を証明し、実証もしている

• 既存のトピックモデルで使用される Gibbs サンプリングや NMF-based アルゴリズムとのパフォ-マンス比較

• シミュレ-ション・テキストデ-タの実証実験

Page 3: Topic discovery through data dependent and random projections

目次1. グラフィカルモデル2. 推定ステップ概要3. 推定ステップ14. 推定ステップ25. 推定ステップ36. 検証実験

Page 4: Topic discovery through data dependent and random projections

グラフィカルモデル-通常の LDA との違い-

Page 5: Topic discovery through data dependent and random projections

Θ ( K 行 M 列 ): 文書・トピック分布β ( W 行 K 列 ): 潜在トピック・単語分布X ( W 行 M 列 ): 文書より観測した単語の出現頻度

X_i : the i − th row of X ( the cross-document patterns of word i )X と X’ は異なるドキュメント群(コ-パスを二分割)

K: 潜在トピック数W: 単語数M: 文書数

Page 6: Topic discovery through data dependent and random projections

通常は、

p(w|α,β) = ∫ dz p(w|z, β) * p(z|α)p(z|α) = ∫dΘ p(z, Θ|α)p(w|z, β) = ∫dφ p(w, φ|z, β) = ∫dφ p(w,|z, φ) * p(φ| β)( α 、 β はディリクレ分布に従う。)

より、 p(w|α,β) の対数尤度を明示的に書き下す。次に、 Jensen の不等式から対数尤度の下限値の最大値を求め( E ステップ)、対数尤度を最大化( M ステップ)し、 α ・ β を求める。ただし、積分不可能なので、 MCMC 。

Page 7: Topic discovery through data dependent and random projections

他方この論文では、 X (観測量)から特徴的な単語を見つけ、クラスタリングし、最後にβ を推定。

対数尤度などは出て来ません!

むしろ、特徴的な単語を見つける事の統計的根拠クラスタリングが出来る事の統計的根拠一次方程式 (X= β*Θ, β=X*Θ^-1) による β の

推定を、文書量が十分大きい場合に確率収束する事を証明しています。見様によっては、ノンパラメトリックな手法となっております。

Page 8: Topic discovery through data dependent and random projections

推定ステップ概要

Page 9: Topic discovery through data dependent and random projections

1. 仮定 一つのトピックには一つの特徴的な単語

2. 特徴的な単語の発見 コ-パス中の各文書の単語頻度が観測さ

れた時、特徴的な単語を抽出します Data Dependent Projections Algorithm Random Projections Algorithm Binning Algorithm

3. 特徴的な単語のクラスタリング4. トピック推定

Page 10: Topic discovery through data dependent and random projections

推定ステップ2-特徴的な単語の発見-

Page 11: Topic discovery through data dependent and random projections

特徴的な単語の発見( DDP アルゴリズム)

適当な d R^+∈ で、単語 i について上式が真となる単語 j の集合を作る。次に、もし全ての j

J_i∈ ( j≠i )が以下の式を満たし、適当な γ R^+∈ が与えられた場合、 単語 i を特徴的な

単語とする。

d ・ γ R^+∈ では、単語 i が特徴的な単語であれば、文書量が無限時には上式が 1 に確率収束する。そうでなければ、単語 i は一般ワ-ド

Page 12: Topic discovery through data dependent and random projections

推定ステップ2-特徴的な単語のクラスタリング-

Page 13: Topic discovery through data dependent and random projections

特徴的な単語のクラスタリング

X_i : Xの i 行目X と X’ は異なるドキュメント群(コ-パスを二分割)

もし、行列 R が正定値行列であれば、文書量が十分大きい時、 i とjが同一トピックの場合、常に D_{i,j} はゼロに確率収束する。さらに、 i とjが異なるトピックであれば、 C_{i,j} は正の実数に確率収束する。

Page 14: Topic discovery through data dependent and random projections

検証実験①-逆シミュレ-ション-

Page 15: Topic discovery through data dependent and random projections

K: 潜在トピック数W: 単語数M: 文書数

β を所与として、再度 X (文書より観測した単語の出現頻度 ) を計算。その後、初期値を正解デ-タにし、パフォ-マンスの観点でアルゴリズムを比較;Step1. トピック別の単語行列(分布)を生成Step2. 文章別のトピック行列(分布)を Dir(α)から生成Step3. 文書別の単語行列(分布)を生成

Page 16: Topic discovery through data dependent and random projections

シミュレ-ション方法Step1.1 iid 1×K row-vectors corresponding to nonnovel words are generated uniformlyStep1.2 W_1 iid Uniform[0, 1] values are gener-ated for the nonzero entries in the rows of novel words.Step1.3 The resulting matrix is then column-normalized to get one realization of β

ρ := W_1/WStep2. M iid K × 1 column-vectors are generated for the θ matrix according to a Dirichlet priorStep3. we obtain X by generating N iid words foreach document

Page 17: Topic discovery through data dependent and random projections

モデル評価と既存手法との比較評価方法は、文章中から 50 個の単語をランダムに選択し、エラ-の平均

W = 500, ρ = 0.2,N = 100,K = 5;

W =500, ρ = 0.2,M = 500,K = 10

Page 18: Topic discovery through data dependent and random projections

検証実験②-テキストコ-パス-

Page 19: Topic discovery through data dependent and random projections

NIPS デ-タセット NY Times

most of the topics extracted by RP and DDP are similar and are comparable with that of Gibbs

For example, RecL2 is not extracted RecL2 miss “weather” and

“emotions”

Chip designというト

ピック

Page 20: Topic discovery through data dependent and random projections

まとめノンパラメトリックモデルによる特徴的な

単語抽出とクラスタリング手法本論文は確率的トピックモデルというより、

特徴的な単語やクラスタリングの妥当性を統計量を使って議論しています

さらに、その統計量がどのような場合に確率収束するかも議論しています

証明まで出来ませんでした、すみません・・・