25
Abstract . . . . . . . . . Introduction . . . . . . . . . . . Proposed Method Result . . A nonparametric variable clustering model (NIPS 2012) K. Palla , D. A. Knowles , Z. Ghahramani 研究室論文紹介 M1 Liang Zeng Han 2013/5/9 1 / 25

palla et al, a nonparametric variable clustering method

Embed Size (px)

Citation preview

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

.

......

A nonparametric variable clustering model(NIPS 2012)

K. Palla , D. A. Knowles , Z. Ghahramani

研究室論文紹介M1 Liang Zeng Han

2013/5/9

1 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

概要

.背景・動機..

......

一般的に観測データの次元は実効次元より遥かに高い高次元データの弊害がいろいろある

計算量の増加球面集中現象など出力の解釈の難しさ

.提案..

......

Dirichlet process variable clustering (DPVC) による相関の強い観測変数のグループ分け

出力結果を直感的に解釈しやすいようにモデリング

2 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Latent variables model

既存手法もろもろ

高次元データに対する次元圧縮、成分分解を行う分析手法はいっぱいある

PCA : 各次元成分が無相関になるような回転を与えるprobabilistic PCA : 潜在変数の線形生成モデルfactor analysis : probabilistic PCAの拡張ICA : カクテルパーティー

3 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Latent variables model

probablistic PCA

z : latentx : observedW : factor loadingp(z) = N (z | 0, I)p(x | z) = N (x | Wz + µ, σ2I)p(x) = N (x | µ, C)where C = WW⊤ + σ2ITipping and Bishop, 99Roweis, 98

���

� �

��

���

4 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Latent variables model

Bayesian probablistic PCA

z : latentx : observedW : factor loadingp(z) = N (z | 0, I)p(x | z) = N (x | Wz + µ, σ2I)p(x) = N (x | µ, C)where C = WW⊤ + σ2Ip(W | α) =

∏Mi=1 N (wi | 0, α−1

i I)

���

� �

��

���

5 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Latent variables model

factor analysis

z : latentx : observedW : factor loadingΨ : diagonal matrixp(z) = N (z | 0, I)p(x | z) = N (x | Wz + µ, Ψ)p(x) = N (x | µ, C)where C = WW⊤ + ΨBasilevsky, 94

���

� �

��

6 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Related Works

関連研究

  simple multiplediscrete CrossCat [Shafto+06] [Niu+12]

continuous DPVC NSFA [Knowles+07,Rai+08]

7 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Related Works

CrossCat [Shafto+06]

8 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Related Works

CrossCat [Shafto+06]

9 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Related Works

CrossCat [Shafto+06]

10 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Related Works

CrossCat [Shafto+06]

11 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Modeling

Chinese Restaurant Process

12 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Modeling

Chinese Restaurant Process

.Definition. CRP..

......

zi : i 人目の客が据わっているテーブル

nk : k 番目のテーブルに座っている客の数

α : パラメタ (α > 0)zi = {z1, . . . , zi} : i 番目までの客の着席状況

P (zi = k | zi−1) ∝{

nk if nk > 0α if nk = 0 (new table)

Chinese は騒がしい席を好んで座りに行く?

13 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Modeling

Dirichlet Process Variable Clustering

(c1, . . . , cD) ∼ CRP(α)x : latenty : observedW : factor loadingwhere W := G ⊙ Z

⊙ : elementwise multiplicationGdk ∼ N (0, σ2

g) , Zdk = δk,cd

p(x) = N (x | 0, I)p(y | x) = N (y | Wx, σ2

d I))p(y) = N (y | 0, C)where C = WW⊤ + σ2

d IC is block diagonal

���

� �

��� ���

�����

14 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Modeling

Dirichlet Process Variable Clustering

D = 6, K = 3c = {1, 1, 1, 2, 2, 3}

W =

g1 0 0g2 0 0g3 0 00 g4 00 g5 00 0 g6

, G =

g1

g2

g3

g4

g5

g6

, Z =

1 0 01 0 01 0 00 1 00 1 00 0 1

.

15 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Inference

Bayesian Methods

一般な確率モデル p(X|Θ) とパラメタの事前分布 p(Θ)に対して、パラメタの事後分布:

p(Θ|X) = p(Θ)p(X|Θ)∫p(Θ)p(X|Θ)dΘ

の分母の計算は手に負えない近似的な推論方法

Monte Carlo sampling : MCMCVariational BayesianMean Field Approximation

16 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Inference

Gibbs sampler

MCMC の代表的なアルゴリズムの一つ他のパラメタを固定した状態で、とある一つのパラメタをサンプリングしていくDPVC では Θ = {G, X, c, σ2

d, σ2g , α}

��� ����� � � � ����� ������� � ����� � ���� � � ��� � � � � � !#"�$ % &('*) + $ % &%*, - - - , + $ % &.0/1 ��2 ���#3('54 , - - - , 687 �9 � + $ : ;<% &%>=@? ) + % A + $ : &B , - - - , + $ : &. , C /D � + $ : ;<% &B =@? ) + B A + $ : ;<% &% , + $ : &E , - - - , + $ : &. , C /

FFFG � + $ : ;<% &H =@? ) + H A + $ : ;<% &%I, - - - , + $ : ;�% &H J % , + $ : &H ;�% , - - - , + $ : &. , C /FFFK � + $ : ;<% &. =@? ) + . A + $ : ;<% &% , - - - , + $ : ;�% &.LJ % , C /M � 3(NO3QP84

R ��S T 7 2 ���

4

17 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Inference

MCMC for DVPC

α : slice samplingc : g について周辺化して、サンプリング

p(cd = k|yd:, xk:, σg, c/d) = p(cd|c/d)∫

p(yd:|xk:, gd)p(gd|σg)dgd

G :gdk | G/dk, C, X, σg, σd, α ∼ N (µ∗

g, λ−1g )

X :X:,n | G, C, σg, σd, α ∼ N (µX:,n , Λ−1

X:,n)

18 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Inference

Veriational Message Passing

変分法 : 真の事後分布 p(v)(v = {w, g, c, X, σd, σg}) に対して、汎関数

DKullbackLeibler(q||p) =∫

q(v) log q(v)p(v)

dv

を最小化する近似関数 q(v) の形を推論したい有限個の潜在クラスタと仮定して近似 (高々 T = D) :

w ∼ Dirichlet(α/T, . . . , α/T )

cd ∼ Discrete(w)

T → ∞ の時、CRP

19 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Inference

Veriational Message Passing

平均場近似 : vを排反的なグループ (v1, . . . , vM ) に分割して

q(v) =M∏

i=1qi(vi)

のように近似分解できると仮定

DKL を最小化する q∗j (vj) は

ln q∗j (vj) = Ei̸=j [ln p(v)] + constant

20 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Inference

Veriational Message Passing

.Proposition. Variational Message Passing..

......

モデルの真の同時分布を

p(v) =∏

i p(vi|parenti)

のように分解して書ける時、最適な変分因子は

ln q∗j (vj) = Ei̸=j [

∑i ln p(vi|parenti)] + constant

であり、q∗j (vj) が依存するノードは vj の Markov blanket

に対応している

DPVC ではq(v) = qwqσg

D∏d=1

qcdqσd

qgd|cd

N∏n=1

qxnd

として、うまいことやって更新式を計算する21 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Computational complexity

Computational Cost

  DPVC NSFAsample G O(DKN) O(DKN)sample X

calculate Λ−1 O(KD) O(K2D)find square root of diagonal O(K) O(K3) (Choleskey)

calculate µ O(DKN) O(DKN)total O(DKN) O(DKN + DK2 + K3)

22 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Synthetic data

K = 5xkn ∼ N (0, 1)gd ∼ N (0, 1)D = 20ydn ∼N (gdxcdn, 0.1)RAND index

23 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Gene expression data

乳癌に関するデータセットN = 251 人の患者D = 226 種の遺伝子

イースト菌N = 175 種の環境下での菌の生育状況D = 6152 種の遺伝子

predictive performance : mean log predictive loglikelihood

24 / 25

Abstract. . . . . . . . .Introduction

. . . . . . . . . . .Proposed Method Result

Gene expression data

乳癌に関するデータに対して推定された相関行列

左 : k-means (correlation)中央 : agglomerative heirarchical (average linkage)右 : DPVC MCMC

25 / 25