Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
.
......
A nonparametric variable clustering model(NIPS 2012)
K. Palla , D. A. Knowles , Z. Ghahramani
研究室論文紹介M1 Liang Zeng Han
2013/5/9
1 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
概要
.背景・動機..
......
一般的に観測データの次元は実効次元より遥かに高い高次元データの弊害がいろいろある
計算量の増加球面集中現象など出力の解釈の難しさ
.提案..
......
Dirichlet process variable clustering (DPVC) による相関の強い観測変数のグループ分け
出力結果を直感的に解釈しやすいようにモデリング
2 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Latent variables model
既存手法もろもろ
高次元データに対する次元圧縮、成分分解を行う分析手法はいっぱいある
PCA : 各次元成分が無相関になるような回転を与えるprobabilistic PCA : 潜在変数の線形生成モデルfactor analysis : probabilistic PCAの拡張ICA : カクテルパーティー
3 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Latent variables model
probablistic PCA
z : latentx : observedW : factor loadingp(z) = N (z | 0, I)p(x | z) = N (x | Wz + µ, σ2I)p(x) = N (x | µ, C)where C = WW⊤ + σ2ITipping and Bishop, 99Roweis, 98
���
� �
�
��
���
4 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Latent variables model
Bayesian probablistic PCA
z : latentx : observedW : factor loadingp(z) = N (z | 0, I)p(x | z) = N (x | Wz + µ, σ2I)p(x) = N (x | µ, C)where C = WW⊤ + σ2Ip(W | α) =
∏Mi=1 N (wi | 0, α−1
i I)
���
� �
�
��
���
5 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Latent variables model
factor analysis
z : latentx : observedW : factor loadingΨ : diagonal matrixp(z) = N (z | 0, I)p(x | z) = N (x | Wz + µ, Ψ)p(x) = N (x | µ, C)where C = WW⊤ + ΨBasilevsky, 94
���
� �
�
��
�
6 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Related Works
関連研究
simple multiplediscrete CrossCat [Shafto+06] [Niu+12]
continuous DPVC NSFA [Knowles+07,Rai+08]
7 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Related Works
CrossCat [Shafto+06]
8 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Related Works
CrossCat [Shafto+06]
9 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Related Works
CrossCat [Shafto+06]
10 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Related Works
CrossCat [Shafto+06]
11 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Modeling
Chinese Restaurant Process
12 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Modeling
Chinese Restaurant Process
.Definition. CRP..
......
zi : i 人目の客が据わっているテーブル
nk : k 番目のテーブルに座っている客の数
α : パラメタ (α > 0)zi = {z1, . . . , zi} : i 番目までの客の着席状況
P (zi = k | zi−1) ∝{
nk if nk > 0α if nk = 0 (new table)
Chinese は騒がしい席を好んで座りに行く?
13 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Modeling
Dirichlet Process Variable Clustering
(c1, . . . , cD) ∼ CRP(α)x : latenty : observedW : factor loadingwhere W := G ⊙ Z
⊙ : elementwise multiplicationGdk ∼ N (0, σ2
g) , Zdk = δk,cd
p(x) = N (x | 0, I)p(y | x) = N (y | Wx, σ2
d I))p(y) = N (y | 0, C)where C = WW⊤ + σ2
d IC is block diagonal
���
� �
�
�
��� ���
�
�����
14 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Modeling
Dirichlet Process Variable Clustering
D = 6, K = 3c = {1, 1, 1, 2, 2, 3}
W =
g1 0 0g2 0 0g3 0 00 g4 00 g5 00 0 g6
, G =
g1
g2
g3
g4
g5
g6
, Z =
1 0 01 0 01 0 00 1 00 1 00 0 1
.
15 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Inference
Bayesian Methods
一般な確率モデル p(X|Θ) とパラメタの事前分布 p(Θ)に対して、パラメタの事後分布:
p(Θ|X) = p(Θ)p(X|Θ)∫p(Θ)p(X|Θ)dΘ
の分母の計算は手に負えない近似的な推論方法
Monte Carlo sampling : MCMCVariational BayesianMean Field Approximation
16 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Inference
Gibbs sampler
MCMC の代表的なアルゴリズムの一つ他のパラメタを固定した状態で、とある一つのパラメタをサンプリングしていくDPVC では Θ = {G, X, c, σ2
d, σ2g , α}
��� ����� � � � ����� ������� � ����� � ���� � � ��� � � � � � !#"�$ % &('*) + $ % &%*, - - - , + $ % &.0/1 ��2 ���#3('54 , - - - , 687 �9 � + $ : ;<% &%>=@? ) + % A + $ : &B , - - - , + $ : &. , C /D � + $ : ;<% &B =@? ) + B A + $ : ;<% &% , + $ : &E , - - - , + $ : &. , C /
FFFG � + $ : ;<% &H =@? ) + H A + $ : ;<% &%I, - - - , + $ : ;�% &H J % , + $ : &H ;�% , - - - , + $ : &. , C /FFFK � + $ : ;<% &. =@? ) + . A + $ : ;<% &% , - - - , + $ : ;�% &.LJ % , C /M � 3(NO3QP84
R ��S T 7 2 ���
4
17 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Inference
MCMC for DVPC
α : slice samplingc : g について周辺化して、サンプリング
p(cd = k|yd:, xk:, σg, c/d) = p(cd|c/d)∫
p(yd:|xk:, gd)p(gd|σg)dgd
G :gdk | G/dk, C, X, σg, σd, α ∼ N (µ∗
g, λ−1g )
X :X:,n | G, C, σg, σd, α ∼ N (µX:,n , Λ−1
X:,n)
18 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Inference
Veriational Message Passing
変分法 : 真の事後分布 p(v)(v = {w, g, c, X, σd, σg}) に対して、汎関数
DKullbackLeibler(q||p) =∫
q(v) log q(v)p(v)
dv
を最小化する近似関数 q(v) の形を推論したい有限個の潜在クラスタと仮定して近似 (高々 T = D) :
w ∼ Dirichlet(α/T, . . . , α/T )
cd ∼ Discrete(w)
T → ∞ の時、CRP
19 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Inference
Veriational Message Passing
平均場近似 : vを排反的なグループ (v1, . . . , vM ) に分割して
q(v) =M∏
i=1qi(vi)
のように近似分解できると仮定
DKL を最小化する q∗j (vj) は
ln q∗j (vj) = Ei̸=j [ln p(v)] + constant
20 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Inference
Veriational Message Passing
.Proposition. Variational Message Passing..
......
モデルの真の同時分布を
p(v) =∏
i p(vi|parenti)
のように分解して書ける時、最適な変分因子は
ln q∗j (vj) = Ei̸=j [
∑i ln p(vi|parenti)] + constant
であり、q∗j (vj) が依存するノードは vj の Markov blanket
に対応している
DPVC ではq(v) = qwqσg
D∏d=1
qcdqσd
qgd|cd
N∏n=1
qxnd
として、うまいことやって更新式を計算する21 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Computational complexity
Computational Cost
DPVC NSFAsample G O(DKN) O(DKN)sample X
calculate Λ−1 O(KD) O(K2D)find square root of diagonal O(K) O(K3) (Choleskey)
calculate µ O(DKN) O(DKN)total O(DKN) O(DKN + DK2 + K3)
22 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Synthetic data
K = 5xkn ∼ N (0, 1)gd ∼ N (0, 1)D = 20ydn ∼N (gdxcdn, 0.1)RAND index
23 / 25
Abstract. . . . . . . . .Introduction
. . . . . . . . . . .Proposed Method Result
Gene expression data
乳癌に関するデータセットN = 251 人の患者D = 226 種の遺伝子
イースト菌N = 175 種の環境下での菌の生育状況D = 6152 種の遺伝子
predictive performance : mean log predictive loglikelihood
24 / 25