Supervised PCAとその周辺

Supervised PCAとその周辺

Daisuke Yoneoka

February 22, 2015

Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 1 / 11

Notations

! Latent: zi ∈ RL

! Observed: xi ∈ RD

! Outcome: yi ∈ RD

! PCA: 信号解析とかだと Karhunen Loeve transformとかとも呼ばれるらしい! Factor analysis: p(zi) = N(zi|µ0,Σ0), p(xi|zi,θ) = N(Wzi + µ,Ψ)

! W は D × Lで factor loading matrix! Ψは D ×D で対角行列! とくにΨ = σ2I のとき probabilistic PCA(PPCA) or sensible PCA (Roweis

1997)

! PCAの説明は省略


導入

! ペアになってるデータとかを低次元に埋め込みたいみたいな要望

! この要望を Virtanen 2010, に沿って Latent Gaussian modelで解決したい! 以下の手法をMurphyに沿って概説

! supervised PCA! discriminative supervised PCA! partial least square! canonical correlation analysis


グラフ的説明 (Murphy, 2012)


Supervised PCA (SPCA)

式は以下の様になる. Yu et al. (2006)では Supervised PCAで, West (2003)ではBayesian factor regressionと呼ばれている.

p(zi) = N(0, IL)

p(yi|zi) = N(wTy zi + µy,σ

2y)

p(xi|zi) = N(Wxzi + µx,σ2xID)

! PCAとの相違点: PCAは xにしか注目していないが, SPCAは yも考慮している.

! Joint Gaussianなので, yi|xi ∼ N(xTi w,σy +wT

y Cwy), wherew = Ψ−1WxCwy, Ψ = σ2

xID and C−1 = I +W Tx Ψ−1Wx が計算可能.

! zで条件つけると xと yは独立: p(y, x|z) = p(y|z)p(x|z)を計算では使う


Supervised PCAとZellerの g-prior

West (2003)は, SPCAと Zellerの g-priorの関係を明らかにした.

! p(wy) = N(0, (1/gΣ2)−1)

! SVD of XとしてX = RV T , V TV = I とし, RTR = Σ2 = diag(σ2j )は特

異値を対角に並べたものとすると

! σ2x → 0の極限で p(w) = N(0, gV −TΣ−2V −1) = N(0, g(XTX)−1)


Information bottleneck

xを次元縮約して yを予測しようとするアイディアは情報理論では以下のように表現可能.

! 以下を最小化するような p(z|z)を発見したい! I(X;Z)− βI(X;Y ), ただし, I(X;Y )は相互情報量! I(X : Y ) = H(X)−H(X|Y ) = H(X) +H(Y )−H(X,Y ), ただし

H(X) = Ep

!log

1p(X)

"

! β ≥ 0は information bottleneckで縮約度合いと予測性能の tradeoffを調整


Discriminant supervised PCA

SPCAの問題は p(x|z)と p(y|z)に同じ重みをかけている点. Rish et al. (2008)はこれを解決.

! 重み αx と αy を以下のように導入.

! l(θ) = Πip(yi|ηiy)αyp(xi|ηix)αx , ただし, ηim = Wmzm

! αは exponential familyならば noise varianceとして解釈可能.

! 例えばデータが Gaussian: l(θ) ∝ Πi exp(−12αx∥xT

i − ηix∥2)

! Note: αの推定は尤度の normalizing constantがその都度変化するので、困難である.


Partial least square (PLS)

計量経済の方では有名. モデルは以下.

p(zi) = N(zsi |0, ILs)N(zx

i |0, ILx)

p(yi|zi) = N(W Ty zs

i + µy,σ2IDy )

p(xi|zi) = N(Wxzsi +Bxz

xi + µx,σ

2IDx)

! アイディアは, zi を共通の zsi と zxi に分解すること.

! vi = (yi,xi)の条件付き分布:p(vi|θ) =

!N(vi|Wzi + µ,σI)N(zi|0, I)dzi = N(vi|µ,WW T + σI)

! where W =

"Wy 0Wx By

#and WW T =

"WyW T

y WxW Tx

WxW Tx WxW T

x +BxBTx

#

! Note: Latentなクラスの次元は, zsi が共変量に特有の分散を捉えてしまわないように十分大きめに取る必要がある.


PLSのアルゴリズムPCAの結果を regressionに入れる方法 (Primary component regression)と関係しているが, ちょっと違う.

! Solution pathは分散が大きく, かつ yと相関の高い方向を探索している! cf. PCRは特徴量の分散を大きくすることだけに注目している.

! Frank et al.(1993)によると Ridge回帰より予測性能では劣るが低次元への縮約が可能.

! 推定にはWold (1975)の NIPALSアルゴリズムが有名 (Hastie et al. (2001)).


Canonical correlation analysis (CCA)

正準相関分析という名前で学部の時とかに習ったような気がする. 式は以下(Bach and Jordan, (2005)).

p(zi) = N(zsi |0, ILs)N(zx

i |0, ILx)N(zyi |0, ILy

p(yi|zi) = N(yi|Byzyi +Wyz

si + µy,σ

2IDy )

p(xi|zi) = N(xi|Bxzxi +Wxz

si + µx,σ

2IDx)

! PLSを synmetricにしたもの. つまり, zi を共通の zsi と zxi と zyi に分解すること.

! vi の条件付き分布:p(vi|θ) =

!N(vi|Wzi + µ,σI)N(zi|0, I)dzi = N(vi|µ,WW T + σID)

! where W =

"Wx Bx 0Wy 0 By

#and

WW T =

"WxW T

x +BxBTx WxW T

y

WyW Ty WyW T

y +ByBTy

#

! MLEを EMで解く classicな non-probabilisticな結果と一致する (Bach andJordan, (2005))


Data & Analytics

Supervised PCAとその周辺