Upload
daisuke-yoneoka
View
60
Download
4
Embed Size (px)
Citation preview
Supervised PCAとその周辺
Daisuke Yoneoka
February 22, 2015
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 1 / 11
Notations
! Latent: zi ∈ RL
! Observed: xi ∈ RD
! Outcome: yi ∈ RD
! PCA: 信号解析とかだと Karhunen Loeve transformとかとも呼ばれるらしい! Factor analysis: p(zi) = N(zi|µ0,Σ0), p(xi|zi,θ) = N(Wzi + µ,Ψ)
! W は D × Lで factor loading matrix! Ψは D ×D で対角行列! とくにΨ = σ2I のとき probabilistic PCA(PPCA) or sensible PCA (Roweis
1997)
! PCAの説明は省略
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 2 / 11
導入
! ペアになってるデータとかを低次元に埋め込みたいみたいな要望
! この要望を Virtanen 2010, に沿って Latent Gaussian modelで解決したい! 以下の手法をMurphyに沿って概説
! supervised PCA! discriminative supervised PCA! partial least square! canonical correlation analysis
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 3 / 11
グラフ的説明 (Murphy, 2012)
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 4 / 11
Supervised PCA (SPCA)
式は以下の様になる. Yu et al. (2006)では Supervised PCAで, West (2003)ではBayesian factor regressionと呼ばれている.
p(zi) = N(0, IL)
p(yi|zi) = N(wTy zi + µy,σ
2y)
p(xi|zi) = N(Wxzi + µx,σ2xID)
! PCAとの相違点: PCAは xにしか注目していないが, SPCAは yも考慮している.
! Joint Gaussianなので, yi|xi ∼ N(xTi w,σy +wT
y Cwy), wherew = Ψ−1WxCwy, Ψ = σ2
xID and C−1 = I +W Tx Ψ−1Wx が計算可能.
! zで条件つけると xと yは独立: p(y, x|z) = p(y|z)p(x|z)を計算では使う
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 5 / 11
Supervised PCAとZellerの g-prior
West (2003)は, SPCAと Zellerの g-priorの関係を明らかにした.
! p(wy) = N(0, (1/gΣ2)−1)
! SVD of XとしてX = RV T , V TV = I とし, RTR = Σ2 = diag(σ2j )は特
異値を対角に並べたものとすると
! σ2x → 0の極限で p(w) = N(0, gV −TΣ−2V −1) = N(0, g(XTX)−1)
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 6 / 11
Information bottleneck
xを次元縮約して yを予測しようとするアイディアは情報理論では以下のように表現可能.
! 以下を最小化するような p(z|z)を発見したい! I(X;Z)− βI(X;Y ), ただし, I(X;Y )は相互情報量! I(X : Y ) = H(X)−H(X|Y ) = H(X) +H(Y )−H(X,Y ), ただし
H(X) = Ep
!log
1p(X)
"
! β ≥ 0は information bottleneckで縮約度合いと予測性能の tradeoffを調整
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 7 / 11
Discriminant supervised PCA
SPCAの問題は p(x|z)と p(y|z)に同じ重みをかけている点. Rish et al. (2008)はこれを解決.
! 重み αx と αy を以下のように導入.
! l(θ) = Πip(yi|ηiy)αyp(xi|ηix)αx , ただし, ηim = Wmzm
! αは exponential familyならば noise varianceとして解釈可能.
! 例えばデータが Gaussian: l(θ) ∝ Πi exp(−12αx∥xT
i − ηix∥2)
! Note: αの推定は尤度の normalizing constantがその都度変化するので、困難である.
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 8 / 11
Partial least square (PLS)
計量経済の方では有名. モデルは以下.
p(zi) = N(zsi |0, ILs)N(zx
i |0, ILx)
p(yi|zi) = N(W Ty zs
i + µy,σ2IDy )
p(xi|zi) = N(Wxzsi +Bxz
xi + µx,σ
2IDx)
! アイディアは, zi を共通の zsi と zxi に分解すること.
! vi = (yi,xi)の条件付き分布:p(vi|θ) =
!N(vi|Wzi + µ,σI)N(zi|0, I)dzi = N(vi|µ,WW T + σI)
! where W =
"Wy 0Wx By
#and WW T =
"WyW T
y WxW Tx
WxW Tx WxW T
x +BxBTx
#
! Note: Latentなクラスの次元は, zsi が共変量に特有の分散を捉えてしまわないように十分大きめに取る必要がある.
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 9 / 11
PLSのアルゴリズムPCAの結果を regressionに入れる方法 (Primary component regression)と関係しているが, ちょっと違う.
! Solution pathは分散が大きく, かつ yと相関の高い方向を探索している! cf. PCRは特徴量の分散を大きくすることだけに注目している.
! Frank et al.(1993)によると Ridge回帰より予測性能では劣るが低次元への縮約が可能.
! 推定にはWold (1975)の NIPALSアルゴリズムが有名 (Hastie et al. (2001)).
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 10 / 11
Canonical correlation analysis (CCA)
正準相関分析という名前で学部の時とかに習ったような気がする. 式は以下(Bach and Jordan, (2005)).
p(zi) = N(zsi |0, ILs)N(zx
i |0, ILx)N(zyi |0, ILy
p(yi|zi) = N(yi|Byzyi +Wyz
si + µy,σ
2IDy )
p(xi|zi) = N(xi|Bxzxi +Wxz
si + µx,σ
2IDx)
! PLSを synmetricにしたもの. つまり, zi を共通の zsi と zxi と zyi に分解すること.
! vi の条件付き分布:p(vi|θ) =
!N(vi|Wzi + µ,σI)N(zi|0, I)dzi = N(vi|µ,WW T + σID)
! where W =
"Wx Bx 0Wy 0 By
#and
WW T =
"WxW T
x +BxBTx WxW T
y
WyW Ty WyW T
y +ByBTy
#
! MLEを EMで解く classicな non-probabilisticな結果と一致する (Bach andJordan, (2005))
Daisuke Yoneoka Supervised PCA とその周辺 February 22, 2015 11 / 11