IBM 東京基礎研究所井手剛

| 2007/08/20 | ICML 2007 を読む会 @ 大岡山

Tokyo Research Laboratory

© Copyright IBM Corporation 2007

“Regression on Manifolds using Kernel Dimension Reduction” by Jens Nilsson, Fei Sha, and Michael I. Jordan

IBM 東京基礎研究所井手剛

| 2007/08/20 | ICML 2007 を読む会 @ 大岡山Page 2



概要 ── 次元削減モノ。教師あり次元削減と、教師なし次元削減を組み合わせた点に新規性を主張。

次元削減には 2 流派ある教師なし

• データ X の分布（ or 多様体）をうまく表すような座標を求める• PCA 、 Isomap 、 Laplacian eigenmap 、 LLE 、．．．

教師あり• ラベル情報と矛盾しない写像を求める• FDA 、 LFDA 、その他

両者の組み合わせ• SELF (semi-supervised LFDA)

- M. Sugiyama et al., Technical report TR07-0006, http://www.cs.titech.ac.jp/~tr/reports/2007/TR07-0006.pdf

- ラベルが分かっているものについては LFDA 、そうでないものは PCA• ほか

この仕事は次の二つの次元削減手法の組み合わせ教師なし： Laplacian eigenmap 教師あり : 福水さんのカーネル次元削減




目次

カーネル次元削減とは

Laplacian eigenmap とは

どう組み合わせるのか

実験結果は？




カーネル次元削減とは




「十分な次元削減」（ sufficient dimension reduction; SDR ）。カーネル次元削減は SDR の一種。回帰関係を表すために最も「かけがえのない」部分空間を探す。

SDR は教師あり次元削減の一種確率変数 X と Y が、何か強い結びつきを持つと仮定

• 回帰直線の周りにばらつくとか直交射影の行列 B を使って、 X を狭めてみる

Z = BTX Z が動く範囲を S とする

SDR の問いかけ：「もし S を失ったら、どれだけ Y と X は無関係になってしまうだろうか？」

「 S を失った結果、 Y と X が無関係になってしまう」＝「 S はかけがえのないもの」

Z を与えた時に Y と X が条件付き独立になってしまうように、 B を選べばよい




条件付き独立性の成立を、条件付き共分散行列の等式に帰着させる

「条件付き独立性を言うためには、 X と Y の同時分布がいるのでは？（問題を簡単にしてないのでは）？」という心配は要らない

確率モデルの仮定が要らぬ、というのが SDR および KDR のキモ。

論文の定理 1 （の半分）：条件付き独立性は、条件付き共分散行列の等式と同値

つまり、この等式を満たすような B （射影行列）を求めればよい• でもそれを直接やるのは難しい




等式を満たすのをあきらめて、「できる限り最善な」 B を求める

条件付き共分散行列についての性質：「制約をゆるめるとばらつきの余地は大きい」「制約が厳しいとばらつきの余地は小さい」

結局、を B について「最小化」すればいい

残る問題 Z = BTX を使ってを B についてパラメトライズするなんてできるのか行列もしくは演算子の大きさの尺度をどう測るのか

直感的には、Z を与えた時の Y のばら

つき




条件付き共分散行列を、条件なしのものを使って「展開」する

条件付き共分散行列（演算子）は、条件なしのものを使って書ける

• X とありますが、 Z のことです

ガウシアンを条件付けた時の共分散と同じ形をしているが、これは分布によらずに一般に成り立つ

証明は福水さんの論文たちに書いてある• Fukumizu et al. JMLR 2004• Fukumizu et al. 2006• 数学的にハイレベルだが、証明をフォローすることはなんとか可能




条件なしの共分散行列をグラム行列で表す

条件付き共分散行列（演算子）は、条件なしのものを使って書ける

単純作業でグラム行列（中心化しておく）に書き換えることができる




KDR の目的関数の完成条件付き共分散行列の大きさは Trace で測ることにする

単純作業でグラム行列（中心化しておく）に書き換えることができる

さらに簡単化するノリ的には次のような式を使ったと思えばいい

行列の大きさはトレースで測ることにする結局、条件付き独立性の条件は下記に帰着される




Laplacian eigenmap とは




原論文から (1/2) ： M. Belkin and P. Niyogi, "Laplacian eigenmaps and spectral techniques for embedding and clustering", NIPS 2001

元の座標 x1 、 x2 、．．．から、新しい座標 y1 、．．．を求めたい。その時の目的関数

つまり、「集団移住した後でも近所のつながりを大切にする」

2 乗誤差の目的関数はグラフ・ラプラシアンを使って書き直せる要するにこれを最小化すればいい




原論文から (2/2): 一般化固有値問題として解ける

下記の最適化問題を解く

条件 1 ：スケーリングの任意性を省く条件 2: ゼロ固有値の解を省く

解は固有値最低のものから M 個の固有ベクトルただし、ゼロ固有値（最小）は省く




どう組み合わせるのか




基本的に、 Laplacian eigenmap で次元削減されたデータに KDR を行うだけ

Laplacian eigenmap でもとの座標 xi を、 M 次元の座標に変換 M 本の固有ベクトルから作った M 次元データのデータ行列を U とする ui が新座標

そのデータ U から、 KDR により第 2 弾の次元削減写像を求める。 d 次元 Φui が新々座標

解くべきなのは下記

非線形、非凸。

射影勾配法で解く。




実験結果は？




実験結果 1地表面温度

もともとは 2 次元の問題温度 Y vs 地表の位置 X

1 段目での次元削減 M=100

2 段目の次元削減 d=1

きれいな線形相関

次元「削減」としてはつまらないが、削減した座標により再現誤差を描いてみると、異常気象が分かる、らしい




実験結果 2スノーマンの画像を回転してみる

本当の自由度は 4 回転角と傾き角、ずらし量（タテヨコ）画像は 110×80 、 1000 枚

回転角（ Y ） vs ピクセル強度（ X ）、のような回帰関係を設定したらしい。




感想




感想

KDR は普通使われるような誤差基準とはちょっと毛色が変わっていて面白い福水さんの論文についてはもうちょっと勉強の必要あり

この論文の組み合わせ方には、あまり感銘を受けなかった。ただ福水さん論文に寄りかかっているだけ、という感じがした。

実験結果も、興味深いのか深くないのかよくわからなかった。

Documents

IBM 東京基礎研究所 井手剛

IBM 東京基礎研究所井手剛