58
4 August 2009 ( ) 4/Aug/2009 1 / 52

関連する手法について - 統計数理研究所shiro/papers/etc/2009.08.kouza1.pdf · 関連する問題 ニューラルネットワーク ニューラルネットワーク

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

関連する手法について

池田 思朗

統数研

4 August 2009

池田 (統計数理研究所) 関連する手法 4/Aug/2009 1 / 52

中心に扱う問題 Lasso と ℓ1 罰則項

1 中心に扱う問題Lasso と ℓ1 罰則項Lasso とスパース性Elastic Net

池田 (統計数理研究所) 関連する手法 4/Aug/2009 2 / 52

中心に扱う問題 Lasso と ℓ1 罰則項

準備 ℓ0, ℓ1, ℓ2 ノルム

ノルム

ここでは x = (x1, · · · , xn)t に対する以下のノルムを用いる.

‖x‖ℓ0 =∣

∣{x, xi 6= 0}∣

∣ 0 でない成分の数

‖x‖ℓ1 =n

i=1

|xi|

‖x‖ℓ2 =(

n∑

i=1

x2i

)1/2

池田 (統計数理研究所) 関連する手法 4/Aug/2009 2 / 52

中心に扱う問題 Lasso と ℓ1 罰則項

基本となる問題

Lasso の推定問題: 制約付きの重回帰

min∥

∥y −Xβ∥

2

ℓ2subject to

∥β∥

ℓ1≤ s

Lasso の推定問題: 罰則付きの重回帰

ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

ℓ1

]

.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 3 / 52

中心に扱う問題 Lasso と ℓ1 罰則項

正則化項と最尤推定

モデル

yi = β0 + β1xi1 + · · ·+ βpxip + ǫi =

p∑

j=0

βjxij + ǫi i = 1, · · · , N

j = 0, · · · , p がパラメータ,i = 1, · · · , N がサンプルを示す添字である.また,i によらず x0i = 1 とおく.

Lasso の推定問題: 制約付きの重回帰

min∥

∥y −Xβ∥

2

ℓ2subject to

∥β∥

ℓ1≤ s

Tibshirani, (1996). “Regression shrinkage and selection via the Lasso,” J. R.Statist. Soc. B, 58(1), 267-288.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 4 / 52

中心に扱う問題 Lasso と ℓ1 罰則項

正則化項と最尤推定

Lasso の推定問題: 罰則付きの重回帰

ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

ℓ1

]

.

全ての λ, 0 ≤ λ <∞ に対して s ≥ 0 であるような s が必ずひとつ存在し,双方とも同じ解を与える.以下では,この形を基本として進める.

Osbourne, Presnell & Turlach (1999). “On the LASSO and its dual,” J.Computational and Graphical Statistics, 9, 319-337.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 5 / 52

中心に扱う問題 Lasso とスパース性

1 中心に扱う問題Lasso と ℓ1 罰則項Lasso とスパース性Elastic Net

池田 (統計数理研究所) 関連する手法 4/Aug/2009 6 / 52

中心に扱う問題 Lasso とスパース性

Lasso とスパース (疎)性

Lasso の問題

ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

ℓ1

]

.

y の次元 n と β の次元 p の関係について考える.n ≥ p のとき,X の rank が n ならば β の成分のうち 0 でない 成分の数は 0 個 (λ→∞ で)から p 個まで変化する.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 6 / 52

中心に扱う問題 Lasso とスパース性

Lasso とスパース (疎)性

n < p のとき,

X = (x1, · · · ,xp) の p 個の列ベクトルから任意の n 個をとってきたとき,どのようにとってきても,必ず一次独立となると仮定する.

X

{n

{np

池田 (統計数理研究所) 関連する手法 4/Aug/2009 7 / 52

中心に扱う問題 Lasso とスパース性

Lasso とスパース (疎)性

β の成分のうち 0 でない成分の数は 0 個 (λ→∞ で)から n 個まで変化する.n は p よりも小さいから,解は疎であることになる.

Osbourne, Presnell & Turlach (1999). “On the LASSO and its dual,” J.Computational and Graphical Statistics, 9, 319-337.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 8 / 52

中心に扱う問題 Lasso とスパース性

ℓ2 罰則項

ℓ2 罰則項の問題

ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

2

ℓ2

]

.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

2

ℓ2

]

=yty + minβ

(

βt(XtX + λI)β − 2ytXβ)

この問題は次にようにかける

β =(

XtX + λI)

−1Xty

β の 0 でない成分の数は一般に p となる.解は疎ではない.池田 (統計数理研究所) 関連する手法 4/Aug/2009 9 / 52

中心に扱う問題 Elastic Net

正則化項と最尤推定

Lasso の推定問題: 罰則付きの重回帰

ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

ℓ1

]

.

ℓ2 罰則項

ある λ > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ

∥β∥

2

ℓ2

]

.

両方ともに良い点がある.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 10 / 52

中心に扱う問題 Elastic Net

Elastic Net

Elastic net

ある λ1, λ2 > 0 に対して,以下の最適値を与える {βj} を解とする.

min[

∥y −Xβ∥

2

ℓ2+ λ2

∥β∥

2

ℓ2+ λ1

∥β∥

ℓ1

]

.

Zou & Hastie (2005). “Regularization and variable selection via the elasticnet,” J. R. Statist. Soc. B, 67, 301-320.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 11 / 52

関連する問題 地震学

2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing

池田 (統計数理研究所) 関連する手法 4/Aug/2009 12 / 52

関連する問題 地震学

地震学

最適化問題

ψ1(r) =∥

∥r∥

ℓ1+ λ

∥Fr − g∥

ℓ1

ψ3(r) =∥

∥r∥

ℓ1+ λ

∥Fr − g∥

2

ℓ2

池田 (統計数理研究所) 関連する手法 4/Aug/2009 12 / 52

関連する問題 地震学

地震学

池田 (統計数理研究所) 関連する手法 4/Aug/2009 13 / 52

関連する問題 地震学

地震学

マイクで受けとる信号を g(t) とすると,

g(t) =

∫ t

0f(t− τ)r(τ)dt = f ∗ r(t)

f(t) はスピーカーからの音に対応し,r(t) はインパルス応答に対応する.時間方向に離散化して,

g(i∆t) =∑

j

f((i− j + 1)∆t)r(j∆t)

池田 (統計数理研究所) 関連する手法 4/Aug/2009 14 / 52

関連する問題 地震学

地震学

F = (Fij), Fij = f((i− j + 1)∆t),

r = (r1, · · · , rn)t, ri = r(i∆t),

g = (g1, · · · , gn)t, gi = g(i∆t)

とおくと

g(i∆t) =∑

j

f((i− j + 1)∆t)r(j∆t)

gi =∑

j

Fijrj

g = Fr.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 15 / 52

関連する問題 地震学

地震学

r の成分は反射が起る時にしか成分がないことから,ほとんどが 0 であると仮定できる.

0time

r(t)

池田 (統計数理研究所) 関連する手法 4/Aug/2009 16 / 52

関連する問題 地震学

地震学

このとき,r を求める方法として,以下のコスト関数の最小化が提案された.

ψ1(r) =∥

∥r∥

ℓ1+ λ

∥Fr − g∥

ℓ1

Taylor, Banks, & McCoy (1979). “Deconvolution with the ℓ1 norm,”Geophysics, 44(1), 39-52.

さらに発展したものが提案された.

ψ3(r) =∥

∥r∥

ℓ1+ λ

∥Fr − g∥

2

ℓ2

Santosa & Symes (1986). “Linear inversion of band-limited reflectionseismograms,” SIAM J. Sci. Stat. Comput., 7(4), 1307-1330.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 17 / 52

関連する問題 地震学

地震学

これを書き換えれば

ψ3(r) =∥

∥r∥

ℓ1+ λ

∥Fr − g∥

2

ℓ2

=∥

∥g − Fr∥

2

ℓ2+

1

λ

∥r∥

ℓ1

これを最小にする問題は

r = arg minr

[

∥g − Fr∥

2

ℓ2+

1

λ

∥r∥

ℓ1

]

Lasso と同じ形をしている.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 18 / 52

関連する問題 ニューラルネットワーク

2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing

池田 (統計数理研究所) 関連する手法 4/Aug/2009 19 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク

最適化問題

θ = arg minθJǫ(θ)

Jǫ(θ) = J(θ) + ǫ∥

∥θ∥

ℓ1

池田 (統計数理研究所) 関連する手法 4/Aug/2009 19 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク

y を x の関数として表現する.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 20 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク

典型的な三層パーセプトロンでは,

F (x;θ) =∑

i

vif(

wi · x)

という関数によって y を近似する.ただし θ は wij と vi をまとめて表現したもの.ここで wi = (wi1, · · · , wim),また

f(x) =ex

1 + ex

というシグモイド関数を用いることが多い.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 21 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク

パラメータの推定

複数のサンプル {yt,xt} からパラメータ {vj} {wij} を学習する.y = (y1, · · · , yn)t, F ({x};θ) =

(

F (x1;θ), F (x2;θ), · · · , F (xn;θ))t

J(θ) =∥

∥y − F ({x};θ)∥

2

ℓ2

という評価関数を用いて,これを小さくする vi や wij を選ぶ.

具体的にはバックプロパゲーションを用いる.

バックプロパゲーション

vj ← vj − η∂J(θ)

∂vj, wij ← wij − η

∂J(θ)

∂wij

池田 (統計数理研究所) 関連する手法 4/Aug/2009 22 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク

J ではなく,Jǫ を用いる方法が提案された.

Ishikawa (1996)

Jǫ(θ) = J(θ) + ǫ∥

∥θ∥

ℓ1

Ishikawa (1996). “Structural learning with forgetting,” Neural Networks,9(3), 509-521.

Ishikawa (1994). “Structural learning and its applications to rule extraction,”Proceedings of ICNN’94, 354-359.

Ishikawa (1989). “A structural learning algorithm with forgetting of linkweights,” Proceedings of IJCNN.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 23 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク: 忘却を伴う学習法

‖ · ‖ℓ1 の項を付け加えるといくつかのパラメータが 0 となる (忘却).以下で説明する

Ishikawa (1996)

∂Jǫ(θ)

∂θk=∂J(θ)

∂θk+ ǫ sgn(θk)

池田 (統計数理研究所) 関連する手法 4/Aug/2009 24 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク: 忘却を伴う学習法

J ǫ|θi|

池田 (統計数理研究所) 関連する手法 4/Aug/2009 25 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク: 忘却を伴う学習法

Jǫ を最小にする θi を求めると.ǫ と J の関係によって,θi = 0 が最適解となる.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 26 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク: 忘却を伴う学習法

−ǫ ≤ ∂J

∂θi

θi=0

≤ ǫ

微分係数が小さいときパラメータは 0 で極小値をとる.

ネットワークの構造を学習できる

池田 (統計数理研究所) 関連する手法 4/Aug/2009 27 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワーク: 忘却を伴う学習法

Ishikawa (1996), Neural Networks, 9(3), 509-521

ǫ = 0 ǫ > 0

パラメータの値ではなく,J の微分値によってパラメータが 0 となる.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 28 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワークからロジスティック回帰へ

仮りに一層のパーセプトロンを考えると,ロジスティック回帰と同様の形をしている.

f(

w · x)

=ew·x

1 + ew·x

これは x の値のよって [0, 1] の値を取る.Y という確率変数の分布を

p(y|x;w) =ew·x

1 + ew·x

として表現する.したがって,Ishikawa (1996) と同様に忘却項を入れれば,ロジステック回帰の変数選択法となる.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 29 / 52

関連する問題 ニューラルネットワーク

ニューラルネットワークからロジスティック回帰へ

対数尤度は

L(w) =∑

t

logeytw·xt

1 + ew·xt

であるから,

w = arg minw

[

L(w) + λ∥

∥w∥

ℓ1

]

を最小にすれば良い.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 30 / 52

関連する問題 ニューラルネットワーク

カーネルロジスティック回帰へ

今,x をそのまま入力として使っているが,ここにカーネル関数 k(xi,x)を使うこともできるだろう.カーネルとしては例えば

k(xi,x) = exp(

−‖x− xi‖22σ2

)

.

たとえば w · x の代わりに∑

i

wik(xi,x) = w · k(x), where k(x) = (k(xi,x), · · · , k(xn,x))t

という関数を用いれば,

池田 (統計数理研究所) 関連する手法 4/Aug/2009 31 / 52

関連する問題 ニューラルネットワーク

カーネルロジスティック回帰へ

対数尤度は

L(w) =∑

t

logeytw·k(xt)

1 + ew·k(xt)

であるから,

w = arg minw

[

L(w) + λ∥

∥w∥

ℓ1

]

として推定ができる.この問題に関しては比較的高速な学習法も提案されている.

Krishnapuram, Carin, Figueiredo, & Hartemink (2005). “Sparse multinomiallogistic regression: Fast algorithms and generalization bounds,” IEEE tr.PAMI, 27(6), 957-968.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 32 / 52

関連する問題 画像圧縮

2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing

池田 (統計数理研究所) 関連する手法 4/Aug/2009 33 / 52

関連する問題 画像圧縮

画像圧縮

最適化問題

β = arg minβ

[

∥I−

k

βkφk

2

ℓ2+ λ

∥β∥

ℓ1

]

池田 (統計数理研究所) 関連する手法 4/Aug/2009 33 / 52

関連する問題 画像圧縮

画像圧縮

画像を基底の線形和で表現する.

I(i, j) ≃ β1φ1(i, j) + φ2(i, j) + · · ·+ βnφn(i, j).

≃ β1 + β1 + · · ·+ βn .

このとき,基底をしっていれば {βi} が画像の表現となる.

β = arg minβ

[

∥I−

k

βkφk

2

ℓ2+ λ

∥β∥

ℓ1

]

λ を変化させると多くの βi が 0 となる.すると画像を圧縮できる.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 34 / 52

関連する問題 画像圧縮

正則化項と最尤推定

基底

池田 (統計数理研究所) 関連する手法 4/Aug/2009 35 / 52

関連する問題 画像圧縮

正則化項と最尤推定

基の画像

池田 (統計数理研究所) 関連する手法 4/Aug/2009 36 / 52

関連する問題 画像圧縮

λ = 0.1

0でない係数の割合 0.9765

池田 (統計数理研究所) 関連する手法 4/Aug/2009 37 / 52

関連する問題 画像圧縮

λ = 1

0でない係数の割合 0.9067

池田 (統計数理研究所) 関連する手法 4/Aug/2009 38 / 52

関連する問題 画像圧縮

λ = 10

0でない係数の割合 0.7192

池田 (統計数理研究所) 関連する手法 4/Aug/2009 39 / 52

関連する問題 画像圧縮

λ = 100

0でない係数の割合 0.3529

池田 (統計数理研究所) 関連する手法 4/Aug/2009 40 / 52

関連する問題 画像圧縮

λ = 1000

0でない係数の割合 0.1035

池田 (統計数理研究所) 関連する手法 4/Aug/2009 41 / 52

関連する問題 画像圧縮

λ = 10000

0 でない係数の割合 0.0246

池田 (統計数理研究所) 関連する手法 4/Aug/2009 42 / 52

関連する問題 Compressed Sensing

2 関連する問題地震学ニューラルネットワーク画像圧縮Compressed Sensing

池田 (統計数理研究所) 関連する手法 4/Aug/2009 43 / 52

関連する問題 Compressed Sensing

Compressed Sensing

最適化問題

minx

∥x∥

ℓ1, subject to y = Ax.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 43 / 52

関連する問題 Compressed Sensing

Lasso から Compressed Sensing へ

minx

[

∥x∥

ℓ1+ λ

∥y −Ax∥

2

ℓ2

]

この問題で λ を無限に大きくすれば,

minx

∥x∥

ℓ1, subject to y = Ax.

y の次元 n が x の次元 p に関して n ≥ p,かつ A の rank が p ならばy = Ax の解は,存在するならば唯一.したがって,最小化問題は意味を成さない.n < p ならば一般に y = Ax の解は複数存在する.その中から

∥x∥

ℓ1を最小とする x を求める.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 44 / 52

関連する問題 Compressed Sensing

Lasso から Compressed Sensing へ

x が “対象”であり,我々はその対象を “観測 (sensing)”したい.最終的には観測結果から対象を再構成したい.x を “1回”観測するとは A の行ベクトル a(l) = (al1, · · · , alp) を x に乗じる.すなわち,

yl = a(l)x

を得ることであるとする.これらを複数観測したときに,x を復元したい.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 45 / 52

関連する問題 Compressed Sensing

Lasso から Compressed Sensing へ

全ての観測をまとめたものが y

y = Ax

観測の回数 n が p と等しければ,A−1 を用いて x は必ず復元できる.nをどれくらい少なくできるかが重要.

Compresseed sensing

Donoho (2006). “Compressed sensing,” IEEE tr. IT, 52(4), 1289-1306.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 46 / 52

関連する問題 Compressed Sensing

仮定

常に Compressed Sensing が可能なわけではない.x の成分のうち,S < p個のみが成分をもち,残りが 0 の場合を考える.次の問題を考える.

P0: ℓ0最適化

min∥

∥x∥

ℓ0, subject to y = Ax.

Chen, Donoho, & Saunders (1998). “Atomic decomposition by basispursuit,” SIAM J. on Sci. Comp., 20(1), 33-61.

Candes & Tao (2007). “The Dantzig selector: Statistical estimation when pis much larger than n,” Annals of Statistics, 35, 2313-2351.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 47 / 52

関連する問題 Compressed Sensing

仮定

P0 が唯一の解を持つ条件が明らかになってきた.その準備として,重要な考え方,RIP (Restricted isometry property) を定義する.

Definition: RIP

x のうち 2S 個だけが値をもち,残りが 0 だとする.このとき次の不等式を満たす δ があるとき A は RIP(2S, δ) があると言う.

(1− δ)∥

∥x∥

ℓ2≤

∥Ax∥

ℓ2≤ (1 + δ)

∥x∥

ℓ2

for all∥

∥x∥

ℓ0= 2S

池田 (統計数理研究所) 関連する手法 4/Aug/2009 48 / 52

関連する問題 Compressed Sensing

仮定

ℓ0 復元定理

S ≥ 1 とする.A は RIP を持ち δ2S < 1 を満たすと仮定する.‖x‖ℓ0 ≤ S なる任意の x ∈ ℜp について y = Ax とするとき,

min∥

∥x∥

ℓ0, subject to y = Ax.

は唯一の解を持つ.

しかし,この最適化は x のうちどの成分が 0 でないかを見つけなければならない.これは pCS の組み合わせを全て調べる必要がある.これは計算量的に不可能.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 49 / 52

関連する問題 Compressed Sensing

ℓ1 最適化へ.

P1: ℓ1最適化

min∥

∥x∥

ℓ1, subject to y = Ax.

P1 は線形計画法 (LP) で容易に解ける.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 50 / 52

関連する問題 Compressed Sensing

ℓ1 復元定理

ℓ1 復元定理: Candes & Tao (2007)

S ≥ 1 とする.A は RIP を持ち δ2S ≤√

2− 1 を満たすと仮定する.このとき

min∥

∥x∥

ℓ1, subject to y = Ax.

min∥

∥x∥

ℓ0, subject to y = Ax.

の解は一致する.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 51 / 52

関連する問題 Compressed Sensing

A の作り方

問題となるのは A はどうやって作るか.

Aij ∼ N (0, 1)

Aij ∼ ±1 with probability 1/2

のようにランダムに作ることで,RIP(2S,√

2− 1) を高い確率で持つように構成できる.

池田 (統計数理研究所) 関連する手法 4/Aug/2009 52 / 52