49
機械学習における連続最適化の新しいトレンド 冨岡 亮太 1 共同研究者: 鹿島久嗣 1 、杉山将 2 、鈴木大慈 1 、林浩平 3 1 東京大学 2 東京工業大学 3 奈良先端科学技術大学院大学 2011-10-25 @ RAMP 2011 冨岡 亮太 (東大) RAMP2011 2011-10-25 1 / 37

機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

機械学習における連続最適化の新しいトレンド

冨岡亮太 1

共同研究者: 鹿島久嗣 1、杉山将 2、鈴木大慈 1、林浩平 3

1 東京大学 2 東京工業大学 3 奈良先端科学技術大学院大学

2011-10-25 @ RAMP 2011

冨岡亮太 (東大) RAMP2011 2011-10-25 1 / 37

Page 2: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

最適化業界-機械学習業界の間の需給ミスマッチ

最適化業界I 最適化のことよく分からなくても使えるツールボックスが必要I ワンストップサービス— CVX (Grant & Boyd)I 連続最適化なら内点法 (80年代~)

機械学習業界I モデルが変わってもすぐ実装を変更できる方がよい.I なるべく簡単な手法が好ましい.I 並列化できるとなおよい.

⇒古い手法(60-70年代)がどうやら熱い.

I (Accelerated) Proximal gradient methodsI Dual decomposition (Uzawa’s method)I Alternating Direction Method of Multipliers (ADMM)

冨岡亮太 (東大) RAMP2011 2011-10-25 2 / 37

Page 3: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

最適化業界-機械学習業界の間の需給ミスマッチ

最適化業界I 最適化のことよく分からなくても使えるツールボックスが必要I ワンストップサービス— CVX (Grant & Boyd)I 連続最適化なら内点法 (80年代~)

機械学習業界I モデルが変わってもすぐ実装を変更できる方がよい.I なるべく簡単な手法が好ましい.I 並列化できるとなおよい.

⇒古い手法(60-70年代)がどうやら熱い.I (Accelerated) Proximal gradient methods

I Dual decomposition (Uzawa’s method)I Alternating Direction Method of Multipliers (ADMM)

冨岡亮太 (東大) RAMP2011 2011-10-25 2 / 37

Page 4: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

最適化業界-機械学習業界の間の需給ミスマッチ

最適化業界I 最適化のことよく分からなくても使えるツールボックスが必要I ワンストップサービス— CVX (Grant & Boyd)I 連続最適化なら内点法 (80年代~)

機械学習業界I モデルが変わってもすぐ実装を変更できる方がよい.I なるべく簡単な手法が好ましい.I 並列化できるとなおよい.

⇒古い手法(60-70年代)がどうやら熱い.I (Accelerated) Proximal gradient methodsI Dual decomposition (Uzawa’s method)

I Alternating Direction Method of Multipliers (ADMM)

冨岡亮太 (東大) RAMP2011 2011-10-25 2 / 37

Page 5: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

最適化業界-機械学習業界の間の需給ミスマッチ

最適化業界I 最適化のことよく分からなくても使えるツールボックスが必要I ワンストップサービス— CVX (Grant & Boyd)I 連続最適化なら内点法 (80年代~)

機械学習業界I モデルが変わってもすぐ実装を変更できる方がよい.I なるべく簡単な手法が好ましい.I 並列化できるとなおよい.

⇒古い手法(60-70年代)がどうやら熱い.I (Accelerated) Proximal gradient methodsI Dual decomposition (Uzawa’s method)I Alternating Direction Method of Multipliers (ADMM)

機械学習における連続最適化の古いトレンド?

冨岡亮太 (東大) RAMP2011 2011-10-25 2 / 37

Page 6: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

なぜこれらの手法がいま注目されるか—スパース推定

高次元データ (サンプル数≪次元)I バイオインフォマティクス(遺伝子発現,

SNP解析,etc)I テキストマイニング(系列ラベリング,係り受け解析)

I イメージング(MRI)—圧縮センシング

構造があるデータI 協調フィルタリング—低ランク構造I グラフィカルモデル推定—グラフ構造

1

4

2

32

211

11

1

32

4

23

4

1

2

1 1Movies

Use

rs

冨岡亮太 (東大) RAMP2011 2011-10-25 3 / 37

Page 7: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

例 1: SNP(一塩基多型)解析x i : 入力 (SNP), yi = 1: 病気,yi = −1: 健康

目的: ゲノムの個人差 x i と病気になるかならないか yi の関係を知りたい.

ロジスティック回帰:2値分類規則の学習法 (yi ∈ −1,+1)

minimizew∈Rn

m∑i=1

log(1 + exp(−yi ⟨x i , w⟩))︸ ︷︷ ︸data-fit

+ λ∥w∥1︸ ︷︷ ︸Regularization

例えば,SNPの数 n = 500, 000,被験者の数 m = 5, 000事後確率最大化 (MAP)法の一種.ロジスティック損失関数:

log(1 + e−yz) = − log P(Y = y |z)

where P(Y = +1|z) = ez

1+ez .

f(x)=log(1+exp(−x))

y<x,w>

−5 0 50

0.5

1

z

σ (z

)

冨岡亮太 (東大) RAMP2011 2011-10-25 4 / 37

Page 8: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

例 2: 圧縮センシング [Candes, Romberg, & Tao 06]

低次元(ノイズ入り)観測からの信号(MRI画像)復元

minimizew∈Rn

12∥y − Ωw∥2

2 + λ∥Φw∥1

y : ノイズ入り観測信号w : 原信号Ω: Rn → Rm: 観測行列(ランダム,フーリエ変換)Φ: 原信号がスパースとなる基底への変換行列

※ Φ−1 が存在すれば,より簡単な問題

minimizew∈Rn

12∥y − Aw∥2

2 + λ∥w∥1,

(ただし A = ΩΦ−1)を解けばよい.

冨岡亮太 (東大) RAMP2011 2011-10-25 5 / 37

Page 9: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

例 3: 低ランク行列の推定 [Fazel+ 01; Srebro+ 05]

行列 X を部分的な(ノイズ入り)観測 Y から復元したい:

minimizeX

12∥Ω(X − Y )∥2 + λ∥X∥S1

where ∥X∥S1 :=r∑

j=1

σj(X ) (Schatten 1-norm)

特異値の線形和⇒特異値の意味でスパース⇒低ランク

1

4

2

32

211

11

1

32

4

23

4

1

2

1 1Movies

Use

rs

冨岡亮太 (東大) RAMP2011 2011-10-25 6 / 37

Page 10: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

例 4: 低ランクテンソルの補完 [Tucker 66]

S e n s o r s T i m eF eat ures F a c t o r s( l o a d i n g s )C o r e( i n t e r a c t i o n s )n 1 n 2 n 3 n 1 n 2

n 3r 1 r 2 r 3r 1 r 2 r 3T u c k e r d e c o m p o s i t i o nXijk =

r1∑

a=1

r2∑

b=1

r3∑

c=1

CabcU(1)ia U

(2)jb U

(c)kc

冨岡亮太 (東大) RAMP2011 2011-10-25 7 / 37

Page 11: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

単純スパース推定問題と構造付きスパース推定問題

単純スパース推定問題

minimizew

L(w) + λ∥w∥1

I SNP解析I 圧縮センシングで Φ−1 が存在する場合(ウェーブレット)I 協調フィルタリング(行列穴埋め)

構造付きスパース推定問題

minimizew

L(w) + λ∥Φw∥1

I 圧縮センシングで Φ−1 が存在しない場合(Total variation)I テンソルの Tucker分解

冨岡亮太 (東大) RAMP2011 2011-10-25 8 / 37

Page 12: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

今日の内容

単純スパース推定問題のための最適化手法I (加速付き)近接勾配法 (proximal gradient method)I Dual Augmented Lagrangian (DAL)

構造付きスパース推定問題のための最適化手法I Alternating Direction Method of Multipliers (ADMM)

冨岡亮太 (東大) RAMP2011 2011-10-25 9 / 37

Page 13: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

単純スパース推定問題のための最適化手法

(加速付き)近接勾配法 (proximal gradient method)Dual Augmented Lagrangian (DAL)

冨岡亮太 (東大) RAMP2011 2011-10-25 10 / 37

Page 14: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法 (proximal gradient method)

.

最小化問題

.

.

.

. ..

.

.

minimizew

L(w)︸ ︷︷ ︸微分可能

+ λ∥w∥1︸ ︷︷ ︸微分不可能

.

線形化/最小化

.

.

.

. ..

.

.

w t+1 = argminw

(∇L(w t)(w − w t) +

12ηt

∥w − w t∥22 + λ∥w∥1

)= argmin

w

(λ∥w∥1 +

12ηt

∥w − (w t − ηt∇L(w t))∥22

)= proxληt

(w t − ηt∇L(w t)).

xtxt+1x*

冨岡亮太 (東大) RAMP2011 2011-10-25 11 / 37

Page 15: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

Proximal operator: 射影の一般化

proxg(z) = argminx

(g(x) +

12∥x − z∥2

)

凸集合への射影: proxδC(z) = projC(z).

Soft-Threshold (g(x) = λ∥x∥1)

proxλ(z) = argminx

(λ∥x∥1 +

12∥x − z∥2

)

=

zj + λ (zj < −λ),

0 (−λ ≤ zj ≤ λ),

zj − λ (zj > λ).

λ−λ z

ST(z)

何らかの意味で分離可能な関数 r は Proxが簡単に計算できる.微分不可能でも解析的に計算できる.

冨岡亮太 (東大) RAMP2011 2011-10-25 12 / 37

Page 16: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法 (proximal gradient method)

.

近接勾配法 (Lions & Mercier 79; Figueiredo&Nowak 03; Daubechies 04;...)

.

.

.

. ..

.

.

.

. .1 適当に初期解 w0 を決める.

.

. . 2 停止条件が満たされるまで反復:

w t+1 ← proxηtλ︸ ︷︷ ︸縮小

(w t − ηt∇L(w t)︸ ︷︷ ︸勾配ステップ

).

利点: 実装が簡単.欠点: 損失項 Lのヘシアンの条件数が悪いと遅い.

別名: Forward-Backward splitting,Iterative Shrinkage/Thresholding

冨岡亮太 (東大) RAMP2011 2011-10-25 13 / 37

Page 17: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法 (proximal gradient method)

.

近接勾配法 (Lions & Mercier 79; Figueiredo&Nowak 03; Daubechies 04;...)

.

.

.

. ..

.

.

.

. .1 適当に初期解 w0 を決める.

.

. . 2 停止条件が満たされるまで反復:

w t+1 ← proxηtλ︸ ︷︷ ︸縮小

(w t − ηt∇L(w t)︸ ︷︷ ︸勾配ステップ

).

利点: 実装が簡単.欠点: 損失項 Lのヘシアンの条件数が悪いと遅い.

別名: Forward-Backward splitting,Iterative Shrinkage/Thresholding

冨岡亮太 (東大) RAMP2011 2011-10-25 13 / 37

Page 18: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法の収束レートと加速

損失項 Lが強凸,かつリプシッツ定数

∥∇L(x) −∇L(y)∥ ≤ H∥x − y∥

が存在すれば 1次収束(勾配法と同じ)強凸でない場合,ステップサイズ ηt ≤ 1/H ととることで,多項式レート

f (xk ) − f (x∗) ≤H∥x0 − x∗∥2

22k

下限O(1/k2)を達成するための加速法も提案されている.(Nesterov 07; Beck & Teboulle 09)

冨岡亮太 (東大) RAMP2011 2011-10-25 14 / 37

Page 19: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

Dual Augmented Lagrangian (DAL) [Tomioka & Sugiyama 09]

1次ブラックボックスモデルでは下限が達成されている.もう少し機械学習における問題の構造を考慮したい.

.

..

1 損失項は L(w) = fℓ(Aw)と分解できる.fℓ: ロス関数,A ∈ Rm×n:データ行列

(例 1) L(w) =12∥y − Aw∥2

2 (2乗ロス回帰)

(例 2) L(w) =m∑

i=1

log(1 + exp(−yi ⟨x i , w⟩)) (ロジスティック回帰)

.

.

.

2 スパースな解に興味があるので,解がスパースであるほど効率的な解法が望ましい.(データ行列は必ずしもスパースではない)

冨岡亮太 (東大) RAMP2011 2011-10-25 15 / 37

Page 20: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

Dual Augmented Lagrangian (DAL)法(提案手法)

.

主問題

.

.

.

. ..

.

.

minw

fℓ(Aw) + λ∥w∥1︸ ︷︷ ︸f (w)

Proximal minimization[Rockafellar 76]:

w t+1 = argminw

(f (w) +

12ηt

∥w − w t∥2)

(η0 ≤ η1 ≤ · · · )解析がしやすい.例えばf (w t+1) + 1

2ηt∥w t+1 − w t∥2 ≤ f (w t ).

実用的でない(もとの問題と同程度に難しい!)

.

双対問題

.

.

.

. ..

.

.

maxα,v

− f ∗ℓ (−α) − (λ∥ · ∥1)∗(v)

s.t. v = A⊤α

⇔Augmented Lagrangian[Powell 69; Hestenes 69]:

w t+1 = proxληt(w t + ηtA⊤αt)

αt = argminα

ϕt(α)

ϕt(α)の最小化は簡単(なめらか).ステップサイズ ηt は増加.

同値性については Rockafellar 76を参照.

冨岡亮太 (東大) RAMP2011 2011-10-25 16 / 37

Page 21: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

Dual Augmented Lagrangian (DAL)法(提案手法)

.

主問題

.

.

.

. ..

.

.

minw

fℓ(Aw) + λ∥w∥1︸ ︷︷ ︸f (w)

Proximal minimization[Rockafellar 76]:

w t+1 = argminw

(f (w) +

12ηt

∥w − w t∥2)

(η0 ≤ η1 ≤ · · · )解析がしやすい.例えばf (w t+1) + 1

2ηt∥w t+1 − w t∥2 ≤ f (w t ).

実用的でない(もとの問題と同程度に難しい!)

.

双対問題

.

.

.

. ..

.

.

maxα,v

− f ∗ℓ (−α) − (λ∥ · ∥1)∗(v)

s.t. v = A⊤α

⇔Augmented Lagrangian[Powell 69; Hestenes 69]:

w t+1 = proxληt(w t + ηtA⊤αt)

αt = argminα

ϕt(α)

ϕt(α)の最小化は簡単(なめらか).ステップサイズ ηt は増加.

同値性については Rockafellar 76を参照.

冨岡亮太 (東大) RAMP2011 2011-10-25 16 / 37

Page 22: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

Dual Augmented Lagrangian (DAL)法(提案手法)

.

主問題

.

.

.

. ..

.

.

minw

fℓ(Aw) + λ∥w∥1︸ ︷︷ ︸f (w)

Proximal minimization[Rockafellar 76]:

w t+1 = argminw

(f (w) +

12ηt

∥w − w t∥2)

(η0 ≤ η1 ≤ · · · )解析がしやすい.例えばf (w t+1) + 1

2ηt∥w t+1 − w t∥2 ≤ f (w t ).

実用的でない(もとの問題と同程度に難しい!)

.

双対問題

.

.

.

. ..

.

.

maxα,v

− f ∗ℓ (−α) − (λ∥ · ∥1)∗(v)

s.t. v = A⊤α

⇔Augmented Lagrangian[Powell 69; Hestenes 69]:

w t+1 = proxληt(w t + ηtA⊤αt)

αt = argminα

ϕt(α)

ϕt(α)の最小化は簡単(なめらか).ステップサイズ ηt は増加.

同値性については Rockafellar 76を参照.

冨岡亮太 (東大) RAMP2011 2011-10-25 16 / 37

Page 23: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

.

Dual Augmented Lagrangian法 (ℓ1-正則化)

.

.

.

. ..

.

.

.

. . 1 適当に初期解w0を決める.

.

..

2 停止条件が満たされるまで反復:

w t+1 = proxηtλ

(w t + ηtA⊤αt

)ただし,

αt = argminα∈Rm

(f ∗ℓ (−α)︸ ︷︷ ︸

損失関数 fℓ の凸共役

+1

2ηt∥proxηtλ

(w t + ηtA⊤α)∥22

)

冨岡亮太 (東大) RAMP2011 2011-10-25 17 / 37

Page 24: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

DALの利点 (ℓ1-正則化の場合)(1) Prox作用素は解析的に計算可能

w t+1 = proxηtλ

(w t + ηtA⊤αt

)(2)内部最適化は微分可能

αt = argminα

(f ∗ℓ (−α)︸ ︷︷ ︸

微分可能. A のスケーリングの影響を受けない

+1

2ηt∥proxληt

(w t + ηtA⊤α)∥2︸ ︷︷ ︸非ゼロ成分の数に比例

)

−λ 0 λ

φλ∗ (w) Φλ

∗ (w)

冨岡亮太 (東大) RAMP2011 2011-10-25 18 / 37

Page 25: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法とDALの違い:いかに変数の間の絡みを除くか目的関数 f に関する Proximationは難しい:

w t+1 = argminw

( f (w)︷ ︸︸ ︷fℓ(Aw)︸ ︷︷ ︸

変数が絡みあっている

+λ∥w∥1 +1

2ηt∥w − w t∥2

)

近接勾配法(既存): 線形にロス項を近似:

fℓ(Aw) ≅ fℓ(Aw t) + (w − w t)⊤A⊤∇fℓ(Aw t)

→現在の点 w t で最もタイト

DAL(提案法): 線形なロス項の下限

fℓ(Aw) = maxα∈Rm

(−f ∗ℓ (−α) − w⊤A⊤α

)→次の点 w t+1で最もタイト

wtwt+1

wtwt+1

冨岡亮太 (東大) RAMP2011 2011-10-25 19 / 37

Page 26: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法とDALの違い:いかに変数の間の絡みを除くか目的関数 f に関する Proximationは難しい:

w t+1 = argminw

( f (w)︷ ︸︸ ︷fℓ(Aw)︸ ︷︷ ︸

変数が絡みあっている

+λ∥w∥1 +1

2ηt∥w − w t∥2

)

近接勾配法(既存): 線形にロス項を近似:

fℓ(Aw) ≅ fℓ(Aw t) + (w − w t)⊤A⊤∇fℓ(Aw t)

→現在の点 w t で最もタイト

DAL(提案法): 線形なロス項の下限

fℓ(Aw) = maxα∈Rm

(−f ∗ℓ (−α) − w⊤A⊤α

)→次の点 w t+1で最もタイト

wtwt+1

wtwt+1

冨岡亮太 (東大) RAMP2011 2011-10-25 19 / 37

Page 27: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

近接勾配法とDALの違い:いかに変数の間の絡みを除くか目的関数 f に関する Proximationは難しい:

w t+1 = argminw

( f (w)︷ ︸︸ ︷fℓ(Aw)︸ ︷︷ ︸

変数が絡みあっている

+λ∥w∥1 +1

2ηt∥w − w t∥2

)

近接勾配法(既存): 線形にロス項を近似:

fℓ(Aw) ≅ fℓ(Aw t) + (w − w t)⊤A⊤∇fℓ(Aw t)

→現在の点 w t で最もタイト

DAL(提案法): 線形なロス項の下限

fℓ(Aw) = maxα∈Rm

(−f ∗ℓ (−α) − w⊤A⊤α

)→次の点 w t+1で最もタイト

wtwt+1

wtwt+1

冨岡亮太 (東大) RAMP2011 2011-10-25 19 / 37

Page 28: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

数値例デザイン行列 Aのコンデイションが悪くなるほど,DALの方が有利.

近接勾配法

DAL

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

冨岡亮太 (東大) RAMP2011 2011-10-25 20 / 37

Page 29: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

定理 1(厳密な最小化)

.

定義

.

.

.

. ..

.

.

w t:厳密な DAL法(∥∇ϕt(αt)∥ = 0)で得られる点列.

w∗:目的関数 f を最小化する点.

.

仮定

.

.

.

. ..

.

.

正の定数 σ が存在して

f (w t+1) − f (w∗) ≥ σ∥w t+1 − w∗∥2 (t = 0, 1, 2, . . .).

.

定理1

.

.

.

. ..

.

.

∥w t+1 − w∗∥ ≤ 11 + σηt

∥w t − w∗∥.

⇒ ηt が増加するなら,w t は w∗に超1次収束する.

冨岡亮太 (東大) RAMP2011 2011-10-25 21 / 37

Page 30: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

定理 2(近似的最小化)

.

定義

.

.

.

. ..

.

.

w t : 以下の停止基準による近似的な DAL法で得られる点列.

∥∇ϕt(αt)∥ ≤

√γηt∥w t+1 − w t∥

(1/γ: 損失関数の微分∇fℓのリプシッツ定数.

)

.

定理 2

.

.

.

. ..

.

.

定理 1と同じ仮定のもとで

∥w t+1 − w∗∥ ≤ 1√1 + 2σηt

∥w t − w∗∥.

⇒ ηt が増加するなら,w t は w∗に超1次収束する.

収束レートは厳密な場合 (∥∇ϕt(αt)∥ = 0)より少し悪い.

同程度の収束レートは内部最小化をもう少し厳しくすることで達成可能 ∥∇ϕt (α

t )∥∥w t+1−w t∥ ≤ O(1/ηt).

冨岡亮太 (東大) RAMP2011 2011-10-25 22 / 37

Page 31: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

定理 2(近似的最小化)

.

定義

.

.

.

. ..

.

.

w t : 以下の停止基準による近似的な DAL法で得られる点列.

∥∇ϕt(αt)∥ ≤

√γηt∥w t+1 − w t∥

(1/γ: 損失関数の微分∇fℓのリプシッツ定数.

)

.

定理 2

.

.

.

. ..

.

.

定理 1と同じ仮定のもとで

∥w t+1 − w∗∥ ≤ 1√1 + 2σηt

∥w t − w∗∥.

⇒ ηt が増加するなら,w t は w∗に超1次収束する.

収束レートは厳密な場合 (∥∇ϕt(αt)∥ = 0)より少し悪い.

同程度の収束レートは内部最小化をもう少し厳しくすることで達成可能 ∥∇ϕt (α

t )∥∥w t+1−w t∥ ≤ O(1/ηt).

冨岡亮太 (東大) RAMP2011 2011-10-25 22 / 37

Page 32: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

.

定理 1の証明(エッセンス)

.

.

.

. ..

.

.

w t+1は,f (w) + 12ηt

∥w − w t∥2を最小化するので,

(w t − w t+1)/ηt ∈ ∂f (w t+1) (劣微分に入る)

従って (Beck & Teboulle 09),

f (w∗) − f (w t+1) ≥⟨(w t − w t+1)/ηt , w∗ − w t+1

⟩.

w∗ wt+1

f(w∗ )

f(wt+1)

冨岡亮太 (東大) RAMP2011 2011-10-25 23 / 37

Page 33: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

.

定理 2の証明(エッセンス)

.

.

.

. ..

.

.

f (w∗) − f (w t+1) ≥⟨(w t − w t+1)/ηt , w∗ − w t+1

⟩− 1

2γ∥∇ϕt(α

t)∥2︸ ︷︷ ︸近似最小化のコスト

.

1/γ: 損失関数の微分 ∇fℓのリプシッツ定数.

w∗ wt+1

f(w∗ )

f(wt+1)

冨岡亮太 (東大) RAMP2011 2011-10-25 24 / 37

Page 34: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

構造付きスパース推定問題のための最適化手法

Alternating Direction Method of Multipliers (ADMM)

冨岡亮太 (東大) RAMP2011 2011-10-25 25 / 37

Page 35: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

拡張ラグランジュ法 [Powell 69; Hestenes 69]

.

最小化問題

.

.

.

. ..

.

.

minimizex ,z

f (x) + λ∥z∥1,

s.t. z = Φx

.

拡張ラグランジアン

.

.

.

. ..

.

.

Lη(x , z , α) = f (x) + λ∥z∥1 + α⊤(z − Φx) +η

2∥z − Φx∥2.

.

拡張ラグランジュ法

.

.

.

. ..

.

.

拡張ラグランジアンを x , z に関して最小化:(x t+1, z t+1) = argmin

x∈Rn,z∈RmLηt (x , z, αt).

ラグランジュ乗数を更新:αt+1 = αt + ηt(z t+1 − Φx t+1).

x と z の間に絡みが発生!(別々に最小化できない)冨岡亮太 (東大) RAMP2011 2011-10-25 26 / 37

Page 36: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

Alternating Direction Method of Multipliers (ADMM; Gabay

& Mercier 76)

.

拡張ラグランジアン

.

.

.

. ..

.

.

Lη(x , z , α) = f (x) + λ∥z∥1 + α⊤(z − Φx) +η

2∥z − Φx∥2.

拡張ラグランジアンを x に関して最小化:x t+1 = argmin

x∈RnLηt (x , z t , αt).

拡張ラグランジアンを z に関して最小化:z t+1 = argmin

z∈RmLηt (x

t+1, z , αt).

ラグランジュ乗数を更新:αt+1 = αt + ηt(z t+1 − Φx t+1).

今更新した x t+1が z t+1の計算に入っているところがポイント.

冨岡亮太 (東大) RAMP2011 2011-10-25 27 / 37

Page 37: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. ..

.

.

Lη(x , z , α) = f (x) + λ∥z∥1 + α⊤(z − Φx) +η

2∥z − Φx∥2.

書き直すと x t+1 = argmin

x∈RnLηt (x , z t ,αt).

z t+1 = argminz∈Rm

Lηt (xt+1, z, αt).

αt+1 = αt + ηt(z t+1 − Φx t+1).

z に関する最小化は Prox作用素 proxλ/ηt(簡単).

x に関する最小化は行列Φが変数を絡ませるのでちょっと難しい.1反復あたりのコストが同じなら近接勾配法より経験的に速い(理論的には不明)双対側での Douglas Rachford Splittingと等価⇒ステップサイズ ηによらず ADMMは安定.(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡亮太 (東大) RAMP2011 2011-10-25 28 / 37

Page 38: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. ..

.

.

Lη(x , z , α) = f (x) + λ∥z∥1 + α⊤(z − Φx) +η

2∥z − Φx∥2.

書き直すとx t+1 = argmin

x∈Rn

(f (x) +

ηt

2∥z t − Φx + αt/ηt∥2

).

z t+1 = argminz∈Rm

Lηt (xt+1, z , αt).

αt+1 = αt + ηt(z t+1 − Φx t+1).

z に関する最小化は Prox作用素 proxλ/ηt(簡単).

x に関する最小化は行列Φが変数を絡ませるのでちょっと難しい.1反復あたりのコストが同じなら近接勾配法より経験的に速い(理論的には不明)双対側での Douglas Rachford Splittingと等価⇒ステップサイズ ηによらず ADMMは安定.(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡亮太 (東大) RAMP2011 2011-10-25 28 / 37

Page 39: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. ..

.

.

Lη(x , z , α) = f (x) + λ∥z∥1 + α⊤(z − Φx) +η

2∥z − Φx∥2.

書き直すとx t+1 = argmin

x∈Rn

(f (x) +

ηt

2∥z t − Φx + αt/ηt∥2

).

z t+1 = argminz∈Rm

(λ∥z∥1 +

ηt

2∥z − Φx t+1 + αt/ηt∥2

).

αt+1 = αt + ηt(z t+1 − Φx t+1).

z に関する最小化は Prox作用素 proxλ/ηt(簡単).

x に関する最小化は行列Φが変数を絡ませるのでちょっと難しい.1反復あたりのコストが同じなら近接勾配法より経験的に速い(理論的には不明)双対側での Douglas Rachford Splittingと等価⇒ステップサイズ ηによらず ADMMは安定.(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡亮太 (東大) RAMP2011 2011-10-25 28 / 37

Page 40: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ADMM (Gabay & Mercier 76)

.

拡張ラグランジアン

.

.

.

. ..

.

.

Lη(x , z , α) = f (x) + λ∥z∥1 + α⊤(z − Φx) +η

2∥z − Φx∥2.

書き直すとx t+1 = argmin

x∈Rn

(f (x) +

ηt

2∥z t − Φx + αt/ηt∥2

).

z t+1 = argminz∈Rm

(λ∥z∥1 +

ηt

2∥z − Φx t+1 + αt/ηt∥2

).

αt+1 = αt + ηt(z t+1 − Φx t+1).

z に関する最小化は Prox作用素 proxλ/ηt(簡単).

x に関する最小化は行列Φが変数を絡ませるのでちょっと難しい.1反復あたりのコストが同じなら近接勾配法より経験的に速い(理論的には不明)双対側での Douglas Rachford Splittingと等価⇒ステップサイズ ηによらず ADMMは安定.(Lions & Mercier 76; Eckstein & Bertsekas 92)

冨岡亮太 (東大) RAMP2011 2011-10-25 28 / 37

Page 41: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

テンソルの穴埋め問題への凸最適化の適用 [Liu+09,

Signoretto +10, Tomioka+10, Gandy+11]

凸最適化の適用のポイント: テンソルの行列化 (Matricization)テンソルが Tucker分解の意味で低ランク⇔そのテンソルの行列化は(行列の意味で)低ランクn 1 n 2 n 3 n 1 n 2 n 2 n 2

n 3モード 1 行列化

n 1 n 2 n 3 n 2 n 3 n 3 n 3n 1

モード 2 行列化 X(1)

X(2)

冨岡亮太 (東大) RAMP2011 2011-10-25 29 / 37

Page 42: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

テンソルの穴埋め問題へのADMMの適用

数学的な定式化:

minimizex ,z1,...,zK∈RN

12λ

∥Ωx − y∥2 +K∑

k=1

γk ∥Z k∥S1︸ ︷︷ ︸低ランク化

,

s.t. Pkx = zk (k = 1, . . . , K ),

x は推定すべきテンソルをベクトルとして書いたもの.y ∈ RM は観測.(M ≪ N = n1n2 · · · nK )Pk はモード k 行列化の操作を行列で表現したもの.Pk

⊤Pk = I(行列化は直交変換).すべてのモードが同時に低ランクになるように正則化.

冨岡亮太 (東大) RAMP2011 2011-10-25 30 / 37

Page 43: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

テンソルの穴埋め問題へのADMMの適用

拡張ラグランジアン

Lη(x , Z kKk=1, αkK

k=1) =1

2λ∥Ωx − y∥2 +

K∑k=1

γk∥Z k∥S1

+K∑

k=1

(αk

⊤(Pkx − zk ) +η

2∥Pkx − zk∥2

).

x に関する最小化 Pk が直交行列なので解析的にO(N)で計算可能.

Z k(zk を行列として並べたもの)に関する最小化は Schatten 1-ノルムに関する Prox作用素.ラグランジュ乗数ベクトルは制約の数(モードの数)だけ必要.

冨岡亮太 (東大) RAMP2011 2011-10-25 31 / 37

Page 44: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

テンソル結果 1: 予測精度

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

10−4

10−2

100

102

Fraction of observed elements

Gen

eral

izat

ion

erro

r

As a Matrix (mode 1)As a Matrix (mode 2)As a Matrix (mode 3)ConstraintMixtureTucker (large)Tucker (exact)Optimization tolerance

提案手法 Constraintは 35%くらい見えればほぼ完璧に予測可能.ランクを前もって決める必要なし.

既存手法 Tucker (EMアルゴリズム)はランクが合っていればOK.ランクが間違っていると汎化誤差が収束しない.

冨岡亮太 (東大) RAMP2011 2011-10-25 32 / 37

Page 45: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

テンソル結果 2: 計算速度

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

Fraction of observed elements

Com

puta

tion

time

(s)

As a MatrixConstraintMixtureTucker (large)Tucker (exact)

しかも凸最適化は速い!

冨岡亮太 (東大) RAMP2011 2011-10-25 33 / 37

Page 46: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

結論

最適化(凸最適化):機械学習研究者に取って欠かせないツールブラックボックス最適化から中身を考慮した最適化へ

I 単純スパース推定I 構造付きスパース推定

理論解析の中でも最適化を含めた話が重要I Stochastic Optimization in Machine Learning (Nathan Srebro,

tutorial at ICML 2010)並列化,オンライン化などがホットな話題

I LCCC : NIPS 2010 Workshop on Learning on Cores, Clusters andClouds

冨岡亮太 (東大) RAMP2011 2011-10-25 34 / 37

Page 47: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ご清聴ありがとうございました!

宣伝Optimization for Machine Learning (MIT Press, 2011)

謝辞 これらの研究の様々な段階でコメントを頂いた土谷隆先生,小島政和先生,福島雅夫先生に感謝します.この研究は科研費 22700138および

NTTコミュニケーション科学基礎研究所の支援をうけています.

冨岡亮太 (東大) RAMP2011 2011-10-25 35 / 37

Page 48: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ReferencesRecent surveys

Tomioka, Suzuki, & Sugiyama (2011) Augmented Lagrangian Methods for Learning,Selecting, and Combining Features. In Sra, Nowozin, Wright., editors, Optimization forMachine Learning, MIT Press.

Combettes & Pesquet (2010) Proximal splitting methods in signal processing. InFixed-Point Algorithms for Inverse Problems in Science and Engineering. Springer-Verlag.

Boyd, Parikh, Peleato, & Eckstein (2010) Distributed optimization and statistical learningvia the alternating direction method of multipliers.

IST/FISTA

Moreau (1965) Proximité et dualité dans un espace Hilbertien. Bul letin de la S. M. F.

Nesterov (2007) Gradient Methods for Minimizing Composite Objective Function.

Beck & Teboulle (2009) A Fast Iterative Shrinkage-Thresholding Algorithm for LinearInverse Problems. SIAM J Imag Sci 2, 183–202.

Augmented Lagrangian

Rockafellar (1976) Augmented Lagrangians and applications of the proximal pointalgorithm in convex programming. Math. of Oper. Res. 1.

Bertsekas (1982) Constrained Optimization and Lagrange Multiplier Methods. AcademicPress.

Tomioka, Suzuki, & Sugiyama (2011) Super-Linear Convergence of Dual AugmentedLagrangian Algorithm for Sparse Learning. JMLR 12.

冨岡亮太 (東大) RAMP2011 2011-10-25 36 / 37

Page 49: 機械学習における連続最適化の新しいトレンドttic.uchicago.edu/~ryotat/talks/ramp11.pdf · 機械学習における連続最適化の新しいトレンド 冨岡亮太1

. . . . . .

ReferencesADMM

Gabay & Mercier (1976) A dual algorithm for the solution of nonlinear variational problemsvia finite element approximation. Comput Math Appl 2, 17–40.Lions & Mercier (1979) Splitting Algorithms for the Sum of Two Nonlinear Operators. SIAMJ Numer Anal 16, 964–979.Eckstein & Bertsekas (1992) On the Douglas-Rachford splitting method and the proximalpoint algorithm for maximal monotone operators.

Matrices/TensorFazal, Hindi, & Boyd (2001) A Rank Minimization Heuristic with Application to MinimumOrder System Approximation. Proc. of the American Control Conference.Srebro, Rennie, & Jaakkola (2005) Maximum-Margin Matrix Factorization. Advances inNIPS 17, 1329–1336.Cai, Candès, & Shen (2008) A singular value thresholding algorithm for matrix completion.Mazumder, Hastie, & Tibshirani (2010) Spectral Regularization Algorithms for LearningLarge Incomplete Matrices. JMLR 11, 2287–2322.Tomioka, Hayashi, & Kashima (2011) Estimation of low-rank tensors via convexoptimization. arXiv:1010.0789.

Total variationRudin, Osher, Fetemi. (1992) Nonlinear total variation based noise removal algorithms.Physica D: Nonlinear Phenomena, 60.Goldstein & Osher (2009) Split Bregman method for L1 regularization problems. SIAM J.Imag. Sci. 2.

冨岡亮太 (東大) RAMP2011 2011-10-25 37 / 37