多様体学習に基づくマルチモジュール強化学習...Johkou、Kawahara、Yairi (ICRP,...

Preview:

Citation preview

多様体学習に基づくマルチモジュール強化学習

世の中には非線形な挙動を示す確率システムが溢れているかも

もし非線形確率システムの制御が可能になれば

植野 剛1, 河原 吉伸2, 鷲尾 隆2

世界を支配することができるかも

1科学研究機構 湊離散構造処理系プロジェクト 2大阪大学産業総合研究所

あまり難しい事を考えず、地に足を着いた非線形確率システムの制御問題の基礎的な技術開発に取り組む

湊離散構造処理プロジェクトでの位置付け

応用技術 (Engineering)

応用技術 (Engineering)

応用技術 (Engineering)

システム最適化・ 形式的検証

知識発見・ データマイニング

統計解析・ モデリング

離散構造処理系 (実装技術, “Art”)

計算理論 (Computer science / 数学)

本研究が狙う領域

現在地

残念ながら強化学習では、実装技術の議論以前に洗練された定式化がなされていない。本研究では統計学習の観点から強化学習を再考し、定式化から実装技術まで総合的に取り組んでいく

問題設定

xt+1 = f(xt,ut) + wt

コスト汎関数

目的

G[π](x) = Eπ

�n−1�

i=1

�(xi,ui) + g(xn)

�����x1 = x

π∗ = arg minπ

G[π](x1)

状態: x ∈ X, X ∈ R|X|

行動: u ∈ U,U ∈ R|U |

システムノイズ: w非線形関数: f : X × U �→ R|X|

制御関数: π : X �→ U

コスト汎関数を最小とする関数  を見つける π∗

ut = π(xt)

システム方程式

制御器

コスト: � : X × U �→ Rg : X �→ R終端コスト:

* 一般に最適制御問題であれば �(x,u) = x�Qx + u�Ru

アプローチ: マルチモジュール強化学習 状態空間を複数の線形部分空間に分割し、分割した各部分空間上で線形予測器と線形制御器を対としたモジュールを導入する。

ω ω ω

予測器 (Module 1)

予測器 (Module 3)

予測器 (Module 2)

モジュール

線形予測器 線形制御器 uk = Lkxx̂k = Akx + Bku

モジュール

線形予測器 線形制御器 uk = Lkxx̂k = Akx + Bku

モジュール

線形予測器 線形制御器 uk = Lkxx̂k = Akx + Bku

モジュール

線形予測器 線形制御器 uk = Lkxx̂k = Akx + Bku

モジュール

線形予測器 線形制御器 x̂K = AKx + BKu uK = LKx

予測器によりどの部分空間に属しているか予測し、予測の確信度に応じて各モジュールの出力を重み付けして足し合わせる

u =�K

k=1 qkuk

予測の確信度 各モジュールの出力

ω

ω

機械学習で研究されている多様体学習 (Johkou et al.,2010)を用いてシステムを低次元非線形多様体に埋め込み、非線形多様体上でアライメントを考慮して部分空間に分割する。

本研究の目的

(元の空間) (低次元多様体上)

Module 1

Module 3 Module 4 Module 5

Module 2

マルチモジュール強化学習の鍵はシステムのダイナミクスの特徴を捉えて効率良く行う部分空間に分割を行うことである

均一に配置されいてることが望ましい →アライメントを考慮

システムの実効的な次元は低い →特徴抽出が重要

ω ω З 小沢氏 小沢チルドレン 鳩山氏

菅氏 岡田氏

枝野氏

仙石氏

本研究のモデル: スイッチング線形動的モデル 観測

(観測変数: ) x1x2x3x4

x ∈ X

z2

z1

z3

z4

低次元非線形多様体 (潜在変数: ) z ∈ Z

モジュール選択器 (潜在変数: ) c = {1, · · · ,K}

モジュールは線形予測器(線形動的モデル)と線形制御器で構成する p(zt|zt−1,ut−1ct = c) = N (Aczt−1 + Bcut−1,Σc)

p(xt|zt, ct = c) = N (Cczt,Σ�c)

p(ut|xt, ct = c) = N (Lcxt,Ψ�c)

は混合ガウス分布になる p(zt|zt−1,ut−1), p(ut|xt)

c = 1

c = 2

c = 3

c = 4

c = 5

z1

z2

z3

z4

[観測]

[行動]

ct ct+1ct−1

ut−1 ut ut+1

Graphical Model

zt−1 zt zt+1

xt+1xtxt−1

観測変数

潜在変数

[モジュール]

[多様体]

スイッチング線形動的モデル モジュール選択器

p(ct|zt−1) =�K

k=1 µ(zt−1)ck,t(1− µ(zt−1))(1−ck,t)

多様体上の遷移モデル

観測モデル p(xt|zt, ct = c) = N (Cczt,Σ�

c)

制御モデル p(ut|xt, ct = c) = N (Lcxt,Ψ�

c)

p(ut|zt, ct = c) = N (Lczt,Ψ�c)

1. 2.

p(zt|zt−1,ut−1, ct = c) = N (Aczt−1 + Bcut−1,Σc)

パラメータ を学習する {Ac,Bc,Cc,Σc,Σ�c,Lc,Ψ�

c}

パラメータ学習 予測器と制御器の学習は別々に実行する 1.  予測器パラメータの学習

2.  制御器パラメータ学習 学習した予測器に基づき、 Expectation-Maximization (EM) 強化学習法 により制御器パラメータ を学習する

線形動的システムの緩和解法の1種である正準相関分析に基づく部分空間法(Katayama, 2005)にアライメント規範の混合確率モデルの学習法(Verbeek, 2006)を組み合わせて予測器パラメータ        を学習する。

{Ac,Bc,Cc,Σc,Σ�c}

Johkou、Kawahara、Yairi (ICRP, 2010) “Learning non-linear dynamical systems by alignment of local linear models”

{Lc,Ψ�c}

(Dayan & Hinton, 1997)

部分空間法 システム同定分野で研究されている線形動的モデルの緩和パラメータ推定法 ・最尤推定法(統計・機械学習)

・部分空間法 (Katayama, 2005) EMアルゴリズムによる反復解法

観測から潜在変数、状態ベクトルを推定する。その後、推定した状態ベクトルを元に最小二乗法により、動的モデルのパラメータを決定する(解析的に解が求まる)

過去の入出力が張る空間

未来の入力が張る空間 未来の出力

未来の出力 の予測値

局所線形モデルのアライメント Johkou、Kawahara、Yairi (ICRP, 2010) “Learning non-linear dynamical systems by alignment of local linear models”

ct ct+1ct−1

ut−1 ut

zt−1 zt zt+1

xt+1xtxt−1

(元の生成モデル)

正準相関分析(CCA)に基づく部分空間法 (Akaike, 1974) を確率モデル化し、それを混合モデルに拡張している

ct

zt

Xp = [xi−1, · · · ,xi−1−k]Xf = [xi, · · · ,xi+k](緩和モデル)

Xf

過去の観測: 未来の観測:

Xp

は独立同一分布から サンプリング

zt

“状態とは、未来(過去)を予測するために必要な過去(未来)情報を縮約 もの”

多様体への埋め込み Johkou、Kawahara、Yairi (ICRP, 2010) “Learning non-linear dynamical systems by alignment of local linear models”

  (Verbeek, 2006)の方法論に則り,部分空間法の潜在変数モデルの多様体上への埋め込みを求める.

尤度

L� =n�

i=1

[log p(y̌k(i),yk(i))−D(qi(x)�p(x)|y̌k(i),yk(i))]

事後分布が正規分布から離れる事に対するペナルティ (  は低次元多様体の大域座標上での分布) ⇒ つまり,推定後の分布ができるだけ単峰になるように推定

KLダイバージェンス

qi(x) = N (xn,Σn)

フィルタリング

ct ct+1ct−1

ut−1 ut

zt−1 zt zt+1

xt+1xtxt−1

フィルタリングの確率モデル

緩和解法で求めた予測器パラメータを用いて、オリジナルの生成モデルに基づきフィルタリングを行う

p(zi+1|x1:i+1,u1:i+1) ∝�

ci+1∈{1,··· ,K}

p(ci+1|xi+1)p(xi+1,ui+1|zi+1, ci+1)p(zi+1|x1:i,u1:i, ci+1)

p(zi+1|x1:i,u1:i) =� �

ci+1∈{1,··· ,K}

p(ci+1|zt)p(zi+1|zi,ui, ci+1)p(zi|x1:i,u1:i)dzi

p(zi|x1:i,u1:i) =�

ci∈x1:i

p(ci|x1:i,u1:i)p(zi|x1:i,u1:i, ci)

時間経過とともに混合要素が 増加していくため計算困難

ラプラス近似

≈ N (µ,Σ)分布の最頻値 事後分布の共分散

制御器パラメータの学習 コスト関数 G(x1;Θ) = E

�n−1�

i=1

�(xi,ui) + g(xn)

�����x1 = x;Θ

�Θ = {L1, · · · ,LK ,Ψ1, · · · ,ΨK}

コスト関数の上限

動的計画法により最適な制御パラメータは非線形代数方程式の解として得られる。しかし解くのは容易ではない

コスト関数の上限を利用して、逐次的な最適化を行う

1)    の期待値を評価、2)   の最大化を繰り返すことでコスト関数の単調増加が保証される(Dayan, Hinton, 1997)

− lnG(x1;Θ) ≤ E�− ln p(x2:n, z1:n, c1:n,u1:n|x1,Θ)

�n−1�

i=1

�(xi,ui) + g(xn)

������x1;�

� �� �=Q(Θ,Θ�)

+const

Q(Θ,Θ�) Q(Θ,Θ�)

アルゴリズム: 制御パラメータの学習

制御出力の決定

1.  サンプリングにより       を評価する  2.  を解く 3.   を  に代入して再び1に戻る。収束まで反復を繰り返す

= E�

n−1�

i=1

n−1�

i�=i

∂Θln p(ut|xt, ct;Θ) {�(xi� ,ui�) + g(xn)}

�����x1;�

∂ΘQ(Θ,Θ�) = E

��n−1�

i=1

∂Θln p(ut|xt, ct;Θ)

��n−1�

i�=i

�(xi� ,ui�) + g(xn)

������x1;�

∂ΘQ(Θ,Θ�) = 0 は期待値を評価できれば解析解が求まる 

∂∂ΘQ(Θ,Θ�)

Q(Θ,Θ�) = 0Θ Θ�

各時刻で事後分布 による条件付き期待値を出力する 事後分布の推定はフィルタリング同様ラプラス近似を使う

u�i = E [ui|x1:i;Θ]

p(ui|x1:i;Θ)

今後の予定 6月 7月 8月 9月

計算機シミュレーション

国際会議に投稿

10月

Acrobot Robot Arm

実ロボット実験

ヒューマノイド 今後の課題

•  制御器パラメータ学習のロバスト化 (γダイバージェンスに基づく制御器学習) •  動的計画法による非線形代数方程式の数値解法の開発 •  能動学習によるシステム同定 

Recommended