End to end training with deep visiomotor

End To End TrainingDeep Visuomotor Policy

2016/10/01mabonki0725

Journal of Machine Learning Research 17 (2016) 1-40

概要１

• ロボットの視覚による連結アームの最適制御

Deep Learning

機械学習現代制御理論

統合モデルで実現

概要２• 知覚・制御システムはDQN初めて達成

– DeepLearning＋強化学習– 人間を超えるゲーム得点を達成– しかし自動制御は簡単なレバーとボタン　

• 本報告はロボットの視覚で複雑な操作を実現– ハンガー掛け　嵌め込み　釘抜き　ボトルキャップ締め

• 視覚と軌道制御の統合モデルで実現– DeepLearning　＋　現代制御理論　＋　機械学習　

• 制約付最適化(Guided Policy Search)モデルで達成– BregmannADMM(BADMM)のフレームで解く

• 本論文は知覚ロボットの論文では殆ど参照されている

最終目標(End to End)　• 最終目標　視覚による最適方策πの学習

θ:ニューロ重み Ut：モータトルクの信号 Ot：ロボットのカメラ画像

Guided Policy Seachを採用

• ①知覚学習–知覚的に最適方策πを見つける–最適方策はDeepLearningで解く– しかしこの方策は制御上実現できるか不明

• ②現代制御理論LQRによる最適制御–移動目標への軌道pを逆軌道問題で解く

• 知覚学習の最適方策πと最適制御ｐは徐々になら一致できる（BADMM法）–現代制御（Guide)とする最適方策（Policy)モデル

４つの学習の統合アームの学習観察からの学習

DeepLearngin事前学習

観察データ

②現代制御 ①知覚学習

Guided PolciySearch

一致

画像と制御は分離して事前学習

240*240 RGB pixel CNN 4 層 2*32 Softmax 2*20 Neuro

7　ﾓｰﾀﾄﾙｸ

robotのアームと物体の事前学習モータトルクの事前学習

見える場所のみ特徴量を学習する

Guided Policy Search知覚学習と実現できる制御を一致させる

知覚学習π=現代制御御p　の制約下で軌道コストを最小化

制御の分布で動作させる

状態をsamplingする

sampling(状態　観察)から知覚学習πを求める　

現代制御での実現可能な制御の分布pを求める

一致

制約付最適化問題　制約条件下の軌道τのコストの最小化

Xt:状態（物体、腕、手先）　Ut:操作（モータ信号）

状態変化の分布

制約条件

目標関数

d:物体までの距離コスト関数

コスト関数

軌道

知覚最適方策πと現実制御pの一致

BADMM法Guided Policy Seachの解法

現代制御理論

DeepLearning

θ p λの３パラメータの最適化を行う

②

①

最適化問題

BADMM法:制約をDKL(P||π)=0とするラグランジェ乗数λの最適化問題

※λtUtの内積はコストに近似可能とする

DKL(P||π)カルバックラー・ダイバージェンス

①知覚学習（DeepLearning)

知覚された最適方策をガウス分布とする

最尤値＝DeepLearningの目的値

知覚学習πθのθが最尤値になる様にDeepLearningで解く

の平均と分散は

はラグランジェ乗数と制御Utの内積

①

t

Ttt

tT

tt

oofo

oofo

,

,

θをDeepLearnngで解く

②現代制御LQRによる最適化

②

実現制御

ＬＱＲモデル

LQR （逆軌道問題を解く）

https://studywolf.wordpress.com/2016/02/03/the-iterative-linear-quadratic-regulator-method/

目標移動の終端から順番に制御を算出する（逆制御法）

目的関数

微小制御幅

2次線形近似

現代制御理論：ハミルトン・ヤコビ法で解く

サンプリングを回帰してパラメータ{fxt fut fct Ft}を算出

移動後の遷移モデルモータトルクには誤差 : 制御Ut後の状態Xt+1を線形ガウス分布で推定　

高次元では厳しい

サンプリングより混合ガウス分布でp(Xt+1|Ut,Xt)で遷移を推定

変分ベイズ近似：逆ウィシャドー事前分布による混合ガウス分布推定　

はサンプルの平均と分散

実験では２０個の混合ガウス分布が出現　

但し　制御Utは前軌道との相違範囲に保つ

混合ガウス分布（移動の誤差）を解く

K番目分布の混合比率

sample毎の混合比率r1 r5以外は縮退

ウィシャドー分布

変分ベイズ実装結果

遷移モデルの改善状態

End To End 学習の結果訓練と同条件対象の移動異物の存在

End To End学習後特徴量

Deep Learning による学習後の特徴量　物体とロボットの手に生成されている

事前と事後の特徴量の変化

○　画像での事前学習での特徴量

×　End To End 学習後での特徴量

対象物とロボットの手に集中

対象物とロボットの手の間にも存在

まとめ

1.目標が実現するまで①と②が一致できる範囲で徐々に動作させる–①知覚の最適方策はDeepLearningで解く–②実現制御は現代制御理論LQRで解く–①と②の一致する様にBADMM法で解く–制御後の位置は混合ガウス分布の確率に従う

2.DeepLearning+現代制御理論＋機械学習の統合モデルで実現

3.本報告は画期的なDQNをロボット制御に適応したモデル

Data & Analytics

End to end training with deep visiomotor