20
End To End Training Deep Visuomotor Policy 2016/10/01 mabonki0725 Journal of Machine Learning Research 17 (2016) 1-40

End to end training with deep visiomotor

Embed Size (px)

Citation preview

Page 1: End to end training with deep visiomotor

End To End TrainingDeep Visuomotor Policy

2016/10/01mabonki0725

Journal of Machine Learning Research 17 (2016) 1-40

Page 2: End to end training with deep visiomotor

概要1

• ロボットの視覚による連結アームの最適制御

Deep Learning

機械学習 現代制御理論

統合モデルで実現

Page 3: End to end training with deep visiomotor

概要2• 知覚・制御システムはDQN初めて達成

– DeepLearning+強化学習– 人間を超えるゲーム得点を達成– しかし自動制御は簡単なレバーとボタン 

• 本報告はロボットの視覚で複雑な操作を実現– ハンガー掛け 嵌め込み 釘抜き ボトルキャップ締め

• 視覚と軌道制御の統合モデルで実現– DeepLearning + 現代制御理論 + 機械学習 

• 制約付最適化(Guided Policy Search)モデルで達成– BregmannADMM(BADMM)のフレームで解く

• 本論文は知覚ロボットの論文では殆ど参照されている

Page 4: End to end training with deep visiomotor

最終目標(End to End) • 最終目標 視覚による最適方策πの学習

θ:ニューロ重み Ut:モータトルクの信号 Ot:ロボットのカメラ画像

Page 5: End to end training with deep visiomotor

Guided Policy Seachを採用

• ①知覚学習–知覚的に最適方策πを見つける–最適方策はDeepLearningで解く– しかしこの方策は制御上実現できるか不明

• ②現代制御理論LQRによる最適制御–移動目標への軌道pを逆軌道問題で解く

• 知覚学習の最適方策πと最適制御pは徐々になら一致できる(BADMM法)–現代制御(Guide)とする最適方策(Policy)モデル

Page 6: End to end training with deep visiomotor

4つの学習の統合アームの学習 観察からの学習

DeepLearngin事前学習

観察データ

②現代制御 ①知覚学習

Guided PolciySearch

一致

Page 7: End to end training with deep visiomotor

画像と制御は分離して事前学習

240*240 RGB pixel CNN 4 層 2*32 Softmax 2*20 Neuro

7 モータトルク

robotのアームと物体の事前学習 モータトルクの事前学習

見える場所のみ特徴量を学習する

Page 8: End to end training with deep visiomotor

Guided Policy Search知覚学習と実現できる制御を一致させる

知覚学習π=現代制御御p の制約下で軌道コストを最小化

制御の分布で動作させる

状態をsamplingする

sampling(状態 観察)から知覚学習πを求める 

現代制御での実現可能な制御の分布pを求める

一致

Page 9: End to end training with deep visiomotor

制約付最適化問題 制約条件下の軌道τのコストの最小化

Xt:状態(物体、腕、手先) Ut:操作(モータ信号)

状態変化の分布

制約条件

目標関数

d:物体までの距離コスト関数

コスト関数

軌道

知覚最適方策πと現実制御pの一致

Page 10: End to end training with deep visiomotor

BADMM法Guided Policy Seachの解法

現代制御理論

DeepLearning

θ p λの3パラメータの最適化を行う

最適化問題

BADMM法:制約をDKL(P||π)=0とするラグランジェ乗数λの最適化問題

※λtUtの内積はコストに近似可能とする

DKL(P||π)カルバックラー・ダイバージェンス

Page 11: End to end training with deep visiomotor

①知覚学習(DeepLearning)

知覚された最適方策をガウス分布とする

最尤値=DeepLearningの目的値

知覚学習πθのθが最尤値になる様にDeepLearningで解く

の平均と分散は

はラグランジェ乗数と制御Utの内積

t

Ttt

tT

tt

oofo

oofo

,

,

θをDeepLearnngで解く

Page 12: End to end training with deep visiomotor

②現代制御LQRによる最適化

実現制御

LQRモデル

Page 13: End to end training with deep visiomotor

LQR (逆軌道問題を解く)

https://studywolf.wordpress.com/2016/02/03/the-iterative-linear-quadratic-regulator-method/

目標移動の終端から順番に制御を算出する(逆制御法)

目的関数

微小制御幅

2次線形近似

現代制御理論:ハミルトン・ヤコビ法で解く

Page 14: End to end training with deep visiomotor

サンプリング を回帰してパラメータ{fxt fut fct Ft}を算出

移動後の遷移モデルモータトルクには誤差 : 制御Ut後の状態Xt+1を線形ガウス分布で推定 

高次元では厳しい

サンプリング より混合ガウス分布でp(Xt+1|Ut,Xt)で遷移を推定

変分ベイズ近似 : 逆ウィシャドー事前分布による混合ガウス分布推定 

はサンプルの平均と分散

実験では20個の混合ガウス分布が出現 

但し 制御Utは前軌道との相違範囲 に保つ

Page 15: End to end training with deep visiomotor

混合ガウス分布(移動の誤差)を解く

K番目分布の混合比率

sample毎の混合比率r1 r5以外は縮退

ウィシャドー分布

変分ベイズ実装結果

Page 16: End to end training with deep visiomotor

遷移モデルの改善状態

Page 17: End to end training with deep visiomotor

End To End 学習の結果訓練と同条件 対象の移動 異物の存在

Page 18: End to end training with deep visiomotor

End To End学習後特徴量

Deep Learning による学習後の特徴量 物体とロボットの手に生成されている

Page 19: End to end training with deep visiomotor

事前と事後の特徴量の変化

○ 画像での事前学習での特徴量

× End To End 学習後での特徴量

対象物とロボットの手に集中

対象物とロボットの手の間にも存在

Page 20: End to end training with deep visiomotor

まとめ

1.目標が実現するまで①と②が一致できる範囲で徐々に動作させる–①知覚の最適方策はDeepLearningで解く–②実現制御は現代制御理論LQRで解く–①と②の一致する様にBADMM法で解く–制御後の位置は混合ガウス分布の確率に従う

2.DeepLearning+現代制御理論+機械学習の統合モデルで実現

3.本報告は画期的なDQNをロボット制御に適応したモデル