Upload
masato-nakai
View
502
Download
5
Embed Size (px)
Citation preview
End To End TrainingDeep Visuomotor Policy
2016/10/01mabonki0725
Journal of Machine Learning Research 17 (2016) 1-40
概要1
• ロボットの視覚による連結アームの最適制御
Deep Learning
機械学習 現代制御理論
統合モデルで実現
概要2• 知覚・制御システムはDQN初めて達成
– DeepLearning+強化学習– 人間を超えるゲーム得点を達成– しかし自動制御は簡単なレバーとボタン
• 本報告はロボットの視覚で複雑な操作を実現– ハンガー掛け 嵌め込み 釘抜き ボトルキャップ締め
• 視覚と軌道制御の統合モデルで実現– DeepLearning + 現代制御理論 + 機械学習
• 制約付最適化(Guided Policy Search)モデルで達成– BregmannADMM(BADMM)のフレームで解く
• 本論文は知覚ロボットの論文では殆ど参照されている
最終目標(End to End) • 最終目標 視覚による最適方策πの学習
θ:ニューロ重み Ut:モータトルクの信号 Ot:ロボットのカメラ画像
Guided Policy Seachを採用
• ①知覚学習–知覚的に最適方策πを見つける–最適方策はDeepLearningで解く– しかしこの方策は制御上実現できるか不明
• ②現代制御理論LQRによる最適制御–移動目標への軌道pを逆軌道問題で解く
• 知覚学習の最適方策πと最適制御pは徐々になら一致できる(BADMM法)–現代制御(Guide)とする最適方策(Policy)モデル
4つの学習の統合アームの学習 観察からの学習
DeepLearngin事前学習
観察データ
②現代制御 ①知覚学習
Guided PolciySearch
一致
画像と制御は分離して事前学習
240*240 RGB pixel CNN 4 層 2*32 Softmax 2*20 Neuro
7 モータトルク
robotのアームと物体の事前学習 モータトルクの事前学習
見える場所のみ特徴量を学習する
Guided Policy Search知覚学習と実現できる制御を一致させる
知覚学習π=現代制御御p の制約下で軌道コストを最小化
制御の分布で動作させる
状態をsamplingする
sampling(状態 観察)から知覚学習πを求める
現代制御での実現可能な制御の分布pを求める
一致
制約付最適化問題 制約条件下の軌道τのコストの最小化
Xt:状態(物体、腕、手先) Ut:操作(モータ信号)
状態変化の分布
制約条件
目標関数
d:物体までの距離コスト関数
コスト関数
軌道
知覚最適方策πと現実制御pの一致
BADMM法Guided Policy Seachの解法
現代制御理論
DeepLearning
θ p λの3パラメータの最適化を行う
②
①
最適化問題
BADMM法:制約をDKL(P||π)=0とするラグランジェ乗数λの最適化問題
※λtUtの内積はコストに近似可能とする
DKL(P||π)カルバックラー・ダイバージェンス
①知覚学習(DeepLearning)
知覚された最適方策をガウス分布とする
最尤値=DeepLearningの目的値
知覚学習πθのθが最尤値になる様にDeepLearningで解く
の平均と分散は
はラグランジェ乗数と制御Utの内積
①
t
Ttt
tT
tt
oofo
oofo
,
,
θをDeepLearnngで解く
②現代制御LQRによる最適化
②
実現制御
LQRモデル
LQR (逆軌道問題を解く)
https://studywolf.wordpress.com/2016/02/03/the-iterative-linear-quadratic-regulator-method/
目標移動の終端から順番に制御を算出する(逆制御法)
目的関数
微小制御幅
2次線形近似
現代制御理論:ハミルトン・ヤコビ法で解く
サンプリング を回帰してパラメータ{fxt fut fct Ft}を算出
移動後の遷移モデルモータトルクには誤差 : 制御Ut後の状態Xt+1を線形ガウス分布で推定
高次元では厳しい
サンプリング より混合ガウス分布でp(Xt+1|Ut,Xt)で遷移を推定
変分ベイズ近似 : 逆ウィシャドー事前分布による混合ガウス分布推定
はサンプルの平均と分散
実験では20個の混合ガウス分布が出現
但し 制御Utは前軌道との相違範囲 に保つ
混合ガウス分布(移動の誤差)を解く
K番目分布の混合比率
sample毎の混合比率r1 r5以外は縮退
ウィシャドー分布
変分ベイズ実装結果
遷移モデルの改善状態
End To End 学習の結果訓練と同条件 対象の移動 異物の存在
End To End学習後特徴量
Deep Learning による学習後の特徴量 物体とロボットの手に生成されている
事前と事後の特徴量の変化
○ 画像での事前学習での特徴量
× End To End 学習後での特徴量
対象物とロボットの手に集中
対象物とロボットの手の間にも存在
まとめ
1.目標が実現するまで①と②が一致できる範囲で徐々に動作させる–①知覚の最適方策はDeepLearningで解く–②実現制御は現代制御理論LQRで解く–①と②の一致する様にBADMM法で解く–制御後の位置は混合ガウス分布の確率に従う
2.DeepLearning+現代制御理論+機械学習の統合モデルで実現
3.本報告は画期的なDQNをロボット制御に適応したモデル