10
Deep Learning JP 輪輪 Continuous Deep Q-Learning with Model-based Acceleration 輪輪輪輪 2017 輪 1 輪 6 輪 輪輪輪輪輪輪輪輪輪

[DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

Embed Size (px)

Citation preview

Page 1: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

Deep Learning JP 輪読Continuous Deep Q-Learning with Model-based Acceleration

那須野薫

2017 年 1 月 6 日

東京大学松尾研究室

Page 2: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 2

紹介する文献

• タイトル– Continuous Deep Q-Learning with Model-based

Acceleration• 著者

– Shixiang Gu, Timothy Lillicrap, Ilya Sutskever, Sergey Levine

• 発表– 2016 年 3 月

• 選択理由– DRL で– Sample Efficiency に– 取り組んでいるため。

Page 3: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 3

概要の訳( Google 翻訳ベース)モデルフリーの強化学習は、幅広い困難な問題にうまく適用され、最近は大規模なNN ポリシーや価値関数を扱うように拡張された。 しかし、モデルフリーアルゴリズム ( が必要とする ) サンプルの複雑性は、特に高次元近似関数を使用する場合、物理系への適用を制限する傾向がある。

本稿では、連続値による制御タスクのための深層強化学習 ( が必要とする ) サンプルの複雑性を軽減するためのアルゴリズムと表現について説明する。我々は、このようなアルゴリズムの効率を改善するための 2 つの補完的な手法を提案する。まず、より一般的に使用される policy gradient および actor critic の代わりに、正規化された advantage function ( NAF )と呼ばれる Q-Learning アルゴリズムの連続値への変形を導出する。 NAF の表現を使用することで、 experience replay による Q-Learning を行動空間が連続値のタスクに適用でき、シミュレーションによる幅広いのロボット制御タスクのパフォーマンスが大幅に向上した。我々のアプローチの効率をさらに向上させるために、モデルフリー強化学習を加速するための学習済みのモデルの使用法を検討した。iteratively refitted local linear models が特に効果的であり、そのようなモデルが適用可能な領域での学習が大幅に高速であることを示された。

Page 4: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 4

主な貢献

• 行動空間が連続値の問題において効果的な Q-learning を可能にするQ 関数の表現を導出し評価した。

• 学習済みの ( システムダイナミクスの ) モデルをモデルフリーの Q-learning に組み込むための、いくつかの選択肢を評価し、連続値の制御タスクで小さい効果があることを示した。

• 局所線形モデルと局所 on-policy な imagination rollouts を組み合わせることで、モデルフリーの連続値の Q-learning を加速させ、サンプルの複雑さを大幅に改善できることを示した。

• 上記のため、シミュレーションによる幅広いロボットタスクに対して、提案手法を適用し、従来手法と比較した。

Page 5: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 5

前提

• 既存手法– DQN :行動空間が離散値、 Q-learning– DDPG :行動空間が連続値、 Actor Critic

• 今回– NAF :行動空間が連続値、 Q-learning

Page 6: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 6

DDPG

方策更新のイメージ「あっちの方がいい」ただ、方策が壊れやすい。行きすぎてデータ点がないところまで行ってしまう等のためか。

Page 7: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 7

NAF 単体

Aは常に負。Qが最大となる方策 uは常にμ となる。Lは下三角行列、各成分は線形 NNの出力で、特に対角成分は exp(x)にかけてある。<< expかける理由がわからない。わかる人いたら教えてください。<< どうやら正定値行列にするには対角成分がすべて正である必要があるらしい。方策更新のイメージ「ここら辺がいい」

Page 8: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 8

NAF + iLQG + Imagination Rollouts

iLQG Exploration(あんまきかない )

system dynamicsを additional bufferのデータで学習・更新

モデルMを使ってシミュレートして、 fictional bufferにいれる。

fictional bufferと replay bufferからサンプリングして、 NNを学習。

Page 9: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 9

実験結果  DDPG と NAF の比較

Page 10: [DL輪読会]Continuous Deep Q-Learning with Model-based Acceleration

東京大学松尾研究室 那須野薫 2017 年 1 月 6 日 10

実験結果  Imagination Rollouts や iLQG Exploration の効果