Upload
deeplearningjp2016
View
84
Download
4
Embed Size (px)
Citation preview
STOCHASTIC NEURAL NETWORKS FOR HIERARCHICAL REINFORCEMENT LEARNING
Carlos Florensa† , Yan Duan†‡, Pieter Abbeel†‡
2017/2/10発表者:金子貴輝
階層的強化学習• 報酬を得るまでが長いタスクを分割したい• 従来法の問題–タスクの分割に固有の知識を必要とする–タスク間で知識を共有せずサンプル効率が低い
2
問題設定• 事前学習ができる• 状態空間が(共通,タスク固有)に分かれて相互作用が少ない–例:把持タスクにおける対象物の位置
3
提案手法• 確率的ニューラルネット–同じ状況でも異なる行動を取れるので,状況の変化に対応できる
• 相互情報量基準での正規化–新しい場所に行けば報酬になるらしい
• タスク特徴の挿げ替えによる階層的 RL–タスクを表す特徴で条件付けて事前学習• 報酬は疎のままでいい
–固定ステップごとに one hotなタスク特徴を自作する上位のニューラルネット4