42
前頭前野Accumulatorを用いた動的抑制モデルと 物理シミュレータを用いた強化学習 - Noh, Gazebo, ROS, Gymの統合 - 慶應大 大澤 正彦 電通大 芦原 佑太 法政大 島田 大樹 メンター: 倉重先生

Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

前頭前野Accumulatorを用いた動的抑制モデルと物理シミュレータを用いた強化学習

- Noh, Gazebo, ROS, Gymの統合 -

慶應大大澤正彦

電通大芦原佑太

法政大島田大樹

メンター: 倉重先生

Page 2: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

前頭前野Accumulatorを用いた動的脱抑制モデルと物理シミュレータを用いた強化学習

0. Abstract1

提案

[すごい] 新しい [環境] [アルゴリズム]

[プラットフォーム] のすべてをセットアップ[おもろい] エージェントの気持ちを考えてみたら

今の強化学習が生物的に不自然だと気付いた[脳っぽい] 前頭前野の[役割]や[生理学的知見]を

総合的に踏まえてモデル化

特長

Page 3: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

1. Introduction2

Page 4: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

1. Introduction3

LIS (3人称視点)

Page 5: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

1. Introduction4

Lisの気持ちになるですよ

Created by Kotone Itaya

Page 6: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

LIS (1人称視点)

1. Introduction5

LISがかわいそう・・・

Page 7: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

1. Introduction6

Pong

小刻みに上下する挙動が頻発

Page 8: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

1. Introduction

LISやPongがかわいそうな要因

– 環境的要因

• 行動が離散

• 1回の行動選択が大きな影響

– アルゴリズム的要因

• 毎フレームごとに異なる行動選択

7

“脳っぽく” “今後を見越した”改善したい

Page 9: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

1. Introduction

アプローチ

– 環境

• 物理シミュレータ Gazebo +

ロボットミドルウェア ROS + 強化学習環境 Gym

– アルゴリズム:

• 前頭前野Accumulatorを用いた動的抑制モデル

– プラットフォーム

• Noh

8

前頭前野Accumulatorを用いた動的抑制モデルと物理シミュレータを用いた強化学習

提案

Page 10: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

認知アーキテクチャ学習プラットフォーム Noh

1. Introduction

アプローチ

9

Environment Agent

学習器 学習器 学習器

抑制Accumulator

State

Reward

Action

Gym, ROSを結合した物理シミュレータGazebo

複数の学習器を調停する抑制モデル

Page 11: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

2. ENVIRONMENT

Noh + Gazebo + ROS + Gym

10

Page 12: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

2. Environment11

Page 13: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

2. Environment12

Page 14: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

2. Environment

Gazeboの利点

– リアルタイム物理シミュレータ

• シミュレータ環境で学習したモデルを実世界のロボットに適用可能

– 連続的でなめらかなデータセットを取得可能

• PredNetのような時系列学習と相性◎

– ROSとの連携

• 多くのロボットのためのライブラリが使用可能

• E.g. 地図の作成, ナビゲーション

13

Page 15: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

2. Environment14

Gazebo + ROS + Gym + Q learning の学習例

今回のハッカソンではGazebo上の学習はしません!

Page 16: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. ALGORITHMアルゴリズム編

15

Page 17: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

脳の意思決定

1. 実行できる行動を列挙

2. そのほとんどを抑制

3. とるべき行動に対して脱抑制

⇒複数モジュール間で抑制/脱抑制がベース♡

近年の強化学習の意思決定

– 多くは単一モジュールでEnd-to-End Learning

– 抑制/脱抑制の考え方は一般的ではない

16

複数モジュールで抑制/脱抑制を用いた強化学習

Page 18: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

抑制/脱抑制を担う代表的な脳領域

– 大脳基底核

• 脳損傷例:

–パーキンソン病、ハンチントン病

• どちらかといえば低レイヤー

– 前頭前野

• 脳損傷例:

–利他的(倫理的)行動ができない、

–実行できると認識した行動を無意識に実行

• どちらかといえば高レイヤー

17

前頭前野損傷患者の症例≒現在の強化学習

⇒前頭前野に着目したモデル改良に期待

Page 19: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

Accumulator モデル– ある意思決定をする場合に

• 毎回その意思決定のための “証拠” を ”累積証拠”

• ある閾値を超えたら, その行動を実行

– [Mazurek-Shadlen 2003 Cereb Cortex] [Hanks-Brody 2015 Nature]

• Accumulatorとして動作するニューロンを脳のさまざまな部位で発見

– [Schurger-Dehaene 2012 PNAS]

• 自発的な運動の開始がAccumulator モデルを用いてモデル化可能

– [Soon-Haynes 2008 Nat Neurosci]

• 自発的な運動選択の開始部位は前頭前野

18

Accumulatorは前頭前野のモデルとして妥当!!今回は”抑制”をAccumulatorでモデル化

Page 20: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

認知アーキテクチャ学習プラットフォーム Noh

Agent

3. Algorithm

提案手法

19

State

Reward

停止 上 下 DQNC C C C

Accumulator GA閾値

C: 各モジュールが独自に計算した自信度

累積証拠

Action

*Accumulatorをモデル化する際に頻繁に用いられるランジュマン方程式を利用した。ただしここでa(x,

t)=mu,b(x, t)=1, R(t)を平均0,分散sigmaのホワイトノイズを仮定する。また、ランジュマン方程式を伊藤の方式で式変形したフォッカープランク方程式と等価であり、そのふるまいを式から想定(できる人には)できる

Page 21: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

提案手法の性質と工学的利点

– 学習器と抑制器が階層的

• Accumulatorの時定数が長い

• 証拠が蓄積するまで同じ方策

⇒フラフラしない!生物としては妥当!

• 学習器が学習した行動をその時の報酬環境にしたがって、柔軟に切り替え可能

⇒強化学習の探索空間の制限

• 報酬環境の切り替えを、確率微分方程式のパラメタを変えるだけで実現可能

⇒モデルがシンプル!

20

工学的な話はここまで。個々からはスコア向上を目指さない

Page 22: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm21

1世代目

Page 23: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm22

2世代目

Page 24: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm23

3世代目

Page 25: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

従来法と3世代目との比較

24

なし 提案手法

かわいい・・・

Page 26: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

前頭前野Accumulatorを用いた動的脱抑制モデルと物理シミュレータを用いた強化学習

Conclusion25

提案

[すごい] 新しい [環境] [アルゴリズム]

[プラットフォーム] のすべてをセットアップ[おもろい] エージェントの気持ちを考えてみたら

今の強化学習が生物的に不自然だと気付いた[脳っぽい] 前頭前野の[役割]や[生理学的知見]を

総合的に踏まえてモデル化

特長

構築したアルゴリズムをGazebo上で動作

展望

Page 27: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

Appendix

Page 28: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm27

Page 29: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

0

0.5

1

1.5

2

2.5

3

3.5

0 0.5 1 1.5 2 2.5 3

Y の値

Y の値

28

0

0.1

0.2

0.3

0.4

0.5

0.6

1 6 11 16

行動の継続しにくさ

世代

generation - μ (DQN module)

Page 30: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm29

4世代目

Page 31: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

実験1: Suppression Boostingなし VS あり

30

なし あり

結果: SBによって無駄な動きが軽減

Page 32: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

従来法と4世代目との比較

31

Page 33: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

32

5世代目

Page 34: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

33

6世代目

Page 35: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm34

36世代目

Page 36: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

35

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 2 4 6 8 10 12 14 16 18

generation - μ (All module)

DQN

Stop

Up

"Down"

Page 37: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

3. Algorithm

Accumulator モデル

– [Schurger-Dehaene 2012 PNAS]

• <ヒト>

• 自発的運動の開始がaccumulatorモデルで説明できる.

– [Kelly-O'Connell 2013 JNS]

• <ヒト>

• ランダムドットの知覚的意思決定.

• accumulationっぽいEEG活動が見られる.

– [Hanks-Brody 2015 Nature]

• <ラット>

• 知覚的意思決定.accumulator的な活動は頭頂葉と前頭前野で見られる.

• なんかよくわからん解析をした結果,前者は実際にaccumulator的だが前頭前野はカテゴリー的

36

Page 38: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

サーベイ

Accumulator モデル

– [Schurger-Dehaene 2012 PNAS]

• <ヒト>

• 自発的運動の開始がaccumulatorモデルで説明できる.

– [Soon-Haynes 2013 PNAS]

• <ヒト>

• 自由選択(足し算をするか引き算をするか)が,意思決定の数秒前に内側前頭前野と内側側頭皮質の活動から予測できる.

37

Page 39: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

Accumulator モデル

– [Soon-Haynes 2008 Nat Neurosci]

– [Bode-Haynes 2011 Plos One]

• <ヒト>

• 自由選択(ボタン押し)が,意思決定の数秒前に脳活動から予測できる.

• 2008で前頭極が時間的に一番先行することが示され,2011は前頭極に絞った解析.

38

Page 40: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

Accumulator モデル

– [Polania 2014 Neuron]

• <ヒト>

• accumulatorによる意思決定を,知覚的意思決定と価値的意思決定で比較.

• 前頭前野は価値的意思決定のみ,頭頂葉は両方に関与.

– [Kelly-O'Connell 2013 JNS]

• <ヒト>

• ランダムドットの知覚的意思決定.

• accumulationっぽいEEG活動が見られる.

39

Page 41: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

Accumulator モデル

– [Bode 2012 JNS]

• <ヒト>

• 知覚的意思決定(ノイジー画像の知覚)の解析

• accumulatorモデルを用いたもの.

40

Page 42: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、

Accumulator モデル

– [Mazurek-Shadlen 2003 Cereb Cortex]

– [Gold-Shadlen 2007 Annu Rev Neurosci]

• <サル>

• 知覚的意思決定をaccumulatorモデルで説明した古典的論文と,その総説.

– [Hanks-Brody 2015 Nature]

• <ラット>

• 知覚的意思決定.accumulator的な活動は頭頂葉と前頭前野で見られる.

• なんかよくわからん解析をした結果,前者は実際にaccumulator的だが前頭前野はカテゴリー的

41