9
ChainerRLの紹介 Chainer Meetup #4

ChainerRLの紹介

  • Upload
    mooopan

  • View
    96

  • Download
    11

Embed Size (px)

Citation preview

Page 1: ChainerRLの紹介

ChainerRLの紹介Chainer Meetup #4

Page 2: ChainerRLの紹介

自己紹介

- 藤田康博 / mooopan / muupan- 2015- Preferred Networks- Chainerで強化学習を書いている

Page 3: ChainerRLの紹介

ChainerRL- 深層強化学習(deep reinforcement learning)ライブラリ

- 2017/02/20 公開

- GitHub: https://github.com/pfnet/chainerrl- Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/

こういうのが学習できる →

Page 4: ChainerRLの紹介

実装済みアルゴリズム

- Deep Q-Network (Mnih et al., 2015)

- Double DQN (Hasselt et al., 2016)

- Normalized Advantage Function (Gu et al., 2016)

- (Persistent) Advantage Learning (Bellemare et al., 2016)

- Deep Deterministic Policy Gradient (Lillicrap et al., 2016)

- SVG(0) (Heese et al., 2015)

- Asynchronous Advantage Actor-Critic (Mnih et al., 2016)

- Asynchronous N-step Q-learning (Mnih et al., 2016)

- Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW!

- etc.

- いっぱい並べているけど共通部分は多い

Page 5: ChainerRLの紹介

ChainerRLによる強化学習の流れ

- エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する

- 環境(environment)を定義する

環境

行動

観測, 報酬

Page 6: ChainerRLの紹介

ChainerRLによる強化学習の流れ

- モデルを定義する- Q-function:観測 -> 各行動の価値(将来の報酬の和の期待値)

- Policy:観測 -> 行動の確率分布

Distribution: Softmax, Mellowmax, Gaussian

ActionValue: Discrete, Quadratic

Page 7: ChainerRLの紹介

ChainerRLによる強化学習の流れ

- エージェントを定義する

- インタラクションさせる

Page 8: ChainerRLの紹介

おわりに

- ChainerRL Quickstart Guide - Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習

https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb

- ChainerRLはまだβ版なのでインタフェース等変わる可能性があります- むしろ積極的に改善していきたいのでぜひご意見ください

- フィードバックください(欲しい機能・アルゴリズムとかでもOK)

Page 9: ChainerRLの紹介

ChainerのTrainer- 今のところ使ってない

- 強化学習においてDatasetとは?iterationとは?

- うまい使い方あったら教えてください