ChainerRLの紹介

ChainerRLの紹介Chainer Meetup #4

自己紹介

- 藤田康博 / mooopan / muupan- 2015- Preferred Networks- Chainerで強化学習を書いている

http://www.youtube.com/watch?v=yFCCanSxOE4

http://www.youtube.com/watch?v=7A9UwxvgcV0

ChainerRL- 深層強化学習（deep reinforcement learning）ライブラリ

- 2017/02/20 公開

- GitHub: https://github.com/pfnet/chainerrl- Preferred Research Blog: https://research.preferred.jp/2017/02/chainerrl/

こういうのが学習できる →

https://github.com/pfnet/chainerrl

https://research.preferred.jp/2017/02/chainerrl/

実装済みアルゴリズム

- Deep Q-Network (Mnih et al., 2015)

- Double DQN (Hasselt et al., 2016)

- Normalized Advantage Function (Gu et al., 2016)

- (Persistent) Advantage Learning (Bellemare et al., 2016)

- Deep Deterministic Policy Gradient (Lillicrap et al., 2016)

- SVG(0) (Heese et al., 2015)

- Asynchronous Advantage Actor-Critic (Mnih et al., 2016)

- Asynchronous N-step Q-learning (Mnih et al., 2016)

- Actor-Critic with Experience Replay (Wang et al., 2017) <- NEW!

- etc.

- いっぱい並べているけど共通部分は多い

http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

https://arxiv.org/abs/1509.06461


http://arxiv.org/abs/1512.04860










ChainerRLによる強化学習の流れ

- エージェントが環境とのインタラクションを通じて報酬を最大化する行動を学習する

- 環境（environment）を定義する

環境

行動

観測, 報酬


- モデルを定義する- Q-function：観測 -> 各行動の価値（将来の報酬の和の期待値）

- Policy：観測 -> 行動の確率分布

Distribution: Softmax, Mellowmax, Gaussian

ActionValue: Discrete, Quadratic


- エージェントを定義する

- インタラクションさせる

おわりに

- ChainerRL Quickstart Guide - Jupyter NotebookでQ-functionを定義してDouble DQNでCart Pole Balancingを学習

https://github.com/pfnet/chainerrl/blob/master/examples/quickstart/quickstart.ipynb

- ChainerRLはまだβ版なのでインタフェース等変わる可能性があります- むしろ積極的に改善していきたいのでぜひご意見ください

- フィードバックください（欲しい機能・アルゴリズムとかでもOK）



ChainerのTrainer- 今のところ使ってない

- 強化学習においてDatasetとは？iterationとは？

- うまい使い方あったら教えてください

Software

ChainerRLの紹介