"Playing Atari with Deep Reinforcement Learning"

“Playing Atari with Deep Reinforcement Learning”

藤田康博

January 23, 2014

自己紹介

• 名前：藤田康博• 修士 1年• ゲーム AI，強化学習など• NIPS読み会初参加

◦ お手柔らかにお願いします

2 / 14

読む論文

• Playing Atari with Deep Reinforcement Learning◦ Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex

Graves, Ioannis Antonoglou, Daan Wierstra, Martin RiedmillerNIPS Deep Learning Workshop, 2013.• 本会議でなくてすみません…

• 選んだ理由◦ ゲーム+深層学習+強化学習として（たぶん）初◦ 深層学習+強化学習も少ない◦ 結果がすごい

3 / 14

要旨

• 深層学習+強化学習（Deep Q-Learning）◦ 行動価値関数Q(s, a)を畳み込みニューラルネットワークで表現（Deep Q-Network）

• Atari 2600の 7つのゲームで評価

→（既存研究みたいに背景削除とかしてないのに）6/7で既存研究に勝利！→ さらに 3/7で Expert Human Playerにも勝利！優秀！

4 / 14

要旨



→（既存研究みたいに背景削除とかしてないのに）6/7で既存研究に勝利！

→ さらに 3/7で Expert Human Playerにも勝利！優秀！

4 / 14

要旨



→（既存研究みたいに背景削除とかしてないのに）6/7で既存研究に勝利！→ さらに 3/7で Expert Human Playerにも勝利！優秀！

4 / 14

Arcade Learning Environment

• Atari 2600シミュレータ+学習用インタフェース

• プレイヤが観測できるのは画面のみ◦ 210× 160 & 128 colors

• 現在のスコアがわかる• 終了判定ができる• http://www.arcadelearningenvironment.org/

5 / 14

強化学習タスクとしてのALE

• ALEは部分観測マルコフ決定過程（POMDP）◦ 観測できる画面からだけでは現在の状況がわからない

• そこで時間ステップ tにおける状態を次のように定義◦ st = x1, a1, x2, · · · , at−1, xt◦ x は観測した画面，aは入力した行動→ 有限マルコフ決定過程になり，スタンダードな強化学習手法が使える

6 / 14

行動価値関数

• 最大化したいもの：将来の（割引）報酬 Rt =!T

t′=t γt′−trt′

• 方策 π : S $→ A• （最適）行動価値関数

Q∗(s, a) = maxπ

E [Rt |st = s, at = a, π]

有限マルコフ決定過程なら，これはBellman方程式の唯一解

Q∗(s, a) = E [rt+1 + γmaxa′

Q∗(st+1, a′)|st = s, at = a]

7 / 14

行動価値関数の関数近似

• Q(s, a; θ) ≈ Q∗(s, a)とおき，Bellman方程式の誤差を最小化

Li(θi) = E [(yi − Q(s, a; θi)2]

yi = E [rt+1 + γmaxa′

Q(st+1, a′; θi−1)|st = s, at = a]

∇θiLi(θi)

= E [(rt+1 + γmaxa′

Q(st+1, a′; θi−1)− Q(s, a; θi))∇θiQ(s, a; θi)]

• 今回はこれを RMSPropを使って逆伝搬

8 / 14

Rprop

• 勾配の大きさは見ず符号だけを見て重みを更新する逆伝搬法• では更新量はどう決める？

◦ 符号が 2連続で同じだったら更新量を増やす e.g. 1.2倍◦ そうでなければ減らす e.g. 0.5倍

• 利点◦ 勾配が小さい場所（plateau）から速やかに脱出できる

• 欠点◦ ミニバッチ学習ではうまくいかない

e.g. 9個のミニバッチの勾配が+0.1，10個目が−0.9の場合

9 / 14

RMSProp

• Rpropをミニバッチ学習に使えるようにしたもの◦ 勾配の大きさの 2乗の移動平均MeanSquare(w , t)を保持

MeanSquare(w , t) = 0.9MeanSquare(w , t − 1) + 0.1(∂E

∂w(t))2

◦ 勾配を"

MeanSquare(w , t)で割る◦ まだ論文になっておらず，Courseraの講義ビデオのみ

• “Neural Networks for Machine Learning”の Lecture 6.5

10 / 14

Experience Replay

• 過去の遷移 (st , at , rt , st+1)を replay memoryに保存• そこからランダムサンプリングした遷移に対して誤差最小化• 利点

◦ プレイヤの振る舞いが過去にわたって平均化されるため，パラメータが振動・発散するのを防ぐ効果がある

11 / 14

Deep Q-Network

84x84x4

input1st hidden

layer2nd hidden

layer

8x8x4 filterstride 4

20x20x16

4x4x16 filterstride 2

9x9x32

3rd hiddenlayer

fullyconnected

256

output

fullyconnected

4~18

• 入力：ラスト 4フレームの画面（縮小とグレイスケール化）• 出力：各アクションの行動価値

12 / 14

結果

• 人間に勝利：Breakout，Pong，Enduro• 人間に全く敵わない：Q*bert, Seaquest，Space Invaders

◦ 比較的長期的な戦略が必要

13 / 14

感想

• ついにゲーム AIにもディープの波が来たか…• 他のゲームにも使える？ e.g. 将棋，囲碁，StarCraft，etc.

◦ おそらく先読みが重要なゲームでは難しい◦ でも使ってみたいしきっと使われる

14 / 14

Technology

"Playing Atari with Deep Reinforcement Learning"