recurrent models of visual attentionメモ

Recurrent Models of Visual Attention

1

棚橋耕太郎

Mnih, Volodymyr, Nicolas Heess, and Alex Graves. "Recurrent models of visual attention." Advances in Neural Information Processing Systems. 2014.

背景

1. CNNの問題点: 画像の解像度を下げても学習と予測の計算量が大きいので計算に時間がかかる

2. 人間は視界に映る全ての映像を処理せず，選択的に次に見る部分を決めていく

3. Task-‐drivenな方法で画像の注目部分を動かしていくモデルを作成すれば計算量削減/調整できるのでは？

The Recurrent Attention Model (RAM)

A: 中心点lt−１において元画像xtから複数の解像度(波長)の画像を得る．

B: 中心点lt−１と画像xtは個別に隠れ層へ線形にマッピングされ統合される．

C: 隠れ層から次に見る位置ltを出力して，中心点をltに動かす．

(動かすたびに報酬がもらえるようにし，報酬が最大となるように動く)

model詳細

2つのAction

1. 次に見る窓の位置ltを決める

2. 状態に対するaction(識別タスクの場合だとsoftmaxでペナルティ/報酬を与える)

いつ動きを止めるか？窓を動かす回数が多くなるとペナルティを課す

実際の視線の動き

数字を見るように視線が動いている

Cluttered non-‐centeredなタスクにおいてCNNより3%良い結果

→ノイズに対してロバスト,実データに強い

動く環境の場合ゲーム”Catch”をやらせる

ルール: ボールをキャッチするシンプルなゲーム

・キャッチできたら0点

・できなかったら1点

最終的な点数のみを報酬として与えた．

24px

24px

.

動かしてキャッチする

6px

視界

Further discussion

1. 無駄なところを見ないので計算量が少ない 2. 窓のサイズなどを変えることで計算量をコントロールできる

今後は映像の識別などに利用できると期待される

ロボットのカメラのうごきに利用できそう

Science

recurrent models of visual attentionメモ