Transcript
Page 1: recurrent models of visual attentionメモ

Recurrent Models of Visual Attention

1

棚橋 耕太郎

Mnih,  Volodymyr,  Nicolas  Heess,  and  Alex  Graves.  "Recurrent  models  of  visual  attention."  Advances  in  Neural  Information  Processing  Systems.  2014.

Page 2: recurrent models of visual attentionメモ

背景

1. CNNの問題点:  画像の解像度を下げても学習と予測の計算量が大きいので計算に時間がかかる  

2. 人間は視界に映る全ての映像を処理せず,選択的に次に見る部分を決めていく  

3. Task-­‐drivenな方法で画像の注目部分を動かしていくモデルを作成すれば計算量削減/調整できるのでは?  

Page 3: recurrent models of visual attentionメモ

The  Recurrent  Attention  Model  (RAM)

A:  中心点lt−1において元画像xtから複数の解像度(波長)の画像を得る.  

B:  中心点lt−1と画像xtは個別に隠れ層へ線形にマッピングされ統合される.  

C:  隠れ層から次に見る位置ltを出力して,中心点をltに動かす.  

(動かすたびに報酬がもらえるようにし,報酬が最大となるように動く)

Page 4: recurrent models of visual attentionメモ

model詳細

2つのAction  

1. 次に見る窓の位置ltを決める  

2. 状態に対するaction(識別タスクの場合だとsoftmaxでペナルティ/報酬を与える)  

いつ動きを止めるか?  窓を動かす回数が多くなるとペナルティを課す

Page 5: recurrent models of visual attentionメモ

実際の視線の動き

数字を見るように視線が動いている

Cluttered  non-­‐centeredなタスクにおいてCNNより3%良い結果  

→ノイズに対してロバスト,実データに強い

Page 6: recurrent models of visual attentionメモ

動く環境の場合ゲーム”Catch”をやらせる  

ルール: ボールをキャッチするシンプルなゲーム  

・キャッチできたら0点  

・できなかったら1点  

最終的な点数のみを報酬として与えた.

24px

24px

.

動かしてキャッチする

6px

視界

Page 7: recurrent models of visual attentionメモ

Further  discussion

1. 無駄なところを見ないので計算量が少ない  2. 窓のサイズなどを変えることで計算量をコントロールできる  

今後は映像の識別などに利用できると期待される  

ロボットのカメラのうごきに利用できそう


Recommended