Show and Tell: A Neural Image Caption Generatorの紹介

RNNLMによる画像注釈付与の論文

Show and Tell: A Neural Image Caption Generator

論文はこちら

@sesenosannko

https://arxiv.org/pdf/1411.4555.pdf

目次

概要

一般的なRNNLMの説明

提案手法の特徴

既存手法と比べて何が凄いか

転移学習

疑問・感想

目次

論文の概要

画像に注釈（＝説明）をつける

入力するのは画像のみ！

画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する

転移学習の分かりやすい好例（だと個人的に思います）

(左画像は論文より）

概要

RNNLM(RNN Language Model)RNN（LSTM）の言語モデル

文章生成が有名

1. 最初の単語を入力

2. 最初の出力を次の時刻で入力

3. 以下同様

学習時にはデータを1単語ずつ入力

時刻tの教師データは、時刻t+ 1に入力するデータ

（画像は論文より）

一般的なRMMLMの説明

画像注釈付けの既存手法

画像物体認識と文章生成はそれぞれ別々に行われる

一旦画像から単語や位置関係を出力するなど

物体認識のみであれば性能は良い

文章生成はテンプレート的で汎化されていない

↓

提案手法

end‑to‑endモデル物体認識から文章生成まで一続きで学習できる

RNNLMによる文章生成は既存の手法より強力


提案手法の概要

画像をCNNに入力し、CNNの中間層をRNNLMの最初に入力

その後はRNNLMの文章生成モデルと同様の手順で脚注を出力

学習時には画像を入力し、脚注をRNNLMの文章生成モデルと同様に入力していく

RNNLMにCNNの中間層をそのまま入力している||

画像から抽出される特徴量は

単語から抽出される特徴量と同じ空間にある


提案手法

（画像は論文より）


転移学習 Transfer Learningある課題で学習して得た知識を、他の課題で利用する手法

提案手法ではCNN部分を、物体認識問題を学習したものをそのまま

使い、重みもそのままで固定する

物体認識問題で獲得された特徴抽出がそのまま使われる

一般的には転移学習でも新たな課題の学習において重みを全体

または一部更新することもある

RNNLM（単語埋め込み部分）の転移学習も試されているが、結果

は向上していない

明確な理由は書かれておらず、このように転移学習は結果が出

るかわからないことは良くあるようだ

画像の特徴抽出に比べて層が浅い（学習が容易）から転移学習

をしなくとも十分ということも一因か


疑問に思ったこと

80%の文章が教師データから抜き出されている

教師データ内に入力画像に適した文章があれば再利用されるの

は自然だと書いてあるが、過学習では？

面白いこと

画像データは最初に1回だけ入力するのが最も良かった

全時間に画像を入力する手法はあるが、過学習が悪化した

最初の入力は忘れられそうだが、直感反していて興味深い

疑問・感想

まとめ

画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する

画像認識と文章生成を一続きで学習できるのが凄い

転移学習（他の課題で得た知識を、新しい課題で利用）している

まとめ

Engineering

Show and Tell: A Neural Image Caption Generatorの紹介