Upload
kcs-keio-computer-society
View
308
Download
0
Embed Size (px)
Citation preview
RNNLMによる画像注釈付与の論文
Show and Tell: A Neural Image Caption Generator
論文はこちら
@sesenosannko
目次
概要
一般的なRNNLMの説明
提案手法の特徴
既存手法と比べて何が凄いか
転移学習
疑問・感想
目次
論文の概要
画像に注釈(=説明)をつける
入力するのは画像のみ!
画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する
転移学習の分かりやすい好例(だと個人的に思います)
(左画像は論文より)
概要
RNNLM(RNN Language Model)RNN(LSTM)の言語モデル
文章生成が有名
1. 最初の単語を入力
2. 最初の出力を次の時刻で入力
3. 以下同様
学習時にはデータを1単語ずつ入力
時刻tの教師データは、時刻t+ 1に入力するデータ
(画像は論文より)
一般的なRMMLMの説明
画像注釈付けの既存手法
画像物体認識と文章生成はそれぞれ別々に行われる
一旦画像から単語や位置関係を出力するなど
物体認識のみであれば性能は良い
文章生成はテンプレート的で汎化されていない
↓
提案手法
end‑to‑endモデル物体認識から文章生成まで一続きで学習できる
RNNLMによる文章生成は既存の手法より強力
提案手法の特徴
提案手法の概要
画像をCNNに入力し、CNNの中間層をRNNLMの最初に入力
その後はRNNLMの文章生成モデルと同様の手順で脚注を出力
学習時には画像を入力し、脚注をRNNLMの文章生成モデルと同様に入力していく
RNNLMにCNNの中間層をそのまま入力している||
画像から抽出される特徴量は
単語から抽出される特徴量と同じ空間にある
提案手法の特徴
提案手法
(画像は論文より)
提案手法の特徴
転移学習 Transfer Learningある課題で学習して得た知識を、他の課題で利用する手法
提案手法ではCNN部分を、物体認識問題を学習したものをそのまま
使い、重みもそのままで固定する
物体認識問題で獲得された特徴抽出がそのまま使われる
一般的には転移学習でも新たな課題の学習において重みを全体
または一部更新することもある
RNNLM(単語埋め込み部分)の転移学習も試されているが、結果
は向上していない
明確な理由は書かれておらず、このように転移学習は結果が出
るかわからないことは良くあるようだ
画像の特徴抽出に比べて層が浅い(学習が容易)から転移学習
をしなくとも十分ということも一因か
提案手法の特徴
疑問に思ったこと
80%の文章が教師データから抜き出されている
教師データ内に入力画像に適した文章があれば再利用されるの
は自然だと書いてあるが、過学習では?
面白いこと
画像データは最初に1回だけ入力するのが最も良かった
全時間に画像を入力する手法はあるが、過学習が悪化した
最初の入力は忘れられそうだが、直感反していて興味深い
疑問・感想
まとめ
画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する
画像認識と文章生成を一続きで学習できるのが凄い
転移学習(他の課題で得た知識を、新しい課題で利用)している
まとめ