10

Show and Tell: A Neural Image Caption Generatorの紹介

Embed Size (px)

Citation preview

Page 1: Show and Tell: A Neural Image Caption Generatorの紹介

RNNLMによる画像注釈付与の論文

Show and Tell: A Neural Image Caption Generator

論文はこちら

@sesenosannko

Page 2: Show and Tell: A Neural Image Caption Generatorの紹介

目次

概要

一般的なRNNLMの説明

提案手法の特徴

既存手法と比べて何が凄いか

転移学習

疑問・感想

目次

Page 3: Show and Tell: A Neural Image Caption Generatorの紹介

論文の概要

画像に注釈(=説明)をつける

入力するのは画像のみ!

画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する

転移学習の分かりやすい好例(だと個人的に思います)

(左画像は論文より)

概要

Page 4: Show and Tell: A Neural Image Caption Generatorの紹介

RNNLM(RNN Language Model)RNN(LSTM)の言語モデル

文章生成が有名

1. 最初の単語を入力

2. 最初の出力を次の時刻で入力

3. 以下同様

学習時にはデータを1単語ずつ入力

時刻tの教師データは、時刻t+ 1に入力するデータ

(画像は論文より)

一般的なRMMLMの説明

Page 5: Show and Tell: A Neural Image Caption Generatorの紹介

画像注釈付けの既存手法

画像物体認識と文章生成はそれぞれ別々に行われる

一旦画像から単語や位置関係を出力するなど

物体認識のみであれば性能は良い

文章生成はテンプレート的で汎化されていない

提案手法

end‑to‑endモデル物体認識から文章生成まで一続きで学習できる

RNNLMによる文章生成は既存の手法より強力

提案手法の特徴

Page 6: Show and Tell: A Neural Image Caption Generatorの紹介

提案手法の概要

画像をCNNに入力し、CNNの中間層をRNNLMの最初に入力

その後はRNNLMの文章生成モデルと同様の手順で脚注を出力

学習時には画像を入力し、脚注をRNNLMの文章生成モデルと同様に入力していく

RNNLMにCNNの中間層をそのまま入力している||

画像から抽出される特徴量は

単語から抽出される特徴量と同じ空間にある

提案手法の特徴

Page 7: Show and Tell: A Neural Image Caption Generatorの紹介

提案手法

(画像は論文より)

提案手法の特徴

Page 8: Show and Tell: A Neural Image Caption Generatorの紹介

転移学習 Transfer Learningある課題で学習して得た知識を、他の課題で利用する手法

提案手法ではCNN部分を、物体認識問題を学習したものをそのまま

使い、重みもそのままで固定する

物体認識問題で獲得された特徴抽出がそのまま使われる

一般的には転移学習でも新たな課題の学習において重みを全体

または一部更新することもある

RNNLM(単語埋め込み部分)の転移学習も試されているが、結果

は向上していない

明確な理由は書かれておらず、このように転移学習は結果が出

るかわからないことは良くあるようだ

画像の特徴抽出に比べて層が浅い(学習が容易)から転移学習

をしなくとも十分ということも一因か

提案手法の特徴

Page 9: Show and Tell: A Neural Image Caption Generatorの紹介

疑問に思ったこと

80%の文章が教師データから抜き出されている

教師データ内に入力画像に適した文章があれば再利用されるの

は自然だと書いてあるが、過学習では?

面白いこと

画像データは最初に1回だけ入力するのが最も良かった

全時間に画像を入力する手法はあるが、過学習が悪化した

最初の入力は忘れられそうだが、直感反していて興味深い

疑問・感想

Page 10: Show and Tell: A Neural Image Caption Generatorの紹介

まとめ

画像をCNNに入力し、中間層の出力をそのままRNNLMに入力する

画像認識と文章生成を一続きで学習できるのが凄い

転移学習(他の課題で得た知識を、新しい課題で利用)している

まとめ