画像キャプションの自動生成（第3回ステアラボ人工知能セミナー）

画像キャプションの自動生成

東京大学大学院情報理工学系研究科牛久祥孝

自己紹介～ 2014.3 博士 ( 情報理工学 ) 、東京大学• 画像説明文の自動生成

• 大規模画像分類

2014.4 ～ 2016.3 NTT コミュニケーション科学基礎研究所2016.4 ～東京大学大学院情報理工学系研究科知能機械情報学専攻講師 ( 原田・牛久研究室 )

Descriptive Camera [Richardson, 2012]


写真を撮ると…


キャプションが出てくる！

Looks like a cupboard which is ugly and old having name plates on it with a study lamp attached to it.

実は…

[http://s3.amazonaws.com/pix-media/blog/328/mechanical-turk.jpg]

Looks like a cupboard which is ugly and old having name plates on it with a study lamp attached to it.

画像キャプション生成例 [Ushiku+, ICCV 2015]

Group of people sitting at a table with a dinner.


Tourists are standing on the middle of a flat desert.


1K SBU imagesIs a train station in the lake in the small.10K SBU imagesAll the lake in the water is a shot.100K SBU imagesView of the lake in the water in a boat.1M SBU imagesIt is a picture of the boat in the water.

1K SBU imagesStained glass window in Aanbouw Cofferdam for a field.10K SBU imagesWindow in the ossuary glass windows in St. Louis Missouri.100K SBU imagesStained glass in the tower of the church in St..1M SBU imagesStained glass window in the church in St. Vitus Cathedral.

ユーザー生成コンテンツの爆発的増加• Web 、特に画像投稿・共有サービスでは…

– Flickr 画像 100 億枚 2015 年 5 月時点– Instagram 画像 400 億枚 2015 年 9 月時点– Facebook 画像 2500 億枚 2013 年 9 月時点

Pōhutukawa blooms this time of the year in New Zealand. As the flowers fall, the ground underneath the trees look spectacular.

大量に収集可能：画像と関連する文章の対

画像キャプション生成入力画像を説明する自然文を出力する問題• 一般的な対象：できるだけ多くの訓練サンプル→ Web にあるような画像 + 文のみのデータ• 新規の文も生成できるような柔軟性本講演の目的• 画像キャプション生成という分野を俯瞰する

– 歴史的な流れ– アプローチの体系– 視覚 × 言語の研究としての広がり

もくじおおよそ歴史順1. 画像の内容を認識すること2. 画像キャプションの自動生成の始まり3. 既存のキャプションを再利用せよ4. 新たなキャプションを生成するには5. ところで、どう評価するの？6. 深層学習の襲来7. 今後の展望・派生研究のひろがり

1. 画像の内容を認識すること2. 画像キャプション自動生成の始まり

そもそもの画像認識のはじまり• 線画認識 [Clowes, 1971]

• 知識ベース [Ohta, 1985][Draper+, IJCV 1989][Matsuyama+Hwang, 1990]– 物体ごとに人手でルールを記述– フレーム問題が立ちはだかる

• モデルベース[Binford, 1971][Brooks, 1981][Basri, IJCV 1996]– 3 次元の幾何形状を予め用意– 全ての対象の明確な形状の定義はやっぱり無理

自然言語処理に習う2000 年代：統計的機械学習への移行• 領域ベース

– word-image-translation model [Duygulu+, ECCV 2002]

– 画像の各領域とラベルとの対応を学習

– 機械翻訳における自動対応付けから着想

機械翻訳における単語の対応（ [ 永田ら、 2008] より）

sun, sea, sky sun, sea, sky

自然言語処理に習う2000 年代：統計的機械学習への移行• 局所特徴ベース

– Bag of Visual Words [Csurka+, 2004][Fei-Fei+Perona, CVPR 2005]

– 似た局所特徴を同一の単語とみなす

– 文書分類における Bag of Words モデルから着想– 情報幾何を取り入れた精緻化 [Perronnin+, ECCV 2010]

Cf. 原田達也 . “ 大規模画像データを用いた一般画像認識”http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/SSII_harada20120608.pdf

画像を理解できるようになった？

people, table, dinner

関係性の欠如

解決するべき最大のボトルネック単語がバラバラに推定されても…それらの関係性がわからない

画像を理解できるようになった？


関係性の欠如

Group of people sitting at a table with a dinner.

画像キャプションの自動生成へ

1. 画像の内容を認識すること2. 画像キャプションの自動生成の始まり

3. 既存のキャプションを再利用せよ

I2T [Yao+, Proc. of the IEEE 2010]

I2T [Yao+, Proc. of the IEEE 2010]

種々の外部データベースインタラクティブな画像の分解道路の監視カメラなどごく限られたドメインのみへの適用

画像 + 記事→キャプション [Feng+Lapata, ACL 2010]

• 学習データ：記事 + 画像 + キャプションのセット

• 入力＝記事 + 画像　　　出力＝キャプション

• 既存文の再利用• 新規文の生成

× 3361

King Toupu IV died at the age of 88 last week.

入力が異なるもののその後の 2 大アプローチを実践

画像 + 記事→キャプション [Feng+Lapata, ACL 2010]

• 学習データ：記事 + 画像 + キャプションのセット

• 入力＝記事 + 画像　　　出力＝キャプション

• 既存文の再利用• 新規文の生成

× 3361

King Toupu IV died at the age of 88 last week.

入力が異なるもののその後の 2 大アプローチを実践

再利用？新規生成？

• 再利用• 新規生成

– テンプレート主語＋動詞の文を生成しよう–非テンプレート

A small gray dogon a leash.

A black dogstanding in grassy area.

A small white dogwearing a flannelwarmer.

入力データセット


• 再利用– A small gray dog on a leash.

• 新規生成– テンプレート主語＋動詞の文を生成しよう–非テンプレート







• 新規生成– テンプレート

dog＋ stand A dog stands.⇒–非テンプレート







• 新規生成– テンプレート

dog＋ stand A dog stands.⇒–非テンプレート

A small white dog standing on a leash.





また自然言語処理に習う• 機械翻訳

– フランス語から英語への翻訳– 生成モデルによる翻訳

– 識別モデル（対数線形モデル）による翻訳　英語の文法モデル英語→仏語の翻訳モデル

翻訳モデル、言語モデル、歪みモデル、単語長、などあらゆるモデルを導入可能と同じ

また自然言語処理に習う• キャプション生成は画像から言語への「翻訳」

– 画像から言語への翻訳– 識別モデル（対数線形モデル）による翻訳　

• アプローチの違い＝モデルの違い– 再利用：各既存文を用いるスコア– テンプレート：各空欄へ各単語を利用するスコア– 非テンプレート：文法の正しさのスコア＋各単語を用いるスコア

2. 画像キャプションの自動生成の始まり3. 既存のキャプションを再利用せよ

4. 新たなキャプションを生成するには

Every picture tells a story [Farhadi+, ECCV 2010]

• データセット：画像＋ <object, action, scene>+ キャプション1. 画像の <object, action, scene> を MRF で推定

2. <object, action, scene> が同じキャプションを検索して利用

<Horse, Ride, Field>

Every picture tells a story [Farhadi+, ECCV 2010]

Im2Text [Ordonez+, NIPS 2011]

• 手法：オーソドックスなリランキング

• 貢献– 100万画像 + キャプション（ SBU データセット）– データを増やす効果を確認

cf. 80M tiny images [Torralba+, TPAMI 2008]

その他の既存文再利用アプローチ• その後も継続して新規手法が提案されている

–正準相関分析の利用 [Hodosh+, JAIR 2013][Yunchao+, ECCV 2014]

– 文章要約技術の応用 [Mason+Charniak, ACL 2014]

– 係り受け木＋ RNN[Socher+, TACL 2014]

– RCNN による画像領域と係り受けの対応[Karpathy+, NIPS 2014]

– 分散表現によるリランキング [Yagcioglu, ACL 2015]

分散表現： word2vec [Mikolov+, NIPS 2013] など　　単語の「足し引き」が可能な表現– WordNet のような意味的階層性をモデル化した

CNN [Vendrov+, ICLR 2016]

永遠に解決されない問題

データセットにない組み合わせの事物は表現できない



A small white dogwearing a flannelwarmer.入力

データセット

3. 既存のキャプションを再利用せよ4. 新たなキャプションを生成するには

5. ところで、どう評価するの？

テンプレートの誘惑• 既存文の使いまわしでは表現に限界→ 単語レベルの認識結果をどうやって新規文に？

• 主にコンピュータビジョン系の研究だと…– 翻訳等で用いられる文生成手法への知見がない– そうだ、テンプレートをつくってしまおう…


Group of people sitting at a table with a dinner.？

テンプレートを用いたキャプション生成• Baby Talk [Kulkarni+, CVPR 2011]

• Choosing Linguistics [Gupta+, AAAI 2012][Verma+, CVPR 2013]

– 類似画像の形態素解析済みフレーズを利用

テンプレートに頼らない新規文生成種のスコアの合計値が最大になる文を探すには

例えば、 1万語彙から 10 単語の文を生成すると…1 単語目： 1万通り2 単語目： 1 億通り…10 単語目： 1正

出力の文法スコアや単語を利用するスコア

マルチスタックビームサーチ1. 単語分だけ文を生成して評価2. 上位個の候補文のみ残す3. として 1. へ

• 探索手法の一つ• 現在流行している RNN による文生成でも利用

1 word 2 words 3 words

stac

k TheCatMatOnIs

The catThe matOn catMat isOn the

The cat isThe cat onOn the matMat is onOn cat is

The cat is onThe cat on theIs on the matThe mat is onMat on cat is

4 words

既存説明文群の再構成による説明文生成

部分的に利用可能な単語列（フレーズ）が存在するはず！




Cf. フレーズベース機械翻訳

入力画像

データセット内の説明文つき画像[Ushiku+, ACM MM 2011]

説明文を利用した類似画像検索の高精度化• 画像の見た目と内容の間のセマンティックギャップ

• 説明文を利用した画像間類似度の改善画像・長文からの潜在空間獲得による画像間類似度の改善[ 牛久ら , 情報処理学会誌 52巻 12号 , 2011]

( は正規分布 )• を偽距離として再近傍探索• 正規分布のパラメータを最尤推定→確率的正準相関分析 [Bach and Jordan, 2005]

入力( 画像特徴 )

どれが類似？

説明文つき画像群(番目のペアの画像特徴説明文特徴とする )

𝒙 𝒚𝒛

画像説明文

潜在変数

Training Dataset

A woman posingon a red scooter.

White and graykitten lying onits side.

A white vanparked in anempty lot.

A white cat restshead on a stone.

Silver car parkedon side of road.


A black dogstanding in a grassy area.


Input ImageA small white dog wearing a flannel warmer.

A small gray dog on a leash.

A black dog standing in a grassy area.

Nearest Captions

A small white dog wearing a flannel warmer.A small gray dog on a leash.A black dog standing in a grassy area.

A small white dog standing on a leash.

Collective Generation of Natural Image Descriptions

1. 入力画像に物体検出、シーン認識などを適用2. データセットの類似画像からフレーズを収集–名詞句（例： the brown cow ）– 動詞句（例： boy running ）–前置詞句（例： in the sky や at the market ）

3. 他のフレーズと繋いでキャプションを生成– 名詞句ひとつにつき 1 文– フレーズの組み合わせは整数計画問題

[Feng+, ACL 2012]

データセットのとある画像とキャプション入力Hard rock casino exotic car show in June 名詞句候補

マルチキーフレーズ推定アプローチ当時の問題＝使用候補であるフレーズの精度が悪い

仮説 :画像の内容は少数の主要なフレーズで特定可能あとは文法モデルで繋げばよい！

キーフレーズを独立なラベルとして扱うと…

マルチキーフレーズの推定＝一般画像認識文生成は [Ushiku+, ACM MM 2011]と同じ

[Ushiku+, ACM MM 2012]

文の終わり

Midge [Mitchel+, EACL 2012]

• 各種認識結果から木構造を生成– 物体検出および Attribute 認識結果– 動作やポーズの認識結果– 物体間の位置関係

• 木構造を組み合わせてキャプションの形へ物体の名詞に関する局所的な木構造

統合

最終的な文を生成する木構造

出力：People with a bottle at the table

ここまでのまとめ• 既存キャプションの再利用• テンプレートを利用した新規キャプション生成× 表現能力に問題あり

• テンプレートに依らない新規キャプション生成 ✔ 新規にキャプションを生成可能



A small white dogwearing a flannelwarmer.入力

データセット

ここまでのまとめ• 新規キャプションを生成する関連研究

– 物体の名前、個数、位置関係を推定して羅列[Kulkarni+, CVPR 2011]

– < 物体 , 動作 , 光景＞ +前置詞の学習[Yang+, EMNLP 2011]

– 物体検出、アトリビュート認識、動作認識[Mitchel+, EACL 2012]

× 特定の認識タスク向けのデータセットが必要• 提案手法

– 既存文を組み合わせる [Ushiku+, ACM MM 2011]

– キーとなるフレーズを推定して組み合わせる [Ushiku+, ACM MM 2011] ✔ 画像とキャプションのペアのみ使用

4. 新たなキャプションを生成するには5. ところで、どう評価するの？

6. 深層学習の襲来

どれがどれくらい良いキャプションなのか？

CoSMoS [Ushiku et al., ICCV 2015]Group of people sitting at a table with a dinner.

Corpus-Guided [Yang et al., EMNLP 2011]Three people are showing the bottle on the street

Midge [Mitchel et al., EACL 2012]people with a bottle at the table

アンケートによる比較：相対的な良さの評価• 毎回ほかの手法と比較してもらわなければならない• 絶対的なキャプションの良さの評価がほしい

定量評価指標機械翻訳では…• テスト文に複数の参照訳が付随（通常 5 文）• これらの参照訳と近い訳文が「良い」

One jet lands at an airport while another takes off next to it.Two airplanes parked in an airport.Two jets taxi past each other.Two parked jet airplanes facing opposite directions.two passenger planes on a grassy plain

キャプション生成の評価でも同様の流れ

PASCAL Sentence の画像と参照キャプションの例

データセットWeb からクロールしてきたもの• SBU Captioned Image [Ordonez+, NIPS 2011]

100万枚の Flickr 画像、 1 キャプション / 画像• YFCC-100M [Thomee+, 2015]

1億枚の Flickr 画像＋動画、一部の画像にキャプション• Déjà Images [Chen+, ACL 2015]

1つのキャプションに複数の画像が紐づいている

データセットクラウドソーシングを用いたもの• PASCAL Sentence, Flickr 8k/30k ( すべて UIUC から )それぞれ 1000/8000/30000 枚の画像、 5 キャプション / 画像• Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013]

10000枚のクリップアート、 6 キャプション / 画像• MS COCO [Lin+, 2014]

10万超の画像、 5 キャプション / 画像• MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014]

500 枚の画像に 100,000 の矩形領域 + キャプション• PASCAL-50S, ABSTRACT-50S [Vedantam+, CVPR 2015]より人間らしい評価のために作成、 50 キャプション / 画像

定量評価指標• Precision に基づく評価

– システムが出力したキャプション中の n-gram が参照キャプション中に含まれる割合– BLEU [PapineniL, ACL 2002]

– NIST [Doddington, HLT 2002]

短い文へのペナルティ

短い文へのペナルティ

N-gram の Precision の累積積N-gram の Precision の累積和

定量評価指標• Recall に基づく評価

–参照キャプション中の n-gram がシステムが、出力したキャプション中に含まれる割合– Rouge [Lin, 2004]

• ランキングに基づく評価– 既存文の検索はまさにランキング問題– 実は新規文生成でも各文を目的関数で評価できる

→ ランキング問題として新規文生成手法も評価可能�̂�=argmax

𝐥𝑃 (𝐥|𝐢 )=argmax

𝐥∑𝑚=1

𝑀

𝜆𝑚h𝑚(𝐥 ,𝐢 )

Precision ベース評価の試練• BLEUバッシング

–「 BLEU は人の評価と相関しない」 [Hodosh+, JAIR 2013]

– 確かに機械翻訳でも疑問の声はある– しかしキャプション生成分野では…ほぼ全てで unigram や bigram の BLEU を利用（ BLEU は 4-gram での利用が一般的）

• NISTパッシング– BLEU の改良版– Rouge の原著でも、 Rouge=NIST>BLEU という結果– しかしキャプション生成分野では…

BLEU を叩くだけで誰も NIST を使わない

Consensus-based Image Description Evaluation

• METEOR （ Recall と Precision両方を重視[Elliott+Keller, EMNLP 2013] ）を参考にしたもの

• CIDEr ：画像キャプション生成の評価用に考案[Vedantam+, CVPR 2015]

TF-IDF （実は NIST とよく似ている）

n-gram でのCIDEr の累積和

n-gram でのPrecision と Recall の調和平均（ F値）

5. ところで、どう評価するの？6. 深層学習の襲来

7. 今後の展望・派生研究の広がり

2012 年：一般物体認識における激震

2012 年の画像認識タスクでディープ勢が2位以下に圧勝 !



2012 年：一般物体認識における激震[Tomohiro Mito, Deep learning, slideshare, 2013]

2012 年：一般物体認識における激震[Tomohiro Mito, Deep learning, slideshare, 2013]

ISI ってなんだよどこのチームだよ同 web サイトをみると･･･

ぼくら

深層学習

またまた自然言語処理に習う機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]

• RNN で問題になっていた勾配の消失をLSTM[Hochreiter+Schmidhuber, 1997] で解決→文中の離れた単語間での関係を扱えるように

• LSTM を 4層つなぎ、 end-to-end で機械学習→ state-of-the-art並み（英仏翻訳）“ABC” という単語列から” WXYZ” という単語列への翻訳

入力

出力

Google NIC [Vinyals+, CVPR 2015]

Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]

• LSTM [Sutskever+, NIPS 2014]を直列させて文生成する。画像への文（単語列）は意味する単語

を意味する単語

生成された説明文の例

LRCN [Donahue+, CVPR 2015]

• CNN+stacked LSTM– 動作認識（下図左）– 画像説明文生成（下図中央）– 動画説明文生成（下図右）

生成された説明文の例

Visual-Semantic Alignments[Karpathy+Fei-Fei, CVPR 2015]

• 画像説明文生成は CNN+Bidirectional RNN–他の手法とほぼ同一–並列で Visual Semantic　 Alignment を提案

画像領域と文の一部とのアライメント

Image-sentence score （右図）画像領域・説明文単語、

から計算

対応する画像・説明文ペアの score> 非対応ペアの score になるよう学習

アライメントの例

そのほかの CVPR2015論文でも…• DMSM [Fang+] (著者 12 人 )

– CNN と対数線形モデル– Multiple Instance Learningで物体検出– キャプション候補のリランキング

• Mind’s Eye [Chen+Zitnick]

– CNN と RNN

お互いにとても似ているMethods in CVPR2015 CNN （画像特徴量） RNN （文生成）Google NIC GoogLeNet （ 22層

CNN ）LSTM

LRCN VGG Net （ 19層 CNN ） Stacked LSTMs

Visual-Semantic Alignment AlexNet （ 7層 CNN ） BRNN → LSTM

Mind’s Eye VGG Net RNN

DMSM AlexNet 対数線形モデル

表： Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較

　　　　　　MS COCO Captioning Challenge

• CVPR 2015 で行われた競争型ワークショップ– 1位： Google

• 基本的には Google NIC• 後の [Bengio+, NIPS2015] において…

RNN の学習に Curriculum Learning [Bengio+, ICML 2009] を導入していたことが判明– 2位： MSR

• CVPR2015 で発表された論文の通り、CNN+RNN以外の工夫もしている

• のちに RNN による文生成も検討[Devlin+, IJCNLP 2015]

[Ushiku+, ACM MM 2012] と比べると入力画像

[Ushiku+, ACM MM 2012] では：Fisher Vector + 線形分類オンライン学習

CVPR 2015 の各論文では：CNN （オンライン学習なのは一緒） CVPR 2015 の各論文では：

RNN とビームサーチで文をつなぐ

[Ushiku+, ACM MM 2012] では：キーフレーズと文法モデル、ビームサーチで文をつなぐ

文の一部で重要そうなものを複数推定文法モデルを利用して繋ぎ、説明文に

• いずれも画像 + キャプションのみから学習可能• 全体の流れは非常に似ている

“ キーフレーズ”

6. 深層学習の襲来7. 今後の展望・派生研究の広がり

画像キャプション生成の精緻化• 画像認識

– Inception モデルや ResNet など、より高精度な CNN• 自然言語処理

– 画像認識側が完璧になったと仮定した文生成 [Gupta+　Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+, ICLR workshop 2016]

• 2 分野が融合して新たに生まれたものの例：– Show, Attend and Tell [Xu+, ICML 2015]

– 画像 + キャプションから注視モデルも学習！

キャプション生成そのものは終わった？• 深層学習のおかげで画像認識は人間並み…？

– ILSVRC 2015 における 1000 クラス画像認識では…人間（ 5% ）より ResNet （ 4%弱）が上– MS COCO Captioning Challenge では…

M1: 人間並みかそれ以上のキャプションの割合M2: チューリングテストをパスしたキャプションの割合M3:正確さの 5段階評価（ 5 が最良）M4:詳細さの 5段階評価（ 5 が最良）M5: 既存キャプションによく似たキャプションの割合

キャプション生成そのものは終わった？• 深層学習のおかげで画像認識は人間並み…？

– ILSVRC 2015 における 1000 クラス画像認識では…人間（ 5% ）より ResNet （ 4%弱）が上– MS COCO Captioning Challenge では…

M1: 人間並みかそれ以上のキャプションの割合M2: チューリングテストをパスしたキャプションの割合M3:正確さの 5段階評価（ 5 が最良）M4:詳細さの 5段階評価（ 5 が最良）M5: 既存キャプションによく似たキャプションの割合× キャプション生成は深層学習によって終わったキャプション生成への深層学習の単純な適用は終わった

定性的な発展• より細かいキャプション生成 [Johnson+, CVPR 2016]

• アルバムのような系列画像にキャプション生成[Park+Kim, NIPS 2015][Huang+, NAACL 2016]

定性的な発展• Sentiment [Mathews+, AAAI 2016]

• 単画像により多くのキャプションを生成[Lin+, BMVC 2015]

ニュートラルな文

ポジティブな文（生成した例）

派生研究の広がり

視覚と言語の高度な知能システム1. 動画キャプション生成2. 言語横断3. 画像に関する質問への応答4. キャプションからの画像生成

動画キャプション生成• 深層学習前：物体検出やトラッキングに依存

[Yu+Siskind, ACL 2013]

• CNN+RNN による end-to-end な学習手法が台頭– LRCN [Donahue+, CVPR 2015]

– Video to Text [Venugopalan+, ICCV 2015]

– 3-D CNN [Yao+, ICCV 2015]

• データセットも増えつつある– MPII Movie Description dataset [Rohrbach+, CVPR 2015]

– MS VDC [Chen+Dolan, ACL 2011]

[Yao+, ICCV 2015]

言語横断型の研究• IAPR-TC12 [Grubinger+, 2006]

–英 &独の説明文が付与されている–主に画像 × タグの理解を進める研究に利用される

• 画像は機械翻訳の精度に寄与 [Calixto+,2012]

–英語で seal とあるけど、・ stamp に近い seal なのか？・ sea animal の seal なのか？がわからず誤ったポルトガル語に翻訳

– （実験してないけど）画像があれば防げるはず！

言語横断型の研究• 画像を介した言語横断関連文書検索

[Funaki+Nakayama, EMNLP 2015]

• 画像を介した言語横断キャプション翻訳[Elliott+, 2015] [Hitschler+, ACL 2016]

• データセットも出始める– 1000 枚画像＋日英キャプション [Funaki+Nakayama,

EMNLP 2015]– 30,000 枚画像 +英独キャプション [Elliot+, WMT 2016]

画像に関する質問に答える QA システムVisual Question Answering• Visual Turing Challenge [MalinowskiL+Fritz, 2014]

• VQA Challenge– CVPR 2016 併設のコンペティション– 原田・牛久研究室： Abstract Image 部門で世界 1位

[Malinowski+, ICCV 2015]

キャプションを入力して画像を生成• Attention モデルの利用 [Mansimov+, ICLR 2016]

• DCGAN [Radford+, 2016] の利用 [Reed+, ICML 2016]

1 単語だけ変えた場合ありえないシチュエーション

This small bird has a pink breast and crown, and black primaries and secondaries.

A man in a set suit riding a surfboard on a wave.

CUB(鳥 200 種類のみのデータセット ) で学習 MS COCO で学習

画像キャプション生成のまとめ入力画像を説明する自然文を出力する問題• 一般的な対象：できるだけ多くの訓練サンプル→ Web にあるような画像 + 文のみのデータ• 新規の文も生成できるような柔軟性本講演の目的• 画像キャプション生成という分野を俯瞰する

– 歴史的な流れ、アプローチの体系• 視覚 × 言語の新たなステージへ皆様の参戦をお待ちしております。

Technology

画像キャプションの自動生成（第3回ステアラボ人工知能セミナー）