視覚×言語の最前線（ステアラボ人工知能シンポジウム2017）

視覚 × 言語の最前線

東京大学大学院情報理工学系研究科牛久祥孝losnuevetoros

画像キャプション生成

A giraffe standing next to a tree in a fence.

A yellow train on the tracks near a train station.

A dog laying on the side of a zoo enclosure.

With a cat laying on top of a laptop computer.

A man in the beach with a surfboard. Black and white dog on the grass in a frisbee.

[Ushiku+, ICCV 2015]

キャプションからの画像生成

This bird is blue with white and has a very short beak.

( この鳥は白の入った青色で、とても短いくちばしをもっています。 )

This flower is white and yellow in color, with petals that are wavy and smooth.

( この花は白と黄色で、波打った滑らかな花びらをもっています。 )

[Zhang+, 2016]

ビジュアル質問応答[Fukui+, EMNLP 2016]

今日の講演

• 先程までの例は最近の結果1. 画像キャプション生成2. キャプションからの画像生成3. ビジュアル質問応答

• 本講演：これらの分野の重要な 3 論文を紹介1. Every Picture Tells a Story:

Generating Sentences from Images[Farhadi+, ECCV 2010]

2. Generative Adversarial Text to Image Synthesis[Reed+, ICML 2016]

3. VQA: Visual Question Answering[Antol+, ICCV 2015]

自己紹介～2014.3 博士 (情報理工学 )、東京大学

• 画像キャプション生成

• 大規模画像認識

2014.4～2016.3 NTT コミュニケーション科学基礎研究所研究員

2016.4～東京大学大学院情報理工学系研究科知能機械情報学専攻講師 (原田・牛久研究室 )

こっそり (?) 宣伝

• コンピュータビジョン勉強会＠関東– Computer Vision についての勉強会

輪読、論文読み会、 LT–参加者の大半は社会人–当然学生も歓迎

• MIRU2017 若手プログラム– 2017 年 8 月 7 日～ 8 月 11 日＠広島–画像の認識・理解シンポジウム（ MIRU ）内開

催–若手同士で「研究の立ち上げ」

論文 1Every Picture Tells a Story: Generating Sentences from Images[Farhadi+, ECCV 2010]

この論文のどこがすごいか？

• 世界初の画像キャプション生成論文–データセットの提供–既存手法がない中でパイプラインを提案

• 深層学習の流行より前の研究「画像から文章を作成する技術の実現性は、ディープラーニングの登場前、想像すらされていませんでした。」 [ 武井 , 2016] といった記述は誤り

データセットの収集

• PASCAL Sentence Dataset の提供– 1000 枚の画像、 5 キャプション / 画像– キャプションは Amazon Mechanical Turk (AMT) で

収集

• その後のより大規模なデータセットのお手本に– Flickr 8k/30k

それぞれ 8000/30000 枚の画像、 5 キャプション / 画像

– Abstract Scene Dataset [Zitnick+Parikh, CVPR 2013]10000 枚のクリップアート、 6 キャプション / 画像

– MS COCO [Lin+, 2014]10 万超の画像、 5 キャプション / 画像

One jet lands at an airport while another takes off next to it.Two airplanes parked in an airport.Two jets taxi past each other.Two parked jet airplanes facing opposite directions.two passenger planes on a grassy plain

パイプライン

既存キャプション再利用アプローチ

0. データセットの画像＋キャプションに <object, action, scene> を手作業で付与1. 画像の <object, action, scene> を MRF で推定

2. <object, action, scene> が同じキャプションを検索して利用

<Horse, Ride, Field>

キャプション生成結果の例

その後の展開

• 2 大アプローチが台頭–既存キャプションの検索アプローチ

本論文はこちらに分類される–新規キャプションの生成アプローチ

画像認識技術と機械翻訳技術の融合

• ディープラーニングによる流行–画像認識–機械翻訳が深層学習で実現可能に→参入障壁が低下 Google NIC [Vinyals+, CVPR 2015]

論文 2Generative Adversarial Text to Image Synthesis[Reed+, ICML 2016]


文から鮮明な画像の生成を実現↑難しいタスク（下は [Mansimov+, ICLR 2016] の例）

※ 画像補完なら既にある [Hays+Efros, SIGGRAPH 2007]

文からの画像生成＝条件つき生成

まずは…Generative Adversarial Networks (GAN)[Goodfellow+, NIPS 2014]• 条件を持たない生成学習手法• Generator と Discriminator の敵対的学習

• 畳込み層をもつ場合… DCGAN [Radford+, ICLR 2016]

Generator乱数から画像を生成

Discriminator実画像と生成画像を見分ける

　　　　　　はお前が生成したな！





















学習が進むと：




むむむ…

文で生成結果を変えるには

Generator と Discriminator に文を加える

・自然な画像・文に沿った画像を生成しようとする

・不自然な画像・文に合わない画像を識別しようとする

生成できた画像の例

• 鳥 (CUB)/ 花 (Oxford-102) データセット–約 1 万の鳥 / 花画像と 5 キャプション / 画像– 200種類の鳥 /102種類の花

A tiny bird, with a tiny beak, tarsus and feet, a blue crown, blue coverts, and black cheek patch

Bright droopy yellow petals with burgundy streaks, and a yellow stigma

その後の展開

StackGAN [Zhang+, 2016]

• 2段階の GAN からなるモデル• 1段目でぼやっとした画像を生成、 2段目で高解像 +詳細化






[Zhang+, 2016]






[Zhang+, 2016]

鳥 / 花に特化したデータセットでの結果→一般的な画像を生成するにはより一層のブレイクスルーが必要

論文 3VQA: Visual Question Answering[Antol+, ICCV 2015]


• ビジュアル質問応答を分野として確立–ベンチマークデータセットの提供–ベースとなるパイプラインでの実験

–ポータルサイト (http://www.visualqa.org/) も運営

• VQA という言葉自身は new ではない– AMT で人力解決 [Bigham+, UIST 2010]–初の自動化（ディープラーニング不使用）

[Malinowski+Fritz, NIPS 2014]–類似用語： Visual Turing Test [Malinowski+Fritz,

2014]

VQA Dataset の構築

AMT で質問と回答を収集• 10 万超の実画像、 3 万超のアニメ調画像• 計 70 万弱の質問＋それぞれ 10 の模範回答

VQA=多クラス分類問題

表現ベクトル通常のクラス識別

質問文What objects arefound on the bed?

応答bed sheets, pillow

画像画像特徴量

質問特徴量

統合された表現ベクトル

VQA Challengeコンペティション参加チームの解答例から

Q: What is the woman holding?GT A: laptopMachine A: laptop

Q: Is it going to rain soon?GT A: yesMachine A: yes

Q: Is the hydrant painted a new color?GT A: yesMachine A: no

Q: Why is there snow on one side of the stream and clear grass on the other?GT A: shadeMachine A: yes

その後の展開

「統合された表現ベクトル」をどのように作るかを工夫する流れ• この論文：そのまま直列に並べる

• Attention で重みづけ和をとった画像特徴と質問特徴を単純に足す [Xu+Saenko, ECCV 2016]

• 双線形積とフーリエ変換を組み合わせる[Fukui+, EMNLP 2016]

• 要素毎の積と要素毎の和を直列に並べる[Saito+, ICME 2017]

𝑧 𝐼+𝑄

𝑥𝐼𝑥𝑄

この論文のベンチマークとパイプラインに沿った形なのはその後の論文で共通している点

さいごに

• 2017 年：” AI” は 61歳1956 年のダートマス会議で分野が誕生

• AI の研究＝玉ねぎの皮むき [Turing, 1956]

真の”知能” ?（強い AI? ）

単一の機能 … 弱い AI数学の定理を自動で発見問診から病気を自動診断

チェスで人間に勝利かな漢字変換

クイズで人間に勝利将棋で人間に勝利

音声認識画像認識

囲碁で人間に勝利画像と言語の融合

これからもどんどん皮をむこう

Technology

視覚×言語の最前線（ステアラボ人工知能シンポジウム2017）