関西CVPRML 2011.8.27

CVPR2011 Paper Digest

(1) Interactive building a discriminative vocabulary of nameable attributes

(2) Recognition using visual phrases

木村昭悟＠ NTTコミュニケーション科学基礎研究所

Twitter ID: @_akisato

なぜこの2本を選んだのか？なぜこの2本を選んだのか？

「画像を理解する」をどう問題に落とす？像を解す」をう問題落す物体認識…？

Horse

Person

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping

物体認識をしただけでは

A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

物体認識をしただけでは，実は何も理解できていない！（物体だけを認識する般物体認識の終焉）

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)22

（物体だけを認識する一般物体認識の終焉）

何が足りないのか？ (1)何が足りないのか？ (1) 物体などの属性が足りない物体属性足りでも画像だけで全部できる気がしない

Person: femaleSky: clear

全部できる気がしないHorse: white


Beach: beautiful, sandy

white horse at a beautiful sandy beach under a clear sky.

第1論文の主題：属性辞書をインタラクティブに学習


第論文の主題属性辞書をインタラクティ学習

何が足りないのか？ (2)何が足りないのか？ (2) 物体間の関係性が足りない物体間関係性足り

A person is wearing clothes.

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a white horse

A person is riding on a horse.

at a beautiful sandy beach under a clear sky.

第2論文の主題：物体とその関係性をクラスと見なす認識


第論文の主題物体その関係性をクラ見なす認識

Interactively building a discriminative vocabulary of discriminative vocabulary of

nameable attributes題（こちらが一応今日の主題…のはず）

D. Parikh @ Toyota Technological Institute, ChicagoK. Grauman @ University of Texas at Austin

やりたいことやりたいこと

物体・シーンの属性の辞書・モデルを物体属性辞書をインタラクティブに構築する

物体やシーンはそれぞれ違うラベルが付いているけど何か名前があるかも！違うラベルが付いているけど，何か傾向があるような気がする…

何か名前があるかも！聞いてみよう！


アプローチアプローチ

物体クラスとは異なる類似性を見つける物体ラ異類性を見

クラス分類を壊さないような2クラス識別面を見つける

ユーザに見せる画像を適切に選択適切に選択

尤もらしい仮説だけを


尤もらしい仮説だけを選択して提示

類似性発見の方法類似性発見の方法

教師なし（物体も属性も関係なし）でMixture of Probabilistic PCAs 教師なし（物体も属性も関係なし）で最大マージンクラスタリング

Mixture of Probabilistic PCAsでモデル化，適切な仮説のみ選択

現在の属性辞書（この図では1つだけどいっぱいあってもOK）

現在の属性辞書で分離しにくい物体クラスの集合を見つける by normalized cuts


いっぱいあってもOK）集合を見つける by normalized cuts

提示する画像の選択提示する画像の選択

最大マージンクラスタリングで得られた

識別面に直交する軸を等間隔に区切る

区切った領域内で識別面の真ん中に最大マジンクラスタリングで得られた識別面（＝属性候補）

区切った領域内で，識別面の真ん中に最も近いサンプルを選択


ユーザに何を尋ねるか？ユーザに何を尋ねるか？

•この属性の名前は？（以降はもし属性に名前があれば回答）•左右，どちらに行くほどその特性が強くなるか？•この画像列がその属性を表現するものとして，どの程度尤もらしいか（4段階評価）？


どの程度尤もらしいか（4段階評価）？

データセットデータセット

Outdoor scene recognition (OSR)g ( ) http://people.csail.mit.edu/torralba/code/spatialenvelope/

Animals with attributes (AWA) Animals with attributes (AWA) http://attributes.kyb.tuebingen.mpg.de共通事項共通事項各データセットから8物体クラスを選択

1画像1クラスとなるように加工された画像もある

属性の種類は主旨(gist)と色に限定属性の種類は主旨(gist)と色に限定

インタラクションはMechanical Turk経由


クラス選択と仮説選択の効果クラス選択と仮説選択の効果

クラス選択クラス選択

クラスのランダム選択やクラス選択なしに比べクラス選択なしに比べ，意味ある仮説を適切に

選択できている

仮説選択仮説選択

仮説のランダム選択と比較して比較して，

意味ある仮説を適切に選択できている


全体としての効果全体としての効果

インタラクションを重ねれば，ラを，属性辞書は着実に構築されます．

なので当然認識精度も少し向上しますなので，当然，認識精度も少し向上します．


続編がICCV2011で発表されます続編がICCV2011で発表されます

Title: Related attributes

Attributeに関するランキング関数を学習関数

Zero-shot learning?

ランキング関数は識別直交軸上の値？

g何それ，おいしいの？


識別直交軸上の値？

Recognitionusing visual phrasesusing visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental ScienceA. Farhadi @ University of Illinois at Urbana-Champaign

やりたいことやりたいこと

物体とその関係性を認識する物体そ関係性を認識す

Person_nextto_bicycle Person_drinking_bottle

Person riding bicycle Dog lyingon sofa


Person_riding_bicycle Dog_lyingon_sofa

アプローチアプローチ

1. 関係性も物体同様，１つの「クラス」と見なす．関係性物体様，ラ」見すなので，真に関係性を認識しているわけではない．

2 クラス間の位置関係を考慮して2. クラス間の位置関係を考慮して，クラス別での認識結果を修正（追加・削除）

1

22


各クラスのモデル

Deformable part model

各クラスのモデル粗めPCA-HOG

p[Felzenszwalb+ 2010]

PASCAL VOC 標準ソフト採用

bicycle

物体パーツごとの細かめPCA-HOG

bicycle

パーツ位置ずれ/変形に対するコスト

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based


Felzenszwalb et al. Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/

各クラスの認識各クラスの認識

粗めHOG 細かめHOG （解像度2倍）

Input image

Model (person)


クラス別認識結果の統合クラス別認識結果の統合i番目のbounding boxを最終結果に使うかどうか？最終結果に使うかどうか？ i番目のbounding boxの

クラスインデックス

personperson

i番目使わない → all 0 のベクトル

person bag

i番目使わない all 0 のベクトルi番目使う → i番目のbounding boxの特徴表現

クラス別に位置関係・尤度・サイズ比等を考慮したクラス別に，位置関係・尤度・サイズ比等を考慮した「何らか」の(9K+1)次元ベクトル（ダッテナニモカイテナイシ）

識別軸 w でクラス判別を行う線形(structured)SVM


識別軸 w でクラス判別を行う線形(structured)SVM

結果統合モデルの学習結果統合モデルの学習

Structured SVMの設計設

n番目の画像全体での仮説と正解とのハミング距離n番目の画像全体でのbounding boxes の評価値

bounding boxの使用/不使用に関する仮説

仮説と正解とのハミング距離

仮説最適化と目的関数最大化の繰り返しで学習


データセット http://vision cs uiuc edu/phrasal/データセット http://vision.cs.uiuc.edu/phrasal/

Bingでphraseを検索，以降は手動作業…g p を検索，降動作業 25クラス = 8 objects + 17 phrases

画像 2769枚 (822枚 = negative examples) 画像 2769枚 (822枚 = negative examples)

各クラス平均120枚のpositives

5067 b di b 5067 bounding boxes （phrases:1796, objects:3271)

Dog jumping

Person drinking b ttlbottle

Person lying on sofa


on sofa

関係性認識の精度が良くなります関係性認識の精度が良くなります

精度が大きく向上した10 phrasesでのPR曲線p


関係性認識の精度が良くなります関係性認識の精度が良くなります

多くのphrasesでb li を大きく上回る性能baselineを大きく上回る性能

どのような状況が得手/不得手どのような状況が得手/不得手か，があまり明らかでない


物体認識の精度も少し良くなります物体認識の精度も少し良くなりますDeformable part model [Felzenszwalb+ PAMI2010]（Baselineとなる物体検出器 page 10 参照）（Baselineとなる物体検出器，page 10 参照）

Structured learning forStructured learning formulti-class object layout [Desai+ ICCV2010]（scoring functionを使った物体関係モデルを用いた検出器）


物体認識の精度も良くなります物体認識の精度も良くなります


さいごのまとめ

木村昭悟＠ NTTコミュニケーション科学基礎研究所

Twitter ID: @_akisato

それでもやっぱりまだ足りないそれでもやっぱりまだ足りない… 物体の動作が足りない → 第2論文でできたのはごく一部物体動作足り

風景を系統的に理解できない→ 物体・属性・関係性・動作の総合体，かなぁ物体属性関係性動作の総合体，かなぁ

Beach = sky(upper) + water(middle) + sand(lower)??

A horse is galloping.


それでもやっぱりまだ足りないそれでもやっぱりまだ足りない… 説明文自体を直接生成する説明体を直接成すここ1年でいくつかの研究が出てきたが，手法の完成度としてはまだ2合目程度手法の完成度としてはまだ2合目程度

• Yang et al.“Corpus-Guided Sentence Generation of Natural Images”, EMNLP2011• Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011


hi h b if l d b h d l k


white horse at a beautiful sandy beach under a clear sky.

それでもやっぱりまだ足りないそれでもやっぱりまだ足りない… 意外性が足りない性足り

→ Context重視の方針を追求することの功罪

Relatively easy Seems to be hardRelatively easy Seems to be hard


追記：自分ができなくても言わねばならぬこと追記：自分ができなくても言わねばならぬこと

作ったモノ（手法・DB等）を使える状態にしようすぐに使える水準まで技術を高める

作ったモノをみんなに使ってもらう努力をする使 Video segmentation datasetを公開しています．

でもなければ，誰でも再現可能な技術を作るMIRU2011 OS1 2はその試みの1 です MIRU2011 OS1-2は，その試みの1つです．

3年も経てばold-fashion,20年経てば忘れられるこの分野のacademiaで生きるならそれについていく覚悟が必須この分野のacademiaで生きるなら，それについていく覚悟が必須

選択肢は広く，実行するモノは数少なく良い問題に当たる確率は確実に上がる

分野が変われば技術も変わる，そこから学ぶ


Thank you for your kind attentionThank you for your kind attention.

Any questions/comments/discussions ?

Corresponding authorAkisato Kimura Ph D @ NTT CS LabsAkisato Kimura, Ph.D @ NTT CS Labs.

[E-mail] akisato <at> ieee.org [Twitter] _akisato[ b] Pl h b “Aki t Ki ”


[web] Please search by “Akisato Kimura”

Technology

関西CVPRML 2011.8.27