32
CVPR2011 Paper Digest (1) Interactive building a discriminative vocabulary of nameable attributes (2) Recognition using visual phrases 木村 昭悟 @ NTTコミュニケーション科学基礎研究所 Twitter ID: @_akisato

関西CVPRML 2011.8.27

Embed Size (px)

DESCRIPTION

先月のCVPR2011祭りのスライドからあまり発展させることができずに大変恐縮ですが,とりあえずアップします.

Citation preview

Page 1: 関西CVPRML 2011.8.27

CVPR2011 Paper Digest

(1) Interactive building a discriminative vocabulary of nameable attributes

(2) Recognition using visual phrases

木村 昭悟 @ NTTコミュニケーション科学基礎研究所

Twitter ID: @_akisato

Page 2: 関西CVPRML 2011.8.27

なぜこの2本を選んだのか?なぜこの2本を選んだのか?

「画像を理解する」をどう問題に落とす?像を 解す 」を う問題 落 す 物体認識…?

Horse

Person

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping

物体認識をしただけでは

A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

物体認識をしただけでは,実は何も理解できていない!(物体だけを認識する 般物体認識の終焉)

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)22

(物体だけを認識する一般物体認識の終焉)

Page 3: 関西CVPRML 2011.8.27

何が足りないのか? (1)何が足りないのか? (1) 物体などの属性が足りない物体 属性 足り でも画像だけで全部できる気がしない

Person: femaleSky: clear

全部できる気がしないHorse: white

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping

Beach: beautiful, sandy

white horse at a beautiful sandy beach under a clear sky.

第1論文の主題: 属性辞書をインタラクティブに学習

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)33

第 論文の主題 属性辞書をインタラクティ 学習

Page 4: 関西CVPRML 2011.8.27

何が足りないのか? (2)何が足りないのか? (2) 物体間の関係性が足りない物体間 関係性 足り

A person is wearing clothes.

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a white horse

A person is riding on a horse.

at a beautiful sandy beach under a clear sky.

第2論文の主題: 物体とその関係性をクラスと見なす認識

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)44

第 論文の主題 物体 その関係性をクラ 見なす認識

Page 5: 関西CVPRML 2011.8.27

Interactively building a discriminative vocabulary of discriminative vocabulary of

nameable attributes題(こちらが一応今日の主題…のはず)

D. Parikh @ Toyota Technological Institute, ChicagoK. Grauman @ University of Texas at Austin

Page 6: 関西CVPRML 2011.8.27

やりたいことやりたいこと

物体・シーンの属性の辞書・モデルを物体 属性 辞書 をインタラクティブに構築する

物体やシーンはそれぞれ違うラベルが付いているけど 何か名前があるかも!違うラベルが付いているけど,何か傾向があるような気がする…

何か名前があるかも!聞いてみよう!

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)66

Page 7: 関西CVPRML 2011.8.27

アプローチアプローチ

物体クラスとは異なる類似性を見つける物体 ラ 異 類 性を見

クラス分類を壊さないような2クラス識別面を見つける

ユーザに見せる画像を適切に選択適切に選択

尤もらしい仮説だけを

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)77

尤もらしい仮説だけを選択して提示

Page 8: 関西CVPRML 2011.8.27

類似性発見の方法類似性発見の方法

教師なし(物体も属性も関係なし)でMixture of Probabilistic PCAs 教師なし(物体も属性も関係なし)で最大マージンクラスタリング

Mixture of Probabilistic PCAsでモデル化,適切な仮説のみ選択

現在の属性辞書(この図では1つだけどいっぱいあってもOK)

現在の属性辞書で分離しにくい物体クラスの集合を見つける by normalized cuts

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)88

いっぱいあってもOK) 集合を見つける by normalized cuts

Page 9: 関西CVPRML 2011.8.27

提示する画像の選択提示する画像の選択

最大マージンクラスタリングで得られた

識別面に直交する軸を等間隔に区切る

区切った領域内で 識別面の真ん中に 最大マ ジンクラスタリングで得られた識別面 (=属性候補)

区切った領域内で,識別面の真ん中に最も近いサンプルを選択

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)99

Page 10: 関西CVPRML 2011.8.27

ユーザに何を尋ねるか?ユーザに何を尋ねるか?

•この属性の名前は? (以降はもし属性に名前があれば回答)•左右,どちらに行くほどその特性が強くなるか?•この画像列がその属性を表現するものとして,どの程度尤もらしいか (4段階評価)?

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1010

どの程度尤もらしいか (4段階評価)?

Page 11: 関西CVPRML 2011.8.27

データセットデータセット

Outdoor scene recognition (OSR)g ( ) http://people.csail.mit.edu/torralba/code/spatialenvelope/

Animals with attributes (AWA) Animals with attributes (AWA) http://attributes.kyb.tuebingen.mpg.de共通事項 共通事項 各データセットから8物体クラスを選択

1画像1クラスとなるように加工された画像もある

属性の種類は主旨(gist)と色に限定 属性の種類は主旨(gist)と色に限定

インタラクションはMechanical Turk経由

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1111

Page 12: 関西CVPRML 2011.8.27

クラス選択と仮説選択の効果クラス選択と仮説選択の効果

クラス選択クラス選択

クラスのランダム選択やクラス選択なしに比べクラス選択なしに比べ,意味ある仮説を適切に

選択できている

仮説選択仮説選択

仮説のランダム選択と比較して比較して,

意味ある仮説を適切に選択できている

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1212

Page 13: 関西CVPRML 2011.8.27

全体としての効果全体としての効果

インタラクションを重ねれば,ラ を ,属性辞書は着実に構築されます.

なので 当然 認識精度も少し向上します なので,当然,認識精度も少し向上します.

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1313

Page 14: 関西CVPRML 2011.8.27

続編がICCV2011で発表されます続編がICCV2011で発表されます

Title: Related attributes

Attributeに関するランキング関数を学習関数

Zero-shot learning?

ランキング関数は識別直交軸上の値?

g何それ,おいしいの?

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1414

識別直交軸上の値?

Page 15: 関西CVPRML 2011.8.27

Recognitionusing visual phrasesusing visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental ScienceA. Farhadi @ University of Illinois at Urbana-Champaign

Page 16: 関西CVPRML 2011.8.27

やりたいことやりたいこと

物体とその関係性を認識する物体 そ 関係性を認識す

Person_nextto_bicycle Person_drinking_bottle

Person riding bicycle Dog lyingon sofa

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1616

Person_riding_bicycle Dog_lyingon_sofa

Page 17: 関西CVPRML 2011.8.27

アプローチアプローチ

1. 関係性も物体同様,1つの「クラス」と見なす.関係性 物体 様, ラ 」 見 す なので,真に関係性を認識しているわけではない.

2 クラス間の位置関係を考慮して2. クラス間の位置関係を考慮して,クラス別での認識結果を修正 (追加・削除)

1

22

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1717

Page 18: 関西CVPRML 2011.8.27

各クラスのモデル

Deformable part model

各クラスのモデル粗めPCA-HOG

p[Felzenszwalb+ 2010]

PASCAL VOC 標準ソフト採用

bicycle

物体パーツごとの細かめPCA-HOG

bicycle

パーツ位置ずれ/変形に対するコスト

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1818

Felzenszwalb et al. Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/

Page 19: 関西CVPRML 2011.8.27

各クラスの認識各クラスの認識

粗めHOG 細かめHOG (解像度2倍)

Input image

Model (person)

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)1919

Page 20: 関西CVPRML 2011.8.27

クラス別認識結果の統合クラス別認識結果の統合i番目のbounding boxを最終結果に使うかどうか?最終結果に使うかどうか? i番目のbounding boxの

クラス インデックス

personperson

i番目使わない → all 0 のベクトル

person bag

i番目使わない all 0 のベクトルi番目使う → i番目のbounding boxの特徴表現

クラス別に 位置関係・尤度・サイズ比等を考慮したクラス別に,位置関係・尤度・サイズ比等を考慮した「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ)

識別軸 w でクラス判別を行う線形(structured)SVM

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2020

識別軸 w でクラス判別を行う線形(structured)SVM

Page 21: 関西CVPRML 2011.8.27

結果統合モデルの学習結果統合モデルの学習

Structured SVMの設計設

n番目の画像全体での 仮説と正解とのハミング距離n番目の画像全体でのbounding boxes の評価値

bounding boxの使用/不使用に関する仮説

仮説と正解とのハミング距離

仮説最適化と目的関数最大化の繰り返しで学習

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2121

Page 22: 関西CVPRML 2011.8.27

データセット http://vision cs uiuc edu/phrasal/データセット http://vision.cs.uiuc.edu/phrasal/

Bingでphraseを検索,以降は手動作業…g p を検索, 降 動作業 25クラス = 8 objects + 17 phrases

画像 2769枚 (822枚 = negative examples) 画像 2769枚 (822枚 = negative examples)

各クラス 平均120枚のpositives

5067 b di b 5067 bounding boxes (phrases:1796, objects:3271)

Dog jumping

Person drinking b ttlbottle

Person lying on sofa

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2222

on sofa

Page 23: 関西CVPRML 2011.8.27

関係性認識の精度が良くなります関係性認識の精度が良くなります

精度が大きく向上した10 phrasesでのPR曲線p

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2323

Page 24: 関西CVPRML 2011.8.27

関係性認識の精度が良くなります関係性認識の精度が良くなります

多くのphrasesでb li を大きく上回る性能baselineを大きく上回る性能

どのような状況が得手/不得手どのような状況が得手/不得手か,があまり明らかでない

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2424

Page 25: 関西CVPRML 2011.8.27

物体認識の精度も少し良くなります物体認識の精度も少し良くなりますDeformable part model [Felzenszwalb+ PAMI2010](Baselineとなる物体検出器 page 10 参照)(Baselineとなる物体検出器,page 10 参照)

Structured learning forStructured learning formulti-class object layout [Desai+ ICCV2010](scoring functionを使った物体関係モデルを用いた検出器)

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2525

Page 26: 関西CVPRML 2011.8.27

物体認識の精度も良くなります物体認識の精度も良くなります

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2626

Page 27: 関西CVPRML 2011.8.27

さいごのまとめ

木村 昭悟 @ NTTコミュニケーション科学基礎研究所

Twitter ID: @_akisato

Page 28: 関西CVPRML 2011.8.27

それでもやっぱりまだ足りないそれでもやっぱりまだ足りない… 物体の動作が足りない → 第2論文でできたのはごく一部物体 動作 足り

風景を系統的に理解できない→ 物体・属性・関係性・動作の総合体,かなぁ物体 属性 関係性 動作の総合体,かなぁ

Beach = sky(upper) + water(middle) + sand(lower)??

A horse is galloping.

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2828

Page 29: 関西CVPRML 2011.8.27

それでもやっぱりまだ足りないそれでもやっぱりまだ足りない… 説明文自体を直接生成する説明 体を直接 成す ここ1年でいくつかの研究が出てきたが,手法の完成度としてはまだ2合目程度手法の完成度としてはまだ2合目程度

• Yang et al.“Corpus-Guided Sentence Generation of Natural Images”, EMNLP2011• Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping

hi h b if l d b h d l k

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)2929

white horse at a beautiful sandy beach under a clear sky.

Page 30: 関西CVPRML 2011.8.27

それでもやっぱりまだ足りないそれでもやっぱりまだ足りない… 意外性が足りない性 足り

→ Context重視の方針を追求することの功罪

Relatively easy Seems to be hardRelatively easy Seems to be hard

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)3030

Page 31: 関西CVPRML 2011.8.27

追記: 自分ができなくても言わねばならぬこと追記: 自分ができなくても言わねばならぬこと

作ったモノ(手法・DB等)を使える状態にしよう すぐに使える水準まで技術を高める

作ったモノをみんなに使ってもらう努力をする使 Video segmentation datasetを公開しています.

でもなければ,誰でも再現可能な技術を作るMIRU2011 OS1 2は その試みの1 です MIRU2011 OS1-2は,その試みの1つです.

3年も経てばold-fashion,20年経てば忘れられる この分野のacademiaで生きるなら それについていく覚悟が必須 この分野のacademiaで生きるなら,それについていく覚悟が必須

選択肢は広く,実行するモノは数少なく 良い問題に当たる確率は確実に上がる

分野が変われば技術も変わる,そこから学ぶ

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)3131

Page 32: 関西CVPRML 2011.8.27

Thank you for your kind attentionThank you for your kind attention.

Any questions/comments/discussions ?

Corresponding authorAkisato Kimura Ph D @ NTT CS LabsAkisato Kimura, Ph.D @ NTT CS Labs.

[E-mail] akisato <at> ieee.org [Twitter] _akisato[ b] Pl h b “Aki t Ki ”

関西関西CVPRML (August 27, 2011)CVPRML (August 27, 2011)3232

[web] Please search by “Akisato Kimura”