Transcript
Page 1: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

Bag-of-Featuresに基づく物体認識 (2) - 一般物体認識 - の締め

Akisato Kimura @ NTT CS Labs. Twitter ID: @_akisato

Page 2: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

データセット

関西CVPRML勉強会 2012.2.18 2

研究を進める上でとても重要. 他の人の研究を実装しなくても,精度評価ができる.

自分の研究をする上で,利点・弱点が見えやすくなる.

その一方で,過信は禁物. Torralba & Efros “Unbiased look at data bias”, CVPR2011

(Cf. 原田先生の関東CV講演資料 http://www.isi.t.u-tokyo.ac.jp/~harada/pdf/trend_in_scene_object_recognition_cvpr2011.pdf)

Page 3: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

これからデータセットを紹介しますが

関西CVPRML勉強会 2012.2.18 3

とにかく大量にあります. 漏れがあったら教えて下さい.絶対に漏れがあります.

目的も非常に多様です. 一般物体認識,画像アノテーション,属性認識, 物体領域検出,物体領域抽出,…

羅列するだけだとつまらないので 中身を見ながら,どうやって使っていければ面白いか, どんなものがあると良いのか,議論できれば,と思います.

あわよくば,へーしゃで作って公開できれば… と妄想

Page 4: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

統制された小規模データセット(1)

関西CVPRML勉強会 2012.2.18 4

Columbia Object Image Library (COIL-20/100) http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php http://www.cs.columbia.edu/CAVE/software/softlib/coil-100.php 特定物体認識 (7.2K/36K枚,20/100クラス)

Corel 5K (注: 商用画像のため,画像そのものはon-lineでは取れません)

http://lear.inrialpes.fr/people/guillaumin/data.php 画像アノテーション (5K枚)

Caltech 101/256 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ http://www.vision.caltech.edu/Image_Datasets/Caltech256/ 一般物体認識 (~30K枚,101/256クラス)

PASCAL Visual Object Classes (VOC) Challenge http://pascallin.ecs.soton.ac.uk/challenges/VOC/ 一般物体認識/検出 (15K枚,20クラス)/領域分割 : 一般物体認識のdefacto

Page 5: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

統制された小規模データセット(1)

関西CVPRML勉強会 2012.2.18 5

IAPR TC-12 http://www.imageclef.org/photodata 画像アノテーション (20K枚,20クラス),画像説明文生成

MSRC http://research.microsoft.com/en-us/projects/objectclassrecognition/default.aspx

一般物体認識 (10K枚)/領域抽出 (830枚,32クラス) : 領域抽出のdefacto

LSP15 http://www.cs.unc.edu/~lazebnik/ シーン認識 (4.5K枚,15クラス) : シーン認識のdefacto

MIT Indoor 67 http://web.mit.edu/torralba/www/indoor.html シーン認識

Page 6: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

統制された中規模データセット

関西CVPRML勉強会 2012.2.18 6

LabelMe http://labelme.csail.mit.edu/ タスク: 画像アノテーション (200K枚,70Kクラス)

ImageNet Large Sale Visual Recognition Challenge http://www.image-net.org/challenges/LSVRC/2011/ タスク: 一般物体認識/検出 (1.15M枚,1Kクラス)

一般物体認識を対象とした統制データセットでは最大規模

NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm タスク: 画像アノテーション (300K枚,5Kクラス)

ImageCLEF Wikipedia Image Retrieval Datasets http://www.imageclef.org/wikidata タスク: 画像アノテーション,画像説明文生成 (200K枚,50クラス)

SUN397 http://people.csail.mit.edu/jxiao/SUN/ タスク: シーン認識 (130K枚,900クラス) : おそらく今後のシーン認識のdefacto

Page 7: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

非統制の大規模データセット(0)

関西CVPRML勉強会 2012.2.18 7

まずはここを見ましょう. http://d.hatena.ne.jp/n_hidekey/20120115/1326613794

大規模データセットを作ること自体も研究課題に

以下では,ここに挙がっていないものを紹介します.

Page 8: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

非統制の大規模データセット(1)

関西CVPRML勉強会 2012.2.18 8

Visual Synset [GeorgiaTech + Google @ ICCV2011]

http://cpl.cc.gatech.edu/projects/VisualSynset/

タスク: 画像アノテーション (200M枚,300Kクラス)

ただし,アノテーション+画像URLだけの配布

Page 9: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

非統制の大規模データセット(2)

関西CVPRML勉強会 2012.2.18 9

Classemes [Dartmouth + MSRC @ ECCV2010]

http://www.cs.dartmouth.edu/~lorenzo/projects/classemes/

属性認識 (2.7Kクラス)

本来はdescriptor抽出のために作られたのだが… Descriptorは超コンパクトで(比較的)高性能です

Walking, straight

Page 10: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

統制された大規模データセット

関西CVPRML勉強会 2012.2.18 10

ImageNet [Prinston @ ICCV2009]

http://www.image-net.org/ タスク: 一般物体・シーン認識 (14M枚,20Kクラス)

クラスの概念的階層構造も公開 (WordNet対応)

Page 11: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

映像データセット(1)

関西CVPRML勉強会 2012.2.18 11

TREC Video Retrieval Evaluation (TRECVID) http://trecvid.nist.gov/ 統制された映像ベンチマークとして唯一無二の存在

2012 competitionで予定されているタスク

SIN : 所定の単語に適合する映像区間を探す このタスクが最も一般物体認識に近い

KIS : 所定の文章に適合する映像区間を探す

SED : 所定の人物行動を含む映像区間を探す

INS : 所定の画像サンプルと同クラスの映像区間を探す このタスクも一般物体認識に関連する

MED : 所定のイベントに適合する映像区間を探す

Page 12: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

映像データセット(2)

関西CVPRML勉強会 2012.2.18 12

YouTube data http://netsg.cs.sfu.ca/youtubedata/

YouTube APIから回収したメタデータを整理して提供

ので,映像そのものは自分で取りに行かないといけない

Page 13: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

画像検索API

関西CVPRML勉強会 2012.2.18 13

画像をたくさん集めたいだけならば,活用しない手はない.

Yahoo! http://developer.yahoo.com/search/image/V1/imageSearch.html

Google Picasa http://code.google.com/intl/ja/apis/picasaweb/overview.html 画像検索API http://developers.google.com/image-search は廃止予定

Bing http://www.bing.com/toolbox/bingdeveloper/ 検索系APIが一体になっている

Yahoo! Japan http://developer.yahoo.co.jp/webapi/search/imagesearch/v2/imagesearch.html

YouTube http://code.google.com/intl/ja/apis/youtube/overview.html

Page 14: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

Social annotation

関西CVPRML勉強会 2012.2.18 14

単純画像/映像共有系 Flickr http://www.flickr.com

Picasa http://picasa.google.com/intl/ja/

YouTube http://www.youtube.com

位置情報共有系 Foursquare http://ja.foursquare.com

Panoramio http://www.panoramio.com

Social media直結 Twitpic http://twitpic.com

Photobucket http://photobucket.com (Twitterバックエンド)

mixiフォト http://photo.mixi.jp

Instagram http://instagr.am

画ちゃんこ! http://gotchanco.com

Page 15: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

まとめ と称した雑感(1)

関西CVPRML勉強会 2012.2.18 15

一般物体認識を含めた認識系は

一般物体認識は機械学習手法のベンチマークへ にも関わらず,本質的な問題は未解決のまま

属性認識・転移学習がこの1年くらいの中心に と言っても,そう長く持つほどの分野でもなさそう

Social mediaとの連携は,近いうちに間違いなく訪れる. 純粋なsocial media研究との違いを出せるか? が課題

その次は何か? ないかもしれない.

とても赤い海

Page 16: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

まとめ と称した雑感(2)

関西CVPRML勉強会 2012.2.18 16

にもかかわらず,一方では 課題山積

実は,決め手となる応用先が見つかっていない. 同じ問題にみんなが群がるのはその影響?

大規模化と信頼性とのトレードオフからどう脱却するか? 正解データを作るための苦労は果てしない

Amazon MTの結果をきれいにするためのAmazon MTの結果をきれいにするためのAmazon MTの結果をきうわなにをするや

そもそも,画像を見てみんな同じタグをつけるの? 認識の過程には避けようがない不定性がある

(注:MS PPT内蔵GrabCutの結果)

Page 17: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

参考文献

関西CVPRML勉強会 2012.2.18 17

原田達也 “CVPR2011における一般物体シーン認識のトレンド,”

第14回関東CV勉強会 http://ow.ly/9984J

n_hidekeyの日記 http://d.hatena.ne.jp/n_hidekey/ 次世代BoVWまとめ,大規模画像データセット,Paper

Gestalt など,その他にも興味深い記事があります.

高橋昌一郎 「知性の限界」 講談社 http://amazon.jp/dp/4062880482/ 認識過程にある不定性について理解できます.

書評 http://blog.livedoor.jp/dankogai/archives/51437132.html

Page 18: 関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)

おしまい

関西CVPRML勉強会 2012.2.18 18