Download pdf - 関西CVPRML勉強会 2012.2.18 （一般物体認識 - データセット）

Bag-of-Featuresに基づく物体認識 (2) －一般物体認識－の締め

Akisato Kimura @ NTT CS Labs. Twitter ID: @_akisato

データセット

関西CVPRML勉強会 2012.2.18 2

研究を進める上でとても重要．他の人の研究を実装しなくても，精度評価ができる．

自分の研究をする上で，利点・弱点が見えやすくなる．

その一方で，過信は禁物． Torralba & Efros “Unbiased look at data bias”, CVPR2011

(Cf. 原田先生の関東CV講演資料 http://www.isi.t.u-tokyo.ac.jp/~harada/pdf/trend_in_scene_object_recognition_cvpr2011.pdf）

これからデータセットを紹介しますが


とにかく大量にあります．漏れがあったら教えて下さい．絶対に漏れがあります．

目的も非常に多様です．一般物体認識，画像アノテーション，属性認識，物体領域検出，物体領域抽出，…

羅列するだけだとつまらないので中身を見ながら，どうやって使っていければ面白いか，どんなものがあると良いのか，議論できれば，と思います．

あわよくば，へーしゃで作って公開できれば… と妄想

統制された小規模データセット（１）


Columbia Object Image Library (COIL-20/100) http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php http://www.cs.columbia.edu/CAVE/software/softlib/coil-100.php 特定物体認識（7.2K/36K枚，20/100クラス）

Corel 5K （注：商用画像のため，画像そのものはon-lineでは取れません）

http://lear.inrialpes.fr/people/guillaumin/data.php 画像アノテーション（5K枚）

Caltech 101/256 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ http://www.vision.caltech.edu/Image_Datasets/Caltech256/ 一般物体認識（～30K枚，101/256クラス）

PASCAL Visual Object Classes (VOC) Challenge http://pascallin.ecs.soton.ac.uk/challenges/VOC/ 一般物体認識/検出（15K枚，20クラス）/領域分割：一般物体認識のdefacto

統制された小規模データセット（１）


IAPR TC-12 http://www.imageclef.org/photodata 画像アノテーション（20K枚，20クラス），画像説明文生成

MSRC http://research.microsoft.com/en-us/projects/objectclassrecognition/default.aspx

一般物体認識（10K枚）/領域抽出（830枚，32クラス）：領域抽出のdefacto

LSP15 http://www.cs.unc.edu/~lazebnik/ シーン認識（4.5K枚，15クラス）：シーン認識のdefacto

MIT Indoor 67 http://web.mit.edu/torralba/www/indoor.html シーン認識

統制された中規模データセット


LabelMe http://labelme.csail.mit.edu/ タスク：画像アノテーション（200K枚，70Kクラス）

ImageNet Large Sale Visual Recognition Challenge http://www.image-net.org/challenges/LSVRC/2011/ タスク：一般物体認識/検出（1.15M枚，1Kクラス）

一般物体認識を対象とした統制データセットでは最大規模

NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm タスク：画像アノテーション（300K枚，5Kクラス）

ImageCLEF Wikipedia Image Retrieval Datasets http://www.imageclef.org/wikidata タスク：画像アノテーション，画像説明文生成（200K枚，50クラス）

SUN397 http://people.csail.mit.edu/jxiao/SUN/ タスク：シーン認識（130K枚，900クラス）：おそらく今後のシーン認識のdefacto

非統制の大規模データセット（０）


まずはここを見ましょう． http://d.hatena.ne.jp/n_hidekey/20120115/1326613794

大規模データセットを作ること自体も研究課題に

以下では，ここに挙がっていないものを紹介します．

非統制の大規模データセット（１）


Visual Synset [GeorgiaTech + Google @ ICCV2011]

http://cpl.cc.gatech.edu/projects/VisualSynset/

タスク：画像アノテーション（200M枚，300Kクラス）

ただし，アノテーション＋画像URLだけの配布

非統制の大規模データセット（２）


Classemes [Dartmouth + MSRC @ ECCV2010]

http://www.cs.dartmouth.edu/~lorenzo/projects/classemes/

属性認識（2.7Kクラス）

本来はdescriptor抽出のために作られたのだが… Descriptorは超コンパクトで（比較的）高性能です

Walking, straight

統制された大規模データセット


ImageNet [Prinston @ ICCV2009]

http://www.image-net.org/ タスク：一般物体・シーン認識（14M枚，20Kクラス）

クラスの概念的階層構造も公開（WordNet対応）

映像データセット（１）


TREC Video Retrieval Evaluation (TRECVID) http://trecvid.nist.gov/ 統制された映像ベンチマークとして唯一無二の存在

2012 competitionで予定されているタスク

SIN : 所定の単語に適合する映像区間を探すこのタスクが最も一般物体認識に近い

KIS : 所定の文章に適合する映像区間を探す

SED : 所定の人物行動を含む映像区間を探す

INS : 所定の画像サンプルと同クラスの映像区間を探すこのタスクも一般物体認識に関連する

MED : 所定のイベントに適合する映像区間を探す

映像データセット（２）


YouTube data http://netsg.cs.sfu.ca/youtubedata/

YouTube APIから回収したメタデータを整理して提供

ので，映像そのものは自分で取りに行かないといけない

画像検索API


画像をたくさん集めたいだけならば，活用しない手はない．

Yahoo! http://developer.yahoo.com/search/image/V1/imageSearch.html

Google Picasa http://code.google.com/intl/ja/apis/picasaweb/overview.html 画像検索API http://developers.google.com/image-search は廃止予定

Bing http://www.bing.com/toolbox/bingdeveloper/ 検索系APIが一体になっている

Yahoo! Japan http://developer.yahoo.co.jp/webapi/search/imagesearch/v2/imagesearch.html

YouTube http://code.google.com/intl/ja/apis/youtube/overview.html

Social annotation


単純画像/映像共有系 Flickr http://www.flickr.com

Picasa http://picasa.google.com/intl/ja/

YouTube http://www.youtube.com

位置情報共有系 Foursquare http://ja.foursquare.com

Panoramio http://www.panoramio.com

Social media直結 Twitpic http://twitpic.com

Photobucket http://photobucket.com （Twitterバックエンド）

mixiフォト http://photo.mixi.jp

Instagram http://instagr.am

画ちゃんこ！ http://gotchanco.com

まとめと称した雑感（１）


一般物体認識を含めた認識系は

一般物体認識は機械学習手法のベンチマークへにも関わらず，本質的な問題は未解決のまま

属性認識・転移学習がこの1年くらいの中心にと言っても，そう長く持つほどの分野でもなさそう

Social mediaとの連携は，近いうちに間違いなく訪れる．純粋なsocial media研究との違いを出せるか？が課題

その次は何か？ないかもしれない．

とても赤い海

まとめと称した雑感（２）


にもかかわらず，一方では課題山積

実は，決め手となる応用先が見つかっていない．同じ問題にみんなが群がるのはその影響？

大規模化と信頼性とのトレードオフからどう脱却するか？正解データを作るための苦労は果てしない

Amazon MTの結果をきれいにするためのAmazon MTの結果をきれいにするためのAmazon MTの結果をきうわなにをするや

そもそも，画像を見てみんな同じタグをつけるの？認識の過程には避けようがない不定性がある

（注：MS PPT内蔵GrabCutの結果）

参考文献


原田達也 “CVPR2011における一般物体シーン認識のトレンド，”

第14回関東CV勉強会 http://ow.ly/9984J

n_hidekeyの日記 http://d.hatena.ne.jp/n_hidekey/ 次世代BoVWまとめ，大規模画像データセット，Paper

Gestalt など，その他にも興味深い記事があります．

高橋昌一郎「知性の限界」講談社 http://amazon.jp/dp/4062880482/ 認識過程にある不定性について理解できます．

書評 http://blog.livedoor.jp/dankogai/archives/51437132.html

おしまい