Dataset for Semantic Urban Scene Understanding

The CityscapesDataset for Semantic Urban

Scene Understanding

第35回CV勉強会「CVPR2016読み会(後編)」

2016/7/24

進矢陽介

自己紹介

2007～2014 東京大学

話者認識

形状の数式表現、Mixed Reality

2014～2015 三菱電機

車内センシング（ドライバモニタ）

2015～デンソー（東京支社）

車外センシング（ADAS、自動運転）

技術動向調査（cvpaper.challenge参加）

http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用

三菱電機公式サイトより引用

※本発表は個人として行うものであり所属組織を代表するものではありません

http://toyota.jp/technology/safety/toyota_safety_sense_p/

0. 導入 (1)Semantic Urban Scene Understandingとは

今回主に扱うのは、都市交通環境のSemantic Segmentation

Cityscapes Dataset [M.Cordts+, CVPR2016]

これを

こうしたい

道路

空

車

樹建物

標識

0. 導入 (2)Semantic Segmentationとは

http://www.slideshare.net/nlab_utokyo/deep-learning-49182466 より引用

(Classification)

http://www.slideshare.net/nlab_utokyo/deep-learning-49182466

0. 導入 (3)CNNによるSemantic Segmentation

FCN[J.Long+, CVPR2015]

← Classification

何が映っているか

矩形ごとに出力

← Semantic Segmentation

何が映っているか

ピクセルごとに出力

①基本原理

②学習方法

③データの集め方どのピクセルが猫かをアノテーション（正解ラベル付け）すれば良い一体どうやって？人がやったら時間がかかるぞ……

データ数 GPUレベルを上げて物理で殴ればいい

0. 導入 (4)アノテーションの呪い (The Curse of Dataset Annotation)

[J.Xie+, CVPR2016]を元に作成

← 短時間でアノテーションできるタスクのデータは大量にある

← アノテーションに時間がかかるため十分なデータが無い

どうにかして大量のデータが欲しい

0. 導入 (5)今回紹介する論文・データセット

1. Cityscapes Dataset [M.Cordts+, CVPR2016]

2. 3D to 2D Label Transfer [J.Xie+, CVPR2016]

3. SYNTHIA Dataset [G.Ros+, CVPR2016]

4. Virtual KITTI Dataset [A.Gaidon+, CVPR2016]

5. Scene Flow Datasets [N.Mayer+, CVPR2016]

FCN, SegNetの詳細等は紹介しないため、以下をご参照下さい

https://computing.ece.vt.edu/~f15ece6504/ (W7: Oct 6)

http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter (p.40あたり)

http://www.slideshare.net/cvpaperchallenge

人手で頑張ろう

3Dスキャンデータを使おう

CGを使おう

https://computing.ece.vt.edu/~f15ece6504/

http://www.slideshare.net/Takayosi/ieee-itss-nagoya-chapter

http://www.slideshare.net/cvpaperchallenge

1. Cityscapes

論文： http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_CVPR_2016_paper.pdf

プロジェクトページ： https://www.cityscapes-dataset.com/

スライド： https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707-deep-learning3.pdf

The Cityscapes Dataset for Semantic Urban Scene Understanding

Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Cordts_The_Cityscapes_Dataset_CVPR_2016_paper.pdf

https://www.cityscapes-dataset.com/

https://www.mpi-inf.mpg.de/fileadmin/inf/d2/HLCV/HLCV_2016/cv-ss16-0707-deep-learning3.pdf

1. Cityscapes (1)データの特徴

Fine annotations・5000枚・Instance-wise annotation

（人は1人ずつ、車は1台ずつ）・品質を保証するため内製・1枚あたり1時間半かけて

アノテーション＋チェック

Coarse annotations・20000枚・弱教師あり学習用

（使わなくても良い）・外注・1枚あたり7分以下で

アノテーション

1. Cityscapes (1)データの特徴

従来のデータセットとは一線を画す、多様・大規模なデータセット

アノテーションピクセル数

1. Cityscapes (2)Instance数最大のデータ

1. Cityscapes (3)評価結果

使用解像度が精度に大きく影響

Cityscapesを使って学習すると他のデータセットでも精度向上

↑downscaling factor

2. 3D to 2D Label Transfer

Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer

Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger

論文： http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR_2016_paper.pdf

プロジェクトページ： http://www.cvlibs.net/projects/label_transfer/ (2016/7/23時点では未公開)

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Xie_Semantic_Instance_Annotation_CVPR_2016_paper.pdf

http://www.cvlibs.net/projects/label_transfer/

2. 3D to 2D Label Transfer (1)データの特徴

①LIDARで3Dデータを取得②3Dの状態でアノテーション③3Dから2Dに転写

・40万枚の画像・10万のレーザースキャンデータ・semantic 3D annotations

・郊外の静止物にフォーカス・先行研究と相補的

- Cityscapes：都市- [L.-C.Chen+, CVPR2014]：車両へのCADモデルあてはめ

データセット作成方法データセット内容

収集対象

2. 3D to 2D Label Transfer (2)手法

ピクセルと3D点群のラベルを同時に推定するCRFモデルを使用

Pixel Unary Potentials3D Point Unary Potentials

Geometric Unary Potentials

Pixel Pairwise Potentials 2D/3D Pairwise Potentials

3D Pairwise Potentials

①Gibbs energy function

2. 3D to 2D Label Transfer (2)手法

②Geometric Unary PotentialsCurb, Foldを検出し、道路・歩道・壁のラベル変化に対応

2. 3D to 2D Label Transfer (3)定量評価結果

2D to 2D（±5フレームの画像から中間画像を推定）の従来手法、単純な3D to 2Dの転写と比較し、高精度

2D to 2D

3D to 2D

2. 3D to 2D Label Transfer (4)アノテーション時間

2Dでは20時間かかるアノテーション（※）を

提案手法では3時間未満でアノテーション可能

※条件：

・200フレームの動画を10フレームごとにアノテーション

・1枚のアノテーションに60分かかると仮定

2. 3D to 2D Label Transfer (5)定性評価結果

3D点群転写結果

入力画像+

segmentation結果

error map

大部分の境界を正しく推定できるがいくつか課題あり（樹、コントラストの低い領域、等）

3. SYNTHIA

論文： http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf

プロジェクトページ： http://synthia-dataset.net/

The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes

German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, Antonio M. Lopez

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf

http://synthia-dataset.net/

3. SYNTHIA (1)データの特徴

• CGで生成した架空の都市のデータ

• 季節・天気・照明条件・視点の変動あり

• ground truth: semantic segmentation, depth

詳細は公式動画をご覧下さい

http://synthia-dataset.net/dataset/

http://synthia-dataset.net/dataset/

3. SYNTHIA (2)手法

• 2種のCNNでSemantic Segmentation

- T-Net [G.Ros+, arXiv2016]

- FCN [J.Long+, CVPR2015]

• 実写データとCGデータを交ぜて学習する方法

BGC (Balanced Gradient Contribution) [G.Ros+, arXiv2016]を使用し

CGデータの重要度を下げる（発散を防ぐ効果あり）

実際には、実写データ6枚とCGデータ4枚を含むミニバッチを

使用しているだけ（λ=4/6）

(実写データでのロス) + λ(CGデータでのロス)

3. SYNTHIA (3)定量評価結果

実写データとCGデータを併用して学習することで実写データのみで学習した場合と比較し精度向上（Camvid, KITTIの場合、Class Accuracyが10%前後向上）

3. SYNTHIA (4)定性評価結果

Real(実写) + Virtual(CG) が優勝

4. Virtual KITTI

論文： http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2016_paper.pdf

プロジェクトページ：http://www.xrce.xerox.com/Research-Development/Computer-Vision/Proxy-Virtual-Worlds

http://www.xrce.xerox.com/Research-Development/Publications/2015-085

Virtual Worlds as Proxy for Multi-Object Tracking Analysis

Adrien Gaidon, Qiao Wang, Yohann Cabon, Eleonora Vig

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gaidon_Virtual_Worlds_as_CVPR_2016_paper.pdf

http://www.xrce.xerox.com/Research-Development/Computer-Vision/Proxy-Virtual-Worlds

4. Virtual KITTI (1)データの特徴

KITTI (multi-objecttracking benchmark)

Virtual KITTI

ground truth

optical flow, segmentation, depth

CGでクローン作成

4. Virtual KITTI (1)データの特徴

カメラの向き、時間帯、天気の7種の変動を用意

4. Virtual KITTI (2)評価結果

• multi-object trackingの精度を、2種のTrackerで評価• 実写データでの学習とCGデータでの学習で同程度の精度

→ CGデータが実写データの代替として有用

4. Virtual KITTI (2)評価結果

CGデータでプレトレーニングし実写データでファインチューニングすることで精度向上

5. Scene Flow Datasets

論文： http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_paper.pdf

プロジェクトページ： http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/

A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation

Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer, Daniel Cremers, Alexey Dosovitskiy, Thomas Brox

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Mayer_A_Large_Dataset_CVPR_2016_paper.pdf

http://lmb.informatik.uni-freiburg.de/Publications/2016/MIFDB16/

5. Scene Flow Datasets (1)先行研究

Flying Chairs Dataset (FlowNet [A.Dosovitskiy+, ICCV2015])

・椅子が空を飛ぶデータセット・奥行き方向には飛ばない・オプティカルフロー推定用CNNの学習に使える

5. Scene Flow Datasets (2)データの特徴

③Driving（KITTIリスペクト）

②Monkaa（Sintelリスペクト）

①FlyingThings3D

・色んな物が空を飛ぶデータセット（椅子だけじゃない！）・奥行き方向にも飛ぶ！・シーンフロー推定用CNNの学習に使える！

5. Scene Flow Datasets (3)手法

①オプティカルフローを推定するFlowNetを学習

②視差を推定するDispNetを2つ学習

③ ①,②を統合したSceneFlowNetを学習シーンフローの計算に

時刻t, t+1の視差の変化が必要

5. Scene Flow Datasets (4)視差評価結果

精度では劣るが1000倍高速

http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=stereo （2016/7/23時点）

特にForegroundの精度が良い

http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=stereo

5. Scene Flow Datasets (5)シーンフロー評価結果

オプティカルフロー・視差を別々に求めるよりSceneFlowNetで統合して求める方が高精度

オプティカルフロー推定では、Flying Chairs Datasetには勝てなかったよ…

まとめ

• Semantic Urban Scene Understanding に関する

5つの論文・データセットを紹介

• Semantic Segmentation用データを如何に集め、

如何に使うべきかは現時点で判断できず、更なる研究が必要

• Tracking, Scene Flow等、動きに関するデータは

CGで代用できる可能性が高い

どのようなデータで精度が上がり、それが何故なのか分析が必要

補足：CVPR2016で目についた傾向

Segmentation関連が約65件、うちSemantic Segmentationが約30件

（タイトル・セッション名で検索）

• Multi-scale対応

FCN等でreceptive fieldが固定サイズである問題の解決

• RNNによる画素走査

context情報を抽出

• Boundary, Optical Flowの併用

CRFの併用同様、境界付近の精度を向上

• 他のタスクへの転用

Semantic Segmentationの結果やCNNアーキテクチャを転用

補足：CNNによるピクセルラベリング

http://people.eecs.berkeley.edu/~jonlong/ より引用

・似た構造のCNNで、Semantic Segmentation以外にも様々な応用が可能

・複数のタスクが相補的な効果を持ち得る（例：SceneFlowNet）

・入力・出力の教師データの組み合わせによって機能が変わる

データ次第で新しい問題を設定・解決できる可能性がある

ラフスケッチの線画化 [Simo-Serra+, SIGGRAPH2016]

http://people.eecs.berkeley.edu/~jonlong/

Technology

Dataset for Semantic Urban Scene Understanding