Upload
mmisono
View
1.242
Download
0
Embed Size (px)
Citation preview
論文輪読:Instance-sensi,veFullyConvolu,onalNetworks
JifengDai,KaimingHe,YiLi,ShaoqingRen,JianSun
hFp://arxiv.org/abs/1603.08678
この論文について
• What– FCNを用いたInstanceproposal手法の提案– おそらくFCNによるinstanceproposalは初
• How– Instance-sensi,vescoremapwithFCN
• Contribu,on
– Fast&Accurateproposals
• Experiment– PASCALVOC2012&MSCOCOsegmenta,on– stateoftheartresults
書誌情報
• Title:Instance-sensi,veFullyConvolu,onalNetworks• Author:JifengDai,KaimingHe,YiLi,ShaoqingRen,JianSun– MSRA, 清華大学,中国科学技術大学
• hFp://arxiv.org/abs/1603.08678 (29Mar2016,TechnicalReport)
(余談)CVPR’16面白そうなの
• CNN-RNN:AUnifiedFrameworkforMul,-labelImageClassifica,on– hFps://arxiv.org/abs/1604.04573
• Mul,-OrientedTextDetec,onwithFullyConvolu,onalNetworks– hFps://arxiv.org/abs/1604.04018
• ProNet:LearningtoProposeObject-specificBoxesforCascadedNeuralNetworks– hFps://arxiv.org/abs/1511.03776
FCN利用
Classifica,on Detec,onSeman,c
Segmenta,on
InstanceObject
Proposals
AlexNet
VGG
GoogLeNet
2012
2013
2014
2015
2016
OverFeatR-CNN
FastR-CNN
FasterR-CNN
FCN
FCN+CRF(DeepLabetc..)
DeepMask
CaffeNet
Residual
(BatchNormaliza,on)
ObjectProposals
(Selec,veSearch)2011
(BING)
(GOP)(MCG)(MCG)
(EdgeBoxes)(RIGOR)
(DPM)
InstanceFCN [今回紹介する手法]
※独断と偏見で作成(適当)空白≠研究がない
Classifica,onvsDetec,on
• Detec,on=What+Where
Classifica,on Detec,on
PersonMotorbike
Person
Motorbike
Seman,cSegmenta,onvsInstanceSegmentProposals
• Seman,cSegmenta,on=Pixel-wiselabeling• InstanceSegmenta,on=インスタンスを区別する
• InstanceSegmentProposals:物体領域候補を抽出– 各領域が何であるかを識別するのは別の問題– 基本的にRecallの方が重要
Original Seman,cSegmenta,on InstanceSegmenta,on
FullyConvolu,onalNetworks(FCN)
• Nofullyconnectlayer• Lastlayer:per-pixelsommax
• Seman,cSegmenta,onでは本質的に重なる同一物体を区別できない
FCNの応用
• Seman,cSegmenta,on
• ContourDetec,on
• Denoising
• ImageSuperResolu,on
• ImageEnhancement
• RegionProposalNetwork(RPN)– FasterR-CNN
基本的にはピクセルごとの分類問題に適用できる
InstanceFCN
• FCNの出力として各ピクセルは相対位置にあるインスタンスに自分自身も含まれるかどうかを出力する– 出力マップ数はk^2
• 最終的出力:m×mのスライディングウィンドウに対してm/k×m/kのサブウィンドウごとに出力マップをコピー
訓練/テスト 方法
• 訓練時:スライディングウィンドウを適当に動かして,各スライディングウィンドウごとに評価– 損失関数
– SGDで訓練
• テスト時:端から端までスライディングウィンドウを動かして,各評価を合計する – 1枚あたり約1.5s
-pi*=1(posi,vesampleの場合)-Si*:groundtruthsegmentinstance-L:logis,cregression
実験:DeepMaskとの比較
• DeepMaskよりも良い精度が得られている– AR@N:AverageRecall,Nはproposalの数– ~DeepMaskは著者らによる実装– crop224x224というのは訓練時の画像サイズをDeepMask
と同じにしたもの
PASCALVOC2012val
kを変えた場合:
k=5