20140726 関東cv勉強会

2014/07/26 関東CV勉強会@東大生研

CVPR2014 いくつかピックアップして紹介


Matching and Reconstruction

Fast and Accurate Image Matching with Cascade Hashing

for 3D Reconstruction


Matching and Reconstruction Fast and Accurate Image Matching with Cascade Hashing for 3D Reconstruction - 多視点幾何を解く場合，処理時間の中で特徴点(例:SIFT)の対応点探索の計算時間が大きい

- LSH (Locally Sensitive Hashing)を使えば，特徴空間中の座標がビット列に変換される（バイナリハッシング）ので，特徴空間の距離計算が高速なPopCount処理によって近似できる


Matching and Reconstruction Fast and Accurate Image Matching with Cascade Hashing for 3D Reconstruction - LSHで生成するbit列が短い→Matching精度が悪い - LSHで生成するbit列が長い→処理時間が長い（演算時間だけでなくメモリ帯域も重要） - 提案手法 = Cascade Hashing (複数の短bit長のLSHを生成して，Cascadeする) - 実際にはハッシングだけで解決するのではなく，短bit長のLSHでMatchingした上位から順にk個の候

補を求め，それら候補から通常の距離計算(Rowe’s ratio test)によって対応点判定をする - 通常の計算とほぼ同等の結果が得られ，速度は10倍になったそう


Matching and Reconstruction Fast and Accurate Image Matching with Cascade Hashing for 3D Reconstruction



Predicting Matchability


Matching and Reconstruction Predicting Matchability - 屋外映像でSfMをする際，画像特徴点(例：SIFT)を使うと対応の取れない点が大量に見つかる →樹木，道路上の細かいテクスチャなど，いわゆるノイズっぽい点や再現性の低い点 - 「対応点探索に不適な特徴点」を削ることはできないか?


Matching and Reconstruction Predicting Matchability - 提案手法 = 短い動画(16frame)を集めて，連続フレームで特徴点検出/マッチング処理を行い，その結果から，「対応の取れる特徴点」と「対応の取れない特徴点」をRandom Forestで学習する

- 学習データとは別のデータセットで性能を確認（データ依存ではなく，いわゆる汎化性能がある） - SIFT依存でなく，同じフレームワークでSURF特徴量などでも大丈夫（と言ってた） - SIFTではDoGのレスポンスの強さでフィルタリングできるが，あれは当てにならないそう


Matching and Reconstruction Predicting Matchability


Matching and Reconstruction Predicting Matchability - 実験では提案手法で30%程度の特徴点を削減することができた - 提案手法でフィルタリングしても，全特徴点を用いた場合の60%程度の対応点数が得られる - DoGのレスポンス強度の閾値を調整して，提案手法と同じ数まで特徴点をフィルタリングすると，提

案手法の方が多く対応点が得られる



Reconstructing PASCAL VOC


Matching and Reconstruction Reconstructing PASCAL VOC - 画像認識用データセットのPASCAL VOCがある - 同カテゴリの画像は，当然，同じ種類の物体（≠同一物体）が写っている - 一部データには，バウンディングボックスだけではなく領域や特徴点も付加されている →このPASCAL VOCデータセット*だけ*で各画像の3D形状を再構成しよう，という無茶な試み


Matching and Reconstruction Reconstructing PASCAL VOC - 提案手法 = まず同一カテゴリ画像群で強引にSfMして，それをCamera Calibrationとする（データに付加されたキーポイントがある場合は，それも使う）


Matching and Reconstruction Reconstructing PASCAL VOC - 提案手法 = まず同一カテゴリ画像群で強引にSfMして，それをCamera Calibrationとする（データに付加されたキーポイントがある場合は，それも使う）


Matching and Reconstruction Reconstructing PASCAL VOC - 提案手法 = 次に，Visual Hull処理をする(以下のような処理を使うらしい) - 基準画像の視点位置をベースに，視点位置（方向）によるクラスタリング - SfM点群とシルエットの関係のチェック - SfM点群のPCAに基づき，Visual Hullに適した視点方法の推定 - 類似方向からのシルエット群で「平均シルエット」を生成


Matching and Reconstruction Reconstructing PASCAL VOC


Matching and Reconstruction Reconstructing PASCAL VOC

http://www2.isr.uc.pt/~joaoluis/carvi/






Computational Photography: Sensing and Display

Fourier Analysis on Transient Imaging

by Multifrequency Time-of-Flight Camera


Computational Photography: Sensing and Display Fourier Analysis on Transient Imaging by Multifrequency Time-of-Flight Camera - RaskarらのFemto Cameraのように，ToF Cameraで光の動きを観測可能にする - 従来法はインパルス応答を使っていたが，提案手法では周波数応答(変調)を使う - 大局的最適化が不要になり，計算コストを下げることができたらしい


Computational Photography: Sensing and Display Fourier Analysis on Transient Imaging by Multifrequency Time-of-Flight Camera - RaskarらのFemto Cameraのように，ToF Cameraで光の動きを観測可能にする - 従来法はインパルス応答を使っていたが，提案手法では周波数応答(変調)を使う - 大局的最適化が不要になり，計算コストを下げることができたらしい

http://techtalks.tv/talks/fourier-analysis-on-transient-imaging-with-a-

multifrequency-time-of-flight-camera/59930/

http://techtalks.tv/talks/fourier-analysis-on-transient-imaging-with-a-multifrequency-time-of-flight-camera/59930/


























Diffuse Mirrors: 3D Reconstruction from Diffuse Indirect Illumination

Using Inexpensive Time-of-Flight Sensors


Computational Photography: Sensing and Display Diffuse Mirrors: 3D Reconstruction from Diffuse Indirect Illumination Using Inexpensive Time-of-

Flight Sensors - 壁面を鏡のように使って，遮蔽物の向こうの物体形状を壁の拡散反射像からToFで計測する - Raskarらの手法との違いは，安価なToF Cameraで実現した点にある - ただし，処理にはフレーム数が大量に必要で，数十~数百秒かかるらしい



Transparent Object Reconstruction via Coded Transport of Intensity


Computational Photography: Sensing and Display Transparent Object Reconstruction via Coded Transport of Intensity - 光源を制御(Coded Illumination)しつつ，透過したパターンが投影されるスクリーンとイメージセン

サの距離を変えて観測し，透明物体のVolume計測する（実際にはスプリッタで分離して，スクリーンとカメラの距離が異なるような条件で観測） - 上記設定は光の屈折を計測することに相当．Light Fieldモデルを利用した最適化をするらしい



3D Shape and Indirect Appearance by Structured Light Transport


Computational Photography: Sensing and Display 3D Shape and Indirect Appearance by Structured Light Transport - 光は直進性があるので，当然，Projector-Camera間のEpipolar拘束が存在する - Projector-CameraのプロジェクタでEpipolar線をマスクすると，マスクされたエリア（画像中の

Epopolar線）は間接反射光だけが観測できる - マスクするる線をランダムに切り替えて処理することで，直接反射と間接反射の推定/分離が可能 - DMDを使った実装で高速に切り替えるので，リアルタイム処理ができる


Computational Photography: Sensing and Display 3D Shape and Indirect Appearance by Structured Light Transport


Computational Photography: Sensing and Display 3D Shape and Indirect Appearance by Structured Light Transport

https://www.youtube.com/watch?v=7ZzRbxh-6W0






Tutorial

Dense Image Correspondences for Computer Vision


Dense Image Correspondences for Computer Vision SIFT flow (ECCV2008) http://people.csail.mit.edu/celiu/SIFTflow/

- 入力画像の全ての画素でSIFT特徴量を計算(dense SIFT description) →各画素を128チャンネルのfloat型画像と見做す

- その128ch画像からOptical Flowと同様の条件式（類似度＋連続性）で最適化する - Optical Flowとの違いは，探索範囲の局所性が低い

http://people.csail.mit.edu/celiu/SIFTflow/





- 火星の画像：日を空けた２枚の画像の位置合わせ・視点の違いだけでなく，地形変化，日照条件の違いなどがある

入力画像組







入力画像組（左右入れ替えて表示）







左画像：対応結果から画像合成







視差を調べると，中央部に何かの原因で大きな段差が生じていることが判明





Dense Image Correspondences for Computer Vision PatchMatch (SIGGRAPH2009) http://gfx.cs.princeton.edu/pubs/Barnes_2009_PAR/

- 「あるPatchが対応する場合，隣接画素も対応する可能性が高い」という仮定 - Belief Propagationで対応関係を最適化する -> 連続性と類似性を満たす対応関係の推定

http://gfx.cs.princeton.edu/pubs/Barnes_2009_PAR/


Dense Image Correspondences for Computer Vision CSH: Coherency Sensitive Hashing (ICCV2011) http://www.eng.tau.ac.il/~simonk/CSH/

- Patch内の情報をHashingして，Hash Table経由で類似Patch探索の構造を作る - Patch-to-Patchの関係がHashで大まかに整理されるため，高速かつ良質な結果が得られる

p

Image ‘A’ Image ‘B’ Hash Table

g

g

http://www.eng.tau.ac.il/~simonk/CSH/




- 画像間の対応点(対応パッチ）の推定例

入力画像組





















- より困難な問題設定での対応点(対応パッチ）の推定例




Dense Image Correspondences for Computer Vision Deformable Spatial Pyramid Matching (CVPR2013) http://vision.cs.utexas.edu/projects/dsp

- PatchMatchやCSHと同様の問題をCoarse-to-Fineに解く（大局的な連続性を仮定） - 処理自体はOptical Flowに類似する

http://vision.cs.utexas.edu/projects/dsp



Dense Image Correspondences for Computer Vision

…というような手法の解説ではなく，

これらの頑健なMatching手法を使うと，いろいろな応用が効くよ

というのがこのTutorialの主題


Dense Image Correspondences for Computer Vision SIFT flow (ECCV2008) http://people.csail.mit.edu/celiu/ECCV2008

- 火星の写真の場合と同様，かなり条件が異なる画像でもマッチングできる

入力画像組

http://people.csail.mit.edu/celiu/ECCV2008





入力画像組（左右入れ替えて表示）







画像合成結果（左右は共通の画像で，冬の画像に夏の画像を投影）






- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる






- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →テクスチャを転移した新しい画像の合成が可能





- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →類似画像検索の品質改善






- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →動画の類似画像を使うことで，モーション合成






- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →動画から，類似した背景画像に差し替えることで，もっともらしい動画を合成できる






- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →顔画像でPixel-wiseなマッチング





Dr. Ce Liu







Dr. Ce Liu







Dense Image Correspondences for Computer Vision Deformable Spatial Pyramid Matching (CVPR2013) http://vision.cs.utexas.edu/projects/dsp

- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →セグメンテーションされている物体領域の情報を転移することができる



Dense Image Correspondences for Computer Vision SIFT flow (ECCV2012)

- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →RGB画像1枚から類似画像を検索して，DB内のRGBDデータ群からDepth画像合成



- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →RGB画像1枚から類似画像を検索して，DB内のRGBDデータ群からDepth画像合成



- そもそも全然違う対象を撮影した画像間でも，似た構図，構造物のシーンならばマッチングできる →RGB画像1枚から類似画像を検索して，DB内のRGBDデータ群からDepth画像合成 - Microsoftは屋内のRGBD画像(KINECT)と屋外のRGBD画像(LIDER)のDBを構築しているそう



- SIFT = 同一物体を撮影した画像間の対応付けの技術 - SIFT flow = 同一カテゴリ画像間の対応付けにも使える

Technology

20140726 関東cv勉強会