CVPR2017 参加報告速報版本会議 2日目

CVPR2017参加報告(速報版・二日目）

2017.7.23(現地時間)@a_hasimoto

このスライドについて

1. 本会議での発表の内容を

2. 印象に残ったものだけ

3. その時の印象と，あとでのreferenceをたどるために

メモしたものです．

9/18(月・祝)，関西CVPRML勉強会にて，解説を予定．→ https://twitter.com/kansaicvprml

私の理解が深まるので，勘違いの指摘や質問，リンクの紹介，その他議論大歓迎．

二日目総評• やはりMLはDeep Learningが90%以上．

• データセットを新たに用意した/複数のデータセットを組合せた• 入出力が従来と異なる問題にCNN(+RNN)を適用した• semi/weakly-supervised learning

• self-supervised learning• 従来のものをネットワーク等の工夫で強化した

• やはり人が集まるのは，後者の2つ• しかし，少数派でもある．

• 入力x出力，または複数データセットにより，組合せ爆発的な研究課題を人海戦術的に解いている印象• 技術的には面白くない．アルゴリズム << データセット

メモを取りました

• 昨日は夕方に思いついてPPTを作り始めましたが，再編集が思いの外大変だったので，ほぼ，そのまま載せられる形でメモを取りました

• メモを取ったものを，自分が面白いと思ったものが大体前の方に来るようにゆるーくソート．• 個人の興味や専門分野，現在取り組んでいる課題などによるもので，

実際の論文の質の評価ではありませんので誤解の無いようお願いします

• 注）本当にメモなのです．ご了承下さい．

Making Deep Neural Networks Robust to Label Noise: A Loss Correction ApproachGiorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, Lizhen Qu

• [Malach & Shalev Schwartz 17] data scienceはラベルを空中から取り出す時代になった．• Noise-aware deep netsなど

• CVとPRのコミュニティでそれぞれ類似の関連研究発表あり．

• Two procedures for loss correction • Backward loss correction と Forward loss correction

従来手法と違い，従来のNNに適用可能（ネットワーク構造の制限なし！）

• 間違えている可能性を定式化して考えている→数学的な理論的な保証があるらしい，詳細は論文を読まないと不明

• 前提としてp(y^hat|x)が非常によく特定できる，としている（次ページ）

Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach（続き）

• Algorithm1. Train the neural net on noisy data．推定ラベルはかなり正しい，は

ず．2. re-train the network correcting with forward/backward loss

• ノイズが0.8くらいまでは結構いける．• 0.8→割合??80%ノイズ！？または0.8%ノイズ? 詳細は論文をみる必要

あり

• データセット: 1M noisy label, 500k clean labels (服飾?) • 最後の結果の表がよくわからなかった．

• limitation: クラス数が多い場合は辛いらしい（著者曰く）

Learning From Simulated and Unsupervised Images Through Adversarial TrainingAshish Shrivastava et al. BEST PAPER

• https://machinelearning.apple.com/2017/07/07/GAN.html

• 高精度の達成には「Large, Diverse, Perfectly annotated」Datasetが大事．

• simulatorの出力 → CNN → 結果ができると上記は満たせる．• ただし，simulatorの出力とリアルには差がある．

• Synthetic imageをsimulatorで作る → SimGAN• refiner networkでさらに本物っぽく（ノイズが加わる?non-realistic artifactがない，らし

い)する．

• RefinerにはAdversarial Networkで学習した生成器を使う

• simulation→realっぽい画像を生成，例えばカメラノイズやDepth画像の欠け具合など．

• 手の訓練データ．かなり本物のセンサぽい感じになっている！

• このやり方は，センサデータからのregressionに対してはスタンダードになりそうな雰囲気．

https://machinelearning.apple.com/2017/07/07/GAN.html

Inverse Compositional Spatial Transformer NetworksChen-Hsuan Lin, Simon Lucey

• spatial variationsにロバストにしたい• 現状は学習データのバリエーションを増やすしかない．

• つまり，Data Augmentation + Pooling

• もっと直接的に対策できないか？• warpingによる形状の正規化をend-to-endで学習してしまえば良い！

• Boundary effect: warpするときに画像を外挿をしないといけないような場合はヤバい．

• 位置ズレの量が大きい場合は困難 (optical flowの一般的な問題)

• 実験は，数字や標識で行っている→外形以外のバリエーションが多いターゲットでも大丈夫???（質問できず）

Densely Connected Convolutional NetworksGao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger BEST PAPER

• もうみんな知っちゃってるDenseNet• 層の再利用性を高めることで，

• パラメタ数が少ないままで，

• よりDeepな構造を実現．

• Backpropagationの伝播もいい感じになる．

• 次回作があるらしい．• Multi-Scale DenseNet

• https://arxiv.org/pdf/1703.09844.pdf

• DenseNetよりちょっと早くて同程度?の精度

https://arxiv.org/pdf/1703.09844.pdf

ShapeOdds: Variational Bayesian Learning of Generative Shape Models, Shireen Elhabian, Ross Whitaker

• シルエットは大事• 形状情報の多くを占める

• 0/1でsparseな情報

• 情報として他の問題より単純なので，カリキュラムラーニングなどの初期ステップとして利用することで有用性大(と理解）

• 形状だけなら，大きな欠損などからもCNNベースで復元ができる

• 他のタスクと組み合わせることでポテンシャルが発揮される可能性があり，結構面白そうと感じた．

Interpretable Structure-Evolving LSTM, Xiaodan Liang et al.

• 従来のLSTMのグラフ構造はhand-crafted

• LSTMの構造を学習中に最適化しよう，という論文．• ノード数が多めの初期のグラフから，ノードをマージしていく

(stochastically merging nodes）

• semantical region segmentationで評価→ super pixel画像とdeep conv netの出力をまとめてLSTMに入力し，評価．

Semi-Supervised Deep Learning for MonocularDepth Map PredictionYevhen Kuznietsov, Jörg Stückler, Bastian Leibe

• 単独画像での深度予測（車でドライブしているときの画像)

• ステレオ視したデータと，ground truthを使って学習．

• なぜ両方使うのか？→ステレオ視したデータは間違いがあるから．

• 上手くこれらを組合せた（モデルの図だけでは理解できなかった）

• 誤差 4.8m(supervised only) → 4.6m(semi supervised)へ

A Hierarchical Approach for Generating DescriptiveImage Paragraphs, Jonathan Krause, Justin Johnson,Ranjay Krishna, Li Fei-Fei

• 長いキャプションを作る．

• DenseCaptioningの結果を利用．

• DenseCaptioningの結果を，全部poolして文章生成．

• 新しい技術…といえるのか???• 実現されたものはもちろん新しい．

• DenseCaptioningの段階でほぼできていた，とも言える．

Synthesizing Normalized Faces From Facial Identity FeaturesForrester Cole et al.• 表情や背景，顔の角度を正規化して精度向上！

• 正規化された顔のみで学習• 学習次に顔のKeypointも抽出して，顔の正規化処理をしたもので学習．

• 顔のkeypoint抽出や正規化の部分はCNNベースではない?• 逆に言えば，その部分は学習なしでも既存技術でクリアできている?

• 従来のkeypoint抽出などがオクルージョンに強い• 顔の認識もオクルージョンには強くなる．

• 逆にCNNを使っていない部分は，そうと言ってくれないと不安になる…．

Re-Sign: Re-Aligned End-To-End Sequence Modelling With Deep Recurrent CNN-HMMs Oscar Koller et al.

• CNN-LSTM in HMM • 手話認識 (over 1k motions)

• BLSTM layer と re-alignments

• 構造がよくわからなかったが，コンパクトで効率的な表現であるといっている．# 多分，会場の誰もが，よくわからなかった雰囲気．

• 手話以外に使えるのか疑問．動作がかなり綺麗な構造をしていないとHMMは動作しないのでは???

• 逆にかなりクラス内分散の小さい隠れ状態が仮定出来れば良く動く？？

Social Scene Understanding: End-To-End Multi-Person Action Localization and Collective ActivityRecognition Timur Bagautdinov et al

• 従来は，それぞれの人物を検出→追跡→hierarchical modelなどの従来の構造化モデルへ入力してシーン理解．

• これをend-to-endにしよう！• 選手全部を一気に検出

• 検出した選手をフレーム間でMatching → 難しくないらしい．なんで??

→質疑で判明: 間違えてもシーン理解に大きな影響がない．

• 評価に使ったデータセット• Volleyball Dataset [Ibrahim et al., CVPR 2016]

• Brainwash Dataset: Multi-person (head) detection [CVPR2016]

Detangling People: Individuating Multiple Close People and Their Body Parts via Region Assembly Hao Jiang, Kristen Grauman• ディープラーニングではなくて最適化ですよ！

• ボーンモデルとbounding boxは違う問題．でも，これを上手いこと合体できない? → body partsの検出結果を統合してbounding boxへ．

• bottom up region assembly: スーパーピクセルなどを利用?

• Hand-craftedなパーツ間関係のグラフの関係を使う．

• グラフ上での最適化をよくある感じのコスト関数の最小化で解いている．計算は時間がかかりそう．

• サイズの制約とか色々なものを入れている→作り込みが凄い．

• ただし，比較対象は古い．どれも4,5年前の手法に見える．

DESIRE: Distant Future Prediction in Dynamic Scenes With Interacting AgentsNamhoon Lee, et al.

• 交通シーンでの未来予測→軌跡予測．

• 分布として予測される（非決定的）

• 車がどちらに曲がるかは不明→難しい！

• 全部の可能性をAgentベースで?出す↑Agentと言いながらRNNしか使っていないように見える．

• ネットワークモデルだけではなかなか不明. RNNベース．

Deep Metric Learning via Facility LocationHyun Oh Song, Stefanie Jegelka, Vivek Rathod, Kevin Murphy

• 意味的な距離をdeep metric learningで学ばせたい．• N枚の入力画像に対してNxNの行列を出力するような形

（実際には画像対毎に判定するようになっているかもしれない）

• クラスタリングの結果のNMIスコアを最大化するように学習（これをバッチ処理でやるところなどで色々工夫がある）

• 未知の物体に対して，どれくらいうまくいくのか不明．• 昨日のRed wine Redo tomatoに通じる何かを感じる．

• 精度がクラスタリング手法などに依存しそう．

Binge Watching: Scaling Affordance Learning FromSitcomsXiaolong Wang, Rohit Girdhar, Abhinav Gupta

• Affordanceを視覚情報から認識できるようにしたい．• アノテーションデータが無い．• 人のアノテーション? シミュレーション?

• アイディア: テレビドラマから，データセットを作成．• アメリカのホームドラマは同じ家具のシーンがたくさんだからできるように思える（個

人の感想）• 具体的には，シーンAで人物の姿勢を抽出→別のシーンに映った同じ場所に，その姿勢

データを投影してデータを水増し．

• Affordanceがわかれば，ポーズの事前確率がわかる，などなど．• 応用が様々なのは激しく同意．• アメリカのホームドラマみたいな環境がどれだけあるのか，とも思うけれど，同時に，

ある環境でできるようになると，今度は転移学習可能になるから，一気にどこでもできるようになる（する）という戦略？

Weakly Supervised Semantic Segmentation Using Web-Crawled VideosSeunghoon Hong et al.

• ビデオを使うと，動いているものの領域が出せる→単一画像の領域分割の学習できるんじゃない？

• 問題: youtube videoは余計なものが沢山はいっているよね．• 字幕

• アニメっぽいキャラクターやCGなど

• 余計なものを事前の学習で除く．

• 51.7%→58.7%

Fast Video Classification via Adaptive Cascading of Deep ModelsHaichen Shen et al.

• 毎日見たものを全部記録したい．

• 計算コストやばい

• 1分のうちに現れる主要な物体の数は10個くらい？→dominant class

• dominant classだけcompactなCNNで検出，それ以外の大量のクラスはDeep learningで検出．# なんでSSDとかFaster R-CNNじゃだめなの？# それより早い精度が欲しい？歩行シーンで???

• 苦労しているが，既存手法の組合せという印象．淘汰されそうに感じるが…．

Dual Attention Networks for Multimodal Reasoning and MatchingHyeonseob Nam, Jung-Woo Ha, Jeonghee Kim

• Multimodal ReasoningとMultimodal Matching に適したネットワークの提案• MR: 入力がImageとText，応用は Visual Q/A, 機械翻訳など

• MM: imageとtextの間でのマッチング．応用はテキスト検索など．

• 後は，それ用のネットワーク構造の説明がラフに行われた．

Scalable Person Re-Identification on SupervisedSmoothed ManifoldSong Bai, Xiang Bai, Qi Tian

• manifold ができるけど，その類似度空間を教師ありで学習したら良くなった．

Person Re-Identification in the WildLiang Zheng,Hengheng Zhang, Shaoyan Sun, Manmohan Chandraker, YiYang, Qi Tian

• 人物検出とPerson Re-identificationをいい感じに統合．

Joint Detection and Identification Feature Learning for Person SearchTong Xiao, Shuang Li, Bochao Wang

• 人物の特定の学習

• データセットの中に写り込んでしまう（がアノテーションされていない）人が，学習途中で検出されるようになったら，どんどん学習サンプルに入れてしまう

• 2%くらい精度が上がる．

ポスターまで記述するのは力尽きました• 希望があれば関西CVPRML勉強会で解説．

• 良く見て聴いてきたリスト（解説できないのは除外，赤は面白いと思ったもの，青は面白そうだけどいけなかったけど後で読みたい=解説頼まれたらやるもの）:

• Procedural Generation of Videos to Train Deep Action Recognition Networks, CesarRoberto de Souza, Adrien Gaidon, Yohann Cabon, Antonio Manuel Lopez

• GeneratingtheFutureWithAdversarialTransformers, Carl Vondrick, Antonio Torralba

• BIND: Binary Integrated Net Descriptors for Texture-Less Object Recognition, Jacob Chan, Jimmy Addison Lee, Qian Kemao

• GrowingaBrain:Fine-Tuningby Increasing Model Capacity, Yu-Xiong Wang, Deva Ramanan, Martial Hebert

• A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection, Xiaolong Wang, Abhinav Shrivastava, Abhinav Gupta

• Kernel Pooling for Convolutional Neural Networks, Yin Cui, Feng Zhou, Jiang Wang, Xiao Liu, Yuanqing Lin, Serge Belongie

• Learning Cross-Modal Embeddings for Cooking Recipes and Food Images, Amaia Salvador, Nicholas Hynes, Yusuf Aytar, Javier Marin, Ferda Ofli, Ingmar Weber, Antonio Torralba

• pic2recipe.csail.mit.edu

続き(1)• 希望があれば関西CVPRML勉強会で解説


• Scene Graph Generation by Iterative Message Passing, Danfei Xu, Yuke Zhu, Christopher B. Choy, Li Fei-Fei

• ようはOpenPoseの手法に近いよね．

• Grassmannian Manifold Optimization Assisted Sparse Spectral Clustering, Qiong Wang, JunbinGao, Hong Li

• 発表者がいなくて，代理の人が質問があれば本人を呼び出す，とか言われましたが，待っている時間もったいない．

• From Motion Blur to MotionFlow: A Deep Learning Solution for Removing Heterogeneous Motion Blur, Dong Gong, Jie Yang, Lingqiao Liu, Yanning Zhang, Ian Reid, Chunhua Shen, Anton van den Hengel, Qinfeng Shi

• blurカーネルは線形であると仮定して，画素ごとにlinear blurをディープラーニングで推定．

• Noisy Softmax: Improving the Generalization Ability of DCNN via Postponing the Early SoftmaxSaturation, Binghui Chen, Weihong Deng, Junping Du

• LSTM Self-Supervision for Detailed Behavior Analysis, Biagio Brattoli, Uta Büchler, Anna-Sophia Wahl, Martin E. Schwab, Björn Ommer

続き(2)

• 希望があれば関西CVPRML勉強会で解説


• Deep Feature Flow for Video Recognition, Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, Yichen Wei

• semantic segmentationとoptical flowをCNNで両方解いたら精度上がるよね，という話．

• 当たり前だし，これもCNN使った系に見える…．

• Semantic Regularisation for Recurrent Image Annotation, Feng Liu, Tao Xiang, Timothy M. Hospedales, Wankou Yang, Changyin Sun

• CNNとRNNの接続部分の連結は意味的な繋がりが弱く，重みの伝播がしにくい→CNNとRNN別々のpretrainingが必要

• 連結部に対して，hand-craftedな特徴量による推定結果(?)を入力として差し込むような層を追加すると精度向上．

• Collaborative Summarization of Topic-Related Videos, Rameswar Panda, Amit K. Roy-Chowdhury

• 誰でもしっている当たり前のシーンしか抽出されなさそうに見えるが，それが目的の模様．

Engineering

CVPR2017 参加報告 速報版 本会議 2日目

CVPR2017 参加報告速報版本会議 2日目