CVPR2017 参加報告速報版本会議 1日目

CVPR2017参加報告(速報版・一日目）

2017.7.22(現地時間)@a_hasimoto

このスライドについて

1. 本会議での発表の内容を

2. 印象に残ったものだけ

3. その時の印象と，あとでのreferenceをたどるために

メモしたものです．

9/18(月・祝)，関西CVPRML勉強会にて，解説を予定．→ https://twitter.com/kansaicvprml

私の理解が深まるので，勘違いの指摘や質問，リンクの紹介，その他議論大歓迎．

CVPR2017 Statistics

CVPR2017 Statistics

CVPR2017 Statistics

スポンサー

Best Paper Awards (x2)

• “Densely Connected Convolutional Networks”Gao Huang et al.• https://arxiv.org/abs/1608.06993• https://github.com/liuzhuang13/DenseNet• https://github.com/titu1994/DenseNet

• “Learning from Simulated and Unsupervised Images throughAdversarial Training”Ashish Shrivastaba et al.• https://arxiv.org/abs/1612.07828• https://github.com/carpedm20/simulated-unsupervised-tensorflow

https://arxiv.org/abs/1608.06993

https://github.com/liuzhuang13/DenseNet


Best Honorable mention award (x2)

• “Annotating Object Instances with a Polygon-RNN”Lius Castrejon et al.• https://arxiv.org/abs/1704.05548

• “Yolo9000: Better, Faster, Stronger”Joseph Redmon & Ali Farhadi• https://arxiv.org/abs/1612.08242

• https://github.com/philipperemy/yolo-9000

• https://github.com/allanzelener/YAD2K



https://github.com/philipperemy/yolo-9000

https://github.com/allanzelener/YAD2K

Best Student Paper Award

• “Computational Imaging on the Electric Grid”Mark Sheinin et al.• http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf

https://phys.org/news/2017-07-imaging-electric-grid.html

Longuet-Higgins Prize (test of time award)

• Object Retrieval with Large Vocabularies and Fast Spatial Matching, J Philbin et al., CVPR2007• http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815

43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt

• http://ieeexplore.ieee.org/document/4270197/

http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/200801081543/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation(Oral)

• R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas

• Supplemental Material

• code: https://github.com/charlesq34/pointnet

• 3次元データの表現形式として，他の形式への変換が用意なポイントクラウドをCNNに入れて深層学習の恩恵を3次元データいも取り入れる• 技術的課題: 点群は画像のようにxyのような構造（並び）がない

• アイディア: ちょっと読みきれなかった．後で読む価値大．

http://conferences.computer.org/cvpr/2017/content/papers/0457a077.pdf#page=1

http://conferences.computer.org/cvpr/2017/content/supp/0201-supp.pdf#page=1

Universal Adversarial Perturbations• Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal

Frossard

• Supplemental Material

• code: https://github.com/LTS4/universal

• 多くのモデル，多くの画像で誤認識を引き起こすような画像歪み(=CNN共通の脆弱性)の発見に関する論文• ランダムノイズで同程度の精度低下を起こすには10倍の強度が必要• Data Augmentationに取り入れても，似たような歪みパターンが見つかる

• 橋本の理解• 人間の直感と違う認識結果の原因？• ある種のバグが論文になる→人間の病気の存在が論文になるようなもの？

→誰も中身がわかっていないことの証左…．


http://conferences.computer.org/cvpr/2017/content/supp/0649-supp.pdf#page=1

https://github.com/LTS4/universal

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

• Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi

• ResNetベースの超解像に対して，GANで，それを騙すような入力を作成して学習を強化した手法，と理解．• GANで学習サンプル水増し系が，今回のCVPRで何個か見かけた．

• 4x4倍の解像度の画像がかなり綺麗．

• 人間にかろうじて読める程度のナンバープレートも綺麗に復元絶対認識要素入っている感じ満載．

• ここまで来たか，という感じ．


Deep Reinforcement Learning-Based Image Captioning With Embedding Reward• Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li

• RNNでの文生成プロセスはビームサーチ的．

• 数個先までの文生成を時系列と考えて報酬ベースの強化学習の枠組みをいれたら良いのでは？

From Red Wine to Red Tomato: Composition With Context• Ishan Misra, Abhinav Gupta, Martial Hebert

• 形容詞の学習と認識

• 精度はmAPが6%弱．まだまだ改善の余地あり．

• 私がPRMUグランドチャレンジで予想したネタがもう出てき始めた(というか下記の発表をしていた頃に投稿されてた）．• https://www.slideshare.net/atsushihasimoto/prmu-gc

• 名詞と形容詞を独立に識別するCNNと，セットになったアノテーションに対して学習したCNNの積が一致するように学習→名詞・形容詞認識器が独立に，かつ，組合せが出力となるように学習される→未知の名詞・形容詞の組合せが認識できる可能性？？

https://www.slideshare.net/atsushihasimoto/prmu-gc

Weakly Supervised Action Learning With RNN Based Fine-To-Coarse Modeling, • Alexander Richard, Hilde Kuehne, Juergen Gall

• 複数のアクションが入っているVideo Clipに，自然言語のキャプションがアノテーションされている入力を仮定．• 文の記述順とビデオ内の動作の順序は同一であることが前提．

• 自動的にアクションの区切り（場合によってはbackground actionクラス）を推定しつつ，動作認識を学習．

• 編集済みの映像を前提としているので監視カメラとかでは辛いとのこと．

Captioning Images With Diverse Objects,

• Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko

• Video Captioningのデータセットは語彙が少ないので，Image Captioning用のデータセットの恩恵を受けましょう．• このために色々苦労してモデルを作っている感じ．

• 下記のposter発表とネタが被っていた??• “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.

Self-Critical Sequence Training for Image Captioning, • Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret

Ross, Vaibhava Goel

• ちょっと集中力切れてしまった．

• こういう人間でも説明が難しい画像へのキャプショニングが少しはできるようになる，らしい．

https://www.kenya-getaways.com/6-day-fossil-hunting/

ここからポスター

Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields, • Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh

• 発表は裏のoral sessionにいたので聞いていない．

• 研究室の論文読み会で既読．

• 関節位置の検出だけでなく，関節a→関節bのflowのようなものも学習．• それぞれの関節(および関節対）毎にCNNで検出→Full Connection層

で他の関節位置の情報を取り入れる→再検出→Full Connection層で2次以上の関節位置の関係を取り入れ... と7次まで行う

• ほぼ関節間の対応付けも取れているので，2部グラフマッチングをかなり適当に解いても正解となる→リアルタイムで複数人物の検出！

Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos, • De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles

• 言語処理側で，教師なしで作業のワークフロー(tree)を抽出する手法に対して，映像側でも類似のワークフロー(tree)を出して，グラフのズレなどに対してEMアルゴリズムで最適化．

• やろうとしていたことを(unsupervisedで)先にやられて過呼吸になりそう．でも精度は50%くらいなのでかなり低い？

Temporal Convolutional Networks for Action Segmentation and Detection, • Colin Lea, Michael D. Flynn, Rene Vidal, Austin Reiter,

Gregory D. Hager

• 全フレームの特徴量を抽出後に，それを入力としてAuto Encoder的に動作認識をする．かなり力技な印象．• それでもLSTMより良い精度がでる←オフライン処理だから??

FlowNet2.0:EvolutionofOpticalFlowEstimationWith Deep Networks, • Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper,

Alexey Dosovitskiy, Thomas Brox

• 変位が大きい場合と小さい場合にわけてネットワークを作り，統合．

• データを食わせる順番とかが精度向上に繋がったりしていて，かなり黒魔術的な印象．

• 動作認識の特徴量にいいのかも．これを上流に持ってきてEnd-to-Endとか

Visual Dialog

• Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, Jose M. F. Moura, Devi Parikh, Dhruv Batra

• 画像についての対話を元に，画像についての自然言語での質問に対して応答ができるようにしたもの．

Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification• Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara

Javidi, Rogerio Feris

• https://github.com/samim23/GitXiv/issues/55

• Multi-task CNNを作成する際に，どの層を連結させたら良いのか？という問題に対するアプローチ．

• 昔の特徴量選択と一緒で，全通り試すと組合せ爆発．

• 学習の結果，特徴が似ているものをまとめていくと精度が高い？ということを経験的に発見した模様．

CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning• Justin Johnson, Bharath Hariharan, Laurens van der Maaten,

Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick

• 色や形，場所(Elementary Visual Reason)で，環境中の物体を指示するための文を生成するための合成データセットを作成．• 左にある金属球，赤い立方体，みたいなの．

まとめ• 他にも何個か見たり聞いたり尋ねたりしたけど，書ききれませ

ん…．

• 純粋にCNNの精度をあげる研究は少数派

• どの問題にCNNを適用するにしても，教師信号が無い問題をどうするか，が多い印象．

• 純粋CV成分が足りない．

• 黒魔術っぷりが他の会議より濃い気がするのは気の所為？？• 全部ではなく，一部の性能の良い手法が，黒魔術的．

• 性能が良い≠正義，だが，現行の査読基準の限界か．

• 生物系の国際会議みたいにトピック毎のバランスをとって抽選，という会議があっても良いと思う→投稿者のモチベーションの問題?

Engineering

CVPR2017 参加報告 速報版 本会議 1日目

CVPR2017 参加報告速報版本会議 1日目