24
Inferring Unseen Views of People 論文紹介 Chao-Yeh Chen and Kristen Grauman University of Texas at Austin Presenter: @jellied_unagi

Inferring Unseen Views (without copyrighted materials)

Embed Size (px)

DESCRIPTION

コンピュータビジョン勉強会@関東 2014.7 論文は http://www.cs.utexas.edu/~grauman/papers/chen-pose-cvpr2014.pdf 以下も参考になる https://www.cs.cmu.edu/~jgc/publication/PublicationPDF/Temporal_Collaborative_Filtering_With_Bayesian_Probabilidtic_Tensor_Factorization.pdf http://www.cs.toronto.edu/~rsalakhu/papers/bpmf.pdf

Citation preview

Page 1: Inferring Unseen Views (without copyrighted materials)

Inferring Unseen Views of People 論文紹介

Chao-Yeh Chen and Kristen Grauman

University of Texas at Austin

Presenter: @jellied_unagi

Page 2: Inferring Unseen Views (without copyrighted materials)

概要

Unseen view inference

ある視点からの見えの情報をもとに,他の視点における見えを推測する

See Fig 2

Page 3: Inferring Unseen Views (without copyrighted materials)

概要

Unseen view inference

• 新規性

• テンソル補完の問題として定式化

• 有効性

• 完全な学習ベースでいくので,カメラ校正や対応点探索ができなくても大丈夫

• 未知視点における見え・視点の推定や動作認識に有効

• 本日の発表内容

• Inferring Unseen Views of People 論文紹介

• Bayesian probabilistic tensor factorization を簡単に紹介

Page 4: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

入出力

• 入力: 人間部分のみが切り出された画像

• 出力: ある視点における見えに関する特徴量

• 見え自体の予測も原理的にはできるが多様でつらい

• HOG を HOGgles [Vondrick+, 13]で画像に変換

HOGglesのデモ http://web.mit.edu/vondrick/ihog/

Page 5: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

対象とする画像

• Synchronized

• いくつかの視点から同期撮影された画像が対象

• Unsynchronized

• 一般のスナップショットが対象

See Fig 3

Page 6: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

入力画像の表現

• M種類の視点(実験ではM=5, 8)

• K種類の位置

• N種類の姿勢

• 入力画像群はテンソル𝑋 ∈ 𝑅𝑁×𝑀×𝐾で表現される

• 𝑥𝑖𝑖𝑘 : i番目の姿勢,j番目の視点における画像から得られる特徴ベクトルのk次元目の要素

Page 7: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

潜在要素の導入

• D次元の潜在要素を考える

• 𝑃 ∈ 𝑅𝐷×𝑁,𝑉 ∈ 𝑅𝐷×𝑀, 𝑆 ∈ 𝑅𝐷×𝐾

• 𝑥𝑖𝑖𝑘 ∼< 𝑃𝑖 ,𝑉𝑖 , 𝑆𝑘 >∶= ∑ 𝑝𝑑𝑖𝑣𝑑𝑖𝑠𝑑𝑘𝑑

~ 𝑃

𝐷

𝐷 𝐾

𝑁

特徴次元数 𝐾

姿勢数 𝑁

ある姿勢の画像を表現する K次元特徴ベクトル

視点数 𝑀

𝑉

𝐷

𝑀

Page 8: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

潜在要素の導入

• 各潜在要素が表すもの

• 𝑉: 視点変化によって特徴量がどのように変化するか

• 視点が裏返るとエッジ方向も裏返る etc

• 𝑆: 位置によって特徴量がどのように変化するか

• 上の方に頭があって,下の方に足があって…etc

• 𝑃: 姿勢変化によって特徴量がどのように変化するか

• 頻出するいくつかの特徴的な姿勢が学習される?

Page 9: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

潜在要素の導入

• テンソル積でも表現できる

• 𝑃 = 𝑃1, … ,𝑃𝑁 ,𝑉 = 𝑉1, … ,𝑉𝑀 , 𝑆 = 𝑆1, … , 𝑆𝐾 として

• 𝑃 ∘ 𝑉 =𝑃1𝑇⋮𝑃𝑁𝑇

𝑉1 …𝑉𝑀 =𝑃1𝑇𝑉1 … 𝑃1𝑇𝑉𝑀⋮ ⋱ ⋮

𝑃𝑁𝑇𝑉1 … 𝑃𝑁𝑇𝑉𝑀

内積

𝑃 ∘ 𝑉 ∘ 𝑆のときは < 𝑃𝑖 ,𝑉𝑖 , 𝑆𝑘 >

Page 10: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

Unsynchronizedの場合

• 基本的な考え方

• 「姿勢が近いが視点が違う」画像ペアを見つける

• 3D body posesが与えられる状況を考える

• Semi-automate pose labeling[2]などが使える

• 視点も与えられている状況を考える

• 視点が与えられているデータセットを使って評価している

Page 11: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

Unsynchronizedの場合

• 具体的な手続き

• 各画像についてJ個の関節の3次元位置を推定

• 関節位置間の距離に基づいて画像ペアをたくさん作る

• 各姿勢について2種類の視点が与えられたテンソルを 作ることができる

• Unsynchronized & synchronized のハイブリッド

• 潜在変数をsynchronizedで学習しておき,unsynchronizedで使う

Page 12: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

未知視点情報の推定

• 未知の視点…テンソルにある穴

• 潜在要素が学習できれば,補完できる

• モデルベースの情報推薦

推定

補完

Page 13: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

未知視点情報の推定

• 実際は𝑥𝑖𝑖𝑘に関する確率分布を推定する

• 問題

• 潜在要素(の確率分布)をどのように推定するか

• →Bayesian probabilistic tensor factorization

See Eq 0

Page 14: Inferring Unseen Views (without copyrighted materials)

Bayesian probabilistic tensor factorization

Probabilistic matrix factorization

• まずは𝑃,𝑉のみを考える

• 𝑝 𝑋 𝑃,𝑉,𝜎2 = ∏ ∏ 𝑁 𝑥𝑖𝑖 𝑃𝑖𝑇𝑉𝑖 ,𝜎2 𝐼𝑖𝑖𝑖𝑖

• 𝑃,𝑉 に関して事前分布も置く

• 𝑝 𝑃 = ∏ 𝑁 𝑃𝑖 0,𝜎𝑃2𝐼𝑖

• 𝑝 𝑉 = ∏ 𝑁 𝑉𝑖 0,𝜎𝑉2𝐼𝑖

𝑥𝑖𝑖が埋まっていれば1 そうでなければ0

𝑃𝑖𝑇𝑉𝑖

±𝜎

Page 15: Inferring Unseen Views (without copyrighted materials)

Bayesian probabilistic tensor factorization

Probabilistic matrix factorization

• 𝑃,𝑉に関する事後確率を最大化する • 𝑝 𝑃,𝑉 𝑋 = 𝑝 𝑋 𝑃,𝑉 𝑝 𝑃 𝑝 𝑉 /𝑝 𝑋

• 対数をとって

• ln𝑝 𝑃,𝑉 𝑋 =

− 12𝜎2

∑ ∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖2

𝑖𝑖 − 12𝜎𝑃

2 ∑ 𝑃𝑖𝑇𝑃𝑖𝑖 − 12𝜎𝑉

2 ∑ 𝑉𝑖𝑇𝑉𝑖𝑖

• − 正規分布の分母に対応する項− 𝑝 𝑋 に対応する項

二乗誤差 正則化 正則化

Page 16: Inferring Unseen Views (without copyrighted materials)

Bayesian probabilistic tensor factorization

Probabilistic matrix factorization

• 𝑃𝑖 ,𝑉𝑖で偏微分

•𝜕 ln 𝑝 𝑃,𝑉 𝑋

𝜕𝑃𝑖= − 1

𝜎2∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖 𝑉𝑖𝑖 − 1

𝜎𝑃2 𝑃𝑖

•𝜕 ln 𝑝 𝑃,𝑉 𝑋

𝜕𝑉𝑖= − 1

𝜎2∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖 𝑃𝑖𝑖 − 1

𝜎𝑉2 𝑉𝑖

• 最急降下法でイケる

• 𝑃𝑖(𝑘+1) = 𝑃𝑖

𝑘 − 𝛼 𝜕 ln 𝑝 𝑃,𝑉 𝑋𝜕𝑃𝑖

(Vも同様)

Page 17: Inferring Unseen Views (without copyrighted materials)

Bayesian probabilistic tensor factorization

Bayesian probabilistic matrix factorization

• パラメタの分布(hyper-priors)を考える

• 𝜎2 = 𝛼−1として

• 𝑝 𝛼 = 𝑊 𝛼 𝑊�0, �̃�0

• 𝑝 𝑃𝑖 = 𝑁 𝑃𝑖 𝜇𝑃,𝛼𝑃−1 𝐼 ,Θ𝑃 = 𝜇𝑝,𝛼𝑃 として

• 𝑝 Θ𝑃 = 𝑝 𝜇𝑃 𝛼𝑃 = 𝑁 𝜇0, 𝛽0𝛼𝑃 −1 𝑊 𝛼𝑃 𝑊0, 𝜈0

• Gibbs samplingで頑張る

• パラメタの分布を生成→PやVを生成

• 詳細は省略(すみません)

Page 18: Inferring Unseen Views (without copyrighted materials)

Bayesian probabilistic tensor factorization

Bayesian probabilistic tensor factorization

• 基本的には行列が3階テンソルになるだけ

• とみせかけて[40]はちょっと違う

時間 𝐾

映画 𝑁

ユーザ 𝑀

時間方向にはマルコフ性を考える つまり,𝑇𝑘 ∼ 𝑁 𝑇𝑘−1,𝜎2

正則化項がちょっと変わる

Page 19: Inferring Unseen Views (without copyrighted materials)

Bayesian probabilistic tensor factorization

Bayesian probabilistic tensor factorization

• Unseen view inferenceの場合

• 隣接する特徴の相関性を考慮したい

特徴次元数 𝐾

姿勢数 𝑁

ある姿勢の画像を表現する K次元特徴ベクトル

視点数 𝑀

空間方向にはマルコフ性を考える つまり,𝑆𝑘 ∼ 𝑁 𝑆𝑘−1,𝜎2

See Fig 20 In http://www.vision.cs.chubu.ac.jp/04/pdf/TS01.pdf

Page 20: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

評価実験

• 推定した見えの正確さ

• Hogglesした画像と実画像との差(SSD)を評価

• 対抗手法: memory-basedな補完,最近傍の視点を利用

• 未知の視点における動作認識

• (unsynchronizedで)体方向=視点の推定

Page 21: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

推定した見えの正確さ

See Fig 5

See Fig 4

See Tab 2

Page 22: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

未知視点における動作認識

• いわゆるcross-view action recognition

• 時間方向の情報を使うもの[19, 45]には負けたが悪くない

See Tab 3

Page 23: Inferring Unseen Views (without copyrighted materials)

Unseen view inference

体方向=視点の推定

• 教師有り視点推定をする

• 学習データに,推定した未知視点の見えを利用する

See Tab 4

Page 24: Inferring Unseen Views (without copyrighted materials)

まとめ

• 未知の視点からの見えをテンソル補完で推定

• 今後は時間方向の変化も扱いたいとのこと

• Pose, view, space, timeの4階にすればよい?