Inferring Unseen Views (without copyrighted materials)

Inferring Unseen Views of People 論文紹介

Chao-Yeh Chen and Kristen Grauman

University of Texas at Austin

Presenter: @jellied_unagi

概要

Unseen view inference

ある視点からの見えの情報をもとに，他の視点における見えを推測する

See Fig 2

概要


• 新規性

• テンソル補完の問題として定式化

• 有効性

• 完全な学習ベースでいくので，カメラ校正や対応点探索ができなくても大丈夫

• 未知視点における見え・視点の推定や動作認識に有効

• 本日の発表内容

• Inferring Unseen Views of People 論文紹介

• Bayesian probabilistic tensor factorization を簡単に紹介


入出力

• 入力: 人間部分のみが切り出された画像

• 出力: ある視点における見えに関する特徴量

• 見え自体の予測も原理的にはできるが多様でつらい

• HOG を HOGgles [Vondrick+, 13]で画像に変換

HOGglesのデモ http://web.mit.edu/vondrick/ihog/


対象とする画像

• Synchronized

• いくつかの視点から同期撮影された画像が対象

• Unsynchronized

• 一般のスナップショットが対象

See Fig 3


入力画像の表現

• M種類の視点（実験ではM=5, 8）

• K種類の位置

• N種類の姿勢

• 入力画像群はテンソル𝑋 ∈ 𝑅𝑁×𝑀×𝐾で表現される

• 𝑥𝑖𝑖𝑘 : i番目の姿勢，j番目の視点における画像から得られる特徴ベクトルのk次元目の要素


潜在要素の導入

• D次元の潜在要素を考える

• 𝑃 ∈ 𝑅𝐷×𝑁,𝑉 ∈ 𝑅𝐷×𝑀, 𝑆 ∈ 𝑅𝐷×𝐾

• 𝑥𝑖𝑖𝑘 ∼< 𝑃𝑖 ,𝑉𝑖 , 𝑆𝑘 >∶= ∑ 𝑝𝑑𝑖𝑣𝑑𝑖𝑠𝑑𝑘𝑑

～ 𝑃

𝐷

𝐷 𝐾

𝑁

特徴次元数 𝐾

姿勢数 𝑁

ある姿勢の画像を表現する K次元特徴ベクトル

視点数 𝑀

𝑉

𝐷

𝑀



• 各潜在要素が表すもの

• 𝑉: 視点変化によって特徴量がどのように変化するか

• 視点が裏返るとエッジ方向も裏返る etc

• 𝑆: 位置によって特徴量がどのように変化するか

• 上の方に頭があって，下の方に足があって…etc

• 𝑃: 姿勢変化によって特徴量がどのように変化するか

• 頻出するいくつかの特徴的な姿勢が学習される？



• テンソル積でも表現できる

• 𝑃 = 𝑃1, … ,𝑃𝑁 ,𝑉 = 𝑉1, … ,𝑉𝑀 , 𝑆 = 𝑆1, … , 𝑆𝐾 として

• 𝑃 ∘ 𝑉 =𝑃1𝑇⋮𝑃𝑁𝑇

𝑉1 …𝑉𝑀 =𝑃1𝑇𝑉1 … 𝑃1𝑇𝑉𝑀⋮ ⋱ ⋮

𝑃𝑁𝑇𝑉1 … 𝑃𝑁𝑇𝑉𝑀

内積

𝑃 ∘ 𝑉 ∘ 𝑆のときは < 𝑃𝑖 ,𝑉𝑖 , 𝑆𝑘 >

＝


Unsynchronizedの場合

• 基本的な考え方

• 「姿勢が近いが視点が違う」画像ペアを見つける

• 3D body posesが与えられる状況を考える

• Semi-automate pose labeling[2]などが使える

• 視点も与えられている状況を考える

• 視点が与えられているデータセットを使って評価している


Unsynchronizedの場合

• 具体的な手続き

• 各画像についてJ個の関節の3次元位置を推定

• 関節位置間の距離に基づいて画像ペアをたくさん作る

• 各姿勢について2種類の視点が与えられたテンソルを作ることができる

• Unsynchronized & synchronized のハイブリッド

• 潜在変数をsynchronizedで学習しておき，unsynchronizedで使う


未知視点情報の推定

• 未知の視点…テンソルにある穴

• 潜在要素が学習できれば，補完できる

• モデルベースの情報推薦

推定

補完


未知視点情報の推定

• 実際は𝑥𝑖𝑖𝑘に関する確率分布を推定する

• 問題

• 潜在要素（の確率分布）をどのように推定するか

• →Bayesian probabilistic tensor factorization

See Eq 0

Bayesian probabilistic tensor factorization

Probabilistic matrix factorization

• まずは𝑃,𝑉のみを考える

• 𝑝 𝑋 𝑃,𝑉,𝜎2 = ∏ ∏ 𝑁 𝑥𝑖𝑖 𝑃𝑖𝑇𝑉𝑖 ,𝜎2 𝐼𝑖𝑖𝑖𝑖

• 𝑃,𝑉 に関して事前分布も置く

• 𝑝 𝑃 = ∏ 𝑁 𝑃𝑖 0,𝜎𝑃2𝐼𝑖

• 𝑝 𝑉 = ∏ 𝑁 𝑉𝑖 0,𝜎𝑉2𝐼𝑖

𝑥𝑖𝑖が埋まっていれば1 そうでなければ0

𝑃𝑖𝑇𝑉𝑖

±𝜎



• 𝑃,𝑉に関する事後確率を最大化する • 𝑝 𝑃,𝑉 𝑋 = 𝑝 𝑋 𝑃,𝑉 𝑝 𝑃 𝑝 𝑉 /𝑝 𝑋

• 対数をとって

• ln𝑝 𝑃,𝑉 𝑋 =

− 12𝜎2

∑ ∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖2

𝑖𝑖 − 12𝜎𝑃

2 ∑ 𝑃𝑖𝑇𝑃𝑖𝑖 − 12𝜎𝑉

2 ∑ 𝑉𝑖𝑇𝑉𝑖𝑖

• − 正規分布の分母に対応する項− 𝑝 𝑋 に対応する項

二乗誤差正則化正則化



• 𝑃𝑖 ,𝑉𝑖で偏微分

•𝜕 ln 𝑝 𝑃,𝑉 𝑋

𝜕𝑃𝑖= − 1

𝜎2∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖 𝑉𝑖𝑖 − 1

𝜎𝑃2 𝑃𝑖

•𝜕 ln 𝑝 𝑃,𝑉 𝑋

𝜕𝑉𝑖= − 1

𝜎2∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖 𝑃𝑖𝑖 − 1

𝜎𝑉2 𝑉𝑖

• 最急降下法でイケる

• 𝑃𝑖(𝑘+1) = 𝑃𝑖

𝑘 − 𝛼 𝜕 ln 𝑝 𝑃,𝑉 𝑋𝜕𝑃𝑖

（Vも同様）


Bayesian probabilistic matrix factorization

• パラメタの分布（hyper-priors）を考える

• 𝜎2 = 𝛼−1として

• 𝑝 𝛼 = 𝑊 𝛼 𝑊�0, �̃�0

• 𝑝 𝑃𝑖 = 𝑁 𝑃𝑖 𝜇𝑃,𝛼𝑃−1 𝐼 ,Θ𝑃 = 𝜇𝑝,𝛼𝑃 として

• 𝑝 Θ𝑃 = 𝑝 𝜇𝑃 𝛼𝑃 = 𝑁 𝜇0, 𝛽0𝛼𝑃 −1 𝑊 𝛼𝑃 𝑊0, 𝜈0

• Gibbs samplingで頑張る

• パラメタの分布を生成→PやVを生成

• 詳細は省略（すみません）



• 基本的には行列が3階テンソルになるだけ

• とみせかけて[40]はちょっと違う

時間 𝐾

映画 𝑁

ユーザ 𝑀

時間方向にはマルコフ性を考えるつまり，𝑇𝑘 ∼ 𝑁 𝑇𝑘−1,𝜎2

正則化項がちょっと変わる



• Unseen view inferenceの場合

• 隣接する特徴の相関性を考慮したい

特徴次元数 𝐾

姿勢数 𝑁

ある姿勢の画像を表現する K次元特徴ベクトル

視点数 𝑀

空間方向にはマルコフ性を考えるつまり，𝑆𝑘 ∼ 𝑁 𝑆𝑘−1,𝜎2

See Fig 20 In http://www.vision.cs.chubu.ac.jp/04/pdf/TS01.pdf


評価実験

• 推定した見えの正確さ

• Hogglesした画像と実画像との差（SSD）を評価

• 対抗手法: memory-basedな補完，最近傍の視点を利用

• 未知の視点における動作認識

• （unsynchronizedで）体方向＝視点の推定


推定した見えの正確さ

See Fig 5

See Fig 4

See Tab 2


未知視点における動作認識

• いわゆるcross-view action recognition

• 時間方向の情報を使うもの[19, 45]には負けたが悪くない

See Tab 3


体方向＝視点の推定

• 教師有り視点推定をする

• 学習データに，推定した未知視点の見えを利用する

See Tab 4

まとめ

• 未知の視点からの見えをテンソル補完で推定

• 今後は時間方向の変化も扱いたいとのこと

• Pose, view, space, timeの4階にすればよい？

Science

Inferring Unseen Views (without copyrighted materials)