Upload
jellied-unagi
View
778
Download
8
Embed Size (px)
DESCRIPTION
コンピュータビジョン勉強会@関東 2014.7 論文は http://www.cs.utexas.edu/~grauman/papers/chen-pose-cvpr2014.pdf 以下も参考になる https://www.cs.cmu.edu/~jgc/publication/PublicationPDF/Temporal_Collaborative_Filtering_With_Bayesian_Probabilidtic_Tensor_Factorization.pdf http://www.cs.toronto.edu/~rsalakhu/papers/bpmf.pdf
Citation preview
Inferring Unseen Views of People 論文紹介
Chao-Yeh Chen and Kristen Grauman
University of Texas at Austin
Presenter: @jellied_unagi
概要
Unseen view inference
ある視点からの見えの情報をもとに,他の視点における見えを推測する
See Fig 2
概要
Unseen view inference
• 新規性
• テンソル補完の問題として定式化
• 有効性
• 完全な学習ベースでいくので,カメラ校正や対応点探索ができなくても大丈夫
• 未知視点における見え・視点の推定や動作認識に有効
• 本日の発表内容
• Inferring Unseen Views of People 論文紹介
• Bayesian probabilistic tensor factorization を簡単に紹介
Unseen view inference
入出力
• 入力: 人間部分のみが切り出された画像
• 出力: ある視点における見えに関する特徴量
• 見え自体の予測も原理的にはできるが多様でつらい
• HOG を HOGgles [Vondrick+, 13]で画像に変換
HOGglesのデモ http://web.mit.edu/vondrick/ihog/
Unseen view inference
対象とする画像
• Synchronized
• いくつかの視点から同期撮影された画像が対象
• Unsynchronized
• 一般のスナップショットが対象
See Fig 3
Unseen view inference
入力画像の表現
• M種類の視点(実験ではM=5, 8)
• K種類の位置
• N種類の姿勢
• 入力画像群はテンソル𝑋 ∈ 𝑅𝑁×𝑀×𝐾で表現される
• 𝑥𝑖𝑖𝑘 : i番目の姿勢,j番目の視点における画像から得られる特徴ベクトルのk次元目の要素
Unseen view inference
潜在要素の導入
• D次元の潜在要素を考える
• 𝑃 ∈ 𝑅𝐷×𝑁,𝑉 ∈ 𝑅𝐷×𝑀, 𝑆 ∈ 𝑅𝐷×𝐾
• 𝑥𝑖𝑖𝑘 ∼< 𝑃𝑖 ,𝑉𝑖 , 𝑆𝑘 >∶= ∑ 𝑝𝑑𝑖𝑣𝑑𝑖𝑠𝑑𝑘𝑑
~ 𝑃
𝐷
𝐷 𝐾
𝑁
特徴次元数 𝐾
姿勢数 𝑁
ある姿勢の画像を表現する K次元特徴ベクトル
視点数 𝑀
𝑉
𝐷
𝑀
Unseen view inference
潜在要素の導入
• 各潜在要素が表すもの
• 𝑉: 視点変化によって特徴量がどのように変化するか
• 視点が裏返るとエッジ方向も裏返る etc
• 𝑆: 位置によって特徴量がどのように変化するか
• 上の方に頭があって,下の方に足があって…etc
• 𝑃: 姿勢変化によって特徴量がどのように変化するか
• 頻出するいくつかの特徴的な姿勢が学習される?
Unseen view inference
潜在要素の導入
• テンソル積でも表現できる
• 𝑃 = 𝑃1, … ,𝑃𝑁 ,𝑉 = 𝑉1, … ,𝑉𝑀 , 𝑆 = 𝑆1, … , 𝑆𝐾 として
• 𝑃 ∘ 𝑉 =𝑃1𝑇⋮𝑃𝑁𝑇
𝑉1 …𝑉𝑀 =𝑃1𝑇𝑉1 … 𝑃1𝑇𝑉𝑀⋮ ⋱ ⋮
𝑃𝑁𝑇𝑉1 … 𝑃𝑁𝑇𝑉𝑀
内積
𝑃 ∘ 𝑉 ∘ 𝑆のときは < 𝑃𝑖 ,𝑉𝑖 , 𝑆𝑘 >
=
Unseen view inference
Unsynchronizedの場合
• 基本的な考え方
• 「姿勢が近いが視点が違う」画像ペアを見つける
• 3D body posesが与えられる状況を考える
• Semi-automate pose labeling[2]などが使える
• 視点も与えられている状況を考える
• 視点が与えられているデータセットを使って評価している
Unseen view inference
Unsynchronizedの場合
• 具体的な手続き
• 各画像についてJ個の関節の3次元位置を推定
• 関節位置間の距離に基づいて画像ペアをたくさん作る
• 各姿勢について2種類の視点が与えられたテンソルを 作ることができる
• Unsynchronized & synchronized のハイブリッド
• 潜在変数をsynchronizedで学習しておき,unsynchronizedで使う
Unseen view inference
未知視点情報の推定
• 未知の視点…テンソルにある穴
• 潜在要素が学習できれば,補完できる
• モデルベースの情報推薦
推定
補完
Unseen view inference
未知視点情報の推定
• 実際は𝑥𝑖𝑖𝑘に関する確率分布を推定する
• 問題
• 潜在要素(の確率分布)をどのように推定するか
• →Bayesian probabilistic tensor factorization
See Eq 0
Bayesian probabilistic tensor factorization
Probabilistic matrix factorization
• まずは𝑃,𝑉のみを考える
• 𝑝 𝑋 𝑃,𝑉,𝜎2 = ∏ ∏ 𝑁 𝑥𝑖𝑖 𝑃𝑖𝑇𝑉𝑖 ,𝜎2 𝐼𝑖𝑖𝑖𝑖
• 𝑃,𝑉 に関して事前分布も置く
• 𝑝 𝑃 = ∏ 𝑁 𝑃𝑖 0,𝜎𝑃2𝐼𝑖
• 𝑝 𝑉 = ∏ 𝑁 𝑉𝑖 0,𝜎𝑉2𝐼𝑖
𝑥𝑖𝑖が埋まっていれば1 そうでなければ0
𝑃𝑖𝑇𝑉𝑖
±𝜎
Bayesian probabilistic tensor factorization
Probabilistic matrix factorization
• 𝑃,𝑉に関する事後確率を最大化する • 𝑝 𝑃,𝑉 𝑋 = 𝑝 𝑋 𝑃,𝑉 𝑝 𝑃 𝑝 𝑉 /𝑝 𝑋
• 対数をとって
• ln𝑝 𝑃,𝑉 𝑋 =
− 12𝜎2
∑ ∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖2
𝑖𝑖 − 12𝜎𝑃
2 ∑ 𝑃𝑖𝑇𝑃𝑖𝑖 − 12𝜎𝑉
2 ∑ 𝑉𝑖𝑇𝑉𝑖𝑖
• − 正規分布の分母に対応する項− 𝑝 𝑋 に対応する項
二乗誤差 正則化 正則化
Bayesian probabilistic tensor factorization
Probabilistic matrix factorization
• 𝑃𝑖 ,𝑉𝑖で偏微分
•𝜕 ln 𝑝 𝑃,𝑉 𝑋
𝜕𝑃𝑖= − 1
𝜎2∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖 𝑉𝑖𝑖 − 1
𝜎𝑃2 𝑃𝑖
•𝜕 ln 𝑝 𝑃,𝑉 𝑋
𝜕𝑉𝑖= − 1
𝜎2∑ 𝐼𝑖𝑖 𝑥𝑖𝑖 − 𝑃𝑖𝑇𝑉𝑖 𝑃𝑖𝑖 − 1
𝜎𝑉2 𝑉𝑖
• 最急降下法でイケる
• 𝑃𝑖(𝑘+1) = 𝑃𝑖
𝑘 − 𝛼 𝜕 ln 𝑝 𝑃,𝑉 𝑋𝜕𝑃𝑖
(Vも同様)
Bayesian probabilistic tensor factorization
Bayesian probabilistic matrix factorization
• パラメタの分布(hyper-priors)を考える
• 𝜎2 = 𝛼−1として
• 𝑝 𝛼 = 𝑊 𝛼 𝑊�0, �̃�0
• 𝑝 𝑃𝑖 = 𝑁 𝑃𝑖 𝜇𝑃,𝛼𝑃−1 𝐼 ,Θ𝑃 = 𝜇𝑝,𝛼𝑃 として
• 𝑝 Θ𝑃 = 𝑝 𝜇𝑃 𝛼𝑃 = 𝑁 𝜇0, 𝛽0𝛼𝑃 −1 𝑊 𝛼𝑃 𝑊0, 𝜈0
• Gibbs samplingで頑張る
• パラメタの分布を生成→PやVを生成
• 詳細は省略(すみません)
Bayesian probabilistic tensor factorization
Bayesian probabilistic tensor factorization
• 基本的には行列が3階テンソルになるだけ
• とみせかけて[40]はちょっと違う
時間 𝐾
映画 𝑁
ユーザ 𝑀
時間方向にはマルコフ性を考える つまり,𝑇𝑘 ∼ 𝑁 𝑇𝑘−1,𝜎2
正則化項がちょっと変わる
Bayesian probabilistic tensor factorization
Bayesian probabilistic tensor factorization
• Unseen view inferenceの場合
• 隣接する特徴の相関性を考慮したい
特徴次元数 𝐾
姿勢数 𝑁
ある姿勢の画像を表現する K次元特徴ベクトル
視点数 𝑀
空間方向にはマルコフ性を考える つまり,𝑆𝑘 ∼ 𝑁 𝑆𝑘−1,𝜎2
See Fig 20 In http://www.vision.cs.chubu.ac.jp/04/pdf/TS01.pdf
Unseen view inference
評価実験
• 推定した見えの正確さ
• Hogglesした画像と実画像との差(SSD)を評価
• 対抗手法: memory-basedな補完,最近傍の視点を利用
• 未知の視点における動作認識
• (unsynchronizedで)体方向=視点の推定
Unseen view inference
推定した見えの正確さ
See Fig 5
See Fig 4
See Tab 2
Unseen view inference
未知視点における動作認識
• いわゆるcross-view action recognition
• 時間方向の情報を使うもの[19, 45]には負けたが悪くない
See Tab 3
Unseen view inference
体方向=視点の推定
• 教師有り視点推定をする
• 学習データに,推定した未知視点の見えを利用する
See Tab 4
まとめ
• 未知の視点からの見えをテンソル補完で推定
• 今後は時間方向の変化も扱いたいとのこと
• Pose, view, space, timeの4階にすればよい?