Bag-of-Frames と時空間特徴量を用いた Semantic...

Bag-of-Frames と時空間特徴量を用いた

Semantic Indexing Taskへの取り組み

アウトライン

はじめに

関連研究

TRECVIDにおけるマルチフレーム認識

MediaMillチーム[2]

複数のフレームから取得した特徴量を統合

東京工業大学チーム[3]

時空間特徴と視覚特徴の統合

Liu[4]らの研究

Adaboostによる統合

方針

2010年からTRECVIDのデータセットが更新

Webから収集した動画に

野口[1]によるWeb動画認識で利用した特徴

ドロネー三角形を利用した時空間特徴など

本チームがTRECVID 2009で利用した特徴

キーフレームから取得したカラーヒストグラムなど

Multiple Kernel Learningで統合

動画認識の概要

ショット動画

Multiple Kernel Learning(MKL)による学習

Motion:動き特徴

オプティカルフローによる表現

ST:時空間特徴

ドロネー三角形を

用いた手法

ヒストグラムをBag of Frames表現にする Bag-of-Spatio-temporal-

Feature表現

認識

キーフレーム

特徴（RGBヒストグラムなど

７特徴）

キーフレームから取得

野口の作成した特徴 TRECVID2009で利用した特徴

Gabor:視覚特徴

フレーム毎に取得

ST:時空間特徴

１．SURFによる特徴点抽出

２．オプティカルフローの小さい

特徴点を除去(Lucas-Kanade法)

３．ドロネー三角分割法により

三座標による特徴を取得

４．各特徴の３頂点のオプティカルフローと面積変化を計算

５．視覚特徴と動き特徴を結合し257次元の特徴抽出

SURF視覚特徴64次元×3

動き特徴ヒストグラム(5次元*4フレーム*3座標)

三角面積(1次元*5フレーム)

Bag-of-Spatio Temporal Feature(BoSTF)

Bag-of-Features(BoF)を動画に拡張したもの

画像を局所特徴の出現頻度で表現する(BoF)

動画を時空間特徴の出現頻度で表現する(BoSTF)

ベクトル量子化

ST:時空間特徴は5000次元のBoSTF表現として利用

Motion:動き特徴

オプティカルフローを用いてフレーム全体の動き情報を表現

８方向、７段階に分類し５６次元のヒストグラムを抽出

カメラモーションが生じたフレームからは取得しない

カメラモーション除去

動画特有の特徴利用の際、カメラモーション除去が重要

グリッドで動きを計算

動いた領域の割合が一定以上ならカメラモーションと見なす

カメラモーションが検出されたフレームは時空間特徴、動き特徴に利用しない

Gabor:ガボール特徴

ガボールフィルターを用い，画像の局所的な濃淡情報を表現

フィルタカーネル：6方向，4周期

画像を20×20グリッドに分割

一つのフレームから400個の24次元の特徴を抽出

合計9600次元の特徴として利用

Bag of Frames(BoFr)による全フレーム認識

Gabor、Motion特徴はBag of Frames表現で利用する

フレーム一枚から得られた特徴全体を、一つの局所特徴と見なし、１動画中の出現頻度で動画を表現

ベクトル量子化

全フレームの利用により動画の大域的な特徴の取得

Motion:動き特徴は3000次元のBoFr表現として利用

Gabor:ガボール特徴は5000次元のBoFr表現として利用

キーフレームの利用

2009年のTRECVIDで用いたキーフレームから取得した視覚特徴も一部利用した

カラーヒストグラム

画像全体からＨＳＶ、ＲＧＢ、Ｌｕｖそれぞれの色空間ヒストグラム64次元

１画像４*3分割しＨＳＶ、ＲＧＢ、Ｌｕｖそれぞれの色空間ヒストグラム768次元

顔特徴

Haar-Likeによる顔検出を利用

検出した顔個数１次元のみ取得

Multiple Kernel Learning(MKL)

カテゴリごとに認識で重要な特徴は異なるはず

重要な特徴に適切な重みづけを行うことで実現

複数のサブカーネルの線形結合

最適な重みβを求める(MKL問題)

凸面最適化問題として解く

実行環境

主に利用した計算クラスタマシン

Phenom II X4 3.0 quad core メモリ4ＧＢ

OS:Fedora 11(x64)

処理時間(130カテゴリ合計)

特徴抽出:3.5週間程度

学習データ:2週間程度（40コア程度利用）

テストデータ:1.5週間程度(80コア利用)

MKLの学習:2日前後(100コア利用)

テスト分類:2日前後(100コア利用)

実験

TRECVIDデータセット学習動画118305ショット

テスト動画144591ショット

2000位までの推定平均適合率(infAP)で評価

Full Category 30カテゴリ認識

Light Category 10カテゴリ認識

手法統合手法にMKLを利用(UEC_MKL)

特徴を単純結合しSVMを利用(UEC_AVG)

結果(Full Category)

全30チーム中14位(UEC_MKL)

infAP=0.0478(UEC_MKL)86手法中32位

infAP=0.0117(UEC_AVG) 86手法中70位

IM_4_2

M.Jezz

thena_

arburg

F_A_VIREO.baseline_vk_c…

_Fudan

.run1002_2

un3_130c_

系列2

系列1

UEC_MKL UEC_AVG

an_People

Cheeri

ned_People

ration_O

sion_Fir

ale_Pers

Mounta

_People

Runnin

Median

Flowers

Full Categoryのカテゴリ別認識精度

Mountain Swimming Car Bus

Sitting

Dancing Classroom

結果(Light Category)

F_A_REGIM…

F_A_MM.Ca…

L_A_Eureco…

F_A_NEC-…

F_A_TT+G…

F_A_CU.Ar…

F_A_NEC-…

F_A_PicSO

F_A_CU.He…

F_A_Marbu…

F_A_UC3M…

F_A_Quaer…

F_A_TT+G…

F_A_VIREO…

F_A_UC3M…

F_A_VIREO…

F_A_inria.wi…

L_A_MCPR…

F_A_MUG-…

L_A_Eureco…

L_A_MMM-…

F_A_Fudan.…

F_A_NHKS…

F_A_brno.b…

L_A_MMM-…

F_A_Fuzhou…

F_A_NTUR…

F_A_LIF_R…

F_A_MUG-…

F_D_NTU-…

L_B_JRS-…

L_A_SJTU-…

F_C_nii.ksc.…

F_A_nii.ksc.…

F_A_brno.r…

F_A_LIF_R…

L_A_MMM-…

F_A_uzay.sy…

IT_2_2

F_A_nii.PyC…

L_B_ntt-ut-…

IT_1_1

L_A_LSIS_…

F_A_FIU-…

F_A_IIPLA_…

系列2

系列1

UEC_MKL

UEC_AVG

全37チーム中12位(UEC_MKL)

infAP=0.0393(UEC_MKL) 128手法中31位

infAP=0.0077(UEC_AVG)128手法中94位

Light Categoryのカテゴリ別認識精度

Median

Classroom Bus

結果紹介

成功例：Dancing

４６６枚：１つの動画から複数選択されていることが多い

失敗例：Bus

３１枚：わずかな学習データ

失敗例２：Walking_Running

２３７９枚：多様な学習データ

反省点

メモリ容量による学習データ数の限度あり

15000個利用した場合2週間計算しても終わらないことも

たくさんのネガティブデータをどう利用するか

今回の場合ネガティブデータ5000個程度

段取りが重要

１３０種類のカテゴリの認識なので、計画的に行う必要

MKLのパラメータ調整を行う時間が作れなかった

おわりに

まとめ

時空間特徴、bag-of-Framesなどの特徴の利用、MKLによる統合を行った結果、

30チーム中14位、86手法中32位の結果を得た

TRECVID 2011に向けて

学習データの少ないカテゴリが存在

認識精度向上のためWeb上の情報を利用する(Image-net)

Bag-of-Frames と時空間特徴量を用いた Semantic...

Documents

商品特徴検索サイト

NVIDIA Quadro FX3700 グラフィックスボードの特徴

TOWER RECORDS presents JOHN COLTRANE …cdfront.tower.jp/.../2018/05/180522tower_coltrane_sacd.pdf2 JOHN COLTRANE IMPULSE SA-CD HYBRID SELECTION の特徴本リリース最大の特徴：

STEP 04 Master List of Features & BenefitsSTEP 04 Master List of Features & Benefits 特徴とベネフィットのマスターリスト特徴とベネフィットお客さんは特徴は買わない。その特徴を使うことで得ら

eto NICT Symposium 2013 rev03...IPv6（Internet Protocol version 6）の特徴 • 広大なアドレス空間 – 128 ビットのアドレス 32 ビットアドレス(IPv4) –IPv4：IPv6

PK特徴づけシート - UMIN

動作認識のための時空間特徴量と特徴統合手法の提案img.cs.uec.ac.jp/pub/conf10/100727noguchi_8_ppt.pdf · ④. ドロネー三角形を作成

NIPS2018読み会 - Gifu University · NNの特徴抽出でも ... 特徴として説得力がある(気がする) ―何を見ているか分からない特徴よりも, 解釈できる特徴の方が

Retro Stereo 50 オールインワン真空管アンプ - iFI-Audio.jpifi-audio.jp/manual/stereo50manual_jp03.pdfiFi Retro Stereo 50 オールインワン真空管アンプ特徴

第1部生物の特徴生物の特徴と細胞 › keirinkan › digital › taiken › ...1 第1部生物の特徴生物の特徴と細胞 1 生物の共通性と多様性 1 生物の多様性

G:草加市?288特徴しおりOT単288特徴しおり5･6P G:草加市?288特徴しおりOT単288特徴しおり5･6P.IPO Author Ver 3.12.3 Created Date 5/8/2018 2:46:56 PM

■ 遠隔講義システムの特徴

画像処理による単純な文字の特徴の増加手法の提案 · その領域ごとに特徴量を計算すること（特徴量抽出）である．前者の特徴点決定であるが，SIFT

機械学習のための特徴量最適化...1 機械学習のための特徴量最適化特徴量選択の基本特徴量選択を実施することで、機械学習モデルを大幅に改善できます。ここでは、特徴量選択について

Title 日本語空間表現の特徴から --奄美語を標準文章語と対照させ … · Title 日本語空間表現の特徴から --奄美語を標準文章語と対照させながら--Author(s)

Ⅲ 本県産業の特徴と課題 Ⅲ 本県産業の特徴と課題 - Tochigi ...Ⅲ 本県産業の特徴と課題 1 本県の立地環境・地域資源の特徴と課題特徴

データシート AX2500SシリーズAX2500S データシート Ver.3.0 2. 特徴 2.1 AX2500Sシリーズの特徴（1）ファンレス化を実現 − ギガビットイーサネット対応レイヤ2

深層学習で抽出した特徴量を用いた特徴点マッチングcvlab.cs.miyazaki-u.ac.jp/laboratory/2018/kajiwara_presen.pdf · 深層学習を用いる。特徴量記述

オプティカルフローとテクスチャ内の画像特徴量に基づく架空送 … · (2010) "Expliner - Robot for Inspection of Transmission Lines", The transactions of

1.1.1 Hitachi Virtual Storage Platform G1500,F1500 製品概要VSP G1500,VSP F1500 の特徴を以下に示します。図 1.1.2-1:VSP G1500,VSP F1500 特徴比較 VSP G1500の特徴