23
Bag-of-Frames と時空間特徴量を用いた Semantic Indexing Taskへの取り組み

Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

  • Upload
    vulien

  • View
    220

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Bag-of-Frames と時空間特徴量を用いた

Semantic Indexing Taskへの取り組み

Page 2: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

アウトライン

はじめに

関連研究

手法

時空間特徴抽出手法

Bag of Framesによる全フレーム認識

キーフレームの利用

実行環境

結果

反省点

おわりに

Page 3: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

はじめに

国際映像処理ワークショップTRECVID

膨大な動画データを利用

課題の提示、結果の公表

Semantic Indexing Task

動画中の概念を認識し、概念に沿った動画から順に索引付けを行うタスク

2010年から概念カテゴリが20種類から130種類に増加

公式の平均適合率の算出は30種類の概念

Page 4: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

関連研究

TRECVIDにおけるマルチフレーム認識

MediaMillチーム[2]

複数のフレームから取得した特徴量を統合

東京工業大学チーム[3]

時空間特徴と視覚特徴の統合

Liu[4]らの研究

Adaboostによる統合

Page 5: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

方針

2010年からTRECVIDのデータセットが更新

Webから収集した動画に

野口[1]によるWeb動画認識で利用した特徴

ドロネー三角形を利用した時空間特徴など

本チームがTRECVID 2009で利用した特徴

キーフレームから取得したカラーヒストグラムなど

Multiple Kernel Learningで統合

Page 6: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

動画認識の概要

ショット動画

Multiple Kernel Learning(MKL)による学習

Motion:動き特徴

オプティカルフローによる表現

ST:時空間特徴

ドロネー三角形を

用いた手法

ヒストグラムをBag of Frames表現にする Bag-of-Spatio-temporal-

Feature表現

認識

キーフレーム

特徴 (RGBヒストグラムなど

7特徴)

キーフレームから取得

野口の作成した特徴 TRECVID2009で利用した特徴

Gabor:視覚特徴

フレーム毎に取得

Page 7: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

ST:時空間特徴

1.SURFによる特徴点抽出

2. オプティカルフローの小さい

特徴点を除去(Lucas-Kanade法)

3.ドロネー三角分割法により

三座標による特徴を取得

4.各特徴の3頂点のオプティカルフローと面積変化を計算

5.視覚特徴と動き特徴を結合し257次元の特徴抽出

SURF視覚特徴64次元×3

動き特徴ヒストグラム(5次元*4フレーム*3座標)

三角面積(1次元*5フレーム)

Page 8: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Bag-of-Spatio Temporal Feature(BoSTF)

Bag-of-Features(BoF)を動画に拡張したもの

画像を局所特徴の出現頻度で表現する(BoF)

動画を時空間特徴の出現頻度で表現する(BoSTF)

ベクトル量子化

ST:時空間特徴は5000次元のBoSTF表現として利用

Page 9: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Motion:動き特徴

オプティカルフローを用いてフレーム全体の動き情報を表現

8方向、7段階に分類し56次元のヒストグラムを抽出

カメラモーションが生じたフレームからは取得しない

Page 10: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

カメラモーション除去

動画特有の特徴利用の際、カメラモーション除去が重要

グリッドで動きを計算

動いた領域の割合が一定以上ならカメラモーションと見なす

カメラモーションが検出されたフレームは時空間特徴、動き特徴に利用しない

Page 11: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Gabor:ガボール特徴

ガボールフィルターを用い,画像の局所的な濃淡情報を表現

フィルタカーネル:6方向,4周期

画像を20×20グリッドに分割

一つのフレームから400個の24次元の特徴を抽出

合計9600次元の特徴として利用

Page 12: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Bag of Frames(BoFr)による全フレーム認識

Gabor、Motion特徴はBag of Frames表現で利用する

フレーム一枚から得られた特徴全体を、一つの局所特徴と見なし、1動画中の出現頻度で動画を表現

ベクトル量子化

全フレームの利用により動画の大域的な特徴の取得

Motion:動き特徴は3000次元のBoFr表現として利用

Gabor:ガボール特徴は5000次元のBoFr表現として利用

Page 13: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

キーフレームの利用

2009年のTRECVIDで用いたキーフレームから取得した視覚特徴も一部利用した

カラーヒストグラム

画像全体からHSV、RGB、Luvそれぞれの色空間ヒストグラム64次元

1画像4*3分割しHSV、RGB、Luvそれぞれの色空間ヒストグラム768次元

顔特徴

Haar-Likeによる顔検出を利用

検出した顔個数1次元のみ取得

Page 14: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Multiple Kernel Learning(MKL)

カテゴリごとに認識で重要な特徴は異なるはず

重要な特徴に適切な重みづけを行うことで実現

複数のサブカーネルの線形結合

最適な重みβを求める(MKL問題)

凸面最適化問題として解く

Page 15: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

実行環境

主に利用した計算クラスタマシン

Phenom II X4 3.0 quad core メモリ4GB

OS:Fedora 11(x64)

処理時間(130カテゴリ合計)

特徴抽出:3.5週間程度

学習データ:2週間程度(40コア程度利用)

テストデータ:1.5週間程度(80コア利用)

MKLの学習:2日前後(100コア利用)

テスト分類:2日前後(100コア利用)

Page 16: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

実験

TRECVIDデータセット 学習動画118305ショット

テスト動画144591ショット

2000位までの推定平均適合率(infAP)で評価

Full Category 30カテゴリ認識

Light Category 10カテゴリ認識

手法 統合手法にMKLを利用(UEC_MKL)

特徴を単純結合しSVMを利用(UEC_AVG)

Page 17: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

結果(Full Category)

全30チーム中14位(UEC_MKL)

infAP=0.0478(UEC_MKL)86手法中32位

infAP=0.0117(UEC_AVG) 86手法中70位

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

F_A

_M

M.C

apta

inSl

ow

_4

F_A

_R

EG

IM_4_2

F_A

_FT

RD

BJ-

HLF-2

_2

F_A

_T

T+

GT

_ru

n1_1

F_A

_Pic

SOM

_2ge

om

-max

_2

F_C

_M

M.Jezz

a_2

F_A

_C

U.A

thena_

3

F_A

_M

arburg

2_3

F_A

_M

arburg

1_4

F_A

_U

C3M

_4_4

F_A

_U

C3M

_2_2

F_A

_Q

uae

ro_R

UN

03_3

F_A

_in

ria.

will

ow

_1

F_A

_D

FK

I-M

AD

M_4

F_A_VIREO.baseline_vk_c…

F_A

_V

IREO

.bas

elin

e_vk

_3

F_A

_IR

IM_R

UN

4_4

F_A

_T

T+

GT

_ru

n2_2

F_A

_IT

I-C

ER

TH

_2

F_A

_N

HK

STR

L3_3

F_A

_N

TU

-RF-L

_3

F_A

_Fudan

.TV

10.2

_2

F_A

_N

TU

RFB_4

F_A

_in

ria.

will

ow

_3

F_A

_LIF

_R

UN

4_4

F_C

_nii.

ksc

.run1002_2

F_D

_K

BV

R_2

F_A

_Fuzh

ou_R

un1_1

F_D

_K

BV

R_1

F_A

_FIU

-UM

-3_3

F_A

_C

MU

4_4

F_A

_C

MU

2_2

F_A

_FIU

-UM

-4_4

F_A

_Fzu

_R

un3_130c_

3

系列2

系列1

UEC_MKL UEC_AVG

Page 18: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Air

pla

ne

Anim

al

Asi

an_People

Bic

yclin

g

Boat

_Sh

ip

Bus

Car

Cheeri

ng

Citys

cape

Cla

ssro

om

Dan

cing

Dar

k-s

kin

ned_People

Dem

onst

ration_O

r_Pro

test

Doorw

ay

Explo

sion_Fir

e

Fem

ale_Pers

on

Flo

wers

Gro

und_V

ehic

les

Han

d

Mounta

in

Nig

htt

ime

Old

_People

Runnin

g

Singi

ng

Sitt

ing_

Dow

n

Swim

min

g

Tele

pho

ne

Thro

win

g

Vehic

le

Wal

kin

g_R

unnin

g

Median

Max

Ours

Flowers

Full Categoryのカテゴリ別認識精度

Mountain Swimming Car Bus

Sitting

Down

Dancing Classroom

Page 19: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

結果(Light Category)

0

0.02

0.04

0.06

0.08

0.1

0.12

F_A_REGIM…

F_A_MM.Ca…

L_A_Eureco…

F_A_NEC-…

F_A_TT+G…

F_A_CU.Ar…

F_A_NEC-…

F_A_PicSO

F_A_PicSO

F_A_CU.He…

F_A_Marbu…

F_A_Marbu…

F_A_UC3M…

F_A_Quaer…

F_A_TT+G…

F_A_VIREO…

F_A_UC3M…

F_A_VIREO…

F_A_inria.wi…

L_A_MCPR…

F_A_MUG-…

L_A_Eureco…

L_A_MMM-…

L_A_MMM-…

F_A_Fudan.…

F_A_NHKS…

F_A_brno.b…

L_A_MMM-…

L_A

_C

MU

3_3

F_A_Fuzhou…

F_A_NTUR…

F_A_LIF_R…

F_A_MUG-…

F_D_NTU-…

L_B_JRS-…

L_A_SJTU-…

F_C_nii.ksc.…

F_A_nii.ksc.…

F_A_brno.r…

F_A_LIF_R…

L_A_MMM-…

F_A_uzay.sy…

L_A

_IR

IT_2_2

F_A

_C

MU

1_1

F_A_nii.PyC…

L_B_ntt-ut-…

L_A

_IR

IT_1_1

L_A_LSIS_…

F_A_FIU-…

F_A_IIPLA_…

系列2

系列1

UEC_MKL

UEC_AVG

全37チーム中12位(UEC_MKL)

infAP=0.0393(UEC_MKL) 128手法中31位

infAP=0.0077(UEC_AVG)128手法中94位

Page 20: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

Light Categoryのカテゴリ別認識精度

0

0.05

0.1

0.15

0.2

0.25

0.3

Median

Best

Ours

Classroom Bus

Page 21: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

結果紹介

成功例:Dancing

466枚:1つの動画から複数選択されていることが多い

失敗例:Bus

31枚:わずかな学習データ

失敗例2:Walking_Running

2379枚:多様な学習データ

Page 22: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

反省点

メモリ容量による学習データ数の限度あり

15000個利用した場合2週間計算しても終わらないことも

たくさんのネガティブデータをどう利用するか

今回の場合ネガティブデータ5000個程度

段取りが重要

130種類のカテゴリの認識なので、計画的に行う必要

MKLのパラメータ調整を行う時間が作れなかった

Page 23: Bag-of-Frames と時空間特徴量を用いた Semantic …img.cs.uec.ac.jp/pub/conf10/110217shimoda_3_ppt.pdf · ST:時空間特徴 1.SURFによる特徴点抽出 2. オプティカルフローの小さい

おわりに

まとめ

時空間特徴、bag-of-Framesなどの特徴の利用、MKLによる統合を行った結果、

30チーム中14位、86手法中32位の結果を得た

TRECVID 2011に向けて

学習データの少ないカテゴリが存在

認識精度向上のためWeb上の情報を利用する(Image-net)