16
39 2016 CHINESEJOURNAL OFCOMPUTERS Vol.39 No.7 July2016 收稿日期20151018 在线出版日期20160115. 本课题得到国家九七三重点基础研究发展规划项目基金2012CB316304 和国家自 然科学基金重点项目 61432019 资助 高君宇1994 年生博士研究生主要研究方向为计算机视觉和多媒体 .Email gaojunyu2012 gmail.com. 杨小汕1989 年生博士研究生中国计算机学会CCF 会员主要研究方向为图像视频的识别排序)、 深度学习 张天柱1982 年生博士副研究员主要研究方向为计算机视觉和多媒体 徐常胜通信作者), 1969 年生博士研究 中国计算机学会CCF 会员主要研究领域为多媒体分析 索引 检索模式识别和计算机视觉 .Email csxu nlpr.ia.ac.cn. 基于深度学习的鲁棒性视觉跟踪方法 高君宇 杨小汕 张天柱 徐常胜 中国科学院自动化研究所模式识别国家重点实验室 北京 100190 传统的视觉跟踪方法L1 大多直接使用视频序列各帧内的像素级特征进行建模而没有考虑到各 图像块内部的深层视觉特征信息 在现实世界的固定摄像头视频监控场景中通常可以找到一块区域该区域中目 标物体具有清晰易于分辨的表观 因此文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用 以构造训练样本并构建了一个两路对称且权值共享的深度卷积神经网络 该深度网络使得参考区域外目标的输 出特征尽可能与参考区域内目标的输出特征相似以获得参考区域内目标良好表征的特性 经过训练后的深度卷 积神经网络模型具有增强目标可识别性的特点可以应用在使用浅层特征的跟踪系统L1 中以提高其鲁棒 文中在 L1 跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示从而获得了跟踪过 程中应对遮挡光照变化等问题的鲁棒性 文中在 25 个行人视频中与当前国际上流行的 种方法对比结果显示 文中提出的方法的平均重叠率比次优的方法高 0.11 平均中心位置误差比次优的方法低 1.0 关键词 深度学习卷积神经网络视觉跟踪鲁棒性L1 跟踪系统计算机视觉 中图法分类号 TP18 犇犗犐 10.11897 SP.J.1016.2016.01419 犚狅犫狌狊狋犞犻狊狌犪犾犜狉犪犮犽犻狀 犕犲狋犺狅犱狏犻犪犇犲犲 犔犲犪狉狀犻狀 GAOJunYu YANG XiaoShan ZHANGTianZhu XU ChangSheng 犛狋犪狋犲犓犲 犔犪犫狅狉犪狋狅狉 犘犪狋狋犲狉狀犚犲犮狅 狀犻狋犻狅狀 犐狀狊狋犻狋狌狋犲狅 犃狌狋狅犿犪狋犻狅狀 犆犺犻狀犲狊犲犃犮犪犱犲犿 犛犮犻犲狀犮犲狊 犅犲犻 犻狀 100190 犃犫狊狋狉犪犮狋 Thetraditionaltrackingmethods e.g.L1tracker generallyadoptthepixelvaluesas featurerepresentation andignorethedeepvisualfeaturesofimagepatches.Inafixedvideo sceneoftherealworld werealizethatwecanusuallyfindanareawherethetargetshaveclear appearanceandareeasytodistinguish.Therefore inthispaper weselectaregionineachvideo toconstructtrainingsetfordeepmodellearning.Intheproposeddeep model wedesignadeep convolutionalneuralnetworkwhichhastwosymmetricalpathswiththesharedweights.Thegoal oftheproposeddeepnetworkistoreducethedifferencebetweenthefeaturesofatargetoutof theregionandintheregion.Asaresult thelearneddeepnetworkcanenhancetheappearance featureoftargetsandbenefitthetrackersthatutilizelowlevelfeatures suchasL1tracker.Finally weutilizethispre traineddeepconvolutionalnetworkintheL1trackertoextractfeaturesfor sparserepresentation.Consequently ourmethodachievestherobustnessintrackingforhandling thechallengessuchasocclusionandilluminationchanges.Weevaluatetheproposedapproachon 25challengingvideosagainstwith9state ofthe arttrackers.Theextensiveresultsshowthat theproposedalgorithmis0.11higherthanthesecondbestwithaverageoverlap andis1.0lower thanthesecondbestwiththeaveragecenterlocationerrors. 犓犲狔狑狅狉犱狊 deeplearning convolutionalneuronnetworks visualtracking robust L1tracker computervision

基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

书书书

第39卷 第7期

2016年7月

计  算  机  学  报

CHINESEJOURNALOFCOMPUTERS

Vol.39 No.7

July2016

 

收稿日期:20151018;在线出版日期:20160115.本课题得到国家“九七三”重点基础研究发展规划项目基金(2012CB316304)和国家自

然科学基金重点项目(61432019)资助.高君宇,男,1994 年生,博士研究生,主要研究方向为计算机视觉和多媒体.Email:

gaojunyu2012@gmail.com.杨小汕,男,1989年生,博士研究生,中国计算机学会(CCF)会员,主要研究方向为图像、视频的识别(排序)、

深度学习.张天柱,男,1982年生,博士,副研究员,主要研究方向为计算机视觉和多媒体.徐常胜(通信作者),男,1969年生,博士,研究

员,中国计算机学会(CCF)会员,主要研究领域为多媒体分析/索引/检索、模式识别和计算机视觉.Email:csxu@nlpr.ia.ac.cn.

基于深度学习的鲁棒性视觉跟踪方法

高君宇 杨小汕 张天柱 徐常胜(中国科学院自动化研究所模式识别国家重点实验室 北京 100190)

摘 要 传统的视觉跟踪方法(如L1等)大多直接使用视频序列各帧内的像素级特征进行建模,而没有考虑到各

图像块内部的深层视觉特征信息.在现实世界的固定摄像头视频监控场景中,通常可以找到一块区域,该区域中目

标物体具有清晰、易于分辨的表观.因此,文中在各视频场景内事先选定一块可以清晰分辨目标表观的参考区域用

以构造训练样本,并构建了一个两路对称且权值共享的深度卷积神经网络.该深度网络使得参考区域外目标的输

出特征尽可能与参考区域内目标的输出特征相似,以获得参考区域内目标良好表征的特性.经过训练后的深度卷

积神经网络模型具有增强目标可识别性的特点,可以应用在使用浅层特征的跟踪系统(如L1等)中以提高其鲁棒

性.文中在L1跟踪系统的框架下使用训练好的深度网络提取目标候选的特征进行稀疏表示,从而获得了跟踪过

程中应对遮挡、光照变化等问题的鲁棒性.文中在25个行人视频中与当前国际上流行的9种方法对比,结果显示

文中提出的方法的平均重叠率比次优的方法高0.11,平均中心位置误差比次优的方法低1.0.

关键词 深度学习;卷积神经网络;视觉跟踪;鲁棒性;L1跟踪系统;计算机视觉

中图法分类号 TP18   犇犗犐号 10.11897/SP.J.1016.2016.01419

犚狅犫狌狊狋犞犻狊狌犪犾犜狉犪犮犽犻狀犵犕犲狋犺狅犱狏犻犪犇犲犲狆犔犲犪狉狀犻狀犵

GAOJunYu YANGXiaoShan ZHANGTianZhu XUChangSheng(犛狋犪狋犲犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犘犪狋狋犲狉狀犚犲犮狅犵狀犻狋犻狅狀,犐狀狊狋犻狋狌狋犲狅犳犃狌狋狅犿犪狋犻狅狀,犆犺犻狀犲狊犲犃犮犪犱犲犿狔狅犳犛犮犻犲狀犮犲狊,犅犲犻犼犻狀犵 100190)

犃犫狊狋狉犪犮狋  Thetraditionaltrackingmethods(e.g.L1tracker)generallyadoptthepixelvaluesas

featurerepresentation,andignorethedeepvisualfeaturesofimagepatches.Inafixedvideo

sceneoftherealworld,werealizethatwecanusuallyfindanareawherethetargetshaveclear

appearanceandareeasytodistinguish.Therefore,inthispaper,weselectaregionineachvideo

toconstructtrainingsetfordeepmodellearning.Intheproposeddeepmodel,wedesignadeep

convolutionalneuralnetworkwhichhastwosymmetricalpathswiththesharedweights.Thegoal

oftheproposeddeepnetworkistoreducethedifferencebetweenthefeaturesofatargetoutof

theregionandintheregion.Asaresult,thelearneddeepnetworkcanenhancetheappearance

featureoftargetsandbenefitthetrackersthatutilizelowlevelfeatures,suchasL1tracker.Finally,

weutilizethispretraineddeepconvolutionalnetworkintheL1trackertoextractfeaturesfor

sparserepresentation.Consequently,ourmethodachievestherobustnessintrackingforhandling

thechallengessuchasocclusionandilluminationchanges.Weevaluatetheproposedapproachon

25challengingvideosagainstwith9stateofthearttrackers.Theextensiveresultsshowthat

theproposedalgorithmis0.11higherthanthesecondbestwithaverageoverlap,andis1.0lower

thanthesecondbestwiththeaveragecenterlocationerrors.

犓犲狔狑狅狉犱狊 deeplearning;convolutionalneuronnetworks;visualtracking;robust;L1tracker;

computervision

Page 2: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

1 引 言

视觉跟踪是当前计算机视觉领域的研究热点,

其广泛应用于物体智能识别、人机交互、车辆定位等

方面[1].视觉跟踪还可应用于智能视频监控技术

中,服务智慧城市的发展和公共安全的需求[2].虽

然近年来关于视觉跟踪算法的研究取得了较大的

进展[310],但其在现实中应对各类复杂场景时仍然

面临着巨大的挑战,例如遮挡、亮度变化、姿态变

化、尺度变化等,如图1所示,在一个视频序列中

可能出现多种跟踪挑战.所以,如何使跟踪算法更

具鲁棒性以适应上述挑战仍然是目前研究聚焦的

核心.

图1 视频序列中可能出现的多种挑战(遮挡、光照变化、尺度变化、姿态变化等)

大多数跟踪算法都可划为判别型和生成型方

法[1112,16].判别型方法将跟踪问题建模为一个二元

分类问题,用以找到区分目标物体和背景的决策边

界.Avidan[11]将许多弱分类器组合成一个强分类

器,提出了一种全局跟踪方法.Babenko等人[12]提

出了一种基于在线多示例学习的跟踪方法.Grabner

等人[13]提出了一种在线boosting方法来更新可区

分的特征.Struck跟踪系统[5]利用一类核函数实现

结构化输出跟踪结果.Kalal等人[14]提出了PN学

习算法,通过对潜在正负样本结构信息的学习构造

出目标跟踪的分类器.黄福珍等人[15]提出了一种基

于LevelSet的人脸跟踪方法,利用图像帧间差分快

速检测出运动区域,并根据人脸图像的投影映射规

则确定人脸所在的外接矩形,从而判定跟踪过程中

的人脸位置.

与判别模型相反,生成跟踪模型通过学习一个

模型来表示目标物体,然后使用此模型以最小的重

构误差搜索图像区域,以达到跟踪目的.Mei等

人[16]提出了L1跟踪系统,通过对目标进行稀疏表

示,达到跟踪目的.Frag跟踪系统[17]通过使用局部

块的直方图表示对物体的外观进行建模,以解决部

分遮挡问题.Jia等人[18]提出了一种自适应的结构

化局部稀疏外观模型进行跟踪.Zhong等人[19]使用

基于稀疏表示的局部块间协同的模型以获得跟踪的

鲁棒性.Zhang等人[20]在在线跟踪中引入了多专家

重建机制,通过求解一个熵最小化问题重建当前的

跟踪系统.肖国强等人[21]提出了一种基于中心宏块

的视频目标跟踪算法,引入了一个中心宏块的概念,

通过两个层次的相似性度量,以建立相邻帧之间目

标的对应关系.

判别模型和生成模型中大多数方法直接使用视

频图像序列中的像素值进行建模,当跟踪过程中出

现严重的遮挡、复杂背景等较大挑战时,浅层的像

素级特征无法很好地应对.而经过学习得到的深

层视觉结构特征利于处理这些问题.近年来,深度

学习框架已经应用于计算机视觉领域并取得了良好

的效果.其中,卷积神经网络(ConvolutionalNeuron

Networks,CNN)由卷积层和全连接层构成,通过共

0241 计  算  机  学  报 2016年

Page 3: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

享权重和池化层(poolinglayer)来降低参数的数目

和提升效果,具有良好地学习图像深层视觉特征的

能力.因此,本文提出了一种新颖的深度卷积神经网

络结构,利用视频场景中的区域位置特性以提高视

觉跟踪的鲁棒性.

本文提出了一种基于深度学习的跟踪算法.该

算法基于如下观察:在一个固定摄像头的视频场景

中,可以找到一块较好的区域,例如一块位置适中、

表现平整的马路等,如图2所示(黑白图①).图2中

8张图片内矩形框所围成的区域即本文选择的部分

参考区域.在参考区域中目标物体通常会有清晰、易

分辨的表观,而当目标物体出现在参考区域外时,由

于非参考区域可能具有复杂的环境,目标物体的表

观易于呈现出不清晰、不完整的情况,如图3所示.

这个发现启发本文在跟踪过程中利用参考区域的位

置特性以增强目标的可识别性,即将目标样本映射

到参考区域内,以获得参考区域内目标样本的良好

表观特性.同时,本文改进了传统的用于分类的卷积

神经网络,构造了一个两路对称且权值共享的网络

模型,使其能学习到增强目标可识别性的权重参数,

并将此网络应用到视觉跟踪过程中.本文将出现在

参考区域的目标样本和不在参考区域的同一目标的

样本构成样本对,作为训练深度网络的输入.此网络

分为对称且权值共享的两条路径,每路都由3层卷

积层和一层全连接层组成.两种类型的样本分别通

过这两条路径并在全连接层输出固定维度的特征

(如10×10),通过最小化欧氏距离函数,使负样本

输出的特征尽可能与正样本相似.由于是固定摄像

头场景下的视觉跟踪且选取的参考区域固定,所以

该网络学习出的权重参数对于出现在该摄像头内的

目标物体具有通用性.各摄像头对应的深度网络进

行训练的样本对数量的均值为40530对,其中充分

图2 8个视频场景中的参考区域

包含了遮挡、亮度变化、姿态变化等阻碍跟踪性能的

情况,使得学习到的模型具备适应各类问题的鲁

棒性.

12417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

① 根据投稿格式要求,文中均使用黑白图片.为了便于读者理解本文(尤其是实验结果与分析部分),推荐浏览彩色版图片,请访问:http://nlprweb.ia.ac.cn/mmc/homepage/

jygao/resultgjy.html

Page 4: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

图3 参考区域内外的目标样本差异

在跟踪过程中,深度网络输出的相应特征可以

提高许多直接使用浅层特征的跟踪系统的鲁棒性,

如L1跟踪系统.本文的实验部分以L1跟踪系统[3]

为例,提出了一种基于深度学习的 L1跟踪系统

(DeepLearningL1tracker),通过使用模板特征和

每一帧内粒子采样块对应的输出特征,通过求解一

个1规则化最小二乘问题,实现用模板特征集对目

标特征进行稀疏表示.本文提出的基于深度学习的

L1跟踪算法具有以下优点:(1)模型在应对遮挡、

光照变化、物体姿态改变等方面具有较高的鲁棒性.

由本文学习得到的卷积神经网络模型可以应用于其

他已有的跟踪模型中进行特征提取;(2)经过深度

学习训练得到的模型在该摄像头内进行目标跟踪具

有很强的通用性;(3)本文提出的模型在应对初始

帧内目标模糊或残缺的状况时较其他模型更优.通

过在25个视频中与前文提及的目前国际上最为先

进的9种方法进行对比,本文提出的方法在平均重

叠率和平均中心位置误差的评价指标上超过了其他

跟踪系统.

2 相关工作

本文将提出的深度学习模型应用于一类基于稀

疏表示的生成型跟踪系统中,如L1跟踪系统[3].近

年来,基于稀疏表示的跟踪方法得到了较大的发展.

文献[2223]利用粒子滤波方法中目标周围的采样

粒子具有相似性和依赖性的关系,提出了一个由多

个粒子共同构建的协同稀疏模型.文献[24]构造了

一个结构化的多任务稀疏学习模型,提升了跟踪过

程的鲁棒性.文献[25]采用部分匹配进行稀疏表示

的方法,良好地解决了部分遮挡问题.文献[25]构造

了一个一致性低秩稀疏模型,利用粒子采样中粒子

之间的固有关系提高了跟踪过程的鲁棒性.王宇霞

等人[26]提出了一种基于自重构粒子滤波算法的目

标跟踪,该算法能够通过分裂跟踪器以应对复杂多

变的跟踪环境,同时,合并过程能够从多个跟踪器中

选出最优跟踪器,利用合并冗余的跟踪器以达到减

少计算量的效果.

另一方面,近年来深度学习已经开始应用于视

觉跟踪.但这类方法依然存在两个问题:(1)由于深

度学习模型规模巨大,所以需要大量的样本进行

训练;(2)深度学习庞大的规模导致其在应用中产

生了大量的时间开销.为了解决缺少样本的问题,

Wang等人[27]使用大量的辅助图像离线训练了一个

栈式去噪自编码器,对目标候选进行特征提取,并将

这样的特征应用于粒子滤波的框架中,同时,在跟踪

过程中更新自编码器.更多的学者选择使用卷积神

经网络进行视觉跟踪.Fan等人[28]同样利用大量的

辅助图像训练深度卷积神经网络,并将模型应用于

行人跟踪中,取得了较好的效果.Zhou等人[29]使用

多个神经网络的聚合体进行目标跟踪.然而,这些方

法由于缺少大量跟踪过程中的实际数据,所以效果

提升的程度有限.为此,Li等人[3032]设计了层次较

浅的卷积神经网络,设定了一个特殊的损失函数,并

以在线的方式对跟踪过程中产生的样本进行训练.

还有另外的一些方法试图解决上述的两个问题.

Hong等人[33]利用卷积神经网络提取特征,并使用

在线更新的SVM 对跟踪过程中的样本进行分类,

将正样本的特征进行反向传播,从而得到正样本对

应的显著图并以此显著图来进行判别式跟踪.Wang

2241 计  算  机  学  报 2016年

Page 5: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

等人[34]利用离线训练好的卷积神经网络模型提取

层次特征并用以进行在线跟踪.Chen等人[35]利用

类似于文献[27]的方式训练了一个卷积神经网络,

而Hu等人[36]则训练了一个卷积深度置信网络

(ConvolutionalDeepBeliefNetwork,CDBN)应用

于跟踪过程.Zhang等人[37]使用目标区域中随机提

取的归一化图像块作为卷积神经网络的滤波器,从

而实现了不用训练卷积神经网络的快速特征提取.

Kuen等人[38]提出了一种通过强短时限制和栈式卷

积自编码器学习到目标表示的不变性.文献[39]利

用了一种半监督的深度学习方法进行目标跟踪.

3 基于深度学习的视觉跟踪方法

本节首先介绍了基于参考区域特征变换的深度

网络模型,训练好的深度网络模型可以应用于许多

传统的跟踪方法(如L1跟踪系统).之后介绍本文

据此深度网络模型改进了的L1跟踪算法.

31 基于参考区域特征变换的深度网络

图4展示了本文提出的基于参考区域特征变换

的深度网络架构.输入犱犪狋犪=(狓0,狔0),其中狓0表示

出现在参考区域中的样本,狔0表示未出现在参考区

域中的同一目标的的样本.狓0所对应样本的表观大

部分清晰、易于分辨,狔0所对应样本中包含了大量的

遮挡、光照变化、姿态变化等情况.将狓0、狔0根据通

道数、高度和宽度进行尺寸归整,使得狓0,狔0∈

犚3×100×100,即狀0=3×100×100.两者各自通过对称

且权值共享的三层卷积层、三层池化层和一层狓0全

连接层,并在全连接层输出各自的特征,维度为

100.由于狓0,狔0通过的路径相互对称且对应层权值

共享,所以下面本文只介绍如何获得狓0对应的输出

特征.

图4 深度网络的架构

在第一个卷积层中,狓0通过一个权重矩阵犠1得

到了96个特征映射,犠1包含96个子矩阵,即犠

1=

[犠11;犠

12;…;犠

196],犠

1犻∈犚

3×11×11,其中犠1犻表示

第一个卷积层中每个卷积核对应的参数,卷积核的

通道数和尺寸分别为3和11×11,采样间隔为4.因

此输出的96个特征映射{狓1犻}96

犻=1是通过对狓0卷积响

应的和经过非线性激励函数计算得到的.每个狓1犻通

过式(1)进行计算:

狓1犻=down(犳(犠1犻狓

0)) (1)

本文选用狊犻犵犿狅犻犱函数作为激活函数犳(·),对

自变量逐元素进行计算,其表达式见式(2).“”代表

三维卷积.注意到传统的卷积神经网络模型[40]中含

有偏置项犫,其输出为犳(犠狓+犫),但是犠狓+犫

可以写作珮犠狓~,所以本文省略了犫以便于表达.本

文使用最大池采样[41]的方式对特征映射进行下采

样,下采样滤波器的尺寸为3×3,采样间隔为2,得

到狓1犻∈犚11×11.通过将所有的狓1犻连接在一起,可以

得到一个完整的特征映射狓1∈犚96×11×11,其维度为

狀1=96×11×11.

犳(狕)=1

1+exp(-狕)(2)

在第二层中,为了能更充分地利用输入信息

狓1,本文在每个狓1犻的外侧进行填补,填补的尺度为

2.之后将狓1与256个卷积核依次进行卷积,对应的

权重参数为 犠2=[犠

1;犠

2;…;犠

256],犠

2犻 ∈

犚96×5×5每个卷积核的通道数和尺寸分别为96和

32417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

Page 6: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

5×5,采样间隔为1,可得

狓2犻=down(犳(犠2犻狓

1)) (3)

这一层采用尺寸为3×3的滤波器进行下采样,

采样间隔为2,因此狓2犻∈犚5×5,将所有的特征映射

狓2犻组成狓2∈犚

256×5×5,其维度为狀2=256×5×5.

在第三层中,本文将狓2映射到狓3,且这一层不

包含池化.32个卷积核依次与狓2进行卷积,卷

积核的通道数和尺寸分别为3×3,每个输入狓2犻填

补的尺度为1.卷积核对应的权重参数记为犠3=

[犠3

1;犠

2;…;犠

32],犠

3犻∈犚

256×3×3.

狓3犻=犳(犠3犻狓

2) (4)

其中狓3犻∈犚5×5,将所有的狓3犻连接成一个具有狀3=

32×5×5=800维的向量,即狓3∈犚800.

最后一层是全连接层,从而输出原始数据的最

终特征狓4,其维度为狀4=100.使用的权重矩阵为

犠4∈犚

狀4×狀3.

狓4=犠4狓3 (5)

同样,狔0也经过相同的深度网络进行变换,最

后得到其在最后一个全连接层的输出特征狔4.对于

训练数据中的所有样本对,本文可以得到两个对应

的特征集合犡4={狓4}

犻=1和犢4={狔

4}犿犻=1,其中犿表

示训练实例的数目.本文的目标函数是最小化正、负

样本之间的欧氏距离:

argmin犠1,犠2,犠3,犠4

2犿∑犿

犻=1

狓4犻-狔4

2(6)

式(6)中 · 2表示2范数.通过优化式(6)可以

获得上述整个深度网络的权重,学习到的权重具有

将样本映射到参考区域中的功能,本文将训练好的

卷积神经网络用在L1跟踪系统的框架下进行特征

提取.

32 改进的犔1跟踪系统

本文参考了Bao等人[3]提出的 APGL1跟踪

系统,本文主要的改动是利用训练好的深度网络对

采样图像块和模板提取特征(而不是原始像素)并进

行稀疏表示,且不需要考虑单位模板和遮挡情况的

处理.

3.2.1 粒子滤波

在视觉跟踪中,粒子滤波是估计下一帧目标位

置后验概率的重要方法,包括预测和更新两步.本

文用狓狋表示在狋帧时目标物体的状态,用狔1:狋-1=

{狔1,狔2,…,狔狋-1}表示1~狋时刻所有的观测.粒子滤

波通过下面两个概率进行预测和更新:

狆(狓狋|狔1:狋-1)=∫狆(狓狋|狓狋-1)狆(狓狋-1|狔1:狋-1)犱狓狋-1(7)

狆(狓狋|狔1:狋)=狆(狔狋|狓狋)狆(狓狋|狔1:狋-1)

狆(狔狋|狔1:狋-1)(8)

狋帧内目标的最优状态可以通过估计其最大后

验概率求解:狓狋 =argmax狓

狆(狓|狔1:狋),当使用序列重

要性采样技术时,后验概率可以用一组具有不同权

重的粒子犛狋={狓1狋,狓2狋,…,狓

犖狋 }进行近似.其权重在

简化的条件下满足狑犻狋∝狑犻狋-1狆(狔狋|狓

犻狋).

3.2.2 基于特征的稀疏表示

稀疏表示的目的是为了计算粒子狓狋的似然分

布,即狆(狕狋|狓狋).在狋帧,给定目标模板的特征集

犜狋=[狋1狋,狋2狋,…,狋

狀狋],令犛狋={狓

1狋,狓2狋,…,狓

犖狋}表示采

样粒子的状态且令犗狋={狔1狋,狔2狋,…,狔

犖狋}表示目标候

选的特征集.由于经过深度网络训练出的特征在应

对遮挡问题时十分有效,所以本文不使用单位模板.

目标候选特征可以由目标模板特征集近似线性表示

如式(9):

狔犻狋≈犜狋犪,狔

犻狋∈犗狋 (9)

式中犪=(犪1,犪2,…,犪狀)T称为目标系数向量.本文希

望犪是稀疏的,另外,本文给犪附加了非负约束以增

强L1跟踪系统的鲁棒性[16].因此,对于每一个目标

候选特征狔犻狋,其稀疏表示可以通过求解如下的1范

数最小化问题实现,并加以非负约束:

min犪

2狔犻狋-犜狋犪

2+λ犪 1,犪犼0 (10)

最后,狓犻狋的似然概率由式(11)给出:

狆(狕狋|狓犻狋)=

Γexp{-α狔

犻狋-犜狋犮

犻 2

2} (11)

式(11)中,α是一个常数用来控制高斯核的形

状,Γ是正则因子,犮犻是式(10)所求得的最优解.此

时,帧狋内目标状态的最优解可由式(12)求得

狓狋 =argmax狓犻狋∈犛狋

狆(狕狋|狓犻狋) (12)

另外,本文引入了一种模板更新机制[16]以适应

跟踪过程中的光照和姿态变化等,但由于模型中使

用的是图像块的特征,所以本文调整了模板更新的

阈值.本文还参考了 Mei等人[42]提出的最小误差边

界,用以加速求解上述1范数最小化问题.该理论

得出每一个粒子狓犻狋的似然分布有如下上界:

狆(狕狋|狓犻狋)

Γexp{-犜狋犪^-狔

犻狋

2}狇(狕狋|狓

犻狋)(13)

其中狇(狕狋|狓犻狋)是粒子状态狓犻狋似然分布的上界,当

狇(狕狋|狓犻狋)<1

2犖∑犻-1

犼=1

狆(狕狋|狓犼狋)时,粒子狓犻狋将不会在重

采样中出现.本文使用两阶段的重采样方法以降低

跟踪过程中所需粒子数目[42].犪^通过式(14)求得

4241 计  算  机  学  报 2016年

Page 7: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

犪^=argmin犪

2犜狋犪-狔

2(14)

相比于APGL1[10]跟踪算法,本文的主要改动

是使用基于参考区域特征变换的深度卷积神经网络

模型对模板和粒子采样的图像块提取特征以进行稀

疏表示,并且由于训练好的卷积神经网络具有应对

遮挡的能力,所以在L1框架中本文不考虑遮挡情

况,见算法1.

算法1. 基于深度学习的L1跟踪算法.

输入:当前帧犉狋;

粒子集犛狋-1={狓犻狋-1}犖犻=1

模板特征集犜狋-1={狋犻}狀犻=1

输出:根据式(12)求得的狓狋

1.for犻=1to犖do

2.根据狓犻狋-1得到新的粒子狓犻狋,并通过深度网络得到

对应的输出特征狔犻狋;

3.求解式(14)对应的问题;

4.根据式(13)计算狇犻.

5.endfor

6.根据狇值,以降序方式对粒子进行排序;

7.令犻=1且τ=0.

8.while犻<犖and狇犻τdo

9.求解式(10)的最小化问题[3];

10.根据式(11)计算似然分布狆犻;

11.τ=τ+1

2犖狆犻;

12.犻=犻+1;

13.endwhile

14.对于犼犻,令狆犼=0;

15.更新模板特征集犜狋-1;

16.根据狆更新粒子集犛狋-1.

4 实验结果与分析

由于本文提出的深度网络应用于固定摄像头场

景,并且需要大量已标注的样本进行训练,所以本文

使用北京大学数字视频编解码技术国家工程实验室

(NELVT)的PKUSVDB数据集进行验证.该数

据集也成功应用于2015年全国研究生智慧城市技

术与创意设计大赛中.实验使用了该数据集中25个

行人目标的视频.这些视频具有多类场景并包含了大

量的遮挡、光照变化、姿态变化、密集背景、初始帧目

标模糊或残缺等情况.本次实验中,本文使用伯克利

大学视觉与学习中心(BVLC)提供的开源深度学习

架构Caffe[43]训练本文的深度神经网络.在之后的

L1框架中,本文令λ=0.2,模板个数犿=10,粒子

数目狀=600.最后的实验结果与当前国际上流行

的9种跟踪算法进行对比,这些算法分别简写为

OAB[13]、Frag

[17]、Struck[5]、L1

[3]、TLD[14]、MEEM

[20]、

LST[18]、SDG

[19]、MIL[12].

41 定量分析

为了定量分析每个跟踪系统的性能,本文使用

中心位置误差和重叠率两种度量方式.这两种度量

方式各有侧重,中心位置误差是跟踪结果和实际

情况中心点间的欧氏距离.重叠率是PASCAL竞赛

中目标检测的评分标准[44],即对于给定的跟踪边界

框犚犗犐犜和实际情况的边界框犚犗犐犌犜,通过使用

狊犮狅狉犲=犪狉犲犪(犚犗犐犜∩犚犗犐犌犜)

犪狉犲犪(犚犗犐犜∪犚犗犐犌犜)衡量跟踪系统的性能.

本文在25个图像序列上与9种当前流行的跟踪系

统对比,结果见表1和表2.表中粗体和粗斜体的数

据分别表示最好和次好的结果.根据平均重叠率的

衡量标准,本文提出基于深度学习的视觉跟踪方法

(DDL1)在25个测试视频中有16个排名第一,5个

排名第二,DDL1方法在整个数据集上的平均重叠

率为0.68,比次优的Struck方法高0.11,比L1方

法高0.16,比最低的TLD方法高0.26.总的来说,

本文提出的基于深度学习跟踪算法较好地超过了当

前流行的其他算法.根据平均中心位置误差的衡量

标准,本文提出的DDL1跟踪方法在25个测试视频

中有10个排名第一,4个排名第二,在整个数据集

上的平均中心位置误差为17.65,比次优的Struck

方法低1.0,比L1方法低50.31,比最低的TLD方

法低68.52.图5展示了其中18个视频的逐帧中心

位置误差,可以看出,在跟踪过程中,本文提出的方

法的误差较其他9种方法保持在一个较低的水平.

42 定性分析

图6展示了25个视频序列上的10个跟踪系统

的部分跟踪结果,图内这些视频序列的名称均为原

数据集视频名称的缩写.下文将根据跟踪过程中的

主要困难对各跟踪结果进行分析.

(1)遮挡.hsln13.11为多人交错行走,目标在

过程中多次被严重遮挡,L1、Frag、OAB与TLD算

法在23帧、44帧、61帧和65帧附近跟丢目标,其余

算法成功地进行了跟踪,但效果没有本文提出的方

法好.ygq5.10中目标沿路旁行走,在39帧时,TLD

算法跟丢了目标,而DDL1方法可以一直紧凑地跟

踪目标.视频dnm1.3中,目标被一辆汽车部分遮

挡,Frag和TLD算法分别在25帧和29帧处跟丢,

DDL1方法效果显著.视频bwb2.2和视频bwb2.3

中行人被树枝遮挡,本文提出的方法较好地应对了

这类问题.

52417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

Page 8: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

表1 25个视频上10个跟踪系统的平均重叠率

视频 DLL1 OAB Frag Struck L1 TLD MEEM LST SDG MIL

bwb2.2

bwb2.3

bwb2.4

dcm6.11

dcm6.12

dmn3.2

dnm1.3

dnm1.4

hsln13.11

hsln13.15

hslw14.11

jcrn9.3

jcrn9.7

jcrw10.3

jcrw10.7

jcrw10.15

wmhbe11.11

wmhbe11.15

wmhbw12.11

wmhd7.11

wmhd7.15

ygn4.12

ygq5.10

ygq5.11

ytw8.7

075

0.39

067

090

074

032

083

070

068

082

072

062

054

0.71

081

077

061

064

063

0.57

069

081

0.84

075

051

0.69

043

0.31

0.66

0.45

0.14

0.81

0.66

0.48

0.59

0.52

0.54

0.49

0.68

0.70

0.65

0.38

0.50

0.57

0.61

0.64

0.68

0.85

072

0.09

0.70

0.35

0.35

0.24

0.34

0.27

0.61

0.65

0.35

0.44

068

0.45

0.45

0.76

0.70

0.60

0.40

0.39

0.57

0.52

0.59

0.09

0.87

0.05

0.20

0.66

043

0.41

0.68

0.49

0.16

0.81

067

0.39

0.61

0.50

0.56

0.52

0.75

0.70

0.67

0.43

0.45

072

0.66

0.65

0.73

0.86

0.71

0.22

0.65

0.34

074

075

071

0.12

082

0.51

0.16

067

0.49

0.16

0.39

0.78

081

072

0.27

063

0.54

071

069

0.23

0.87

0.25

0.16

0.23

0.28

0.51

0.23

0.13

0.15

0.69

0.52

0.38

0.49

0.62

0.31

0.25

0.38

0.64

0.63

052

0.44

0.54

0.29

0.49

082

0.64

0.10

025

0.68

0.20

0.41

0.17

0.49

0.25

0.81

0.66

0.26

0.57

0.57

0.12

0.49

0.73

0.71

0.61

0.40

0.48

0.55

0.61

0.52

0.70

0.86

0.68

0.22

072

0.28

0.60

0.71

0.52

0.28

0.81

0.64

0.35

0.60

0.54

072

066

080

0.77

0.67

0.49

0.49

0.61

069

0.67

0.33

090

0.68

0.22

0.70

039

0.39

0.72

0.39

029

082

0.63

049

0.55

0.58

0.58

054

081

079

0.69

0.42

0.45

0.59

069

0.65

0.37

088

0.70

0.19

0.71

0.33

0.40

0.68

0.43

029

082

0.65

0.36

0.61

0.60

0.56

0.49

0.75

0.69

0.68

0.41

0.46

0.54

0.65

0.64

0.70

0.87

0.71

0.10

表2 25个视频上10个跟踪系统的平均中心位置误差

视频 DLL1 OAB Frag Struck L1 TLD MEEM LST SDG MIL

bwb2.2

bwb2.3

bwb2.4

dcm6.11

dcm6.12

dmn3.2

dnm1.3

dnm1.4

hsln13.11

hsln13.15

hslw14.11

jcrn9.3

jcrn9.7

jcrw10.3

jcrw10.7

jcrw10.15

wmhbe11.11

wmhbe11.15

wmhbw12.11

wmhd7.11

wmhd7.15

ygn4.12

ygq5.10

ygq5.11

ytw8.7

4.9

151

12.5

46

68

215

3.1

74

382

134

68

238

62.3

10.5

8.0

16.0

62.3

305

231

30.4

15.1

65

3.4

56

95

4.3

21.4

84.7

5.2

10.5

50.5

30

20.0

480

28.9

27.4

32.0

34.8

15.0

8.2

19.1

57.8

252

69.6

21.7

13.8

12.6

4.5

60

45.6

4.0

40.9

94.3

59.4

123.7

29.4

13.4

20.1

180.6

130.5

58

44.8

56.1

75

9.2

37.3

49.8

103.4

89.2

35.8

20.9

394.9

3.4

188.5

16.7

5.1

167

8.0

7.5

85

56.5

3.1

19.5

58.6

156

13.8

221

222

9.1

7.5

149

210

57.8

192

121

116

10.1

3.5

6.8

35.3

3.7

35.1

66

5.1

8.6

54.9

3.3

23.8

296.5

37.5

12.5

89.4

104.4

10.8

8.2

23.1

177.7

53.2

220.6

26.3

21.3

294.6

3.1

161.1

17.7

25.7

32.7

38.9

35.6

137.2

42.5

9.0

22.4

135.5

93.5

8.3

279.7

279.2

40.9

26.6

54.0

38.2

239.8

98.9

110.0

205.2

72

14.8

161.2

17.3

5.3

35.6

58

54.4

12.6

24.8

4.1

172

75.1

31.0

9.8

103.2

40.9

9.3

8.3

38.4

38.2

41.6

98.3

20.3

30.0

9.2

3.4

10.1

150

35

34.6

29.1

6.5

37.2

26.4

29

20.6

62.8

33.4

10.2

25.1

241

9.8

71

21.1

266

65.0

46.3

22.0

20.7

210.1

24

7.6

17.3

33

31.0

78.3

6.6

70.2

26.7

3.3

21.8

50.8

38.1

9.0

43.4

32.5

79

69

15.5

40.9

62.0

67.1

19.0

21.0

188.1

28

7.9

20.7

4.5

29.9

9.2

48

12.6

220

3.4

20.9

49.0

20.8

8.9

28.0

36.8

8.0

10.2

147

27.7

46.2

74.2

124

129

12.2

3.2

6.2

52.4

(2)突然运动.hslw14.11中目标在15帧时由

静止突然转身移动,OAB算法当即跟丢,Struck、

MEEM和LST算法在15帧后跟丢,L1、TLD、SDG、

MIL算法在20帧后出现较大误差,本文的算法与

Frag跟踪系统表现最好.

(3)姿态变化.ygn4.12中目标骑行转弯,姿态

不断变化.Frag、L1、LST和SDG分别在5帧、18帧、

28帧和30帧后跟丢目标.本文的方法取得了极好

的效果.视频ygq5.10中,目标斜向横穿马路,姿态

发生了较大的变化,L1、Frag、TLD 算法分别在

20帧、24帧、25帧时跟丢目标,本文构建的算法可

以一直跟上.

(4)尺度变化.视频bwb2.4中,目标从远处骑

行到近处,尺度发生了很大的变化,Frag、OAB、

TLD、LST算法依次跟丢了目标,本文提出的基于

深度学习的跟踪方法取得了很好的效果.

6241 计  算  机  学  报 2016年

Page 9: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

图5 18个视频中10种方法的逐帧中心位置误差(推荐观看彩色版以获得最佳效果)

72417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

Page 10: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

8241 计  算  机  学  报 2016年

Page 11: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

92417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

Page 12: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

0341 计  算  机  学  报 2016年

Page 13: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

图6 25个视频中10种方法的跟踪结果(推荐观看彩色版以获得最佳效果)

(5)目标初始帧模糊.dmn3.2中目标初始帧仅

为出现在视频边界附近的一小部分模糊的侧身,且

dmn3.2视频场景复杂,人流巨大.大多数跟踪算法

均在12帧附近跟丢,本文的算法获得了最好的跟踪

效果.ytw8.7中目标初始帧位于人流量很大场景

中,且初始状态为被严重遮挡,仅露出头部和颈部,

最终只有本文的算法可以跟上.这也正体现了本文

提出的基于深度学习算法的鲁棒性.

(6)遮挡和姿态变化.dnm1.4中目标骑行过程

中转了一个较大的弧度,且被附近建筑遮挡,其他方

法均在20帧后出现了较大的偏差,有的跟踪框不断

变小有的变大.

(7)遮挡和尺度变化.dcm6.12中目标由远及

近骑行,在14帧时被行驶的汽车遮挡住了下半身,

TLD算法当即跟丢,Frag、SDG、LST跟踪系统也在

47帧、62帧、70帧时跟丢目标.dcm6.11中,行人由

近及远行走,在40帧时被其他行人部分遮挡,Frag、

MEEM、TLD相继跟丢目标,本文的跟踪系统获得

了最佳效果.

(8)亮度变化和尺度变化.wmhbe11.15视频中

目标从较远的树荫处走到较近的明处.L1、MEEM、

Frag、SDG、OAB等均在100帧之后出现较大误差,

本文的方法具有显著的效果.

(9)遮挡、突然运动和姿态变化.wmhbw12.11

中目标在静止一段时间后突然斜向穿越马路,且

被路旁的汽车严重遮挡.L1、MEEM、Frag、MIL、

OAB、TLD和SDG方法均在102帧后跟丢.本文的

方法成功地跟踪了目标,效果仅次于Struck跟踪

系统.

5 结束语

本文提出了一个新颖的基于深度学习的视觉跟

踪方法,其核心思想是利用固定摄像头下视频场景

13417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

Page 14: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

中一块利于分辨目标的区域构造训练样本,并试图

学习到一种映射变换模型,将不在参考区域中的样

本映射到参考区域中.由于参考区域具有良好的位

置特性,所以训练出的深度网络具有增强目标可识

别性的特点.该网络可以提高多种传统跟踪系统的

鲁棒性,如L1跟踪系统.通过实验,本文在25个行

人目标视频中与其他9种近年来国际上流行的跟踪

系统进行比较,结果显示,本文构建的算法超越了这

些已有算法.在后续的工作中,本文将不仅考虑参考

区域中样本和不在参考区域中样本构成的样本对,

还要考虑以背景作为负样本与目标样本构成样本对

进行训练,这样可以更好地增加目标与背景之间的

可区分性.另外,利用跨域映射的跟踪思路[45],对于

出现在不同摄像头的同一样本,可以训练一个基于

多摄像头场景参考区域的统一模型,使得训练好的

模型在多摄像头间具有良好的通用性.

致 谢 在此诚挚地感谢北京大学数字视频编解码

技术国家工程实验室(NELVT)提供的PKUSVD

B数据集.并对给本文给出宝贵意见和建议的应龙

师兄等表示感谢!

参 考 文 献

[1] ZhangT,LiuS,XuC,etal.Structuralsparsetracking//

ProceedingsoftheIEEEConferenceonComputerVisionand

PatternRecognition.Boston,USA,2015:150158

[2] HuangKaiQi,ChenXiaoTang,KangYunFeng,etal.

Intelligentvisualsurveillance:Areview.ChineseJournalof

Computers,2015,38(6):10931118(inChinese)

(黄凯奇,陈晓棠,康运锋等.智能视频监控技术综述.计算

机学报,2015,38(6):10931118)

[3] BaoC,WuY,LingH,etal.RealtimerobustL1tracker

usingacceleratedproximalgradientapproach//Proceedingsof

the2012IEEEConferenceonComputerVisionandPattern

Recognition.RhodeIsland,USA,2012:18301837

[4] FanJ,ShenX,WuY.Scribbletracker:A mattingbased

approachforrobusttracking.IEEETransactionsonPattern

AnalysisandMachineIntelligence,2012,34(8):16331644

[5] HareS,SaffariA,TorrP H.Struck:Structuredoutput

trackingwithkernels//Proceedingsofthe2011IEEEInter

nationalConferenceonComputerVision.Barcelona,Spain,

2011:263270

[6] KristanM,PflugfelderR,LeonatdisA,etal.Thevisual

objecttrackingVOT2013challengeresults//Proceedingsof

the2013IEEEInternationalConferenceonComputerVision

Workshops.Sydney,Australia,2013:98111

[7] SaltiS,CavallaroA,DiStefanoL.Adaptiveappearance

modelingforvideotracking:Surveyandevaluation.IEEE

TransactionsonImageProcessing,2012,21(10):43344348

[8] WuY,LimJ,YangMH.Onlineobjecttracking:Abenchmark

//Proceedingsofthe2013IEEEConferenceonComputer

VisionandPatternRecognition.Oregon,USA,2013:2411

2418

[9] ZhangT,GhanemB,AhujaN.Robustmultiobjecttracking

viacrossdomaincontextualinformationforsportsvideoanalysis

//Proceedingsofthe2012IEEEInternationalConferenceon

Acoustics,SpeechandSignalProcessing.Kyoto,Japan,

2012:985988

[10] YunTingJin,GuoYongCai,GaoChao.Humantrackingin

infraredimagesbased on particles MeanShift migration

algorithm.ChineseJournalofComputers,2009,32(6):

12221228(inChinese)

(云廷进,郭永彩,高潮.基于粒子 MeanShift迁移的红外

人体目标跟踪算法.计算机学报,2009,32(6):12221228)

[11] AvidanS.Ensembletracking.IEEETransactionsonPattern

AnalysisandMachineIntelligence,2007,29(2):261271

[12] BabenkoB,YangMH,Visualtrackingwithonlinemultiple

instancelearning//Proceedingsofthe2009IEEEConference

onComputerVisionandPatternRecognition.Miami,USA,

2009:983990

[13] GrabnerH,GrabnerM,BischofH.Realtimetrackingvia

onlineboosting//ProceedingsoftheBritishMachineVision

Conference.Edinburgh,Germany,2006,1(5):615

[14] KalalZ,MatasJ,MikolajczykK.PNlearning:Bootstrap

pingbinaryclassifiersbystructuralconstraints//Proceedings

ofthe2010IEEEConferenceonComputerVisionandPattern

Recognition.SanFrancisco,USA,2010:4956

[15] HuangFuZhen,SuJianBo.Facecontourextractionand

trackingusingLevelSets.ChineseJournalofComputers,

2003,26(4):491496(inChinese)

(黄福珍,苏剑波.基于LevelSet方法的人脸轮廓提取与跟

踪.计算机学报,2003,26(4):491496)

[16] MeiX,LingH.RobustvisualtrackingusingL1minimization

//ProceedingsoftheIEEE12thInternationalConferenceon

ComputerVision.Kyoto,Japan,2009:14361443

[17] AdamA,RivlinE,ShimshoniI.Robustfragmentsbased

trackingusingtheintegralhistogram//Proceedingsofthe2006

IEEEComputerSocietyConferenceonComputerVisionand

PatternRecognition.NewYork,USA,2006:798805

[18] JiaX,Lu H,Yang MH.Visualtrackingviaadaptive

structurallocalsparseappearancemodel//Proceedingsofthe

2012IEEE Conferenceon Computer Visionand Pattern

Recognition.RhodeIsland,USA,2012:18221829

[19] ZhongW,LuH,Yang MH.Robustobjecttrackingvia

sparsitybasedcollaborativemodel//Proceedingsofthe2012

IEEEConferenceonComputerVisionandPatternRecognition.

RhodeIsland,USA,2012:18381845

2341 计  算  机  学  报 2016年

Page 15: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

[20] ZhangJ,MaS,SclaroffS.MEEM:Robusttrackingvia

multipleexpertsusingentropyminimization//Proceedingsof

the2014EuropeanConferenceonComputerVision.Zurich,

Switzerland,2014:188203

[21] XiaoGuoQiang,KangQin,JiangJianMin,etal.Tracking

videoobjectbasedoncentralmacroblocks.ChineseJournalof

Computers,2011,34(9):17121718(inChinese)

(肖国强,康勤,江健民等.基于中心宏块的视频目标跟踪算

法.计算机学报,2011,34(9):17121718)

[22] ZhangT,GhanemB,LiuS,etal.Robustvisualtrackingvia

multitasksparselearning//Proceedingsofthe2012IEEE

ConferenceonComputerVisionandPattern Recognition.

RhodeIsland,USA,2012:20422049

[23] ZhangT,GhanemB,LiuS,etal.Lowranksparselearning

forrobustvisualtracking//Proceedingsofthe2012European

ConferenceonComputerVision.Firenze,Italy,2012:470

484

[24] ZhangT,GhanemB,LiuS,etal.Robustvisualtrackingvia

structuredmultitasksparselearning.InternationalJournal

ofComputerVision,2013,101(2):367383

[25] ZhangT,LiuS,AhujaN,etal.Robustvisualtrackingvia

consistentlowranksparselearning.InternationalJournalof

ComputerVision,2014,111(2):171190

[26] WangYuXia,ZhaoQingJie,CaiYiMing,etal.Tracking

byautoreconstructingparticlefiltertrackers.ChineseJournal

ofComputers,2016,39(7):12941306(inChinese)

(王宇霞,赵清杰,蔡艺明等.基于自重构粒子滤波算法的目

标跟踪.计算机学报,2016,39(7):12941306)

[27] WangN,Yeung DY.Learningadeepcompactimage

representationforvisualtracking//Proceedingsofthe2013

AdvancesinNeuralInformationProcessingSystems.Harrahs

andHarveys,LakeTahoe,2013:809817

[28] FanJ,XuW,WuY,etal.Humantrackingusingconvolu

tionalneural networks.IEEE Transactions on Neural

Networks,2010,21(10):16101623

[29] ZhouX,XieL,ZhangP,etal.Anensembleofdeepneural

networksforobjecttracking//Proceedingsofthe2014IEEE

InternationalConferenceonImageProcessing.Pairs,France,

2014:843847

[30] LiH,LiY,PorikliF.Robustonlinevisualtrackingwitha

singleconvolutionalneuralnetwork//Proceedingsofthe2014

AsianConferenceonComputerVision.Singapore,2015:

194209

[31] LiH,LiY,PorikliF.DeepTrack:Learningdiscriminative

featurerepresentationsonlineforrobustvisualtracking.

arXivpreprintarXiv:150300072,2015

[32] LiH,LiY,PorikliF.DeepTrack:Learningdiscriminative

featurerepresentationsbyconvolutionalneuralnetworksfor

visualtracking//ProceedingsoftheBritishMachineVision

Conference.Nottingham,England,2014:111

[33] HongS,YouT,KwakS,etal.Onlinetrackingbylearning

discriminative saliency map with convolutional neural

network.arXivpreprintarXiv:150206796,2015

[34] WangN,LiS,GuptaA,etal.Transferringrichfeature

hierarchiesforrobustvisualtracking.arXivpreprintarXiv:

150104587,2015

[35] ChenY,YangX,ZhongB,etal.CNNTracker:Online

discriminativeobjecttrackingviadeepconvolutionalneural

network.AppliedSoftComputing,2015,38(6):10881098

[36] HuD,ZhouX,WuJ.Visualtrackingbasedonconvolutional

deepbeliefnetwork//ChenYunji,IenneP,JiQingeds.

AdvancedParallelProcessingTechnologies.SpringerInter

nationalPublishing,2015:103115

[37] ZhangK,LiuQ,WuY,etal.Robusttrackingviaconvolu

tionalnetworks withoutlearning.arXivpreprintarXiv:

150104505,2015

[38] KuenJ,LimK M,LeeCP.Selftaughtlearningofadeep

invariantrepresentationforvisualtracking viatemporal

slownessprinciple.Pattern Recognition,2015,48(10):

29642982

[39] DoulamisN,DoulamisA.Semisuperviseddeeplearningfor

objecttrackingandclassification///Proceedingsofthe2014

IEEEInternationalConferenceonImageProcessing.Pairs,

France,2014:848852

[40] KarpathyA,TodericiG,ShettyS,etal.Largescalevideo

classificationwithconvolutionalneuralnetworks//Proceedings

ofthe2014IEEEConferenceonComputerVisionandPattern

Recognition.Columbus,USA,2014:17251732

[41] SerreT,RiesenhuberM,LouieJ,etal.Ontheroleof

objectspecificfeaturesforrealworldobjectrecognitionin

biologicalvision//ProceedingsoftheBiologically Motivated

ComputerVision.Tübingen,Germany,2002:387397

[42] MeiX,Ling H,Wu Y,etal.Minimumerrorbounded

efficient1trackerwithocclusiondetection//Proceedingsof

the2011IEEEConferenceonComputerVisionandPattern

Recognition.ColoradoSprings,USA,2011:12571264

[43] JiaY,ShelhamerE,DonahueJ,etal.Caffe:Convolutional

architectureforfastfeatureembedding//Proceedingsofthe

ACM InternationalConferenceon Multimedia.Orlando,

USA,2014:675678

[44] Everingham M,VanGoolL,WilliamsC K,etal.The

pascalvisualobjectclasses(VOC)challenge.International

JournalofComputerVision,2010,88(2):303338

[45] Zhang T,Xu C.Crossdomain multieventtrackingvia

COPMHT.ACM TransactionsonMultimediaComputing,

Communications,andApplications(TOMM),2014,10(4):

3142

33417期 高君宇等:基于深度学习的鲁棒性视觉跟踪方法

Page 16: 基于深度学习的鲁棒性视觉跟踪方法 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/gjy-2016630151715.pdf图3 参考区域内外的目标样本差异 在跟踪过程中,深度网络输出的相应特征可以

犌犃犗犑狌狀犢狌,bornin1994,Ph.D.

candidate.Hisresearchinterestsinclude

computervisionandmultimedia.

犢犃犖犌犡犻犪狅犛犺犪狀,bornin1989,Ph.D.candidate.His

researchinterestsincluderecognition/rankingofimageand

video,deeplearning.

犣犎犃犖犌 犜犻犪狀犣犺狌,bornin1982,Ph.D.,associate

professor.Hisresearchinterestsincludecomputervisionand

multimedia.

犡犝犆犺犪狀犵犛犺犲狀犵,bornin1969,Ph.D.,professor.His

research interests include multimedia content analysis/

indexing/retrieval,patternrecognitionandcomputervision.

犅犪犮犽犵狉狅狌狀犱

Thepastfewyearshavebeensoinspiringinthehistory

ofcomputervision.Largeamountsofliteratureshavebeen

publishedwhenutilizingthebiologicallyinspiredConvolu

tionalNeuralNetworks(CNN)tosomehardcomputervision

problems,suchasobjectdetectionandimageclassification

problems.Nevertheless,therearestillsomeothercomputer

visiontaskslongingforbettersolutions,suchasvisualtracking.

Visualtrackingisoneofthemostimportantdomainina

widerangeofapplicationsincomputervision,suchashuman

computerinteraction,robotics,surveillance and vehicle

tracking,etc.Althoughthedevelopmentofvisualtrackingin

theseyears,therearenounifiedtheorysystemframe.Most

trackersaredevelopedfromthediscriminativeorgenerative

perspectives.Discriminativeapproachesformulatethetracking

problemasabinaryclassificationprobleminordertofindthe

decisionboundaryforseparatingthetargetobjectfromthe

background.Andincontrast,generativetrackerstypically

learnamodeltorepresentthetargetobjectandthenuseitto

searchfortheframeregion with minimalreconstruction

error.Althoughthese methodshavesomeadvantagesin

certainvideoscenes,mostofthemusethepixelsofeach

videosequencedirectly,ignoringthoseimagepatches’inner

deepfeatures.Andwethinkthesetrackersarepromisingfor

bettertrackingaccuracywhentheyusethedeepfeature.Our

approachdesignsanoveldeepconvolutionalneuronnetwork

whichhastwosymmetricalpathssharedweights.Thiswill

enhancetheappearancefeatureoftargets,thenachieves

betterresults.

Thisresearchgrouphassomeachievementaboutdeep

learningandcomputervisioninthepastfewyears.Zhang

Tianzhuelal.publishedpapersonCVPRin2013and2014,

whichfocusonrobustvisualtracking.YangXiaoshanetal.

devotetoimageclassificationusingdeeplearning,andpublished

papersonMultimediaSyst,2015andICIMCS,2013.

ThisworkissupportedinpartbytheNationalBasic

ResearchProgram(973Program)ofChina(No.2012CB316304)

andtheNationalNaturalScienceFoundationofChina(Key

Program,61432019).

4341 计  算  机  学  报 2016年