图像跟踪(七)ECO: Efficient Convolution Operators for Tracking

        CVPR17,Martin Danelljan 的新作,如果你还记得SRDCF、SRDCFad、deepSRDCF的话,那么想必你是相当期待这篇Paper的,论文地址。之前SRDCF是解决边界效应问题,SRDCFad是解决样本污染问题,而这篇Paper(ECO)对DCF研究更加深入了,ECO主要是在解决模型过大的问题,通过减少DCF参数,简化训练集,减少模型更新频率来加快速度,对抗模型漂移,最终达到60fps的速度,结果也是非常优秀的。Baseline是C-COT算法。[mathjax]

C-COT简介

C-COT: Learning Continuos Convolution Operators for Visual Tracking

由于这篇文章是以C-COT为Baseline的,所以我们有必要了解下C-COT算法。C-COT主要的贡献是提出了连续一个空间域中的卷积方程,在样本空间进行插值形成多分辨率的特征图。

C-COT中方法在EOT中的作用就是产生特征。

介绍

Motivation,这篇文章的出发点是提高DCF的时间和空间效率,从MOSSE到KCF、DSST、CN、SRDCF、C-COT,模型越来越复杂,速度也越来越慢,于是分析速度降低的三个最重要因素:

Model Size 模型大小

Training Set Size 训练集大小

Model update 模型更新

ECO是在C-COT基础上做的工作,主要有以下几点贡献:

提出了一种新的卷积操作符来,Factorized Convolution Operator,因式分解的卷积操作,减少DCF的参数

构建生成样本模型,Generative Sample Space Model,简化训练集

提出一种新的模型更新策略,降低模型更新频率,对抗模型漂移

因式分解卷积操作

Factorized Convolution Operator

Martin Danelljan的Paper从来都是满屏的公式,这时就需要仔细分析每个公式、每个字符的含义,这样就不会摸不着头脑。

ECO在特征提取上做了简化,使用原来特征的子集,从D维特征中选取了其中C维。C-COT的每个维度特征都对应一个滤波器,其实很多滤波器的贡献很小,而ECO只选择其中贡献较多的C个滤波器,然后每一维特征用着C个滤波器的线性组合来表示(文中并没有说明C维如何选择,只有等作者公布代码再一窥究竟了)。

新的检测函数如下,$latex P$是一个$latex D\times C$的矩阵,每一行代表一个维度的特征对应的C个滤波器的线性组合稀疏,$latex P$是一个稀疏,需要在第一帧中进行学习,之后跟踪中保持不变就可以了。

跟踪的目标函数如下所示,这个新的目标函数加入了对$latex P$的正则化,

下面就是Guss-Newton法来解最优化问题了

这样模型大小的问题就解决了,从D维降到了C维,相当于$latex J(x)$换成了$latex P^TJ(x_j)$。

样本产生模型

Generative Sample Space Model

ECO简化了训练集,如下图所示,下面一行(BaseLine)是传统方式,每更新一帧就添加一帧,那么连续的几帧训练样本是高度相似的,这样就引起了模型的过拟合。而ECO的做法利用高斯混合模型(GMM)来生成不同的样本分组,每一个样本分组内比较相似,不同分组之间差异较大,这样就使得训练样本具有了多样性。

通过样本$latex x$和目标输出y的联合概率分布$latex p(x,y)$,将目标函数进一步完善为

由于目标输出的$latex y$的形状是一致的,是一个峰值在中心的搞死函数,只是峰值的位置不一样。那么将ECO的$latex y$都设置成一样的,把峰值的位置的平移量体现在$latex x$上,在频域中可以简单处理,那么$latex p(x,y)$就简化了。只需要计算$latex p(x)$,使用GMM来建模:

$$p(x)=\sum_{l=1}^{L}\pi \mathcal{N}(x;u;I)$$

样本就从M减少到了L个(L为分组个数)

分组的更新过程:每次新来一个样本,初始化一个分组,如果分组的数量超过限制L,则丢弃全中最小的分组。否则,合并两个最近的分组k和l:

实际中,L设置为M/8,再一次减少了计算量,同时增加样本多样性,使得效果提升。

模型更新策略

Model Update Strategy

ECO的做法很简单,就是每隔$latex Ns$帧更新一次(样本更新每帧都做)。这样节约了时间,避免了模型漂移,如果$latex Ns$过大,那么模型会跟不上目标的变化,实验中$latex Ns$设置为6。

结果评价

Results

速度有60fps,而且效果非常棒,在OTB-2015上面比MDNet还好,总之就是非常优秀,DCF已经被Danelljan, M. 溜得飞起了。

参考文献

[1]. Danelljan, M., et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking. in European Conference on Computer Vision. 2016: Springer.

[2]. Danelljan, M., et al., ECO: Efficient Convolution Operators for Tracking. arXiv preprint arXiv:1611.09224, 2016.

《图像跟踪(七)ECO: Efficient Convolution Operators for Tracking》有6条评论

回复 ZZJ 取消回复