图像跟踪（七）ECO: Efficient Convolution Operators for Tracking

CVPR17，Martin Danelljan 的新作，如果你还记得SRDCF、SRDCFad、deepSRDCF的话，那么想必你是相当期待这篇Paper的，论文地址。之前SRDCF是解决边界效应问题，SRDCFad是解决样本污染问题，而这篇Paper（ECO）对DCF研究更加深入了，ECO主要是在解决模型过大的问题，通过减少DCF参数，简化训练集，减少模型更新频率来加快速度，对抗模型漂移，最终达到60fps的速度，结果也是非常优秀的。Baseline是C-COT算法。[mathjax]

Table of Contents

C-COT简介

C-COT: Learning Continuos Convolution Operators for Visual Tracking

由于这篇文章是以C-COT为Baseline的，所以我们有必要了解下C-COT算法。C-COT主要的贡献是提出了连续一个空间域中的卷积方程，在样本空间进行插值形成多分辨率的特征图。

C-COT中方法在EOT中的作用就是产生特征。

介绍

Motivation，这篇文章的出发点是提高DCF的时间和空间效率，从MOSSE到KCF、DSST、CN、SRDCF、C-COT，模型越来越复杂，速度也越来越慢，于是分析速度降低的三个最重要因素：

Model Size 模型大小

Training Set Size 训练集大小

Model update 模型更新

ECO是在C-COT基础上做的工作，主要有以下几点贡献：

提出了一种新的卷积操作符来，Factorized Convolution Operator，因式分解的卷积操作，减少DCF的参数

构建生成样本模型，Generative Sample Space Model，简化训练集

提出一种新的模型更新策略，降低模型更新频率，对抗模型漂移

因式分解卷积操作

Factorized Convolution Operator

Martin Danelljan的Paper从来都是满屏的公式，这时就需要仔细分析每个公式、每个字符的含义，这样就不会摸不着头脑。

ECO在特征提取上做了简化，使用原来特征的子集，从D维特征中选取了其中C维。C-COT的每个维度特征都对应一个滤波器，其实很多滤波器的贡献很小，而ECO只选择其中贡献较多的C个滤波器，然后每一维特征用着C个滤波器的线性组合来表示（文中并没有说明C维如何选择，只有等作者公布代码再一窥究竟了）。

新的检测函数如下，$latex P$是一个$latex D\times C$的矩阵，每一行代表一个维度的特征对应的C个滤波器的线性组合稀疏，$latex P$是一个稀疏，需要在第一帧中进行学习，之后跟踪中保持不变就可以了。

跟踪的目标函数如下所示，这个新的目标函数加入了对$latex P$的正则化，

下面就是Guss-Newton法来解最优化问题了

这样模型大小的问题就解决了，从D维降到了C维，相当于$latex J(x)$换成了$latex P^TJ(x_j)$。

样本产生模型

Generative Sample Space Model

ECO简化了训练集，如下图所示，下面一行（BaseLine）是传统方式，每更新一帧就添加一帧，那么连续的几帧训练样本是高度相似的，这样就引起了模型的过拟合。而ECO的做法利用高斯混合模型（GMM）来生成不同的样本分组，每一个样本分组内比较相似，不同分组之间差异较大，这样就使得训练样本具有了多样性。

通过样本$latex x$和目标输出y的联合概率分布$latex p(x,y)$，将目标函数进一步完善为

由于目标输出的$latex y$的形状是一致的，是一个峰值在中心的搞死函数，只是峰值的位置不一样。那么将ECO的$latex y$都设置成一样的，把峰值的位置的平移量体现在$latex x$上，在频域中可以简单处理，那么$latex p(x,y)$就简化了。只需要计算$latex p(x)$，使用GMM来建模：

$$p(x)=\sum_{l=1}^{L}\pi \mathcal{N}(x;u;I)$$

样本就从M减少到了L个（L为分组个数）

分组的更新过程：每次新来一个样本，初始化一个分组，如果分组的数量超过限制L，则丢弃全中最小的分组。否则，合并两个最近的分组k和l：

实际中，L设置为M/8，再一次减少了计算量，同时增加样本多样性，使得效果提升。

模型更新策略

Model Update Strategy

ECO的做法很简单，就是每隔$latex Ns$帧更新一次（样本更新每帧都做）。这样节约了时间，避免了模型漂移，如果$latex Ns$过大，那么模型会跟不上目标的变化，实验中$latex Ns$设置为6。

结果评价

Results

速度有60fps，而且效果非常棒，在OTB-2015上面比MDNet还好，总之就是非常优秀，DCF已经被Danelljan, M. 溜得飞起了。

参考文献

[1]. Danelljan, M., et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking. in European Conference on Computer Vision. 2016: Springer.

[2]. Danelljan, M., et al., ECO: Efficient Convolution Operators for Tracking. arXiv preprint arXiv:1611.09224, 2016.