2016年12月 – Poly Space

视频图像跟踪算法综述

2020-12-122016-12-30 作者 PengChao

cf2_teaser 图像跟踪一直都是计算机视觉领域的难题，事先知道第一帧中的目标位置，然后需要在后续帧中找到目标。先验知识少，目标被遮挡、目标消失、运动模糊、目标和环境的剧烈变化、目标的高速运动、相机的抖动都会对目标跟踪造成影响，图像跟踪一直都是CV领域的难题。

深度学习用于图像跟踪有两大要解决的问题，一是图像跟踪一般使用在线学习，很难提供大量样本集，二是深度学习使用CNN时，由于卷积池化，最后一层的输出丢失了位置信息，而图像跟踪就是要输出目标的位置。

2013年以来，深度学习开始用于目标跟踪，并且为这些问题提供了一些解决思路。这篇博客首先阐述图像跟踪今年来的研究进展，然后再介绍深度学习用于图像跟踪近年来的研究，最后附上一些学习资料和相关网站。

MatConvNet深度学习框架简介及GPU使用注意事项

2020-12-122016-12-28 作者 PengChao

MatConvNet是一个基于Matlab的深度学习框架，在计算部分，最底层混编了C/C++或者CUDA C，这使得其速度并不是特别慢。就使用体验来说，MatConvNet是非常优秀的，借助于Matlab，定义网络，使用现有模型以及数据可视化都非常方便。

由于MatConvNet文档和Demo都比较完备，所以这篇博客主要介绍一些GPU的配置细节。

OpenCV实现Census变换

2020-12-122016-12-18 作者 PengChao

在立体视觉中，常常用到Census变换，Census变换是一种非参数局部变换，其将周围像素的强度映射到一个比特穿，从而捕获图像的结构。同时使用Census变换可以减少由相机增益和偏置引起变化的影响。在立体匹配过程中，将图像做Census变换后，计算像素点之间的明式距离进行匹配，可以得到较好的效果。

这篇博客主要介绍介绍实现Census变换，由于使用OpenCV的容器和接口，所以直接使用OpenCV调用比较方便。

Matlab使用vision.TextInserter在图像中嵌入字符

2016-12-10 作者 PengChao

使用Matlab处理图像的时候，如果需要将文字或者图形嵌入图像中，就需要用到vision工具集了，如果嵌入的是文字，那么就要使用vision.TextInserter，这个在新版本的Matlab中提供了insertText函数，与其功能差不多，不过vision.TextInserter要强大一些，insertText可以修改文字背景色块但是不能修改字体。

目标识别的评价指标主要有ROC曲线，missrate（MR，其实就是FALSE Positive）、FPPI、FPPW等。单图像跟踪的评价指标主要有两个，一个是pixel error，一般是算中心距离，另一个是overlap rate，区域重叠率，用重叠区域除以两个矩形所占的总面积Aoverlap /（A1+A2-Aoverlap），常常用pixel error绘制帧误差曲线，用重叠率绘制误差曲线。除此之外，还有针对多目标图像跟踪的评价指标。在VOT中，目标跟踪的评价指标又多了EOA和EOF图，这篇博客都会介绍。

PCL库使用中遇到的一些问题及解决方法

2020-12-122016-12-02 作者 PengChao

PCL库的各种依赖和冲突让人头大，这里记录了一些PCL使用过程中的问题，长期更新（本次更新时间，2016年12月）。

立体视觉中的内参矩阵、基础矩阵、本质矩阵

2024-06-082016-12-02 作者 PengChao

立体视觉中的矩阵变换比较多。总的来说，内参矩阵 K是针对单相机的，通过焦距和主点位置直接表示了相机坐标系和图像坐标系之间的关系，如果考虑镜头的畸变，还需要有畸变系数，如果图像传感器有倾斜，还需要有倾斜因子。基础矩阵和本质矩阵是针对双目的，其中基础矩阵 F根据左右相机的RT关系，表示了对极线关系，基础矩阵是左右摄像机坐标系之间的关系，求解基础矩阵的核心是求左右相机的RT。本质矩阵 E是图像坐标系下的，结合了基础矩阵和内参矩阵，直接反应左右图像坐标系下对应点像素坐标的关系。

OpenCV进行各种矩阵变换及变换参数求解

2020-12-122016-12-01 作者 PengChao

OpenCV可以处理许多2D、3D的变换矩阵，包括但不局限于2D放射变换矩阵（2×3），二维点对的最优单映射变换矩阵H（3×3），四个二维点对之间的透射变换矩阵（3×3），多对三维点之间的旋转平移矩阵（3×4），计算多个点对之间的基矩阵和位姿变换矩阵等。这篇博客对这些变换函数进行了总结，可以通过该博客给出的名字搜索函数进行查询。