论文速览:Optical Flow Estimation from a Single Motion-blurred Image

AAAI 2021接收论文,使用单帧模糊图像估计光流。论文地址:https://arxiv.org/pdf/2103.02996v1.pdf

论文主要有三个贡献:一是首次实现通过单帧运动模糊图像估计光流和运动,二是从视频序列中生成运动模糊图像和groundtruth来训练网络,三是将结果用于运动模糊去除和运动目标分割。

数据生成

在拍摄视频序列过程中,两帧图像曝光之间都会存在间隔,我们要想通过视频帧合成运动模糊图像,就需要把两帧图像曝光间隔之间这段时间曝光的图像估计出来,这里文档用了Jiang et al. 2018文章中的方法,把中间图像插值出来,和视频插针有些类似。这样我们理论上就可以通过把一段时间内的图像帧求平均的方法来构造运动模糊图像。

这样做有一个好处,就是我们可以用SOA的光流方法估计第一帧和最后一帧之间的光流作为GT来训练我们自己的网络。

网络定义

网络分成三个部分:特征编码,特征解码 和 光流预测。

特征编码使用的是两层CNN,激活函数是ReLU,特征编码的结果是U。特征解码用的是STN,STN输出U,被用来预测全局的变换参数。为了Cover局部运动,在预测完全局变换参数之后,再通过一个RefineBlock来得到V。我们逐层估计,由粗到细,就得道了六个尺度的特征V,作为光流估计结果的输出。

在光流预测阶段,我们把输入特征V通过 cost volume层来计算匹配代价,cost volume就是一个卷积层,FD也是一个卷积层,FD用来处理cost和输入特征,得到光流。

尺度金字塔由下到上的过程中,特征都需要在上采样前warp对齐,之后作用到金字塔上一层,作用的方式是直接concat 特征。图里画了三层尺度,而实际使用的是六层尺度。

网络使用的是 l1 loss,高分辨层权重低,低分辨率层权重高,在paper实现细节李有介绍。

结果和分析

文章主要是定性比较,摆出了自己比较好的几组结果,感觉这里不太有说服力,要是有定量评价就更好了。Paper后面有用文中的网络来去运动模糊,看起来效果还是不错的。

留下评论