FILM大运动插帧

两张图片就可以生成一小段视频,效果很不错,可以直接在网站上用demo玩儿一玩儿。

网站和源码:https://film-net.github.io/

Google AI Blog:https://ai.googleblog.com/2022/10/large-motion-frame-interpolation.html

论文:https://arxiv.org/pdf/2202.04901.pdf

首先,看下算法的整体结构,大致为UNet结构,分为三部分

  • 特征提取:对输入的图像金字塔进行特征提取,输出也是特征金字塔,特征金字塔隐含了不同尺度的信息
  • 光流估计:进行金字塔逐层、逐像素的双向光流估计
  • 融合输出:输出插帧最后的输出图像

FILM的训练数据是在三脚架上采集的常规video,进行有监督训练。

特征金字塔产长被用来处理大运动。论文中采用了一些共享权重的方法来减少参数,上图中,同样的颜色,表示实际是共享权重的。最终组合出来的特征参数量并不大。

双向光流估计模块基于特征金字塔进行。首先从最深的金字塔开始估计光流,再往上每一层基于前面层的结果warp图像,每一层估计的是光流残差。

融合部分采用了U-Net decoder 结构

Loss Function, 文章中对比了多种loss,最终采用L1 loss和VGG Loss。

《FILM大运动插帧》有1条评论

  1. 您好,我看您之前有篇博客《聊聊条码与二维码检测算法的优化》,我非常感兴趣,最近也正在做一维条码的识别,能向您请教一下吗?我的qq:274581643

    回复

发表评论