两张图片就可以生成一小段视频,效果很不错,可以直接在网站上用demo玩儿一玩儿。
网站和源码:https://film-net.github.io/
Google AI Blog:https://ai.googleblog.com/2022/10/large-motion-frame-interpolation.html
论文:https://arxiv.org/pdf/2202.04901.pdf
首先,看下算法的整体结构,大致为UNet结构,分为三部分
- 特征提取:对输入的图像金字塔进行特征提取,输出也是特征金字塔,特征金字塔隐含了不同尺度的信息
- 光流估计:进行金字塔逐层、逐像素的双向光流估计
- 融合输出:输出插帧最后的输出图像
FILM的训练数据是在三脚架上采集的常规video,进行有监督训练。
特征金字塔产长被用来处理大运动。论文中采用了一些共享权重的方法来减少参数,上图中,同样的颜色,表示实际是共享权重的。最终组合出来的特征参数量并不大。
双向光流估计模块基于特征金字塔进行。首先从最深的金字塔开始估计光流,再往上每一层基于前面层的结果warp图像,每一层估计的是光流残差。
融合部分采用了U-Net decoder 结构
Loss Function, 文章中对比了多种loss,最终采用L1 loss和VGG Loss。
您好,我看您之前有篇博客《聊聊条码与二维码检测算法的优化》,我非常感兴趣,最近也正在做一维条码的识别,能向您请教一下吗?我的qq:274581643