超分之RLSP

2023-05-16

在这里插入图片描述

这篇文章是2019年的ICCVW，其为了视频超分的实时性而只追求速度，放弃了表现力。作者提出了一种高效的VSR模型——Recurrent Latent Space Propagation(RLSP)，其是一种典型的无对齐方法，因此相对于经典VSR那些基于flow或者DCN的模型来说，其相对高效。RLSP的将VSR建模成RNN模型，其核心是Shuffling和Hidden-state。

参考文档：
①源码
②视频超分：RLSP（Efficient Video Super-Resolution through Recurrent Latent Space Propagation）

Efficient Video Super-Resolution through Recurrent Latent Space Propagation

Abstract
1. Introduction
2. Related Work
3. Method
- 3.1 Shuffling
- 3.2 Residual Learning
- 3.3 Feedback
- 3.4 Hidden State
- 3.5 Loss
4. Experimental Setup
5. Results and Discussion
- 5.1 Ablation
- 5.2 Temporal Consistency
- 5.3 Information Flow over Time
- 5.4 Initialization
- 5.5 Accuracy and Runtimes
6. Conclusion

Abstract

RLSP是一种无对齐的VSR方法：无对齐最大的好处就是高效，速度快；缺陷就是表现了不足——PSNR相对于对齐的VSR模型会差一些。
作者给出了3个理由来阐述推出RLSP的必要性：

实时性。无论是显式还是隐式的运动补偿，都会占据一定的计算资源与显存需求，故取消对齐模块可以加快VSR重建的速度以及节省一定的GPU-Memory。
FLow-based对齐方法高度依赖于运动估计的准确性。一旦运动估计不精确则会引入artifacts；无论是Flow-based还是Flow-free的对齐方式都会使用插值运算，则不能避免的损失高频细节。
当数据集中运动幅度不大的时候，相邻帧之间十分相近，不进行对齐影响也不大。

故作者推出了一种基于RNN的VSR模型——RLSP，其将视频超分建模成序列问题(Sequence-to-Sequence)，其有如下特点：

无对齐，速度快，具有实时性，其比当时推出的DUF要快将近70倍！
RLSP的核心就是使用一个高维的( C = 128 C=128 C=128)的隐藏状态 h h h来传播过去的特征信息；以及使用基于ESPCN提出的PixelShuffle来完成上采样的Shuffle_up和Feedback的Shuffle_down。

1. Introduction

复杂的运动补偿往往需要昂贵的计算资源，因此这样的模型并不具备实时性场合，比如游戏超分领域。
RLSP就是针对实时性要求设计的VSR模型。不同于VESPCN、TDAN、Robust-LTD、EDVR这些使用sliding-windows的特征传播方式，RLSP基于循环网络结构，属于单向特征传播的VSR方法，具体传播是通过隐藏状态(Latent-State)来做的。

下图是RLSP、FRVSR、DUF在PSNR-Runtime上的实验结果：
在这里插入图片描述

从上图可以看出RLSP比FRVSR和DUF分别快10倍和70倍左右。
“7-128”表示融合之后使用7层的CNN网络，每一层使用128个滤波器，因此RLSP的表现性能可以通过提升网络的复杂度来实现。

2. Related Work

略

3. Method

对于每一次迭代，RLSP的目标就是将当前帧 x t ∈ R H × W × C x_t\in\mathbb{R}^{H\times W\times C} xt∈RH×W×C超分到 y t ∈ R r H × r W × C y_t\in\mathbb{R}^{rH\times rW\times C} yt∈RrH×rW×C。关于RLSP的pipeline如下图所示，由于RLSP基于RNN结构，故其最重要的部分就是下图紫色框——RLSP-Cell：
在这里插入图片描述
接下来大致描述下RLSP的pipeline(假设每个batch的帧数为10，输入为RGB图像 64 × 64 64\times 64 64×64，超分倍率为 r = 4 r=4 r=4，滤波器个数 f = 128 f=128 f=128)：

RLSP吸取sliding-windows的经验：将前后相邻各1帧和当前帧做通道融合，不同的是直接免去了对齐过程，之所以敢这么做是假设相邻帧相似度高。因此cell的其中一个输入是 R b × 3 × 3 × 64 × 64 \mathbb{R}^{b\times 3\times 3\times 64\times64} Rb×3×3×64×64。
Cell的第二个输入是来自上一帧的超分结果 y t − 1 y_{t-1} yt−1—— R b × 3 × 256 × 256 \mathbb{R}^{b\times 3\times 256\times 256} Rb×3×256×256通过shuffle_down之后的结果—— R b × ( 3 ∗ 4 ∗ 4 ) × 64 × 64 \mathbb{R}^{b\times (3*4*4)\times 64\times 64} Rb×(3∗4∗4)×64×64。
Cell的第三个输入是上一个隐藏状态 h t − 1 h_{t-1} ht−1—— R b × 128 × 64 × 64 \mathbb{R}^{b\times 128\times 64\times 64} Rb×128×64×64。同RNN结构中的细胞一样，隐藏状态的获取也是通过一些全连接层或者卷积层去预测。由于其本身是一个递归循环的过程，故我们直接分析 h t h_t ht的产生。如上图紫色框所示，cell一共有 n = 7 n=7 n=7层，第一层是将三方在通道融合之后进行 ( 3 ∗ 3 + f + 3 ∗ r 2 ) × 128 × ( 3 ∗ 3 ) × 1 × 1 (3*3+f+3*r^2)\times 128\times (3*3) \times 1\times 1 (3∗3+f+3∗r2)×128×(3∗3)×1×1的卷积；接下来5层卷积都是 128 × 128 × ( 3 ∗ 3 ) × 1 × 1 128\times 128\times (3*3)\times 1\times1 128×128×(3∗3)×1×1；第三层卷积为 128 × ( 3 ∗ r 2 + f ) × ( 3 × 3 ) × 1 × 1 128\times (3*r^2+f)\times (3\times 3)\times 1\times 1 128×(3∗r2+f)×(3×3)×1×1，然后从通道为分为2部分，其中一块通过Relu输出 R b × 128 × 64 × 64 \mathbb{R}^{b\times 128\times 64\times 64} Rb×128×64×64—— h t h_t ht，另一块和 x t ∗ x_t^* xt∗相加做残差连接输出 R b × ( 3 ∗ r 2 ) × 64 × 64 \mathbb{R}^{b\times (3*r^2)\times 64\times 64} Rb×(3∗r2)×64×64，其中 x t ∗ x^*_t xt∗是 x t x_t xt复制 r 2 r^2 r2倍之后的结果—— R b × ( 3 ∗ r 2 ) × 64 × 64 \mathbb{R}^{b\times (3*r^2)\times 64\times 64} Rb×(3∗r2)×64×64：
Shuffle-up等效于PixelShuffle的过程；而Shuffle-down是和Shuffle-up相反的过程，类似于Understanding DCN-Alignment in VSR中具备统一性的可变形卷积表达的过程。Feedback处使用了shuffle-down来降采样，shuffle-up则用于 x t → y t x_t\to y_t xt→yt的上采样部分。

Note：

残差连接可以让网络直接去学习残差部分，从而让训练更加稳定；此外直接将 x t x_t xt的信息添加进来来你补CNN造成的信息损失。
RLSP每次只超分1帧。

3.1 Shuffling

Shuffling主要包括shuffle-up来上采样和shuffle-down来降采样。
Shuffle-up的原理就是ESPCN的亚像素卷积层，其并不改变像素，而是将通道上的所有像素copy并进行组合产生：
在这里插入图片描述

Shuffle-up \colorbox{springgreen}{Shuffle-up} Shuffle-up
t L R ∈ R H × W × Z → × r t H R ∈ R r H × r W × Z / r 2 . (1) t^{LR} \in \mathbb{R}^{H\times W\times Z} \;\;\;\mathop{\rightarrow}\limits^{\times r}\;\;\; t^{HR} \in \mathbb{R}^{rH\times rW \times Z/r^2}.\tag{1} tLR∈RH×W×Z→×rtHR∈RrH×rW×Z/r2.(1)源码：

def shuffle_up(x, factor):
    # format: (B, C, H, W)
    b, c, h, w = x.shape

    assert c % factor**2 == 0, "C must be a multiple of " + str(factor**2) + "!"

    n = x.reshape(b, factor, factor, int(c/(factor**2)), h, w)
    n = n.permute(0, 3, 4, 1, 5, 2)
    n = n.reshape(b, int(c/(factor**2)), factor*h, factor*w)

    return n

Shuffle-down \colorbox{orange}{Shuffle-down} Shuffle-down
t H R ∈ R H × W × Z → × r t L R ∈ R H / r × W / r × r 2 Z . (2) t^{HR} \in \mathbb{R}^{H\times W\times Z} \;\;\;\mathop{\rightarrow}\limits^{\times r}\;\;\; t^{LR}\in \mathbb{R}^{H/r \times W/r \times r^2 Z}.\tag{2} tHR∈RH×W×Z→×rtLR∈RH/r×W/r×r2Z.(2)源码：

def shuffle_down(x, factor):
    # format: (B, C, H, W)
    b, c, h, w = x.shape

    assert h % factor == 0 and w % factor == 0, "H and W must be a multiple of " + str(factor) + "!"

    n = x.reshape(b, c, int(h/factor), factor, int(w/factor), factor)
    n = n.permute(0, 3, 5, 1, 2, 4)
    n = n.reshape(b, c*factor**2, int(h/factor), int(w/factor))

    return n

3.2 Residual Learning

就是在Cell中将 x t ∗ x_t^* xt∗和CNN的输出相结合，使得网络去学习残差部分；残差连接除了缓解梯度消失问题以外可以增加一定的稳定性，让残差的学习范围缩小从而减小方差；此外由于CNN会将输入信息进行不可避免地衰减，故将输入直接加进来也有助于保存下来原始输入信息。

3.3 Feedback

Feedback就是将 y t − 1 y_{t-1} yt−1进行shuffle-down地过程，由于相邻帧高度相关，因此将这部分信息融合进来也有助于当前帧 x t x_t xt的超分。

3.4 Hidden State

在这里插入图片描述

和RNN一样，隐藏状态 h t − 1 h_{t-1} ht−1记忆了过去的特征信息，它通过和当前帧信息进行合并来利用过去的特征信息来帮助当前帧的超分过程。在RLSP中，作者使用了7层卷积层来学习hidden-state，最终的输出格式为： R b × f × 64 × 64 , f = 128 \mathbb{R}^{b\times f\times 64\times 64},f=128 Rb×f×64×64,f=128。

3.5 Loss

RLSP的损失函数采用MSE：
L = 1 k ∣ ∣ y ∗ − y ∣ ∣ 2 2 . (3) \mathcal{L} = \frac{1}{k}||y^* - y||^2_2.\tag{3} L=k1∣∣y∗−y∣∣22.(3)

4. Experimental Setup

我在复现的时候相关实验配置如下：

params = {"lr": 10 ** -4,
          "bs": 2,
          "crop size h": 64,
          "crop size w": 64,
          "sequence length": 5,
          "validation sequence length": 20,
          "number of workers": 8,
          "layers": 7,
          "kernel size": 3,
          "filters": 128,
          "state dimension": 128,
          "factor": 4,
          "save interval": 50000,
          "validation interval": 1000,
          "dataset root": "./dataset/",
          "device": torch.device("cuda" if torch.cuda.is_available() else "cpu"),
          }

由于源码部分对数据集没有写清楚，并且源码中对于数据集读取的内容是有问题的，因此我做了2处改动：

使用REDS数据集，数据集的位置如下：
使用PIL.Image.open()来读取图片。

5. Results and Discussion

5.1 Ablation

除了残差连接以外，RLSP还使用了3处tips：

Adding adjacent frames。
Feedback。
Hidden-state。

为了研究上述3个点对RLSP的影响，ablation实验结果如下：
在这里插入图片描述
其中第一项是指所有帧都独立的去处理；第二项是增加相邻帧；第三项是增加feedback—— y t − 1 y_{t-1} yt−1；第四项是增加feedback和隐藏状态 h t − 1 h_{t-1} ht−1。实验结论如下：

上述3个点对于RLSP表现力的提升是有帮助的，但是也依次增加了计算量。

5.2 Temporal Consistency

略

5.3 Information Flow over Time

略

5.4 Initialization

略

5.5 Accuracy and Runtimes

实验在Vid4上验证，测试于vid4的全序列上。
最后统计的平均PSNR是平均于vid4中4个视频序列的结果；统计的runtime是每一帧重建所需要的时间(ms)。
最后恢复的目标是2K的视频序列。

实验结果如下：
在这里插入图片描述
实验结论如下：

RLSP-7-128每一帧的处理时间是38ms，故1s可以处理25帧，这说明了RLSP-7-128达到了25fps的实时性要求。
RLSP-7-128在刚开始阶段的PSNR较低是因为其是单向传播模型，只能利用过去的信息，这意味着刚开始的阶段可利用的信息较少，后面阶段可利用的信息较多，所以如Figure 8所示，自然就会造成前几帧各自的PSNR较低，后期就会上升的现象——即信息利用的不公平性问题，可以通过增加后向分支来解决。
通过增加cell中滤波器的数量来提升RLSP的表现力。

可视化结果如下：
在这里插入图片描述

6. Conclusion

本文提出了一个无对齐的VSR模型——RLSP。其将VSR建模成Seq2Seq问题，从而构建RNN结构来实现视频超分。
RLSP采用①Shuffling；②Residual-Learning；③Feedback；④Hidden-state，共4个tips来实现PSNR的提升。
RLSP最大的特点就是牺牲了较高的PSNR来提升速度，其7-128模型刚好可以实现实时性要求；通过增加Cell的非线性度(提升深度或宽度)来提升RLSP的表现力。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

RLSP

超分之RLSP 的相关文章

Mysql8.0版本忘记密码重置操作

很多同学忘记密码 xff0c 找到很多攻略无效 xff0c 多是因为攻略适用版本老旧 xff0c 此攻略适用于8 0版本 xff01 第一步 xff1a 在命令行输入net stop mysql命令关闭mysql服务 net stop my
C语言---数组排序

1 冒泡排序 xff08 从后往前 xff09 1 比较相邻的元素如果第一个比第二个大 xff0c 就交换他们两个 2 对每一对相邻元素作同样的工作 xff0c 从开始第一对到结尾的最后一对在这一点 xff0c 最后的元素应该会是最大
【笔记】Debian 11 在国内网络环境下安装 Docker 环境

Debian 11 在国内网络环境下安装 Docker 环境配置方法1 安装必要的一些系统工具2 安装GPG证书3 写入软件源信息4 更新并安装Docker CE 具体参考阿里云官方文档以下命令都是在 root 用户下执行配置方法
两个对象List根据属性取交集和差集

背景介绍咸鱼君最近做了个需求 excel导入功能其中需要对已导入条目的做更新未导入的条目做新增其余的做删除细品需求无非是对excel的数据和数据库的数组做个差集交集的处理打个比方 excel的数据我们定义为 newL
【epoll】epoll使用详解（精髓）--研读和修正

目录 epoll 和select epoll的接口如何来使用epoll epoll程序框架伪代码 xff1a 示例代码大致流程实例源码相关知识 Socket的阻塞模式和非阻塞模式如何动态的改变listen监听的个数呢 xff1f
AtCoder从小白到大神的进阶攻略

摘自https www cnblogs com LHYLHY p 11572011 html 在此对作者表示感谢 AtCoder从小白到大神的进阶攻略前言现在全球最大的编程比赛记分网站非CodeForces和AtCoder莫属了 xff
[codeforces 1328B] K-th Beautiful String 研究倒数第二个字母b的位置

Codeforces Round 629 Div 3 比赛人数10967 codeforces 1328B K th Beautiful String 研究倒数第二个字母b的位置总目录详见https blog csdn net mrcra
[codeforces 1352C] K-th Not Divisible by n 周期

Codeforces Round 640 Div 4 参与排名人数9749 终于弄明白账号前的意义 out of competition 也即虽然该用户参加本场比赛但不参与排名 codeforces 1352C K th Not Div
Linux安装、启动、检查、访问、停止Tomcat服务

一去官方下载你需要的tomcat版本 xff08 如果已经下载好了 xff0c 请跳过此步骤 xff09 我这里下载的是tomcat9 0 63 xff0c 下载地址 xff1a 我是tomcat9 0 63下载地址打开页面 xff0c
【三维可视化Qt+OPEN CASCADE-001】傻瓜式配置——可在Qt creator下运行github例程

前言因为一个大项目需要 xff0c 在QT界面利用occ做三维可视化的东西 xff0c 所以需要配置网上的配置攻略不是在VS下用MFC做 xff0c 就是用VS 43 QT的插件 xff0c 也有老哥用Qt Creator做 xff0c
Linux下DVWA的搭建

1 配置CentOS7 1 1 配置yum国内镜像源 span class token function curl span span class token parameter variable o span etc yum repos
git clone 报错：fatal: Unencrypted HTTP is not supported for GitLab. Ensure the repository remote URL i

git版本问题 xff0c 是当前版本过高 xff0c 要求使用https协议 xff0c 需要根据需要安装指定版本遇到这个问题时我的git版本是 xff1a 需要安装指定版本
以太网帧间隙

以太网帧间隙 1 什么是IFG xff1f xff08 What xff09 IFG Interframe Gap 帧间距 xff0c 以太网相邻两帧之间的时间断 xff1b 以太网发送方式是一个帧一个帧发送的 xff0c 帧与帧之间需要间
Debian修改系统默认语言

系统版本 xff1a Debian 10 1 0x64 安装过程中选择了中文作为默认语言 xff0c 即zh CN UTF 8 xff0c 现将系统默认语言改为英文修改方法 xff1a 在Terminal中键入以下命令 xff1a sud
通俗的解释docker

Docker的思想来自于集装箱 xff0c 集装箱解决了什么问题 xff1f 在一艘大船上 xff0c 可以把货物规整的摆放起来并且各种各样的货物被集装箱标准化了 xff0c 集装箱和集装箱之间不会互相影响那么我就不需要专门运送水果的船
Golang-Bcrypt加密

从安全上讲 xff0c 用户密码一般都是要经过加密 xff08 而且不能被解密 xff09 后才存储于数据库中 xff0c 相信现在已经没有什么公司蠢到直接以明文存储密码了吧通常有很多方式可以实现密码加密 xff0c 譬如MD5签名 xf
MySQL 5.7 主从复制

主从复制概念 MySQL 主从复制是指数据可以从一个MySQL数据库服务器主节点复制到一个或多个从节点 MySQL 默认采用异步复制方式 xff0c 这样从节点不用一直访问主服务器来更新自己的数据 xff0c 数据的更新可以在远程连接上进行
VsCode C++ namespace has no member错误

此问题VSCode C 43 43 插件本身bug 在官方未推出相应布丁之前 xff0c 可按照以下步骤避免该问题 xff1a 1 按顺序打开 xff1a 文件首选项设置 2 在右边 xff0c 用户设置窗口添加以下代码 xff1a 3
树莓派4B +远程SSH+远程桌面

一有线SSH连接树莓派我的实验环境是笔记本电脑 43 树莓派4B 具体步骤为 xff1a 1 电脑连接上无线网络 xff0c 将电脑网线连接树莓派 2 打开如下界面 3 双击WLAN gt gt 点击属性 gt gt 再点击共享选择以

随机推荐

springboot整合mybatis-plus代码生成器

import com baomidou mybatisplus generator FastAutoGenerator import com baomidou mybatisplus generator config OutputFile
超分之EDVR

这篇文章是2019年在视频超分领域上的作品 xff0c 由商汤联合实验室出版作者推出的EDVR结合了TDAN中时间可变形对齐网络的优势和Robust LTD中融合注意力机制的优势 xff0c 推出了一种基于金字塔级联可变形对齐网络 PCD
超分之RCAN

这篇文章是2018年的ECCV xff0c 作者主要是为了介绍注意力机制在超分领域的应用以及基于注意力机制的这个SR网络 Residual Channel Attention Networks 后文简称RCAN RCAN是一种基于Resid
超分之TDAN

这篇文章是视频超分 VSR 中flow free的代表作 xff0c 不同于VESPCN中采用flow based xff0c 即光流估计方法来对齐相邻帧的做法 xff0c 本文作者推出的TDAN采用隐式的运动补偿机制 xff0c 利用可变
超分之Robust VSR with Learned Temporal Dynamics

这篇文章是2017年的ICCV 基于经典的VSR框架 xff0c 作者在对齐网络和时间融合超分网络上都做了一定的该进其中对齐网络采用了STN的一个变体 xff1b 对齐后的SR网络使用了结合注意力机制的 xff0c 可自动选择时间尺度的时
超分之RDN

这篇文章提出了一种结合ResNet结构和DenseNet结构的深度超分网络 Residual Dense Network 后文简称RDN RDN基于Residual Dense Block 后文简称RDB 块以及全局残差连接来提取全局特征
【Debian 8.8】Java 8 安装以及环境变量配置

事实上可以分为简单的三个步骤 xff1a 下载 JDK 压缩包解压压缩包配置环境变量需要注意的是 xff1a 所有命令默认在 root 权限下进行 xff01 演示环境是 Debian 8 8 64位 xff08 阿里云学生机 xff09
超分之BasicVSR

这篇文章是2021年的CVPR xff0c 文章作者是和EDVR同一批的人该篇文章提出了一个轻量且高表现性能的视频超分framework BasicVSR BasicVSR改进了传统VSR结构中的propagation和alignment
超分之DRCN

这篇文章是2016年的CVPR xff0c 虽然目前来说在性能和计算效率上并不佳 xff0c 但是在当时来说是一种通过较少模型参数加深网络来提升SR表现力的新方法 Deeply Recursive Convolutional Network
超分之BasicVSR++

这篇文章是BasicVSR的升级版本 colorbox tomato 升级版本升级版本 xff0c 同一批作者将BasicVSR中的Propagation和Alignment部分进行了增强产生了新一点VSR方法 BasicVSR
深度学习之DCN-v2

这篇文章发表在2019的CVPR上 xff0c 是Deformable Convolution Network的进阶版本 DCN v2 xff0c 通过对DCN的两处改进来增加卷积神经网络的适应性与灵活性具体来说 xff0c 通过堆叠多个
论文笔记之Understanding Deformable Alignment in Video Super-Resolution

这篇文章是2021年的AAAI xff0c 和EDVR BasicVSR BasicVSR 43 43 是同一批作者文章最重要的贡献在于用一个统一的数学表达式去归纳flow based对齐如TSTN 和flow free对齐如TDC
超分之VSRT

这篇文章发表于2021年 xff0c 是Transformer在VSR领域的首篇应用作者提出了Video Super Resolution Transformer VSRT 结构 xff0c 其由Spatial temporal Conv
深度学习之ViT

这篇文章的核心是提出了Vision Transformer结构 xff0c 将2017年Attention is All you Need在NLP中引入的Transformer结构应用于计算机视觉任务中 Transformer是一种基于自注
深度学习之COLA-Net

这篇文章是首篇将局部 Local 注意力和全局 Non Local 注意力进行结合来做图像重建的论文文章作者设计了一个将局部注意力机制和全局注意力机制一起协同合作来重建图像的网络模型 Collaborative Attention Net
超分之TTVSR

这篇文章是2022年的CVPR 不同于之前VSR的对齐方式即flow based或者DCN based 本文提出的Trajectory Aware Transformer for Video Super Resolution TTVSR
深度学习之SuperViT

这篇文章是今年发表的一篇Transformer类文章文章作者提出了ViT的增强版 SuperViT 其核心有2个多尺度输入 Token keeping rate机制作者通过一系列实验证明SuperViT可以在计算效率和正确率上实现比S
IOS编程浅析

1 简介IOS是由苹果公司为iPhone iPod touch和iPad等设备开发的操作系统 2 知识点 1 IOS系统 iPhone OS 现在叫iOS 是iPhone iPod touch 和 iPad 设备的操作系统 1 Core O
多层级的SISR算法

下列是多层级的基于Vision Transformer的单图像超分算法小结 xff1a 以下所列文章均转载于博主暖风 xff0c 博客首页链接 xff1a 暖风多层级SISR 1 Swin Transformer2 Swin T for
超分之RLSP

这篇文章是2019年的ICCVW xff0c 其为了视频超分的实时性而只追求速度 xff0c 放弃了表现力作者提出了一种高效的VSR模型 Recurrent Latent Space Propagation RLSP xff0c 其是一种