Fast and High Quality Image Denoising via Malleable Convolution阅读笔记

2023-05-16

论文：Fast and High Quality Image Denoising via Malleable Convolution

arXiv：https://arxiv.org/abs/2201.00392

Abstract

大部分的图像降噪网络在整幅图像上使用静态卷积核，由于图像经常由不同的视觉模式组成，因而容易产生次优解。动态卷积根据像素输入调整卷积核参数可以一定程度解决该问题，但随之计算开销也激增。文章提出一种新的卷积结构MalleConv，折中静态卷积核和动态卷积核，可在相对较小的计算开销下生成随空间变化的卷积核。该卷积核由一个预测网络在降采样的输入上得到，既保证过程的高效性，相比静态卷积核又扩大了网络感受野。

Introduction

随着网络深度和宽度的扩展，降噪网络可以获得更丰富的视觉表征和更大的感受野，效果也不断提升。当然这也使得计算开销急剧增加并且难以优化。基于这一限制，大部分网络在全图上采用一组静态卷积核，利用空间上的平移等变性（spatial equivariance）来提升计算效率。由于图像在不同区域存在不同的视觉模式，这一方法无法适应全局多变的特征。

针对这一问题提出了动态卷积，根据输入图像的像素生成动态变化的卷积核参数。但随着输入图像分辨率的增加，对算力的需求急剧增加，应用场景受限。

为兼顾动态卷积和静态卷积的优点，文章提出MalleConv，这一设计的灵感源自于图像的局部平滑性与全局异质性，即在全局范围内，图像会存在诸多不同的视觉模式，但在局部范围，视觉纹理的变化是缓慢的。

相较于逐像素动态卷积核在每个像素点计算响应，MalleConv在一个更大的区域上计算响应。具体而言，MalleConv在下采样的特征图上进行计算，借此降低计算开销。然后通过一种在线的插值将其恢复到输入特征图的大小。这样既保证了生成过程的高效快速，又无需额外的存储开销。

Related Work

介绍图像降噪和动态卷积核相关的工作。

Method

MalleConv使用一个轻量化的预测网络以优化内存消耗和运行时延。首先预测网络将输入特征图 $X \in \mathbb{R}^{H \times W \times C}$ 通过一个 $4\times 4$ 平均池化下采样至 $X^{'} \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C}$ ，再经由一系列ResNet Blocks和最大池化，输出特征图 $Y \in \mathbb{R}^{\frac{H}{8} \times \frac{W}{8} \times C^{'}},C^{'}=K^2 \times C$ ，reshape之后得到卷积核 ${W_{ij} \in \mathbb{R}^{K^2 \times C}}, where \ i \in \{1,2, \cdots,\frac{H}{8}\}, \ j \in \{1,2, \cdots,\frac{W}{8}\}$ ，再使用深度可分离卷积。

将MalleConv应用到全分辨率输入的一种方法是通过双线性插值进行上采样。作者认为这一方式需要大量的预先计算和存储。为解决这一问题，文章引入一种在线的切片操作。对于高分辨率的特征图 $X \in \mathbb{R}^{H\times W\times C}$ 和低分辨率 ${W_{ij} \in \mathbb{R}^{K^2 \times C}}$ 卷积核，通过在线的插值将其恢复至输入特征图的尺寸。

基于上述设计，同时受最近一些金字塔式结构的影响，文章提出了一个快速且高效的降噪网络MalleNet。构建金字塔式输入的方式不是直接下采样，而是采用一种space-to-channel shuffle operations的方法，缩小空间分辨率的同时增加通道数，即从 $B\times C\times H\times W$ 变为 $B\times CK^{2}\times \frac{H}{K}\times \frac{W}{K}$ ，其中 $K$ 为缩放倍率，文中取值为2，该操作进行三次，得到四个尺寸的输入，最小为64倍下采样。每个阶段由若干个Inverted Bottleneck Block组成，这一Block源自Mobilenetv2，先通过卷积提升通道数，后深度可分离卷积提取特征，再卷积恢复通道数。每阶段输出与下一阶段的输入concatenate进行特征融合。

Experiments

既然MalleConv和MalleNet最主要的点在于节约计算资源的同时可以取得更好的效果，那么实验部分也是围绕这两点去展开。

和其他动态卷积核的比较，在以DnCNN为Backbone的情况下，不同深度下时延和PSNR的比较更优秀。

和目前的SOTA比较也有明显的优势。

以及将MalleConv作为一个即插即用的组件的收益。

真实噪声上的表现。

个人总结

文章的点在于将动态卷积核引入降噪领域并改进计算与时延上的不足，主要思路则是每次计算动态卷积核时先下采样做运算，再上采样至原尺寸。深度可分离卷积的大量运用进一步确保参数量的下降。MalleConv还可以作为一个即插即用的组件配合其他backbone使用。实验部分主要围绕效率展开，计算量小速度快，结果提升明显。个人感觉美中不足的是这些都是基于合成噪声，好奇如果在SIDD和DND上这些结果是否依旧有足够的竞争力。但和目前SOTA的网络相比，在实际应用中还是非常具有竞争力的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)