CVPR2023

2023-10-31

欢迎关注『CVHub』官方微信公众号!

Title: Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos

PDF: https://arxiv.org/pdf/2303.07224

Code: https://github.com/THU-LYJ-Lab/AR-Seg

导读

视频语义分割(Video Semantic Segmentation, VSS)由于是要对高帧率视频进行逐帧预测,因此是一项计算量很大的任务。最近的研究中,为了实现计算高效的VSS,提出了紧凑型网络架构或自适应网络策略等。然而这些工作都没有考虑到影响计算成本的一个关键因素:输入分辨率。因此,作者提出了一种名为AR-Seg的交替分辨率网络框架用于视频分割,以实现高效的VSSAR-Seg旨在通过对非关键帧使用低分辨率来减少计算成本;同时为了防止因降采而导致的分割性能下降问题,作者设计了一个交叉分辨率特征融合CR-eFF模块,并使用一种新的特征相似性训练FST策略进行监督。 具体来说:CReFF首先利用存储在压缩视频中的运动矢量,将高分辨率关键帧的特征高效融合到低分辨率非关键帧上,以实现更好的空间对齐,并采用局部注意机制有选择地聚合关键帧中的局部特征。此外,提出的FST通过显式相似性损失和共享解码层的隐式约束,对聚合后的特征进行监督。在CamVid和Cityscapes数据集上实验表明:AR-Seg在保持高分割精度的同时,可以节省67%的计算成本

引言

视频语义分割的目标是预测视频序列中每一帧像素的语义标签,而这种视频序列通常是以一定帧率(25fps或更高)记录的连续图像帧的系列。

基于图像的分割方法应用于逐帧视频帧会消耗相当多的计算资源。

为了提高VSS的计算效率,现有的方法主要集中在网络架构的设计上:

  • 一类主流方法是提出了紧凑高效的基于图像的架构来降低每帧的计算开销。
  • 另一类主流方法是将深度模型应用到关键帧上,而浅层网络模型则应用于非关键帧上以避免视频帧的重复计算。

而上述提到现有的两个主流方法忽略了影响视频分割计算成本的一个关键因素:输入分辨率

输入分辨率直接决定计算量,例如2D卷积的计算成本与图像宽度和高度的乘积成正比。一旦我们将输入帧下采样0.5 × 0.5,那么计算开销可直接减少75%。缩小分辨率确实可以极大降低计算开销,但通常也会丧失图像部分信息,并进一步导致分割精度的降低。

考虑到视频分割的特殊性(相邻帧信息通常是强相关的),为此本文提出了利用视频中的时间相关性(相邻帧的相关性)来防止降低分辨率带来的精度下降问题。它的核心思想是:低分辨率帧中缺少的局部特征信息,是可以从稀疏的高分辨率参考帧来获取到的。

图1. 不同VSS方法的网络架构对比

本文提出了一种用于压缩视频的分辨率交替框架网络AR-Seg,以极低的计算量实现了高效的视频分割,如上图1(c)所示。AR-Seg网络使用一个HR分支来处理高分辨率的关键帧,使用一个LR分支来处理低分辨率的非关键帧。为了防止由于下采样(降低分辨率)而引起的分割性能下降问题,作者在LR分支中插入了一个CReFF模块(Cross Resulution Feature Fusion),并使用FST(Feature Similarity Training)策略进行训练,以丰富LR特征中的局部特征等细节信息。

具体而言,CReFF将HR关键帧中的局部特性信息以下面两个步骤高效融合到LR非关键帧中:

  1. 通过使用运动矢量进行特征扭曲来对齐来自不同帧的特征的空间结构,这可以几乎不增加任何成本地从压缩视频中获得。
  2. 使用局部注意机制有选择地将扭曲的特征(可能在扭曲后存在噪声)聚合到LR特征中,由于局部注意机制为邻域中的每个位置分配不同的重要性,因此它是避免被噪声扭曲特征误导的有效方式。

FST训练策略通过显式相似性损失(聚合特征与从非关键帧推断的高分辨率特征之间的相似性损失)和隐式约束,指导CReFF聚合特征的学习,以帮助低分辨率分支从高分辨率分支中学习到可靠且有效的特征。

综上所述,AR-Seg是通过改变输入分辨率显著减少了VSS的计算成本,同时保持了高分割准确性。

实验结果表明,AR-Seg比常规分辨率baseline模型减少了近70%的计算成本,同时保持了高分割精度。因此本文的贡献包括:

  1. 提出了高效的压缩视频语义分割框架AR-Seg
  2. 设计了一种有效的CReFF模块以防止由降采样导致的精度损失
  3. 提出了一种新颖的FST训练策略,指导LR分支从HR分支中学习

相关工作

轻量级语义分割

为了提高图像分割的效率,许多轻量型的网络架构被提出来:DFANet采用轻量级骨干网络降低计算成本,并设计了跨层级聚合来进行特征细化;DFNet利用部分排序剪枝算法搜索分割模型,以在速度和准确度之间获得良好的平衡;ICNet使用级联融合模块,并将部分计算从高分辨率转换到低分辨率;Wang等人设计了超分辨率学习来提高图像分割性能;BiSeNets使用两个流路径分别处理低级细节和高级上下文信息;ESPNet使用高效的空间金字塔加速卷积计算。这些轻量高效的骨干网络降低了单张图像分割的计算负担,并可以有效应用于VSS任务中。

视频语义分割

视频语义分割方法通过将从关键帧提取的深层特征传播到非关键帧来降低计算量。这些方法中,有些直接复用关键帧的分割结果,有些则在邻域内插值分割结果,有些则从非关键帧中提取浅层特征,并通过空间变异卷积将其融合到传播的深层特征中。为了解决视频帧之间的空间错位问题,一些方法利用光流将中间特征从关键帧映射到非关键帧,有些方法还通过全局注意力机制聚合不同时间戳的特征。

压缩域视频分析

近年来,压缩视频格式被广泛应用于计算机视觉任务中。这些方法直接将运动矢量和残差图作为额外的模态,输入到网络中进行视频动作识别和语义分割,这些运动信息还有助于补偿来自不同帧的特征的空间不对齐。在视频分割中,也有几种方法提出了在压缩域中进行高效分割的方法。这些方法降低了VSS的计算成本,但由于非关键帧的特征细化模块能力有限,因此性能会有所降低。

方法

图2. AR-Seg网络架构

AR-Seg中,仅处理一些关键帧以保留细节,并将其他非关键帧处理为低分辨率以降低计算成本。AR-Seg框架包括两个分支:HR分支和LR分支。HR分支用于关键帧,LR分支用于非关键帧。两个分支共享相同的骨干网络结构,但针对不同的分辨率进行训练。在LR分支骨干网络的最终卷积前,加入了一个CReFF模块,以聚合HR特征,并预测低分辨率的非关键帧。

为了识别关键帧,我们利用了编码在压缩视频中的图像组GOP中的帧结构。GOP包含三种类型的连续L帧:I帧、P帧和B帧。I帧采用内部编码模式进行编码,而P帧和B帧采用互动编码模式进行编码,并为运动补偿计算运动矢量。在每个GOP中,我们将第一帧I帧视为关键帧,并以高分辨率进行处理。GOP中其余的L-1帧是非关键帧,以低分辨率进行处理。

CReFF: Cross Resolution Feature Fusion

如上图2所示,AR-Seg的HR分支从I帧中提取特征 F I ∈ R C × H × W F_I \in R^{C \times H \times W} FIRC×H×W,LR分支从P帧中提取特征 f P ∈ R C × h × w f_P \in R^{C \times h \times w} fPRC×h×w。虽然P帧以低分辨率处理,但CReFF F I F_I FI M P M_P MP f P f_P fP作为输入,生成聚合特征 F P ~ \tilde{F_P} FP~,其中 M P ∈ R 2 × H × W M_P \in R^{2 \times H \times W} MPR2×H×W表示P帧到I帧的MV。 M P M_P MP的两个通道对应于运动矢量的x和y维,分别表示为 c x c_x cx c y c_y cy。在CReFF模块内,基于MV的特征变形操作 W M V W_{MV} WMV首先将 F I F_I FI向P帧的空间布局进行变形,可以将其公式化为逐像素移位。

其中$ \hat{F_I} \in R^{C \times H \times W}$ 表示经过变形后的高分辨率特征,将进一步融合到低分辨率特征中。

总之,CReFF模块首先从I帧中提取的特征信息对齐到P帧,然后根据 Q P Q_P QP K I K_I KI之间的像素相似性聚合到LR分支中。

FST: Feature Similarity Training

FST训练策略用于有效地训练CReFF模块。FST的核心思想是利用P帧的高分辨率特征 F P F_P FP(从HR分支提取)来引导学习LR分支中聚合特征 F P F_P FP的训练。因为 F P F_P FP包含足够的细节信息来产生高质量的分割结果,CReFF可以在FST的监督下学习如何将 F P F_P FP F I F_I FI聚合成有效的高分辨率特征。FST通过以下方式明确和隐式地监督LR分支的训练过程。

其中显式约束是使用特征相似性损失函数 L f s L_{fs} Lfs 作者使用均方误差(MSE)来衡量 F P ~ \tilde{F_P} FP~ F P F_P FP之间的差异(衡量了两个特征向量之间的距离),这相当于对低分辨率模型进行了额外的正则化:当距离较小时,说明两者相似度较高,因此可以将MSE作为一种度量相似性的方式,用于监督训练低分辨率模型。这种显式约束的作用是帮助低分辨率模型更好地学习从高分辨率模型中汇聚的信息,并提高分割结果的质量。

而隐式约束是 F P ~ \tilde{F_P} FP~ F P F_P FP的共享解码层。 在训练于HR图像上的分割主干模型中,最后的卷积层充当分割解码器,包含有关高质量HR特征的深层语义信息。为了利用这种信息,我们直接将HR分支的最后一个1×1卷积层传递到具有固定参数的LR分支中。由于这些参数是在HR特征上训练的,因此当 F P ~ \tilde{F_P} FP~更接近HR特征 F P F_P FP时,它们会产生更好的分割结果 S P S_P SP

总之,通过明确和隐式的约束,FST有效地将HR特征的知识从HR分支传递到LR分支,实现基于CReFF的聚合特征的高质量分割。 上图2展示了LR分支的总体训练策略。HR I帧提供FI特征,用于在CReFF中进行特征融合,HR P帧提供FP特征,用于FST的显式监督。使用总损失L通过反向传播训练LR分支的参数,其中HR分支和共享的最后卷积层的参数是固定的。

实验结果

与基于图像的方法在CamVid测试集和Cityscapes验证集上的比较

与CamVid测试集和Cityscapes验证集上基于视频的方法的比较

::: block-1

在CamVid和Cityscapes数据集上使用d=11的AR0.5-PSP18模型进行语义分割的结果。可以看到,相比于以0.5倍分辨率工作的常数分辨率PSPNet18,AR0.5-PSP18预测了更多的语义细节。与1.0倍分辨率基线相比,AR0.5-PSP18生成了类似的分割结果,但只消耗了33.0%的计算成本(以GFLOPs为单位测量)。
:::

在CamVid数据集上进行了PSPNet18的消融实验

::: block-1

(a) 展示了在不同LR分辨率下AR-Seg的性能。(b) 展示了在与关键帧的不同距离下,带注释帧的mIoUd(与关键帧之间的距离)。当d从1变化到L-1时,mIoUd的值区间在(a)中表示为彩色条。
:::

::: block-1

展示了AR-Seg在使用不同编解码器压缩的视频上的表现,可以发现,AR-Seg的准确度与其以图像为基础的分辨率恒定的对应方法相当,甚至更好。
:::

AR-PSP18在720x960的CamVid和1024x2048的Cityscapes数据集上的运行时间

结论

本文提出了一种针对压缩视频语义分割的分辨率交替框架AR-Seg,从输入分辨率的角度创新性地提高了视频分割的效率。通过共同考虑体系结构设计和训练策略,提出的CReFF模块和FST策略有效地防止了降采样引起的精度损失。在两个广泛使用的数据集上评估的结果表明,AR-Seg在减少高达67%的计算成本的同时可以实现有竞争力的分割精度。 本研究目前仅使用两个交替分辨率(即HR和LR)。未来的工作将考虑应用更复杂的多分辨率和关键帧间隔调度,以进一步提高VSS性能。


如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号: cv_huber,备注"CSDN",加入 CVHub 官方学术&技术交流群,一起探讨更多有趣的话题!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2023 的相关文章

随机推荐

  • 优先使用组合而不使用继承

    Java是一个面向对象的语言 封装 继承 多态是面向对象的三个特征 不管是学习还是工作的时候可能在需要复用的情况下 第一个想到的词汇就是 继承 但是其实在设计模式中 发现组合是一种很好复用方式 它适用于大部分我们需要复用的情况 所以优先使用
  • MySQL列的默认值(default)的研究

    文章目录 写作背景 版本说明 官方文档中的说明 显式默认值 隐式默认值 数据类型的默认值 sql mode与strict mode 查看sql mode 设置sql mode 测试 总结 文章开始之前先思考一下 假设MySQL中有一张如下的
  • java的执行顺序

    1 讲解用到的代码 public class Fu static int a 3 static System out println a System out println 父类静态代码块被执行 public Fu System out
  • java冒泡排序_使用Java数组实现冒泡排序法

    大数据和人工智能交流 头条号向广大初学者新增C Java Python Scala javascript 等目前流行的计算机 大数据编程语言 希望大家以后关注本头条号更多的内容 冒泡排序算法详解 一 算法的设计思想 就是将第一个记录的关键字
  • mapperscan扫描多个包_SpringBoot和Mybatis配置多数据源连接多个数据库

    SpringBoot和Mybatis配置多数据源连接多个数据库 目前业界操作数据库的框架一般是 Mybatis 但在很多业务场景下 我们需要在一个工程里配置多个数据源来实现业务逻辑 在SpringBoot中也可以实现多数据源并配合Mybat
  • Android Log日志系统

    目录 0 前言 1 Native的Log写过程解析 2 Socket的另一端Logd 0 前言 Android中 logd 详解 私房菜的博客 CSDN博客 logd 里面讲了Java层Logd的框架和代码和Native的一些代码 1 Na
  • 小程序如何实现即时通信?几个方法可参考

    小程序可以通过以下方式实现即时通信 WebSocket 小程序可以使用WebSocket协议与服务器进行实时通信 WebSocket是一种基于TCP协议的全双工通信协议 可以实现服务器主动向客户端推送消息 实时数据库 小程序可以使用实时数据
  • openEuler 华为欧拉系统搭建本地yum和内网yum源

    操作系统版本 openEuler 22 03 LTS 完整版本系统镜像下载地址 https repo openeuler org openEuler 22 03 LTS ISO x86 64 openEuler 22 03 LTS ever
  • mybatis plus 报错 Invalid bound statement (not found)

    报错提示 Invalid bound statement not found 原因 使用mybatis plus时不能使用自带的SqlSessionFactory 要使用MybatisSqlSessionFactory MybatisSql
  • select下拉框option的样式修改

    select原样式 进行样式修改后的样式 附上修改代码 select外面必须包裹一个div 用来覆盖select原有的样式 div class option div
  • Qt Creator实用快捷键

    Qt Creator 实用快捷键 Qt Creator实用快捷键 快捷键 功能 在头文件函数声明处按Alt Enter 在对应的CPP文件中 生成函数的实现
  • jeeplus多商户商城,分销商城

    ZSCAT springcloud 多商户商城 下载 https gitee com catshen zscat sw pc h5 小程序 app uniapp集成 分销商城 积分商城 不用写xml配置 独特的日志记录方式 包含用户角色 权
  • 刷题日志

    1 两数之和 基于数组的散列 给定一个整数组nums和一个目标值target 请你在该数组中找出和目标之中那两个整数 并返回他们的数组下标 你可以假设每种输入只会对应一个答案 但是 数组中同一个元素不能使用两遍 示例 给定 nums 2 7
  • 【蓝桥杯历年真题合集】蓝桥杯2022初赛

    个人主页 程序猿追 系列专栏 算法合集 目前状态 创建Java学习之路 零基础到就业实战 系列 目前更新到JAVAWEB开发 作者简介 大家好 我是程序猿追 全栈领域新星创作者 算法爱好者 常在作者周榜排名前30 某不知名的 ACMer 推
  • TCP封装

    大家好呀 我是请假君 今天又来和大家一起学习数通了 今天要分享的知识是TCP的封装 TCP段的头格式如上图所示 其协议头最少20个字节 其中主要字段如下 1 源端口 Source Port 16位的源端口字段包含初始化通信的端口号 源端口和
  • 如何用Python欢度六一?

    今天是六一儿童节 虽然秃头程序员没有头发 但是童心还是一直都在的 给大家分享一个私藏的GitHub项目 free python games 一行代码就能进入使用Python开发的小游戏快乐玩耍 安装与使用 安装当然也很简单一行代码就可以 由
  • 剑指 Offer 14- I. 剪绳子&&剑指 Offer 14- II. 剪绳子 II(动态规划+贪心算法)

    剑指 Offer 14 I 剪绳子 题目描述 剑指Offer 66 剪绳子 给你一根长度为 n 的绳子 请把绳子剪成整数长度的 m 段 m n都是整数 n gt 1并且m gt 1 每段绳子的长度记为 k 0 k 1 k m 1 请问 k
  • 哈夫曼树(Huffman Tree)学习总结

    定义 将所要编码的字符作为叶子结点的树为哈夫曼树 作用 解决编码问题 模板 priority queue
  • UmiJS实战

    一 配置项 hash 配置是否让生成的文件包含 hash 后缀 通常用于增量发布和避免浏览器加载缓存 hash true base 设置路由前缀 通常用于部署到非根目录 base dengta publicPath 打包的时候 webpac
  • CVPR2023

    欢迎关注 CVHub 官方微信公众号 Title Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos PDF https arxiv o