CVPR2023

2023-10-31

Title: Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos

PDF: https://arxiv.org/pdf/2303.07224

Code: https://github.com/THU-LYJ-Lab/AR-Seg

导读

视频语义分割（Video Semantic Segmentation, VSS）由于是要对高帧率视频进行逐帧预测，因此是一项计算量很大的任务。最近的研究中，为了实现计算高效的VSS，提出了紧凑型网络架构或自适应网络策略等。然而这些工作都没有考虑到影响计算成本的一个关键因素：输入分辨率。因此，作者提出了一种名为AR-Seg的交替分辨率网络框架用于视频分割，以实现高效的VSS。AR-Seg旨在通过对非关键帧使用低分辨率来减少计算成本；同时为了防止因降采而导致的分割性能下降问题，作者设计了一个交叉分辨率特征融合CR-eFF模块，并使用一种新的特征相似性训练FST策略进行监督。具体来说：CReFF首先利用存储在压缩视频中的运动矢量，将高分辨率关键帧的特征高效融合到低分辨率非关键帧上，以实现更好的空间对齐，并采用局部注意机制有选择地聚合关键帧中的局部特征。此外，提出的FST通过显式相似性损失和共享解码层的隐式约束，对聚合后的特征进行监督。在CamVid和Cityscapes数据集上实验表明：AR-Seg在保持高分割精度的同时，可以节省67%的计算成本

引言

视频语义分割的目标是预测视频序列中每一帧像素的语义标签，而这种视频序列通常是以一定帧率（25fps或更高）记录的连续图像帧的系列。

基于图像的分割方法应用于逐帧视频帧会消耗相当多的计算资源。

为了提高VSS的计算效率，现有的方法主要集中在网络架构的设计上：

一类主流方法是提出了紧凑高效的基于图像的架构来降低每帧的计算开销。
另一类主流方法是将深度模型应用到关键帧上，而浅层网络模型则应用于非关键帧上以避免视频帧的重复计算。

而上述提到现有的两个主流方法忽略了影响视频分割计算成本的一个关键因素：输入分辨率

输入分辨率直接决定计算量，例如2D卷积的计算成本与图像宽度和高度的乘积成正比。一旦我们将输入帧下采样0.5 × 0.5，那么计算开销可直接减少75%。缩小分辨率确实可以极大降低计算开销，但通常也会丧失图像部分信息，并进一步导致分割精度的降低。

考虑到视频分割的特殊性（相邻帧信息通常是强相关的），为此本文提出了利用视频中的时间相关性（相邻帧的相关性）来防止降低分辨率带来的精度下降问题。它的核心思想是：低分辨率帧中缺少的局部特征信息，是可以从稀疏的高分辨率参考帧来获取到的。

图1. 不同VSS方法的网络架构对比

本文提出了一种用于压缩视频的分辨率交替框架网络AR-Seg，以极低的计算量实现了高效的视频分割，如上图1（c）所示。AR-Seg网络使用一个HR分支来处理高分辨率的关键帧，使用一个LR分支来处理低分辨率的非关键帧。为了防止由于下采样（降低分辨率）而引起的分割性能下降问题，作者在LR分支中插入了一个CReFF模块（Cross Resulution Feature Fusion），并使用FST（Feature Similarity Training）策略进行训练，以丰富LR特征中的局部特征等细节信息。

具体而言，CReFF将HR关键帧中的局部特性信息以下面两个步骤高效融合到LR非关键帧中：

通过使用运动矢量进行特征扭曲来对齐来自不同帧的特征的空间结构，这可以几乎不增加任何成本地从压缩视频中获得。
使用局部注意机制有选择地将扭曲的特征（可能在扭曲后存在噪声）聚合到LR特征中，由于局部注意机制为邻域中的每个位置分配不同的重要性，因此它是避免被噪声扭曲特征误导的有效方式。

而FST训练策略通过显式相似性损失（聚合特征与从非关键帧推断的高分辨率特征之间的相似性损失）和隐式约束，指导CReFF聚合特征的学习，以帮助低分辨率分支从高分辨率分支中学习到可靠且有效的特征。

综上所述，AR-Seg是通过改变输入分辨率显著减少了VSS的计算成本，同时保持了高分割准确性。

实验结果表明，AR-Seg比常规分辨率baseline模型减少了近70%的计算成本，同时保持了高分割精度。因此本文的贡献包括：

提出了高效的压缩视频语义分割框架AR-Seg
设计了一种有效的CReFF模块以防止由降采样导致的精度损失
提出了一种新颖的FST训练策略，指导LR分支从HR分支中学习

方法

图2. AR-Seg网络架构

在AR-Seg中，仅处理一些关键帧以保留细节，并将其他非关键帧处理为低分辨率以降低计算成本。AR-Seg框架包括两个分支：HR分支和LR分支。HR分支用于关键帧，LR分支用于非关键帧。两个分支共享相同的骨干网络结构，但针对不同的分辨率进行训练。在LR分支骨干网络的最终卷积前，加入了一个CReFF模块，以聚合HR特征，并预测低分辨率的非关键帧。

为了识别关键帧，我们利用了编码在压缩视频中的图像组GOP中的帧结构。GOP包含三种类型的连续L帧：I帧、P帧和B帧。I帧采用内部编码模式进行编码，而P帧和B帧采用互动编码模式进行编码，并为运动补偿计算运动矢量。在每个GOP中，我们将第一帧I帧视为关键帧，并以高分辨率进行处理。GOP中其余的L-1帧是非关键帧，以低分辨率进行处理。

CReFF: Cross Resolution Feature Fusion

如上图2所示，AR-Seg的HR分支从I帧中提取特征 F I ∈ R C × H × W F_I \in R^{C \times H \times W} FI∈RC×H×W，LR分支从P帧中提取特征 f P ∈ R C × h × w f_P \in R^{C \times h \times w} fP∈RC×h×w。虽然P帧以低分辨率处理，但CReFF将 F I F_I FI、 M P M_P MP和 f P f_P fP作为输入，生成聚合特征 F P ~ \tilde{F_P} FP~，其中 M P ∈ R 2 × H × W M_P \in R^{2 \times H \times W} MP∈R2×H×W表示P帧到I帧的MV。 M P M_P MP的两个通道对应于运动矢量的x和y维，分别表示为 c x c_x cx和 c y c_y cy。在CReFF模块内，基于MV的特征变形操作 W M V W_{MV} WMV首先将 F I F_I FI向P帧的空间布局进行变形，可以将其公式化为逐像素移位。

其中$ \hat{F_I} \in R^{C \times H \times W}$ 表示经过变形后的高分辨率特征，将进一步融合到低分辨率特征中。

总之，CReFF模块首先从I帧中提取的特征信息对齐到P帧，然后根据 Q P Q_P QP和 K I K_I KI之间的像素相似性聚合到LR分支中。

FST: Feature Similarity Training

FST训练策略用于有效地训练CReFF模块。FST的核心思想是利用P帧的高分辨率特征 F P F_P FP（从HR分支提取）来引导学习LR分支中聚合特征 F P F_P FP的训练。因为 F P F_P FP包含足够的细节信息来产生高质量的分割结果，CReFF可以在FST的监督下学习如何将 F P F_P FP和 F I F_I FI聚合成有效的高分辨率特征。FST通过以下方式明确和隐式地监督LR分支的训练过程。

其中显式约束是使用特征相似性损失函数 L f s L_{fs} Lfs。作者使用均方误差（MSE）来衡量 F P ~ \tilde{F_P} FP~和 F P F_P FP之间的差异（衡量了两个特征向量之间的距离），这相当于对低分辨率模型进行了额外的正则化：当距离较小时，说明两者相似度较高，因此可以将MSE作为一种度量相似性的方式，用于监督训练低分辨率模型。这种显式约束的作用是帮助低分辨率模型更好地学习从高分辨率模型中汇聚的信息，并提高分割结果的质量。

而隐式约束是 F P ~ \tilde{F_P} FP~和 F P F_P FP的共享解码层。在训练于HR图像上的分割主干模型中，最后的卷积层充当分割解码器，包含有关高质量HR特征的深层语义信息。为了利用这种信息，我们直接将HR分支的最后一个1×1卷积层传递到具有固定参数的LR分支中。由于这些参数是在HR特征上训练的，因此当 F P ~ \tilde{F_P} FP~更接近HR特征 F P F_P FP时，它们会产生更好的分割结果 S P S_P SP。

总之，通过明确和隐式的约束，FST有效地将HR特征的知识从HR分支传递到LR分支，实现基于CReFF的聚合特征的高质量分割。 上图2展示了LR分支的总体训练策略。HR I帧提供FI特征，用于在CReFF中进行特征融合，HR P帧提供FP特征，用于FST的显式监督。使用总损失L通过反向传播训练LR分支的参数，其中HR分支和共享的最后卷积层的参数是固定的。

实验结果

与基于图像的方法在CamVid测试集和Cityscapes验证集上的比较

与CamVid测试集和Cityscapes验证集上基于视频的方法的比较

::: block-1

在CamVid和Cityscapes数据集上使用d=11的AR0.5-PSP18模型进行语义分割的结果。可以看到，相比于以0.5倍分辨率工作的常数分辨率PSPNet18，AR0.5-PSP18预测了更多的语义细节。与1.0倍分辨率基线相比，AR0.5-PSP18生成了类似的分割结果，但只消耗了33.0%的计算成本（以GFLOPs为单位测量）。
:::

在CamVid数据集上进行了PSPNet18的消融实验

::: block-1

(a) 展示了在不同LR分辨率下AR-Seg的性能。(b) 展示了在与关键帧的不同距离下，带注释帧的mIoUd（与关键帧之间的距离）。当d从1变化到L-1时，mIoUd的值区间在(a)中表示为彩色条。
:::

::: block-1

展示了AR-Seg在使用不同编解码器压缩的视频上的表现，可以发现，AR-Seg的准确度与其以图像为基础的分辨率恒定的对应方法相当，甚至更好。
:::

AR-PSP18在720x960的CamVid和1024x2048的Cityscapes数据集上的运行时间

结论

本文提出了一种针对压缩视频语义分割的分辨率交替框架AR-Seg，从输入分辨率的角度创新性地提高了视频分割的效率。通过共同考虑体系结构设计和训练策略，提出的CReFF模块和FST策略有效地防止了降采样引起的精度损失。在两个广泛使用的数据集上评估的结果表明，AR-Seg在减少高达67％的计算成本的同时可以实现有竞争力的分割精度。 本研究目前仅使用两个交替分辨率（即HR和LR）。未来的工作将考虑应用更复杂的多分辨率和关键帧间隔调度，以进一步提高VSS性能。

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！欢迎添加小编微信号: cv_huber，备注"CSDN"，加入 CVHub 官方学术&技术交流群，一起探讨更多有趣的话题！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分类识别检测分割

音视频

CVPR2023 的相关文章

音视频开发基础概述 - PCM、YUV、H264、常用软件介绍

前言相对而言音视频开发算是有些门槛的记得我第一次接触的时候看别人的博客都看不懂特别是写代码的时候非常痛苦只能抄别人的代码却不知道为什么要这么写也不知道应该怎么调整后来总结了一下痛苦的原因是在写代码之前没有掌握相关的基础
【NodeJs】使用ffmpeg将视频webm转换为mp4

使用Chrome浏览器录制视频文件是webm格式但是很多媒体播放器是不支持的不利于分享需要转换为mp4格式才行接下来给大家讲 ffmpeg ffmpeg是什么呢一个免费开源的视频转换工具一款音视频编解码工具一组音视频编解码开发
node调用ffmpeg转流

ffmpeg始终是音视频领域绕不过去的一个坎也是一个特别好的工具虽然再node库里面有根据ffmpeg编译的库比如 libav js和fluent ffmpeg之类但是调用原生的ffmpeg应用也是一种方法这边先上代码再详解 H2
opencv+nvcodec实现视频硬解码

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录系统配置前言一 NVCODEC是什么二 OpenCV编译 1 安装Driver CUDA 2 编译OpenCV 总结系统配置操作系统 Ubuntu18 0
基于MediaPlayer实现视频播放

一概述一个简单的视频播放器满足一般的需求使用原生的 MediaPlayer 和 TextureView来实现功能点获取视频的首帧进行展示网络视频的首帧会缓存视频播放本地视频或者网络视频感知生命周期页面不可见自动暂停播放
windows下使用FFmpeg生成PCM音频文件并播放（通过命令的方式）

一 PCM文件的定义 PCM文件模拟音频信号经模数转换 A D变换直接形成的二进制序列该文件没有附加的文件头和文件结束标志 Windows的Convert工具能够把PCM音频格式的文件转换成Microsoft的WAV格式的文件将音频
2021年11月6日-11月12日(ogre抄写+ue4视频，本周35小时，共1035小时，剩8965小时。）

这周还不错不但完成了本周学习任务还完成了本月学习任务方法就是拼命抄源码抄到吐时就再看看Ue4视频教程内外兼修可以在未来的日子里这么进行每天5小时学习还是进入状态的 5 7 35小时共1035小时剩8965小时另外去
Mac下编译WebRTC（Mac和iOS版本）

前言随着新冠疫情的影响这两年音视频的需求呈爆发式增长在音视频领域中 WebRTC可以说是一个绕不开宝库包括了音视频采集编解码传输渲染的全过程本文主要记录下在Mac平台上编译WebRTC Mac和iOS版本的全过程设置代理
音视频学习笔记（雷神）—技术解析

音视频技术解析封装技术视频压缩编解码音频压缩编解码这是技术层流媒体传输协议这是网络层视频播放器解析解协议从视频播放器的角度做解析拿到传输而来的视频数据后首先要解协议传输协议自然的本地视频经过硬盘传输数据自然没有解协
public static void main(String[] args) { //填入通过分享获取到的抖音视频地址 String videoUrl = getVid...

这段代码的作用是从抖音 douyin 分享链接中获取视频的无水印播放地址首先它通过调用 HttpRequest get url 方法获取抖音视频的分享页面的 HTML 源代码然后通过调用 sub 方法并传入 HTML 源代码开始字
uniapp使用uni.createInnerAudioContext()播放指定音频并且切换

uniapp使用uni createInnerAudioContext播放指定音频并且切换注意效果图主要代码放上所有的代码注意 uniapp API 中 uni createInnerAudioContext 是无法多音频播放的
SDL无法打开音频设备的问题：Couldn‘t open audio/video device: No available audio/video device

解决中标麒麟下SDL无法打开音频设备的问题 root登录首先就是一定要用root登录这个可能是权限问题否则后面实验不能成功安装ALSA库首先下载alsa lib https www alsa project org main in
STM32之音频数据的Flash读取与DAC播放

文章目录一 STM32103之内部Flash原理 1 Flash介绍 2 Flash的组成 3 STM32内部框架图二 SD卡的读写 1 实验过程 2 查看hello txt 3 从SD卡里读出数据三 Flash地址空间的数据读取 1
uniapp 上传音频（H5可以App不行），并播放后端返回的音频

1 上传 record let this this uni chooseFile count 1 默认100 extension m4a mp3 根据文件拓展名过滤每一项都不能是空字符串默认不过滤 success function re
(十)老照片修复、图像超分、图片提高分辨率、图片高清化、图片清晰化、黑白图片上色、人脸祛斑、美颜、人体瘦身、图像去噪、人像抠图、批量处理、视频提高分辨率、视频逐帧修复

十老照片修复图像超分图片提高分辨率图片高清化图片清晰化黑白图片上色人脸祛斑美颜人体瘦身图像去噪人像抠图批量处理视频提高分辨率视频逐帧修复本文的代码的功能是可以对图片文件视频批量增强清晰度对老照片进行修复
音视频的功耗优化

前言在应用中录制与音视频模块往往是高耗能的模块设备容易发热影响体验什么是功耗优化手机有多个耗电模块 SOC CPU GPU DDR Display Audio Video Camera WIFI 等通过参数配置优化代码优化等
软件测试/人工智能丨计算机视觉场景中，如何处理视频/图片数据并进行测试

在计算机视觉中处理视频和图片数据并进行测试是一个关键的任务以下是一些常见的步骤和方法处理图片数据数据加载使用图像处理库例如OpenCV PIL 加载图像数据将图像转换为模型所需的格式通常是矩阵预处理标准化图像将图像像素
【音视频 | AAC】AAC音频编码详解

博客主页 https blog csdn net wkd 007 博客内容嵌入式开发 Linux C语言 C 数据结构音视频本文内容介绍AAC音频编码金句分享你不能选择最好的但最好的会来选择你泰戈尔本文未经允许不得转发
电动车低速提示音系统(AVAS)

随着电动汽车的迅速发展以及电动汽车的保有量也越来越多根据车辆的特征来说电动汽车相比于传统的内燃机汽车要安静为了保护行人减少事故的发生欧盟最近发布了一项关于电动车的新法规自2019年7月1日开始欧盟关于电动汽车的最新法律正式生效
实用软件分享，打工人必备～

在这个数字化时代各种实用软件已经成为我们生活中不可或缺的工具它们可以帮助我们更高效地完成工作提高生活质量节省时间和精力本文将为您介绍几款实用的软件让您的工作和生活更加便捷一视频下载工具犀牛下载器一款免安装的在线视频下载工

随机推荐

优先使用组合而不使用继承

Java是一个面向对象的语言封装继承多态是面向对象的三个特征不管是学习还是工作的时候可能在需要复用的情况下第一个想到的词汇就是继承但是其实在设计模式中发现组合是一种很好复用方式它适用于大部分我们需要复用的情况所以优先使用
MySQL列的默认值(default)的研究

文章目录写作背景版本说明官方文档中的说明显式默认值隐式默认值数据类型的默认值 sql mode与strict mode 查看sql mode 设置sql mode 测试总结文章开始之前先思考一下假设MySQL中有一张如下的
java的执行顺序

1 讲解用到的代码 public class Fu static int a 3 static System out println a System out println 父类静态代码块被执行 public Fu System out
java冒泡排序_使用Java数组实现冒泡排序法

大数据和人工智能交流头条号向广大初学者新增C Java Python Scala javascript 等目前流行的计算机大数据编程语言希望大家以后关注本头条号更多的内容冒泡排序算法详解一算法的设计思想就是将第一个记录的关键字
mapperscan扫描多个包_SpringBoot和Mybatis配置多数据源连接多个数据库

SpringBoot和Mybatis配置多数据源连接多个数据库目前业界操作数据库的框架一般是 Mybatis 但在很多业务场景下我们需要在一个工程里配置多个数据源来实现业务逻辑在SpringBoot中也可以实现多数据源并配合Mybat
Android Log日志系统

目录 0 前言 1 Native的Log写过程解析 2 Socket的另一端Logd 0 前言 Android中 logd 详解私房菜的博客 CSDN博客 logd 里面讲了Java层Logd的框架和代码和Native的一些代码 1 Na
小程序如何实现即时通信？几个方法可参考

小程序可以通过以下方式实现即时通信 WebSocket 小程序可以使用WebSocket协议与服务器进行实时通信 WebSocket是一种基于TCP协议的全双工通信协议可以实现服务器主动向客户端推送消息实时数据库小程序可以使用实时数据
openEuler 华为欧拉系统搭建本地yum和内网yum源

操作系统版本 openEuler 22 03 LTS 完整版本系统镜像下载地址 https repo openeuler org openEuler 22 03 LTS ISO x86 64 openEuler 22 03 LTS ever
mybatis plus 报错 Invalid bound statement (not found)

报错提示 Invalid bound statement not found 原因使用mybatis plus时不能使用自带的SqlSessionFactory 要使用MybatisSqlSessionFactory MybatisSql
select下拉框option的样式修改

select原样式进行样式修改后的样式附上修改代码 select外面必须包裹一个div 用来覆盖select原有的样式 div class option div
Qt Creator实用快捷键

Qt Creator 实用快捷键 Qt Creator实用快捷键快捷键功能在头文件函数声明处按Alt Enter 在对应的CPP文件中生成函数的实现
jeeplus多商户商城，分销商城

ZSCAT springcloud 多商户商城下载 https gitee com catshen zscat sw pc h5 小程序 app uniapp集成分销商城积分商城不用写xml配置独特的日志记录方式包含用户角色权
刷题日志

1 两数之和基于数组的散列给定一个整数组nums和一个目标值target 请你在该数组中找出和目标之中那两个整数并返回他们的数组下标你可以假设每种输入只会对应一个答案但是数组中同一个元素不能使用两遍示例给定 nums 2 7
【蓝桥杯历年真题合集】蓝桥杯2022初赛

个人主页程序猿追系列专栏算法合集目前状态创建Java学习之路零基础到就业实战系列目前更新到JAVAWEB开发作者简介大家好我是程序猿追全栈领域新星创作者算法爱好者常在作者周榜排名前30 某不知名的 ACMer 推
TCP封装

大家好呀我是请假君今天又来和大家一起学习数通了今天要分享的知识是TCP的封装 TCP段的头格式如上图所示其协议头最少20个字节其中主要字段如下 1 源端口 Source Port 16位的源端口字段包含初始化通信的端口号源端口和
如何用Python欢度六一？

今天是六一儿童节虽然秃头程序员没有头发但是童心还是一直都在的给大家分享一个私藏的GitHub项目 free python games 一行代码就能进入使用Python开发的小游戏快乐玩耍安装与使用安装当然也很简单一行代码就可以由
剑指 Offer 14- I. 剪绳子&&剑指 Offer 14- II. 剪绳子 II（动态规划+贪心算法）

剑指 Offer 14 I 剪绳子题目描述剑指Offer 66 剪绳子给你一根长度为 n 的绳子请把绳子剪成整数长度的 m 段 m n都是整数 n gt 1并且m gt 1 每段绳子的长度记为 k 0 k 1 k m 1 请问 k
哈夫曼树(Huffman Tree)学习总结

定义将所要编码的字符作为叶子结点的树为哈夫曼树作用解决编码问题模板 priority queue
UmiJS实战

一配置项 hash 配置是否让生成的文件包含 hash 后缀通常用于增量发布和避免浏览器加载缓存 hash true base 设置路由前缀通常用于部署到非根目录 base dengta publicPath 打包的时候 webpac
CVPR2023

欢迎关注 CVHub 官方微信公众号 Title Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos PDF https arxiv o

CVPR2023

导读

引言

相关工作

轻量级语义分割

视频语义分割

压缩域视频分析

方法

CReFF: Cross Resolution Feature Fusion

FST: Feature Similarity Training

实验结果

结论

CVPR2023 的相关文章

随机推荐

热门标签