CVPR2020 | 中科院VIPL实验室录取论文详解

2023-05-16

编者按:近日,计算机视觉顶会 CVPR 2020 接收论文结果揭晓,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。中科院VIPL实验室共七篇论文录取,内容涉及弱监督语义分割、活体检测、手势识别、视觉问答、行人搜索、无监督领域自适应方法等方面,本文将予以详细介绍。

01

1. Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation (Yude Wang, Jie Zhang, Meina Kan, Shiguang Shan, Xilin Chen)

基于类别标签的弱监督语义分割作为一个具有挑战性的问题在近年来得到了深入的研究,而类别响应图(class activation map,简称CAM)始终是这一领域的基础方法。但是由于强监督与弱监督信号之间存在差异,由类别标签生成的CAM无法很好地贴合物体边界。

本文提出了一种自监督同变注意力机制(self-supervised equivariant attention mechanism,简称SEAM),利用自监督方法来弥补监督信号差异。在强监督语义分割的数据增广阶段,像素层级标注和输入图像需经过相同的仿射变换,自此这种同变性约束被隐式地包含,而这种约束在只有类别标签的CAM的训练过程中是缺失的。因此,我们利用经过不同仿射变换的图片得到的类别响应图本应满足的同变性来为网络训练提供自监督信号。除此之外,我们提出像素相关模块(pixel correlation module,简称PCM),通过发掘图像表观信息,利用相似像素的特征来修正当前像素的预测结果,从而增强CAM预测结果的一致性。我们的方法在PASCAL VOC 2012数据集上进行了充分的实验,验证了算法的有效性,并取得当前最好性能。

02

2. Single-Side Domain Generalization for Face Anti-Spoofing (Yunpei Jia, Jie Zhang, Shiguang Shan, Xilin Chen)

由于不同数据集之间存在差异,很多活体检测方法进行跨数据集测试时性能下降明显。现有的一些方法借用领域泛化的思想,利用多个已有的源域数据去训练模型,以得到一个领域不变的特征空间,从而在未知的目标域中进行测试时能利用学习到的通用判别特征,去提升模型的泛化性能。但是,由于不同数据集之间,攻击样本相对于正常样本存在更大的差异(比如说攻击方式的不同,攻击样本之间采集的环境差异),努力让这些攻击样本去学习一个领域不变的特征空间是比较困难的,通常会得到一个次优解,如下图左边所示。因此,针对这一个问题,我们提出来一个端到端的单边领域泛化框架,以进一步提升模型的性能。

其中主要思想在于,对于不同数据集中的正常样本,我们去学习一个领域不变的特征空间;但是对于不同数据集中的攻击样本,我们去学习一个具有分辨性的特征空间,使相同数据集中的攻击样本尽可能接近,而不同数据集中的攻击样本尽可能远离。最终效果会使攻击样本在特征空间中张成更大的区域,而正常样本仅仅处在一个紧凑的区域中,从而能够学习到一个对于正常样本包围更紧致的分类器,以达到在未知的目标域上更好的性能,如下图右边所示。

具体来说,我们引用一个域判别器,利用一种单边的对抗学习,让特征提取器仅仅对于正常样本提取更具有泛化性能的特征。并且,我们提出一个不均衡的三元组损失函数,让不同数据集之间的正常样本尽可能接近而攻击样本尽可能远离,以使得攻击样本在特征空间中张成一个更大的范围。同时,我们还引入了特征和参数归一化的思想,进一步地提升模型的性能。大量实验表明,我们提出的方法是有效的,并且在四个公开数据库上均达到了最优的性能。

03

3. Cross-domain Face Presentation Attack Detection via Multi-domain Disentangled Representation Learning (Guoqing Wang,  Hu Han, Shiguang Shan, Xilin Chen)

目前,人脸呈现攻击检测(Presentation Attack Detection, 简称PAD)成为人脸识别系统中一个亟待解决的问题。传统的方法通常认为测试集和训练集来自于同一个域,结果表明这些方法并不能很好的推广到未知场景中,因为学到的特征表示可能会对训练集中的身份、光照等信息产生过拟合。

为此,本文针对跨域人脸呈现攻击检测提出一种高效的特征解耦方法。我们的方法包含特征解耦模块(DR-Net)和多域学习模块(MD-Net)。DR-Net通过生成模型学习了一对特征编码器,可以解耦得到PAD相关的特征和身份信息相关的特征。MD-Net利用来自于不同域中解耦得到的特征进一步学习和解耦,得到与域无关的解耦特征。在当前公开的几个数据集上的实验验证了所提方法的有效性。

04

4. An Efficient PointLSTM Network for Point Clouds based Gesture Recognition (Yuecong Min, Yanxiao Zhang, Xiujuan Chai, Xilin Chen)

现有的手势识别方法往往采用视频或骨架点序列作为输入,但手部在整张图片中所占比例较小,基于视频的方法往往受限于计算量并且更容易过拟合,而基于骨架点的方法依赖于获取的手部骨架点的精度。

本文提出了一个基于点云序列的长短期记忆模块 (PointLSTM),可以直接从手部点云序列中捕获手型特征和手部运动轨迹。该模块为点云序列中的每一个点保留了独立的状态,在更新当前点的状态时,通过一个权值共享的LSTM融合时空相邻点的状态和当前点的特征,可以在保留点云空间结构的同时提取长时序的空间和时序信息。此外,本文还提出了一个帧内状态共享的模块(PointLSTM-PSS)用于简化计算量和分析性能提升来源。我们在两个手势识别数据集 (NVGesture和SHREC’17) 和一个动作识别数据集 (MSR Action3D) 上验证了方法的有效性和泛化能力,提出的模型在4096个点(32帧,每帧采样128点)的规模下,优于目前最好的基于手部骨架点序列的手势识别方法和基于点云序列的动作识别方法。

05

5. Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text (Difei Gao, Ke li, Ruiping Wang, Shiguang Shan, Xilin Chen)

场景图像中的文字通常会包含丰富的信息,比如,饭店的名字,产品的信息,等等。能够理解这些场景文字,并回答与此相关的自然语言问题(即,场景文字问答任务,Text VQA)的智能体也将会有非常广泛的应用前景。然而,对于当前的模型,场景文字问答任务仍十分具有挑战。其关键的难点之一就是真实场景当中会出现大量的不常见的,多义的或有歧义的单词,比如,产品的标签,球队的名称等等。要想让模型理解这些单词的含义,仅仅诉诸于词表有限的预训练单词嵌入表示(word embedding)是远远不够的。一个理想的模型应该能够根据场景中周围丰富的多模态的信息推测出这些单词的信息,比如,瓶子上显著的单词很有可能就是它的牌子。

根据这样的思路,我们提出了一种新的视觉问答模型,多模态图神经网络(Multi-Modal Graph Neural Network,MM-GNN),它可以捕获图片当中各种模态的信息来推理出未知单词的含义。具体来说,如下图所示,我们的模型首先用三个不同模态的子图来分别表示图像中物体的视觉信息,文本的语言信息,以及数字型文本的数值信息。然后,我们引入三种图网络聚合器(aggregator),它们引导不同模态的消息从一个图传递到另一个图中,从而利用各个模态的上下文信息完善多模态图中各个节点的特征表示。这些更新后的节点特征进而帮助后续的问答模块。我们在近期提出的Text VQA和Scene Text VQA问答数据库上进行了实验,取得了state-of-the-art的性能,并验证了方法的有效性。

06

6. TCTS: A Task-Consistent Two-stage Framework for Person Search (Cheng Wang,Bingpeng Ma,Hong Chang, Shiguang Shan, Xilin Chen)

当前最先进的行人搜索方法将行人搜索分为检测和再识别两个阶段,但他们大多忽略了这两个阶段之间的一致性问题。一般的行人检测器对 query 目标没有特别的关注;再识别模型是在手工标注的裁剪框上训练的,在实际情况中是没有这样完美的检测结果的。

为了解决一致性问题,我们引入了一个目标一致的两阶段的行人搜索框架 TCTS,包括一个 identity-guided query(IDGQ)检测器和一个检测结果自适应(Detection Results Adapted ,DRA)的再识别模型。在检测阶段,IDGQ 检测器学习一个辅助的身份分支来计算建议框和查询图片的相似度得分。同时考虑查询相似度得分和前景得分,IDGQ为行人再识别阶段生成 query-like 的边界框。在再识别阶段,我们预测检测输出的 bounding boxes 对应的身份标签,并用使用这些样本为 DRA 模型构造一个更实用的混合训练集。混合训练提高了 DRA 模型对检测不精确的鲁棒性。我们在CUHK-SYSU和PRW这两个基准数据集上评估了我们的方法。我们的框架在CUHK-SYSU上达到了93.9%的mAP和95.1%的rank1精度,超越以往最先进的方法。

07

7. Unsupervised Domain Adaptation with Hierarchical Gradient Synchronization (Lanqing Hu,Meina Kan, Shiguang Shan, Xilin Chen)

无监督领域自适应方法的任务是,将已标注的源域数据集上的知识迁移到无标注的目标域,从而减小对新目标域的标注代价。而源域和目标域之间的差异是这个问题的难点,大多方法通过对齐两个域的特征的分布来减小域之间的差异,但是仍然很难做到两个不同分布的每一个局部块都完美对齐,从而保证判别信息的很好保留。

本文提出一种层级梯度同步的方法,首先在域、类别、类组三个级别通过对抗学习进行条件分布的对齐,然后通过约束不同级别的域判别器的梯度保证相同的方向和幅度,由此提高分布对齐的内在一致性,加强类别结构的保留,从而得到更准确的分类结果。该方法在当前主流测试集Office-31,Office-Home,VisDA-2017上的结果都验证了其有效性。

编辑:杨茹茵

--end--

该文章属于“深度学习大讲堂”原创,如需要转载,请联系 ruyin712。

往期精彩回顾

小样本学习,路在何方?【VALSE Webinar】

知面而知心(情感计算)-【VALSE Webinar】Panel实录

重磅|中科视拓开源SeetaFace2人脸识别算法

【CVPR2019】“识面知心”——基于自监督学习的微表情特征表达

【CVPR2019】弱监督图像分类建模

深度互学习-Deep Mutual Learning:三人行必有我师

“取长补短”的RefineDet物体检测算法

 

 

 

欢迎关注我们!

深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!

中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。

中科视拓目前正在招聘:人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

中科视拓订阅号

深度学习大讲堂

点击阅读原文打开中科视拓官方网站

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2020 | 中科院VIPL实验室录取论文详解 的相关文章

  • GCC编译过程,了解编译原理

    说明 xff1a 这篇文件是在读 程序员的自我修养 链接 装载与库 的一点笔记 xff0c 权当时学习的记录 1 GCC编译过程分解 以HelloWorld程序为例 2 预编译 规则 xff1a 命令 xff1a gcc E XXX c o
  • 谨以此文献给正在面临选择的你

    我是2011届的考生 xff0c 当我从我们学校的的分数公布栏上看到自己的分数时 xff0c 我感觉我的世界都变成了灰色 xff0c 一切都暗淡无光 在那段时间里 xff0c 我思考了很多的问题 xff0c 诸如要不要去复读 去哪一所学校
  • Linux - Ubuntu里安装Python的包

    在Ubuntu中 xff0c apt install python xff0c 默认是安装python2 要安装python3 要使用apt install python3 安装后运行python python2 xff0c 调用的都是py
  • 第二章:STM32MxCube配置串口

    基于上一次将第一章 xff1a STM32MxCube 基本使用方法 本章直接讲叙述STM32配置串口2的 查看STM32F407电路图 xff1a 可得USART2接在PA2 PA3 下面新建STM32MxCube工程 xff0c 开始配
  • 浅述数字化与信息化

    数字化 和 信息化 是两个被用 滥 了的词 xff0c 但是搞 IT 的一定要真正理解这两个词 xff0c 才能在正确的场合使用在正确的地方 数字化 xff08 to digitize xff09 简单的说就是用计算机技术来代替一些传统手动
  • 飞书扫码登录网页

    二维码 SDK 接入文档 最后更新于 2022 06 14 概述 为了实现在网页内部完成授权登录的流程 xff0c 避免跳转到飞书登录页 xff0c 保证流畅的体验 xff0c 可以接入二维码 SDK 将飞书登录的二维码嵌入到网页中 当用户
  • make命令参数详解

    Make命令本身可带有四种参数 xff1a 标志 宏定义 描述文档名和目标文档名 其标准形式为 xff1a Make flags macro definitions targets Unix系统下标志位flags选项及其含义为 xff1a
  • c语言汉诺塔问题详解

    一 前言 汉诺塔 xff08 Tower of Hanoi xff09 xff0c 又称河内塔 xff0c 是一个源于印度古老传说的益智玩具 大梵天创造世界的时候做了三根金刚石柱子 xff0c 在一根柱子上从下往上按照大小顺序摞着64片黄金
  • 阿里云服务器的使用

    阿里云服务器的使用 外网ip 39 108 98 xxx xff08 linux xff09 ubuntu16 04 root root密码 putty ssh工具 xshell ssh scp 登录到阿里云服务器上 xff08 ubunt
  • 项目如何介绍

    谈谈XXX项目 分析 xff1a 考官通过看你的简历或者你的介绍来了解你所做的项目 xff0c 那么考官肯定想更详细的了解您的项目 xff0c 看是不是与你的简历写的项目经验一致 也就是考核你是否具有真实的项目经验 一般来说 xff0c 在
  • K8S的flannel组件容器网络分析

    kubernetes的网络通信可以分为一下几个部分 xff1a pod内部的容器间通信pod间通信pod与service之间网络通信kubernetes外部与service之间的网络通信 理论 xff1a 1 pod内部的容器间通信 kub
  • 数据结构(Data Structure)——1、栈(Stack)

    栈的介绍 栈 xff08 stack xff09 在计算机科学中是限定仅在表尾进行插入或删除操作的线形表 栈是一种数据结构 xff0c 是只能在某一端插入和删除的特殊线性表 它按照先进后出的原则存储数据 xff0c 先进入的数据被压入栈底
  • 进程间通信之消息队列

    首先说一下什么是消息队列 消息队列是进程间通信的一种 xff0c 它是由操作系统维护的以字节序列为基本单位的间接通信机制 xff0c 它提供了一个进程向另一个进程发送一个带类型的数据块的方法 我们知道用管道来实现进程间通信的机制是两个进程利
  • STM32 编码器模式详解

    0 编码器模式 stm32的定时器带的也有编码器模式 所用的编码器是有ABZ三相 xff0c 其中ab相是用来计数 xff0c z相输出零点信号 AB相根据旋转的方向不同 xff0c 输出的波形如下图所示 xff1a 从图上可以看出来 xf
  • LAN8720A网络模块关于时钟的使用问题

    微雪的LAN8720A驱动电路 xff1a 正点原子LAN8720A驱动电路 xff1a 1 nINTSEL Configuration 从原理图中可以看出正点原子的LAN8720A模块所使用的晶振是25M 而微雪的LAN8720A模块使用
  • 机器学习和深度学习大纲

    机器学习 https blog csdn net qq 45056216 article details 104303569 深度学习 https blog csdn net weixin 42237113 article details
  • VIM 助记符

    https www bilibili com video BV114411J7Z8 from 61 search amp seid 61 9900190950002805677 一 工作模式 vim其实三种模式 xff0c 一般模式 xff
  • STLINK下载程序(附STLINK驱动包)

    一 ST Link V2的JTAG SWD接口定义及产品图 实物图 STLINK指定标准接口 xff1a 二 STLINK驱动安装 xff1a 双击ST LinkUpgrade安装即可 安装成功之后 xff0c 设备管理器 三 打开工程文件
  • STM32 之 HAL库

    1 STM32的三种开发方式 通常新手在入门STM32的时候 xff0c 首先都要先选择一种要用的开发方式 xff0c 不同的开发方式会导致你编程的架构是完全不一样的 一般大多数都会选用标准库和HAL库 xff0c 而极少部分人会通过直接配
  • 迷你版的ARDUINO MEGA2560

    1 传统的MEGA2560板 xff1a 2 迷你的MEGA2560 特点 xff1a 嵌入版Mega 2560 CH340G ATmega2560 兼容 Mega 2560主板 基于Atmel ATmega2560微控制器和USB UAR

随机推荐

  • MATLAB撸了一个2D LiDAR SLAM

    0 引言 刚刚入门学了近一个月的SLAM xff0c 但对理论推导一知半解 xff0c 因此在matlab上捣鼓了个简单的2D LiDAR SLAM的demo来体会体会SLAM的完整流程 1 数据来源 xff1a 德意志博物馆Deutsch
  • 基于粒子滤波的定位算法 ——原理、理解与仿真

    1 算法原理 1 1 机器人定位问题 关于机器人定位 xff0c 有三大问题 xff0c 它们分别是 xff1a 1 全局定位 xff1a 指初始位置未知 xff0c 机器人靠自身运动确定自己在地图中的位姿 2 位姿跟踪 xff1a 指已知
  • 从图片中提取曲线坐标数据--基于MATLAB

    转载 https zhuanlan zhihu com p 52112012 0 引言 在读文献的时 xff0c 经常遇到这样的情况 xff1a 文章里提出的方法好有趣啊 xff0c 好想拿文中用的数据来试试看看能不能得到相近的结果 xff
  • 49天精通Java,第8天,JDK 和 JRE 、final 与 static 、堆和栈

    作者简介 哪吒 CSDN2022博客之星Top1 CSDN2021博客之星Top2 多届新星计划导师 博客专家 专注Java硬核干货分享 立志做到Java赛道全网Top N 本文收录于 Java基础教程系列 目前已经700 订阅 CSDN最
  • Python 之 Serial串口通信

    0 Serial方法 1 导入pyserial模块 import serial 2 打开串行口 打开串口0 xff0c 9600 xff0c 8N1 xff0c 连接超时0 5秒 import serial ser 61 serial Se
  • PYTHON字符串转数字,数字转字符串;数字转bytes,bytes转数字;字符串转bytes,bytes转字符串。数字表达字符串

    字符串str转数字 float str int str 数字num转字符串 str num a 61 39 1234 39 print 39 a 61 39 a print type a b 61 int a print 39 b 61 3
  • 杂记 | Linux中修改docker默认访问端口(2375)

    2375端口是docker的默认访问端口 xff0c 使用该端口可实现远程访问和操作docker xff0c 但在服务器上直接开启该端口有安全风险 xff08 笔者本人今天就应该端口导致服务器被入侵 xff09 xff0c 可以修改该默认端
  • RVIZ中的fixed frame选项以及“For frame [XX]: Fixed Frame [map] does not exist”

    RVIZ 使用的时候如果fixed frame选项设置不正确 xff0c 那么就会无法显示显示相应的数据信息 xff0c 并提示一下错误 xff1a For frame XX Fixed Frame map does not exist 官
  • C++常见面试题总结

    本文主要总结了一些常见的C 43 43 面试题 链接现在不让发 xff0c 所以如果需要整理好的文档的话 xff0c 请关注本篇文章底部的推广订阅公众号获取 xff1a Cpp编程小茶馆 进入正题 xff0c 下面是自己整理的文档目录截图
  • ROS系统安装Kinetic(零基础教程)

    文章目录 一 引言二 安装过程2 1 配置软件库2 2 添加ROS软件源2 3 添加密钥2 4 安装ROS2 4 初始化rosdep2 5 设置环境变量2 5 构建工厂依赖 三 测试过程3 1 启动ROS Master3 2 启动小海龟仿真
  • 《C++ Primer》一书极不适合我国“国情”

    客气地说 xff0c C 43 43 Primer 不适合大学C 43 43 基础课堂教学 xff0c 也不适合初学者入门 不客气地说 xff0c 恐怕你们的大学老师也搞不定 C 43 43 Primer xff0c 更别说拿这本书教学生了
  • 肝了两宿才收集的17个超炫酷的 CSS 动画加载与进度条特效,绝对值得收藏!!!

    文章目录 一 圆形加载动画二 上下跳动的圆球加载动画三 3D立体加载动画四 饼图加载动画五 多色圆点波动效果的加载动画六 制作顺时针放大的圆圈加载动画七 制作小圆圈轮流放大的加载动画八 制作竖条加载动画九 制作水波扩散效果加载动画十 制作逆
  • C 语言学习笔记(三):C 语言开发环境搭建

    文章目录 一 Windows二 Linux2 1 VMware Workstation Pro软件简介及安装2 2 安装 Ubuntu 系统2 2 1 Ubuntu 下载2 2 2 安装 Ubuntu2 2 3 安装共享文件夹 2 3 概念
  • windows和虚拟机ROS串口通信

    windows和虚拟机ROS串口通信 ROS串口通信步骤1 windows下安装VSPD xff08 虚拟串口工具 xff09 2 VMWare虚拟机添加串口3 Windows下串口通信测试工具设置4 ROS通信代码5 运行结果 最近在学习
  • jsonp原理详解——终于搞清楚jsonp是啥了

    一 JSONP的由来 1 Ajax直接请求普通文件存在跨域无权限访问的问题 xff0c 不管是静态页面 动态页面 web服务 xff0c 只要是跨域请求 xff0c 一律不准 2 不过我们发现 xff0c web页面调用js文件则不受跨域的
  • 无人机分类

    无人机分类方式 一 按飞行平台构型分类 无人机可分为固定翼无人机 多旋翼无人机 无人飞艇 伞翼无人机 扑翼无人机等 固定翼无人机 固定翼 xff0c 顾名思义 xff0c 就是机翼固定不变 xff0c 靠流过机翼的风提供升力 跟我们平时坐的
  • python网络编程smtp协议发送电子邮件

    SMTP协议 SMTP 的全称是 Simple Mail Transfer Protocol xff0c 即简单邮件传输协议 它是一组用于从源地址到目的地址传输邮件的规范 xff0c 通过它来控制邮件的中转方式 SMTP 协议属于 TCP
  • 实时通讯技术Ajax,WebSocket,SSE

    实时通讯技术是一项基于web开发的重要技术 xff0c 网站是需要前后端通讯的 xff0c 因此数据刷新的时间就是获取信息的时间 xff0c 为了能准确而有快速的获取信息需要尽可能的提高信息的刷新效率 常见的实时通讯技术 xff1a 通讯方
  • 当前主流的后端语言,谁能夺得桂冠,果然是后生可畏!

    主流后端语言 如今编程语言遍地开花 xff0c 烟花迷乱 xff0c 小编整理了最流行的几种编程语言如下 xff1a 这几种语言都是经久不衰 xff0c 占领着后端编程界的半壁江山 TIOBE上的语言排名 xff1a C Java pyth
  • CVPR2020 | 中科院VIPL实验室录取论文详解

    编者按 xff1a 近日 xff0c 计算机视觉顶会 CVPR 2020 接收论文结果揭晓 xff0c 从 6656 篇有效投稿中录取了 1470 篇论文 xff0c 录取率约为 22 中科院VIPL实验室共七篇论文录取 xff0c 内容涉