【CVPR2019】弱监督图像分类建模

2023-05-16

编者按:获取大规模数据集的高置信标注是一个难点问题,而解决此问题的弱监督学习更贴近人类对世界的认知机制。已有的弱监督图像分类研究,通常局限于单标签或者多标签噪声场景。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于噪声正则化的弱监督图像分类方法,通过结合使用大量噪声标注数据和少量干净标注数据(比如5%),提升图像分类效果的同时,在多标签和单标签场景中取得了更好的泛化能力。

1.引言

在计算机视觉领域,目前主流的图像分类方法仍然是基于完备标注数据的有监督学习,然而,在实际场景中,完全而精确的图像标签往往难以获得。例如,由于知识水平的差异不同的人可能对同一类图像有不同理解,从而给出不一致的标签。此外,为了降低标注成本,可以利用预训练模型对采集的大规模数据进行自动标注,但往往会得到大量不准确的标签,仅仅其中的一小部分数据可以得到人工验证。然而,传统的有监督学习方法很难处理这类带有噪声标签的数据。

现有的弱监督图像分类方法通常对于噪声标签类型有特定的假设,如单标签噪声或者多标签噪声。单标签噪声假设的分类方法,可以在训练过程中对于相似的图像进行聚类,而多标签噪声假设的分类方法,可以使用标签与标签之间的联系来增加算法的鲁棒性。尽管这些方法有助于提升模型的性能,但是在一定程度上限制了模型的泛化能力。

为此,在这个工作中,我们关注于提升模型的泛化能力,期待模型可以同时应用于单标签数据和多标签数据。我们观察到尽管现有的方法使用不同的假设辅助分类器学习,核心思想依然在于区分大量噪声标签中的可信与不可信的信息。如图1所示,一些使用标签与标签或者图像与标签之间关联的方法,会利用这些关系的正相关或者负相关强度来决定标签中的可用信息。

图表1  利用标签-标签关系和图像-标签关系的噪声学习方法

因此,我们提出了一种弱监督图像分类的方法,结合使用大量噪声标注数据和少量干净标注数据,通过两个子网络分别学习噪声标签中的可信与不可信的部分,减少了不可信的信息对模型的影响。我们的方法可以同时应用于单标签和多标签数据,并且不依赖于成对的干净-噪声标注数据。我们在两个多标签数据集(OpenImage和MS COCO2014)和一个单标签数据集(Clothing1M)评估了该方法。实验结果表明,该方法优于现有的最好方法,并在单标签和多标签噪声假设的场景下有很好的泛化能力。

2.方法

图表 2 方法网络结构示意图

2.1问题定义

我们的目标是结合利用大量的噪声标注数据 D_n 和少量的干净标注数据 D_c 得到一个鲁棒的图像分类模型。在现实场景中,我们可以假设噪声标注数据的数量 N_n 远大于干净标注数据的数量 N_c。

如图所示,我们以多任务学习的方式进行弱监督图像分类,同时训练两个分类器g和h分别拟合干净集合中的干净标签和噪声集合中的噪声标签。主干网络CNN(Backbone CNN)用于学习共享特征。净化网络(clean net)用于学习从特征空间到干净标签空间的映射,残差网络(residual net)用于学习从特征空间到标签残差(干净标签和噪声标签之间)的映射。

分类器g为最终的目标分类器,用于学习映射F_c, 则分类器g可表示为:

分类器h为辅助分类器,用于学习映射 F_r, 则分类器h可表示为:

两个分类器同时使用了交叉熵损失,表示为:

则总体目标函数为:

2.2 用于噪声正则化的残差网络

分类器h可以被看作是g的噪声正则项的原因是,其工作方式与其他正则项的工作方式类似,都是用于缓解网络的过拟合问题。所提方法中的残差网络可以建模大量噪声标注数据中的不可信部分,从而反过来使得分类器g可以利用数据中的可信部分,进而提高分类器的鲁棒性。

3.实验结果

3.1数据集

为了测试所提出方法的有效性,我们在三个数据集上进行了实验,包括两个多标签数据集(MS COCO2014 和 OpenImage) 和一个单标签数据集(Clothing1M)。

图表 3数据集信息

3.2 评测指标

对于多标签数据,我们选取了平均准确率(mAP) 以及总体准确率(AP_all)。其中平均准确率是针对所有类别的准确率的平均值,而总体准确率是将所有类别看作同一类的准确率结果。

对于单标签数据,我们选取了top-1准确率作为评测指标。

3.3实验结果

图表4   多标签数据集结果

在MSCOCO和OpenImage数据集上,我们分别选取了5%-20%比例的干净标签和全部的人工确认标签作为干净数据集合。可以看出,与基准方法比较,即使干净数据只有5%的比例,我们的方法依然能有较好的性能提升。

图表 5 单标签数据集结果

在Clothing1M上,我们的结果与其他SOTA方法相差无几。然而,CleanNet 和 Forward方法严格基于单标签假设,而我们的模型泛化能力更佳。

图表6   消融实验

为了显示残差网络的影响,我们比较了不同的训练方式。可以看出,加入残差网络,以协同的方式训练分类器g和h,在OpenImage 和Clothing1M上 可以分别提升1.4%(mAP) 和 4.8% (top-1)。

4.结论

当实际应用中大规模干净数据集不可得的时候,利用大规模噪声标注数据的弱监督图像分类变得很有价值。但是由于噪声数据中的语义信息难以准确获得,导致问题十分具有挑战性。我们通过提出一种新的可端到端训练的方法来解决这个问题。该方法由一个净化网络(clean net) 和一个残差网络(residual net) 组成,残差网络通过学习噪声标签和干净标签之间的残差以缓解净化网络对于干净标签过拟合的风险。多标签和单标签数据集的实验结果表明模型在提升准确率的同时拥有更好的泛化能力。

论文信息:

Mengying Hu, Hu Han, Shiguang Shan, Xilin Chen, “Weakly Supervised Image Classification through Noise Regularization,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR2019), pp. 11517-11525,  Long Beach, California, USA, June 16-20, 2019.

论文链接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Hu_Weakly_Supervised_Image_Classification_Through_Noise_Regularization_CVPR_2019_paper.pdf

编辑:杨茹茵

--end--

该文章属于“深度学习大讲堂”原创,如需要转载,请联系 ruyin712。

作者简介

胡梦颖,中科院计算所VIPL课题组多模态生物特征组2017级硕士生,导师为韩琥副研究员。研究兴趣包括弱监督图像分类、噪声/缺失标签处理与学习。曾在ACCV、CVPR上发表论文各1篇。

往期精彩回顾

深度互学习-Deep Mutual Learning:三人行必有我师

“取长补短”的RefineDet物体检测算法

动量迭代式对抗噪声生成方法 | VALSE2018年度杰出学生论文奖

何晖光:多模态情绪识别及跨被试迁移学习

Deep Unrolling:深度网络与传统模型之间的桥梁

华科白翔教授团队ECCV2018 OCR论文:Mask TextSpotter

还不知道GAN?小心落伍于这个AI时代

欢迎关注我们!

深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!

中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。

中科视拓目前正在招聘:人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

中科视拓订阅号

深度学习大讲堂

点击阅读原文打开中科视拓官方网站

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【CVPR2019】弱监督图像分类建模 的相关文章

  • 进程间通信之消息队列

    首先说一下什么是消息队列 消息队列是进程间通信的一种 xff0c 它是由操作系统维护的以字节序列为基本单位的间接通信机制 xff0c 它提供了一个进程向另一个进程发送一个带类型的数据块的方法 我们知道用管道来实现进程间通信的机制是两个进程利
  • STM32 编码器模式详解

    0 编码器模式 stm32的定时器带的也有编码器模式 所用的编码器是有ABZ三相 xff0c 其中ab相是用来计数 xff0c z相输出零点信号 AB相根据旋转的方向不同 xff0c 输出的波形如下图所示 xff1a 从图上可以看出来 xf
  • LAN8720A网络模块关于时钟的使用问题

    微雪的LAN8720A驱动电路 xff1a 正点原子LAN8720A驱动电路 xff1a 1 nINTSEL Configuration 从原理图中可以看出正点原子的LAN8720A模块所使用的晶振是25M 而微雪的LAN8720A模块使用
  • 机器学习和深度学习大纲

    机器学习 https blog csdn net qq 45056216 article details 104303569 深度学习 https blog csdn net weixin 42237113 article details
  • VIM 助记符

    https www bilibili com video BV114411J7Z8 from 61 search amp seid 61 9900190950002805677 一 工作模式 vim其实三种模式 xff0c 一般模式 xff
  • STLINK下载程序(附STLINK驱动包)

    一 ST Link V2的JTAG SWD接口定义及产品图 实物图 STLINK指定标准接口 xff1a 二 STLINK驱动安装 xff1a 双击ST LinkUpgrade安装即可 安装成功之后 xff0c 设备管理器 三 打开工程文件
  • STM32 之 HAL库

    1 STM32的三种开发方式 通常新手在入门STM32的时候 xff0c 首先都要先选择一种要用的开发方式 xff0c 不同的开发方式会导致你编程的架构是完全不一样的 一般大多数都会选用标准库和HAL库 xff0c 而极少部分人会通过直接配
  • 迷你版的ARDUINO MEGA2560

    1 传统的MEGA2560板 xff1a 2 迷你的MEGA2560 特点 xff1a 嵌入版Mega 2560 CH340G ATmega2560 兼容 Mega 2560主板 基于Atmel ATmega2560微控制器和USB UAR
  • MATLAB撸了一个2D LiDAR SLAM

    0 引言 刚刚入门学了近一个月的SLAM xff0c 但对理论推导一知半解 xff0c 因此在matlab上捣鼓了个简单的2D LiDAR SLAM的demo来体会体会SLAM的完整流程 1 数据来源 xff1a 德意志博物馆Deutsch
  • 基于粒子滤波的定位算法 ——原理、理解与仿真

    1 算法原理 1 1 机器人定位问题 关于机器人定位 xff0c 有三大问题 xff0c 它们分别是 xff1a 1 全局定位 xff1a 指初始位置未知 xff0c 机器人靠自身运动确定自己在地图中的位姿 2 位姿跟踪 xff1a 指已知
  • 从图片中提取曲线坐标数据--基于MATLAB

    转载 https zhuanlan zhihu com p 52112012 0 引言 在读文献的时 xff0c 经常遇到这样的情况 xff1a 文章里提出的方法好有趣啊 xff0c 好想拿文中用的数据来试试看看能不能得到相近的结果 xff
  • 49天精通Java,第8天,JDK 和 JRE 、final 与 static 、堆和栈

    作者简介 哪吒 CSDN2022博客之星Top1 CSDN2021博客之星Top2 多届新星计划导师 博客专家 专注Java硬核干货分享 立志做到Java赛道全网Top N 本文收录于 Java基础教程系列 目前已经700 订阅 CSDN最
  • Python 之 Serial串口通信

    0 Serial方法 1 导入pyserial模块 import serial 2 打开串行口 打开串口0 xff0c 9600 xff0c 8N1 xff0c 连接超时0 5秒 import serial ser 61 serial Se
  • PYTHON字符串转数字,数字转字符串;数字转bytes,bytes转数字;字符串转bytes,bytes转字符串。数字表达字符串

    字符串str转数字 float str int str 数字num转字符串 str num a 61 39 1234 39 print 39 a 61 39 a print type a b 61 int a print 39 b 61 3
  • 杂记 | Linux中修改docker默认访问端口(2375)

    2375端口是docker的默认访问端口 xff0c 使用该端口可实现远程访问和操作docker xff0c 但在服务器上直接开启该端口有安全风险 xff08 笔者本人今天就应该端口导致服务器被入侵 xff09 xff0c 可以修改该默认端
  • RVIZ中的fixed frame选项以及“For frame [XX]: Fixed Frame [map] does not exist”

    RVIZ 使用的时候如果fixed frame选项设置不正确 xff0c 那么就会无法显示显示相应的数据信息 xff0c 并提示一下错误 xff1a For frame XX Fixed Frame map does not exist 官
  • C++常见面试题总结

    本文主要总结了一些常见的C 43 43 面试题 链接现在不让发 xff0c 所以如果需要整理好的文档的话 xff0c 请关注本篇文章底部的推广订阅公众号获取 xff1a Cpp编程小茶馆 进入正题 xff0c 下面是自己整理的文档目录截图
  • ROS系统安装Kinetic(零基础教程)

    文章目录 一 引言二 安装过程2 1 配置软件库2 2 添加ROS软件源2 3 添加密钥2 4 安装ROS2 4 初始化rosdep2 5 设置环境变量2 5 构建工厂依赖 三 测试过程3 1 启动ROS Master3 2 启动小海龟仿真
  • 《C++ Primer》一书极不适合我国“国情”

    客气地说 xff0c C 43 43 Primer 不适合大学C 43 43 基础课堂教学 xff0c 也不适合初学者入门 不客气地说 xff0c 恐怕你们的大学老师也搞不定 C 43 43 Primer xff0c 更别说拿这本书教学生了
  • 肝了两宿才收集的17个超炫酷的 CSS 动画加载与进度条特效,绝对值得收藏!!!

    文章目录 一 圆形加载动画二 上下跳动的圆球加载动画三 3D立体加载动画四 饼图加载动画五 多色圆点波动效果的加载动画六 制作顺时针放大的圆圈加载动画七 制作小圆圈轮流放大的加载动画八 制作竖条加载动画九 制作水波扩散效果加载动画十 制作逆

随机推荐

  • C 语言学习笔记(三):C 语言开发环境搭建

    文章目录 一 Windows二 Linux2 1 VMware Workstation Pro软件简介及安装2 2 安装 Ubuntu 系统2 2 1 Ubuntu 下载2 2 2 安装 Ubuntu2 2 3 安装共享文件夹 2 3 概念
  • windows和虚拟机ROS串口通信

    windows和虚拟机ROS串口通信 ROS串口通信步骤1 windows下安装VSPD xff08 虚拟串口工具 xff09 2 VMWare虚拟机添加串口3 Windows下串口通信测试工具设置4 ROS通信代码5 运行结果 最近在学习
  • jsonp原理详解——终于搞清楚jsonp是啥了

    一 JSONP的由来 1 Ajax直接请求普通文件存在跨域无权限访问的问题 xff0c 不管是静态页面 动态页面 web服务 xff0c 只要是跨域请求 xff0c 一律不准 2 不过我们发现 xff0c web页面调用js文件则不受跨域的
  • 无人机分类

    无人机分类方式 一 按飞行平台构型分类 无人机可分为固定翼无人机 多旋翼无人机 无人飞艇 伞翼无人机 扑翼无人机等 固定翼无人机 固定翼 xff0c 顾名思义 xff0c 就是机翼固定不变 xff0c 靠流过机翼的风提供升力 跟我们平时坐的
  • python网络编程smtp协议发送电子邮件

    SMTP协议 SMTP 的全称是 Simple Mail Transfer Protocol xff0c 即简单邮件传输协议 它是一组用于从源地址到目的地址传输邮件的规范 xff0c 通过它来控制邮件的中转方式 SMTP 协议属于 TCP
  • 实时通讯技术Ajax,WebSocket,SSE

    实时通讯技术是一项基于web开发的重要技术 xff0c 网站是需要前后端通讯的 xff0c 因此数据刷新的时间就是获取信息的时间 xff0c 为了能准确而有快速的获取信息需要尽可能的提高信息的刷新效率 常见的实时通讯技术 xff1a 通讯方
  • 当前主流的后端语言,谁能夺得桂冠,果然是后生可畏!

    主流后端语言 如今编程语言遍地开花 xff0c 烟花迷乱 xff0c 小编整理了最流行的几种编程语言如下 xff1a 这几种语言都是经久不衰 xff0c 占领着后端编程界的半壁江山 TIOBE上的语言排名 xff1a C Java pyth
  • CVPR2020 | 中科院VIPL实验室录取论文详解

    编者按 xff1a 近日 xff0c 计算机视觉顶会 CVPR 2020 接收论文结果揭晓 xff0c 从 6656 篇有效投稿中录取了 1470 篇论文 xff0c 录取率约为 22 中科院VIPL实验室共七篇论文录取 xff0c 内容涉
  • 迁移学习:他山之石,可以攻玉【VALSE Webinar】Panel实录

    编者按 xff1a 迁移学习是机器学习与计算机视觉中的重要研究问题之一 xff0c 旨在研究如何将一个领域的知识迁移到另外的领域 xff0c 具有重要的研究意义与应用价值 但迁移学习又会存在哪些局限性 xff1f 在实际应用中的价值是什么
  • 「见微知著」(2) - 细粒度视觉检索特辑【VALSE Webinar】Panel实录

    编者按 xff1a 细粒度图像识别和检索的差异有哪些呢 xff1f 细粒度视觉有哪些重要实际应用及重要场景呢 xff1f 未来细粒度图像分析领域又会如何发展呢 xff1f 为此 xff0c VALSE Webinar 2020 20期邀请了
  • VALSE 2020线上大会学生论坛【VALSE Student Seminar】Panel实录

    首届VALSE Student Seminar于2020年7月31日在VALSE 2020线上大会拉开帷幕 xff0c Student Seminar邀请了6名年轻的研究生 xff1a 张士峰 中国科学院自动化研究所 董胤蓬 清华大学 刘宇
  • 见微知著:语义分割中的弱监督学习

    点击上方 深度学习大讲堂 可订阅哦 xff01
  • 曹汛:计算摄像学研究 | VALSE2017之十六

    点击上方 深度学习大讲堂 可订阅哦 xff01
  • Spring常用注解(绝对经典)

    x1f3c6 作者简介 xff1a 哪吒 xff0c CSDN2022博客之星Top1 CSDN2021博客之星Top2 多届新星计划导师 博客专家 x1f4aa xff0c 专注Java硬核干货分享 xff0c 立志做到Java赛道全网T
  • c++排序方式

    选择排序 第一个数和后面n 1个数比 xff0c 找出最小的数 xff0c 替换第一个数 后面依此类推 include lt bits stdc 43 43 h gt using namespace std const int N 61 1
  • 程明明:面向弱监督的图像理解

    点击上方 深度学习大讲堂 可订阅哦 xff01
  • 白翔:复杂开放场景中的文本理解

    编者按 xff1a 李白的 秋浦歌 中有这样一句诗 xff1a 题诗留万古 xff0c 绿字锦苔生 xff0c 描绘了天执笔 地做纸 苔为墨 xff0c 挥毫题字的豪迈场景 xff0c 也展示了自然场景中文本类型的多样性 xff1b 而另两
  • 深度学习高效计算与处理器设计

    编者按 夫因朴生文 因拙生巧 相因相生 以至今日 在人工智能领域 机器学习研究与芯片行业的发展 即是一个相因相生的过程 自第一个深度网络提出 深度学习历经几次寒冬 直至近年 才真正带来一波AI应用的浪潮 这很大程度上归功于GPU处理芯片的发
  • 华科白翔教授团队ECCV2018 OCR论文:Mask TextSpotter

    本文经授权转自我爱计算机视觉52CV 华中科技大学白翔老师团队在自然场景文本检测与识别领域成果颇丰 xff0c 这篇被ECCV2018接收的论文 Mask TextSpotter An End to End Trainable Neural
  • 【CVPR2019】弱监督图像分类建模

    编者按 xff1a 获取大规模数据集的高置信标注是一个难点问题 xff0c 而解决此问题的弱监督学习更贴近人类对世界的认知机制 已有的弱监督图像分类研究 xff0c 通常局限于单标签或者多标签噪声场景 本文中 xff0c 将为大家介绍中科院