MyDLNote - Detection : 2019 CVPR 使用解耦表示(Disentangled Representation)学习的罕见事件检测

2023-11-18

CVPR 2019

Rare Event Detection using Disentangled Representation Learning

Ryuhei Hamaguchi, Ken Sakurada, and Ryosuke Nakamura

National Institute of Advanced Industrial Science and Technology (AIST)

{ryuhei.hamaguchi, k.sakurada, r.nakamura}@aist.go.jp

 

Figure 1. The overall concept of the proposed model. From the negative image pairs, the representation learning model (left) learns features that are invariant to trivial events. The rare event detector (right) is then trained on the learned invariant features.

MyNote:

本文用disentangled representation方法,解决微小事件(罕见事件,rare event)检测。核心思想是,把两幅图片中,微小变化的部分看出是特殊特征,而其余内容部分,看成共同部分。解耦模型也是新的,看图1,它并没有采用交叉特殊部分的形式,因为本文最终想要的是fine-tuning这种结构,即输入本身就是两幅图,一个认为是正常图,另外一个认为的发生微小事件的图。但,这种形式比交叉形式更难设计,如何让特殊特征s不包含共同特征c,共同特征c不包含特殊特征s。这就是损失函数的任务。本文提出了三种损失函数。

 

Abstract

This paper presents a novel method for rare event detection from an image pair with class-imbalanced datasets. A straightforward approach for event detection tasks is to train a detection network from a large-scale dataset in an end-to-end manner. However, in many applications such as building change detection on satellite images, few positive samples are available for the training. Moreover, scene image pairs contain many trivial events, such as in illumination changes or background motions. These many trivial events and the class imbalance problem lead to false alarms for rare event detection.

问题描述。提出了一种基于类不平衡数据集的图像对罕见事件(rare event)检测方法。事件检测任务的一种直接的方法是从一个大规模数据集中以端到端的方式训练一个检测网络。然而,在许多应用中,如建立变化检测卫星图像,很少有正样本的训练。此外,场景图像对包含许多 trivial 事件,如照明变化或背景运动。这些琐碎的事件和类不平衡问题会导致 rare 事件检测的错误警报。

In order to overcome these difficulties, we propose a novel method to learn disentangled representations from only low-cost negative samples. The proposed method disentangles different aspects in a pair of observations: variant and invariant factors that represent trivial events and image contents, respectively.

方法简介。

The effectiveness of the proposed approach is verified by the quantitative evaluations on four change detection datasets, and the qualitative analysis shows that the proposed method can acquire the representations that disentangle rare events from trivial ones.

实验结论。

 

Introduction

事件检测的背景在计算机视觉领域,基于图像对的事件检测作为图像相似度估计已经得到了广泛的研究。图像之间的相似度估计是基本问题之一,它可以应用于许多任务,如变化检测[11,14,20,25],图像检索与匹配[3,23,33],识别[26,31],立体匹配[9,34]。由于最近深特征的成功,图像比较方法有了实质性的进展。然而,总的来说,他们需要大量的数据集来充分利用深层特征的表达能力。

件检测中存在的问题和难点在图像相似度估计的背景下,考虑了从图像对中检测罕见事件的特殊任务,如检测一对卫星图像上的建筑物变化,或通过对比产品的图像来检测制造缺陷。该任务的一个挑战在于难以收集训练样本。由于寻找稀有样本是一项劳动密集型任务,因此训练数据集中正样本往往很少。此外,图像对通常包含许多不感兴趣的难处理的(cumbersome)事件(例如,光照变化、图像配准错误、阴影变化、背景运动或季节变化)。这些小事件和类不平衡问题很可能导致了小事件的假警报,或者漏掉一些罕见事件的预警。

本文解决上述问题的方法:提出了一种新的网络架构,仅使用低成本的负图像进行解耦表示学习。图1演示了所提方法的总体概念。通过在图像内容之间引入相似度约束,训练网络将每幅图像编码为两个独立的特征:具体的特征和共同的特征。共同的特征表示对琐碎事件(trivial event)不变的图像内容,而特定特征表示与琐碎事件相关的混合信息 (例如,光照、阴影或背景运动)。这种解耦只需要通过低成本的负样本来学习,因为负样本包含了关于琐碎事件的丰富信息。一旦获得了共同的特征,就可以使用少量的训练样本在学习的表示上建立罕见事件的检测器。

 

Method

Overview

图 2 显示了本文提出的模型。该模型由共享参数的两个VAEs分支组成。每个VAE提取两种类型的特征表示:共同的和特定的。它们分别代表输入图像对的不同方面,不变因子和变因子。在罕见事件(rare event)检测中,具体特征表示trivial事件,共同特征表示不受trivial事件影响的图像内容。为了实现这一分离,引入了公共特征之间的相似性约束。这些共同特征的关键方面是它们对普通事件是不变的,这应该有助于从trivial事件区分出目标事件。

Figure 2. Schematics of the proposed representation learning method. The model takes a pair of images xA and xB as input. For each image, the encoder extracts common and specific features, and the decoder reconstructs the input. The key feature of the model is the similarity loss Lsim. This loss constrains the common features to extract invariant factors between xA and xB. Another feature is the activation loss Lact. This loss encourages the mean vector of the common features (µ c ) to be activated, which avoids a trivial solution – (σ c , µ c ) = (1, 0) – for any input.

 

Variational Auto-encoder

变分式自动编码器 VAE 是一种深层生成模型,将输入 x∈X 与潜变量 z∈Z 的联合分布定义为 p_{\theta }(x, z) = p_{\theta }(x|z)p(z)。通常将 p(z) 设置为均值和单位方差均为零的高斯分布。

利用带参数 θ 的深度神经网络 (decoder) 对生成分布 p_{\theta }(x|z)进行建模,并且通过最大化边际似然度

pθ(x) = ∑z pθ(x, z) 来训练模型参数。

然而,当p (x|z) 是一个神经网络时,边际似然就变得难以处理。因此,改用以下变分下界:

在上式中,q_{\phi }(z|x) 是另一种近似后验分布 p_{\theta }(z|x) 的深度神经网络 (encoder)。Eq.(1) 的第一项可以看作是经典的自动编码器的重构误差,第二项可以看作是正则化项。

为了使下界在编码器参数可微,使用了一种称为重新参数化(reparameterization)的技术:

在这里,⊙ 表示元素相乘。在这种情况下,编码器成为一个输出后验分布的均值和方差的深度神经网络。

 

 

Representation Learning

VAE提供了一种无监督的方法来学习潜在(latent)表示。给定输 入x,可以使用编码器分布 q_{\phi }(z|x) 推断潜在表示。其目的是学习编码器分布 q_{\phi }(z_c,z_s|x),其中的潜变量被解开,使zc和zs分别代表给定的图像对的不变因子和变因子(invariant and variant factors)。为此,构建了一个模型,其中包含两个相互共享参数的 VAE 分支。如图 2 所示,将输入图像 x_A, x_B \in X 输入到不同的VAE分支中,提取每个分支的潜变量zc和zs。利用以下损失函数对 VAE 的参数进行训练:

分别为输入图像 x_Ax_B 的 VAE 损失。Lsim 是一个相似性损失函数,它约束共同特征来表示成对图像之间的不变因子。Lact 是一个激活丢失函数,它鼓励激活共同特性,以避免包含 trivial 的解。

Variational auto-encoder loss

VAE各分支的联合分布成为

推理模型是:

VAE的损失函数变为:

Similarity loss

为了将公共特征编码为输入图像对中的不变因子,在xA和xB中提取的公共特征对之间引入如下相似性损失

其中 D 定义潜在变量之间的统计距离。一个简单的候选是两个后置的中心 \mu ^c (x_A)\mu ^c (x_B)之间的 L2 或 L1 距离。但是,如图3,当后验分布在每个潜在维度上的方差不同时,质心之间的距离不反映分布之间的距离。

因此,本文使用一种马氏距离如下:

 

Activation loss

相似约束的一个问题是存在一个 trivial 解(trivial solution)。通过将公共特征的均值向量设为所有的零,可以完全满足约束条件。在这种情况下,输入中的所有信息都由特定特征编码,共同特征不代表任何信息。为了避免这种情况,引入了另一个损失,以鼓励激活公共特性。

 

 

Fine-tuning

现在已经获得了可以分别提取公共特征和特定特征的编码器。下一步,我们利用从每幅图像中提取的共同特征 \mu ^c (x_A)\mu ^c (x_B),建立一个事件检测器网络Cψ。

利用交叉熵损失在一个ground truth label t上训练分类器。

在微调阶段,联合训练分类器参数和编码器参数。由于常见特征表示的图像内容不受 trivial事件的影响,因此即使使用少量的标签,稳定的事件检测器也可以有效地训练。在微调阶段,负样本随机(欠)取样,以获得与正样本相同数量的样本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MyDLNote - Detection : 2019 CVPR 使用解耦表示(Disentangled Representation)学习的罕见事件检测 的相关文章

  • PhpStorm64修改内存后不能启动

    审查phpstorm bat 这个bat文件应该是监控程序运行 并输出错误日志用的 在末尾加上pause查看完整的运行周期 JAVA EXE ALL JVM ARGS cp CLASS PATH com intellij idea Main
  • javac 命令 javac 命令大全详解---推荐看

    javac 命令 javac 命令大全详解 温柔一刀的技术博客 51CTO博客 1 javac 命令 用法 javac
  • Java--集合知识再补充(Map集合)

    下面就是我整理的部分学习笔记 学无止境 加油 为方便对多个对象的操作 就对对象进行存储 集合就是存储对对象最常用的一种方式 数组长度是固定的 且可以存储基本数据类型 集合可变 集合只能存储对象 Collection 下有两个子接口 为Lis
  • 权限验证-JWT认证

    JWT 1 什么是JWT JSON Web Token 通过数字签名的方式 以JSON对象为载体 在不同的服务终端之间安全的传输信息 2 JWT有什么用 JWT最常见的场景就是授权认证 一旦用户登录 后续每个请求都将包含JWT 系统在每次处
  • CentOS7 - systemd服务及开启关闭服务命令

    RHEL CentOS 7 0中一个最主要的改变 就是切换到了systemd 它用于替代红帽企业版Linux前任版本中的SysV和Upstart 对系统和服务进行管理 systemd兼容SysV和Linux标准组的启动脚本 Systemd是

随机推荐

  • oracle date 和 timestamp区别

    在今天的工作中 学到了以下几个知识点 一 date和timestamp 的区别 date类型是Oracle常用的日期型变量 他的时间间隔是秒 两个日期型相减得到是两个时间的间隔 注意单位是 天 例如 查看一下当前距离伦敦奥运会开幕还有多长时
  • c++ multiple definition of 问题解决方法

    问题描述 有一个 h头文件 两个 cpp文件都引用了这个 h文件 在 h文件中声明了一些全局变量或函数 编译时报错 multiple definition of 原因 好像是由于多次包含 然后编译 cpp文件是重复 定义了 解决方法 1 使
  • Linux 通过RPM包安装 MySQL 8.0

    Linux平台上推荐使用RPM包来安装Mysql MySQL 提供了以下RPM包的下载地址 MySQL MySQL服务器 你需要该选项 除非你只想连接运行在另一台机器上的MySQL服务器 MySQL client MySQL 客户端程序 用
  • 一、安卓笔记(1)—Android Studio下的的APP目录结构

    一 Android Studio工程目录 1 gradle文件夹包含的是gradle工具的各个版本 不需要手动去填写 自动生成的 Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建开源工具 它使用一种基
  • C#开发Windows窗体应用程序的步骤

    使用C 开发应用程序时 一般包括创建项目 界面设计 设置属性 编写程序代码 保存项目 程序运行等6个步骤 1 创建项目 在Visual Studio2017开发环境中选择 文件 新建 项目 菜单 弹出 新建项目 对话框 如图8 1所示 图8
  • Linux环境下Ubuntu系统中下载gvim及相关配置

    分享一下Linux环境下gvim的下载以及自己的相关配置 也方便自己以后重新进行虚拟机的相关配置时进行参考 相关代码带有简略注释 Ubuntu版本18 04 6 首先是下载 命令窗口打开位置无所谓 在命令行中输入以下代码 sudo apt
  • Qt信号槽-原理分析

    转载一篇关于Qt信号槽原理解析的文章 讲解的很详细 有的地方可能有点深度 不过还是能很大程度上的帮助理解信号槽原理 一 问题 moc预编译在干嘛 signals和slots关键字产生的理由 信号槽连接方式有什么区别 信号和槽函数有什么区别
  • 性能优化面试题

    目录 1 当修改一个数据时 不想整个页面都被重新渲染 只想要渲染变更数据的那一部分 怎么做 2 页面是否可以快速加载 3 是否允许用户快速开始与之交互 4 怎么让滚动和动画流畅 5 怎么图片优化 6 骨架屏 合理的loading 7 长列表
  • 30款建模软件

    从入门级3D建模软件到中级再到高级的3D建模软件 从小白到大师相信总有一款适合你 下面是小编为大家列出的30款建模软件以及介绍 供您大开眼界 Google Sketchup 一款极受欢迎并且易于使用的3D设计软件 根据创作过程 开发了一套设
  • 冒泡排序(java)——3种方法

    这里的冒泡是按照从小到大的顺序来的 思想 将相邻的元素两两比较 当一个元素大于右侧相邻的元素时 交换他们的位置 当一个元素小于右侧相邻的元素时 不做任何改变 一 第一种方法 public static void main String ar
  • Python字典出现重复的键,以最后出现的值为准

    Python3 6及之后 字典是有序的了 出现重复的键 以最后出现的值为准 test dict a 1 a 2 a 3 print test dict 输出 a 3
  • 使用easyExcel导出excel文件

    1 导入jar包
  • Android Studio下载、安装和配置+SDK+tools下载(无敌超级详细版本)

    下载 Anderson Studio是Google为Android提供的官方IDE工具 下载地址 http www android studio org 此处下载3 4 1版本 安装环境要求 其中JDK的最低版本是1 7 所以系统空闲内存至
  • 一个普通聊友质问腾讯客服的录音 过瘾哈

    http yumengluentan uueasy com read htm tid 146 html
  • 关于区块链几个证书的理解

    关于区块链几个证书的理解 FISCO BCOS 1 说明 在FISCO BCOS中 证书这个概念有许多的概念 会在环境与节点配置 部署 构链等步骤中反复出现 例如链证书 机构证书 节点证书和客户端证书等 如下对这些概念和关系进行一个适当的理
  • 使用 source insight 代码跳转时出现 symbol not found 问题

    P S 本篇博客是根据自己的经验来写的 如果大家有不同意见随时交流 1 使用 source insight 代码跳转功能时出现 symbol not found 问题一般是有三种可能 在你添加代码时没有选择 Add tree 选项 创建 p
  • 用Requests和正则表达式爬取猫眼电影(TOP100+最受期待榜)

    目标站点分析 目标站点 猫眼榜单TOP100 如下图 猫眼电影的翻页offset明显在URL中 所以只要搞定第一页的内容加上一个循环加上offset就可以爬取前100 流程框架 1 抓取单页内容 利用requests请求目标站点 得到单个网
  • spring——IOC控制反转

    IOC控制反转思想 一 IOC简介 二 spring创建对象的三种方式 1 无参构造 2 静态工厂 3 实例工厂 三 Bean标签 1 bean标签的scope属性 singleton prototype多例 request session
  • import报错

    错误 import im6 q16 unable to read X window image Resource temporarily unavailable error xwindow c XImportImage 4977 impor
  • MyDLNote - Detection : 2019 CVPR 使用解耦表示(Disentangled Representation)学习的罕见事件检测

    CVPR 2019 Rare Event Detection using Disentangled Representation Learning Ryuhei Hamaguchi Ken Sakurada and Ryosuke Naka