场景图生成论文阅读笔记 之 Visual Relation Detection with Multi-Level Atention

2023-05-16

Visual Relation Detection with Multi-Level Atention
2019 ACM MM

Visual Relation Detection with Multi-Level Atention
2019 ACM MM

针对问题

  • 大多数工作直接使用Union Box区域作为谓词的视觉特征,这样会1)引入无关的背景信息。2)忽视了目标周围的上下文信息
  • 因为视觉特征、位置信息、语义信息(类别)都对关系的预测有贡献,大多数工作直接将三个线索直接拼接在一起,但是不同场景下不同线索的贡献是不同的,例如“on”更依赖于位置特征,而“ride”更依赖于视觉线索和语义线索。

论文贡献/创新点

  • 采用多阶段视觉注意力机制(空间注意力+通道注意力)获取显著的交互区域代替直接使用Union Box
  • 设计了多线索注意力来分别计算各线索的权重来结合三个线索

论文内容

1、 多阶段视觉注意力

这一部分可以分为两部分:通道注意力与空间注意力。
1) 通道注意力应用在backbone的每个卷积块后,其机制原理就与普通的通道注意力相同,对特征(c,w,h)的每个通道求均值后再将得到的向量(c,1,1)投入全连接层计算各个通道的权重,而后对各通道进行加权。
2) 同样的,空间注意力也是简单添加了普通的注意力机制,这里文中将主宾的目标类别进行编码后作为注意力里的query,最终得到显著的交互区域(下面结构图中的黄色框部分)
在这里插入图片描述

2、 多线索注意力机制

共有三个线索:视觉线索、语义线索、位置线索。
需要首先对这些线索进行编码,视觉特征通过上面的多阶段视觉注意力得到,然后需要对空间线索、语义线索分别进行编码,而后再计算权重
论文中计算权重的方式如下:
在这里插入图片描述

对于每个线索的特征向量都使用上式计算权重

有一说一,没太理解这个公式,其中Wg和attention矩阵Gi的作用是什么,Gi是如何得到的

为了减少参数量,作者还对Gi应用了矩阵分解
对三个线索进行加权得到最终的结果:
在这里插入图片描述

实验

作者在VG150, VRD, VG200这三个数据集上都做了实验,结果如下:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

场景图生成论文阅读笔记 之 Visual Relation Detection with Multi-Level Atention 的相关文章

  • 微信公众号开发

    文章目录 第一章 环境准备1 1 开发工具1 2 创建工程1 3 添加依赖1 4 添加模板1 5 测试接口1 6 内网穿透1 7 接入指南 第二章 基础支持2 1 获取 AccessToken 令牌2 2 获取微信API接口IP地址2 3
  • 果然新鲜电商系统

    项目简介 果然新鲜电商系统是一个类似小米商城的B2C电商平台 xff0c 可做毕业设计参考 访问地址 xff1a https gitee com caochenlei fresh parent 项目截图 网站首页 本地访问 xff1a ht
  • 通用代码生成工具

    项目简介 CodeBuilder可以帮助你快速生成模板文件 xff0c 目前支持mysql oracle sql server数据库 您可以自己制作代码模板并添加到模板目录 xff0c 帮助您可以应付各种开发场景 访问地址 xff1a ht
  • 后台权限管理系统

    项目简介 CommonAdmin是一个按钮级权限管理系统 xff0c 包含企业后台最常用的系统模块 xff0c 代码简洁 xff0c 开箱即用 访问地址 xff1a https gitee com caochenlei common adm
  • 个人博客管理系统

    项目简介 Blog是一款个人博客管理系统 xff0c 是我和同学上学期的期末大作业 xff0c 完成的比较仓促 xff0c 大部分功能已经完成 访问地址 xff1a https gitee com caochenlei blog 主要页面
  • Docker的学习与使用

    目录 第一章 Docker介绍第二章 Docker架构第三章 Docker安装第四章 Docker进程相关命令第五章 Docker镜像相关命令第六章 Docker容器相关命令第七章 Docker容器的数据卷第八章 Docker常见应用部署8
  • Java工程师的进阶之路

    目录 知识点01 xff1a 九大排序算法知识点02 xff1a 二分查找算法知识点03 xff1a 二叉树的遍历知识点04 xff1a Spring IOC知识点05 xff1a Spring AOP知识点06 xff1a Spring
  • 在线代码执行系统

    目录 第一章 安装ubuntu第二章 安装SSH第三章 安装docker第四章 安装docker compose第五章 安装judge0 第一章 安装ubuntu 虚拟机 xff1a VirtualBox 6 1 30 148432 Win
  • TF-IDF

    1 TF IDF是什么 xff1f TF IDF xff1a term frequency inverse document frequency 1 tf idf 作为一种权重经常被用作信息检索和文本挖掘领域 2 这样一种权重时通过统计计算
  • 时间区间拆分算法

    目录 需求描述 xff1a 项目依赖 xff1a 代码实现 xff1a 运行效果 xff1a 需求描述 xff1a 时间范围 xff1a 2022 04 10 09 00 00 2022 04 12 18 00 00 具体描述 xff1a
  • 时间区间合并算法

    目录 需求描述 xff1a 项目依赖 xff1a 代码实现 xff1a 运行效果 xff1a 需求描述 xff1a 时间范围 xff1a 2022 04 10 09 00 00 2022 04 10 10 00 00 2022 04 10
  • 如何排查线上OOM

    目录 操作步骤 xff1a 其他知识 xff1a 操作步骤 xff1a 换目录进行以下操作 xff08 不要在 操作 xff09 span class token builtin class name cd span 安装WGET下载工具
  • 计算饼状图百分比

    目录 需求描述 xff1a 项目依赖 xff1a 代码实现 xff1a 运行效果 xff1a 需求描述 xff1a 给定一个整数数组 xff0c 例如 xff1a 2 3 4 xff0c 计算各个元素的百分比 xff0c 要求百分比累加为1
  • 我是如何解决码云图床失效问题?

    目录 第一章 购买资源包第二章 配置存储桶第三章 上传图片集第四章 替访问域名第五章 配置Typora 第一章 购买资源包 第一步 xff1a 登录阿里云账号第二步 xff1a 访问资源包管理 第三步 xff1a 购买资源包套餐 第四步 x
  • Discord机器人开发

    目录 第一章 Discord账号注册第二章 Discord创建服务器第三章 Discord创建机器人3 1 创建应用3 2 创建机器人3 3 配置机器人3 4 添加机器人 第四章 Discord机器人开发准备4 1 推荐资料4 2 创建工程
  • 如何设计事件管理器

    目录 需求描述 xff1a 项目依赖 xff1a 代码实现 xff1a 定义通用的事件对象定义事件监听器接口定义事件监听器适配器对象定义事件管理器接口定义默认的事件管理器对象创建三个不同的监听器对象 运行效果 xff1a 需求描述 xff1
  • 如何设计缓存中间层

    目录 需求描述 xff1a 工程结构 xff1a 截图代码 工程配置 xff1a pom xmlapplication yml 缓存配置 xff1a CacheConfigCacheBaseCachePolicy 如何使用 xff1a Us
  • Ubuntu中解决无法识别外接显示屏

    解决Ubuntu中无法识别外接显示屏 1 检查Ubuntu是否识别出外接显示器2 解决没有识别出外接显示器问题3 显示器扩展屏幕设置 新买了一个显示器 xff0c 通过HDMI连接电脑后 xff0c 在Windows上连接上就直接可以使用了
  • 基于Redis实现的布隆过滤器

    一 RedisTemplate 1 首先将guava实现的本地的布隆过滤器的算法代码拿过来 span class token comment 算法过程 xff1a 1 首先需要k个hash函数 xff0c 每个函数可以把key散列成为1个整
  • 论文笔记之 Collaborative Deep Learning for Recommender Systems

    这篇论文是KDD2015的一篇用DL去做RS的论文 想法挺有意思的 看过论文的同学都知道整体的模型可以用下图表示 xff1a 这里只讲讲整体的思路与理解 xff1a 1 xff09 这是一个CF和CBF结合用bayes去做 2 xff09

随机推荐