ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

2023-11-10

简介

本文出自北航刘偲老师colab，使用语言结构引导上下文建模，用于Referring Image Segmentation。
下载链接

动机

解决Referring Image Segmentation的一个general想法是：首先，分别提取视觉、语言特征，然后基于多模态特征进行分割。但由于噪声的存在，很难从背景中分割出referent。这时，可以考虑使用与句子相关的、有效的多模态context来突出referent的特征，抑制背景特征。但在已有方法中，使用直接的concatenation或循环微调，缺乏显式的建模多模态上下文。有一些工作中，使用跨模态self-attention或动态滤波建模多模态上下文，但这些上下文要么是不充足的，要么是冗余的。

贡献

本文提出使用“gather-propagate-distribute”机制建模视觉语言中跨模态的上下文信息；
本文提出了Linguistic Structure guided Context Modeling (LSCM)模块，用于实现“gather-propagate-distribute”机制；
在四个benchmarks上进行了实验，均超过了SOTA，UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)

方法

本文方法的整体架构如下图所示，共有三个步骤：①使用CNN和LSTM分别提取视觉、语言特征，并将二者融合，获得多模态特征；②基于得到的多模态特征，使用LSCM模块（本文重点）突出referent的特征。③将得到的multi-level特征融合，预测mask。

①和③没有太多需要介绍的，主要说一下文中的步骤②，其处理过程如下图所示。Gather，基于attention map得到每个node的特征，此时，每个node中只包含它自己的上下文信息；Propagate，最初时，得到的graph是全连接的，作者使用Dependency Parsing Tree解析出文本中结点的对应关系，基于得到的Tree压制graph中的一些边，就得到的DPT-WG，在DPT-WG上做一次图卷积（后文中有实验，表明做一次图卷积的结果最优），此时，每个node均包含了sentence的上下文；Distribute，将结点特征再映射到特征图上，高亮referent的特征。

实验

在四个数据集上的实验结果：

消融实验：

图卷积层数实验：

一些可视化的实验结果：

对attention map的可视化：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记的相关文章

Antlr 解析器运算符优先级

考虑以下语法我对运算符优先级有疑问例如 res 2 a b有一个类似的解析树res 2 a b 我知道问题出在哪里但我没有想到没有相互左递归的漂亮解决方案你能帮我一点忙吗该语法与自定义访问者一起使用 grammar Math
如何通过索引访问 JSON 对象中的字段

我知道这不是最好的方法但我别无选择我必须通过索引访问 JSONObject 中的项目访问对象的标准方法是只写this objectName or this objectName 我还找到了一种获取 json 对象内所有字段的方法 fo
带有 Maven Wrapper 的 Java 17 导致无法识别的 VM 选项“MaxPermSize=512m”

I use OpenJDK 17 https jdk java net 17 使用 Maven Wrapper 3 8 2 从春季初始化 https start spring io Maven项目 JAR打包 Java 17 Spring
测量窗口偏移

有没有一种方法可以测量 jQuery 中窗口的偏移量以便我可以比较固定元素和相对定位元素的位置我需要能够知道窗口滚动了多远以便我可以使用该图来计算固定元素的高度相对于视口顶部和相对对象的高度相对于顶部之间的差异文件的内容
MySQL 查询计算上个月

我想计算上个月的订单总额我收到了从当前日期获取当月数据的查询 SELECT SUM goods total AS Total Amount FROM orders WHERE order placed date gt date sub c
没有输入的 jQuery 日期选择器

我有一个相当复杂的网络应用程序我想向其中添加一些日期选择 UI 我遇到的问题是我无法从文档中弄清楚如何真正控制日期选择器的出现方式和时间不涉及任何表单元素不我不会添加秘密表单字段因此简单的开箱即用方法根本行不通我希望有人可以提供
类型或命名空间“MyNamespace”不存在等

我有通常的类型或命名空间名称不存在错误除了我引用了程序集 using 语句没有显示为不正确并且我引用的类是公共的事实上我在不同的解决方案中引用并使用相同的程序集来执行相同的操作并且效果很好顺便说一句这是VS2010 有人有什么
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data
Mono 应用程序在非阻塞套接字发送时冻结

我在 debian 9 上的 mono 下运行一个服务器应用程序大约有 1000 2000 个客户端连接并且应用程序经常冻结 CPU 使用率达到 100 我执行 kill QUIT pid 来获取线程堆栈转储但它总是卡在这个位置
php 数组中出现意外的 json 输出结构

我正在尝试转换动态数据如何从 PHP 获取此 JSON JSON 122240cb 253c 4046 adcd ae81266709a6 item 0 3 这就是我所做的但它不起作用 PHP json array 122240cb 2
现代编译器是否优化乘以 1 和 -1

如果我写 template
将第三个表链接到多对多关联中的桥接表

设计这个数据库的正确方法是什么这是我设置表格的方式我在名为教师的表和名为仪器的表之间存在多对多关系然后我有一个连接两者的桥接表我想将另一个表与 BRIDGE 表关联起来意思是乐器老师的组合该表有 3 行指定老师可以教
如何在 Angular 4 中翻译 mat-paginator？

你知道如何在 Angular 中翻译每页项目吗mat paginator标签这mat paginator是材料设计中的一个元素您可以使用MatPaginatorIntl为了这威尔豪厄尔制作 https github com an
从 mvc 控制器使用 Web api 控制器操作

我有两个控制器一个mvc控制器和一个api控制器它们都在同一个项目中 HomeController Controller DataController ApiController 如果我想从 HomeController 中使用 Dat
如何确定 CultureInfo 实例是否支持拉丁字符

是否可以确定是否CultureInfo http msdn microsoft com en us library system globalization cultureinfo aspx我正在使用的实例是否基于拉丁字符集我相信你可以使
如何在 OSX 上安装 LaTeX .sty 文件？

我设置了一个 LaTeX 项目 tex documents some file tex support todonotes sty where some file tex uses todonotes usepackage colorinl
使用 WGL 创建现代 OpenGL 上下文？

我正在尝试使用 Windows 函数创建 OpenGL 上下文现代版本基本上代码就是创建窗口类注册班级创建一个窗口 choose PIXELFORMATDESCRIPTOR并设置它创建旧版 OpenGL 上下文使上下文成为当前
Android 材料芯片组件崩溃应用程序。无法膨胀 xml

Tried Chip来自两个支持库的组件 com google android support design 28 0 0 rc01和材料 com google android material material 1 0 0 rc01 堆栈
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording
探查器模板可以迁移到较新版本的 SQL Profiler 吗？

是否可以将 Profiler 模板迁移到较新版本的 SQL Server 就我而言我想将 SQL 2008 模板带到 2012 年我尝试过 1 直接文件复制和 2 导出导入在这两种情况下旧模板都会运行但无法修改修改后会出现以下

随机推荐

[管理与领导-82]：IT基层管理者 - 核心技能 - 高效执行力 - 7- 高效执行的结果通过高效的过程保证

目录前言一执行前对 1 1 确保做对事 do right thing 1 目标行动的目标 2 方向行动的方向 3 需求行动是为了满足某种需求 4 指令行到受谁的指令 1 2 确定做对事的方法 1 2 1 确认 do righ
理解DOM事件流的三个阶段

本文主要解决两个问题什么是事件流 DOM事件流的三个阶段起因在学习前端的大半年来对DOM事件了解甚少一般也只是用用onclick来绑定个点击事件在寒假深入学习JavaScript时愈发觉得自己对DOM事件了解不够遂打开我的
全网最全的IDEA热部署方案，看完弄懂，再也不用加班

概念热部署就是正在运行状态的应用修改了它的源码之后在不重新启动的情况下能够自动把增量内容编译并部署到服务器上使得修改立即生效热部署为了解决的问题有两个 1 在开发的时候修改代码后不需要重启应用就能看到效果大大提升开发效率 2
python的http服务

在一个局域网中因为要传输文件给朋友所以建一个简单的http服务器自己主机作为服务器让朋友下载文件自己主机安装pyhton 到要共享的文件夹下开启HTTP服务 python m http server 9999 其他主机浏览器访问
Java实现算法“两数之和”

最近开始刷LeetCode 为了加深印象一定要写下来题目给定一个整数数组nums和一个目标值target 请你在该数组中找出和为目标值的那两个整数并返回它们的数组下标可以假设每种输入只会对应一个答案但是不能重复利用这个数组中同样
Spring设计模式，事务管理和代理模式的应用

扩充贝叶斯定理答案见底设计模式对关于面向对象问题的具体解决方案 1 单例多例在设计单例模式时要注意两个点 1 构造方法要私有 2 成员变量要私有 3 创建对象所用的方法要被synchronized修饰因为方法体中会涉及到判断当前成
Java：利用I/O流读取文件内容

要利用I O流读取文件内容首先要掌握InputStream的体系结构这个体系中FileInputStream和BufferedInputStream是一定要掌握的因为使用的频率比较高 InputStream的方法 InputStrea
爬虫简单语法

一 requests 适用于爬取静态网页 1 get requests get 参数参数可以是接收一个网址 url 在请求某个查询时在通用网址后 query 查询的内容比如在搜狗引擎中搜索 content input 请输入你要
1、基于ARM平台Golang简单Demo：交叉编译

arm平台为M3352核心板编译环境为Ubuntu14 04 目标在Ubuntu环境编译Go代码在arm平台运行每分钟打印当前时间源代码文件名 go arm cross build go package main import f
PyTorch入门（三）PyTorch常用操作

PyTorch常用操作 bilinear kernel bilinear kernel def bilinear kernel in channels out channels kernel size return a bilinear k
STM32——SysTick timer（STK）----系统定时器

系统定时器是属于Cortex内核中的一个外设所有Cortex M内核的单片机都有这个定时器 Systick定时器常用来做延时或者实时系统的心跳时钟这样可以节省MCU资源不用浪费一个定时器它是一个24位向下递减的计数器由以下四个
elastic-job 执行原理

Elastic Job执行原理 1 如果只有一个分片的情况下就是和原生的quartz一样的就是所有的任务都在一台机器上面执行 2 如果有两个分片的情况下然后5个job在两台机器上面执行机器 machine1 machine2 job
1896-2021历届奥运会奖牌榜动态排序（Matplotlib图表动画）

摘要在制作动态排序动画之前我们看一下数据的整理情况 a 对第1 种大部分数据的情况先爬取下来输出到excel 1 b 对第2 种小部分数据的情况也先爬取下来输出到另一个excel 2 c 对第3 种个别的还有第31 32届的
合适新手入门的串口屏学习分享

串口屏学习分享一串口屏简单介绍二编辑界面的详细介绍三实战演练制作串口屏键盘 1 准备工作 2 开始四总结一串口屏简单介绍串口是我们在学习编程学习单片机时经常需要的本人就是在学习32单片机时需要用到所以才深入了解
计算机怎么消除用户密码,电脑开机设置了密码要怎么删除

很多人的电脑都设置了开机密码但每次开机都要输入也会觉得麻烦怎么删除开机密码呢下面由小编为大家整理了的方法步骤希望对大家有帮助电脑删除开机密码的方法和步骤如下一如果记得自己设置的密码进行以下操作 1打开我的电脑在左则找到
Android常见的分辨率

1 1 手机常见分辨率 4 3 VGA 640 480 Video Graphics Array QVGA 320 240 Quarter VGA HVGA 480 320 Half size VGA SVGA 800 600 Super
线段检测M-LSD 已开源

其中 M LSD tiny最快能以56 8FPS和48 6FPS的速度在手机上实时运行没错现在AI在手机上给家具直线描边的速度可能比你还快网页版在线demo 为了方便效果展示作者们还推出了一个网页版demo 基于Python的fl
unity安卓平台多摄像机显示黑屏问题

问题用Unity2019 2 0打包安卓平台的项目在多摄像机显示的时候老是会只渲染最顶层的摄像机低渲染层级的摄像机不显示解决方案我先升级了Android SDK的版本 API版本升级到了29 然后把项目打包质量降低然后打包摄
openssl安装与使用

文章目录 1 OpenSSL简介 2 OpenSSL安装 3 加密技术介绍 4 openssl 命令 4 1摘要命令 4 2对称加密命令 4 3非对称加密命令 4 3 1生成私钥 4 3 2提取公钥 4 3 3利用公钥加密私钥解密数据 4
ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录简介动机贡献方法实验简介本文出自北航刘偲老师colab 使用语言结构引导上下文建模用于Referring Image Segmentation 下载链接动机解决Referring Image Segmentation

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录

简介

动机

贡献

方法

实验

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记 的相关文章

随机推荐

热门标签

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记的相关文章