简介
本文出自北航刘偲老师colab,使用语言结构引导上下文建模,用于Referring Image Segmentation。
下载链接
动机
解决Referring Image Segmentation的一个general想法是:首先,分别提取视觉、语言特征,然后基于多模态特征进行分割。但由于噪声的存在,很难从背景中分割出referent。这时,可以考虑使用与句子相关的、有效的多模态context来突出referent的特征,抑制背景特征。但在已有方法中,使用直接的concatenation或循环微调,缺乏显式的建模多模态上下文。有一些工作中,使用跨模态self-attention或动态滤波建模多模态上下文,但这些上下文要么是不充足的,要么是冗余的。
![](https://img-blog.csdnimg.cn/20201103144501195.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
贡献
- 本文提出使用“gather-propagate-distribute”机制建模视觉语言中跨模态的上下文信息;
- 本文提出了Linguistic Structure guided Context Modeling (LSCM)模块,用于实现“gather-propagate-distribute”机制;
- 在四个benchmarks上进行了实验,均超过了SOTA,UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)
方法
本文方法的整体架构如下图所示,共有三个步骤:①使用CNN和LSTM分别提取视觉、语言特征,并将二者融合,获得多模态特征;②基于得到的多模态特征,使用LSCM模块(本文重点)突出referent的特征。③将得到的multi-level特征融合,预测mask。
![](https://img-blog.csdnimg.cn/20201103143434130.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
①和③没有太多需要介绍的,主要说一下文中的步骤②,其处理过程如下图所示。Gather,基于attention map得到每个node的特征,此时,每个node中只包含它自己的上下文信息;Propagate,最初时,得到的graph是全连接的,作者使用Dependency Parsing Tree解析出文本中结点的对应关系,基于得到的Tree压制graph中的一些边,就得到的DPT-WG,在DPT-WG上做一次图卷积(后文中有实验,表明做一次图卷积的结果最优),此时,每个node均包含了sentence的上下文;Distribute,将结点特征再映射到特征图上,高亮referent的特征。
![](https://img-blog.csdnimg.cn/20201103144316915.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
实验
在四个数据集上的实验结果:
![](https://img-blog.csdnimg.cn/20201103150142284.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
消融实验:
![](https://img-blog.csdnimg.cn/20201103150638590.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
图卷积层数实验:
![](https://img-blog.csdnimg.cn/20201103150707994.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
一些可视化的实验结果:
![](https://img-blog.csdnimg.cn/20201103150855324.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)
对attention map的可视化:
![](https://img-blog.csdnimg.cn/20201103151017798.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L21zOTYxNTE2Nzky,size_16,color_FFFFFF,t_70)