Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记

2023-11-16

GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记

最近在跟进多模态的情感分析发现多模态榜一又被刷下来了，这篇论文是当前时间内的最好的效果，下面就对论文的模型结构以及实验细节，和我自己的心得来做一个笔记。读完这篇文章不得不说这篇论文在篇幅只有5页的情况下，把问题说得非常清楚，他的写作方法也值得我们学习！！！

推荐一个好地址： paperwithcode 的 sota 榜，很方便找代码的。

https://paperswithcode.com/sota/multimodal-sentiment-analysis-on-mosi

1. 摘要

在本文中，将探讨多模态情感分析的三个方面。

1.跨模态交互学习，即多种模态如何影响情感；
2.学习多模态交互中的长期依赖关系
3.单模态和跨模态线索的融合。

在这三者中，我们发现学习多个模态之间相互作用对这个问题是能提升效果的。我们在两个基准数据集上进行了实验，（CMU-MOSI）和（CMU-MOSEI）语料库。我们在这两项任务上的方法分别产生83.9％和81.1％的准确度，与当前的最新技术相比，绝对提高了1.6％和1.34％。

2. 模型方法

2.1 模型结构

在这里插入图片描述

模型一共包括以下5个方面：

2.2 Contextual Utterance Representation

对于每一个模态，它都是一个时序化的序列，也就是说对于一个文本模态，一句话是由多个词向量组成的，那么它就构成了一个时序序列，我们在这个阶段得到一个，基于上下文的表示，

在这里插入图片描述

2.3 Self Attention

因为像视频来说，一个视频大概会分成长度100的序列，所以我们需要捕捉更远的上下文关系，所以我们使用进一步使用 self-attention（不是 bilinear attention）bilinear attention可看https://blog.csdn.net/z704630835/article/details/100532262

在这里插入图片描述
这里用于计算相似度的是 general方式

在这里插入图片描述
论文参考为
Effective Approaches to Attention-based Neural Machine Translation

一般的self-attention 是用的dot形式
在这里插入图片描述

2.4 Cross Attention Multimodal

作者想使得两个模态序列之间进行交互，获取他们之间的交互信息，于是使用 cross-modal attention（非常常见的 QKV 不同模态即可实现）

我们计算 T（text）对 V（video）模态的注意力

在这里插入图片描述

然后乘以 V 模态就得到 T对V 的交互信息（下图的Ctv）

在这里插入图片描述

2.5 Gating Mechanism for Cross Interaction

提出门机制来，对生成的交互信息的噪声进行过滤。

Fvt表示 T模态经过 V过滤后的特征，它是由 融合模态交互信息 和 模态上下文表示 融合而来
在这里插入图片描述

我们定一个核函数用于融合模态交互信息P（Cross Attention Multimodal 生成的）以及模态上下文表示Q。

其中X（P, Q）表示一个非线性操作定义在下面，这里P就代表上面的Cvt或者 Ctv ， Q 就代表 Ht或Hv
在这里插入图片描述
G（P，Q）代表门控

2.6 Deep Multimodal Fusion

为了聚合来前面模块所得到的特征，我们使用Bi-GRU层来学习每个模态的深度多模态特征向量

例如对于T模态

St表示单模态T的上下文表示，、Fvt表示 V和T模态的交互信息， Fat 表示 A和T模态的交互信息，这也是一个时序序列放入GRU来进行融合

在这里插入图片描述

最后将三个模态的特征进行拼接接solfmax 分类

实验细节

文本Glove 词向量
3D CNN 视觉特征初步提取
openSMILE 听觉特征初步提取

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)