Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记

2023-11-16

GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记

最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇论文是当前时间内的最好的效果,下面就对论文的模型结构以及实验细节,和我自己的心得来做一个笔记。读完这篇文章不得不说这篇论文在篇幅只有5页的情况下,把问题说得非常清楚,他的写作方法也值得我们学习!!!

推荐一个好地址: paperwithcode 的 sota 榜, 很方便找代码的。

https://paperswithcode.com/sota/multimodal-sentiment-analysis-on-mosi

1. 摘要

在本文中,将探讨多模态情感分析的三个方面。

  • 1.跨模态交互学习,即多种模态如何影响情感;
  • 2.学习多模态交互中的长期依赖关系
  • 3.单模态和跨模态线索的融合。

在这三者中,我们发现学习多个模态之间相互作用对这个问题是能提升效果的。 我们在两个基准数据集上进行了实验,(CMU-MOSI)和(CMU-MOSEI)语料库。 我们在这两项任务上的方法分别产生83.9%和81.1%的准确度,与当前的最新技术相比,绝对提高了1.6%和1.34%。

2. 模型方法

2.1 模型结构

在这里插入图片描述

模型一共包括以下5个方面:

2.2 Contextual Utterance Representation

对于每一个模态,它都是一个时序化的序列,也就是说对于一个文本模态,一句话是由多个词向量组成的,那么它就构成了一个时序序列,我们在这个阶段得到一个,基于上下文的表示,

在这里插入图片描述

2.3 Self Attention

因为像视频来说,一个视频大概会分成长度100的序列,所以我们需要捕捉更远的上下文关系,所以我们使用进一步使用 self-attention(不是 bilinear attention)bilinear attention可看https://blog.csdn.net/z704630835/article/details/100532262

在这里插入图片描述
这里用于计算相似度的是 general方式

在这里插入图片描述
论文参考为
Effective Approaches to Attention-based Neural Machine Translation

一般的self-attention 是用的dot形式
在这里插入图片描述

2.4 Cross Attention Multimodal

作者想使得两个模态序列之间进行交互,获取他们之间的交互信息,于是使用 cross-modal attention(非常常见的 QKV 不同模态即可实现)

我们计算 T(text) 对 V(video)模态的注意力

在这里插入图片描述

然后乘以 V 模态 就得到 T对V 的交互信息 (下图的Ctv

在这里插入图片描述

2.5 Gating Mechanism for Cross Interaction

提出门机制来,对生成的交互信息的噪声进行过滤。

Fvt表示 T模态经过 V过滤后的特征, 它是由 融合模态交互信息模态上下文表示 融合而来
在这里插入图片描述

我们定一个核函数用于融合模态交互信息P(Cross Attention Multimodal 生成的)以及模态上下文表示Q

其中X(P, Q)表示一个非线性操作 定义在下面, 这里P就代表上面的Cvt或者 Ctv , Q 就代表 Ht或Hv
在这里插入图片描述
G(P,Q)代表门控

2.6 Deep Multimodal Fusion

为了聚合来前面模块所得到的特征,我们使用Bi-GRU层来学习每个模态的深度多模态特征向量

例如对于T模态

St表示 单模态T的上下文表示, 、Fvt表示 V和T模态的交互信息, Fat 表示 A和T模态的交互信息, 这也是一个时序序列 放入GRU来进行融合

在这里插入图片描述

最后将三个模态的特征进行拼接 接solfmax 分类

实验细节

  • 文本Glove 词向量
  • 3D CNN 视觉特征初步提取
  • openSMILE 听觉特征初步提取
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记 的相关文章

  • 这个 NLP 问题层次结构描述中的最大池化是什么类型

    我正在尝试实现这个描述以及我所做的 我生成了形状的 uni gram bi gram tri gram 15 512 使用填充 然后对于每个单词 我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
  • 使用我自己的训练示例训练 spaCy 现有的 POS 标记器

    我正在尝试在我自己的词典上训练现有的词性标注器 而不是从头开始 我不想创建一个 空模型 在spaCy的文档中 它说 加载您想要统计的模型 下一步是 使用add label方法将标签映射添加到标记器 但是 当我尝试加载英文小模型并添加标签图时
  • target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么?

    根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
  • Blenderbot 微调

    我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法 该方法要求我们使用 trainer train 方法来完成此操作 我使用 compile 方法尝试了它 我尝试过使用 Py
  • 否定句子的算法

    我想知道是否有人熟悉算法句子否定的任何尝试 例如 给定一个句子 这本书很好 请提供任意数量的意思相反的替代句子 例如 这本书不好 甚至 这本书不好 显然 以高精度实现这一点可能超出了当前 NLP 的范围 但我确信在这个主题上已经有了一些工作
  • 语音识别中如何处理同音词?

    对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的 我提供以下示例 我们的 是 嗨和高 到 太 二 在使用时语音API https developer apple com docume
  • Node2vec 的工作原理

    我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法 我有点困惑它是如何工作的 作为参考 node2vec 由 p 和 q 参数化 并通过模拟来自节点的
  • 如何检测文本是否可读?

    我想知道是否有一种方法可以告诉给定的文本是人类可读的 我所说的人类可读的意思是 它有一些含义 格式就像某人写的文章 或者至少是由软件翻译器生成的供人类阅读的文章 这是背景故事 最近我正在制作一个应用程序 允许用户将短文本上传到数据库 在部署
  • AttributeError:类型对象“Word2Vec”没有属性“load_word2vec_format”

    我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
  • 保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

    我创建了自己的 BertClassifier 模型 从预训练开始 然后添加由不同层组成的我自己的分类头 微调后 我想使用 model save pretrained 保存模型 但是当我打印它并从预训练上传时 我看不到我的分类器头 代码如下
  • 旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

    我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本 我尝试运行 这给了我错误消息 ubun ner 3 NeuroNER master src pyt
  • PHP 和 NLP:嵌套括号(解析器输出)到数组?

    想要将带有嵌套括号的文本转换为嵌套数组 以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文 我喜欢一大床
  • Python模块可以访问英语词典,包括单词的定义[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个 python 模块 它可以帮助我从英语词典中获取单词的定义 当然有enchant 这可以帮助我检查该单词是否存在于英语中
  • 使用“自然”语言编写代码更好吗?

    我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说 超新星编程语言是 现代脚本语言和 第一个提出了概念 用直接虚构进行编程 描述使用 纯人类语言的清晰子集 你可以编写如下代码 i
  • 给定文档,选择相关片段

    当我在这里提出问题时 自动搜索返回的问题的工具提示给出了问题的前一点 但其中相当一部分没有给出任何比理解问题更有用的文本 标题 有谁知道如何制作一个过滤器来删除问题中无用的部分 我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子 例如
  • 如何使用FeatureUnion转换PipeLine中的多个特征?

    我有一个 pandas 数据框 其中包含有关用户发送的消息的信息 对于我的模型 我感兴趣的是预测消息的缺失收件人 即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分 我正在使用 OneVsRestClassifier 和
  • 计算机AI算法写句子?

    我正在寻找有关处理文本句子或在创建在正常人类语言 例如英语 中有效的句子时遵循结构的算法的信息 我想知道这个领域是否有我可以学习或开始使用的项目 例如 如果我给一个程序一个名词 为其提供同义词库 相关单词 和词性 以便它理解每个单词在句子中
  • 在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么?

    下面的代码实现了我想要实现的结果 有一个称为 引理 的字符串列表 其中包含特定类别单词的可接受形式 另一个列表称为 形式 包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体 对于 forms 中的每个单词 我想获取 le
  • 如何使用WordNet或与wordnet相关的类别来实现基于类别的文本标记?

    如何使用wordnet按单词类别标记文本 java作为接口 Example 考虑以下句子 1 计算机需要键盘 显示器 CPU才能工作 2 汽车使用齿轮和离合器 现在我的目标是 例句必须标记为 第 1 句话 电脑 电子键盘 电子中央处理器 电
  • 在Python中表示语料库句子的一种热门编码

    我是 Python 和 Scikit learn 库的初学者 我目前需要从事一个 NLP 项目 该项目首先需要通过 One Hot Encoding 来表示一个大型语料库 我已经阅读了 Scikit learn 关于 preprocessi

随机推荐

  • kali apt update问题

    这两天使用卡里进行升级sudo apt update 错误无法升级 sudo apt update Get 1 http mirrors neusoft edu cn kali kali rolling InRelease 30 6 kB
  • 算法笔记-DTW动态时间规整

    算法笔记 DTW动态时间规整 简介 简单的例子 定义 讨论 约束条件 步模式 标准化 点与点的距离函数 具体应用场景 分类 点到点匹配 算法笔记 DTW动态时间规整 动态时间规整 规划 Dynamic Time Warping DTW 是一
  • 戴尔如何加装固态硬盘

    这是手册中有关固态硬盘的支持规格 您可以按照这个参数进行选购 G15 5511 支持两个 M 2 2230 2280 固态硬盘 M 2 2230 固态硬盘 PCIe 3 0 x4 NVMe 高达 1 TB M 2 2280 固态硬盘 PCI
  • 2023版软件测试学习路线图(超详细自学路线)

    送福利了 超详细的软件测试学习路线图来啦 2023版是首发哟 软件测试学习路线图分为9个阶段 包含 软件测试环境配置和管理 gt 软件测试数据管理与数据库测试 gt web前端测试技术 gt 通用软件测试技术 gt Python测试开发技术
  • python openpyxl 操作excel 插入行,列

    import openpyxl wb openpyxl load workbook D 村数据 实验 xlsx ws wb Sheet1 ws insert rows 3 插入行 ws insert cols 4 插入列 wb save D
  • JAVA【基础】 IDEA导入jar包的几种方式

    目录 获取想要添加的依赖 或者jar包 maven添加依赖 手动导入jar包 最后测试一下 是否添加成功 下面多图预警 获取想要添加的依赖 或者jar包 添加依赖 或者下载jar包 都可以去maven网站下载 进入 Maven仓库 http
  • 获取windows凭证管理器明文密码

    1 运行cmdkey list查看windows保存凭证 方法1 mimikaz mimikatz vault cred 2 利用powershell尝试获取 windows 普通凭据类型中的明文密码 powershell import F
  • IPv6基础

    IPv6 1 优势 无限 地址空间 地址长度为128 bit 海量的地址空间 满足物联网等新兴业务 有利于业务演进及扩展 层次化的地址结构 相较于IPv4地址 IPv6地址的分配更加规范 利于路由聚合 缩减IPv6路由表规模 路由快速查询
  • 数的划分(递归)

    整数划分是另外的问题 题目描述 Description 将整数n分成k份 且每份不能为空 任意两种划分方案不能相同 不考虑顺序 例如 n 7 k 3 下面三种划分方案被认为是相同的 7 1 1 5 7 1 5 1 7 5 1 1 问有多少种
  • 7z怎么解压linux,7z 常用解压命令

    用命令行来执行7z的极限压缩 就是如下的命令 C 01 MyApp 7 Zip 7z exe a t7z newPack 7z F 14 newWork 7z testDoc r mx 9 m0 LZMA2 ms 10m mf on mhc
  • cmd简单游戏代码_python简单游戏应用——剪刀石头布!

    我们的基础中的基础 在前几文中已经介绍完了 其他的知识用什么学什么就对了 接下来我们做款小游戏 纵观全文 先引入了一个函数 random 随机数 单用random 这个函数 会产生一个随机的实数 范围在 0 1 若是要从自定的范围取出一个
  • 在flask框架中,设置执行完视图函数后自动将数据提交回数据库

    设置执行完视图函数后自动提交操作回数据库 app config SQLALCHEMY COMMIT ON TEARDOWN True
  • pytorch GPU版本安装

    使用驱动精灵安装 参考 pytorch GPU版本安装 尘世猫的博客 CSDN博客 pytorchgpu版本 安装cuda 高版本的cuda是可以兼容低版本的cuda的 比如我的电脑支持cuda11 0 我就可以安装cuda10 0 cud
  • 汽车OBD初级开发入门

    汽车OBD初级开发入门 我所认识的OBD 从何开始学习OBD stm32的CAN总线 OBD的标准协议 我所认识的OBD 直观的从名称上来说是英文On Board Diagnostics的缩写 中文翻译为 车载诊断系统 书面上的解释就是处理
  • 太强了!100个Python算法实例.pdf

    常言道 算法才是编程的灵魂 不管是java python还是PHP 都跨不过算法这个门槛 算法确实不好学 但算法也是真必要 各大公司为了筛选人才 面试程序员的时候多多少少都会考察你的算法能力 学习算法无非这几种目的 学习基本编程语法和思想
  • Python VTK numpy数据3D可视化

    在Python的3D图像处理中 通常用numpy array来进行非常方便的计算或者转化 这里记录一下numpy数据的VTK可视化基本流程 包括面绘制 Surfase Rendering 和体绘制 Volume Rendering 除去数据
  • 全局变量、静态全局变量、静态局部变量和普通局部变量的区别

    按存储区域分 全局变量 静态全局变量和静态局部变量都存放在内存的全局数据区 局部变量存放在内存的栈区 按作用域分 1 全局变量在整个工程文件内都有效 2 静态全局变量只在定义它的文件内有效 3 静态局部变量只在定义它的函数内有效 且程序仅分
  • 【FAQ】API6低代码开发问题汇总

    参考文档 低代码开发参考文档 文档中心 使用低代码进行开发 基于景区模板开发元服务 文档中心 模板简介 使用API6低代码开发遇到的问题汇总情况如下 1 低代码环境下 如何实现box shadow阴影效果的配置 答 低码目前不支持box s
  • 蓝牙之十七-bluedroid scan流程

    蓝牙扫描过程是指扫描蓝牙设备 app层 这里有两张截图 第一张图显示的是安卓设置setting菜单栏中有Bluetooth这一项 点进去以后 点击右上角显示如下的截图 其中Refresh就是刷新设备列表 也就会扫描设备信息 上图显示的三个菜
  • Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记

    GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记 最近在跟进多模态的情感分析发现多模态榜一又被刷下来了 这篇论文是当前时间内的最好的效果 下面就对论