Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

2023-11-17

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks

传统的视觉语言任务中，如果数据集是长尾分布的，attention机制更加关注head的信息，如果问及long-tail的问题会得到错误的答案。

符号	含义
C	共识
X	输入特征
Z	attention从X中学到的信息
M	目标识别从X中提取的实体集
Y	输出标签

因果图：

C->M与C->X：X的特征提取需要依据共识，M是在共识的前提下从X中提取的
X->M与X->Z：M是在共识的前提下从X中提取的,Z是attention从X中学到的信息
M->Y与Z->Y：视觉语言任务中，Y是根据Z进行分类然后从M中的实体选择的

核心：运用前门调整公式
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) P(Y|do(X))=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x) P(Y∣do(X))=z∈Z∑P(Z=z∣X)x∈X∑P(X=x)P(Y∣Z=z,X=x)
即同时运用全概率公式：
P ( Y ∣ X ) = ∑ z ∈ Z P ( Z = z ∣ X ) P ( Y ∣ Z = z ) P(Y|X)=\displaystyle \sum_{z \in Z}P(Z=z|X)P(Y|Z=z) P(Y∣X)=z∈Z∑P(Z=z∣X)P(Y∣Z=z)
与后门调整公式：
P ( Y ∣ d o ( Z ) ) = ∑ x ∈ X P ( X = x ) P ( Y ∣ Z , X = x ) P(Y|do(Z))=\displaystyle \sum_{x \in X}P(X=x)P(Y|Z,X=x) P(Y∣do(Z))=x∈X∑P(X=x)P(Y∣Z,X=x)
其中 ∑ z P ( Z = z ∣ X ) \sum_{z}P(Z=z|X) ∑zP(Z=z∣X)可以用In-Sample Sampling来去模拟，即从当前样本中学习信息； ∑ x P ( X = x ) \sum_{x}P(X=x) ∑xP(X=x)可以用Cross-Sample Sampling来去模拟，这里的x不同于In-Sample Sampling中的x，因此是跨样本的信息采集。
采集到Z和X的信息之后，可以利用神经网络g来计算
P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) P(Y|Z,X=x)=Softmax(g(X,Z)) P(Y∣Z,X=x)=Softmax(g(X,Z))
然后运用NWGM再把前面的两个采样方法加进来，把采样的过程转化为调整embedding的过程
因为 E x [ y ( x ) ] = ∑ x y ( x ) P ( x ) \mathbb{E}_x[y(x)]=\sum_x y(x)P(x) Ex[y(x)]=∑xy(x)P(x)，而 W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) WGM(y(x))=\prod_x y(x)^{P(x)} WGM(y(x))=∏xy(x)P(x)，前面是算数平均，后面是几何平均，如果X数量比较大那么二者是相当接近的，因此可以有
E x [ y ( x ) ] ≈ W G M ( y ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x)) Ex[y(x)]≈WGM(y(x))
在 y ( x ) = e g ( x ) y(x)=e^{g(x)} y(x)=eg(x)的前提下有：
W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = e ∑ x g ( x ) P ( x ) = e ∑ x E x ( g ( x ) ) \begin{aligned} WGM(y(x))&=\prod_x y(x)^{P(x)}\\ &=\prod_x {e^{g(x)}}^{P(x)}\\ &=\prod_x e^{g(x)P(x)}\\ &=e^{\displaystyle \sum_x g(x)P(x)}\\ &=e^{\displaystyle \sum_x \mathbb{E}_x(g(x))} \end{aligned} WGM(y(x))=x∏y(x)P(x)=x∏eg(x)P(x)=x∏eg(x)P(x)=ex∑g(x)P(x)=ex∑Ex(g(x))
因此，有 E x [ y ( x ) ] ≈ W G M ( y ( x ) ) = e ∑ x E x ( g ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x))=e^{\sum_x \mathbb{E}_x(g(x))} Ex[y(x)]≈WGM(y(x))=e∑xEx(g(x))
带入 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Y∣do(X))有
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) = E [ Z ∣ X ] E [ X ] [ P ( Y ∣ Z , X ) ] ≈ W G M ( P ( Y ∣ Z , X = x ) ) ≈ e g ( E [ Z ∣ X ] [ Z ] , E [ X ] [ X ] ) ≈ S o f t m a x [ g ( X ^ , Z ^ ) ] \begin{aligned} P(Y|do(X))&=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x)\\ &=\mathbb{E}_{[Z|X]}\mathbb{E}_{[X]}[P(Y|Z,X)]\\ &\approx WGM(P(Y|Z,X=x))\\ &\approx e^{g(\mathbb{E}_{[Z|X]}[Z],\mathbb{E}_{[X]}[X])}\\ &\approx Softmax[g(\hat{X},\hat{Z})] \end{aligned} P(Y∣do(X))=z∈Z∑P(Z=z∣X)x∈X∑P(X=x)P(Y∣Z=z,X=x)=E[Z∣X]E[X][P(Y∣Z,X)]≈WGM(P(Y∣Z,X=x))≈eg(E[Z∣X][Z],E[X][X])≈Softmax[g(X^,Z^)]
在前面根据神经网络有 P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) ≈ e g ( X , Z ) P(Y|Z,X=x)=Softmax(g(X,Z)) \approx e^{g(X,Z)} P(Y∣Z,X=x)=Softmax(g(X,Z))≈eg(X,Z),这不满足 P ( Y ∣ Z , X = x ) = e g ( X , Z ) P(Y|Z,X=x)=e^{g(X,Z)} P(Y∣Z,X=x)=eg(X,Z)的前提，因此WGM后还需要近似。
最后softmax的目的是为了让所有概率加起来总和为1

其中：
Z ^ = ∑ z ∈ Z P ( Z = z ∣ h ( X ) ) z ≈ V I S o f t m a x ( Q I T K I ) \begin{aligned} \hat{Z}&=\displaystyle \sum_{z \in Z}P(Z=z|h(X))z\\ &\approx V_I Softmax({Q_I}^T K_I) \end{aligned} Z^=z∈Z∑P(Z=z∣h(X))z≈VISoftmax(QITKI)
X ^ = ∑ x ∈ X P ( X = x ∣ f ( X ) ) x ≈ V C S o f t m a x ( Q C T K C ) \begin{aligned} \hat{X}&=\displaystyle \sum_{x \in X}P(X=x|f(X))x\\ &\approx V_C Softmax({Q_C}^T K_C) \end{aligned} X^=x∈X∑P(X=x∣f(X))x≈VCSoftmax(QCTKC)
CATT可以放在BERT架构或者其他Transformer模型的深度神经网络之前，很容易使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解的相关文章

词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
使用印度名字训练 Spacy NER

我正在尝试自定义 Spacy 的 NER 来识别印度名字遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
BERT 获取句子嵌入

我正在复制代码这一页 https colab research google com drive 1yFphU6PW9Uo6lmDly ud9a6c4RCYlwdX 我已将 BERT 模型下载到本地系统并获取句子嵌入我有大约 500 00

随机推荐

【每日多题之贪心】

文章目录 1 分割平衡字符串 1 1 题目描述 1 2 题目分析 1 3 代码实现 2 最少操作数使数组递增 2 1 题目描述 2 2 题目分析 2 3 代码实现 3 卡车上的最大单元数 3 1 题目描述 3 2 题目分析 3 3 代码实现
使用UML编写Java应用程序

引言统一建模语言 Unified Modeling Language 简写为UML 是一种通用的模拟语言它可以用于确定展示和记录软件系统的设计过程统一建模语言中的图形标记尤其是用于面向对象的软件设计它有两大优点 1 UML是国际
iframe添加loading效果

问题当一个页面嵌入iframe时 iframe加载会有延迟即在iframe元素展现前嵌入iframe的父页面会有一段白屏情况用户感知不到iframe页面在加载体验效果不是很好解决方法为了提升用户体验让用户感知到当前页面在加载
FISCO BCOS离线搭建单机单群组4节点

系列文章目录第一章 FISCO BCOS在线搭建单机单群组4节点文章目录系列文章目录前言一安装准备 1 安装依赖包 2 创建操作目录 3 下载脚本三搭建单群组4节点联盟链 1 暂停并清除FISCO BCOS 2 搭建区块链
Python实战

逆向完美世界登录 js代码调试阶段 1 查看密码关键字段 2 Ctrl shift f全局搜索 password 找到相关js文件 3 从代码的setpublickey encrypt关键字可以看出使用了非对称加密算法 4 此处打断点再
ubuntu 使用FFTW快速计算离散傅里叶变换

FFTW the Faster Fourier Transform in the West 是一个快速计算离散傅里叶变换的标准C语言程序集其由MIT的M Frigo 和S Johnson 开发可计算一维或多维实和复数据以及任意规模的DF
解决Xilinx_ISE 14.7在Win10下选择“open project”崩溃闪退的问题

解决Xilinx ISE 14 7在Win10下选择 open project 崩溃闪退的问题问题描述 ISE 14 7对win10无法完美支持在使用64位ISE时点击OPEN之类的东西时程序都会崩溃虽然使用32位不会有这个问题但是
nvidia-docker容器迁移导致GPU启动失败解决方案

引言起因是最近发现一个很有趣的问题当我的docker容器迁移到另一台服务器去因为GPU版本不一致导致项目启动是会报错为 CUDA error CUDA ERROR NO DEVICE no CUDA capable device is
Python爬虫如何获取页面内所有URL链接？本文详解

如何获取一个页面内所有URL链接在Python中可以使用urllib对网页进行爬取然后利用Beautiful Soup对爬取的页面进行解析提取出所有的URL 什么是Beautiful Soup Beautiful Soup提供一些简单
mxnet.ndarray.slice_axis 沿给定轴切片

mxnet ndarray slice axis data None axis Null begin Null end Null out None name None kwargs 作用沿给定轴切片返回沿给定轴从开始索引到结束索引的数组
论文笔记-2019-Object Detection in 20 Years: A Survey

Object Detection in 20 Years A Survey Zhengxia Zou Zhenwei Shi Member IEEE Yuhong Guo and Jieping Ye Senior Member IEEE论
kafkatemplate无法注入_Spring-Kafka（三）-KafkaTemplate发送消息及结果回调

我们使用KafkaTemplate send String data 这个方法发送消息到Kafka中显然这个方法并不能满足我们系统的需求那我们需要查看一下KafkaTemplate所实现的接口看看还提供了什么方法当我们发送消息到Ka
WPS excel 使用 MAX() 函数为合并单元格自动填充序号编号

在一些统计表格时会把一些内容使用合并单元格作归类甚至需要给他们编号每一个合并后的单元格包括的行数是不规律的本文对不规律的单元格如何填充序号进行介绍现有如下表格内容需要在 A 列按照 B 列的功能单元格进行排序步骤 1 如下图
HTML 初识

前言 HTML的基本骨架 HTML基本骨架是构建网页的最基本的结果指定文档类型为HTML5 表示整个HTML文档的根元素包含了与文档相关的设置和定义如字符编码标题等
微信支付--调起支付（整理、思路）

小程序微信支付小程序支付 public JSONObject minMpPay String reqBody throws Exception 第一步获取prepay id String prepayId WxPayV3Util v3Pa
windows线程同步基础

windows线程同步基础一用户方式同步同步速度非常快互锁函数家族只能在单值上运行根本无法使线程进入等待状态可以使用关键代码段使线程进入等待状态但是只能用这些代码段对单个进程中的线程实施同步还有使用关键代码段时很容易陷
拳王虚拟项目公社：低价电影票怎样赚钱，低价电影票实操赚钱方法

不管是线上还是线下资源的交换讲究的是资源对等尤其是资源小白上路往往没有什么方向感每天不知道该干嘛做什么行动有效果如果看不到希望特别磨灭一个人内心这种痛苦是煎熬的是难以忍受的拳王虚拟项目公社低价电影票怎样赚钱低价电
JavaWeb知识梳理(后端部分)

JavaWeb 静态web资源如html 页面指web页面中供人们浏览的数据始终是不变动态web资源指web页面中供人们浏览的数据是由程序产生的不同时间点访问web页面看到的内容各不相同静态web资源开发技术 HTML CSS
mysql存储过程之传递参数

in 表示传入的参数 in 参数名1 参数类型 in 参数名2 参数类型 delimiter create procedure func in id int begin select from 表 where Id id 查询Id id的信
Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

Causal Attention for Vision Language Tasks Paper Causal Attention for Vision Language Tasks 传统的视觉语言任务中如果数据集是长尾分布的 atten

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解 的相关文章

随机推荐

热门标签

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解的相关文章