Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

2023-11-17

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks

传统的视觉语言任务中,如果数据集是长尾分布的,attention机制更加关注head的信息,如果问及long-tail的问题会得到错误的答案。

符号 含义
C 共识
X 输入特征
Z attention从X中学到的信息
M 目标识别从X中提取的实体集
Y 输出标签

因果图:

C
X
M
Y
Z

C->M与C->X:X的特征提取需要依据共识,M是在共识的前提下从X中提取的
X->M与X->Z:M是在共识的前提下从X中提取的,Z是attention从X中学到的信息
M->Y与Z->Y:视觉语言任务中,Y是根据Z进行分类然后从M中的实体选择的

核心:运用前门调整公式
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) P(Y|do(X))=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x) P(Ydo(X))=zZP(Z=zX)xXP(X=x)P(YZ=z,X=x)
即同时运用全概率公式:
P ( Y ∣ X ) = ∑ z ∈ Z P ( Z = z ∣ X ) P ( Y ∣ Z = z ) P(Y|X)=\displaystyle \sum_{z \in Z}P(Z=z|X)P(Y|Z=z) P(YX)=zZP(Z=zX)P(YZ=z)
与后门调整公式:
P ( Y ∣ d o ( Z ) ) = ∑ x ∈ X P ( X = x ) P ( Y ∣ Z , X = x ) P(Y|do(Z))=\displaystyle \sum_{x \in X}P(X=x)P(Y|Z,X=x) P(Ydo(Z))=xXP(X=x)P(YZ,X=x)
其中 ∑ z P ( Z = z ∣ X ) \sum_{z}P(Z=z|X) zP(Z=zX)可以用In-Sample Sampling来去模拟,即从当前样本中学习信息; ∑ x P ( X = x ) \sum_{x}P(X=x) xP(X=x)可以用Cross-Sample Sampling来去模拟,这里的x不同于In-Sample Sampling中的x,因此是跨样本的信息采集。
采集到Z和X的信息之后,可以利用神经网络g来计算
P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) P(Y|Z,X=x)=Softmax(g(X,Z)) P(YZ,X=x)=Softmax(g(X,Z))
然后运用NWGM再把前面的两个采样方法加进来,把采样的过程转化为调整embedding的过程
因为 E x [ y ( x ) ] = ∑ x y ( x ) P ( x ) \mathbb{E}_x[y(x)]=\sum_x y(x)P(x) Ex[y(x)]=xy(x)P(x),而 W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) WGM(y(x))=\prod_x y(x)^{P(x)} WGM(y(x))=xy(x)P(x),前面是算数平均,后面是几何平均,如果X数量比较大那么二者是相当接近的,因此可以有
E x [ y ( x ) ] ≈ W G M ( y ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x)) Ex[y(x)]WGM(y(x))
y ( x ) = e g ( x ) y(x)=e^{g(x)} y(x)=eg(x)的前提下有:
W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = e ∑ x g ( x ) P ( x ) = e ∑ x E x ( g ( x ) ) \begin{aligned} WGM(y(x))&=\prod_x y(x)^{P(x)}\\ &=\prod_x {e^{g(x)}}^{P(x)}\\ &=\prod_x e^{g(x)P(x)}\\ &=e^{\displaystyle \sum_x g(x)P(x)}\\ &=e^{\displaystyle \sum_x \mathbb{E}_x(g(x))} \end{aligned} WGM(y(x))=xy(x)P(x)=xeg(x)P(x)=xeg(x)P(x)=exg(x)P(x)=exEx(g(x))
因此,有 E x [ y ( x ) ] ≈ W G M ( y ( x ) ) = e ∑ x E x ( g ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x))=e^{\sum_x \mathbb{E}_x(g(x))} Ex[y(x)]WGM(y(x))=exEx(g(x))
带入 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Ydo(X))
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) = E [ Z ∣ X ] E [ X ] [ P ( Y ∣ Z , X ) ] ≈ W G M ( P ( Y ∣ Z , X = x ) ) ≈ e g ( E [ Z ∣ X ] [ Z ] , E [ X ] [ X ] ) ≈ S o f t m a x [ g ( X ^ , Z ^ ) ] \begin{aligned} P(Y|do(X))&=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x)\\ &=\mathbb{E}_{[Z|X]}\mathbb{E}_{[X]}[P(Y|Z,X)]\\ &\approx WGM(P(Y|Z,X=x))\\ &\approx e^{g(\mathbb{E}_{[Z|X]}[Z],\mathbb{E}_{[X]}[X])}\\ &\approx Softmax[g(\hat{X},\hat{Z})] \end{aligned} P(Ydo(X))=zZP(Z=zX)xXP(X=x)P(YZ=z,X=x)=E[ZX]E[X][P(YZ,X)]WGM(P(YZ,X=x))eg(E[ZX][Z],E[X][X])Softmax[g(X^,Z^)]
在前面根据神经网络有 P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) ≈ e g ( X , Z ) P(Y|Z,X=x)=Softmax(g(X,Z)) \approx e^{g(X,Z)} P(YZ,X=x)=Softmax(g(X,Z))eg(X,Z),这不满足 P ( Y ∣ Z , X = x ) = e g ( X , Z ) P(Y|Z,X=x)=e^{g(X,Z)} P(YZ,X=x)=eg(X,Z)的前提,因此WGM后还需要近似。
最后softmax的目的是为了让所有概率加起来总和为1

其中:
Z ^ = ∑ z ∈ Z P ( Z = z ∣ h ( X ) ) z ≈ V I S o f t m a x ( Q I T K I ) \begin{aligned} \hat{Z}&=\displaystyle \sum_{z \in Z}P(Z=z|h(X))z\\ &\approx V_I Softmax({Q_I}^T K_I) \end{aligned} Z^=zZP(Z=zh(X))zVISoftmax(QITKI)
X ^ = ∑ x ∈ X P ( X = x ∣ f ( X ) ) x ≈ V C S o f t m a x ( Q C T K C ) \begin{aligned} \hat{X}&=\displaystyle \sum_{x \in X}P(X=x|f(X))x\\ &\approx V_C Softmax({Q_C}^T K_C) \end{aligned} X^=xXP(X=xf(X))xVCSoftmax(QCTKC)
CATT可以放在BERT架构或者其他Transformer模型的深度神经网络之前,很容易使用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解 的相关文章

随机推荐

  • 【每日多题之贪心】

    文章目录 1 分割平衡字符串 1 1 题目描述 1 2 题目分析 1 3 代码实现 2 最少操作数使数组递增 2 1 题目描述 2 2 题目分析 2 3 代码实现 3 卡车上的最大单元数 3 1 题目描述 3 2 题目分析 3 3 代码实现
  • 使用UML编写Java应用程序

    引言 统一建模语言 Unified Modeling Language 简写为UML 是一种通用的模拟语言 它可以用于确定 展示和记录软件系统的设计过程 统一建模语言中的图形标记 尤其是用于面向对象的软件设计 它有两大优点 1 UML是国际
  • iframe添加loading效果

    问题 当一个页面嵌入iframe时 iframe加载会有延迟 即在iframe元素展现前 嵌入iframe的父页面会有一段白屏情况 用户感知不到iframe页面在加载 体验效果不是很好 解决方法 为了提升用户体验 让用户感知到当前页面在加载
  • FISCO BCOS离线搭建单机单群组4节点

    系列文章目录 第一章 FISCO BCOS在线搭建单机单群组4节点 文章目录 系列文章目录 前言 一 安装准备 1 安装依赖包 2 创建操作目录 3 下载脚本 三 搭建单群组4节点联盟链 1 暂停并清除FISCO BCOS 2 搭建区块链
  • Python实战

    逆向完美世界登录 js代码调试阶段 1 查看密码关键字段 2 Ctrl shift f全局搜索 password 找到相关js文件 3 从代码的setpublickey encrypt关键字可以看出 使用了非对称加密算法 4 此处打断点 再
  • ubuntu 使用FFTW快速计算离散傅里叶变换

    FFTW the Faster Fourier Transform in the West 是一个快速计算离散傅里叶变换的标准C语言程序集 其由MIT的M Frigo 和S Johnson 开发 可计算一维或多维实和复数据以及任意规模的DF
  • 解决Xilinx_ISE 14.7在Win10下选择“open project”崩溃闪退的问题

    解决Xilinx ISE 14 7在Win10下选择 open project 崩溃闪退的问题 问题描述 ISE 14 7对win10无法完美支持 在使用64位ISE时点击OPEN之类的东西时程序都会崩溃 虽然使用32位不会有这个问题 但是
  • nvidia-docker容器迁移导致GPU启动失败解决方案

    引言 起因是最近发现一个很有趣的问题 当我的docker容器迁移到另一台服务器去 因为GPU版本不一致导致项目启动是会报错为 CUDA error CUDA ERROR NO DEVICE no CUDA capable device is
  • Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接 在Python中可以使用urllib对网页进行爬取 然后利用Beautiful Soup对爬取的页面进行解析 提取出所有的URL 什么是Beautiful Soup Beautiful Soup提供一些简单
  • mxnet.ndarray.slice_axis 沿给定轴切片

    mxnet ndarray slice axis data None axis Null begin Null end Null out None name None kwargs 作用 沿给定轴切片 返回沿给定轴从开始索引到结束索引的数组
  • 论文笔记-2019-Object Detection in 20 Years: A Survey

    Object Detection in 20 Years A Survey Zhengxia Zou Zhenwei Shi Member IEEE Yuhong Guo and Jieping Ye Senior Member IEEE论
  • kafkatemplate无法注入_Spring-Kafka(三)-KafkaTemplate发送消息及结果回调

    我们使用KafkaTemplate send String data 这个方法发送消息到Kafka中 显然这个方法并不能满足我们系统的需求 那我们需要查看一下KafkaTemplate所实现的接口 看看还提供了什么方法 当我们发送消息到Ka
  • WPS excel 使用 MAX() 函数为合并单元格自动填充序号编号

    在一些统计表格时会把一些内容使用合并单元格作归类 甚至需要给他们编号 每一个合并后的单元格包括的行数是不规律的 本文对不规律的单元格如何填充序号进行介绍 现有如下表格内容 需要 在 A 列 按照 B 列的功能单元格进行排序 步骤 1 如下图
  • HTML 初识

    前言 HTML的基本骨架 HTML基本骨架是构建网页的最基本的结果 指定文档类型为HTML5 表示整个HTML文档的根元素 包含了与文档相关的设置和定义 如字符编码 标题等
  • 微信支付--调起支付(整理、思路)

    小程序微信支付 小程序支付 public JSONObject minMpPay String reqBody throws Exception 第一步获取prepay id String prepayId WxPayV3Util v3Pa
  • windows线程同步 基础

    windows线程同步 基础 一 用户方式同步 同步速度非常快 互锁函数家族只能在单值上运行 根本无法使线程进入等待状态 可以使用关键代码段使线程进入等待状态 但是只能用这些代码段对单个进程中的线程实施同步 还有 使用关键代码段时 很容易陷
  • 拳王虚拟项目公社:低价电影票怎样赚钱,低价电影票实操赚钱方法

    不管是线上还是线下 资源的交换 讲究的是资源对等 尤其是资源 小白上路 往往没有什么方向感 每天不知道该干嘛 做什么行动有效果 如果看不到希望 特别磨灭一个人内心 这种痛苦是煎熬的 是难以忍受的 拳王虚拟项目公社 低价电影票怎样赚钱 低价电
  • JavaWeb知识梳理(后端部分)

    JavaWeb 静态web资源 如html 页面 指web页面中供人们浏览的数据始终是不变 动态web资源 指web页面中供人们浏览的数据是由程序产生的 不同时间点访问web页面看到的内容各不相同 静态web资源开发技术 HTML CSS
  • mysql存储过程之传递参数

    in 表示传入的参数 in 参数名1 参数类型 in 参数名2 参数类型 delimiter create procedure func in id int begin select from 表 where Id id 查询Id id的信
  • Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

    Causal Attention for Vision Language Tasks Paper Causal Attention for Vision Language Tasks 传统的视觉语言任务中 如果数据集是长尾分布的 atten