NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

2023-11-02

©PaperWeekly 原创 · 作者 | 杨浩

研究方向 | 自然语言处理

#01.

VL-T5

论文标题：

Unifying Vision-and-Language Tasks via Text Generation

收录会议：

ICML 2021

论文链接：

https://arxiv.org/abs/2102.02779

代码链接：

https://github.com/j-min/VL-T5

1.1 Motivation

提出了一个统一的框架、统一的训练目标，能够兼容 7 个多模态任务的学习。统一的训练方式是 multimodal conditional text generation，即输入视觉图片+文本，生成文本 label，不同的任务之间的知识可以共享。

1.2 Method

7 个多模态任务的 benchmark，包括 VQA, GQA, COCO Caption, NLVR2, VCR, MMT, REF-COCOg。所有任务的输入加上文本前缀（e.g.”vqa:”, “image text match:”）用于区分不同任务，输出都统一成 text label 的形式。对于 visual grounding 任务，图片特征输入时就加了类似 <vis_n> 的 region id，所以输出时可以用 text label “<vis_n>” 来指示预测的图片区域。

1.3 Contribution

提出任务统一框架，使用了 encoder-decoder 的 Transformer 结构。

#02.

CLIP

论文标题：

Learning Transferable Visual Models From Natural Language Supervision

收录会议：

ICML 2021

论文链接：

https://arxiv.org/abs/2103.00020

代码链接：

https://github.com/OpenAI/CLIP

2.1 Motivation

NLP 领域BERT/GPT 等可以利用大量的语料的数据进行自监督训练从而进行 pretrain，然而 CV 领域是用标注信息的分类数据集进行 pretrain (ImageNet)，是否能利用网上大规模的图片信息进行预训练，使用 natural language 作为 image representation 的监督信号，从而提升下游任务的效果。

2.2 Method

1. 利用从互联网爬取的 400 million 个 image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于 30 个现存的计算机视觉——OCR、动作识别、细粒度分类等。

2. 使用对比学习的方法，做图文匹配的任务，计算相似度。给定 batch=N 的 image-text pairs，CLIP 预测 NxN 的概率（利用线性变换得到 multi-modal embedding space 的向量，点乘计算得到相似度），对角线即为正样本，其它都是负样本。

2.3 Contribution

无需利用 ImageNet 的数据进行训练，就可以达到 ResNet-50 在该数据集上有监督训练的结果。

#03.

Frozen

论文标题：

Multimodal Few-Shot Learning with Frozen Language Models

收录会议：

NeurIPS 2021

论文链接：

https://arxiv.org/abs/2106.13884

3.1 Motivation

借鉴 NLP 中 prompt 工作，Frozen 可以看成是一种 image conditional 下的 prompt learning，即将连续的 prompt 特征学习变成是来自于图片的特征（由另一个网络训练产生）。探究了固定语言模型参数下如何学习多模态任务。

3.2 Method

Vision Encoder 编码得到图片特征，再映射为 n 个 prompt 向量加到文本表示之前。Language Model 使用了一个 7 billion 参数规模的预训练好的模型；Vision Encoder 使用了 NF-ResNet-50。

3.3 Contribution

通过将 prompt 扩展到有序的图像，将大型语言模型转换为多模态语言模型的方法同时保留语言模型的文本提示能力，在 VQA、OKVQA、miniImageNet 等多个数据集验证了迁移学习的效果。由于 Visiual Encoder 和文本的处理比较简单，模型效果离 SOTA 有一定的距离。

#04.

CoOp

论文标题：

Learning to Prompt for Vision-Language Models

收录会议：

NeurIPS 2021

论文链接：

https://arxiv.org/abs/2109.01134

代码链接：

https://github.com/KaiyangZhou/CoOp

4.1 Motivation

CLIP 中使用的手工 prompt 有两个缺点：1）需要额外的知识和人力来为每个下游任务/数据集设计合适的 prompt，当数据集或者下游任务很多时非常耗时耗力；2）手工 prompt 不太稳定，对某个单词可能很敏感。把 NLP 中离散 token->连续 token 思路引入进来。

4.2 Method

在 class 前面加入一组 prompt 连续向量，续可学的 prompt 具体又可分为 unified context 和 class-specific context (CSC) 两种。实验发现 class-specific context (CSC) 这种类型的 prompt 对细粒度图片分类任务更有用，而在一般的数据集上，unified context 效果更好。

4.3 Contribution

在图片分类任务上的 few-shot learning 设置上，连续 prompts 比 CLIP 中手工定制的 prompt 效果有很大提升。

#05.

MAnTiS

论文标题：

Multimodal Conditionality for Natural Language Generation

论文链接：

https://arxiv.org/abs/2109.01229

5.1 Motivation

将 prompt 方法应用到文案生成。

5.2 Method

image 和 text（即商品 title），分别用 ResNet-152 和 embedding 映射到语言模型的同一个空间中为为 prompt，同时作为条件的文本输入和生成序列一同进行编码，最后再经过 Transformer Decoder 得到输出的描述。

5.3 Contribution

文案生成效果中融入视觉效果，使得生成效果更佳。

#06.

CPT

论文标题：

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

论文链接：

https://arxiv.org/abs/2109.11797

6.1 Motivation

将 prompt 方法应用到 visual grounding 任务上，将任务转化为完形填空问题。

6.2 Method

对图片中的 object 一些被涂上不同颜色的图片，然后把文本当作问题，最后回答什么颜色的图片是问题的答案并填空。

6.3 Contribution

该方法在 visual grounding 任务上 zero/few shot 场景下取得了非常好的表现。

#07.

CLIP-Adapter

论文标题：

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

论文链接：

https://arxiv.org/abs/2110.04544

代码链接：

https://github.com/gaopengcuhk/clip-adapter

7.1 Motivation

soft prompt 优化的 CoOp，由于 CLIP 的过度参数化和缺乏足够的训练样本，简单的网络调整会导致对特定数据集的过拟合。从而本文只需对轻量级附加特征适配器进行微调，受参数有效迁移学习中适配器模块的启发，作者提出了 CLIP-Adapter，它只调整少量额外权重，而不是优化 CLIP 的所有参数。

7.2 Method

1. CLIP Adapter 仅在视觉或语言主干的最后一层之后添加了两个额外的线性层；相反，原始适配器模块插入到语言主干的所有层中；

2. CLIP Adapter 通过残差连接将原始 Zero-Shot 视觉或语言嵌入与相应的网络调整特征混合。通过这种“残差样式混合”，CLIP Adapter 可以同时利用原始 CLIP 中存储的知识和来自 Few-Shot 训练样本的新学习的知识。

7.3 Contribution

在 11 个数据集上 few-shot 的实验结果，CLIP-Adapter 明显优于 CoOp 和 CLIP。

#08.

DenseCLIP

论文标题：

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

论文链接：

https://arxiv.org/abs/2112.01518

收录会议：

CVPR 2022

代码链接：

https://github.com/raoyongming/denseclip

8.1 Motivation

1. CoOp 中可学的 prompt 是 task-level 或者 class-level 的，不能随着每个输入数据样例的变化而变化，本文设计了 instance-level 的 prompt，即把视觉（图片）特征注入到 prompt 向量中去，所以每个数据对应的 prompt 都是不一样的，引入了数据侧的信息。

2. 从图像-文本对中学习到的知识转移到更复杂的密集预测任务的问题几乎没有被研究（目标检测、语义分割和动作识别等）。在这项工作中，作者通过隐式和显式地利用 CLIP 的预训练的知识，提出了一个新的密集预测框架。

8.2 Method

pre-model prompting：在文本编码器之前将视觉特征和可学习 soft tokens 传递给 Transformer 解码器生成。

prompt post-model prompting：在文本编码器之后将视觉特征和类别向量传递给 Transformer 解码器生成类别向量表示。

8.3 Contribution

提出一个更通用的框架，可以利用从大规模预训练中学到的自然语言先验来改善密集预测。

#09.

PromptFuse

论文标题：

Prompting as Multimodal Fusing

论文链接：

https://openreview.net/pdf?id=wWZCNLkK-FK

9.1 Motivation

对 Frozen 的改进，Frozen 中的 image encoder 同时完成了两个目标：提取视觉特征、对齐图文空间的表示。本文对这两个目标解耦，image encoder 只负责编码图像特征，而对齐图文空间表示的任务交给 prompt 向量来做。这样视觉编码器的参数也变成固定的了，只有 prompt 向量的参数是可训练的。

这样做有两个好处：1）整个架构更加模块化，可以灵活调整视觉编码器，也可以灵活地加入其他模态；2）实现了更高的参数效率，视觉编码器中的大量参数都可以冻结，只需要调整 prompt 向量即可。本文还提出了一种特殊的 attention mask，它迫使 prompt 对所有输入数据都是不可见的，称为 BlindPrompt。

9.2 Method

固定视觉编码器和文本编码器，只更新 prompt 向量。

9.3 Contribution

相比 Fintune 上对于 few-shot 和 full-shot 上有些效果上的提升。

#10.

UniVL

论文标题：

Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation

论文链接：

https://arxiv.org/abs/2112.05587

10.1 Motivation

提出理解与生成统一的多模态预训练，使用 mixing causal mask，下游任务使用 prompt 进行 fintune。

10.2 Method

预训练使用图文对比学习+MLM+图文匹配 loss。

10.3 Contribution

在图文检索 full-shot/zero-shot 相比 UNITER、CLIP 等有所提升，在 Image captioning 和 VQA 上效果也有提升，但是没有达到 SOTA 水平。

#11.

VL-Adapter

论文标题：

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

论文链接：

https://arxiv.org/abs/2112.06825

11.1 Motivation

在大型文本语料库上预训练的语言模型的微调在视觉和语言（V&L）任务以及纯语言任务上提供了巨大的改进。然而，由于模型规模迅速增长，对预训练模型的整个参数集进行微调变得不切实际。

11.2 Method

将三种流行的基于适配器的方法（Adapter, Hyperformer, Compacter）与标准的完全微调和最近提出的提示微调方法进行比较，应用到多模态任务。

11.3 Contribution

用权重共享技术训练适配器（占总参数的 4.4%）可以与微调整个模型的性能相匹配。

#12.

OFA

论文标题：

Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

论文链接：

https://arxiv.org/abs/2202.03052

代码链接：

https://github.com/OFA-Sys/OFA

12.1 Motivation

模态、任务、结构统一的模型 OFA，将多模态及单模态的理解和生成任务统一到 1 个简单的 Seq2Seq 生成式框架中，OFA 执行预训练并使用任务 instruction/prompt 进行微调，并且没有引入额外的任务特定层进行微调。

12.2 Method

统一模态：统一图片、视频、文本的多模态输入形式；统一结构：采取统一采用 Seq2Seq 生成式框架；统一任务：对不同任务人工设计了 8 种任务指令。

12.3 Contribution

OFA 覆盖的下游任务横跨多模态生成、多模态理解、图片分类、自然语言理解、文本生成等多个场景，在图文描述、图像生成、视觉问答、图文推理、物体定位等多个风格各异的任务上取得 SOTA。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展的相关文章

如何把父母和孩子联系起来？

有两个简单的类一个只有parent属性并且两者兼而有之parent and children属性这意味着同时具备两者的人parent and children继承自唯一的parent 这是只有parent属性我们就这样称呼它吧Chi
为什么 Mypy 在 __init__ 中分配已在类主体中进行类型提示的属性时不给出键入错误？

这是我的示例 python 文件 class Person name str age int def init self name age self name name self age age p Person 5 5 但当我跑步时myp
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
Python 内置对象的 __enter__() 和 __exit__() 在哪里定义？

我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法我知道对于用户定义的对象您可以自己定义这些方法但我不明白这对于打开等内置对象函数甚至测试用例是如何工作的这段代码按预期工作我假设它使用 exit 关
使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
无法通过 Android 应用程序访问我的笔记本电脑的本地主机

因此我在发布此内容之前做了一项研究我发现的解决方案不起作用更准确地说连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用连接到10 0 2 2 加上端口不起作用我需要测试使用 Django Rest 框架构建的
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
在Python中使用pil读取tif图像时出现值错误？

我必须读取尺寸的tif图像2200 2200并输入 uint16 我将 PIL 库与 anaconda python 一起使用如下所示 from PIL import Image img Image open test tif img i
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

linux中网络配置工具“nmcli”

网络配置工具nmcli 一查看网卡信息 1 重启网络服务及查看网络状态 systemctl restart network 重启网络服务 systemctl status network 查看网络状态 2 查看网卡具体IP信息使用命令
【Python】使用smtplib+email实现邮件发送正文+附件+抄送

使用smtplib email实现邮件发送正文附件抄送可以先封装一个Email类 class Email object def init self host user pwd milelist text Subject cclist
Mac 常用的 20 款效率神器推荐

文章目录 01 IntelliJ IDEA JetBrains 系列产品 02 GoLand JetBrains 系列产品 03 Alfred 04 Google Chrome 05 iTerm2 06 Manico 07 Paste 08
【充电站】_世俗智慧_哲学智慧_.

世俗智慧哲学智慧世俗智慧是对既存价值体系的准确认识和有效利用哲学智慧是对既存价值体系的全面反思和对根本人生问题的深刻洞见太追求世俗智慧你会发现自己是社会的是公司的是他人的唯独不是自己的渐渐会活得跟千千万万的别人一样从世俗
大数据基础知识——数仓的搭建（维度建模）

数据仓库文章目录数据仓库数据仓库的介绍数据仓库的概念 OLTP和OLAP区别数据仓库的特点面向主题数据集成非易失时变数据仓库系统架构系统结构图源数据 ETL 数据仓库与数据集市应用系统用户层纬度分析维度分析介
zookeeper常用命令行操作

常见的zookeeper命令行操作在3台机器分别部署了zookeeper 3 4 5 集群本文操作是在此基础上进行的部署详情参见上一篇文章客户端登录与帮助查看由于是集群模式所以可以在3台机器的其中任意一台进行登录操作结果和数据
公司的组成

集团公司 group company 1 董事 board 董事长相当于国家主席董事 Member of the Board Director 又称执行董事是指由公司股东会选举产生的具有实际权力和权威的管理公司事务的人员是公司内部治理
一文搞懂Elastic-Job（内附源码解析）

前言 Elastic Job是当当基于Zookepper Quartz开发并且开源的Java分布式定时任务解决Quartz不支持分布式的弊端它由两个相互独立的子项目Elastic Job Lite和Elastic Job Cloud组成
JS 浅拷贝与深拷贝

JS 浅拷贝与深拷贝关于深拷贝与浅拷贝的概念在此不在赘述本篇只讲述如何实现深拷贝针对数组与对象 1 切实可行的深拷贝 1 1 自定义拷贝函数 const cloneDeep value gt 非数组和非对象直接返回值即可 if val
四开关管BUCK_BOOT三种工作模式切换基本介绍（个人学习心得）
【蓝桥杯】-- 竞赛规则及说明（Python程序设计）

蓝桥杯竞赛规则及说明 Python程序设计本文来自蓝桥杯官网官网地址 http dasai lanqiao cn 组别本次竞赛拟不分组别所有研究生重点本科普通本科和高职高专院校均可报名该组统一评奖竞赛赛程全国选拔赛时长
java运算符（++运算和+=运算）

package sort public class Qperator public static void main String args int a 5 int b 10 int c a b int d a b a b System o
Quartus II 18.1的下载安装和注册

前言本文章主要教学Quartus II 18 1安装教学以及使用方法的介绍说明一 Quartus的下载进入Quartus官网点击下载Windows版选择所需要的软件版本推荐使用18 1版本的下载Quartus软件包和Model
verdi学习总结

verdi学习总结本篇文章关于Verdi的使用并长期进行补充与更新 verdi简介 verdi用来查看fsdb波形进行代码的debug 使用流程 1 在tb文件中dump相应的要调试的信号 fsdbDumpvars 0 test top
12V转5V2A电源模块的电路集合

目前工作上所用到的电源模块都整理出来以便之后的不时之需建议在稳定的12V左右的电源下应用该模块 1 TPS54331DR 该芯片目前在TB中大概为1 1 RMB 价格也还能接收主要的特点就是体积小但是电路比较复杂在放置PCB的过程
【C++】模板特化

模板特化的必要性使用模板可以实现一些与类型无关的代码但对于一些特殊类型的可能会得到一些错误的结果比如 template
机器人编程是用计算机编吗,机器人编程与电脑编程有何区别？官方专家为你详细解说！...

近年来无论是国外还是国内都掀起了一股编程热潮许多编程课程纷纷涌现很多家长为了孩子不输在起跑线上报名各种机器人编程电脑编程等课程一些家长也许存在这样的疑问我们想要报名学习编程但是应该报机器人编程呢还是电脑编程呢 1 机器人和
如何捕获micropython 报错的详细信息行数具体错误内容等

电脑端可以用traceback来找 mpy没有这个模块咋办自己搞啊翻WIKI 有个sys print exception函数然后简单包装一下完事儿从不废话都是干货 import io import sys class ERR
JAVA中StringBuffer和数组的区别

共同点两者都可以看作是一种容器都可以存放其他的数据不同点 StringBuffer最终会是一个字符串类型数组可以存放多种类型的数据每个数组的类型必须是一样的
NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly 原创作者杨浩研究方向自然语言处理 01 VL T5 论文标题 Unifying Vision and Language Tasks via Text Generation 收录会议 ICML 2021 论文链

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展 的相关文章

随机推荐

热门标签

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展的相关文章