为什么 Bert Transformer 使用 [CLS] 令牌进行分类而不是对所有令牌进行平均？

2024-02-29

我正在对 bert 架构进行实验，发现大多数微调任务都将最终的隐藏层作为文本表示，然后将其传递给其他模型以进行进一步的下游任务。

Bert 的最后一层如下所示：

我们获取每个句子的 [CLS] 标记：

图片来源 https://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/

我对此进行了多次讨论拥抱问题 https://github.com/huggingface/transformers/issues/1950, 数据科学论坛问题 https://datascience.stackexchange.com/questions/66207/what-is-purpose-of-the-cls-token-and-why-its-encoding-output-is-important, github问题 https://github.com/google-research/bert/issues/196大多数数据科学家给出了这样的解释：

BERT 是双向的，[CLS] 被编码，包括所有通过多层的所有代币的代表性信息编码过程。 [CLS] 的表示是单独的不同的句子。

我的问题是，为什么作者忽略其他信息（每个标记的向量）并采用平均值、max_pool或其他方法来利用所有信息而不是使用[CLS]标记进行分类？

与所有标记向量的平均值相比，这个 [CLS] 标记有何帮助？

BERT 主要是为迁移学习而设计的，即对特定任务数据集进行微调。如果对状态进行平均，则每个状态都会以相同的权重进行平均：包括停用词或与任务不相关的其他内容。这[CLS]向量是使用自注意力计算的（就像 BERT 中的所有内容一样），因此它只能从其余隐藏状态收集相关信息。所以，从某种意义上说[CLS]向量也是令牌向量的平均值，只是计算得更巧妙，特别是针对您微调的任务。

另外，我的经验是，当我保持重量固定并且do not微调 BERT，使用 token 平均值会产生更好的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Bert Transformer 使用 [CLS] 令牌进行分类而不是对所有令牌进行平均？的相关文章

BertForSequenceClassification 如何在 CLS 向量上进行分类？

背景跟着这个question https stackoverflow com questions 60876394 does bertforsequenceclassification classify on the cls vector
Tensorflow图像读取空

这个问题是基于 Tensorflow图像读取与显示 https stackoverflow com questions 33648322 tensorflow image reading display 根据他们的代码我们得到以下内容 s
如何在pytorch中动态索引张量？

例如我有一个张量 tensor torch rand 12 512 768 我得到了一个索引列表说它是 0 2 3 400 5 32 7 8 321 107 100 511 我希望从给定索引列表的维度 2 上的 512 个元素中选择 1
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
Tensorflow 对象检测 API 无效参数：元组组件 16 中的形状不匹配。预期为 [1,?,?,3]，得到 [1,182,322,4]

这是来自的后续问题这个 Github 问题 https github com tensorflow tensorflow issues 13044 长话短说我尝试将 Tensorflow 对象检测 API 与我自己的数据集结合使用一切都
根据caffe中的“badness”缩放损失值

我想根据训练期间当前预测与正确标签的接近远近来缩放每个图像的损失值例如如果正确的标签是猫而网络认为它是狗那么惩罚损失应该小于网络认为它是汽车的情况我正在做的方式如下 1 我定义了标签之间距离的矩阵 2 将该矩
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
Tensorflow如何生成不平衡组合数据集

我对新数据集 API tensorflow 1 4 有疑问我有两个数据集我需要创建一个组合的不平衡数据集即每个批次应包含第一个数据集中一定数量的元素和第二个数据集中一定数量的元素例如 dataset1 tf data Datase
Tensorflow：尽管数据中没有字符串，但使用 tflearn 时不支持将字符串转换为浮点数错误

我似乎无法在我的代码中找到错误其中有任何字符串被错误地转换为浮点数但它却给了我这个错误 W tensorflow core framework op kernel cc 958 Unimplemented Cast string to
从字符串列表创建 TfRecords 并在解码后在张量流中提供图形

目的是创建 TfRecords 数据库给定我有 23 个文件夹每个文件夹包含 7500 个图像以及 23 个文本文件每个文件有 7500 行描述单独文件夹中 7500 个图像的特征我通过以下代码创建了数据库 import ten
提高SVM分类器准确率的技术

我正在尝试使用 UCI 数据集构建一个分类器来预测乳腺癌我正在使用支持向量机尽管我尽最大努力提高分类器的准确性但仍无法超过 97 062 我尝试过以下方法 1 Finding the most optimal C and gamma
使用keras进行K折交叉验证

由于神经网络的运行时间巨大卷积网络中的 k 折交叉验证似乎没有受到重视我有一个小数据集我有兴趣使用给出的示例进行 k 折交叉验证here https gist github com fchollet 0830affa1f7f19fd4
Tensorflow seq2seq 获取序列隐藏状态

我不久前才开始研究tensorflow 我正在研究 seq2seq 模型并以某种方式让教程起作用但我一直坚持获取每个句子的状态据我了解 seq2seq 模型采用输入序列并通过 RNN 为序列生成隐藏状态随后模型使用序列的隐藏状态来
如何在 python 中使用 libSVM 计算精度、召回率和 F 分数

我想计算precision recall and f score using libsvm在Python中但我不知道如何我已经发现这个网站 http www csie ntu edu tw cjlin libsvmtools eval
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
交换keras中的张量轴

我想将图像批次的张量轴从 batch size row col ch 交换为批次大小通道行列在 numpy 中这可以通过以下方式完成 X batch np moveaxis X batch 3 1 我该如何在 Keras 中做到
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
如何解释tf.map_fn的结果？

看代码 import tensorflow as tf import numpy as np elems tf ones 1 2 3 dtype tf int64 alternates tf map fn lambda x x x x el
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

SQL从另一列插入不同值的计数

我目前正在努力解决以下查询我在数据库中有一个表其中包含公司列表及其拥有的许多产品我正在寻找Count的数量独特的产品他们拥有并将其插入到表中其公司名称所在的行中我尝试过以下方法 INSERT INTO table name SET
如何在 JavaScript 中有效地将大块细分为许多大小为 2 的幂的小块

建设关闭这个答案 https stackoverflow com questions 66253424 how to efficiently segment a large block of predefined size into sma
Android 编译器上的 Delphi PATH 错误

我刚刚在我办公室的 DELL 工作站中安装了 Delphi 10 Seattle 并且能够编译 32 位和 64 位当我选择Android时出现这样的错误执行错误命令 PATH C Program 文件 Java jdk1 7 0
使用 OpenCV 2.2 实施 Sift

有人知道 SIFT 实现示例与 OpenCV 2 2 的链接吗问候下面是一个最小的例子 include
如何知道 Cosmos 中的 Cygnus 通知表名称？

我正在使用 Cygnus 通过 httpfs 向 Cosmos 发送 Orion Context Broker 通知 Hive 历史记录中发送到 Cosmos 的数据存储在哪里存储 Cygnus 数据的表的名称是什么 Cygnus 在 C
Flask URL Route：将所有其他 URL 路由到某个函数

我正在使用 Flask 0 9 我有使用 Google App Engine 的经验在 GAE 中 url 匹配模式按照它们出现的顺序进行评估先到先得 Flask 中也是同样的情况吗在 Flask 中如何编写 url 匹配模式来处理
Android 多屏限定符定义

我想创建一个与大量设备和屏幕兼容的布局我一直在研究发现最常见的屏幕分辨率是 249x320 480x800 600x1024 720x1280 以及与这些成比例的其他一些屏幕好吧阅读文档后我发现有两种方法可以做到这一点到 3 2
使用 J2V8 从 .js 执行函数

我正在使用 J2V8 在 Android 上执行 JavaScript 代码在我的 Java 代码中我可以访问和执行单独 js 文件的 JavaScript 函数吗如果可以的话我该怎么做与许多 JavaScript 环境一样您只
Anorm 中的原子 MySQL 事务

我编写了一个简单的命中计数器它使用 Anorm 更新 MySQL 数据库表我希望交易是原子的我认为最好的方法是将所有 SQL 字符串连接在一起并执行一个查询但这对于 Anorm 似乎是不可能的相反我将每个选择更新和提交放在单独
如何在 PyTorch 中保存模型架构？

我知道我可以通过以下方式保存模型torch save model state dict FILE or torch save model FILE 但两者都不保存模型的架构那么我们如何在 PyTorch 中保存模型的架构就像创建一个 p
R CMD 氧气无法识别

我刚刚尝试了 Roxygen 套餐在 R 中我可以运行 Roxygen Vignette 中的示例但是在命令行中 R CMD roxygen未被识别为有效命令当我跑步时R CMD help 我可以看到全部INSTALL check
如何设置超时来中止工厂或服务内的 $http.get() ？

我有以下方法getData url 在我的factory它使用 http get url 从 URL 获取数据 angular module az app factory WebServiceFactory function http q
使用 ResumableJS 取消、中止和重试单个文件上传

我已经成功地使用以下方法将多个文件分块上传到服务器可恢复JS http www resumablejs com 在上传过程中用户可以看到整体上传进度和单个文件上传百分比还可以暂停恢复整个上传我现在想要的是允许用户取消中止单个文件上
无法从没有窗口的视图中呈现弹出窗口

这个错误说明什么 Popovers cannot be presented from a view which does not have a window 救了我一命的事情 if self view window nil popoverC
如何读取浏览器中所有存储的 Cookie

我只想读取浏览器中存储的所有 cookie 使用标准 Javascript API 我无法阅读它但有没有一种方法可以读取所有 cookie 而不仅仅是通过我的网站注册的 cookie 浏览器安全会故意阻止这种情况如果你能做到这一点你就
从代码运行测试时在 Eclipse 中显示 JUnit 视图

当我在 Eclipse 中运行 Testclass 时我会看到显示树结构以及测试是否成功的 JUnit 视图如果我从代码开始测试 JUnitCore core new JUnitCore core run SimpleTests cla
MySQL语句选择特定列的最新条目

我正在使用 MySQL 并且该表是使用以下架构创建的 CREATE TABLE example id INT UNSIGNED NOT NULL AUTO INCREMENT version INT UNSIGNED NOT NULL te
如何加载离子段内的其他页面？

任何人都知道如何加载离子段内的其他页面我正在使用 ionic v4 我有三页试图在离子段内部显示概况疫苗接种发育我想将页面的功能分开以便于维护这是孩子的详细信息页面 https i stack imgur com pta0M p
BOOST_FUSION_ADAPT_STRUCT 的限制

我尝试过玩BOOST FUSION ADAPT STRUCT宏并尝试了一些天真的事情例如使用 Fusion 打印任何任意结构从此开始文档中给出的示例代码 http www boost org doc libs 1 55 0 libs f
为什么 Bert Transformer 使用 [CLS] 令牌进行分类而不是对所有令牌进行平均？

我正在对 bert 架构进行实验发现大多数微调任务都将最终的隐藏层作为文本表示然后将其传递给其他模型以进行进一步的下游任务 Bert 的最后一层如下所示我们获取每个句子的 CLS 标记图片来源 https jalammar gith

为什么 Bert Transformer 使用 [CLS] 令牌进行分类而不是对所有令牌进行平均？

为什么 Bert Transformer 使用 [CLS] 令牌进行分类而不是对所有令牌进行平均？ 的相关文章

随机推荐

热门标签

为什么 Bert Transformer 使用 [CLS] 令牌进行分类而不是对所有令牌进行平均？的相关文章