自然语言处理(NLP)精选13道面试题

2023-11-16

文末彩蛋：七月在线干货组最新升级的《名企AI面试100题》免费送！

1、为什么BERT在第一句前会加一个[CLS]标志?

BERT在第一句前会加一个[CLS]标志，最后一层该位对应向量可以作为整句话的语义表示，从而用于下游的分类任务等。

为什么选它呢，因为与文本中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。

具体来说，self-attention 是用文本中的其它词来增强目标词的语义表示，但是目标词本身的语义还是会占主要部分的，因此，经过 BERT 的12层，每次词的 embedding 融合了所有词的信息，可以去更好的表示自己的语义。

而 [CLS] 位本身没有语义，经过12层，得到的是 attention 后所有词的加权平均，相比其他正常词，可以更好的表征句子语义。

当然，也可以通过对最后一层所有词的 embedding 做 pooling 去表征句子语义。

这里补充一下bert的输出，有两种，在BERT TF源码中对应：

一种是get_pooled_out()，就是上述[CLS]的表示，输出shape是[batch size,hidden size]。

一种是get_sequence_out()，获取的是整个句子每一个token的向量表示，输出shape是[batch_size, seq_length, hidden_size]，这里也包括[CLS]，因此在做 token 级别的任务时要注意它。

2、BERT的三个Embedding直接相加会对语义有影响吗？

这是一个非常有意思的问题，苏剑林老师也给出了回答，真的很妙：

Embedding的数学本质，就是以one hot为输入的单层全连接。

也就是说，世界上本没什么Embedding，有的只是one hot。

可参考：
https://kexue.fm/archives/4122

在这里想用一个例子再尝试解释一下：

假设 token Embedding 矩阵维度是 [4,768]；position Embedding 矩阵维度是 [3,768]；segment Embedding 矩阵维度是 [2,768]。

对于一个字，假设它的 token one-hot 是[1,0,0,0]；它的 position one-hot 是[1,0,0]；它的 segment one-hot 是[1,0]。

那这个字最后的 word Embedding，就是上面三种 Embedding 的加和。

如此得到的 word Embedding，和concat后的特征：[1,0,0,0,1,0,0,1,0]，再过维度为 [4+3+2,768] = [9, 768] 的全连接层，得到的向量其实就是一样的。

再换一个角度理解：

直接将三个one-hot 特征 concat 起来得到的 [1,0,0,0,1,0,0,1,0] 不再是one-hot了，但可以把它映射到三个one-hot 组成的特征空间，空间维度是 432=24 ，那在新的特征空间，这个字的one-hot就是[1,0,0,0,0…] (23个0)。

此时，Embedding 矩阵维度就是 [24,768]&#x

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

机器学习

自然语言处理

NLP

面试

自然语言处理(NLP)精选13道面试题的相关文章

语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
管道：多个流消费者

我编写了一个程序来计算语料库中 NGram 的频率我已经有一个函数它消耗一串令牌并生成一个订单的 NGram ngram Monad m gt Int gt Conduit t m t trigrams ngram 3 countFre
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
如何使用动词时态/语气制作稀疏匹配器模式？

我一直在尝试使用动词时态和情绪为 spacy 匹配器创建一个特定的模式我发现了如何使用 model vocab morphology tag map token tag 访问使用 spacy 解析的单词的形态特征当动词处于虚拟语气模式
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
如何将句子或文档转换为向量？

我们有将单词转换为向量的模型例如 word2vec 模型是否存在类似的模型可以使用为单个单词学习的向量将句子文档转换为向量 1 跳克法以及使用它的工具谷歌 word2vec https code google com p wor
Rasa core 和 Rasa nlu 之间的区别

我试图理解之间的区别拉莎核心 https core rasa ai and Rasa NLU https nlu rasa ai installation html从官方文档看的但我不太明白我的理解是Rasa core用于引导对话流程
在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么？

下面的代码实现了我想要实现的结果有一个称为引理的字符串列表其中包含特定类别单词的可接受形式另一个列表称为形式包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体对于 forms 中的每个单词我想获取 le
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
更换色谱柱时出现稀疏效率警告

def tdm modify feature names tdm non useful words kill stampede trigger cause death hospital minister said told say inju
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
如何使用 NLP 确定句子中的中心词？

例如如果我得到一个句子一名英国士兵在阿富汗战斗中丧生这句话的中心词是杀给定 Python 中的 nltk 包我怎样才能找到它我不是在谈论词干我指的是中心词您正在寻找中心词句子解析它可以在 Python 的 nltk 包中

随机推荐

Android JetPack学习笔记-DataStore

通过键值对存储以异步一致的事务方式存储数据克服了SharedPreferences的一些缺点基于kotlin协程的Flow实现并且可以对SP数据进行迁移以protobuffer协议进行存储速度更快效率更高使用引用 impl
实践练习五（可选）：对 OceanBase 做性能测试

第六期直播实践练习可选对一个OB集群带 OBProxy 进行Benchamrk测试环境准备由于手上正好有7台物理机在作业三中会使用OBD直接部署了2 2 2架构的OceanBase集群这里直接拿来进行TPC C测试机器信息如
Kettle——表输出步骤异常处理方式探究

开源ETL工具Kettle transformation中的多数步骤都是支持定义错误处理的为了保证transformation脚本的健壮性我们会在关键的步骤上进行异常捕获处理本篇文章以TableOutput步骤来探究kettle异常处
QT-信号与槽机制学习笔记

QT 信号与槽机制学习笔记一标准信号和槽二自定义信号与槽 2 1 信号与槽的案例无参数 2 2 有参数的信号与槽案例三信号和槽的扩展四 Qt4的信号和槽函数五 QDebug的输出转义问题六 lambda表达式 6 1 简
常见面试题--memcpy()和strcpy()的区别

前言 memcpy 和strcpy 的区别是常见的面试题以前面试的时候被问起过觉得当时回答的不是很好这里做一下总结方便自己和有需要的人查看这个问题主要考查基本能力这两个都是常见的拷贝函数 C语言程序员都经常会用到用法都清楚但
Jmeter 配置使用（一）

Jmeter 简介 Jmeter 下载安装测试实施创建线程组添加Http请求查看结果树聚合报告添加断言
为eclipse添加tomcat插件（eclipse tomcat plugin）

打开站点 http marketplace eclipse org content eclipse tomcat plugin 把Install拖到打开的eclipse的工作区中即可下载安装安装后eclipse将重启重新打开后可见工具
【转】一篇文章读懂大数据中台架构

一篇文章读懂大数据中台架构
mysql5.7驱动配置

环境 mysql5 7 url后面需要加上useUnicode true characterEncoding utf8 serverTimezone UTC这几个参数否则会报错 datasource driver class name c
清风数学建模学习笔记——TOPSIS法（优劣解距离法）

优劣解距离法 TOPSIS法 Technique for Order Preference by Similarity to Ideal Solution 可翻译为逼近理想解排序法国内常简称为优劣解距离法 TOPSIS 法是一种常用的综
银联支付前端接收后端数据写入页面

如果能够帮到您烦请给个赞或者评论不甚感谢点击确认支付跳转银联页面后台传入html 给我我需要将html append html 放在html 里 html html html html data data union pay h
使用多个路由器有线桥接实现无线漫游

虽然 WDS 是平价的无线漫游实现最优先考虑的方案但 WDS 几个路由之间的通信还是无线无线没有有线稳定这是不争的事实使用有线桥接来实现无线漫游各个路由之间的通信通过有线相对来说理论上要稳定些示例三个路由器一主二从两个也行
libcurl快速入门

libcurl是一个跨平台的网络协议库支持http https ftp gopher telnet dict file 和ldap 协议 gt libcurl同样支持HTTPS证书授权 HTTP POST HTTP PUT FTP 上传
工厂模式与构造函数模式的区别

目录一工厂模式二构造函数模式一工厂模式 1 工厂模式其实就是普通函数 2 可以解决创建多个类似对象的问题 3 没有解决对象标识问题即新创建的对象是什么类型工厂模式 function createPerson name age
AIX系统升级记录

从6100 01 01 0823升级到6100 05 00 1016 一下载补丁下载地址 http www 912 ibm com eserver support fixes Product Group gt System p Prod
测试内存超频软件,内存超频工具(SPDtool)

都知道CPU可以超频这一点儿也不稀奇不过今天小编带给大家的这款spdtool可是传说中的内存超频软件震惊了吧现在的游戏画面越来越精致场景也越来越大所以对内存的要求也更高了这款内存超频工具也就应运而生了本软件利用修改spd
Leaflet基础入门教程（一）

leaflet是一个前端的轻量的gis框架为什么说它轻量呢因为相比于传统的庞大的 GIS框架比如openlayers和mapbox leaflet不仅代码体积小而且API构成也极为简单是GIS行业小白入门级别学习的最好的框架没有
【AI面试】Anchor based 、 Anchor free 和 no anchor 的辨析

深度学习的目标检测算法通常会在输入图像中采样大量的区域然后判断这些区域中是否包含我们感兴趣的目标并调整回归区域边界从而更准确地预测目标的真实边界框 ground truth bounding box 目标检测算法会需要做两个事情
Maven deploy plugin使用

Maven deploy plugin使用简介 maven deploy plugin主要是为了用来将artifact部署到远程仓库中 Goals Goal Description deploy deploy 部署artifact到远程仓
自然语言处理(NLP)精选13道面试题

文末彩蛋七月在线干货组最新升级的名企AI面试100题免费送 1 为什么BERT在第一句前会加一个 CLS 标志 BERT在第一句前会加一个 CLS 标志最后一层该位对应向量可以作为整句话的语义表示从而用于下游的分类任务等为什么选

热门标签