Bert机器问答模型QA（阅读理解）

2023-11-15

Github参考代码：https://github.com/edmondchensj/ChineseQA-with-BERT

https://zhuanlan.zhihu.com/p/333682032

数据集来源于DuReader Dataset，即百度经验上的问答，在上述链接中提供下载方式。

感谢作者提供的代码。

1、数据集处理

（1）首先数据集格式需要转为 SQuAD数据集格式，SQuAD数据集介绍参考。https://blog.csdn.net/m0_45478865/article/details/106568237。

（2）然后将每条数据转换为样本example字典，包含qas_id、question_text、doc_tokens（答案的切词结果）。模型使用过程中进一步转换为bert所需要的特征。

2、Bert机器问答模型训练

（1）根据样本example构建模型输入，包括 input_ids、input_mask、segment_ids、 start_positions、 end_positions。其中input_ids为输入文本的切词编号，这个输入文本是一个完整的bert输入，格式为“[CLS]问题文本[SEP]答案文本[SEP]填充文本”，设置总长度上限为384，那么input_ids的维度为（B，L），L=384。input_mask（B，L）是input_ids的掩模，由于区分输入文本在长度不足384时的实际长度。segment_ids（B，L）用于区分输入文本的每个字所属的文本，这个属于问题文本为0，属于答案文本为1，属于填充文本也为0。start_positons（B）、end_positions（B）为答案文本在输入文本中的起止索引。

（2）将上述数据输入到BertForQuestionAnswering模型，这个模型是由pytorch bert默认定义的由一个基础的bert模型和一个全连接层组成。这里bert预训练模型选择的是bert-base-chinsese模型，该模型隐藏维度为768。输入数据经bert处理之后的维度为（B，L，768）。全连接层的为Linear（384,2），那么输出进一步转换为（B，L， 2）。这两个维度可以理解为答案在阅读文本中的起止位置。进一步表示为起始位置模型结果为start_logits（B，L），结束位置模型结果为end_logits。

（3）损失函数计算：模型损失包含起始位置损失和结束位置损失。起始位置损失是start_positions和start_logits的交叉熵损失；结束位置损失是end_positions和end_logits的交叉损失。总的损失为二者的平均值。

3、Bert机器问答模型推理

（1）数据输入类似训练（1），但是输入不再需要start_positions和end_positions。

（2）类似训练步骤（2），模型不再输出损失结果，而是直接输出start_logits和end_logits。通常分类时会取最大值所对应的类别为最终结果。这里作者选取了N个最大值作为备选结果，N=20，即分别从start_logits和end_logits选出20个最大值，并记录他们的位置索引。

（3）对所有的start_logits和end_logits进行遍历，每遍历一次，根据其位置索引得到模型输出的答案文本，同时用start_logit与end_logit的和作为预测结果的概率。

（4）对（3）中的结果按照概率从大到小进行排列，并设置阈值，即可得到模型最终预测的答案文本。

4、部分变量理解

orig_to_tok_index：原始答案的个数。

tok_to_orig_index：token每个字符属于第几个答案。

all_doc_tokens：所有文字的token。

token_to_ori_map：字典，标注字符属于第几个答案。

token_is_max_content：表示字符当前是否处于住家的截取片段。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Bert机器问答模型QA（阅读理解）的相关文章

将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
对产品列表进行分类的算法？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个代表或多或少相同的产品的列表例如在下面的列表中它们都是希捷硬盘希捷硬盘 500Go 适用于笔记本电脑的希捷硬盘 120
文本摘要评估 - BLEU 与 ROUGE

根据两个不同摘要系统 sys1 和 sys2 的结果和相同的参考摘要我使用 BLEU 和 ROUGE 对它们进行了评估问题是 sys1 的所有 ROUGE 分数均高于 sys2 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么？

下面的代码实现了我想要实现的结果有一个称为引理的字符串列表其中包含特定类别单词的可接受形式另一个列表称为形式包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体对于 forms 中的每个单词我想获取 le
如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
如何使用 NLP 确定句子中的中心词？

例如如果我得到一个句子一名英国士兵在阿富汗战斗中丧生这句话的中心词是杀给定 Python 中的 nltk 包我怎样才能找到它我不是在谈论词干我指的是中心词您正在寻找中心词句子解析它可以在 Python 的 nltk 包中

随机推荐

Flask项目（三）定义登录装饰器、图片服务、缓存机制、celery

Flask项目定义登录装饰器 redis文档图片服务封装七牛方法城区数据下拉列表缓存用户认证相关发布房源 map 函数 celery 基本使用房屋管理定义登录装饰器 utils commons py from werkze
x86汇编_MUL/IMUL乘法指令_笔记52

32位模式下整数乘法可以实现32 16或8位的操作 64位下还可以使用64位操作数 MUL执行无符号乘法 IMUL执行有符号乘法 MUL指令无符号数乘法 32 位模式下 MUL 无符号数乘法指令有三种类型执行 8 位操作数与 AL 寄
gitee删除上传到的远程分支的提交记录

在实际开发中可能也经常会遇到写完代码后提交到远程分支但发现写的提交信息有误不符合规范由于自己的gitee账号可能没有修改提交记录的权限因此最佳的解决方法是撤销本地分支当前的提交记录将代码回滚到上一个版本提交前重新强制再提交一版
大数据挖掘、分析与应用

第一讲基础知识大数据指无法在可承受的时间范围内用常规软件工具进行捕捉管理和处理的数据集合是需要新处理模式才能具有更强的决策力洞察力和流程优化能力的海量高增长率和多样化的信息资产数据挖掘 DataMining 是有组织有目的地收集
安装SQLServer2008出现[HKLM\Software\Microsoft\Fusion!EnableLog] (DWORD)设置为 1

问题当我们卸载SQLServer2008后再重新安装后会出现以下问题原因是卸载有时不能完全清理文件解决方法找到文件C Users user name AppData Local Microsoft Corporation删除Land
深度学习Pytorch（十）——基于torchvision的目标检测模型

深度学习Pytorch 十基于torchvision的目标检测模型文章目录深度学习Pytorch 十基于torchvision的目标检测模型一定义数据集二为PennFudan编写自定义数据集 1 下载数据集 2 为数据集编写
C++ 中基础的几种变量作用域，类作用域（C++复习向p5）

文章目录三种变量变量作用域初始化变量类作用域三种变量局部变量函数代码块中的变量形式参数函数参数中定义的变量在函数体中有效全局变量所有函数外部声明的变量变量作用域局部作用域局部变量在函数执行完后销毁全局作用域
最全面的Socket使用解析

前言 Socket的使用在Android的网络编程中非常重要今天我将带大家全面了解Socket及其使用方法目录 1 网络基础 1 1 计算机网络分层计算机网络分为五层物理层数据链路层网络层运输层应用层其中网络层负责根据
一次内网 Harbor 镜像仓库导出迁移过程记录

1 整体思路 Harbor 提供有丰富的 API 接口可以获取所有项目信息镜像和标签等信息通过编写 shell 脚本循环处理即可实现批量导出镜像包的需求登陆 Harbor 后左下角有 API 控制中心按钮进入可以查看和调试 2
centos 安装配置l2tp实现***

centos 安装配置l2tp实现 1 前言 L2TP是一种工业标准的Internet隧道协议功能大致和PPTP协议类似比如同样可以对网络数据流进行加密不过也有不同之处比如PPTP要求网络为IP网络 L2TP要求面向数据包的点对点连
OSI七层模型---数据链路层（以太网帧、MAC地址、MTU、MSS、ARP协议）

我们首先来了解一下物理层的作用物理层的主要目的是实现比特流的透明传输为数据链路层提供服务物理层接口解决了用几根线多大电压每根线什么功能以及几根线之间是怎么协调的问题物理层介质解决了数据载体材质以及价格优缺点的问题通信技术解决
01_I.MX6U芯片简介

目录 I MX6芯片简介 Corterx A7架构简介 Cortex A处理器运行模型 Cortex A 寄存器组 IMX6U IO表示形式 I MX6芯片简介 ARM Cortex A7内核可达900 MHz 128 KB L2缓存并行
李宏毅机器学习 2016 秋：6、Classification: Logistic Regression

文章目录六 Classification Logistic Regression 六 Classification Logistic Regression 我们来讲 Logistic Regression 我们在上一份投影片里面我们都已
点云Las格式分析及python实现

目录一 Las格式分析 1 公共头 2 变长记录 3 参考文献二安装laspy 2 0 2 三代码实现一 Las格式分析 1 公共头公共头用来记录数据集的基本信息如Li DAR点总数数据范围 Li DAR点格式变长记录总数
在switch语句中使用字符串以及实现原理

对于Java语言来说在Java 7之前 switch语句中的条件表达式的类型只能是与整数类型兼容的类型包括基本类型char byte short和int 与这些基本类型对应的封装类Character Byte Short和Integer
Go单体服务开发最佳实践

单体最佳实践的由来对于很多初创公司来说业务的早期我们更应该关注于业务价值的交付并且此时用户体量也很小 QPS 也非常低我们应该使用更简单的技术架构来加速业务价值的交付此时单体的优势就体现出来了正如我直播分享时经常提到我们在使用
什么是等保合规

近年来随着国家对网络安全的重视我国对网络安全的监管要求也越来越高各互联网企业都在积极落实网络安全等级保护关键信息基础设施安全保护制度为了保护网络安全企业也在按照网络安全法及等保2 0 系列标准要求积极寻求等级保护测评整
C语言进阶：C陷阱与缺陷（读书笔记总）

大家不要只收藏不关注呀哪怕只是点个赞也可以呀粉丝私信发邮箱免费发你PDF 最近读了一本C语言书 C陷阱与缺陷还不错挺适合刚刚工作后的人特此分享读书笔记写代码时应注意这些问题笔记已做精简读完大概需要30min 如果读起来感觉
广义线性模型（GLM）

在线性回归中 y丨x N 2 在逻辑回归中 y丨x Bernoulli 这两个都是GLM中的特殊的cases 我们首先引入一个指数族 the exponential family 的概念如果一个分布能写成下列形式那么我们说这个分布属于指
Bert机器问答模型QA（阅读理解）

Github参考代码 https github com edmondchensj ChineseQA with BERT https zhuanlan zhihu com p 333682032 数据集来源于DuReader Dataset

Bert机器问答模型QA（阅读理解）

Bert机器问答模型QA（阅读理解） 的相关文章

随机推荐

热门标签

Bert机器问答模型QA（阅读理解）的相关文章