A Survey of Knowledge-Enhanced Pre-trained Language Models

2023-11-15

本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。

摘要

预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但由于缺乏外部知识,它们仍然存在一些局限性,如推理能力差。研究一直致力于将知识纳入PLM,以解决这些问题。在本文中,我们对知识增强预训练语言模型(KE-PLM)进行了全面的综述,以对这一蓬勃发展的领域提供清晰的见解。我们分别为自然语言理解(NLU)和自然语言生成(NLG)引入了适当的分类法,以突出NLP的这两个主要任务。对于NLU,我们将知识类型分为四类:语言知识、文本知识、知识图谱和规则知识。NLG的KE PLM分为基于KG的方法和基于检索的方法。最后,我们指出了KE PLM的一些有前景的未来方向。

1 引言

2 背景

3 KE-PLMs用于NLU

4 KE-PLMs用于NLG

5 未来的方向

在本节中,我们提出了未来KE PLM的一些可能的研究方向,这些方向可能会解决现有的问题和挑战。

5.1 整合来自同质和异质来源的知识

由于现有的工作大多只利用单一来源的知识,如知识图谱或网络资源,探索如何整合异构来源的知识仍然是未来研究的一个有价值的方向。
正如我们在上一节中所介绍的,一些先前的工作试图结合不同类型的知识来提高问答的性能。例如,UniKQA在知识库中集成了外部知识,包括文本、表和关系三元组。通过将知识库三元组和半结构化表等异构知识源线性化为文本的启发式方法,将知识库中涉及的结构化知识和文本中涉及的非结构化知识统一起来,扩展了外部知识的来源。UDT-QA将知识图谱和表格等结构化知识引入到开放域问答中,并将其转换为线性序列,作为文本生成任务的输入。
在开放域问答领域,提高PLM集成多个知识源的能力可以有效地增加知识覆盖率,使模型能够生成更可靠的答案。

5.2 探索多模态知识

目前的研究大多只关注多模态来源较少的文本知识。事实上,除了文本和列表信息之外,图像、视频和音频也可以成为PLM的知识来源,这可以进一步提高KE PLM的性能。
一些研究探索了整合多模态知识。代表作包括KB-VLP和ERNIE-VIL。KB-VLP基于输入的文本和图像从外部知识库中提取知识信息,并将知识作为额外的输入,以增强模型的语义对齐和知识感知能力。ERNIE-VIL将图像的输入描述文本解析为结构化场景图,并设计跨模态预训练任务,以关注视觉和语言模态之间的详细语义对齐。
由于图像和相关文本包含丰富的语义,注入这些不同的知识模式和对细节语义的关注可以使它们相互补充和增强,这将提高PLM在NLU和NLG任务中的性能。

5.3 提供可解释性证据

尽管许多现有的KE PLM在一系列文本生成任务上取得了巨大成功,但不应忽视的是,如果生成过程需要常识性知识推理,模型的性能将受到影响。
一些工作试图解决这个问题。例如,GRF利用外部知识图谱进行显式常识推理,并结合丰富的结构信息,以便在多个关系路径上执行动态多跳推理。在此过程中获得的推理路径为结果的生成提供了理论基础。这项工作表明,给出一条明确的推理路径将有助于提高模型的可解释性,使预测更加合理。

5.4 持续学习知识

现有工作通常在预训练阶段根据大量静态或未更新的数据进行训练。但模型在面对新任务时可能会忘记以前学到的原始知识,这使它们容易受到一种称为灾难性遗忘问题的现象的影响。随着异质性知识的不断增长,探索使模型在掌握新知识的同时不忘记过去学到的知识的方法,需要不断学习(也称为终身学习)来不断整合各种知识。
ELLE提出了一个维护网络功能的扩展模块,以扩展模型的宽度和深度,使模型能够有效地获取新知识,同时在更大程度上保留旧知识。K-adapter和KB-adapter将适配器添加到PLM中,以存储事实和语言知识,从而不断地将更多的知识融入PLM中。
不断地整合知识是未来研究的一个很有前途的方向。持续和不断增加的预训练的应用将有效地提高PLM的普遍性,并在融入更多知识的同时解决灾难性遗忘问题。

5.5 优化将知识整合到大型模型中的效率

近年来,预训练模型和知识注入的规模越来越大,从而给计算效率和计算资源带来了不可忽视的严峻挑战。尽管现有的大多数工作在各种预训练任务中都取得了良好的效果,但很少有研究提到在此过程中知识融合的成本。
鉴于这一挑战,我们提出以下两个可能的方向,可能值得进一步探索:一是提高知识获取和过滤的效率,二是优化计算负担。
现有的工作,如ZeRO,已经在第二个领域进行了探索。基于传统的数据并行训练模式,ZeRO通过将模型的参数、梯度和优化器状态划分为不同的过程,深度优化冗余空间,消除冗余占用的内存。

5.6 增加生成的结果的多样性

生成替代输出或预测真实情况下的所有可能结果是NLG的一个重要研究方向,这也是生成常识推理任务中输出多样性的目的。现有的工作,如MoKGE,使用常识知识图谱的多样化知识推理来完成NLG的多样化生成。基于对人类注释的观察,将与原始输入相关的概念关联到生成过程中,并使用专家方法的混合生成多样化的合理输出,从而增加生成结果的多样性。

6 结论

在这项调查中,我们从NLU和NLG的角度对KEPLM进行了全面的综述,并分别为NLU和NLG提出了适当的分类法,以突出它们的不同重点。我们还讨论了分类法中的代表作。最后,针对存在的问题和挑战,我们讨论了KE PLMs未来潜在的研究方向,希望能促进这一领域的相关研究。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

A Survey of Knowledge-Enhanced Pre-trained Language Models 的相关文章

随机推荐

  • Python多版本管理工具-pyenv相关总结

    由于需要进行MAC下多Python管理 看了很多相关文章 这是自己的理解的相关总结 包括最重要的pyenv 和 virtualenv anaconda有什么区别 文章目录 Python多版本管理工具 pyenv pyenv介绍 pyenv安
  • (2022)安卓和苹果应用注册上架概述

    目录 一 点击目录跳转对应文章 一 华为开发者申请及上架 二 小米开发者申请及上架 三 应用宝开发者申请及上架 四 OPPO开发者申请及上架 五 VIVO开发者申请及上架 六 苹果开发者申请及上架 开始前的准备工作 1 注册前先准备一个邮箱
  • 数据结构刷题:第十七天(基础)

    目录 一 杨辉三角 二 旋转图像 看题解 三 螺旋矩阵 一 杨辉三角 119 杨辉三角 II 力扣 LeetCode https leetcode cn problems pascals triangle ii plan data stru
  • python爬虫:抓取页面上的超链接

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 它能够通过你喜欢的转换器实现惯用的文档导航 查找 修改文档的方式 Beautiful Soup会帮你节省数小时甚至数天的工作时间 页面上的超链接 在H
  • Tangram 2.0 VirtualView Demo 配置

    天猫开源了一个动态UI的方案 包含 https github com alibaba VirtualView iOS https github com alibaba tangram ios 简单来个Demo 1 常规创建工程 配置podf
  • nohup 后台启动程序,并输出到指定日志

    1 启动程序并输入到指定日志 nohup python manage py runserver 0 0 0 0 9090 gt data zyj xadstat xadstat log 2 gt 1 或者 nohup python mana
  • 企培版edusoho对接第三方云视频点播 最新版本代码披露 支持m3u8视频加密

    edusoho企培系列版本更新日志 新增功能和优化历史 倍数播放功能 视频分类 支持m3u8视频加密 plugins AliVideoPlugin DependencyInjection Configuration php
  • 零基础入门网络安全,收藏这篇不迷茫【2023 最新】

    零基础入门网络安全 收藏这篇不迷茫 2023 最新 前言 最近收到不少关注朋友的私信和留言 大多数都是零基础小友入门网络安全 需要相关资源学习 其实看过的铁粉都知道 之前的文里是有过推荐过的 新来的小友可能不太清楚 这里就系统地叙述一遍 0
  • Qt connect的实现原理

    概述 connect实质上是将对象A的信号和对象B的槽函数进行连接 然后返回一个句柄Connection 正文 下面通过源码来解析一下 注意看中文注释 connection表示信号槽连接句柄 QMetaObject Connection Q
  • 15. 从0开始学ARM-位置无关码

    目录 十九 位置无关码 一 为什么需要位置无关码 1 exynos 4412启动流程 二 怎么实现位置无关码 1 什么是 编译地址 什么是 运行地址 2 举例 3 代码 四 总结 1 位置无关码 2 位置相关码 3 位置无关码的应用 4 结
  • 动态实体类方案1.0(虚拟实体类生成器)[万能实体]

    该工具能实现任何实体类的动态生成传入参数名称自动生成get set方法 供反射调用 该方法生成的实体类是在程序运行过程动态生成加载出来的 实际代码文件并不存在 所以我暂定他为虚拟实体类生成工具 本方法我自己暂时用在mybatis中当统一的传
  • DETR源码学习(三)之损失函数与后处理

    在DETR模型中 在完成DETR模型的构建后 我们送入数据在完成前向传播后就需要使用预测值与真实值进行计算损失来进行反向传播进而更新梯度 在DETR模型中 其标签匹配采用的是匈牙利匹配算法 主要涉及models matcher py mod
  • 调用百度API实现人脸识别

    人脸识别 听着很高级 但实际上它确实很高级 不过对于我们开发人员来说 我们大部分人都是拿来主义 这次展示的是调用百度人脸识别API进行人脸信息分析 笔者试了下 发现还是挺准确的 而且代码量很少才8行 用的python 如果用java铁定不止
  • js拼接字符串与变量

    使用eval 方法可将拼接后的字符串与变量转变为变量 var field test 我是小白鼠一号 var field test 我是小白鼠二号 然后在JS里尝试将前面的语言简写当成变量 拼接后面的字符串 var lang field va
  • 含泪整理最优质Fbx 3d模型素材,你想要的这里都有

    今天小编针对Fbx 3d模型素材为大家整理了很多内容哦 肯定有需要的小伙伴吧 实用 免费 优质的素材谁又不心动呢 赶紧码住 接下来就给大家介绍一下我珍藏已久的网站 我的工作灵感都是来源它哦 里面的Fbx 3d模型资源数量多 种类丰富 并且每
  • Ubuntu16.04搭建Fabric1.4环境

    一 换源 为了提高下载速度 将ubuntu的源改成国内的源 推荐阿里云源和清华源 apt源保存在 etc apt sources list 代表根目录 etc 这个文件夹几乎放置了系统的所有配置文件 1 备份 sudo cp etc apt
  • shell基础+强化

    shell脚本 一 shell介绍 什么是shell shell功能 1 什么是shell shell是一个程序 采用C语言编写 是用户和Linux内核沟通的桥梁 它既是一种命令语言 又是一种解释性的编程语言 通过一个图标来查看以下设立了的
  • Codeforces 1469 F. Power Sockets —— 二分+线段树,贪心

    This way 题意 现在有一个根节点 和n条包含a i 个节点的链 一开始所有点的颜色是白色的 你每次可以做以下操作 找到树中某个白色节点 拿出一条链 将这个节点和链上某个节点连接 并且这两个点的颜色变成黑色 之后这条链属于树中一个部分
  • 正则表达式中的“^“这个符号的一些思考

    在学习正则表达式的时候 一些常见的规则我们都不难理解 但是有 一个正则表达式中的特殊字符让我一直有点搞不懂 就是 这个字符 文档上给出了解释是匹配输入的开始 如果多行标示被设置成了true 同时会匹配后面紧跟的字符 比如 A 会匹配 An
  • A Survey of Knowledge-Enhanced Pre-trained Language Models

    本文是LLM系列的文章 针对 A Survey of Knowledge Enhanced Pre trained Language Models 的翻译 知识增强的预训练语言模型综述 摘要 1 引言 2 背景 3 KE PLMs用于NLU