文献学习-联合抽取C-Joint Extraction of Biomedical Entities and Relations based on Decomposition and Recombio

2023-11-06

论文信息

（1）题目：Joint Extraction of Biomedical Entities and Relations based on Decomposition and Recombination Strategy（基于分解重组策略的生物医学实体和关系联合抽取）

（2）文章下载地址：

（3）相关代码：-

（4）作者信息：-

摘要：

实体和关系抽取是构建医学知识图谱的关键任务之一，对于医学人工智能的发展具有重要意义。然而，重叠的三元组对于生物医学实体和关系提取来说是巨大的挑战。为了提高生物医学实体和关系提取的性能，提出了一种基于分解重组策略的实体和关系联合提取方法来挖掘生物医学文本。我们的方法将实体和关系提取任务分解为三个相关的子模块，即实体标记模块、关系分类模块和重组匹配模块。我们的主要贡献如下：首先，引入了用于联合实体和关系提取的分解和重组端到端学习框架。其次，提出了一种双向预测方法来处理重叠三元组问题。最后，提出了负样本生成方法来减轻这些模块之间的误差累积。大量实验表明，所提的方法可以将 ADE、DDI 和 BB 生物医学语料库中的 F1 分数提高 4.36%、2.13% 和 11.72%。

关键词：实体与关系联合抽取、分解重组策略、重叠三元组、双向预测、负样本生成

1、Introduction

实体和关系抽取是自然语言处理中信息抽取的子任务之一[1]。其目标是从大量非结构化文本中提取实体对及其关系，并以主语-关系-客体三元组的形式描述它们。在生物学和医学领域，越来越多的生物医学文本包含了大量的生物医学信息，是我们生物医学研究的重要知识来源。因此，生物医学文本的实体和关系提取引起了人们的广泛关注。在过去的十年中，有许多公共可用的实体和关系提取语料库。例如，对药物不良事件（ADE, the Adverse Drug Events）语料库进行注释，以支持从医疗病例报告中自动提取与药物相关的不良反应[2]。药物相互作用 (DDI，The Drug-Drug Interaction) 语料库是为 DDI 提取挑战而开发的，其主要目标是为评估应用于药理物质识别和生物医学文本中 DDI 检测的信息提取技术提供一个通用框架[3]。 BioNLP Shared Task 2019中的细菌生境（BB, Bacteria Biotopes）关系提取是一种生物医学关系提取，旨在研究细菌及其位置之间的相互作用[4]。

大多数实体和关系提取任务都采用管道方法。换句话说，命名实体识别（NER）和关系提取（RE）这两个子任务是由每个单独的模型依次完成的。然而，管道方法有一些缺点。例如，当NER和RE子任务独立建模时，它会忽略它们之间的联系。许多没有任何关系的实体也被放入关系抽取模型中，这会使实体变得冗余。此外，如果我们单独建模，两个任务之间会存在错误累积，这意味着NER任务中的错误将导致后续RE任务中的错误。为了解决这些问题，实体和关系的联合提取方法被提出并显示出可喜的结果。例如，Zheng等人[5]提出了一种新的标记方案。他们的方法认为一个实体最多属于一个关系，并且无法识别具有重叠实体的三元组。

生物医学文本中有许多重叠的三元组。例如，DDI、BB和ADE语料库中的重叠三元组约占60%、65%和70%[6]，这会影响提取性能。为了提高重叠三元组的提取效果，提出一种基于分解重组策略的实体和关系联合提取。文章的贡献是：

（1）我们提出了一种基于分解和重组策略的新颖的端到端学习框架，该框架将生物医学实体和关系提取分为三个相关的子模块。

（2）我们提出了一种新的双向预测方法，包括前向和后向预测方法来处理先前工作中尚未解决的重叠三元组问题。

(3)我们使用负采样策略来缓解误差累积问题。

文中对三个公开的生物医学语料库（包括 ADE、DDI 和 BB 语料库）进行了实验。实验结果表明我们提出的方法实现了最先进的性能。

2、Related Work

在以往的研究中，生物医学实体和关系的提取都是基于管道方法。其中，基于CRF的生物医学NER方法严重依赖特征工程，提取结果并不理想[7-9]。后来，许多深度神经网络方法被提出。例如，Sahu 等人[10]使用带有注意力池的 LSTM 来提取 DDI。 Li等[11]利用FFN联合提取DDI和ADE。但提取效果并不理想。最近，Zuo等人[12]受到Eberts等人[13]工作的启发，提出使用基于跨度的联合提取模型来提取生物医学领域的BB。该方法在BB语料库中取得了最好的结果。

Crone等人[14]采用多任务机器学习方法来处理NER和RE任务。他们引入了针对特定任务的双向 RNN，并针对不同语料库调整了共享层和特定任务层的数量。他们的方法在 ADE 语料库中取得了最先进的结果。

Wang等人[15]使用token pair linking（令牌对链接）实现了单阶段实体和关系联合提取。他们的模型在预训练模型的支持下，在DDI语料库中取得了state-of-the-art的结果。然而，上述方法忽略了生物医学文本中存在的大量重叠三元组，这将对提取结果产生严重影响。 Li等人[16]提出了一种翻译解码方案来处理重叠三元组问题。然而，他们的方法只考虑了主语重叠问题，并不能有效地提取宾语重叠三元组。

Yu等人[17]将实体和关系提取的任务分解，但他们的方法无法处理这些任务之间的误差累积问题。因此，我们提出一种基于分解和重组策略的实体和关系联合提取方法来处理这些问题。与以前的方法相比，我们的方法可以解决重叠三元组并更有效地缓解误差累积问题。

3、Method

为了处理生物医学文本中的重叠三元组问题，本文提出将实体和关系提取任务分为三个子模块，即实体标注模块、关系分类模块和重组匹配模块。我们的模型结构如图1所示。更具体地说，采用预训练模型作为编码器来获取其语义信息的词向量。然后，将词向量放入实体标注模块中，提取所有的主语和宾语实体。同时，词向量也被放入关系分类模块中，提取所有可能的关系。最后，以双向预测的方式将主体和客体的实体与各个关系重新组合。此外，利用自注意力机制来匹配相应的主体和客体实体，然后在重组匹配模块中将它们并集形成输出三元组。

A、Entity tagging module

文中使用两个相同的二元分类器来预测主体和客体实体的开始和结束位置：

实体标注模块时通过最小化公式3来预测实体e的跨度：

实体标注模块采用公式4表示的损失函数来训练 $\theta$ 的权重和偏差：

所有提取的主体和客体分别表示为Msub和Mobj.

B、Relation classification module

将预训练模型中的词向量作为关系分类模块的输入，以获得实体对之间的关系。公式5是预测句子中所有潜在的关系：

X是预训练模型的输出。如果关系样本的分别在语料库中是均衡的，则关系分类模块使用下面的交叉熵损失函数：

r_i表示所有关系中第i个关系的概率，y_i表示关系的真是标签。

C、Recombination matching module（重组匹配模块）

文中提出一种重组匹配方法来处理重叠三元组问题。

主题集合Msub*R集合，形成二元对，然后利用自注意力机制得到所有对象实体的表示，并匹配Mobj中最相关的对象实体的起始位置。

文中所提模型有效地提高主题重叠三元组的提取。但是，存在一些问题，为此，文中提出了一种双向预测方法来处理主题和客体重叠三元组提取。前向预测是主题实体+关系-->客体实体；后向预测是客体实体+关系-->主体实体。

重组匹配的过程：针对组合{s1, r1}

（1）将实体标记模块的s1的开始和结束位置信息表示为张量v_s1。r_1映射到相同的维度的张量v_r1，将两个张量相加，结合了s1和v1的特征。之后，使用自注意力机制得到表示A：

然后，采用二元分类器来识别前向预测中对象实体的起始位置：

A_i是句子X中第i个token的注意力特征，p_start_i是起始位置的概率，p_start_i与M_obj匹配，如果起始位置相似，则说明它是其主语和关系的客体实体。否则，这个主语和关系的组合不存在对应的客体实体。同样，后向预测的过程与上面相同。后向预测结合对象实体和关系进行预测主体实体。最后，模型最小化公式9来训练模型。

D、Negative samples generation

分解策略中各模块之间存在误差累积。然而，这个问题在之前的工作中并没有得到很好的解决[17]。为了应对这一挑战，文中建议生成负样本以减轻这些模块之间的错误并使模型更适合噪声输入。更具体地说，我们设计了五种生成负样本的方法：（1）在交换主客体实体时使用正确的关系。 (2)使用正确的主体实体和错误的关系。 (3)使用正确的客体实体和错误的关系。 (4)使用错误的主体实体和正确的关系。 (5)使用错误的客体实体和正确的关系。

这些生成的负样本在训练阶段替换正确的实体和关系对。但我们没有在重组匹配模块中分配任何实体来匹配它们。不同语料库的负样本数量不同。对于小语料库（例如BB语料库），负样本过多会对最终的提取产生影响。我们通过实验找到不同语料库合适的负样本数量，如负样本生成消融实验部分所示。（查看IV-C）

4、Experiments and Results

A、Corpus and baseline methods

我们在三个广泛使用的生物医学公共语料库上进行了实验来验证我们的方法的有效性，如表1所示。并且我们分别在三个语料库上选择SOTA模型来验证我们提出的方法的优越性。这些 SOTA 模型已在相关工作部分中进行了描述。结果如表II所示。

B、Results and discussion

表二显示了文中模型的性能。在NER任务中，我们的模型的提取效果与当前模型没有太大区别。但是，我们的模型在RE任务中具有明显的优势。与其他基线模型相比，我们提出的模型在 ADE 语料库上的三个指标上显示出显着改进。F1提升4.63%。在DDI语料库上，提升了2.13%，达到79.23%。在BB语料库上，文中的模型精度略低于SOTA模型，但明显优于其他基线模型。文中的模型在召回率和F1分数上分别实现了19.30%和11.72%的显著提升。

总的来说，文中模型在所有三个生物医学语料库上都取得了更好的结果。由于BB语料库的数据量很小，因此提取效果低于ADE和DDI。我们的双向预测方法考虑了三元组存在的所有可能组合。因此，可以提取语料库中大量重叠的三元组。文中分解和重组策略不会错过三元组的正常类型，并且提取性能不受重叠三元组问题的限制。因此，如果语料库中有更多重叠的三元组，文中的方法将变得更加有效。

C、The ablation experiments

为了验证双向预测方法和负样本生成方法，文中分别进行了消融实验：

（1）双向预测方法（Bi-directional prediction method）：文中提出了一种双向预测方法来处理重叠三元组问题。表3显示了重组匹配模块中不适用双向预测（即单向预测）和使用双向预测的影响。

从表III中可以明显看出，在提出的双向预测方法之后，模型的性能得到了一定程度的提高。在ADE语料库上，双向预测比单向预测方法精度提高了0.10%，召回率提高了5.36%，F1分数提高了2.62%。在 DDI 语料库上，如果采用双向预测方法，这三个指标分别提高了 1.50%、2.43% 和 1.98%。原因是 DDI 语料库中对象重叠三元组的数量要大得多。在BB语料库上，准确率提高了5.85%，召回率提高了0.18%，F1分数提高了2.99%。因此，双向预测方法可以显着提高提取结果。

（2）Negative samples generation（负样本生成）:不同模块之间存在误差积累问题，提取性能将受到严重影响[17]。为了缓解这个问题，我们引入负样本来处理噪声输入。表IV显示了不同负样本对最终提取输出的结果。负样本量为0表示没有负样本。实验结果表明，在这三个语料库上一定数量的负样本都可以提高提取性能。在ADE和DDI语料库上，由于原始数据量大，每个输入句子20个负样本达到了最好的结果。对于BB语料库来说，由于数据量较小，每个输入句子额外增加10个负样本比较合适。一般来说，负样本会对提取产生影响，负样本的数量与数据大小有关。

5、Conclusion and Future Work

NER和RE是构建知识图谱的基本任务。管道方法分别考虑NER和RE任务，这使得它们效率低下。与这些管道方法相比，实体和关系的联合提取方法是有前途的。在本文中，我们提出了一种基于分解重组策略的实体和关系联合提取方法，用于非结构化生物医学文本挖掘。该方法将实体和关系提取任务分解为三个子模块：分别是实体标记、关系分类和重组匹配模块。为了处理重叠三元组问题，文中在重组匹配模块中提出了一种双向预测方法，并进行了消融实验来证明其有效性。此外，我们设计了五种生成负样本的方法来缓解这些模块之间的误差累积问题，实验结果表明了该方法的有效性。然而，我们的工作有一些缺点。例如，我们发现当存在大量实体和关系对时，双向预测方法效率低下。在未来的工作中，我们将探索如何提高重组匹配模块中的匹配效率。希望使文中的模型更广泛地适用于其他领域，而不仅仅是医学文本挖掘。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)