一种层次化卷积的生物医学关系抽取方法、装置及存储介质

未命名 07-14 阅读：229 评论：0

1.本发明涉及一种层次化卷积的生物医学关系抽取方法、装置及存储介质，属于生物医学自然语言处理和深度学习技术领域。

背景技术：

2.生物医学关系提取(biore)旨在提取生物医学实体之间的语义关系。生物医学实体关系可以指示蛋白质相互作用(ppi)、药物相互作用(ddi)和化学-蛋白相互作用(cpi)，这些关系在挖掘生化实体之间的潜在反应中非常有价值。因此，biore任务在实际应用中发挥着重要作用，例如，对话系统、在线治疗系统和信息推荐等，也广泛应用于支持各项生物医学研究，例如蛋白质复合物鉴定、疾病机制、不良药物反应发现和老药新用等。在迅速增长的生物医学文献中，无法手动从大量数据中发现这些交互作用。因此，在生物医学信息处理中，自动提取预定义的生物医学实体之间的关系已引起了极大的关注。
3.自动从句子中提取实体关系是一项具有挑战性的任务，主要存在以下三个问题。首先，由于关系类型是不对称的，因此需要对句子中的每个实体对进行评估。因为大多数实体对之间是负例，导致了严重的数据不平衡问题。其次，同一个句子中所有实体对的语义表达式会重叠。由于它们在句子中共享相同的上下文特征，仅依靠句子结构的简单表示很难区分它们。最后，长难句在生物医学文献中被广泛使用，一个长句子通常包含许多生物医学实体。
4.近年来，大部分的biore研究都是采用深度学习模型，如卷积神经网络、循环神经网络、注意力机制和图神经网络。神经网络具有学习高阶抽象特征和编码原始输入中的语义特征(例如预训练语言模型的优势)。然而，这些模型通常直接在原始输入上实现，对于捕捉与实体顺序有关的上下文特征和语义依赖性方面较弱。在通用领域，已经提出了几种策略来解决这些问题，例如特征组合、多通道、位置嵌入、实体指示器和神经化特征工程。尽管在通用领域取得了巨大成功，但是从生物医学文献中提取关系更加具有挑战性，因为生物医学文献中广泛使用长句子来表达生物医学实体之间的语义关系，而长句子通常包含许多生物医学实体，这导致更严重的数据不平衡和语义重叠问题。
5.在相关研究中，已经提出了几种策略来编码与命名实体相关的上下文特征和语义依赖关系。位置嵌入和实体指示是解决这个问题的两种传统方法。它们使模型能够意识到实体的位置。然而，它们未能编码句子的上下文特征。特征组合和神经特征工程是使用组合特征来编码语义依赖关系的方法。但是，这些方法在很大程度上依赖先前的知识。多通道方法将句子分成五个通道，具有捕获关系实例结构信息的优点。然而，由于每个通道的抽象表示是独立学习的，因此难以编码通道之间的语义依赖关系。

技术实现要素：

6.本发明要解决的技术问题是：提供一种层次化卷积的生物医学关系抽取方法、装置及存储介质，以克服现有技术的不足。
7.本发明的技术方案为：
8.第一方面，提供了一种层次化卷积的生物医学关系抽取方法，所述方法包括以下步骤：步骤一、根据关系实例的结构信息，以实体位置为边界，将关系实例划分为五个相互重叠的通道；步骤二、利用预训练语言模型pubmedbert对关系实例及五个通道的文本进行编码获取词向量表示；步骤三、根据步骤一切分的通道位置和步骤二获取的语义特征，分别使用token级卷积对关系实例提取局部语义特征，使用通道级卷积获取通道间的全局语义依赖特征，对局部语义特征和全局语义依赖特征进行最大池化操作；步骤四、根据步骤一切分的通道位置，将步骤三中提取的局部语义特征和全局语义特征中互补的部分进行拼接获得关系实例的完整语义，对获得关系实例的完整语义进行关系类型的分类。
9.进一步地，还包括：步骤五、使用真实的生物医学关系抽取数据集进行有效性验证。
10.进一步地，所述步骤一还包括：在关系实例的实体两侧插入了特殊标记符，所述特殊标记符为l
11
、l
12
和l
21
、l
22
，l
11
和l
12
在ppi任务中代表“b_prot”，在ddi任务中代表“b_drug”，在cpi任务中代表“b_chem”，l
21
和l
22
在ppi任务中代表“e_prot”，在ddi任务中代表“e_drug”，在cpi任务中代表“e_chem”。
11.进一步地，所述步骤二中，对每个通道的文本前加入线索文本进行补充，形成语义完整的输入，再利用预训练语言模型pubmedbert对补充后的文本进行编码获得每个通道的词向量表示并且，根据不同的通道选取不同位置的词向量，获取各个通道的语义特征。
12.具体地，所述步骤三中，
13.使用token级卷积对关系实例提取局部语义特征的方法为：
14.对每个互补通道对应的词向量进行卷积得到
15.对进行卷积最大池化操作得到第i个通道的互补通道的局部语义特征v
iη
；
16.所述使用通道级卷积获取通道间的全局语义依赖特征的方法为：
17.对每个通道对应的词向量进行卷积得到
18.对进行卷积最大池化操作得到第i个通道的全局语义依赖特征
19.具体地，所述将步骤三中提取的局部语义特征和全局语义依赖特征中互补的部分进行拼接获得关系实例的完整语义的方法为：
[0020][0021]
其中，v表示关系实例的完整语义。
[0022]
进一步地，在对获得关系实例的完整语义进行关系类型的分类之前，对获得关系实例的完整语义使用卷积、池化操作，对获得关系实例的完整语义使用卷积、池化操作的方法如下：
[0023][0024]
其中，wi和bi是可学习的参数，为卷积池化后的关系实例的完整语义。
[0025]
具体地，对获得关系实例的完整语义进行关系类型的分类的方法为：
[0026][0027][0028]
其中，linearj(x)＝wjx+bj，linearj(x)表示线性层，j为1或2，表示模型预测的关系类型。
[0029]
第二方面，提供了一种层次化卷积的生物医学关系抽取装置，其特征在于：所述装置包括：处理器和存储器，其中，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时使得所述处理器执行如第一方面中任意一项所述的层次化卷积的生物医学关系抽取方法。
[0030]
第三方面，提供了一种存储介质，包括存储在所述存储介质上的计算机程序指令，其中，所述计算机程序指令被处理器运行时执行如第一方面中任一项所述的层次化卷积的生物医学关系抽取方法。
[0031]
本发明的有益效果是：与现有技术相比，本发明包含两个卷积层，以分层的方式实现。在该模型中，通过使用一个关系实例中的两个命名实体，将句子分成五个通道。然后，采用传统的token级卷积操作从每个通道中学习局部上下文特征。特别地，设计了一个通道级卷积操作来学习不同通道之间的语义依赖关系。使得该方法具有以下优点：
[0032]
1)本发明通过两个实体将句子分成五个通道，使模型能够意识到实体边界，并学习长句子中生物医学实体之间的结构特征；
[0033]
2)本发明采用token级和通道级卷积，有效地学习与实体相关的上下文特征和语义依赖关系，增强了实体对之间的可区分性，有助于解决标签不平衡问题；
[0034]
3)本发明充分利用关系实例中的结构特征，可以为biore提供更强大的非线性函数逼近器，从而增强网络对关系实例的分类能力，以缓解数据不平衡问题；
[0035]
4)本发明把关系实例切分为多个通道，并且每个通道的语义是完整且不相同的，因此就可以获得更多的潜在知识，使得本发明能够充分利用预训练语言模型的潜在知识；
[0036]
5)本发明在七个数据集上进行了评估，以支持ppi、ddi和cpi的提取，并在所有数据集上实现了最佳性能。
附图说明
[0037]
图1为本公开至少一个实施例提供的实施流程图；
[0038]
图2为本公开至少一个实施例提供的层次化卷积的生物医学关系抽取模型图；
[0039]
图3为本公开至少一个实施例提供的基于多核方法的融合多尺度语义表示的深度文本聚类装置的示意性框图；
[0040]
图4为本公开至少一个实施例提供的存储介质的示意性框图。
具体实施方式
[0041]
为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。
[0042]
实施例1：
[0043]
如附图1～2所示，一种层次化卷积的生物医学关系抽取方法，所述方法包括以下步骤：
[0044]
步骤一、根据关系实例的结构信息，以实体位置为边界，将关系实例划分为五个相互重叠的通道；步骤二、利用预训练语言模型pubmedbert对关系实例及五个通道的文本进行编码获取词向量表示；步骤三、根据步骤一切分的通道位置和步骤二获取的语义特征，分别使用token级卷积对关系实例提取局部语义特征，使用通道级卷积获取通道间的全局语义依赖特征，对局部语义特征和全局语义依赖特征进行最大池化操作；步骤四、根据步骤一切分的通道位置，将步骤三中提取的局部语义特征和全局语义特征中互补的部分进行拼接获得关系实例的完整语义，对获得关系实例的完整语义进行关系类型的分类。
[0045]
所述步骤一中，根据关系实例的结构特征，将关系实例划分为相互重叠的五个通道，使同一个词可以学习不同通道内的语义表示。同时，为了更好地标识实体的位置结构信息，除了将关系实例切分为五个通道，还在关系实例的实体两侧插入了特殊标记符。具体操作形式化如下：
[0046]
原始句子s：s＝{x1,x2,
…
,xs,
…
,x
t
,
…
,xu,
…
,xv,
…
,xn}，其中{xs,
…
,x
t
}代表实体1，{xu,
…
,xv}表示实体2，n是句子长度。使用两个命名实体将每个输入句分成五个通道，本发明主要研究生物医学文献中长句的语义依赖关系。因此，每个句子不是分成五个独立的通道，而是分成五个重叠的通道，使每个通道能够融合更多的句子信息。通道切分如下：
[0047]
c1＝{x1,
…
,xn}
[0048]
c2＝{xs,
…
,xn}
[0049]
c3＝{x
t+1
,
…
,xn}
[0050]
c4＝{xu,
…
,xn}
[0051]
c5＝{x
v+1
,
…
,xn}
[0052]
由于不同的通道包含不同的句子上下文特征，因此能够学习不同粒度的语义依赖关系。与从整个句子中学习抽象特征相比，从这些通道中学习抽象特征有助于感知实体边界，并对与两个命名实体相关的局部上下文特征进行编码。
[0053]
同时，将特殊标记符插入到实体两侧，用于标志实体位置，突出实体信息。其中，针对不同的关系抽取任务，l
11
、l
12
和l
21
、l
22
是两组特殊标记符，分别代表不同的文本，在ppi任务中分别代表“b_prot”和“e_prot”，在ddi中代表“b_drug”和“e_drug”，在cpi中代表“b_chem”和“e_chem”。
[0054]
为了理解这个过程，给出一个例子：对于输入的句子“the retinoblastoma protein associates with the protein phosphatase type 1catalytic subunit.”具有一个实体对“retinoblastoma protein”和“protein phosphatase type 1”，切分后的五通道如下：
[0055][0056]
对于关系实例，在实体周围插入特殊标记符指示实体的边界，下面是具体的插入形式：
[0057][0058][0059]
在步骤二中，为了保证每个通道的语义信息的完整性，对每个通道的文本进行补充，形成语义完整的输入，再利用预训练语言模型pubmedbert将每个词映射为分布式的表示，并且，根据不同的通道选取不同位置的词向量获取各个通道的语义特征。如上所述，虽然通过将关系实例根据实体的位置切分为五个通道，有助于学习更多的语义依赖，但是，会导致每个通道的语义信息不完整。因此，对于所有的通道，在每个通道的文本ci前加入线索文本pi，使每个通道的语义信息完整。接着，利用预训练语言模型pubmedbert对所有的通道进行编码：
[0060][0061]
因此，可以将所有的通道的编码表示为同时，对于插入特殊标识符的关系实例同样使用另一个bert进行编码：
[0062][0063]
其中，每一个hi对应于每一个xi的抽象表示。经过编码以后，根据关系实例的结构特征，以实体位置为边界，将切分为步骤一中每个通道的互补通道，即：
[0064][0065][0066][0067][0068][0069]
在步骤二中，为了保证每个通道的语义的完整性，对每个通道的文本进行补充，形成语义完整的输入，为了理解这个过程，这里给出一个例子：例如使用的文本线索为“this is the ith channel,there are(is)2(1)entities(entity),the text is:”。接着，将所有通道的文本和关系实例文本输入到预训练语言模型pubmedbert中，获取各个通道的编码表示，并且，将关系实例输出的表示按通道的互不位置进行切分。
[0070]
步骤三中，使用token级卷积对关系实例提取局部语义特征的方法为
[0071]
对每个互补通道对应的词向量进行卷积得到
[0072]
对进行卷积最大池化操作得到第i个通道的互补通道的局部语义特征v
iη
；
[0073]
其中，表示每个互补通道对应的词向量，wc和b是可学习的参数，fc是relu激活函数；
[0074]
使用通道级卷积获取通道间的全局语义依赖特征的方法为：
[0075]
对每个通道对应的词向量进行卷积得到
[0076]
对进行卷积最大池化操作得到第i个通道的全局语义依赖特征
[0077]
其中，表示每个互补通道对应的词向量，wc和b是可学习的参数，fc是relu激活函数。
[0078]
对于每个通道进行同样地操作，可获得每个通道的特征。因此，经过token级卷积、池化和通道级卷积、池化操作后，可获得以下抽象表示：
[0079][0080][0081]
步骤四中，根据步骤一切分的通道位置，将步骤三中提取的局部语义特征和全局语义特征中互补的部分进行拼接，获得关系实例的完整语义进行关系类型的分类。具体操作方法为：
[0082][0083]
为了进一步增强特征的有效性，在所有通道特征的基础上，再次使用卷积、池化操作，具体方法为：在对获得关系实例的完整语义进行关系类型的分类之前，对获得关系实例的完整语义使用卷积、池化操作，对获得关系实例的完整语义使用卷积、池化操作的方法如下：
[0084]
[0085]
其中，wi和bi是可学习的参数，为卷积池化后的关系实例的完整语义。
[0086]
最后，根据获得的语义特征进行关系类型分类，对获得关系实例的完整语义进行关系类型的分类的方法为：
[0087][0088][0089]
其中，linearj(x)＝wjx+bj，linearj(x)表示线性层，j为1或2，表示模型预测的关系类型。
[0090]
最后，执行步骤五，使用真实的生物医学关系抽取数据集进行有效性验证。
[0091]
使用aimed、bioinfer、iepa、hprd50、lll、ddi、chemprot数据集进行实验，验证本发明在ppi、ddi、cpi任务上的有效性。首先通过步骤一至步骤四获得预测的关系类型，再根据标准的关系类型进行性能评估，验证方法的有效性，评价标准采用准确率(p)、召回率(r)、f1值，其中f＝2*p*r/(p+r)。
[0092]
实施例2：
[0093]
本公开的至少一个实施例还提供了一种层次化卷积的生物医学关系抽取装置。图3是本公开的至少一个实施例提供的层次化卷积的生物医学关系抽取装置的示意性框图。该层次化卷积的生物医学关系抽取装置，包括：处理器和存储器，其中，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时使得所述处理器执行如实施例一中任意一项所述的层次化卷积的生物医学关系抽取方法。
[0094]
例如，该处理器例如是中央处理单元(cpu)、图形处理器gpu、张量处理器(tpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如，该处理器可以实现为通用处理器，并且也可以为单片机、微处理器、数字信号处理器、专用的图像处理芯片、或现场可编程逻辑阵列等。例如，存储器可以包括易失性存储器和非易失性存储器的至少一种，例如存储器可以包括只读存储器(rom)、硬盘、闪存等。相应地，该存储器可以实现为一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，在所述计算机可读存储介质上可以存储一个或多个计算机程序指令。处理器可以运行所述程序指令，以执行本公开的至少一个实施例提供的任一层次化卷积的生物医学关系抽取方法。该存储器还可以存储其他各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。
[0095]
实施例三：
[0096]
本公开的至少一个实施例还提供了一种存储介质(例如，非暂时性存储介质)。图4是本公开的至少一个实施例提供的存储介质的示意性框图。如图4所示，该存储介质包括存储在所述存储介质上的计算机程序指令。计算机程序指令被处理器运行时执行本公开的至少一个实施例提供的层次化卷积的生物医学关系抽取方法。
[0097]
例如，存储介质可能有多种形式，包括有形的存储介质，载波介质或物理传输介质等。稳定的储存介质可以包括：光盘或磁盘，以及其他计算机或类似设备中使用的，能够实现图中所描述的系统组件的存储系统。不稳定的存储介质可以包括动态内存，例如计算机平台的主内存等。有形的传输介质可以包括同轴电缆、铜电缆以及光纤，例如计算机系统内
部形成总线的线路。载波传输介质可以传递电信号、电磁信号、声波信号或光波信号等。这些信号可以由无线电频率或红外数据通信的方法所产生。通常的存储介质(例如，计算机可读介质)包括硬盘、软盘、磁带、任何其他磁性介质；cd-rom、dvd、dvd-rom、任何其他光学介质；穿孔卡、任何其他包含小孔模式的物理存储介质；ram、prom、eprom、flash-eprom，任何其他存储器片或磁带；传输数据或指令的载波、电缆或传输载波的连接装置、任何其他可以利用计算机程序指令(例如，程序代码)和/或计算机读取的数据。
[0098]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序指令(例如，程序代码)，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0099]
在一些示例中，本公开的至少一个实施例描述的功能也可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0100]
本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

技术特征：
1.一种层次化卷积的生物医学关系抽取方法，其特征在于，所述方法包括以下步骤：步骤一、根据关系实例的结构信息，以实体位置为边界，将关系实例划分为五个相互重叠的通道；步骤二、利用预训练语言模型pubmedbert对关系实例及五个通道的文本进行编码获取词向量表示；步骤三、根据步骤一切分的通道位置和步骤二获取的语义特征，分别使用token级卷积对关系实例提取局部语义特征，使用通道级卷积获取通道间的全局语义依赖特征，对局部语义特征和全局语义依赖特征进行最大池化操作；步骤四、根据步骤一切分的通道位置，将步骤三中提取的局部语义特征和全局语义特征中互补的部分进行拼接获得关系实例的完整语义，对获得关系实例的完整语义进行关系类型的分类。2.根据权利要求1所述的层次化卷积的生物医学关系抽取方法，其特征在于，还包括：步骤五、使用真实的生物医学关系抽取数据集进行有效性验证。3.根据权利要求1所述的层次化卷积的生物医学关系抽取方法，其特征在于，所述步骤一还包括：在关系实例的实体两侧插入了特殊标记符，所述特殊标记符为l
11
、l
12
和l
21
、l
22
，l
11
和l
12
在ppi任务中代表“b_prot”，在ddi任务中代表“b_drug”，在cpi任务中代表“b_chem”，l
21
和l
22
在ppi任务中代表“e_prot”，在ddi任务中代表“e_drug”，在cpi任务中代表“e_chem”。4.根据权利要求1所述的层次化卷积的生物医学关系抽取方法，其特征在于，所述步骤二中，对每个通道的文本前加入线索文本进行补充，形成语义完整的输入，再利用预训练语言模型pubmedbert对补充后的文本进行编码获得每个通道的词向量表示并且，根据不同的通道选取不同位置的词向量，获取各个通道的语义特征。5.根据权利要求3所述的层次化卷积的生物医学关系抽取方法，其特征在于，所述步骤三中，使用token级卷积对关系实例提取局部语义特征的方法为：对每个互补通道对应的词向量进行卷积得到对进行卷积最大池化操作得到第i个通道的互补通道的局部语义特征v
iη
；所述使用通道级卷积获取通道间的全局语义依赖特征的方法为：对每个通道对应的词向量进行卷积得到对进行卷积最大池化操作得到第i个通道的全局语义依赖特征v
iδ
。6.根据权利要求5所述的层次化卷积的生物医学关系抽取方法，其特征在于，所述将步骤三中提取的局部语义特征和全局语义依赖特征中互补的部分进行拼接获得关系实例的完整语义的方法为：其中，v表示关系实例的完整语义。7.根据权利要求6所述的层次化卷积的生物医学关系抽取方法，其特征在于，在对获得关系实例的完整语义进行关系类型的分类之前，对获得关系实例的完整语义使用卷积、池化操作，对获得关系实例的完整语义使用卷积、池化操作的方法如下：
其中，w
i
和b
i
是可学习的参数，为卷积池化后的关系实例的完整语义。8.据权利要求7所述的层次化卷积的生物医学关系抽取方法，其特征在于，对获得关系实例的完整语义进行关系类型的分类的方法为：实例的完整语义进行关系类型的分类的方法为：其中，linear
j
(x)＝w
j
x+b
j
，linear
j
(x)表示线性层，j为1或2，表示模型预测的关系类型。9.一种层次化卷积的生物医学关系抽取装置，其特征在于：所述装置包括：处理器和存储器，其中，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时使得所述处理器执行如权利要求1-8任一项所述的层次化卷积的生物医学关系抽取方法。10.一种存储介质，包括存储在所述存储介质上的计算机程序指令，其中，所述计算机程序指令被处理器运行时执行如权利要求1-8任一项所述的层次化卷积的生物医学关系抽取方法。

技术总结
本发明公开了一种层次化卷积的生物医学关系抽取方法、装置及存储介质，包含两个卷积层，以分层的方式实现。在该模型中，通过使用一个关系实例中的两个命名实体，将句子分成五个通道。然后，采用传统的token级卷积操作从每个通道中学习局部上下文特征。特别地，设计了一个通道级卷积操作来学习不同通道之间的语义依赖关系。相较于传统的卷积模型，该发明能有效地编码长句子中的距离语义依赖。此外，该发明充分利用了预训练语言模型的潜在知识。明充分利用了预训练语言模型的潜在知识。明充分利用了预训练语言模型的潜在知识。

技术研发人员：扈应陈艳平黄瑞章秦永彬
受保护的技术使用者：贵州大学
技术研发日：2023.04.25
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种层次化卷积的生物医学关系抽取方法、装置及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种层次化卷积的生物医学关系抽取方法、装置及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表