一种知识图谱的预测方法、系统、设备及介质

未命名 08-09 阅读:94 评论:0


1.本发明涉及人工智能技术领域,特别是涉及一种知识图谱的预测方法、系统、设备及介质。


背景技术:

2.进入web3.0时代后,数据产生的方式发生了巨大变革。数据的产生方式由被动运营式产生变成了主动感知式产生。每天基于互联网产生的信息呈爆炸式增长。因此,如何从海量的数据中发现有价值的信息,从而满足用户个性化需求,以及从海量数据中筛选有效信息成为一个难题。存储海量知识的知识图谱应运而生。
3.知识图谱是一种图状结构。现实世界中表示实体的人或者事物(例如,食物、动物、人、地名等)被抽象为知识图谱图结构中的节点,而将节点与节点之间的内在联系(边)表示为实体之间的关系。最终知识图谱中的知识以三元组(头实体,关系,尾实体)的形式存储。例如,对于知识“《三国演义》的作者是罗贯中”,可以被表示为(《三国演义》,作者,罗贯中)。通过知识图谱可以表达现实世界中复杂多关系数据之间的复杂语义信息,被广泛应用在个性化推荐、智能问答、信息检索等领域。然而,现实世界中实体和关系的数量巨大,而且并不能枚举出所有的知识,因此通过人工智能算法对知识图谱进行自动补全是目前的研究热点。
4.由于现有的人工智能算法通常都是以数值型数据作为输入。因此现有知识图谱的符号化表示方法不能直接应用到人工智能算法中。近年来,以将实体和关系映射到向量空间的表示学习取得了显著进展。然而,目前已有的知识表示学习方法无法兼顾精确的表示实体之间的一对多、多对一和多对多等复杂关系以及建模图的链接模式。


技术实现要素:

5.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种知识图谱的预测方法、系统、设备及介质,用于解决现有技术中的知识表示学习方法无法兼顾精确的表示实体之间的一对多、多对一和多对多等复杂关系以及建模图的链接模式的问题。
6.本发明的第一方面提供一种知识图谱的预测方法,包括:获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;
7.处理各所述原始三元组,得到评价函数,基于所述评价函数构建基于边界的目标函数;
8.通过最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;
9.从所述候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;
10.对分数进行排序,选择得分最高的三元组作为最佳预测结果。
11.于本发明的一实施例中,所述处理各所述原始三元组,得到评价函数的步骤包括:
12.根据各所述原始三元组中的实体向量和关系向量,构建新的三元组;
13.平移所述新的三元组中的头实体,计算平移后的头实体与原始三元组中的尾实体的第一距离;
14.平移所述新的三元组中的尾实体,计算平移后的尾实体与原始三元组中的头实体的第二距离;
15.所述第一距离与所述第二距离之和构成评价函数。
16.于本发明的一实施例中,所述根据各所述三元组中的实体向量和关系向量,构建新的三元组的步骤包括:
[0017][0018]
其中,h表示头实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;hc表示头实体的新的向量表示;
[0019][0020]
其中,t表示尾实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;tc表示尾实体的新的向量表示。
[0021]
于本发明的一实施例中,所述平移所述新的三元组中的头实体,计算平移后的头实体与原始三元组中的尾实体的第一距离的步骤包括:
[0022]
sh=||hc+-||2;
[0023]
其中,sh表示第一距离;hc表示平移后的头实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;t表示原始三元组中的尾实体的向量表示;||
·
||2表示l2范式。
[0024]
于本发明的一实施例中,所述平移所述新的三元组中的尾实体,计算平移后的尾实体与原始三元组中的头实体的第二距离的步骤包括:
[0025]st
=||tc+-||2;
[0026]
其中,s
t
表示第二距离;tc表示平移后的尾实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;h表示原始三元组中的头实体的向量表示;||
·
||2表示l2范式。
[0027]
于本发明的一实施例中,所述基于所述评价函数构建基于边界的目标函数的步骤包括:
[0028][0029]
其中,表示目标函数;v
+
表示三元组的正样本集合;v-表示三元组的负样本集合;γ表示正负样本分割边界固定超参数;s表示两个正样本之间的距离;s

表示两个负样本之间的距离;
[0030]
评价函数的表达式为:
[0031]
s=sh+s
t

[0032]
其中,sh表示第一距离;s
t
表示第二距离。
[0033]
于本发明的一实施例中,所述通过最小化目标函数,学习各三元组中实体向量和关系向量的表示的步骤包括:
[0034]
根据目标函数减小的方向,迭代更新三元组中实体向量和关系向量的表示,直至
完成迭代次数,得到最优的实体向量和关系向量。
[0035]
本发明的第二方面还提供一种知识图谱的预测系统,包括:
[0036]
获取模块,用于获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;
[0037]
向量处理模块,用于处理各所述原始三元组,得到评价函数,基于所述评价函数构建基于边界的目标函数;
[0038]
更新模块,用于最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;
[0039]
预测模块,用于从所述候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;对分数进行排序,选择得分最高的三元组作为最佳预测结果。
[0040]
本发明的第三方面还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明第一方面的一种知识图谱的预测方法中所述的方法步骤。
[0041]
本发明的第四方面还提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面的一种知识图谱的预测方法中所述的方法步骤。
[0042]
如上所述,本发明的一种知识图谱的预测方法、系统、设备及介质,具有以下有益效果:
[0043]
本发明利用三元组中实体向量与关系向量间的交互来建模一对多、多对一和多对多等复杂关系,利用头实体和尾实体的两次平移建模对称关系和逆关系,再定义评价函数来度量三元组的合法性,并通过最小化目标函数学习实体和关系的最优嵌入向量表示,得到实体向量和关系向量的最佳预测结果。本发明可以同时考虑建模复杂关系和关系连接模式,能够精确的获取实体与关系间的复杂语义。
附图说明
[0044]
为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1显示为本发明第一实施方式中的预测方法的流程示意图。
[0046]
图2显示为本发明第一实施方式中一对多关系的示意图。
[0047]
图3显示为本发明第一实施方式中对称关系的示意图。
[0048]
图4显示为本发明第一实施方式中获取评价函数的流程示意图。
[0049]
图5显示为本发明第二实施方式中的预测系统的结构框图。
[0050]
图6显示为本发明第三实施方式中的计算机设备的示意图。
具体实施方式
[0051]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0052]
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0053]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0054]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0055]
请参阅图1,本发明的第一实施方式涉及一种知识图谱的表示学习方法,具体包括:
[0056]
步骤s101、获取知识图谱的原始三元组数据集。
[0057]
具体的说,知识图谱是一种图状结构,包括代表实体的节点和描述实体间关系的边,节点和实体是一一对应的关系,一个知识图谱中可包括一种或多种关系,即一种或多种类型的边。根据实体与边的位置关系,将一条边的起始节点对应的实体称为头实体,相应地,将该条边所指向的节点称为尾实体,他们组成了一个三元组。知识图谱中不仅包含一对多、多对一、多对多等复杂关系,而且还包含对称关系、逆关系、组合关系、反对称关系等连接模式。例如图2中给出了一个一对多关系示例,图2中给出了“中国”、“北京”、“上海”、“天津”和“重庆”多个实体,其中,头实体“中国”与尾实体“北京”、“上海”、“天津”和“重庆”的关系为“直辖市”;图3给出了一个对称关系模式示例,实体“张三”和“李四”的关系为“朋友”,其中,“张三”可以为头实体,也可以为尾实体,反之亦然。
[0058]
继续说明,本实施方式中的三元组数据集可通过开源的知识图谱数据库获取,也可根据需要自行统计获得。应理解,三元组数据集基于各实体在特定关系下所属的类别构建而成;此外,三元组数据集中包括多个三元组,且各三元组中的实体和关系均以向量形式表示。进一步的,三元组数据集中包括正样本和负样本,其中,正样本可通过开源知识图谱数据库中获取,为了增加训练样本,使用正样本中的实体逐个替换三元组中的头实体或尾实体,例如,知识图谱中存在三个实体e1、e2和e3,一个关系r,构成两个正样本三元组(e1,r,e2)、(e2,r,e3),通过使用e3替换e2产生一个不存在原知识图谱中的负样本(e1,r,e3),也可使用e3替换e1产生一个不存在原知识图谱中的负样本(e3,r,e3)。
[0059]
步骤s102、处理各原始三元组,得到评价函数,基于评价函数构建基于边界的目标函数。
[0060]
请参阅图4,处理各原始三元组,得到评价函数的步骤包括:
[0061]
步骤s401、根据各原始三元组中的实体向量和关系向量,构建新的三元组。
[0062]
针对一个原始三元组(h,r,t),通过头实体与关系的交互捕获头实体间的差异,获取头实体新的向量表示,其表达式为:
[0063][0064]
其中,h表示头实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;hc表示头实体的新的向量表示。
[0065]
针对一个原始三元组(h,r,t),通过尾实体与关系的交互捕获尾实体间的差异,获取尾实体新的向量表示,其表达式为:
[0066][0067]
其中,t表示尾实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;tc表示尾实体的新的向量表示。
[0068]
采用上述方案,利用实体与关系间的两次交互,来建模一对多、多对一和多对多等复杂关系,建模后的新的三元组向量表示为(hc,r,tc)。
[0069]
步骤s402、平移新的三元组中的头实体,计算平移后的头实体与原始三元组中的尾实体的第一距离。
[0070]
步骤s403、平移新的三元组中的尾实体,计算平移后的尾实体与原始三元组中的头实体的第二距离。
[0071]
具体的说,新的三元组向量表示为(hc,r,tc),将新的三元组中的头实体向尾实体平移,并计算平移后的头实体与原始三元组中的尾实体的第一距离,其表达式为:
[0072]
sh=||hc+-||2;
[0073]
其中,sh表示第一距离;hc表示平移后的头实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;t表示原始三元组中的尾实体的向量表示;||
·
||2表示l2范式。
[0074]
将新的三元组中的尾实体向头实体平移,并计算平移后的尾实体与原始三元组中的头实体的第二距离,其表达式为:
[0075]st
=||tc+-||2;
[0076]
其中,s
t
表示第二距离;tc表示平移后的尾实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;h表示原始三元组中的头实体的向量表示;||
·
||2表示l2范式。
[0077]
步骤s404、第一距离与第二距离之和构成评价函数s,该评价函数用于描述新的三元组中头实体、尾实体以及关系之间的距离,其表达式为:
[0078]
s=h+s
t

[0079]
继续说明,基于评价函数构建基于边界的目标函数,其中,目标函数的表达式为:
[0080][0081]
其中,表示目标函数;v
+
表示三元组的正样本集合;v-表示三元组的负样本集合;γ表示正负样本分割边界固定超参数;s表示两个正样本之间的距离;s

表示两个负样本之间的距离。应理解,目标函数与两个正样本之间的距离之和正相关,与两个负样本之间的距离之和负相关。
[0082]
步骤s103、通过最小化目标函数,学习各三元组中实体向量和关系向量的表示,得
到候选三元组集合。
[0083]
具体的说,最小化目标函数,也就是通过现有的神经网络学习算法,例如随机梯度下降的优化方法,重复上述步骤,根据目标函数减小的方向,迭代更新三元组中实体向量和关系向量的表示,使得两个正样本之间的距离之和越来越小,而两个负样本之间的距离之和越来越大,直至完成迭代次数或目标函数达到预设的最小值,得到最优的实体向量和关系向量。进一步的,在上述迭代过程中,可先对关系向量进行训练,将每次迭代得到的最优关系向量替换原始三元组中的关系向量;再将训练好的关系向量固定,继续训练头实体向量和尾实体向量,训练后的实体向量和关系向量构成候选三元组数据集。
[0084]
步骤s104、从候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;对分数进行排序,选择得分最高的三元组作为最佳预测结果。
[0085]
可见,本实施方式利用三元组中实体向量与关系向量间的交互来建模一对多、多对一和多对多等复杂关系,利用头实体和尾实体的两次平移建模对称关系和逆关系,再定义评价函数来度量三元组的合法性,并通过最小化目标函数学习实体和关系的最优嵌入向量表示,得到实体向量和关系向量的最佳预测结果。本发明可以同时考虑建模复杂关系和关系连接模式,能够精确的获取实体与关系间的复杂语义。
[0086]
请参阅图5,本发明的第二实施方式涉及一种知识图谱的预测系统,该知识图谱的预测系统与第一实施方式中公开的一种知识图谱的预测方法相对应,具体包括:
[0087]
获取模块,用于获取知识图谱的原始三元组数据集。
[0088]
具体的说,知识图谱是一种图状结构,包括代表实体的节点和描述实体间关系的边,节点和实体是一一对应的关系,一个知识图谱中可包括一种或多种关系,即一种或多种类型的边。根据实体与边的位置关系,将一条边的起始节点对应的实体称为头实体,相应地,将该条边所指向的节点称为尾实体,他们组成了一个三元组。知识图谱中不仅包含一对多、多对一、多对多等复杂关系,而且还包含对称关系、逆关系、组合关系、反对称关系等连接模式。例如图2中给出了一个一对多关系示例,图2中给出了“中国”、“北京”、“上海”、“天津”和“重庆”多个实体,其中,头实体“中国”与尾实体“北京”、“上海”、“天津”和“重庆”的关系为“直辖市”;图3给出了一个对称关系模式示例,实体“张三”和“李四”的关系为“朋友”,其中,“张三”可以为头实体,也可以为尾实体,反之亦然。
[0089]
继续说明,本实施方式中的三元组数据集可通过开源的知识图谱数据库获取,也可根据需要自行统计获得。应理解,三元组数据集基于各实体在特定关系下所属的类别构建而成;此外,三元组数据集中包括多个三元组,且各三元组中的实体和关系均以向量形式表示。进一步的,三元组数据集中包括正样本和负样本,其中,正样本可通过开源知识图谱数据库中获取,为了增加训练样本,使用正样本中的实体逐个替换三元组中的头实体或尾实体,例如,知识图谱中存在三个实体e1、e2和e3,一个关系r,构成两个正样本三元组(e1,r,e2)、(e2,r,e3),通过使用e3替换e2产生一个不存在原知识图谱中的负样本(e1,r,e3),也可使用e3替换e1产生一个不存在原知识图谱中的负样本(e3,r,e3)。
[0090]
向量处理模块,用于处理各原始三元组,得到评价函数,基于评价函数构建基于边界的目标函数。
[0091]
具体的说,处理各原始三元组,得到评价函数的步骤包括:
[0092]
步骤一、根据各原始三元组中的实体向量和关系向量,构建新的三元组。
[0093]
针对一个原始三元组(h,r,t),通过头实体与关系的交互捕获头实体间的差异,获取头实体新的向量表示,其表达式为:
[0094][0095]
其中,h表示头实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;hc表示头实体的新的向量表示。
[0096]
针对一个原始三元组(h,c,t),通过尾实体与关系的交互捕获尾实体间的差异,获取尾实体新的向量表示,其表达式为:
[0097][0098]
其中,t表示尾实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;tc表示尾实体的新的向量表示。
[0099]
采用上述方案,利用实体与关系间的两次交互,来建模一对多、多对一和多对多等复杂关系,建模后的新的三元组向量表示为(hr,r,tc)。
[0100]
步骤二、平移新的三元组中的头实体,计算平移后的头实体与原始三元组中的尾实体的第一距离。
[0101]
步骤三、平移新的三元组中的尾实体,计算平移后的尾实体与原始三元组中的头实体的第二距离。
[0102]
具体的说,新的三元组向量表示为(hc,r,tc),将新的三元组中的头实体向尾实体平移,并计算平移后的头实体与原始三元组中的尾实体的第一距离,其表达式为:
[0103]
sh=||hc+-||2;
[0104]
其中,sh表示第一距离;hc表示平移后的头实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;t表示原始三元组中的尾实体的向量表示;||
·
||2表示l2范式。
[0105]
将新的三元组中的尾实体向头实体平移,并计算平移后的尾实体与原始三元组中的头实体的第二距离,其表达式为:
[0106]st
=||tc+-||2;
[0107]
其中,s
t
表示第二距离;tc表示平移后的尾实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;h表示原始三元组中的头实体的向量表示;||
·
||2表示l2范式。
[0108]
步骤四、第一距离与第二距离之和构成评价函数s,该评价函数用于描述新的三元组中头实体、尾实体以及关系之间的距离,其表达式为:
[0109]
s=h+s
t

[0110]
继续说明,基于评价函数构建基于边界的目标函数,其中,目标函数的表达式为:
[0111][0112]
其中,表示目标函数;v
+
表示三元组的正样本集合;v-表示三元组的负样本集合;γ表示正负样本分割边界固定超参数;s表示两个正样本之间的距离;s

表示两个负样本之间的距离。应理解,目标函数与两个正样本之间的距离之和正相关,与两个负样本之间的距离之和负相关。
[0113]
更新模块,用于最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集。
[0114]
具体的说,最小化目标函数,也就是通过现有的神经网络学习算法,例如随机梯度下降的优化方法,重复上述步骤,根据目标函数减小的方向,迭代更新三元组中实体向量和关系向量的表示,使得两个正样本之间的距离之和越来越小,而两个负样本之间的距离之和越来越大,直至完成迭代次数或目标函数达到预设的最小值,得到最优的实体向量和关系向量。进一步的,在上述迭代过程中,可先对关系向量进行训练,将每次迭代得到的最优关系向量替换原始三元组中的关系向量;再将训练好的关系向量固定,继续训练头实体向量和尾实体向量,训练后的实体向量和关系向量构成候选三元组数据集。
[0115]
预测模块,用于从候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;对分数进行排序,选择得分最高的三元组作为最佳预测结果。
[0116]
可见,本实施方式利用三元组中实体向量与关系向量间的交互来建模一对多、多对一和多对多等复杂关系,利用头实体和尾实体的两次平移建模对称关系和逆关系,再定义评价函数来度量三元组的合法性,并通过最小化目标函数学习实体和关系的最优嵌入向量表示,得到实体向量和关系向量的最佳预测结果。本发明可以同时考虑建模复杂关系和关系连接模式,能够精确的获取实体与关系间的复杂语义。
[0117]
请参阅图6,本发明的第三实施方式涉及一种计算机设备,包括存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序,处理器602执行所述计算机程序时实现以下步骤:
[0118]
获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;
[0119]
处理各原始三元组,得到评价函数,基于评价函数构建基于边界的目标函数;
[0120]
通过最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;
[0121]
从候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;
[0122]
对分数进行排序,选择得分最高的三元组作为最佳预测结果。
[0123]
其中,存储器601和处理器602采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器602和存储器601的各种电路连接在一起。总线还可以将诸如外围设备603、稳压器604和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器602处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器602。
[0124]
处理器602负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器601可以被用于存储处理器602在执行操作时所使用的数据。
[0125]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结
构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0126]
本发明的第四实施方式涉及一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0127]
获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;
[0128]
处理各原始三元组,得到评价函数,基于评价函数构建基于边界的目标函数;
[0129]
通过最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;
[0130]
从候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;
[0131]
对分数进行排序,选择得分最高的三元组作为最佳预测结果。
[0132]
本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0133]
综上所述,本发明的一种知识图谱的预测方法、系统、设备及介质,利用三元组中实体向量与关系向量间的交互来建模一对多、多对一和多对多等复杂关系,利用头实体和尾实体的两次平移建模对称关系和逆关系,再定义评价函数来度量三元组的合法性,并通过最小化目标函数学习实体和关系的最优嵌入向量表示,得到实体向量和关系向量的最佳预测结果。本发明可以同时考虑建模复杂关系和关系连接模式,能够精确的获取实体与关系间的复杂语义。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0134]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

技术特征:
1.一种知识图谱的预测方法,其特征在于,包括:获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;处理各所述原始三元组,得到评价函数,基于所述评价函数构建基于边界的目标函数;通过最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;从所述候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;对分数进行排序,选择得分最高的三元组作为最佳预测结果。2.根据权利要求1所述的预测方法,其特征在于,所述处理各所述原始三元组,得到评价函数的步骤包括:根据各所述原始三元组中的实体向量和关系向量,构建新的三元组;平移所述新的三元组中的头实体,计算平移后的头实体与原始三元组中的尾实体的第一距离;平移所述新的三元组中的尾实体,计算平移后的尾实体与原始三元组中的头实体的第二距离;所述第一距离与所述第二距离之和构成评价函数。3.根据权利要求2所述的预测方法,其特征在于:所述根据各所述三元组中的实体向量和关系向量,构建新的三元组的步骤包括:其中,h表示头实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;h
c
表示头实体的新的向量表示;其中,t表示尾实体的原始向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;运算符表示逐元素向量乘法运算;tc表示尾实体的新的向量表示。4.根据权利要求2所述的预测方法,其特征在于,所述平移所述新的三元组中的头实体,计算平移后的头实体与原始三元组中的尾实体的第一距离的步骤包括:s
h
=||h
c
+r-t||2;其中,s
h
表示第一距离;h
c
表示平移后的头实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;t表示原始三元组中的尾实体的向量表示;||
·
||2表示l2范式。5.根据权利要求4所述的预测方法,其特征在于,所述平移所述新的三元组中的尾实体,计算平移后的尾实体与原始三元组中的头实体的第二距离的步骤包括:s
t
=||t
c
+r-h||2;其中,s
t
表示第二距离;t
c
表示平移后的尾实体的向量表示;r表示该三元组的用于和头实体进行交互的关系的向量表示;h表示原始三元组中的头实体的向量表示;||
·
||2表示l2范式。6.根据权利要求5所述的预测方法,其特征在于,所述基于所述评价函数构建基于边界的目标函数的步骤包括:
其中,表示目标函数;v
+
表示三元组的正样本集合;v-表示三元组的负样本集合;γ表示正负样本分割边界固定超参数;s表示两个正样本之间的距离;s

表示两个负样本之间的距离;评价函数的表达式为:s=s
h
+s
t
;其中,s
h
表示第一距离;s
t
表示第二距离。7.根据权利要求5所述的预测方法,其特征在于,所述通过最小化目标函数,学习各三元组中实体向量和关系向量的表示的步骤包括:根据目标函数减小的方向,迭代更新三元组中实体向量和关系向量的表示,直至完成迭代次数,得到最优的实体向量和关系向量。8.一种知识图谱的预测系统,其特征在于,包括:获取模块,用于获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;向量处理模块,用于处理各所述原始三元组,得到评价函数,基于所述评价函数构建基于边界的目标函数;更新模块,用于最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;预测模块,用于从所述候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;对分数进行排序,选择得分最高的三元组作为最佳预测结果。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的预测方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的预测方法的步骤。

技术总结
本发明提供一种知识图谱的预测方法、系统、设备及介质,包括:获取知识图谱的原始三元组数据集,其中,各原始三元组包括头实体、关系和尾实体;处理各所述原始三元组,得到评价函数,基于所述评价函数构建基于边界的目标函数;通过最小化目标函数,学习各三元组中实体向量和关系向量的表示,得到候选三元组数据集;从所述候选三元组数据集中依次取出候选实体和候选关系,构建多个候选三元组,将各候选三元组代入评价函数得到对应的分数;对分数进行排序,选择得分最高的三元组作为最佳预测结果。本发明可以同时考虑建模复杂关系和关系连接模式,能够精确的获取实体与关系间的复杂语义。义。义。


技术研发人员:薛丽霞 汪荣贵 杨娟 张前进 江丹
受保护的技术使用者:合肥工业大学
技术研发日:2022.04.12
技术公布日:2023/8/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐