面向异构知识图谱的对比学习预测方法及系统

未命名 07-13 阅读:189 评论:0


1.本发明属于知识表示与推理技术领域,尤其涉及一种基于面向异构知识图谱的对比学习预测方法。


背景技术:

2.目前,知识图谱是一种基于语义的图形数据库,用于描述实体之间的关系和属性。它由一组有向边连接的节点构成,每个节点代表一个实体,每条边代表实体之间的关系。链路预测是知识图谱中的一个重要任务,它的目标是预测未知实体之间的关系或已知实体之间的缺失关系,以推断出更多的潜在知识,丰富已知的知识图谱。链路预测在实际应用中非常重要,是问答、推荐等人工智能应用的重要基础。现实世界中已经创建了许多知识图谱,并应用于推荐系统、问答、对话生成等各种应用程序中,受到学术界和产业界的广泛关注。
3.现实世界中大多数知识图谱都是不完整的,因此预测实体之间缺失的链接是知识图谱的一个基本问题。为了解决知识图谱缺失的问题,研究者们提出了多种方法。传统的基于规则的方法,如markov logic networks,这种方法通常需要手工构建规则,然后利用规则进行实体和关系的补全。该方法的优点是易于理解和解释,但其局限性在于需要专家知识,并且规则的构建成本较高。除了基于规则的方法外,还有其他主流的方法可用于知识图谱的补全。一类方法是基于知识图谱嵌入,例如transe、rotate和hake。另一类方法是通过图神经网络学习图的拓扑结构和实体信息,例如在模型中引入图卷积层等。此外,还有一些方法利用类比推理的思想增强知识图谱的实体和关系表示,例如通过学习实体之间的类比关系来预测新的实体和关系。
4.近年来,随着图神经网络(gnns)被提出,并在图结构数据处理中展现出了卓越的性能。一些模型例如gcn、gin、graphsage将卷积运算应用于图数据,并提出了图卷积网络。虽然gnns在图表示学习方面展现出了非凡的能力,但以往的研究大多集中在学习非关系图中节点的嵌入。而对于多关系图,本发明认为它不仅需要学习节点的嵌入,还需要学习关系的嵌入。
5.相较于同构图,知识图谱一般包含多类实体和关系,是一个异构信息网络(hin)。异构性往往通过关系路径来反映,它体现了包含不同三元组的复杂语义特征,实体之间有一步或多步关系路径。因此,不同的关系路径可以聚合不同的语义信息,直接融合每个实体的所有邻居节点是不合理的。但是,考虑每个关系路径也不切实际,因为一些关键的关系路径中聚集的语义特征会被削弱。对于大多数知识图谱链路预测方法来说,已有的归纳推理的研究方法可以被看作是把训练数据当作一本书来背诵,把预测缺失的环节当作一本书来考试。由于大型知识图往往包含不完整的三元组,运用记忆范式很难归纳推断出这些三元组。
6.通过上述分析,现有技术存在的问题及缺陷为:
7.(1)现有的研究通常使用知识图谱嵌入来进行链路预测,但传统的基于嵌入的方法只考虑实体之间的关系,忽略了实体周围的上下文信息。
8.(2)由于知识图谱大多为多关系图,同一实体在不同的上下文中表达的语义信息也不同,现有的研究中无论是基于嵌入的方法亦或是基于图神经网络的方法都未考虑到这些问题。
9.(3)因为知识图谱往往包含大量不完全三元组,所以很难用知识图谱嵌入进行归纳推断,因此导致链路预测难度大大提高。


技术实现要素:

10.针对现有技术存在的问题,本发明提供了一种基于面向异构知识图谱的对比学习预测方法。
11.本发明是这样实现的,一种基于面向异构知识图谱的对比学习预测方法,所述模型包括:
12.多关系图神经网络层:主要是利用实体级别、关系级别和自我级别等三重层次化的注意机制,对关系路径的实体特征进行聚合,以获取不同关系路径的权重。因此,模型能够根据实体之间的关系路径来捕捉不同关系下实体的语义信息;
13.对比学习层:首先,本层对实体进行全局以及上下文级别的数据采样,输入到编码器中用于对比学习;同时,对实体的上下文以及结构进行编码,捕获不同上下文环境中实体的语义信息,用于生成不同的实体表示,分别保留不同的上下文和结构视图特征;
14.类比推理层:本层利用基于知识图谱嵌入的评分函数评价三元组的相似度,并将得分最高的三元组作为合适的类比对象,用于预测不完全三元组;
15.输出层:输出最终计算出的实体相似度得分,相似度较高的实体作为预测结果。
16.进一步,所述的多关系图神经网络层包括:
17.实体级别聚合模块,用于对基于关系路径的实体特征进行聚合,即利用实体之间的关系路径来捕捉实体的语义信息;
18.关系级别聚合模块,利用与实体相关的关系路径,聚合各种类型的语义信息,从而获得关系级别的特征;
19.自我级别聚合模块,利用实体级别和关系级别的特征聚合自身信息,以获得更全面的实体表示。
20.进一步,所述实体级别聚合模块对不同关系路径上的实体特征进行聚合,获取同一类型实体的语义信息;同时,将实体特征和关系特征作为输入,针对每一条关系路径做如下的聚合操作,关系路径的聚合公式如公式(1):
21.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
22.在关系路径的聚合公式中,表示聚合的结果,表示实体关系路径的集合,符号是第层的第个实体,符号是第层的第个实体聚合特征,表示一个聚合函数;
23.在对关系路径上的实体特征进行聚合后,本发明通过注意力机制学习相邻实体之间的权重;计算的过程使用以下公式(2):
24.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
25.在实体级别聚合模块中,表示注意力函数,和表示中心实体的特征,表示实体i通过注意力函数学习到关系路径r的第j个邻居实体的权重,表示大小为n的权重矩阵,注意力函数使用以下公式(3):
26.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
27.在得到相邻实体之间的权重后,对权重系数进行归一化,计算的过程使用以下公式(4):
28.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
29.针对实体i的基于关系路径r的特征通过具有相应系数的邻居特征进行聚合;其中,leakyrelu是激活函数,是拼接操作,计算过程使用以下公式(5):
30.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
31.接着,通过聚合得到实体在关系路径上的特征集合,计算过程使用以下公式(6):
32.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。
33.进一步,所述关系级聚合模块中,通过关系路径对不同类别的语义信息进行融合,通过学习不同关系路径的重要性来获取语义信息;表示一个维的关系嵌入,表示关系的集合,表示第层的第i个实体特征,表示一个聚合函数,计算过程使用以下公式(7):
34.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
35.在获取不同关系路径上的权重后,将实体级聚合的特征集合作为输入,每个关系路径聚合特征计算公式如下(8):
36.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
37.通过捕获基于关系的重要性,然后利用它来选择性地聚合实体关系间的信息;然后通过压缩和扩展操作,将全局的特征信息聚合到特定的关系符号
中,其中表示特征信息的维度,计算过程使用以下公式(9):
38.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
39.在关系级聚合模块中,使用一个简单的门控机制来捕获每个关系路径聚合特征之间的关系,表示relu激活函数,表示sigmoid激活函数,和表示变换矩阵,表示关系路径的注意力权重;计算过程使用以下公式(10):
40.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
41.利用平移距离运算将关系特征整合到特征传播中,其中,表示关系特征,表示关系集合,表示实体级聚合特征的集合,表示关系路径r上的注意力权重集合,表示关系嵌入;计算过程使用以下公式(11):
42.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
43.进一步,所述自我级别聚合模块是针对前面实体级特征本身进行聚合,其中,是实体i在层的聚合特征,是聚合函数,是实体i的自身的特征,计算过程使用以下公式(12):
44.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
45.聚合特征的权重和实体自我特征的权重计算过程使用以下公式(13):
46.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
47.具体地,首先需要对聚合特征和实体自我特征进行非线性变换,然后通过注意力向量来衡量特征的重要性;其中是一个权重变换矩阵,是一个偏置向量,表示特征的重要性,表示一个激活函数,计算过程使用以下公式(14):
48.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
49.然后对上述得到的所有权重值进行归一化,得到特征和的权重值和,计算过程使用以下公式(15):
50.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
51.最后,通过非线性变换不断的更新实体特征和关系特征,其中,表示激活函数,表示实体特定的连接系数矩阵,表示关系特定的连接系数矩阵,
是聚合特征的权重和是实体自我特征的权重,计算过程使用以下公式(16)和(17):
52.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
53.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
54.进一步,所述对比学习层由正采样,负采样,编码器以及对比学习模块组成,其中编码器部分由结构编码器和上下文编码器两个部分组成;
55.具体地:
56.(1)正采样
57.所述对比学习层中使用表示实体s的上下文子图,使用表示对应的上下文模式;在上下文子图中的其他节点作为上下文实体;目标实体s的正样本可以表示为:
58.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
59.其中, 表示上下文子图实体的三元组集合,s和u表示源实体和目标实体,r表示实体之间的关系;
60.(2)负采样
61.局部模式负采样策略:对于两个目标实体u和v,如果二者对应的子图可以被投影到相同的上下文模型,就认为他们的邻居实体为这二者彼此的负样本;那么实体s的负样本可以使用以下公式(19)表示:
62.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
63.其中,表示一个批次的目标实体集合,表示实体s的上下文模式;
64.全局模式负采样策略:对于两个目标实体u和v,如果二者对应不同的上下文模式,对比学习层将二者的上下文模式定义为彼此的负样本,全局模式采样的负样本计算过程使用以下公式(20):
65.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)
66.(3)结构与上下文视图编码器
67.结构视图编码器主要为了获取不同结构下实体的表达,给定实体s和关系r,全局结构感知实体嵌入和关系嵌入计算公式(21)如下:
68.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
69.其中,表示一个gnn模型,表示一个嵌入网络;
70.上下文编码器主要目的是为了捕获实体周围的上下文信息,对比学习层使用一个层堆叠的转换函数去学习实体集合的上下文嵌入,表示实体s的子图的上下文嵌入,
表示一个mlp的编码器,表示一个层的参数矩阵,表示一个语义关联矩阵,计算过程使用以下公式(22):
71.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
72.然后,通过聚合每一层的输出获取节点的上下文视图嵌入,计算过程使用以下公式(23):
73.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)
74.(3)优化策略
75.上下文级优化策略:对比学习层使用infonce loss作为上下文级别的对比损失函数,infonce loss的主要作用是用于学习特征表示,它通过最大化正样本对的互信息来使得特征表示更加丰富和具有区分度。其中,用于控制评分函数的灵敏度,表示余弦相似度函数,和分别表示实体s和实体t的上下文实体嵌入,表示计算出的损失值,优化策略计算过程使用以下公式(24):
76.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
77.全局级优化策略:将实体s的上下文视图和结构视图嵌入作为输入,通过使用带有隐藏层的mlp(multi-layer perceptron多层感知器)编码器将其映射到对比度损失空间中,优化策略计算过程使用以下公式(25~26):
78.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
79.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)
80.其中,是一个的激活函数,和是一个权重矩阵,和是偏置参数,和分别是节点s的上下文视图嵌入和结构视图嵌入;然后在实体的上下文和结构表示之间进行跨视图对比学习,其中,表示一个超参数,表示一个余弦相似度评分函数,计算过程使用以下公式(27):
81.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(27)
82.进一步,所述类比推理层由类比检索器和类比函数组成,用知识图谱嵌入的评分函数评价三元组的相似度,并将得分最高的三元组作为合适的类比对象。
83.进一步,所述类比函数,类比推理层使用表示类比函数,使用实体和关系嵌入作为输入,并为类比推理的每个级别训练类比函数,并输出类比对象嵌入;和表示实体嵌入,表示训练好的嵌入模型,表示其他参数的集合;类比函数计算过程公式(28)如下:
84.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(28)
85.用于关系级的类比推理函数通过投影向量将关系在中的原始嵌入映射到类比嵌入向量中,关系级的类比函数计算过程使用以下公式(29):
86.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(29)
87.其中,表示关系隐藏维度,表示元素乘积;同样的,实体级的类比推理函数将实体的原始嵌入映射到类比嵌入,表示实体的投影向量,表示实体隐藏维度,表示关系的变换矩阵,表示权重超参数,函数定义计算过程使用以下公式(30):
88.ꢀꢀꢀꢀꢀꢀꢀꢀ
(30)
89.三重类比推理的类比函数通过堆叠实体和关系的嵌入输出实体和关系对的类比嵌入。其中,通过将给定的关系嵌入将头实体嵌入映射到尾实体嵌入,类比函数计算过程使用以下公式(31):
90.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(31)
91.进一步,所述的类比检索器,类比推理层中提出了三个类比检索器以获得不同层次的类比对象;根据已知的三元组,通过头实体和关系实体,使用类比检索器检索出相似的三元组和,对检索出相似的三重级相似三元组;
92.在实体级检索器中,使用实体替换所有实体集合中的实体,然后使用一个已经训练好的知识图谱嵌入模型作为评分函数,将评分最高的三元组视为相似三元组;然后,将相似三元组的头实体作为实体级类比检索器的类比对象;类比对象集合计算过程使用以下公式(32):
93.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(32)
94.其中,表示一个基于训练好的知识图谱嵌入模型的评分函数,表示一个三元组;给定一个三元组,关系类比检索器检索相似的关系用于类比推理,关系级类比检索器的类比对象集合计算过程使用以下公式(33):
95.ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(33)
96.三重级类比检索器是对实体级和关系级类比检索器的结合,通过给定的三元组检索相似三元组进行类比推理;类比推理层选取三重级类比检索得分最高的实体和关系集合进行配对;表示实体集合,表示关系集合,三重级类比检索器的类比对象集计算过程使用以下公式(34):
97.ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(34)。
98.本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述基于面向异构知识图谱的对比学习预测方法。
99.结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
100.第一、本发明提出了一种新颖的面向多关系学习的对比链路预测模型,该模型采用层次化的注意力机制针对不同的关系路径添加权重,进而选择有用的关系路径和邻居。现有的研究中大多未针对实体的不同关系路径的重要性去有选择性的聚合信息,而是直接聚合实体周围的特征信息,这样会导致与实体预测无关的信息被聚合到实体特征中,进而影响预测的准确性。因此,本发明通过添加实体级、关系级和自我级等三重注意力机制有选择性的聚合目标实体周围的上下文信息,从而提高预测准确性。
101.第二、在多关系知识图谱中,同一实体在不同的上下文背景下所表达的含义也不同,而已有的研究中尚未考虑不同语义环境实体含义不同的问题。因此,为了更好地捕捉实体在不同上下文中的表示,本发明的模型引入了模式增强技术,将知识图谱中实体之间的关系以及上下文与其所属的模式结合,来获取实体在不同语义环境下的表达。
102.第三、现有的研究大多是通过归纳的知识推理方法预测实体信息,这种方法在绝大多数的知识图谱上都是有效的。但是,针对于存在大量缺失三元组的知识图谱上,基于归纳的推理方法却很难发挥效果。这是因为基于归纳的推理方法通常是聚合实体以及周围的邻居特征信息,而大量实体的缺失会导致模型难以聚合这些特征信息。因此,为了预测存在大量不完全的三元组的知识图谱,受到类比推理的启发,本发明的模型通过增加类比对象检索器来检索相似的目标实体,利用类比推理的方式预测缺失的三元组。具体而言,模型通过实体本身去检索相似的三元组信息,利用类比函数计算相似分数,最终将分数最高的三元组作为预测结果。这种方法仅仅需要实体本身的信息,并不需要实体周围的邻居或者关系信息,针对存在大量缺失三元组的知识图谱十分有效。实验结果表明,该模型在多个数据集上表现出优异的性能。
103.第四,基于上面的分析,本发明提出了一种新的面向多关系学习的对比链路预测模型mra-cle(multi-relation attention contrastive learning enhanced,简称mra-cle),模型采用层次化的注意力机制选择有用的关系路径和邻居。通过有选择性的聚合实体周围的上下文信息,去除对于实体预测无效的信息,从而提高预测准确性。同时,模型通过模式增强技术有效的捕捉实体在不同上下文中的所表达的语义信息。另外,模型基于类比推理的思想,通过类比检索器检索相似的三元组用于预测。模型在存在大量确实三元组的知识图谱上效果优异。通过在fb15k、fb15k-237、jf17k以及humanwiki数据集上的实验研究,证明了模型在链路预测任务上的有效性。
104.本发明的主要贡献如下:
105.1.本发明提出了一种基于同一模式的实体和关系类型约束方法,能够有效地捕捉实体在不同语义环境下的结构和语义信息,从而增强实体嵌入的上下文相关性。
106.2.本发明提出了一种实体级、关系级和自我级等三重注意力机制,能够动态地选择和加权重要的关系路径和邻居特征,从而提高邻居特征的聚合效果。
107.3.本发明提出了一个新颖的类比检索器,能够利用相似三元组进行类比推理,从而提升模型的推理能力。
108.第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
109.(1)本发明的技术方案转化后的预期收益和商业价值为:本发明可以帮助知识图谱搜索引擎改进搜索结果的准确性和相关性。通过预测搜索内容(实体)与已知知识图谱实体之间的关系,搜索引擎可以更好地理解用户的查询意图,并提供更精确的搜索结果;可以为内容推荐和个性化推荐提供基础。通过预测用户可能感兴趣的实体之间的关联关系,可以提供更加个性化和准确的推荐结果,提高用户满意度和转化率;通过分析知识图谱中的关系,可以更好地理解用户的兴趣和需求,从而提高广告定向投放的准确性和效果。预测实体之间的关系可以帮助广告主将广告投放给与其产品或服务相关的目标用户,提高广告的点击率和转化率;知识图谱的链路预测可以应用于网络安全和反欺诈领域。通过预测实体之间的关系,可以识别潜在的欺诈行为、网络攻击和恶意活动,提高网络安全性。
110.(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:本发明通过提出了模式增强技术解决了以往研究汇总不同语义环境下实体表达含义不同的难题。模式增强即将同一类型的实体以及关系视为同一模式,通过这种方法可以捕获不同上下文环境下的实体信息来做出准确的预测。在已有的相关研究中,针对于存在大量缺失三元组的知识图谱的链路预测一直是一个研究难题,现有的研究都是基于归纳的思想。本发明基于类比推理的思想提出了类比检索器,通过检索实体的相似三元组用于预测。解决了以往研究中在大量三元组的知识图谱中链路预测准确率确实较低的难题。
附图说明
111.图1是本发明实施例提供的基于面向异构知识图谱的对比学习预测方法架构图;
112.图2是本发明实施例提供的基于面向异构知识图谱的对比学习预测方法中多关系注意力机制结构图;
113.图3是本发明实施例提供的基于面向异构知识图谱的对比学习预测方法中对比学习模块整体架构图;
114.图4是本发明实施例提供的基于面向异构知识图谱的对比学习预测方法中类比推理层模块整体架构图。
115.图中:
116.图1和图3中表示实体对应的子图。
具体实施方式
117.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
118.如图1所示,本发明所提出的mra-cle模型由五个组件组成,每部分的内容作用如下。
119.输入层:输入实体i的上下文子图,表示从实体周围抽取的子图。
120.多关系图神经网络层:基于关系路径的实体特征进行聚合,即通过考虑实体之间的关系路径来捕捉实体的语义信息。
121.图对比学习层:对实体进行全局以及上下文级别的数据采样输入到编码器中用于对比学习。对实体的上下文以及结构进行编码得到不同上下实体生成不同的表示,以分别保留不同的上下文和结构视图特征。
122.类比推理层:类比推理模块基于知识图谱嵌入的评分函数评价三元组的相似度,并将得分最高的三元组作为合适的类比对象用于预测不完全三元组。
123.输出层:输出通过类比推理计算实体预测得分的结果。
124.以下将根据模型架构中的各个部分进行详细阐述:
125.1、多关系图神经网络层
126.多关系图神经网络层包含实体、关系和自我级别注意力机制三个主要模块,每个模块后是对计算结果进行聚合。本层的整体架构图如图2所示。输入为含有不同关系的异构图。其中,实体级别聚合模块首先对基于关系路径的实体特征进行聚合,即通过考虑实体之间的关系路径来捕捉实体的语义信息。而在关系级聚合部分,该模块通过与实体相关的关系路径聚合各种类型的语义信息,从而获得关系级别的特征。最后,在自我级别聚合模块中,模型利用实体级别和关系级别的特征,聚合自身信息,以获得更全面的实体表示。这些模块共同作用,为模型提供多层次的语义信息,从而更好地捕捉知识图谱中实体和关系之间的语义信息。
127.实体级别注意力模块旨在对不同关系路径上的实体特征进行聚合,以往的研究通常采用直接聚合每个实体的所有邻居特征的方法,但是这种方法存在问题,因为不同类型的实体信息可能分别存在于不同的嵌入空间中。实体级别聚合主要是获取同一类型实体的语义信息,本发明将实体特征和关系特征作为输入,针对每一条关系路径做如下聚合操作:
[0128] (1)
[0129]
在关系路径聚合公式中,表示实体关系路径的集合,符号是第层的第个实体,符号第层的第个实体聚合特征,表示一个聚合函数。
[0130]
在对关系路径上的实体特征进行聚合后,模型通过注意力机制学习相邻实体之间的权重。计算的过程使用以下公式(2):
[0131]
(2)
[0132]
本发明使用gat()作为注意力函数,其中,和和是中心实体的特征,表示通过注意力函数学习到的第个邻居实体的权重,表示权重矩阵,注意力函数使用以下公式(3):
[0133]
(3)
[0134]
在得到相邻实体之间的权重后,对权重系数进行归一化,计算的过程使用以下公式(4):
[0135]
(4)
[0136]
针对实体i的基于关系路径的特征通过具有相应系数的邻居特征进行聚合。其中,leakyrelu是激活函数,是拼接操作,计算的过程使用以下公式(5):
[0137]
(5)
[0138]
在计算完成以后,通过聚合得到实体在关系路径上的特征集合,计算过程使用以下公式(6):
[0139]
(6)
[0140]
在关系级聚合模块,模型通过关系路径对不同类别的语义信息进行融合。由于知识图谱的异构性,实体反映了各种类型的语义信息,每个语义特定的聚合特征只能从一个方面获取信息。因此,本发明通过学习不同关系路径的重要性来获取语义信息。表示一个维的关系嵌入,表示关系的集合,表示第层的第个实体特征,表示一个聚合函数,计算过程使用以下公式(7):
[0141]
(7)
[0142]
在获取不同关系路径上的权重后,将实体级聚合的特征集合作为输入,每个关系路径聚合特征计算公式如下(8):
[0143]
(8)
[0144]
通过捕获基于关系的重要性,然后利用它来选择性地聚合实体关系间的信息。然后通过压缩和扩展操作,将全局的特征信息聚合到特定的关系符号中,其中表示特征信息的维度,计算过程使用以下公式(9):
[0145]
(9)
[0146]
本发明使用一个简单的门控机制来捕获每个关系路径聚合特征之间的关系,表示relu激活函数,表示sigmoid激活函数,和表示变换矩阵,表示关系路径的注意力权重。计算过程使用以下公式(10):
[0147]
(10)
[0148]
本发明利用平移距离运算将关系特征整合到特征传播中,其中,表示关系特
征,表示关系集合,表示实体级聚合特征的集合,表示关系路径上的注意力权重集合,表示关系嵌入。计算过程使用以下公式(11):
[0149]
(11)
[0150]
自我级聚合模块主要是针对前面实体级特征本身进行聚合,其中,是实体i在层的特征,是聚合函数,是实体i的特征,计算过程使用以下公式(12):
[0151]
(12)
[0152]
聚合特征的权重和实体自我特征的权重计算过程使用以下公式(13):
[0153]
(13)
[0154]
具体的过程,首先需要对聚合特征和实体自我特征进行非线性变换,然后通过注意力向量来衡量特征的重要性。其中是一个权重变换矩阵,是一个偏置向量,是一个偏置向量,表示特征的重要性,计算过程使用以下公式(14):
[0155]
(14)
[0156]
然后对上述得到的所有权重值进行归一化,得到特征和的权重值,计算过程使用以下公式(15):
[0157]
(15)
[0158]
最后,通过非线性变换不断的更新实体特征和关系特征,其中,表示relu激活函数表示实体特定的连接系数矩阵,表示关系特定的连接系数矩阵,是聚合特征的权重和是实体自我特征的权重,计算过程使用以下公式(16)和(17):
[0159]
(16)
[0160]
(17)
[0161]
2、对比学习层
[0162]
对比学习模块主要由输入、数据采样、对比学习以及输出模块组成,其中输入为实体i的子图,数据采样模块由上下文采样以及全局采样组成,采样结束后将结果输入到多
关系图神经网络层。接着,将多关系图神经网络层的输出结果分输入到上下文编码器和结构编码器中,通过编码获取对应的上下文嵌入和结构嵌入。然后,将获取的嵌入分别输入到上下文和全局级别的对比学习模块进行对比学习训练,。最后,将结果聚合输出得到实体嵌入和关系嵌入。对比学习层整体架构图如图3所示。
[0163]
(1)正采样
[0164]
本发明中使用表示实体的上下文子图,使用表示对应的上下文模式。在上下文子图中的其他节点作为上下文实体。目标实体s的正样本可以表示为:
[0165]
(18)
[0166]
其中,表示上下文子图实体的三元组集合,和表示源实体和目标实体,表示实体之间的关系。
[0167]
(2)负采样
[0168]
局部模式负采样策略:对于两个目标实体和,如果二者对应的子图可以被投影到相同的上下文模型,本发明认为他们的邻居实体为这二者彼此的负样本。那么实体的负样本可以使用以下公式(19)表示:
[0169]
(19)
[0170]
全局模式负采样策略:对于两个目标实体和,如果二者对应不同的上下文模式,本发明将二者的上下文模式定义为彼此的负样本,计算过程使用以下公式(20):
[0171]
(20)
[0172]
其中,表示一个批次的目标实体集合,表示实体的上下文模式。
[0173]
(3)结构与上下文视图编码器
[0174]
结构视图编码器主要为了获取不同结构下实体的表达,给定实体s和关系r,全局结构感知嵌入计算公式(21)如下:
[0175]
(21)
[0176]
其中,表示一个gnn模型,表示一个嵌入网络。
[0177]
上下文编码器主要目的是为了捕获实体周围的上下文信息,本发明使用一个层堆叠的转换函数去学习实体集合的上下文嵌入,表示实体的子图的上下文嵌入,表示一个mlp的编码器,表示一个层的参数矩阵,表示一个语义关联矩阵,计算过程使用以下公式(22):
[0178]
(22)
[0179]
然后,通过聚合每一层的输出来得到节点的上下文视图嵌入,计算过程使用以下公式(23):
[0180]
(23)
[0181]
(3)优化策略
[0182]
上下文级优化策略:本发明使用infonce loss作为上下文级别的对比损失函数,infonce loss的主要作用是用于学习特征表示,它通过最大化正样本对的互信息来使得特征表示更加丰富和具有区分度,其中,用于控制评分函数的灵敏度,表示余弦相似度函数,和分别表示实体和实体的上下文实体嵌入,优化策略计算过程使用以下公式(24):
[0183]
(24)
[0184]
全局级优化策略:将实体s的上下文视图和结构视图嵌入作为输入,通过使用带有隐藏层的mlp编码器将其映射到对比度损失空间中,优化策略计算过程使用以下公式(25~26):
[0185]
(25)
[0186]
(26)
[0187]
其中,是一个的激活函数,和是一个权重矩阵,和是偏置参数,和是节点的上下文视图嵌入和结构视图嵌入。然后在实体的上下文和结构表示之间进行跨视图对比学习,其中,表示一个超参数,表示一个余弦相似度评分函数,计算过程使用以下公式(27):
[0188]
(27)
[0189]
类比推理层模块整体架构如图4所示,模块主要由输入、类比推理、输出模块组成,输入为对比学习层输出的实体和关系嵌入,然后经由类比检索器检索相似的三元组信息,并通过类比函数计算相识度得分作为损失值,然后经过重复训练,输出模块输出类比推理分数。本发明用知识图谱嵌入的评分函数评价三元组的相似度,并将得分最高的三元组作为合适的类比对象。
[0190]
(1)类比函数
[0191]
本发明使用表示类比函数,使用实体和关系嵌入作为输入,并为类比推理的每个级别训练类比函数,并输出类比对象嵌入。和表示实体嵌入,表示训练好的嵌入模型,表示其他参数的集合。类比函数计算过程公式(28)如下:
[0192]
(28)
[0193]
用于关系级的类比推理函数通过投影向量将关系在中的原始嵌入映射到类比嵌入向量中,关系级的类比函数计算过程使用以下公式(29):
[0194]
(29)
[0195]
其中,表示关系隐藏维度,表示元素乘积。同样的,实体级的类比推理函数通过将实体的原始嵌入映射到类比嵌入,表示实体的投影向量,表示实体隐藏维度,表示关系的变换矩阵,表示权重超参数函数定义计算过程使用以下公式(30):
[0196]
(30)
[0197]
三重类比推理的类比函数通过堆叠实体和关系的嵌入来输出实体和关系对的类比嵌入,其中,..通过将给定的关系嵌入将头实体嵌入映射到尾实体嵌入,类比函数计算过程使用以下公式(31):
[0198]
(31)
[0199]
(2)类比检索器
[0200]
类比推理是指根据两个或多个不同领域或不同问题之间的相似性,从一个领域或问题中推导出另一个领域或问题的解决方案或答案的过程。本发明提出了三个类比推理检索器,以获得不同层次的类比对象。本发明根据已知的三元组,通过头实体和关系实体,使用类比检索器检索出相似的三元组和,对检索出相似的三重级相似三元组。在实体级检索器中,本发明使用实体替换所有结果实体集合,然后使用一个已经训练好的知识图谱嵌入模型作为评分函数,将评分最高的三元组视为相似三元组。然后本发明将相似三元组的头实体作为实体级类比检索器的类比对象。类比对象集合计算过程使用以下公式(32):
[0201]
(32)
[0202]
其中,表示一个基于训练好的知识图谱嵌入模型的评分函数,表示一个三元组。给定一个三元组,关系类比检索器检索相似的关系用于类比推理,关系级类比检索器的类比对象集合计算过程使用以下公式(33):
[0203]
(33)
[0204]
三重级类比检索器是对实体级和关系级类比检索器的结合,通过给定的三元组检索相似三元组进行类比推理。为了降低检索的候选对的代价,本发明直接选取三重得分最高的实体和关系集合进行配对。表示实体集合,表示关系集合,三重级类比检索器的类比对象集计算过程使用以下公式(34):
[0205]
(34)
[0206]
下面结合本发明在验证模型性能中的实验数据对本发明进行进一步说明:
[0207]
1.实验环境设置
[0208]
本发明的相关实验基于python 3.7及以上版本和torch 1.10.0或更高版本,运行环境版本需anaconda 3-2020.02及以上。
[0209]
主要的数据包包括cuda 10.2、cudnn10.2、torch==1.10.0+cu102、networkx==2.5.1、numpy==1.19.2、pandas==1.1.5、six==1.16.0、scikit-learn==0.24.2、spacy==3.4.0等。
[0210]
1.1.数据描述
[0211]
本发明在四个公开数据集上进行了实验,分别是:fb15k、fb15k-237、jf17k、humanwiki。
[0212]
(1)fb15k:fb15k是一个由facebook ai research发布的知识图谱数据集,包含约15,000个实体、1,345个关系和592,213个三元组,以及从freebase中提取的概念和实体。
[0213]
(2)fb15k-237:fb15k-237是fb15k的一个子集,由toutanova等人在2015年提出,与原始fb15k相比,它仅包含237个关系,但在三元组数量方面与原始数据集相当。它移除了一些在原始数据集中出现频率较高的关系,而保留了在知识图谱中更普遍但在原始数据集中很少出现的关系。
[0214]
(3)jf17k:jf17k是一个由清华大学提供的中文知识图谱数据集,包含17,000个实体和约120个关系,以及超过90,000个三元组。jf17k中的实体和关系都使用中文文本表示。
[0215]
(4)humanwiki:humanwiki是一个英文知识图谱数据集,由微软公司研究人员提供,包含约5,000个实体和约50个关系,以及超过21,000个三元组。与其他知识图谱数据集不同,humanwiki主要基于维基百科中的信息,因此它包含许多人类相关的实体和关系,例如人物、组织、国家、语言等。
[0216]
具体的数据集信息如表1所示。
[0217]
表1 数据集信息
[0218][0219]
1.2评价指标
[0220]
本发明采用交叉熵作为损失函数,一种常用于处理分类问题中的损失函数。在损失函数中使用的是正则化权重。本发明加入了l1正则化进行约束,l2正则化控制模型的复杂度,减少模型的过拟合。
[0221]
本发明采用auc和macro-f1作为评估模型性能的评价指标。auc和macro-f1的指标越高,模型的性能就越好。
[0222]
2.与其他模型比较的实验结果
[0223]
为了证明本发明提出方法的有效性,本发明与以下的方法进行了对比,且实验结果如表2所示。
[0224]
(1)transe:是一种基于向量空间模型的方法,它将实体和关系映射到向量空间中
的点和向量,以学习实体和关系之间的关联关系。
[0225]
(2)complex-n3:将不同类型的交互关系映射到不同的复平面上,能更准确地捕捉实体和关系之间的语义关联,从而提高知识图谱的表示能力。
[0226]
(3)transr:使用矩阵来表示每个关系在实体和向量空间之间的映射关系,在关系空间中对不同类型的关系进行分离和区分,以便处理复杂的多对多关系。
[0227]
(4)typecomplex:是一种用于知识图谱表示学习的模型,它利用类型嵌入向量来表示实体和关系的类型信息,并将其与语义信息一起进行建模,可以处理多重类型关系。
[0228]
(5)sans:是一种基于自适应负采样的知识图谱表示学习模型,使用自适应负采样策略来提高模型的效率和准确性。
[0229]
(6)pairre:是一种基于预训练语言模型的关系抽取模型,使用bert作为编码器来提取实体对的表示,可以通过自适应地调整预训练模型的参数来适应不同的领域和任务。
[0230]
(7)node2vec:是一种基于深度学习的网络嵌入方法,它可以将节点嵌入到低维向量空间中,提高网络的表现力和效率,可以处理大规模的复杂网络。
[0231]
(8)compgcn:是一种基于图卷积神经网络的知识图谱表示学习模型,可以处理多重类型关系和高阶关系,并将它们嵌入到低维向量空间中,同时使用一个注意力机制来提高模型的表现力和可解释性。
[0232]
(9)slice:是一种基于生成对抗网络的知识图谱表示学习模型,将实体和关系表示为嵌入向量,并使用一个生成对抗网络来优化向量空间中的实体和关系之间的关联关系。
[0233]
3.实验结果分析
[0234]
本实验以近几年表现不错的模型为基准。与这些方法相比,本发明的结果如表2所示,可以看到本发明的模型在fb15k和jf17k以及humanwiki上的效果优于绝大多数基于传统嵌入的和基于图神经网络的模型。
[0235]
本发明通过捕获不同上下文环境下的实体语义信息以及通过对不同关系路径增加权重用于聚合有用的特征信息,同时利用类比检索器检索相似的实体三元组用于类比推理增强模型的类比推理能力。
[0236]
实验结果表明,本发明可以有效的提高模型的表达能力以及链路预测的准确率。
[0237]
本发明应用实施例提供的面向对比学习的异构知识图谱链路预测方法通常在相关技术上的应用实施例中被涉及。本发明应用实施可用于改善搜索引擎的结果。通过预测实体之间的关系,搜索引擎可以提供更准确和相关的搜索结果。例如,当用户搜索特定实体时,搜索引擎可以利用知识图谱链路预测来展示相关的实体和它们之间的关系,从而提供更全面的信息。
[0238]
本发明应用实施例提供的面向对比学习的异构知识图谱链路预测方法可以用于个性化推荐系统,帮助识别用户的兴趣和偏好。通过预测实体之间的关联性,系统可以为用户提供更加个性化和相关的推荐内容。例如,在电影推荐系统中,知识图谱链路预测可以帮助系统理解电影之间的关系(如导演、演员、类型等),从而提供更准确的电影推荐。
[0239]
本发明应用实施例提供的面向对比学习的异构知识图谱链路预测方法在生物医药领域中具有广泛的应用。它可以用于预测药物和疾病之间的关联、预测蛋白质相互作用、预测药物副作用等。这些预测可以帮助加速新药发现过程、优化临床试验设计,并提供个性
化医疗建议。
[0240]
本发明应用实施例提供的面向对比学习的异构知识图谱链路预测方法可以应用于社交网络分析,帮助发现用户之间的关系和社交网络的结构。通过预测用户之间的连接或社交网络中的隐含关系,可以识别潜在的社群结构、推荐朋友、预测信息传播路径等。
[0241]
本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
[0242]
本发明实施例提供的面向异构知识图谱的对比学习链路预测方法在fb15k、fb15k-237、jf17k以及humanwiki数据集中取得优异的效果。
[0243]
如表2所示,本发明在英文数据集fb15k以及humanwiki数据集上的效果要优于以往的基于嵌入的模型如transe、transr、complex-n3、typecomplex
[0244]
sans、pairre。以及基于图神经网络的模型,如node2vec、compgcn、slice。
[0245]
表2 模型实验比较结果
[0246][0247]
然而,对于fb15k-237数据集,它是基于fb15k这个数据集进行删除了大量复杂关系后得到的数据集。相较于fb15k数据集,fb15k-237数据集链路预测难度大大提高。因为无论是基于嵌入的模型,还是基于图神经网络的模型,都极其依赖于图中关系的特征信息。而本模型更加依赖实体周围的关系以及上下文信息、但是,由于本发明增加了类比推理模块,可以基于类比检索器通过检索相似三元组的方式去预测缺失关系的实体。因此,可以看到即使在fb15k-237数据集上,mra-cle的实验结果虽然不是所有模型实验结果中最佳的,但是依然取得了优异的效果,预测准确率高达87.55%。同时,模型在jf17k中文知识图谱上的效果更加优异,准确率达到了97.62。本发明在中文和英文以及存在大量确实知识图谱的数据集上效果优异。
[0248]
作为本发明实施例的一个优化方案,以实现基于面向异构知识图谱的对比学习预测系统:
[0249]
1.收集知识图谱数据:从不同的数据源中收集不同类型的实体和关系数据,并将其表示为异构知识图谱,以便处理不同类型的实体和关系。
[0250]
2.构建多关系图神经网络层:该层使用多个关系路径来捕捉实体之间的语义信息。它将实体的特征进行聚合,从而生成实体的表示,以便于后续的对比学习。
[0251]
3.构建对比学习层:该层对实体进行全局以及上下文级别的数据采样,将其输入到编码器中进行对比学习。对实体的上下文以及结构进行编码,生成不同的表示,以分别保留不同的上下文和结构视图特征。
[0252]
4.构建类比推理层:该层使用知识图谱嵌入的评分函数对三元组相似度进行评价,并将得分最高的三元组作为合适的类比对象用于预测不完全三元组。这一过程可以帮助系统进行推理和预测,以提高对实体之间关系的理解和预测能力。
[0253]
5.构建输出层:该层输出最后的实体嵌入向量和关系嵌入向量,以便于进行后续的实体关系预测和推理。
[0254]
总体来说,该系统利用面向异构知识图谱的对比学习方法,通过多关系图神经网络层、对比学习层、类比推理层和输出层等组成部分,实现了对实体之间关系的预测和推理。其中,多关系图神经网络层用于聚合实体特征,对比学习层用于对实体进行全局和上下文级别的数据采样,类比推理层用于评价三元组相似度,输出层用于输出最后的实体嵌入向量和关系嵌入向量。这一系统能够应用于各种场景,如自然语言处理、推荐系统、知识图谱等领域,以提高对实体之间关系的理解和预测能力。
[0255]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种基于面向异构知识图谱的对比学习预测系统,其特征在于,包括:输入层:输入实体i的上下文子图,表示从实体周围抽取的子图;多关系图神经网络层:基于关系路径的实体特征进行聚合,即通过考虑实体之间的关系路径来捕捉实体的语义信息;对比学习层:对实体进行全局以及上下文级别的数据采样输入到编码器中用于对比学习;对实体的上下文以及结构进行编码得到不同上下实体生成不同的表示,以分别保留不同的上下文和结构视图特征;类比推理层:类比推理模块基于知识图谱嵌入的评分函数评价三元组的相似度,并将得分最高的三元组作为合适的类比对象用于预测不完全三元组;输出层:输出最后的实体嵌入向量和关系嵌入向量。2.如权利要求1所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述多关系图神经网络层包括:实体级别聚合模块,用于对基于关系路径的实体特征进行聚合,即通过考虑实体之间的关系路径来捕捉实体的语义信息;关系级别聚合模块,通过与实体相关的关系路径聚合各种类型的语义信息,从而获得关系级别的特征;自我级别聚合模块,利用实体级别和关系级别的特征,聚合自身信息,以获得更全面的实体表示。3.如权利要求2所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述实体级别聚合模块对不同关系路径上的实体特征进行聚合,获取同一类型实体的语义信息,在实体级别聚合模块中,将实体特征和关系特征作为输入,针对每一条关系路径做如下聚合操作,关系路径聚合公式如公式(1):(1)在关系路径聚合公式中,表示实体关系路径的集合,符号是第层的第个实体,符号第层的第个实体聚合特征,表示一个聚合函数;在对关系路径上的实体特征进行聚合后,模型通过注意力机制学习相邻实体之间的权重;计算的过程使用以下公式(2):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)实体级别聚合模块中使用gat作为注意力函数,其中,和和是中心实体的特征,表示通过注意力函数学习到的第个邻居实体的权重,表示权重矩阵,注意力函数使用以下公式(3):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)在得到相邻实体之间的权重后,对权重系数进行归一化,计算的过程使用以下公式(4):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)针对实体的基于关系路径的特征通过具有相应系数的邻居特征进行聚合;其中,leakyrelu是激活函数,是拼接操作,计算的过程使用以下公式(5):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)在计算完成以后,通过聚合得到实体在关系路径r上的特征集合,计算过程使用以下公式(6):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。4.如权利要求2所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述关系级聚合模块中,通过关系路径对不同类别的语义信息进行融合,通过学习不同关系路径的重要性来获取语义信息;表示一个维的关系嵌入,表示关系的集合,表示第层的第个实体特征,表示一个聚合函数,计算过程使用以下公式(7):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)在获取不同关系路径上的权重后,将实体级聚合的特征集合作为输入,每个关系路径聚合特征计算公式如下(8):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)通过捕获基于关系的重要性,然后利用它来选择性地聚合实体关系间的信息;然后通过压缩和扩展操作,将全局的特征信息聚合到特定的关系符号中,其中表示特征信息的维度,计算过程使用以下公式(9):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)在关系级聚合模块中,使用一个简单的门控机制来捕获每个关系路径聚合特征之间的关系,表示relu激活函数,表示sigmoid激活函数,和表示变换矩阵,表示关系路径的注意力权重;计算过程使用以下公式(10):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)利用平移距离运算将关系特征整合到特征传播中,其中,表示关系特征,表示关
系集合,表示实体级聚合特征的集合,表示关系路径上的注意力权重集合,表示关系嵌入;计算过程使用以下公式(11):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)。5.如权利要求2所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述自我级聚合模块是针对前面实体级特征本身进行聚合,其中,是实体在层的特征,是聚合函数,是实体的特征,计算过程使用以下公式(12):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)聚合特征聚合特征的权重和实体自我特征的权重计算过程使用以下公式(13):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)具体地,首先需要对聚合特征和实体自我特征进行非线性变换,然后通过注意力向量来衡量特征的重要性;其中是一个权重变换矩阵,是一个偏置向量,是一个偏置向量,表示特征的重要性,计算过程使用以下公式(14):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)然后对上述得到的所有权重值进行归一化,得到特征和的权重值,计算过程使用以下公式(15):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)最后,通过非线性变换不断的更新实体特征和关系特征,其中,表示实体特定的连接系数矩阵,表示关系特定的连接系数矩阵,是聚合特征的权重和是实体自我特征的权重,计算过程使用以下公式(16)和(17):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)。6.如权利要求1所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述对比学习层由正采样、负采样、编码器以及对比学习模块组成,其中编码器部分由结构编码器和上下文编码器两个部分组成;(1)正采样所述对比学习层中使用表示实体的上下文子图,使用表示对应的上下文模
式;在上下文子图中的其他节点作为上下文实体;目标实体的正样本可以表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)其中, 表示上下文子图实体的三元组集合,和表示源实体和目标实体,表示实体之间的关系;(2)负采样局部模式负采样策略:对于两个目标实体和,如果二者对应的子图可以被投影到相同的上下文模型,就认为他们的邻居实体为这二者彼此的负样本;那么实体的负样本可以使用以下公式(20)表示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)其中,表示一个批次的目标实体集合,表示实体的上下文模式;全局模式负采样策略:对于两个目标实体和,如果二者对应不同的上下文模式,对比学习层将二者的上下文模式定义为彼此的负样本,计算过程使用以下公式(20):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)(3)结构与上下文视图编码器结构视图编码器主要为了获取不同结构下实体的表达,给定实体s和关系r,全局结构感知实体嵌入和关系嵌入计算公式(21)如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)其中,表示一个gnn模型,表示一个嵌入网络;上下文编码器主要目的是为了捕获实体周围的上下文信息,对比学习层使用一个层堆叠的转换函数去学习实体集合的上下文嵌入,表示实体的子图的上下文嵌入,表示一个mlp的编码器,表示一个层的参数矩阵,表示一个语义关联矩阵,计算过程使用以下公式(22):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)然后通过聚合每一层的输出来得到节点的上下文视图嵌入,计算过程使用以下公式(23):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)(3)优化策略上下文级优化策略:对比学习层使用infonce loss作为上下文级别的对比损失函数,infonce loss的主要作用是用于学习特征表示,它通过最大化正样本对的互信息来使得特征表示更加丰富和具有区分度,其中,用于控制评分函数的灵敏度,表示余弦相似度函数,和分别表示实体和实体的上下文实体嵌入,优化策略计算过程使用以下公式(24):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)全局级优化策略:将实体的上下文视图和结构视图嵌入作为输入,通过使用带有隐藏层的mlp(全拼,简称mlp)编码器将其映射到对比度损失空间中,优化策略计算过程使用以下公式(25~26):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)其中,是一个的激活函数,和是一个权重矩阵,和是偏置参数,和是节点的上下文视图嵌入和结构视图嵌入;然后在实体的上下文和结构表示之间进行跨视图对比学习,其中,表示一个超参数,表示一个余弦相似度评分函数,计算过程使用以下公式(27):(27)。7.如权利要求1所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述类比推理层由类比检索器和类比函数组成,用知识图谱嵌入的评分函数评价三元组的相似度,并将得分最高的三元组作为合适的类比对象。8.如权利要求7所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述类比函数,类比推理层使用表示类比函数,使用实体和关系嵌入作为输入,并为类比推理的每个级别训练类比函数,并输出类比对象嵌入;和表示实体嵌入,表示训练好的嵌入模型,表示其他参数的集合;类比函数计算过程公式(28)如下:(28)用于关系级的类比推理函数通过投影向量将关系在中的原始嵌入映射到类比嵌入向量中,关系级的类比函数计算过程使用以下公式(29):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(29)其中,表示关系隐藏维度,表示元素乘积;同样的,实体级的类比推理函数通过将实体的原始嵌入映射到类比嵌入,表示实体的投影向量,表示实体隐藏维度,表示关系的变换矩阵,表示权重超参数,函数定义计算过程使用以下公式(30):
ꢀꢀꢀꢀꢀꢀꢀꢀ
(30)
三重类比推理的类比函数通过堆叠实体和关系的嵌入来输出实体和关系对的类比嵌入,其中,通过将给定的关系嵌入将头实体嵌入映射到尾实体嵌入,类比函数计算过程使用以下公式(31):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(31)。9.如权利要求7所述基于面向异构知识图谱的对比学习预测系统,其特征在于,所述的类比检索器,类比推理层中提出了三个检索器,以获得不同层次的类比对象;根据已知的三元组,通过头实体与关系实体,使用类比检索器检索出相似的三元组和,对检索出相似的三重级相似三元组;实体级检索器使用实体替换所有结果实体集合;然后,使用一个已经训练好的知识图谱嵌入模型作为评分函数,将评分最高的三元组视为相似三元组;最后,将相似三元组的头实体作为实体级类比检索器的类比对象;类比对象集合计算过程使用以下公式(32):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(32)其中,表示一个基于训练好的知识图谱嵌入模型的评分函数,表示一个三元组;给定一个三元组,关系类比检索器检索相似的关系用于类比推理,关系级类比检索器的类比对象集合计算过程使用以下公式(33):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(33)三重级类比检索器通过给定的三元组检索相似三元组进行类比推理;类比推理层选取三重得分最高的实体和关系集合进行配对;表示实体集合,表示关系集合,三重级检索器的类比对象集计算过程使用以下公式(34):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(34)。10.一种基于面向异构知识图谱的对比学习预测方法,其特征在于,利用面向异构知识图谱的对比学习方法,通过多关系图神经网络层、对比学习层、类比推理层和输出层组成部分,实现了对实体之间关系的预测和推理;多关系图神经网络层用于聚合实体特征,对比学习层用于对实体进行全局和上下文级别的数据采样,类比推理层用于评价三元组相似度,输出层用于输出最后的实体嵌入向量和关系嵌入向量。

技术总结
本发明属于知识表示与推理技术领域,公开了一种基于面向异构知识图谱的对比学习预测方法及系统,包括多关系图神经网络层;对比学习层;类比推理层;输出层;本发明提出了一种新颖的面向多关系学习的对比链路预测模型,采用层次化的注意力机制选择有用的关系路径和邻居有选择性的聚合实体周围的上下文信息,从而提高预测准确性。为了更好地捕捉实体在不同上下文中的表示,模型引入了模式增强技术,将知识图谱中实体之间的关系与其所属的模式结合来获取实体在不同语义环境下的表达。另外,为了预测部分不完全的三元组,模型还引入了类比对象检索器来增强类比推理能力。实验结果表明,该模型在多个数据集上表现出优异的性能。该模型在多个数据集上表现出优异的性能。该模型在多个数据集上表现出优异的性能。


技术研发人员:陈建峡 王天赐 陈志康 罗梦宇
受保护的技术使用者:湖北工业大学
技术研发日:2023.06.07
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐