一种利用图采样训练和矩阵规范化的大规模实体对齐方法
未命名
10-18
阅读:106
评论:0
1.本发明属于知识图谱实体对齐领域,尤其涉及一种利用图采样训练和矩阵规范化的大规模实体对齐方法。
背景技术:
2.知识图谱以三元组的形式存储真实世界中的对象与它们之间的关系,其广泛应用于推荐系统,问答系统,搜索引擎等。然而,不同企业或机构所构建的图谱并不完整,信息片面,影响了知识图谱实际应用效果。这种现象在网络百科数据方面尤为严重。目前互联网中存在各种百科,包括百度百科,搜狗百科,360百科;以及国外维护的维基百科(wikipedia),大英百科全书(encyclopedia britannica)等。虽然这些网络百科能够给用户提供丰富的信息,但不同的网络百科提供的结果质量和侧重并不相同,在不同词条的表现上也存在差异性。例如,国内百科数据主要以中文为主,而国外的百科在英文词条上信息更全面。用户往往需要使用多个百科进行查找方能找到满意的答案。另一方面,目前大语言模型快速兴起,而大语言模型的训练数据主要来源于互联网。因此,整合网络百科知识图谱能够给大语言模型提供内容更丰富,质量更高的语料作为训练数据。综上所述,提出一种能够有效集成网络百科数据的方法刻不容缓。
3.实体对齐技术,能够找到不同图谱内表示同一个真实世界对象的实体,实现不同源网络百科知识图谱的融合,以扩充知识图谱。随着图神经网络的出现,基于神经网络的实体对齐方法以绝对的性能优势占据了主导地位。这类方法通过整合实体的邻居信息学习实体的特征。然而,百科全书知识图谱体量巨大,给该领域的实体对齐任务带来巨大挑战。现有基于图神经网络的实体对齐方法忽略了算法的可扩展性,通常采用全图训练的方式,无法应对大规模知识图谱。一些方法利用图分割技术解决这一问题,但分割不可避免的会损失一部分图的信息,影响精度。因此如何在不损失信息的情况下实现大规模知识图谱的训练是一个极具挑战性的任务。
4.此外,大规模实体对齐的特征向量存在几何特性,包括中心性(某些实体是很多其他实体的最近邻)和隔离性(某些实体不是任何其他实体的最近邻),给现有网络百科知识图谱对齐方法寻找对应的过程带来挑战。一些研究工作利用归一化方法能够缓解这一问题,但仍存在可扩展性差的问题。因此,亟需可扩展的方法解决上述问题。
技术实现要素:
5.针对现有技术的不足,本技术实施例提供一种利用图采样训练和矩阵规范化的大规模实体对齐方法,在训练阶段利用图采样技术,降低计算开销;在匹配阶段使用稀疏矩阵操作,解决特征向量的中心性和隔离性问题,并提高运行效率。
6.根据本技术实施例的第一方面,提供一种利用图采样训练和矩阵规范化的大规模实体对齐方法,包括:
7.获取大规模的源网络百科知识图谱和目标网络百科知识图谱,其中所述源网络百
科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系,其中所述实体为网络百科中的词条;
8.基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个知识图谱中的实体集合划分成所含实体数量相等的子集,其中两个知识图谱划分得到的子集存在成对关系;
9.对每个子集中的实体进行多层邻居采样,得到对应的子图,其中由存在成对关系的子集采样得到的子图存在成对关系;
10.使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;
11.对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果。
12.进一步地,基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个图谱中的实体集合划分成所含实体数量相等的子集,包括:
13.根据计算设备的计算能力和内存大小,确定能够装载进内存的子集划分大小,根据所述子集大小计算划分数量;
14.按照所述划分数量对所述源网络百科知识图谱和目标网络百科知识图谱中实体集合划分,以使得划分后的每个子集中存在配对关系的实体占比与划分前保持一致。
15.进一步地,对每个子集中的实体进行多层邻居采样,得到对应的子图,包括:
16.对每个子集中的实体,在两个知识图谱中分别进行采样,即找到与之相连的、存在三元组关系的邻居实体;
17.对于找到的邻居实体,通过采样继续寻找下一层邻居实体,直到找到预定层数;
18.将采样得到的所有实体按照连接关系,构建l层的树状层次结构子图。
19.进一步地,使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵,包括:
20.4.1)初始化源网络百科知识图谱和目标网络百科知识图谱的特征向量;
21.4.2)基于所述源网络百科知识图谱和目标网络百科知识图谱的特征向量,将存在成对关系的子图作为输入数据送入基于知识图谱结构的实体对齐模型进行一轮训练;
22.4.3)重复步骤4.2)以完成预定轮数的训练,将最后一轮训练中得到的每个子图采样前的子集中实体的结构特征向量并在一起,得到目标网络百科知识图谱和源网络百科知识图谱的所有实体的特征矩阵。
23.进一步地,对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果,包括:
24.对源网络百科知识图谱的所有实体,基于所述特征矩阵在目标网络百科知识图谱中查找k个特征近似最近邻实体,从而构建源网络百科知识图谱到目标网络百科知识图谱的稀疏相似度矩阵m
s-t
;
25.对目标网络百科知识图谱中的所有实体,基于所述特征矩阵在源网络百科知识图谱中查找k个特征近似最近邻实体,从而构建目标网络百科知识图谱到源网络百科知识图
谱的稀疏相似度矩阵m
t-s
;
26.将作为最终的相似度矩阵,进行sinkhorn操作,得到实体对齐结果。
27.进一步地,sinkhorn(m)=limn→
∞
sn(m),其中s0(m)=exp(m),
28.sk(m)=nc(nr(s
k-1
(m)),其中,nc和nr分别代表行和列的归一化。
29.根据本技术实施例的第二方面,提供一种利用图采样训练和矩阵规范化的大规模实体对齐装置,包括:
30.获取模块,用于获取大规模的源网络百科知识图谱和目标网络百科知识图谱,其中所述源网络百科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系,其中所述实体为网络百科中的词条;
31.划分模块,用于基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个知识图谱中的实体集合划分成所含实体数量相等的子集,其中两个知识图谱划分得到的子集存在成对关系;
32.采样模块,用于对每个子集中的实体进行多层邻居采样,得到对应的子图,其中由存在成对关系的子集采样得到的子图存在成对关系;
33.构建模块,用于使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;
34.实体对齐模块,用于对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果。
35.根据本技术实施例的第三方面,提供一种电子设备,包括:
36.一个或多个处理器;
37.存储器,用于存储一个或多个程序;
38.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
39.据本技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
40.本技术的实施例提供的技术方案可以包括以下有益效果:
41.由上述实施例可知,本技术提出了一种针对大规模网络百科知识图谱对齐任务的采样训练方式,能有效降低训练过程的计算开销,且不破坏图谱的结构信息。另外,本方法是一个通用工具,可以将现有知识方法集成,提高这些方法的可扩展性。最后,针对大规模网络百科知识图谱特征矩阵存在的中心性和隔离性问题,提出稀疏矩阵规范化方法,将最优传输理论应用于实体对齐,生成实现高效,高精度的对齐结果。
42.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
44.图1是根据一示例性实施例示出的一种利用图采样训练和矩阵规范化的大规模实体对齐方法的流程图。
45.图2根据一示例性实施例示出的子集划分和发明框架示意图。
46.图3根据一示例性实施例示出的邻居节点采样过程示意图。
47.图4是根据一示例性实施例示出的一种利用图采样训练和矩阵规范化的大规模实体对齐装置的框图。
48.图5是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
49.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。
50.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
51.应当理解,尽管在本技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
52.图1是根据一示例性实施例示出的一种利用图采样训练和矩阵规范化的大规模实体对齐方法的流程图,如图1所示,该方法应用于一计算设备中,可以包括以下步骤:
53.(1)获取大规模的源网络百科知识图谱gs和目标网络百科知识图谱g
t
,其中所述源网络百科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系;
54.(2)基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个图谱中的实体集合根据设备性能划分成相互独立的子集;
55.(3)对每个分割后的子集在两个知识图谱中分别进行采样,即找到与之相连的实体;
56.(4)使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;
57.(5)对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述系数相似度矩阵进行处理,得到实体对齐结果。
58.由上述实施例可知,本技术提出了一种针对大规模知识图谱对齐任务的采样训练方式,能有效降低训练过程的计算开销,且不破坏图谱的结构信息。另外,本方法是一个通用工具,可以将现有的基于图神经网络的知识图谱实体对齐方法如gcn-align,rrea,dual-amn等集成,提高这些方法的可扩展性。最后,针对大规模知识图谱特征矩阵存在的中心性和隔离性问题,提出稀疏矩阵规范化方法,将最优传输理论应用于实体对齐,生成实现高
效,高精度的对齐结果。
59.步骤(1):获取大规模的源网络百科知识图谱gs和目标网络百科知识图谱g
t
,其中所述源网络百科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系;
60.具体地,知识图谱可表示为g(e,r,t)。其中e是实体的集合,r是关系的集合。t{(h,r,t)|h,t∈e,r∈r}是一系列三元组的集合。实体对齐任务是找到gs=(es,rs,ts)和g
t
=(e
t
,r
t
,t
t
)中表示同一个真实世界对象的实体φ=[(es,e
t
)∈es×et
|es≡e
t
},其中es∈es,e
t
∈e
t
。通常情况下,两个知识图谱中存在部分已知配对关系的实体对作为训练样本;在网络百科知识图谱中,具体的词条称为实体。例如“西湖”,“杭州市”等。不同词条间存在的交互称为关系,例如(西湖,位于,杭州市)。通常情况下,网络百科领域中的两个实体若存在关系,则它们之间可能存在相互的链接,以便网络用户对百科内容有更好的了解。
[0061]
步骤(2):基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个知识图谱中的实体集合划分成数量相等的子集,其中两个知识图谱划分得到的子集存在成对关系。子集的大小根据用户计算资源的情况自动适配;构建后的源网络百科知识图谱子集数量和目标网络百科知识图谱子集数量相等,且两组实体的子集间存在一一对应关系。不同子集中没有交集,且所有子集的并集为源网络百科知识图谱(目标网络百科知识图谱)的实体全集,具体为:
[0062]
2.1)根据计算设备的计算能力和内存大小,设计能够装在进内存的子集划分大小,并根据子集大小计算划分数量,划分数量=实体集合元素总数/子集大小;
[0063]
具体地,这么做是为了使得子集中的实体和后续采样的子图能够装载进内存中。
[0064]
2.2)按照所述划分数量对所述源网络百科知识图谱和目标网络百科知识图谱中实体集合划分,以使得划分后的每个子集中训练样本占比与分割前保持一致,且对一个知识图谱来说(源或目标网络百科知识图谱),每个子集大小尽可能保持一致,这是是为了使得计算量分配均匀,否则大的子集相比小的计算时间长,内存消耗大,分配不合理;
[0065]
如图2中所示。划分后的子集中包含来自gs的实体和来自g
t
的实体。其中,包含一小部分已知对应关系的实体,另外的实体是未知对应有待对齐的实体。
[0066]
步骤(3):对每个子集中的实体进行多层邻居采样,得到对应的子图,其中由存在成对关系的子集采样得到的子图存在成对关系,如图3所示。应当注意的是,步骤(2)中的子集是成对构建,因此,采样后的子图仍保持成对的一一对应关系。本步骤可以包括以下子步骤:
[0067]
3.1)对每个子集中的实体,在两个知识图谱中分别进行采样,即找到与之相连的、存在三元组关系的实体;
[0068]
具体地,根据用户的电脑内存大小,设定每个实体所能采样的邻居实体数量上限f,记为f。对于一个实体,需要采样记录网络百科知识图谱中与其相连的邻居实体。若邻居实体数量小于f,则全部记录。若邻居实体数量大于设定的数量f,则随机选取f个实体。以此保证采样得到的子图节点数量不超过内存限制。
[0069]
3.2)对于找到的邻居实体,通过采样继续寻找下一层邻居实体,直到找到预定层数l层,其中l为训练模型所需的层数;
[0070]
具体地,l的数量由图神经网络层数确定。l越大,采样层数越深,每个实体的信息
传递的距离越远。但过大的l也会导致实体的表示逐渐趋同
[0071]
3.3)将采样得到的所有实体按照连接关系,构建l层的树状层次结构子图,如图3右侧所示,作为下一步的输入。
[0072]
步骤(4):初始化源网络百科知识图谱和目标网络百科知识图谱的特征向量。使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;具体为:
[0073]
4.1)初始化源网络百科知识图谱和目标网络百科知识图谱的特征向量;
[0074]
具体地,可以使用glorot初始化方法初始化源网络百科知识图谱和目标网络百科知识图谱的特征向量fs和f
t
。。其中d为实体特征向量维度。若网络百科知识图谱的实体名包含语义信息,也可使用语言模型进行初始化。
[0075]
4.2)基于所述源网络百科知识图谱和目标网络百科知识图谱的特征向量,将存在成对关系的子图作为输入数据送入基于知识图谱结构的实体对齐模型进行一轮训练;
[0076]
具体地,可以采用任何一种基于知识图谱结构的实体对齐模型,如知识图谱上的图卷积神经网络模型、图注意力网络模型,学习实体的特征向量。所述相应子图采样前的子集为树状子图的根节点,也是需要学习的目标实体。具体的学习过程如下:用初始化的特征f∈f表示子图中位于叶子节点的实体的特征向量。而后自底向上逐层表示各层实体,进行l步直到获得目标实体的特征向量。若实体v在第i层,则其特征为其中σ是激活函数。g是聚合函数,聚合第i+1层中与v相连的实体的特征。不同的实体对齐模型,所使用的激活函数和聚合函数也不同。在所述实体对齐模型中采用损失函数使得已知对应的实体的向量特征接近。具体的,可采用三元组损失函数,如对比损失函数、margin损失函数等。
[0077]
4.3)重复上述步骤4.2)以完成预定轮数的训练,将最后一轮训练中得到的每个子图采样前的子集中实体的结构特征向量并在一起,得到目标网络百科知识图谱和源网络百科知识图谱的所有实体的特征矩阵;
[0078]
具体地,可由经验设置训练的预定轮数,通过预定轮数的训练,最终可得到源网络百科知识图谱的所有实体的特征矩阵和目标网络百科知识图谱的所有实体的特征矩阵
[0079]
步骤(5):对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果;
[0080]
5.1)对源网络百科知识图谱的所有实体,基于所述特征矩阵在目标网络百科知识图谱中用faiss(facebook ai similarity search,相似向量检索)库快速查找特征k个近似最近邻实体,从而构建源网络百科知识图谱到目标网络百科知识图谱的稀疏相似度矩阵m
s-t
;
[0081]
具体地,查找近似最近邻时可选用曼哈顿距离公式、欧式距离公式、余弦距离公式进行特征的距离计算,用户可根据需求自行选择。通常k的取值范围是50-100,即选取50-100个近似最近邻。在最终构建相似度矩阵的过程中,仅计算这k个最近邻的相似度,构建稀疏相似度矩阵。大幅减少计算量和存储空间。
[0082]
5.2)对目标网络百科知识图谱中的所有实体,基于所述特征矩阵在源网络百科知识图谱中寻找特征最相近的k个实体,从而构建目标网络百科知识图谱到源网络百科知识图谱的稀疏相似度矩阵m
t-s
;
[0083]
具体地,此步骤与步骤5.1)同理,此处不作赘述。
[0084]
5.3)将作为最终的相似度矩阵,而后进行sinkhorn操作,得到最终实体对齐结果。
[0085]
具体地,sinkhorn(m)=limn→
∞
sn(m),s0(m)=exp(m),sk(m)=nc(nr(s
k-1
(m))。其中,nc和nr分别代表行和列的归一化。在实际操作中,较小的迭代次数即可达到高精度的对齐结果,通常可设置迭代次数为10次。
[0086]
与前述的利用图采样训练和矩阵规范化的大规模实体对齐方法的实施例相对应,本技术还提供了利用图采样训练和矩阵规范化的大规模实体对齐装置的实施例。
[0087]
图4是根据一示例性实施例示出的一种利用图采样训练和矩阵规范化的大规模实体对齐装置框图。参照图4,该装置可以包括:
[0088]
获取模块21,用于获取大规模的源网络百科知识图谱和目标网络百科知识图谱,其中所述源网络百科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系;
[0089]
划分模块22,用于基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个知识图谱中的实体集合划分成所含实体数量相等的子集,其中两个知识图谱划分得到的子集存在成对关系;
[0090]
采样模块23,用于对每个子集中的实体进行多层邻居采样,得到对应的子图,其中由存在成对关系的子集采样得到的子图存在成对关系;
[0091]
构建模块24,用于使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;
[0092]
实体对齐模块25,用于对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果。
[0093]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0094]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0095]
相应的,本技术还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的利用图采样训练和矩阵规范化的大规模实体对齐方法。如图5所示,为本发明实施例提供的一种利用图采样训练和矩阵规范化的大规模实体对齐方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存以及网络接
口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0096]
相应的,本技术还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的利用图采样训练和矩阵规范化的大规模实体对齐方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0097]
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
技术特征:
1.一种利用图采样训练和矩阵规范化的大规模实体对齐方法,其特征在于,包括:获取大规模的源网络百科知识图谱和目标网络百科知识图谱,其中所述源网络百科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系,其中所述实体为网络百科中的词条;基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个知识图谱中的实体集合划分成所含实体数量相等的子集,其中两个知识图谱划分得到的子集存在成对关系;对每个子集中的实体进行多层邻居采样,得到对应的子图,其中由存在成对关系的子集采样得到的子图存在成对关系;使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果。2.根据权利要求1所述的方法,其特征在于,基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个图谱中的实体集合划分成所含实体数量相等的子集,包括:根据计算设备的计算能力和内存大小,确定能够装载进内存的子集划分大小,根据所述子集大小计算划分数量;按照所述划分数量对所述源网络百科知识图谱和目标网络百科知识图谱中实体集合划分,以使得划分后的每个子集中存在配对关系的实体占比与划分前保持一致。3.根据权利要求1所述的方法,其特征在于,对每个子集中的实体进行多层邻居采样,得到对应的子图,包括:对每个子集中的实体,在两个知识图谱中分别进行采样,即找到与之相连的、存在三元组关系的邻居实体;对于找到的邻居实体,通过采样继续寻找下一层邻居实体,直到找到预定层数;将采样得到的所有实体按照连接关系,构建l层的树状层次结构子图。4.根据权利要求1所述的方法,其特征在于,使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵,包括:4.1)初始化源网络百科知识图谱和目标网络百科知识图谱的特征向量;4.2)基于所述源网络百科知识图谱和目标网络百科知识图谱的特征向量,将存在成对关系的子图作为输入数据送入基于知识图谱结构的实体对齐模型进行一轮训练;4.3)重复步骤4.2)以完成预定轮数的训练,将最后一轮训练中得到的每个子图采样前的子集中实体的结构特征向量并在一起,得到目标网络百科知识图谱和源网络百科知识图谱的所有实体的特征矩阵。5.根据权利要求1所述的方法,其特征在于,对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果,包括:对源网络百科知识图谱的所有实体,基于所述特征矩阵在目标网络百科知识图谱中查
找k个特征近似最近邻实体,从而构建源网络百科知识图谱到目标网络百科知识图谱的稀疏相似度矩阵m
s-t
;对目标网络百科知识图谱中的所有实体,基于所述特征矩阵在源网络百科知识图谱中查找k个特征近似最近邻实体,从而构建目标网络百科知识图谱到源网络百科知识图谱的稀疏相似度矩阵m
t-s
;将作为最终的相似度矩阵,进行sinkhorn操作,得到实体对齐结果。6.根据权利要求5所述的方法,其特征在于,sinkhorn(m)alim
n
→
∞
s
n
(m),其中s0(m)=exp(m),s
k
(m)=n
c
(n
r
(s
k-1
(m)),其中,n
c
和n
r
分别代表行和列的归一化。7.一种利用图采样训练和矩阵规范化的大规模实体对齐装置,其特征在于,包括:获取模块,用于获取大规模的源网络百科知识图谱和目标网络百科知识图谱,其中所述源网络百科知识图谱中的部分实体和目标网络百科知识图谱中的部分实体存在配对关系,其中所述实体为网络百科中的词条;划分模块,用于基于所述源网络百科知识图谱和目标网络百科知识图谱中已配对的实体,将两个知识图谱中的实体集合划分成所含实体数量相等的子集,其中两个知识图谱划分得到的子集存在成对关系;采样模块,用于对每个子集中的实体进行多层邻居采样,得到对应的子图,其中由存在成对关系的子集采样得到的子图存在成对关系;构建模块,用于使用基于知识图谱结构的实体对齐模型独立学习每对子图中对应的子集内实体的结构特征,构建特征矩阵;实体对齐模块,用于对目标网络百科知识图谱和源网络百科知识图谱的所有实体,利用所述特征矩阵计算最近邻,从而构建稀疏相似度矩阵,利用sinkhorn操作对所述稀疏相似度矩阵进行处理,得到实体对齐结果。8.一种电子设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
技术总结
本发明公开了一种利用图采样训练和矩阵规范化的大规模实体对齐方法,提出了一种针对大规模网络百科知识图谱对齐任务的采样训练方式,能有效降低训练过程的计算开销,且不破坏图谱的结构信息。本申请针对大规模网络百科知识图谱特征矩阵存在的中心性和隔离性问题,提出稀疏矩阵规范化方法,将最优传输理论应用于实体对齐,生成实现高效,高精度的对齐结果。高精度的对齐结果。高精度的对齐结果。
技术研发人员:高云君 吴君洋 陈璐 刘小泽
受保护的技术使用者:浙江大学
技术研发日:2023.07.03
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
