基于路径邻域聚合和难负样本挖掘的关系推理方法

未命名 08-15 阅读:210 评论:0


1.本发明涉及知识图谱技术领域,具体涉及一种基于路径邻域聚合和难负样本挖掘的关系推理方法。


背景技术:

2.知识图谱是由实体作为节点、不同类型的关系作为边构成的有向图,知识图谱中的每条边都是形如(头实体-关系-尾实体)的三元组。知识图谱以结构化的形式储存自然世界中的知识,常被用于知识问答、阅读理解等自然语言处理任务中。
3.由于不完整的、新的实体不断被添加到知识图谱中,因此目前的研究工作基于归纳式关系推理的思路提出了各种方法,以在兼容新实体的前提下预测缺失的关系。这些方法大致可以分为两种途径:
4.第一种途径,从知识图谱中挖掘实体间的一阶逻辑规则,并使用规则的加权组合进行推理;
5.第二种途径,先将实体间的路径聚合到一张子图中,再通过深度学习的方法获得子图表示,用于关系推理。
6.然而,现有的两种途径都只考虑了实体之间的联系,没有注意到每个实体自身的邻域信息对关系推理的影响。事实上,实体的邻域包含实体间联系所不具备的很多信息。图2展示了归纳式关系推理的一个例子,可以看到,要推理虚线所示的待预测关系(谁是头实体的队友)时,关系两端的头实体和尾实体邻域信息会对推理起到积极的帮助。具体来说,尾实体邻域中,尾实体与“球队选中”这类关系相连,暗含该实体可能表示一名运动员,从而使得待预测关系成立的可能性更高。另外,现有的方法在进行负样本采样时采用的都是随机采样的策略,例如图2中一些地名可能被采样为“队友”的负样本,很容易被区分,而其他作为人名的实体可以构成更难区分的负样本,从而提供更高质量的数据。


技术实现要素:

7.为解决上述技术问题,本发明提供一种基于路径邻域聚合和难负样本挖掘的关系推理方法。
8.为解决上述技术问题,本发明采用如下技术方案:
9.一种基于路径邻域聚合和难负样本挖掘的关系推理方法,通过归纳式关系推理模型,对包含新实体的知识图谱中的任意两个实体之间存在的各类关系的概率进行预测,具体包括以下步骤:
10.步骤一,邻域编码:将两层transformer网络与池化层拼接作为邻域编码器,将每个实体i的关系集合的向量表示输入至邻域编码器,得到实体i的实体表示ei;其中t为每个实体的关系类别数量;根据待预测关系两端实体ei,ej的实体表示创建实体对表示pair
ij
,ej为实体j的实体表示;i≤n,n为知识图谱中的实体总量,为与实体i相连的第t类
关系的向量表示,的取值范围为{r1,

,rs,

,rs},rs为知识图谱中第s类关系的向量表示,s为知识图谱中关系类别总量;
11.步骤二,负样本筛选:基于实体表示,通过计算余弦相似度的方式,为每个实体筛选出匹配的负样本实体集合;对于数据集中每一个三元组形式的正样本,将正样本中的实体替换为匹配的负样本实体集合中的实体,从而构造出三元组形式的难负样本;
12.步骤三,路径选择:将待预测关系两端实体之间的路径转换为路径特征表示计算路径特征表示与实体对表示pair
ij
之间的相似度,选择相似度最高的前l条路径的路径特征表示组成路径特征集合{p
ij
}
l
;k≤k,k为待预测关系两端实体之间的路径总数,l为设定值;
13.步骤四,路径-邻域聚合:采用多层全连接网络将实体对表示pair
ij
与路径特征集合{p
ij
}
l
进行聚合,将聚合结果与知识图谱中的每一类关系的向量表示rs进行配对,得到实体对ei,ej之间存在各类关系的概率;
14.步骤五,基于正样本和构造的难负样本,通过交叉熵函数计算归纳式关系推理模型的损失,并通过梯度下降优化器,优化归纳式关系推离模型的参数。
15.进一步地,步骤二中,通过以下方式得到每个实体i的关系集合:
16.设定关系集合尺寸的阈值为t;
17.对于一个与n类关系直接相连的实体:如果n大于t,基于关系在知识图谱中出现的频率进行采样,优先选择出现频率高的关系,直至采样出的关系个数达到t;如果n小于或等于t,则采样所有关系,并用(t-n)个占位符进行补充;进而得到关系类别数量为t的每个实体的关系集合。
18.进一步地,步骤一中通过邻域编码器得到实体i的实体表示ei时:
[0019][0020]
mean(
·
)代表平均池化函数,encoder(
·
)代表由两层transformer网络组成的编码器。
[0021]
进一步地,步骤一中,根据待预测关系两端实体ei,ej的实体表示创建实体对表示pair
ij
时:
[0022]
pair
ij
=mlp(ei+h1,ej+h2);
[0023]
mlp(
·
)表示两层全连接网络,h1,h2∈rd为可学习的向量,d表示向量维度。
[0024]
进一步地,步骤二中通过计算余弦相似度的方式为每个实体筛选出匹配的负样本实体集合时;
[0025]
计算知识图谱中每个实体与候选实体ei之间的余弦相似度,并选取余弦相似度最高的m个实体作为实体ei的负样本实体集合;任意两个实体ei和ej间余弦相似度cos
ij
为:
[0026][0027]
其中,dot_product代表向量间的点积,norm(
·
)代表向量的l2范数,*是标量之间的乘法运算。
[0028]
进一步地,步骤三中计算路径特征表示与实体对表示pair
ij
之间的相似度
时:
[0029][0030]
m是可学习的矩阵。
[0031]
进一步地,步骤四中,采用多层全连接网络将实体对表示pair
ij
与路径特征集合{p
ij
}
l
进行聚合时,在每一层全连接网络中将不同的特征进行组合和转换,最终的聚合结果c
ij

[0032]cij
=mlp(pair
ij
,p
ij
}
l
);
[0033]
mlp表示全连接网络;将聚合结果与rs进行配对,得到实体对ei,ej之间存在第s类关系的概率时:
[0034][0035]
sigmoid为激活函数,用于将全连接网络mlp的输出值映射到0到1之间。
[0036]
与现有技术相比,本发明的有益技术效果是:
[0037]
本发明提出了一种基于路径—邻域聚合和难负样本挖掘的归纳式关系推理方法,包括邻域编码、负样本筛选,路径选择和路径-邻域聚合。在邻域编码中,本发明设计了邻域编码器,自动编码实体一跳内邻域关系,获得实体自身的表示;在负样本筛选中,本发明用单个实体表示,设计了一种获取难负样本的办法;在路径选择中,本发明基于待预测关系两端的实体对表示,选择出与待预测关系关联度最高的路径表示;最终在路径-邻域聚合中,本发明设计了一种聚合方法以利用路径表示和实体对表示,实现归纳式关系推理。
附图说明
[0038]
图1为本发明归纳式关系推理模型的结构图;
[0039]
图2为归纳式关系推理举例的示意图。
具体实施方式
[0040]
下面结合附图对本发明的一种优选实施方式作详细的说明。
[0041]
本发明首次在归纳式关系推理领域提出一种基于路径邻域聚合和难负样本挖掘的关系推理方法。首先设计邻域编码模块,编码实体的邻域关系以获得实体自身的表示,之后使用负样本筛选算法通过实体自身表示自动挖掘知识图谱中的难负样本,然后设计路径选择模块,使用邻域信息自动筛选出对当前关系推理有帮助的实体间的关系路径,进行编码并获得实体间关系信息的表示,最后使用数据集中的正样本和挖掘出的难负样本,通过路径-邻域聚合模块聚合路径-邻域信息区分正负样本,这样增加了归纳式关系推理的准确率。
[0042]
本发明将给定包含任意新实体的知识图谱作为输入,来预测知识图谱中任意两个实体之间的关系。
[0043]
本发明提出的归纳式关系推理模型结构如图1所示,主要包括邻域编码模块、负样本筛选算法,路径选择模块和路径-邻域聚合模块。邻域编码模块根据实体的一跳内邻域关系自动编码出实体自身的表示。基于单个实体表示,负样本筛选算法为每个实体选出与之匹配的实体集合作为难负样本。基于待预测关系两端的实体对表示,路径选择模块选择出
与待预测关系关联度最高的路径表示。最终路径表示和实体对表示被应用于路径-邻域聚合模块,结合筛选出的难负样本提高其性能。
[0044]
(1)邻域编码模块
[0045]
此模块的目标是通过挖掘实体的一跳邻域关系集合,获取单个实体在知识图谱中所包含的信息。为此,本发明采用了两层transformer网络拼接输出池化层作为邻域编码器,并设计了一种采样策略,以从实体的邻域中得到输入编码器的关系集合。
[0046]
具体来说,本发明首先设定关系集合尺寸的阈值大小为t,对于一个与n类关系直接相连的实体:如果n大于t,本发明基于关系在知识图谱中出现的频率进行采样,优先选择出现频率高的关系,直至采样出的关系个数达到t;如果n小于或等于t,就采样所有关系,并用(t-n)个占位符进行补充。重复上述方式,可以得到每个实体的关系集合。
[0047]
接着,对于知识图谱中的每一类关系,用一个d维的向量表示它,即rs∈rd,其中s表示知识图谱中的第s类关系。通过这种方式,获得每个实体的关系集合的向量表示,本发明用表示知识图谱中编号为i的实体的关系集合的向量表示,的取值范围为{r1,

,rs,

,rs},s为知识图谱中关系类别总量。邻域编码器以关系集合的向量表示作为输入,并以关系表示的池化结果作为输出:
[0048][0049]
这里ei代表实体i的实体表示ei,mean(
·
)代表平均池化函数,encoder(
·
)代表由两层transformer网络组成的编码器。
[0050]
之后,根据待预测关系两端的实体表示创建实体对表示:
[0051]
pair
ij
=mlp(ei+h1,ej+h2);
[0052]
这里pair
ij
∈rd代表以ei为头实体、ej为尾实体的实体对表示,使用两层全连接网络mlp(
·
)得到实体对表示,h1,h2∈rd为可学习的向量。
[0053]
当邻域编码模块充分训练后,就可以得到每个实体的表示和实体对表示。
[0054]
(2)负样本筛选算法
[0055]
本算法旨在筛选与给定实体表示接近的实体,作为该实体对应的负样本实体集合,并利用这些实体构建负样本来进行训练。具体而言,该算法会计算每个知识图谱中每个实体与候选实体ei之间的余弦相似度,并选取相似度最高的m个实体作为负样本实体集合。计算任意两个实体ei和ej间余弦相似度的公式如下:
[0056][0057]
其中,cos
ij
是ei和ej的余弦相似度,dot_product代表向量间的点积,norm(
·
)代表向量的l2范数,*是标量之间的乘法运算。通过计算上述公式,可以得到两个实体之间的余弦相似度。通过比较候选实体与知识图谱中每个实体之间的相似度,可以筛选出与给定实体表示接近的实体集合,用于构建负样本。
[0058]
对于数据集中的每一个正样本三元组,本发明将头实体或尾实体替换为该实体对应的负样本采样实体集合中的实体,从而构造出许多对模型训练有帮助的难负样本三元组。
[0059]
(3)路径选择模块
[0060]
在关系预测中,路径的选择对于预测的准确性至关重要。在这个过程中,本发明需要保证选取的路径能够与实体的自身信息相匹配,以确保路径的有效性。为了达到这个目的,本发明采用了一种基于实体自身信息的路径选择策略,即利用实体对之间的关联关系来选择关系预测中最有用的路径。接着,将这些路径表示为由若干关系组成的序列,并使用rnn编码路径,将这些路径转换为相应的特征表示。之后,计算路径与实体对表示之间的相似度:
[0061][0062]
这里以ei为头实体ej为尾实体的实体对之间共有k条路径,是其中第k条路径的特征表示,代表第k条路径与实体对表示之间的相似度分数,m是可学习的矩阵。
[0063]
对于每个实体对,选择相似度最高的前l条路径的特征表示组成路径特征集合{p
ij
}
l

[0064][0065]
topl(
·
)表示取相似度前l高对应的路径特征表示。通过这样的方式,本发明提高了路径的有效性。
[0066]
(4)路径-邻域聚合模块
[0067]
本发明在关系预测中同时考虑实体对之间的连接以及实体各自的邻域信息,以预测头实体和尾实体之间的连接。为了实现这个目标,本发明需要将实体对表示和路径表示进行聚合,以得到更全面和准确的关系预测结果。
[0068]
具体而言,本模块采用了一个多层全连接网络来实现实体对表示和路径表示的聚合。该模块接收实体对表示pair
ij
和路径特征集合{p
ij
}
l
作为输入,然后通过一系列的全连接网络进行特征抽取和表示变换。在每一层中,全连接网络将学习如何将不同的特征进行组合和转换,以得到更为准确和全面的关系预测结果。全连接网络以聚合后的特征表示作为输出:
[0069]cij
=mlp(pair
ii
,p
ij
}
l
);
[0070]
这里c
ij
是实体对表示和路径表示经过全连接网络mlp(
·
)聚合后的结果。之后,再将这个聚合结果与知识图谱里的每一类关系进行配对、聚合,以计算实体对之间存在这一类关系联系的概率:
[0071][0072]
这里rs∈rd是第s类关系的向量表示,sigmoid为激活函数,将全连接网络mlp的输出值映射到0到1之间;因此代表头实体ei和尾实体ej之间存在关系rs的概率值,值越大代表关系存在的可能性越高。
[0073]
(5)归纳式关系推理模型的应用举例
[0074]
在模型的训练过程中,本发明使用数据集中的正样本三元组和负样本筛选算法得到的难负样本三元组,将正样本的标签置为1,难负样本的标签置为0,并通过交叉熵函数计算模型的损失。本发明通过梯度下降优化器优化模型参数。
[0075]
测试时,只需要输入候选头实体和尾实体之间的路径,以及两个实体的邻域关系信息,即可预测出两个实体存在各种类别关系的概率。可以看到,本发明的方法不会记忆固
定的具体实体,因此在测试时可以应用于训练时没有见过的实体,甚至可以在另一张不包含训练时见过的任何实体的知识图谱上进行测试。
[0076]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0077]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

技术特征:
1.一种基于路径邻域聚合和难负样本挖掘的关系推理方法,通过归纳式关系推理模型,对包含新实体的知识图谱中的任意两个实体之间存在的各类关系的概率进行预测,具体包括以下步骤:步骤一,邻域编码:将两层transformer网络与池化层拼接作为邻域编码器,将每个实体i的关系集合的向量表示输入至邻域编码器,得到实体i的实体表示e
i
;其中t为每个实体的关系类别数量;根据待预测关系两端实体e
i
,e
j
的实体表示创建实体对表示pair
ij
,e
j
为实体j的实体表示;i≤n,n为知识图谱中的实体总量,为与实体i相连的第t类关系的向量表示,的取值范围为{r1,

,r
s
,

,r
s
},r
s
为知识图谱中第s类关系的向量表示,s为知识图谱中关系类别总量;步骤二,负样本筛选:基于实体表示,通过计算余弦相似度的方式,为每个实体筛选出匹配的负样本实体集合;对于数据集中每一个三元组形式的正样本,将正样本中的实体替换为匹配的负样本实体集合中的实体,从而构造出三元组形式的难负样本;步骤三,路径选择:将待预测关系两端实体之间的路径转换为路径特征表示计算路径特征表示与实体对表示pair
ij
之间的相似度,选择相似度最高的前l条路径的路径特征表示组成路径特征集合{p
ij
}
l
;k≤k,k为待预测关系两端实体之间的路径总数,l为设定值;步骤四,路径-邻域聚合:采用多层全连接网络将实体对表示pair
ij
与路径特征集合{p
ij
}
l
进行聚合,将聚合结果与知识图谱中的每一类关系的向量表示r
s
进行配对,得到实体对e
i
,e
j
之间存在各类关系的概率;步骤五,基于正样本和构造的难负样本,通过交叉熵函数计算归纳式关系推理模型的损失,并通过梯度下降优化器,优化归纳式关系推离模型的参数。2.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤二中,通过以下方式得到每个实体i的关系集合:设定关系集合尺寸的阈值为t;对于一个与n类关系直接相连的实体:如果n大于t,基于关系在知识图谱中出现的频率进行采样,优先选择出现频率高的关系,直至采样出的关系个数达到t;如果n小于或等于t,则采样所有关系,并用(t-n)个占位符进行补充;进而得到关系类别数量为t的每个实体的关系集合。3.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤一中通过邻域编码器得到实体i的实体表示e
i
时:mean(
·
)代表平均池化函数,encoder(
·
)代表由两层transformer网络组成的编码器。4.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤一中,根据待预测关系两端实体e
i
,e
j
的实体表示创建实体对表示pair
ij
时:pair
ij
=mlp(e
i
+h1,e
j
+h2);
mlp(
·
)表示两层全连接网络,h1,h2∈r
d
为可学习的向量,d表示向量维度。5.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤二中通过计算余弦相似度的方式为每个实体筛选出匹配的负样本实体集合时;计算知识图谱中每个实体与候选实体e
i
之间的余弦相似度,并选取余弦相似度最高的m个实体作为实体e
i
的负样本实体集合;任意两个实体e
i
和e
j
间余弦相似度cos
ij
为:其中,dot_product代表向量间的点积,norm(
·
)代表向量的l2范数,*是标量之间的乘法运算。6.根据权利要求1所述的基于路径邻域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤三中计算路径特征表示与实体对表示pair
ij
之间的相似度时:m是可学习的矩阵。7.根据权利要求1所述的基于路径领域聚合和难负样本挖掘的关系推理方法,其特征在于,步骤四中,采用多层全连接网络将实体对表示pair
ij
与路径特征集合{p
ij
}
l
进行聚合时,在每一层全连接网络中将不同的特征进行组合和转换,最终的聚合结果c
ij
:c
ij
=mlp(pair
ij
,p
ij
}
l
);mlp表示全连接网络;将聚合结果与r
s
进行配对,得到实体对e
i
,e
j
之间存在第s类关系的概率时:sigmoid为激活函数,用于将全连接网络mlp的输出值映射到0到1之间。

技术总结
本发明涉及知识图谱技术领域,公开了一种基于路径邻域聚合和难负样本挖掘的关系推理方法,包括邻域编码、负样本筛选,路径选择和路径-邻域聚合。在邻域编码中,本发明设计了邻域编码器,自动编码实体一跳内邻域关系,获得实体自身的表示;在负样本筛选中,本发明用单个实体表示,设计了一种获取难负样本的办法;在路径选择中,本发明基于待预测关系两端的实体对表示,选择出与待预测关系关联度最高的路径表示;最终在路径-邻域聚合中,本发明设计了一种聚合方法以利用路径表示和实体对表示,实现归纳式关系推理。归纳式关系推理。归纳式关系推理。


技术研发人员:张勇东 毛震东 靳国庆 郭俊波 李家昂
受保护的技术使用者:中国科学技术大学
技术研发日:2023.05.23
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐