基于卷积神经网络和注意力机制的知识图谱嵌入方法
未命名
07-12
阅读:128
评论:0
1.本发明属于人工智能领域,涉及知识图谱嵌入技术,具体涉及一种基于卷积神经网络和注意力机制的知识图谱嵌入方法。
背景技术:
2.知识图谱是一种用结构化三元组表示事实的知识库,对人工智能领域的发展具有重要意义,是不可或缺的重要资源。通常,知识图谱以(h,r,t)的三元组的形式表示头部实体(h)与尾部实体(t)之间存在一种关系(r)。目前大规模知识图谱的建设已经取得了很大的进展,如freebase、yago、wordnet和nell等大型知识图谱已在诸如问答系统、推荐系统等基于知识驱动的系统中得到应用。但是,尽管现有的知识图谱中已经含有大量的三元组,随着如今互联网的飞速发展,各种知识呈一种井喷式出现,所以现有的知识图谱依旧是非常不完整的;并且应用程序往往涉及连续空间中的数值计算,而现有的知识图谱大多数是以符号和逻辑形式存储的。知识图谱嵌入的目的就是通过将知识图谱中已有的实体和关系投影到连续的低维嵌入中来预测知识图谱中缺失的链接并学习其嵌入的表示。
3.知识图谱嵌入方法主要分为两大类:一是基于传统机器学习的方法,二是基于深度学习的方法。基于传统机器学习的方法使用实体和关系的嵌入计算三元组的得分,其包含两个子类:基于翻译的方法和基于语义匹配的方法。其中基于翻译的方法将三元组中的关系视为从头部实体到尾部实体的翻译操作,这些方法通常定义一个分数函数(或能量函数),其形式类似于||h+r-t||来度量三元组的似然性,2013年在国际机器学习会议nips上发表的论文《translating embeddings for modeling multi-relational data》是基于翻译的方法的开创性工作,它直接将嵌入空间作为一个平移空间,试图让h+r≈t。基于语义匹配的方法采用基于相似性的打分函数,通过匹配实体和关系在嵌入向量空间的潜在语义衡量三元组事实成立的可能性,2011年在第28届机器学习国际会议icml上发表的论文《a three-way model for collective learning on multi-relational data》是这一方向的开创性工作,它用向量表示实体,用矩阵表示关系,并通过自定义的打分函数捕捉三元组的内部交互。基于传统机器学习的方法由于其浅层的结构导致信息之间的潜在联系难以挖掘,因而无法挖掘出更全面的特征信息。而基于深度学习的方法是利用神经网络从三元组的嵌入中提取出语义信息更丰富、准确性更高和更具鲁棒性的语义特征。2018年在国际人工智能会议aaai上发表的论文《convolutional 2dknowledge graph embeddings》是第一个利用卷积神经网络进行知识图谱嵌入的方法,利用二维卷积核对头实体和关系的向量堆叠并且重塑成的二维张量(类似图像的表示)进行卷积得到的特征图经过全连接层投影到k维空间中,在内积层和候选实体的嵌入进行匹配,计算三元组的得分。另一篇在2019年国际人工智能会议naacl上发表的论文《adaptive convolution for multi-relational learning》在第一篇论文的基础上做出了改进,指出其使用二维卷积仅仅只能捕捉矩阵堆叠连接处的交互,实体和关系间的交互不够充分,于是改为用关系的嵌入代替全局卷积核对头实体进行卷积,最后将所有的特征图堆叠为一个向量,与候选尾实体做点积运算来计
算三元组得分。
4.尽管上述的基于卷积神经网络的方法凭借其强大的特征提取能力极大的提高的知识图谱嵌入的性能,但是目前基于卷积神经网络的模型依然存在问题:
①
现有的模型不能充分的提取头实体和关系之间的交互信息;
②
由于卷积神经网络自身的天然限制,全局卷积核会限制感受野大小从而限制特征提取的范围;
③
普通卷积的池化和下采样操作会造成信息损失。因此基于卷积神经网络的知识图谱嵌入方法的特征学习能力仍然不足。
技术实现要素:
5.有鉴于此,本发明的目的在于提供一种基于动态自适应空洞卷积神经网络和注意力机制的知识图谱嵌入方法,缓解上述目前基于卷积神经网络模型存在的问题,提高知识图谱嵌入的性能。
6.为达到上述目的,本发明提供如下技术方案:
7.一种基于卷积神经网络和注意力机制的知识图谱嵌入方法,具体包括以下步骤:
8.s1:输入知识图谱数据集,利用向量表示技术将知识图谱数据集中的三元组(h,r,t)转换为k维稠密向量表示形式(vh,vr,v
t
);其中,知识图谱数据集定义为kg={ξ,r,t},ξ为实体集,r为关系集,三元组t=(h,r,t),表示头实体h∈ξ和尾实体t∈ξ之间存在某种关系r∈r,使得事实成立。
9.s2:将vh重塑为二维矩阵mh作为卷积层的输入,将vr重塑为卷积层的二维卷积滤波器mr。
10.s3:在卷积层利用动态自适应空洞卷积神经网络让mh和mr得到充分交互,学习到多个尺度的局部特征信息以及全局信息,并用eca通道注意力机制对特征信息进行过滤,保留有效的信息,然后合并每个尺度的特征信息,并在卷积层输出特征向量c。
11.s4:在全连接层将卷积层的输出特征向量c转化为三元组(h,r,t)的得分。
12.进一步,步骤s2具体包括:对于给定的一个三元组(h,r,t)经过步骤s1转换为k维稠密向量(vh,vr,v
t
)后,其中de和dr分别为三元组中实体和关系的嵌入大小;然后将vh重塑为二维矩阵作为卷积层的输入,其中将vr分割成c个大小相同的块,并且将每个块重塑为一个二维卷积滤波器其中,l表示第l个分割的块,c为滤波器的数量,h和w是卷积滤波器的高和宽,dr=chw。
13.进一步,步骤s3具体包括以下步骤:
14.s31:在卷积层利用特殊构造的动态自适应卷积神经网络(daconv)让mh和mr充分交互获得局部结构信息;以头实体h重塑形成的二维矩阵mh作为卷积层的输入送入卷积层,以关系r重塑而成的特定于关系的二维卷积滤波器mr利用多维注意力机制的特性,采用并行的策略学习对于输入mh在mr中的三个维度的注意力,形成具有输入依赖性的自适应卷积核,然后通过卷积操作生成特征向量c0。特征向量c0根据如下公式生成:
[0015][0016]
其中,表示沿自适应卷积核空间的空间注意力,在h
×
w的空间位置上根据不同的mh为滤波器分配不同的注意力;表示输入通道注意力,为每个滤波器的
输入通道分配不同的注意力;c
in
表示每个滤波器的输入通道;表示输出通道注意力,为每个滤波器的输出通道分配不同的注意力;c
out
表示每个滤波器的输出通道;表示沿核空间不同维度之间的乘法操作;*表示卷积运算;b为偏置项。由于自适应卷积滤波器mr根据输入mh的不同,不断的更新自身对于mh的注意力,特征向量c0充分的学习到了头实体mh和关系mr之间的局部交互信息。
[0017]
s32:结合空洞卷积,构造动态自适应空洞卷积神经网络(daaconv);空洞卷积在卷积层中使用一个名为“扩张率”的新参数来定义卷积核处理数据时值之间的距离,使得原始卷积核在不增加参数量和计算量的情况下,能够获得更大的感受野,从而消除了使用最大池化和下采样造成的信息损失,给定一个输入向量x和长度为k的滤波器w,空洞卷积的输出向量根据如下公式生成:
[0018][0019]
其中,l表示扩张率,所以当l=1时,空洞卷积就是标准卷积,步骤s31得到的特征向量c0就是动态自适应空洞卷积在l=1时的特殊情况;通过更改扩张率获得更大的感受野,然后通过卷积操作生成特征向量c
daa_i
,特征向量c
daa_i
根据如下公式生成:
[0020][0021]
其中,wh是mh根据扩张率扩张后的输入;b为偏置项。
[0022]
s33:由步骤s31、s32得到的特征向量通过eca通道注意力机制进行信息过滤,然后整合得到卷积层特征向量c,特征向量c根据如下公式生成:
[0023][0024]
其中,c0是由步骤s31得到的特征向量,也就是当扩张率l=1时得到的结果;ci是由步骤s32通过设置不同的扩张率得到的多个结果,i=1,
…
,t;表示积分运算;通过设置多个扩张率得到多种感受野不同的特征向量经过eca通道注意力机制过滤并合并在一起的特征向量c不仅更加充分地学习到了头实体mh和关系mr之间的局部交互信息,同时还学习到了全局信息。
[0025]
进一步,步骤s4具体包括:在全连接层将卷积层的输出特征向量c经过一个转换操作,然后将结果平面化为一个特征向量c
′
,特征向量c
′
根据如下公式生成:
[0026]c′
=flatten(wrelu(c+mh))
[0027]
其中,w表示一个转换矩阵;利用生成的特征向量c
′
,通过以下得分函数来计算一个候选尾实体的得分ψ(h,r,t),计算公式为:
[0028][0029][0030]
其中,表示将vh重塑为二维矩阵;表示使用vr生成的动态自适应卷积神经网络的卷积滤波器;表示使用vr生成的动态自适应空洞卷积神经网络的卷积滤波器;eca(
·
)表示eca通道注意力机制的操作;然后用非线性逻辑sigmod函数得到所有候选尾实体是否正确的概率分布:
[0031]
p(t|h,r)=sigmod(ψ(h,r,t))
[0032]
对于训练模型参数,使用listwise排序法来训练三元组,其损失函数计算公式如下:
[0033][0034]
其中,e是一个标签向量,关系存在时元素值为1,否则为0;n是知识图谱中实体的数量;该损失函数取(h,r)对,并同时对所有候选实体进行评分,分值越高,三元组成立的可能性越大。
[0035]
本发明的有益效果在于:本发明知识图谱嵌入方法能够在没有任何外部数据输入辅助训练的情况下,利用特殊构造的动态自适应空洞卷积神经网络捕获知识图谱中局部和全局特征信息,从而提高知识图谱嵌入的性能。
[0036]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0037]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0038]
图1为本发明基于卷积神经网络和注意力机制的知识图谱嵌入框架(dtae)的示意图;
[0039]
图2为本发明daconv以及daaconv中自适应卷积核动态学习对于输入的注意力的示意图;
[0040]
图3为本发明daconv中自适应卷积核设置不同扩展率得到多个感受野不同的卷积核的示意图。
具体实施方式
[0041]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0042]
请参阅图1~图3,本发明提供一种基于特殊构造的动态自适应空洞卷积神经网络(daaconv)和eca注意力机制的知识图谱嵌入方法,如图1所示,具体步骤如下:
[0043]
s1:输入知识图谱数据集,利用向量表示技术将知识图谱数据集中的三元组(h,r,t)转换为k维稠密向量表示形式
[0044]
s2:对于给定的一个三元组(h,r,t)经过步骤s1转换为k维稠密向量(vh,vr,v
t
)后,
其中de和dr分别为三元组中实体和关系的嵌入大小。然后将vh重塑为二维矩阵作为卷积层的输入,其中将vr分割成c个大小相同的块,并且将每个块重塑为一个二维卷积滤波器其中c为滤波器的数量,h和w是卷积滤波器的高和宽,dr=chw。
[0045]
s3:在卷积层利用动态自适应空洞卷积神经网络让头实体mh和关系mr得到充分交互,学习到多个尺度的局部特征信息以及全局信息,并用eca通道注意力机制对特征信息进行过滤,保留有效的信息,然后合并每个尺度的特征信息在卷积层输出特征向量c。
[0046]
s31:在卷积层利用特殊构造的动态自适应卷积神经网络(daconv)让头实体mh和关系mr充分交互获得局部结构信息;以头实体h重塑形成的二维矩阵mh被作为卷积层的输入送入该层,以关系r重塑而成的特定于关系的自适应卷积滤波器mr利用多维注意力机制的特性,采用并行的策略学习对于输入mh在mr中的三个维度的注意力,形成具有输入依赖性的自适应卷积核,然后通过卷积操作生成特征向量c0,特征向量根据如下公式生成:
[0047][0048]
其中,表示沿自适应卷积核空间的空间注意力,在h
×
w的空间位置上根据不同的mh为滤波器分配不同的注意力;表示输入通道注意力,为每个滤波器的输入通道分配不同的注意力;c
in
表示每个滤波器的输入通道;表示输出通道注意力,为每个滤波器的输出通道分配不同的注意力;c
out
表示每个滤波器的输出通道;表示沿核空间不同维度之间的乘法操作;*表示卷积运算;b为偏置项;由于自适应卷积滤波器mr根据输入mh的不同,不断的更新自身对于mh的注意力,特征向量c0充分的学习到了头实体mh和关系mr之间的局部交互信息;
[0049]
s32:结合空洞卷积,构造动态自适应空洞卷积神经网络(daaconv);空洞卷积在卷积层中使用一个名为“扩张率”的新参数来定义卷积核处理数据时值之间的距离,使得原始卷积核在不增加参数量和计算量的情况下下,能够获得更大的感受野,从而消除了使用最大池化和下采样造成的信息损失,给定一个输入向量x和长度为k的滤波器w,空洞卷积的输出向量根据如下公式生成:
[0050][0051]
其中,l表示扩张率,所以当l=1时,空洞卷积就是标准卷积,步骤s31得到的特征向量c0就是动态自适应空洞卷积在l=1时的特殊情况;通过更改扩张率获得更大的感受野,然后通过卷积操作生成特征向量c
daa
,特征向量c
daa
根据如下公式生成:
[0052][0053]
其中,wh是mh根据扩张率扩张后的输入;b为偏置项。
[0054]
s33:由步骤s31、s32得到的特征向量通过eca通道注意力机制进行信息过滤,然后整合得到卷积层特征向量c,特征向量c根据如下公式生成:
[0055][0056]
其中,c0是由步骤s31得到的特征向量,也就是当扩张率l=1时得到的结果;ci是由
步骤s32通过设置不同的扩张率得到的多个结果,i=1,
…
,t;表示积分运算;通过设置多个扩张率得到多种感受野不同的特征向量经过eca通道注意力机制过滤并合并在一起的特征向量c不仅更加充分地学习到了头实体mh和关系mr之间的局部交互信息,同时还学习到了全局信息。
[0057]
s4:在全连接层将卷积层的输出特征图c经过一个转换操作,然后将结果平面化为一个特征向量c
′
,特征向量c
′
根据如下公式生成:
[0058]c′
=flatten(wrelu(c+mh))
[0059]
其中w表示一个转换矩阵。利用生成的特征向量c,通过以下得分函数来计算一个候选尾实体的得分:
[0060][0061][0062]
其中表示将vh重塑为二维矩阵;表示使用vr生成的动态自适应卷积神经网络的卷积滤波器;表示使用vr生成的动态自适应空洞卷积神经网络的卷积滤波器;eca(
·
)表示eca通道注意力机制的操作;然后用非线性逻辑sigmod函数得到所有候选尾实体是否正确的概率分布:
[0063]
p(t|h,r)=sigmod(ψ(h,r,t))
[0064]
对于训练模型参数,dtae使用listwise排序法来训练三元组,其损失函数计算公式如下:
[0065][0066]
其中,e是一个标签向量,关系存在时元素值为1,否则为0;n是知识图谱中实体的数量;该损失函数取(h,r)对,并同时对所有候选实体进行评分,分值越低,三元组成立的可能性越大。
[0067]
对比验证实验:
[0068]
在fb15k-237和wn18rr上通过对比实验验证。这两个公开的知识图谱数据集分别由freebase和wordnet知识库中抽取的信息构成,并且每个数据集都分为了训练集、验证集、测试集,表1列出了它们的统计数据。
[0069]
表1
[0070]
数据集关系数实体数训练集验证集测试集fb15k-237237145412721151753520446wn18rr11409438683530343034
[0071]
本实验在测试集上与目前最先进的几种知识图谱嵌入方法做了比较。主要比较了平均倒数排序(mean reciprocal rank,mrr)和前十、前三、第一召回率(hits@10,hits@3,hits@1)这四个指标。其中s是三元组集合,|s|是三元组个数,ranki是指第i个三元组的链接预测排名,所以mrr越大越好;hits@n是指在链接预测中排名小于n的三元组的平均占比,该值越大越好。对于测试集中的每一个三元组(h,r,t),当预测尾实体t
时,所有候选尾实体根据分数排序,排名越靠前,三元组成立的可能性越大。所以预测尾实体是否排在前十,前三以及第一都可以作为衡量模型好坏的指标,类似的,预测头实体也是如此。从表2结果可以看出,本发明方法(dtae)相比于目前先进的方法具有更好的表现。
[0072]
表2
[0073][0074]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种基于卷积神经网络和注意力机制的知识图谱嵌入方法,其特征在于,该方法具体包括以下步骤:s1:输入知识图谱数据集,利用向量表示技术将知识图谱数据集中的三元组(h,r,t)转换为k维稠密向量表示形式(v
h
,v
r
,v
t
);其中,知识图谱数据集定义为kg={ξ,r,t},ξ为实体集,r为关系集,三元组t=(h,r,t),表示头实体h∈ξ和尾实体t∈ξ之间存在某种关系r∈r,使得事实成立;s2:将v
h
重塑为二维矩阵m
h
作为卷积层的输入,将v
r
重塑为卷积层的二维卷积滤波器m
r
;s3:在卷积层利用动态自适应空洞卷积神经网络让m
h
和m
r
得到充分交互,学习到多个尺度的局部特征信息以及全局信息,并用eca通道注意力机制对特征信息进行过滤,保留有效的信息,然后合并每个尺度的特征信息,并在卷积层输出特征向量c;s4:在全连接层将卷积层的输出特征向量c转化为三元组(h,r,t)的得分。2.根据权利要求1所述的知识图谱嵌入方法,其特征在于,步骤s2具体包括:对于给定的一个三元组(h,r,t)经过步骤s1转换为k维稠密向量(v
h
,v
r
,v
t
)后,其中)后,其中d
e
和d
r
分别为三元组中实体和关系的嵌入大小;然后将v
h
重塑为二维矩阵作为卷积层的输入,其中将v
r
分割成c个大小相同的块,并且将每个块分割成c个大小相同的块,并且将每个块重塑为一个二维卷积滤波器其中,l表示第l个分割的块,c为滤波器的数量,h和w是卷积滤波器的高和宽,d
r
=chw。3.根据权利要求2所述的知识图谱嵌入方法,其特征在于,步骤s3具体包括以下步骤:s31:在卷积层利用特殊构造的动态自适应卷积神经网络让m
h
和m
r
充分交互获得局部结构信息;以二维矩阵m
h
作为卷积层的输入送入卷积层,以二维卷积滤波器m
r
利用多维注意力机制的特性,采用并行的策略学习对于输入m
h
在m
r
中的三个维度的注意力,形成具有输入依赖性的自适应卷积核,然后通过卷积操作生成特征向量c0;s32:结合空洞卷积,构造动态自适应空洞卷积神经网络;空洞卷积在卷积层中使用一个名为“扩张率”的新参数来定义卷积核处理数据时值之间的距离,使得原始卷积核在不增加参数量和计算量的情况下,能够获得更大的感受野,从而消除了使用最大池化和下采样造成的信息损失,给定一个输入向量x和长度为k的滤波器w,空洞卷积的输出向量根据如下公式生成:其中,l表示扩张率,所以当l=1时,空洞卷积就是标准卷积,步骤s31得到的特征向量c0就是动态自适应空洞卷积在l=1时的特殊情况;通过更改扩张率获得更大的感受野,然后通过卷积操作生成特征向量c
daa_i
,特征向量c
daa_i
根据如下公式生成:其中,w
h
是m
h
根据扩张率扩张后的输入;表示沿自适应卷积核空间的空间注意力,在h
×
w的空间位置上根据不同的m
h
为滤波器分配不同的注意力;表示输入通道注意力,为每个滤波器的输入通道分配不同的注意力;c
in
表示每个滤波器的输入通道;表示每个滤波器的输入通道;表示输出通道注意力,为每个滤波器的输出通道分配不同的注意力;c
out
表示每个
滤波器的输出通道;表示沿核空间不同维度之间的乘法操作;*表示卷积运算;b为偏置项;s33:由步骤s31、s32得到的特征向量通过eca通道注意力机制进行信息过滤,然后整合得到卷积层特征向量c,特征向量c根据如下公式生成:其中,c0是由步骤s31得到的特征向量,也就是当扩张率l=1时得到的结果;c
i
是由步骤s32通过设置不同的扩张率得到的多个结果,i=1,...,t;表示积分运算。4.根据权利要求3所述的知识图谱嵌入方法,其特征在于,步骤s31中,特征向量c0根据如下公式生成:其中,表示沿自适应卷积核空间的空间注意力,在h
×
w的空间位置上根据不同的m
h
为滤波器分配不同的注意力;表示输入通道注意力,为每个滤波器的输入通道分配不同的注意力;表示输出通道注意力,为每个滤波器的输出通道分配不同的注意力;表示沿核空间不同维度之间的乘法操作;*表示卷积运算;b为偏置项。5.根据权利要求3所述的知识图谱嵌入方法,其特征在于,步骤s4具体包括:在全连接层将卷积层的输出特征向量c经过一个转换操作,然后将结果平面化为一个特征向量c
′
,特征向量c
′
根据如下公式生成:c
′
=flatten(wrelu(c+m
h
))其中,w表示一个转换矩阵;利用生成的特征向量c
′
,通过以下得分函数来计算一个候选尾实体的得分ψ(h,r,t),计算公式为:选尾实体的得分ψ(h,r,t),计算公式为:其中,表示将v
h
重塑为二维矩阵;表示使用v
r
生成的动态自适应卷积神经网络的卷积滤波器;表示使用v
r
生成的动态自适应空洞卷积神经网络的卷积滤波器;eca(
·
)表示eca通道注意力机制的操作;然后用非线性逻辑sigmod函数得到所有候选尾实体是否正确的概率分布:p(t|h,r)=sigmod(ψ(h,r,t))对于训练模型参数,使用listwise排序法来训练三元组,其损失函数计算公式如下:其中,e是一个标签向量,关系存在时元素值为1,否则为0;n是知识图谱中实体的数量;该损失函数取(h,r)对,并同时对所有候选实体进行评分。
技术总结
本发明涉及一种基于卷积神经网络和注意力机制的知识图谱嵌入方法,属于知识图谱嵌入领域。该方法包括:S1:输入知识图谱数据集,利用向量表示技术将知识图谱数据集中的三元组(h,r,t)转换为k维稠密向量(v
技术研发人员:邓维斌 张艺腾 于洪 李洪兴 邓鹏
受保护的技术使用者:重庆邮电大学
技术研发日:2023.04.12
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
