一种基于文本和图嵌入交互的漏洞图谱对齐方法
未命名
08-15
阅读:240
评论:0
1.本发明涉及网络安全技术领域,具体为一种基于文本和图嵌入交互的漏洞图谱对齐方法。
背景技术:
2.知识图谱对齐技术旨在将来源不同的同类图谱融合,进而获得信息更全面的图谱。由于图谱信息是否完整,将极大的影响知识图谱相关的下游应用(例如问答系统、推荐系统等)。因此,实体对齐技术受到了学术界和工业界的广泛关注。传统的图谱对齐技术,主要依靠文本匹配或逻辑推理进行图谱中的实体对齐。随着人工智能的发展,知识表示学习的前沿成果被引入到实体对齐任务中。利用神经网络学习到的图结构特征和文本特征,都可以加强实体对齐任务的效果。在实体对齐的研究中,学者主要关注于通用的百科知识图谱对齐,但百科知识图谱语义信息比较丰富,和专业领域的实体对齐还是存在着一些差异。针对知识图谱中图结构带来的丰富语义信息,很多实体对齐技术利用几何模型transe和图神经网络gcn等来学习图嵌入,并利用图嵌入来完成实体对齐。但漏洞知识图谱中的实体与实体间的交互并不复杂,依赖于图结构信息来进行实体对齐的效果很差。因此,我们综合考虑了实体的文本信息与结构信息,利用实体和其邻居实体的信息辅助完成漏洞图谱实体对齐任务。
3.在现有专利方面,有一些针对威胁情报、金融行业等的实体对齐技术被提出,但在漏洞图谱领域,还没有发现相关的对齐技术。根据国家专利网公开的一种四险一金领域知识图谱中实体对齐方法(公告号为:cn112131404b),利用transe,lstm和预训练bert模型学习实体嵌入表示,但也只考虑了实体和其属性信息。
4.目前已有的方法主要是利用图结构特征以及实体和属性的文本信息来进行实体对齐,但只考虑了实体自身的信息,没有完全发挥出其邻居信息对实体对齐的贡献。许多技术依赖于transe或gcn来学习图嵌入表示,但漏洞图谱存在着大量一对多、多对一和多对多关系模型,利用这些模型,不能很好的利用图结构信息来区分那些相似但不同的实体对。除此之外,大多现有技术依赖于图结构特征,但由于漏洞图谱的特殊性,存在着关系数量少,但实体数量多的问题,需要考虑更多的信息来完成实体对齐。
技术实现要素:
5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种基于文本和图嵌入交互的漏洞图谱对齐方法,对于存在大量相似漏洞数据的漏洞图谱,首先利用提出的图嵌入模型学习其图结构特征,然后将图结构特征与基于预训练语言bert学习的文本嵌入拼接,利用少量标签数据进行微调;随后,结合实体图文视角、实体邻居视角和实体属性视角的相似度得分,将这些得分交互后得到最终的匹配结果,该技术优于单纯使用文本和图结构特征的方法,不仅能够在漏洞图谱对齐中得到很好的效果,同时也可用于跨语言知识图谱对齐。
7.(二)技术方案
8.为实现上述在漏洞图谱对齐中得到很好的效果,本发明提供如下技术方案:一种基于文本和图嵌入交互的漏洞图谱对齐方法,包括以下步骤:
9.s1、漏洞知识图谱构建模块
10.从国家信息安全漏洞库和国家信息安全漏洞共享平台中获取公开的漏洞数据,构建用于漏洞实体对齐实验的数据集,以(实体h,关系r,实体t)与(实体h,属性a,属性值v)的形式分别构成了关系三元组集合和属性三元组集合。
11.s2、图嵌入表示模块
12.以quate模型作为基础,构建图嵌入表示模型quatae,引入新关系ra作为两个图谱间的“连接桥梁”,利用对齐种子sd和关系ra,加入一组训练数据修改训练目标,使已知的对齐实体对在训练过程中彼此的距离更加接近,为了使得漏洞图谱中相同的实体在训练中靠近,该模块的损失函数设计如下:
[0013][0014]
s3、实体文本-图嵌入模块
[0015]
对于输入的实体文本,利用跨语言预训练模型bert来学习文本信息,将bert的cls嵌入与quatae学习到的图嵌入拼接,再经过一个mlp层进行过滤,考虑到quatae嵌入与bert嵌入间的差异,在拼接之前,将quatae嵌入经过一个mlp层进行特征选择:
[0016]
g(e)=mlp(quatae(e))
[0017][0018]
利用对齐种子,随机采样一些负样本作为微调bert和quatae的训练数据:d={e,e
+
,e-},其中e
+
∈sd,表示与e的相同实体,而e-为与e不相同的负样本。负样本对的采样计算通过实体对的余弦相似度来选择。在获得训练数据后,使用成对边缘损失来进行微调,损失函数如下:
[0019][0020]
s4、多视角交互对齐模块
[0021]
在对齐时,考虑邻居和属性能更容易区分那些在图结构和名称都相似,但实际并不相同的实体,将邻居视角和属性视角加入,与上一模块的图文视角进行交互,得到最终的对齐结果。首先,在邻居视角下,对于给定的候选匹配实体对(ei,ej),可以通过上一模块获取其各自的邻居实体嵌入表示,用以计算出一个邻居实体间的相似度矩阵sr,矩阵中的任一元s
x,y
表示实体ei的第x个邻居与实体ej的第y个邻居的相似度;
[0022]
考虑到实体与邻居间关系的相似度也会影响实体对齐的效果,即邻居相似且对应关系也相似的实体对更可能是真实的对齐实体对,此时,用关系的文本嵌入计算一个邻居关系相似度矩阵作为mask,提升邻居视角的可靠度。关系的文本嵌入同样利用bert的cls嵌入通过一个mlp层获得:
[0023]
tc(r)=mlp(cls(r))
[0024][0025]
其中,m
x,y
表示实体ei第x个关系和实体ej的第y个关系的相似度,这些关系相似度能组成一个关系mask矩阵m,将邻居相似度矩阵sr和对应的关系mask矩阵m计算哈达玛积,得到最终的相似度矩阵:
[0026]s′r=sr⊙
m;
[0027]
为了更精确的利用相似的邻居实体对,我们取s
′r每行的最大值作为rbf核函数的输入,即只关心ei与ei的邻居中最可能是相同实体的实体对有多相似;由此,我们可以得到实体ei和实体ej在邻居视角下s
′r每行和每列的相似度分数集合:
[0028][0029]
其中,rbfr(
·
)对相似度矩阵的行元素进行聚合,rbfc(
·
)对相似度矩阵的列元素进行聚合。
[0030]
优选的,所述步骤s1中,国家信息安全漏洞库中定义了13种实体,16种关系和4种属性,国家信息安全漏洞共享平台中,定义了8种实体,10种关系和6种属性,其中国家信息安全漏洞库的漏洞本体基本能覆盖国家信息安全漏洞共享平台的所有本体。
[0031]
优选的,所述步骤s2中,创建了一种表示对齐关系的ra,并利用对齐种子sd和关系ra,加入一组训练数据
[0032]
优选的,所述步骤s2中,基于quate提出了一种用于实体对齐的图嵌入模型quatae。
[0033]
优选的,所述步骤s3中,d(
·
)使用l1距离来计算tg(e)与tg(e+)或tg(e-)的相似度,m为限制正负样本对间距离的边缘参数。
[0034]
优选的,所述步骤s3中,由于实体的描述信息能比名称提供更多的信息,优先将描述作为输入,如果描述缺失,再使用实体的名称作为输入,经过该模块的训练后,对于给定的实体对(ei,ej),其相似度评分可以通过比较实体间的余弦相似度进行计算:
[0035][0036]
通过对候选实体对计算相似度,对于每个实体ei,初步选出k个候选的对齐实体,用于下一模块的精选。
[0037]
优选的,所述步骤s4中,在属性视角下,将邻居视角下的输入关系三元组换为属性三元组,我们可以用类似的方法得到实体ei和实体ej在邻居视角下的相似度分数集合区别仅在于属性视角的输入数据是目标实体通过属性a连接的属性值集合,而邻居视角的输入数据则是目标实体通过关系r连接的实体集。
[0038]
优选的,所述步骤s4中,对于给定的实体对(ei,ej),结合图文视角、邻居视角和属性视角的相似度评分集合,将它们拼接后输入mlp层,得到三个视角交互的最终相似度评分:
[0039]
。
[0040][0041]
(三)有益效果
[0042]
与现有技术相比,本发明提供了一种基于文本和图嵌入交互的漏洞图谱对齐方法,具备以下有益效果:
[0043]
1、该基于文本和图嵌入交互的漏洞图谱对齐方法,充分考虑了漏洞图谱的特点,以统一的模型综合考虑实体、邻居和属性层面的信息,实现了较好的对齐效果,除了支持漏洞图谱之外,由于将知识图谱中影响知识对齐的各层面信息都加入训练,可以兼容其他领域知识图谱的实体对齐工作,具有很强的通用性。
[0044]
2、该基于文本和图嵌入交互的漏洞图谱对齐方法,提出了一种针对漏洞图谱特点设计的图嵌入模型,模型学习到的图结构特征可以辅助实体对齐任务,特别是对于一些在文本上相似但实际不同的实体对,可以提供更深层次的信息,与此同时,引入图嵌入进行辅助训练,取得了更有效的对齐实体对,三个模块的输出的嵌入表示都可用于实体对齐任务,在实际的应用场景中,可以根据自己的需求进行选择。
附图说明
[0045]
图1为本发明流程示意图;
[0046]
图2为本发明训练完的模型应用过程示意图;
[0047]
图3为本发明漏洞图谱对齐示意图。
具体实施方式
[0048]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
请参阅图1-3本发明提供一种技术方案:一种基于文本和图嵌入交互的漏洞图谱对齐方法,包括以下步骤:
[0050]
s1、漏洞知识图谱构建模块
[0051]
从国家信息安全漏洞库和国家信息安全漏洞共享平台中获取公开的漏洞数据,构建用于漏洞实体对齐实验的数据集,以(实体h,关系r,实体t)与(实体h,属性a,属性值v)的形式分别构成了关系三元组集合和属性三元组集合。
[0052]
国家信息安全漏洞库中定义了13种实体,16种关系和4种属性,国家信息安全漏洞共享平台中,定义了8种实体,10种关系和6种属性,其中国家信息安全漏洞库的漏洞本体基本能覆盖国家信息安全漏洞共享平台的所有本体。
[0053]
具体的实体、关系和属性的描述信息如下所示:
[0054]
[0055][0056]
s2、图嵌入表示模块
[0057]
1.以quate模型作为基础,构建图嵌入表示模型quatae,引入新关系ra作为两个图谱间的“连接桥梁”,利用对齐种子sd={(e,e
′
)|e∈ε1,e
′
∈ε2,e≡e
′
}和关系ra,加入一组训练数据修改训练目标,使已知的对齐实体对在训练过程中彼此的距离更加接近,为了使得漏洞图谱中相同的实体在训练中靠近,该模块的损失函数设计如下:
[0058][0059]
是从采样的负样本三元组,l∈{-1,1}表示三元组是否是一个负样本,负样本采用了对抗性采样和伯努利采样方法,λ1和λ2为超参数。
[0060]
s3、实体文本-图嵌入模块
[0061]
对于输入的实体文本,利用跨语言预训练模型bert来学习文本信息,将bert的cls嵌入与quatae学习到的图嵌入拼接,再经过一个mlp层进行过滤,考虑到quatae嵌入与bert嵌入间的差异,在拼接之前,将quatae嵌入经过一个mlp层进行特征选择:
[0062]
g(e)=mlp(quatae(e))
[0063][0064]
利用对齐种子,随机采样一些负样本作为微调bert和quatae的训练数据:d={e,e
+
,e-},其中e
+
∈sd,表示与e的相同实体,而e-为与e不相同的负样本。负样本对的采样计算通过实体对的余弦相似度来选择。在获得训练数据后,使用成对边缘损失来进行微调,损失函数如下:
[0065][0066]
d(
·
)使用l1距离来计算tg(e)与tg(e+)或tg(e-)的相似度,m为限制正负样本对间距离的边缘参数。
[0067]
由于实体的描述信息能比名称提供更多的信息,优先将描述作为输入,如果描述缺失,再使用实体的名称作为输入,经过该模块的训练后,对于给定的实体对(ei,ej)其相似度评分可以通过比较实体间的余弦相似度进行计算:
[0068][0069]
通过对候选实体对计算相似度,对于每个实体ei,初步选出k个候选的对齐实体,用于下一模块的精选。
[0070]
s4、多视角交互对齐模块
[0071]
在对齐时,考虑邻居和属性能更容易区分那些在图结构和名称都相似,但实际并不相同的实体,将邻居视角和属性视角加入,与上一模块的图文视角进行交互,得到最终的对齐结果。首先,在邻居视角下,对于给定的候选匹配实体对(ei,ej),可以通过上一模块获取其各自的邻居实体嵌入表示,用以计算出一个邻居实体间的相似度矩阵sr,矩阵中的任一元s
x,y
表示实体ei的第x个邻居与实体ej的第y个邻居的相似度;
[0072]
考虑到实体与邻居间关系的相似度也会影响实体对齐的效果,即邻居相似且对应关系也相似的实体对更可能是真实的对齐实体对,此时,用关系的文本嵌入计算一个邻居关系相似度矩阵作为mask,提升邻居视角的可靠度。关系的文本嵌入同样利用bert的cls嵌入通过一个mlp层获得:
[0073]
tc(r)=mlp(cls(r))
[0074][0075]
其中,m
x,y
表示实体ei第x个关系和实体ej的第y个关系的相似度,这些关系相似度能组成一个关系mask矩阵m,将邻居相似度矩阵sr和对应的关系mask矩阵m计算哈达玛积,得到最终的相似度矩阵:
[0076]s′r=sr⊙
m;
[0077]
为了更精确的利用相似的邻居实体对,我们取s
′r每行的最大值作为rbf核函数的输入,即只关心ei与ej的邻居中最可能是相同实体的实体对有多相似;由此,我们可以得到实体ei和实体ej在邻居视角下s
′r每行和每列的相似度分数集合:
[0078][0079]
其中,rbfr(
·
)对相似度矩阵的行元素进行聚合,rbfc(
·
)对相似度矩阵的列元素进行聚合。
[0080]
在属性视角下,将邻居视角下的输入关系三元组换为属性三元组,我们可以用类似的方法得到实体ei和实体ej在邻居视角下的相似度分数集合区别仅在于属性视角的输入数据是目标实体通过属性a连接的属性值集合,而邻居视角的输入数据则是目标实体通过关系r连接的实体集。
[0081]
对于给定的实体对(ei,ej),结合图文视角、邻居视角和属性视角的相似度评分集合,将它们拼接后输入mlp层,得到三个视角交互的最终相似度评分:
[0082][0083]
该基于文本和图嵌入交互的漏洞图谱对齐方法,对于存在大量相似漏洞数据的漏洞图谱,首先利用提出的图嵌入模型学习其图结构特征,然后将图结构特征与基于预训练语言bert学习的文本嵌入拼接,利用少量标签数据进行微调;随后,结合实体图文视角、实体邻居视角和实体属性视角的相似度得分,将这些得分交互后得到最终的匹配结果,该技术优于单纯使用文本和图结构特征的方法,不仅能够在漏洞图谱对齐中得到很好的效果,同时也可用于跨语言知识图谱对齐。
[0084]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,包括以下步骤:s1、漏洞知识图谱构建模块从国家信息安全漏洞库和国家信息安全漏洞共享平台中获取公开的漏洞数据,构建用于漏洞实体对齐实验的数据集,以(实体h,关系r,实体t)与(实体h,属性a,属性值v)的形式分别构成了关系三元组集合和属性三元组集合;s2、图嵌入表示模块以quate模型作为基础,构建图嵌入表示模型quatae,引入新关系r
a
作为两个图谱间的“连接桥梁”,利用对齐种子s
d
和关系r
a
,加入一组训练数据修改训练目标,使已知的对齐实体对在训练过程中彼此的距离更加接近,为了使得漏洞图谱中相同的实体在训练中靠近,该模块的损失函数设计如下:s3、实体文本-图嵌入模块对于输入的实体文本,利用跨语言预训练模型bert来学习文本信息,将bert的cls嵌入与quatae学习到的图嵌入拼接,再经过一个mlp层进行过滤,考虑到quatae嵌入与bert嵌入间的差异,在拼接之前,将quatae嵌入经过一个mlp层进行特征选择:g(e)=mlp(quatae(e))利用对齐种子,随机采样一些负样本作为微调bert和quatae的训练数据:d={e,e
+
,e-},其中e
+
∈s
d
,表示与e的相同实体,而e-为与e不相同的负样本,负样本对的采样计算通过实体对的余弦相似度来选择,在获得训练数据后,使用成对边缘损失来进行微调,损失函数如下:s4、多视角交互对齐模块在对齐时,考虑邻居和属性能更容易区分那些在图结构和名称都相似,但实际并不相同的实体,将邻居视角和属性视角加入,与上一模块的图文视角进行交互,得到最终的对齐结果,首先,在邻居视角下,对于给定的候选匹配实体对(e
i
,e
j
),可以通过上一模块获取其各自的邻居实体嵌入表示,用以计算出一个邻居实体间的相似度矩阵sr,矩阵中的任一元s
x,y
表示实体e
i
的第x个邻居与实体e
j
的第y个邻居的相似度;考虑到实体与邻居间关系的相似度也会影响实体对齐的效果,即邻居相似且对应关系也相似的实体对更可能是真实的对齐实体对,此时,用关系的文本嵌入计算一个邻居关系相似度矩阵作为mask,提升邻居视角的可靠度,关系的文本嵌入同样利用bert的cls嵌入通过一个mlp层获得:tc(r)=mlp(cls(r))
其中,m
x,y
表示实体e
i
第x个关系和实体e
j
的第y个关系的相似度,这些关系相似度能组成一个关系mask矩阵m,将邻居相似度矩阵s
r
和对应的关系mask矩阵m计算哈达玛积,得到最终的相似度矩阵:s
′
r
=s
r
⊙
m;为了更精确的利用相似的邻居实体对,我们取s
′
r
每行的最大值作为rbf核函数的输入,即只关心e
i
与e
j
的邻居中最可能是相同实体的实体对有多相似;由此,我们可以得到实体e
i
和实体e
j
在邻居视角下s
′
r
每行和每列的相似度分数集合:其中,rbfr(
·
)对相似度矩阵的行元素进行聚合,rbfc(
·
)对相似度矩阵的列元素进行聚合。2.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s1中,国家信息安全漏洞库中定义了13种实体,16种关系和4种属性,国家信息安全漏洞共享平台中,定义了8种实体,10种关系和6种属性,其中国家信息安全漏洞库的漏洞本体基本能覆盖国家信息安全漏洞共享平台的所有本体。3.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s2中,创建了一种表示对齐关系的r
a
,并利用对齐种子s
d
和关系r
a
,加入一组训练数据4.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s2中,基于quate提出了一种用于实体对齐的图嵌入模型quatae。5.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s3中,d(
·
)使用l1距离来计算tg(e)与tg(e+)或tg(e-)的相似度,m为限制正负样本对间距离的边缘参数。6.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s3中,由于实体的描述信息能比名称提供更多的信息,优先将描述作为输入,如果描述缺失,再使用实体的名称作为输入,经过该模块的训练后,对于给定的实体对(e
i
,e
j
),其相似度评分可以通过比较实体间的余弦相似度进行计算:通过对候选实体对计算相似度,对于每个实体e
i
,初步选出k个候选的对齐实体,用于下一模块的精选。7.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s4中,在属性视角下,将邻居视角下的输入关系三元组换为属性三元组,我们可以用类似的方法得到实体e
i
和实体e
j
在邻居视角下的相似度分数集合区别仅在于属性视角的输入数据是目标实体通过属性a连接的属性值集合,而邻居视角的输入数据则是目标实体通过关系r连接的实体集。
8.根据权利要求1所述的一种基于文本和图嵌入交互的漏洞图谱对齐方法,其特征在于,所述步骤s4中,对于给定的实体对(e
i
,e
j
),结合图文视角、邻居视角和属性视角的相似度评分集合,将它们拼接后输入mlp层,得到三个视角交互的最终相似度评分:
技术总结
本发明涉及网络安全技术领域,且公开了一种基于文本和图嵌入交互的漏洞图谱对齐方法,包括以下步骤:从国家信息安全漏洞库和国家信息安全漏洞共享平台中获取公开的漏洞数据,构建用于漏洞实体对齐实验的数据集,以QuatE模型作为基础,构建图嵌入表示模型QuatAE,引入新关系r
技术研发人员:李默涵 蒋进 孙彦斌 田志宏 仇晶 李树栋 唐可可
受保护的技术使用者:广州大学
技术研发日:2023.04.11
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
