图谱合并方法、装置、电子设备及存储介质与流程
未命名
10-10
阅读:119
评论:0
1.本发明涉及故障根因定位技术领域,尤其涉及一种图谱合并方法、 装置、电子设备及存储介质。
背景技术:
2.由于当前网络中的故障原因非常复杂,我们需要找到故障产生的 根因,在此期间需要预测两个有直接或者间接关系(所属同一业务系 统,业务系统之间有调用关系)的不同设备之间的故障传播置信度或 概率。
3.目前网络中节点的链接预测方法主要有基于相似性的方法,极大 似然估计法。在基于相似性的方法中,任意两个节点之间都有一个相 似性值,根据这些节点间的相似性值将其进行排名,相似性越大,说 明这两个节点在未来建立链接关系的可能性就越大,但是在该类方法 中,如何定义节点的相似度是巨大的挑战,目前相似性特征的筛选需 要依靠人工提取特征,预测不准确,并且筛选难度大。极大似然估计 法假设网络的组织结构符合某种规律,然后按照此规律建立模型。在 建立了带参数的模型后,按照已有的数据对网络进行评估。在参数按 照极大似然方法计算出来后,对未来可能建立的链接进行预测。极大 似然估计法的缺点是耗时长,不能应用于大规模的网络链接预测。
4.目前网络中节点的链接预测方法,存在预测不准确,耗时长,不 能应用于大规模的网络链接预测等缺陷。
技术实现要素:
5.本发明提供一种图谱合并方法、装置、电子设备及存储介质,用 以解决目前网络中节点的链接预测方法,存在预测不准确,耗时长, 不能应用于大规模的网络链接预测等缺陷。
6.本发明提供一种图谱合并方法,包括:
7.获取待合并的两个故障根因图谱,所述待合并的两个故障根因图 谱包括第一图谱和第二图谱;
8.基于所述第一图谱和第二图谱,确定多个目标节点对,所述目标 节点对由所述第二图谱的任一目标节点以及在所述第一图谱的中与 所述目标节点具有第一相邻关系的任一目标节点组成,所述第一相邻 关系为在第一知识图谱中相邻;
9.对于每一所述目标节点对执行以下操作:获取所述目标节点对中 的两个目标节点的聚合特征向量;将所述两个目标节点的聚合特征向 量输入至训练完成的第一模型,得到所述两个目标节点连接的概率值; 在所述两个目标节点连接的概率值大于预设阈值的情况下,确定所述 两个目标节点存在传播概率,则将所述两个目标节点进行连接;
10.在遍历完所有所述目标节点对后,输出合并后的故障根因图谱;
11.其中,所述第一模型是基于标签化的聚合特征向量样本训练得到 的用于对故障根因图谱节点之间的传播置信度进行预测的分类模型。
12.根据本发明提供的一种图谱合并方法,所述第一模型基于如下步骤训练得到:
13.从所述第一知识图谱中获取正常网络节点、故障网络节点和告警节点,得到第一数据集;
14.对所述第一数据集进行处理,分别得到第一文件,第二文件和第三文件,所述第一文件为节点的集合,所述第二文件为边的集合,所述第三文件为相邻节点的集合;
15.采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量;
16.基于每个所述节点的多维特征向量,对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,其中,一个所述相邻节点对由两个相邻的节点组成;
17.根据每一所述相邻节点对是否存在边,对每一所述相邻节点对的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本;
18.通过所述多个标签化的聚合特性向量样本,对svm模型进行训练,得到所述第一模型。
19.根据本发明提供的一种图谱合并方法,所述采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量,包括:
20.从所述第一知识图谱的任一节点开始根据预定义的meta-pathschema有偏的游走,生成采样序列数据;
21.使用skip-gram模型通过在所述节点的领域上最大化条件概率来学习所述节点的表征;
22.根据所述采样序列数据,采用梯度下降法更新参数,直至稳定收敛时,输出每个所述节点的多维特征向量。
23.根据本发明提供的一种图谱合并方法,所述对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,包括:
24.对每一相邻节点对中的两个节点的多维特征向量求平均,得到每一所述相邻节点对的聚合特征向量。
25.根据本发明提供的一种图谱合并方法,所述根据每一所述相邻节点对是否存在边,对每一所述相邻节点的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本,包括:
26.获取历史的故障根因图谱的边节点数据;
27.基于所述历史的故障根因图谱的边节点数据,确定每一所述相邻节点对中的两个节点是否存在传播关系;
28.若所述两个节点存在传播关系,则确定所述两个节点组成的相邻节点对存在边,将所述两个节点组成的相邻节点对的聚合特征向量标注为第一值;若所述两个节点不存在传播关系,则确定所述两个节点组成的相邻节点对不存在边,将所述两个节点组成的相邻节点对的聚合特征向量标注为第二值。
29.根据本发明提供的一种图谱合并方法,所述通过所述多个标签化的聚合特性向量样本,对svm模型进行训练,得到所述第一模型,包括:
30.将所述多个标签化的聚合特征向量样本分为训练集和测试集;
31.将所述训练集中的聚合特征向量样本作为输入向量逐一输入至 所述svm模型,得到预测结果;
32.将所述预测结果与所述聚合特征向量样本对应的标签进行损失 函数计算,通过最小化损失函数迭代更新所述svm模型的参数,得 到最优解;
33.使用所述测试集对采用所述最优解的所述svm模型进行泛化准 确率测试,在测试通过后,得到所述第一模型。
34.根据本发明提供的一种图谱合并方法,所述获取所述目标节点对 中的两个目标节点的聚合特征向量,包括:
35.采用异构网络表示metapath2vec方法分别对所述两个目标节点 进行向量化表示,得到所述两个目标节点的多维特征向量;
36.对所述两个目标节点的多维特征向量进行聚合,得到所述两个目 标节点的聚合特征向量。
37.本发明还提供一种图谱合并装置,包括:
38.获取单元,用于获取待合并的两个故障根因图谱,所述待合并的 两个故障根因图谱包括第一图谱和第二图谱;
39.确定单元,用于基于所述第一图谱和第二图谱,确定多个目标节 点对,所述目标节点对由所述第二图谱的任一目标节点以及在所述第 一图谱的中与所述目标节点具有第一相邻关系的任一目标节点组成, 所述第一相邻关系为在第一知识图谱中相邻;
40.执行单元,用于对于每一所述目标节点对执行以下操作:获取所 述目标节点对中的两个目标节点的聚合特征向量;将所述两个目标节 点的聚合特征向量输入至训练完成的第一模型,得到所述两个目标节 点连接的概率值;在所述两个目标节点连接的概率值大于预设阈值的 情况下,确定所述两个目标节点存在传播概率,则将所述两个目标节 点进行连接;
41.输出单元,用于在遍历完所有所述目标节点对后,输出合并后的 故障根因图谱;
42.其中,所述第一模型是基于标签化的聚合特征向量样本训练得到 的,用于对故障根因图谱节点之间的传播置信度进行预测的分类模型。
43.本发明还提供一种电子设备,包括存储器、处理器及存储在存储 器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现如上述任一种所述图谱合并方法。
44.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算 机程序,该计算机程序被处理器执行时实现如上述任一种所述图谱合 并方法。
45.本发明还提供一种计算机程序产品,包括计算机程序,所述计算 机程序被处理器执行时实现如上述任一种所述图谱合并方法。
46.在本发明实施例中,通过获取待合并的两个故障根因图谱,确定 多个目标节点对,获取每一目标节点对中的两个目标节点的聚合特征 向量,将该聚合特征向量输入至用于对故障根因图谱节点之间的传播 置信度进行预测的分类模型,得到两个目标节点连接的概率值,若该 概率值大于预设阈值,则将两个目标节点进行连接,从而得到合并后 的故障根因图谱,该分类模型是基于标签化的聚合特征向量样本训练 得到的,本技术实施例通过将目标节点进行向量化表示并进行聚合, 能够保留网络中的异构信息和语义关系信息,
并将聚合特征向量输入 至采用机器学习分类方法训练得到的分类模型,可以实现对网络中存 在的链接和缺失的链接的准确、全面、均衡的预测,从而能够准确地 合并故障根因图谱。
附图说明
47.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见 地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术 人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得 其他的附图。
48.图1为本发明实施例提供的图谱合并方法的流程示意图;
49.图2为本发明提供的当前存在的故障子图谱;
50.图3为本发明提供的不存在的故障子图谱;
51.图4为本发明提供的训练得到第一模型的流程示意图;
52.图5为本发明提供的元路径模式的示意图;
53.图6为本发明实施例提供的图谱合并装置的结构示意图;
54.图7是本发明提供的电子设备的结构示意图。
具体实施方式
55.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发 明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
56.图1为本发明实施例提供的图谱合并方法的流程示意图,如图1 所示,该图谱合并方法包括:
57.步骤100、获取待合并的两个故障根因图谱,所述待合并的两个 故障根因图谱包括第一图谱和第二图谱;
58.可选地,首先获取包含所有网络实体及告警实体的第一知识图谱, 该第一知识图谱上标识有目标网络中产生故障事件的故障网络实体。
59.然后,基于第一知识图谱生成n个故障根因图谱(或称为故障子 图谱),每个故障根因图谱包括一个或多个故障网络实体。
60.当一个故障根因图谱中包括多个故障网络实体时,该故障根因图 谱中的任一故障网络实体与其他一个或多个故障网络实体之间满足 故障传播条件。
61.本技术着力于解决预测第一知识图谱中两个相邻的故障网络实 体之间的故障传播概率,然后合并故障子图谱。
62.步骤101、基于所述第一图谱和第二图谱,确定多个目标节点对, 所述目标节点对由所述第二图谱的任一目标节点以及在所述第一图 谱的中与所述目标节点具有第一相邻关系的任一目标节点组成,所述 第一相邻关系为在第一知识图谱中相邻;
63.可以理解,一个目标节点代表一个故障网络实体。取第二图谱中 的任一目标节点作为第一目标节点,取第一图谱中与该第一目标节点 具有第一相邻关系的任一目标节点
作为第二目标节点,一个第一目标 节点和一个第二目标节点组成一个目标节点对。
64.其中,第一相邻关系是指在第一目标节点与第二目标节点在第一 知识图谱中是相邻的。
65.步骤102、基于所述第一图谱和第二图谱,确定多个目标节点对 之后,对于每一所述目标节点对执行以下操作:
66.步骤1021、获取所述目标节点对中的两个目标节点的聚合特征 向量;
67.需要说明的是,本发明中的聚合特征向量是通过获取目标节点的 向量化表示,再进行聚合后得到的,保留了目标节点在网络中的异构 信息和语义关系信息。
68.步骤1022、将所述两个目标节点的聚合特征向量输入至训练完 成的第一模型,得到所述两个目标节点连接的概率值;
69.其中,所述第一模型是基于标签化的聚合特征向量样本训练得到 的用于对故障根因图谱节点之间的传播置信度进行预测的分类模型。
70.可以理解的是,第一模型的输入为聚合特征向量,第一模型的输 出为两个目标节点连接的概率值,也即故障根因图谱节点之间的传播 置信度。
71.步骤1023、在所述两个目标节点连接的概率值大于预设阈值的 情况下,确定所述两个目标节点存在传播概率,则将所述两个目标节 点进行连接;
72.其中,预设阈值可以根据历史故障传播概率进行设置。
73.可以理解的是,在所述两个目标节点连接的概率值大于预设阈值 的情况下,可以确定所述两个目标节点存在传播概率,则将所述两个 目标节点进行连接,从而实现了第一图谱和第二图谱的合并。
74.步骤103、在遍历完所有所述目标节点对后,输出合并后的故障 根因图谱。
75.例如,对于之前不存在的故障子图谱,合并到当前存在的故障子 图谱中,图2为本发明提供的当前存在的故障子图谱,图3为本发明 提供的不存在的故障子图谱。首先找到图3中b节点,在第一知识图 谱中与其相邻,且存在图2中的节点,假设为a
11
,则通过上述步骤 1022可得到a
11
与b的传播概率,若最大合理链接的概率大于链接阈 值(0.8),即若a
11
与b的传播概率大于0.8,则把b与a
11
连接,直 到计算完图3中b在第一知识图谱中与其相邻的所有节点的传播概率, 并根据传播概率大小确定是否连接,即完成图3与图2的图谱合并。
76.在本发明实施例中,通过获取待合并的两个故障根因图谱,确定 多个目标节点对,获取每一目标节点对中的两个目标节点的聚合特征 向量,将该聚合特征向量输入至用于对故障根因图谱节点之间的传播 置信度进行预测的分类模型,得到两个目标节点连接的概率值,若该 概率值大于预设阈值,则将两个目标节点进行连接,从而得到合并后 的故障根因图谱,该分类模型是基于标签化的聚合特征向量样本训练 得到的,本技术实施例通过将目标节点进行向量化表示并进行聚合, 能够保留网络中的异构信息和语义关系信息,并将聚合特征向量输入 至采用机器学习分类方法训练得到的分类模型,可以实现对网络中存 在的链接和缺失的链接的准确、全面、均衡的预测,从而能够准确地 合并故障根因图谱。
77.图4为本发明提供的训练得到第一模型的流程示意图。在一些可 选的实施例中,如图4所示,所述第一模型基于如下步骤训练得到:
78.步骤400、从所述第一知识图谱中获取正常网络节点、故障网络 节点和告警节点,
得到第一数据集;
79.具体地,通过查询获取第一数据集。该第一数据集,需要从整个第一知识图谱中获取所有数据,包括正常网络实体和故障网络实体,以及告警节点。
80.步骤401、对所述第一数据集进行处理,分别得到第一文件,第二文件和第三文件,所述第一文件为节点的集合,所述第二文件为边的集合,所述第三文件为相邻节点的集合;
81.将该第一数据集整理成三个文件,例如,第一文件vertex.txt,第二文件egde.txt,第三文件relation.txt。
82.每个文件的数据格式如下:
83.例如,vertex.txt的数据格式为其中,vi表示顶点的编号,表示顶点vi的类型。
84.egde.txt的数据格式为其中,ei表示边的编号,表示边ei的类型。
85.relation.txt的数据格式为(vi,vj,e
i,j
),其中,vi,vj表示相邻的两个顶点的编号,e
i,j
表示这两个顶点之间的边的编号。
86.步骤402、采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量;
87.需要说明的是,metapath2vec算法沿用了之前同构网络上基于随机游走的嵌入(embedding)算法的思想,通过在异构网络上,引入预置元路径(meta-paths)来指导随机游走的过程,另外通过meta-path的领域来改进传统的skip-gram模型,使得该嵌入方法不仅能保留网络中的异构信息和语义关系信息,同时针对大规模网络,性能也有了本质上的提升。
88.步骤403、基于每个所述节点的多维特征向量,对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,其中,一个所述相邻节点对由两个相邻的节点组成;
89.步骤404、根据每一所述相邻节点对是否存在边,对每一所述相邻节点对的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本;
90.具体地,基于相邻节点对在历史数据中是否存在链接关系,来对每一所述相邻节点对的聚合特征向量添加相应的标签,得到多个标签化的聚合特征向量样本。
91.步骤405、通过所述多个标签化的聚合特性向量样本,对支持向量机(supportvectormachines,svm)模型进行训练,得到所述第一模型。
92.在本发明实施例中,通过采用异构网络表示metapath2vec方法对节点进行向量化表示并进行聚合,能够保留网络中的异构信息和语义关系信息,然后结合机器学习分类的思想,利用标签化的聚合特征向量对svm模型进行训练,在训练完成后,第一模型具有了对网络中存在的链接和缺失的链接的准确、全面、均衡的预测能力,进而能够准确地合并故障根因图谱。
93.可选地,所述步骤402采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量,包括:
94.从所述第一知识图谱的任一节点开始根据预定义的meta-pathschema有偏的游
走,生成采样序列数据;
95.使用skip-gram模型通过在所述节点的领域上最大化条件概率 来学习所述节点的表征;
96.根据所述采样序列数据,采用梯度下降法更新参数,直至稳定收 敛时,输出每个所述节点的多维特征向量。
97.具体地,从所述第一知识图谱的任一节点开始,根据预定义的元 路径模式(meta-path schema)有偏的游走,生成采样序列数据。
98.图5为本发明提供的元路径模式的示意图。如图5中所示,例如, 可以预定义的meta-path schema为:网络设备——告警—类型——网 络设备,则采样序列有d1,p1,w1,p4,d3。
99.使用skip-gram模型通过在顶点v的领域n
t
(v),t∈tv上最大化条件 概率来学习异构网络图谱上的顶点表征,如下所示:
[0100][0101]
其中,n
t
(v)表示顶点v的类型为t的领域顶点集合,p(c
t
|v;θ)通 常定义为一个softmax函数,即:
[0102][0103]
其中,xv是矩阵x的第v行矩阵,表示顶点v的嵌入向量,表示临近节点c的向量,表示临近节点c与顶点v的向量点积, xu表示所有临近节点的向量。通过上面的采样序列数据,采用梯度 下降更新参数,直到稳定收敛。输出每个顶点v的嵌入多维向量。
[0104]
可选地,所述步骤403中对每一相邻节点对的多维特征向量进行 聚合,得到每一所述相邻节点对的聚合特征向量,包括:
[0105]
对每一相邻节点对中的两个节点的多维特征向量求平均,得到每 一所述相邻节点对的聚合特征向量。
[0106]
对于原网络中的边e
ab
表示节点a与节点b之间的边。记节点a 的特征向量为va=(a1,a2,...,am),节点b的特征向量为vb=(b1,b2,...,bm), 则节点a,b聚合方法为
[0107]
可选地,所述步骤404中根据每一所述相邻节点对是否存在边, 对每一所述相邻节点的聚合特征向量进行标签化,得到多个标签化的 聚合特征向量样本,包括:
[0108]
获取历史的故障根因图谱的边节点数据;
[0109]
基于所述历史的故障根因图谱的边节点数据,确定每一所述相邻 节点对中的两个节点是否存在传播关系;
[0110]
若所述两个节点存在传播关系,则确定所述两个节点组成的相邻 节点对存在边,将所述两个节点组成的相邻节点对的聚合特征向量标 注为第一值;若所述两个节点不存在传播关系,则确定所述两个节点 组成的相邻节点对不存在边,将所述两个节点组成的相邻节点对的聚 合特征向量标注为第二值。
[0111]
具体地,结合历史故障子图边存在的情况构建标签数据。
[0112][0113]
其中,e
ab
表示va与vb之间是否具有传播关系。获取历史的故障子图谱边顶点数据,格式为(vi,vj),即存在传播关系的标注为1,在第一知识图谱中,找寻不存在传播关系相邻的故障实体节点,格式也为(vi,vj),标注为0。最后得到的标注数据格式为(),标注为0。最后得到的标注数据格式为(1或者0)。
[0114]
可选地,所述步骤405通过所述多个标签化的聚合特性向量样本,对svm模型进行训练,得到所述第一模型,包括:
[0115]
将所述多个标签化的聚合特征向量样本分为训练集和测试集;
[0116]
将所述训练集中的聚合特征向量样本作为输入向量逐一输入至所述svm模型,得到预测结果;
[0117]
将所述预测结果与所述聚合特征向量样本对应的标签进行损失函数计算,通过最小化损失函数迭代更新所述svm模型的参数,得到最优解;
[0118]
使用所述测试集对采用所述最优解的所述svm模型进行泛化准确率测试,在测试通过后,得到所述第一模型。
[0119]
具体地,使用svm进行模型学习。利用机器学习分类算法svm进行分类。svm分类算法对于线性可分数据,使用一条直线进行分隔。对于线性不可分的使用原向量维度空间的一个超平面分隔成两类。两类数据的分隔超平面为w
t
x+b=0,落在超平面w
t
x+b=1和w
t
x+b=-1上的数据称之为支持向量,则达到最好的分类效果,即找到具有最大间隔的最佳超平面,即要最大化表达式为了便于计算,转化成最小化对于向量维度线性不可分的数据集,svm对于此分类问题引入核函数来映射到高纬度平面以使数据可分。对于这类问题,优化问题表示为如下:
[0120][0121][0122]
其中,表示最佳超平面的间隔,表示高维空间中向量的权重,表示转换之后的高纬度向量空间,b表示偏置,即超平面相对原点的偏移,表示各个向量的权重,yi表示每个向量对应的类别。
[0123]
本发明输入数据为样例格式(1或者0)的样本数据,通过输入聚合特征(样例特征)得到预测值y,y与标签之间进行损失函数计算,最小化损失函数,迭代更新模型参数,得到最优解。为了防止过拟合,使用测试集对模型进行泛化准确率测试。
[0124]
通过对使用向量化节点数据集构建的标签化数据按照预设比例 (如4:1)进行训练集和测试集的划分,并使用训练集进行svm参 数优化学习,获得拟合性较好的和b的参数值,保存模型。
[0125]
可选地,所述步骤1011获取所述目标节点对中的两个目标节点 的聚合特征向量,包括:
[0126]
采用异构网络表示metapath2vec方法分别对所述两个目标节点 进行向量化表示,得到所述两个目标节点的多维特征向量;
[0127]
对所述两个目标节点的多维特征向量进行聚合,得到所述两个目 标节点的聚合特征向量。
[0128]
其中,所述采用异构网络表示metapath2vec方法分别对所述两个 目标节点进行向量化表示,得到所述两个目标节点的多维特征向量的 具体步骤可以参考前述步骤402,在此不再赘述。
[0129]
可选地,所述对所述两个目标节点的多维特征向量进行聚合,得 到所述两个目标节点的聚合特征向量,包括:
[0130]
对所述两个目标节点的多维特征向量求平均,得到所述两个目标 节点的聚合特征向量。
[0131]
本发明实施例中,通过获取待合并的两个故障根因图谱,确定多 个目标节点对,获取每一目标节点对中的两个目标节点的聚合特征向 量,将该聚合特征向量输入至用于对故障根因图谱节点之间的传播置 信度进行预测的分类模型,得到两个目标节点连接的概率值,若该概 率值大于预设阈值,则将两个目标节点进行连接,从而得到合并后的 故障根因图谱,该分类模型是基于标签化的聚合特征向量样本训练得 到的,本技术实施例通过采用异构网络表示metapath2vec方法将目标 节点进行向量化表示并进行聚合,能够保留网络中的异构信息和语义 关系信息,并将聚合特征向量输入至采用机器学习分类方法训练得到 的分类模型,可以实现对网络中存在的链接和缺失的链接的准确、全 面、均衡的预测,从而能够准确地合并故障根因图谱。
[0132]
在一些可选的实施例中,在得到合并后的故障根因图谱之后,可 以按照接口协议进行封装,并将合并后的故障根因图谱的结构数据返 回到业务后台。
[0133]
可选地,基于sanic框架封装接口。sanic支持以异步请求的方 式处理请求,可以使用新的async/await语法,编写非阻塞的快速的 代码。
[0134]
下面对本发明提供的图谱合并装置进行描述,下文描述的图谱合 并装置与上文描述的图谱合并方法可相互对应参照。
[0135]
图6为本发明实施例提供的图谱合并装置的结构示意图,如图6 所示,该图谱合并装置包括:
[0136]
获取单元610,用于获取待合并的两个故障根因图谱,所述待合 并的两个故障根因图谱包括第一图谱和第二图谱;
[0137]
确定单元620,用于基于所述第一图谱和第二图谱,确定多个目 标节点对,所述目标节点对由所述第二图谱的任一目标节点以及在所 述第一图谱的中与所述目标节点具有第一相邻关系的任一目标节点 组成,所述第一相邻关系为在第一知识图谱中相邻;
[0138]
执行单元630,用于对于每一所述目标节点对执行以下操作:获 取所述目标节点
对中的两个目标节点的聚合特征向量;将所述两个目标节点的聚合特征向量输入至训练完成的第一模型,得到所述两个目标节点连接的概率值;在所述两个目标节点连接的概率值大于预设阈值的情况下,确定所述两个目标节点存在传播概率,则将所述两个目标节点进行连接;
[0139]
输出单元640,用于在遍历完所有所述目标节点对后,输出合并后的故障根因图谱;
[0140]
其中,所述第一模型是基于标签化的聚合特征向量样本训练得到的,用于对故障根因图谱节点之间的传播置信度进行预测的分类模型。
[0141]
可选地,所述第一模型基于如下步骤训练得到:
[0142]
从所述第一知识图谱中获取正常网络节点、故障网络节点和告警节点,得到第一数据集;
[0143]
对所述第一数据集进行处理,分别得到第一文件,第二文件和第三文件,所述第一文件为节点的集合,所述第二文件为边的集合,所述第三文件为相邻节点的集合;
[0144]
采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量;
[0145]
基于每个所述节点的多维特征向量,对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,其中,一个所述相邻节点对由两个相邻的节点组成;
[0146]
根据每一所述相邻节点对是否存在边,对每一所述相邻节点对的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本;
[0147]
通过所述多个标签化的聚合特性向量样本,对svm模型进行训练,得到所述第一模型。
[0148]
可选地,所述采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量,包括:
[0149]
从所述第一知识图谱的任一节点开始根据预定义的meta-pathschema有偏的游走,生成采样序列数据;
[0150]
使用skip-gram模型通过在所述节点的领域上最大化条件概率来学习所述节点的表征;
[0151]
根据所述采样序列数据,采用梯度下降法更新参数,直至稳定收敛时,输出每个所述节点的多维特征向量。
[0152]
可选地,所述对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,包括:
[0153]
对每一相邻节点对中的两个节点的多维特征向量求平均,得到每一所述相邻节点对的聚合特征向量。
[0154]
可选地,所述根据每一所述相邻节点对是否存在边,对每一所述相邻节点的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本,包括:
[0155]
获取历史的故障根因图谱的边节点数据;
[0156]
基于所述历史的故障根因图谱的边节点数据,确定每一所述相邻节点对中的两个节点是否存在传播关系;
[0157]
若所述两个节点存在传播关系,则确定所述两个节点组成的相邻 节点对存在边,将所述两个节点组成的相邻节点对的聚合特征向量标 注为第一值;若所述两个节点不存在传播关系,则确定所述两个节点 组成的相邻节点对不存在边,将所述两个节点组成的相邻节点对的聚 合特征向量标注为第二值。
[0158]
可选地,所述通过所述多个标签化的聚合特性向量样本,对svm 模型进行训练,得到所述第一模型,包括:
[0159]
将所述多个标签化的聚合特征向量样本分为训练集和测试集;
[0160]
将所述训练集中的聚合特征向量样本作为输入向量逐一输入至 所述svm模型,得到预测结果;
[0161]
将所述预测结果与所述聚合特征向量样本对应的标签进行损失 函数计算,通过最小化损失函数迭代更新所述svm模型的参数,得 到最优解;
[0162]
使用所述测试集对采用所述最优解的所述svm模型进行泛化准 确率测试,在测试通过后,得到所述第一模型。
[0163]
可选地,所述获取所述目标节点对中的两个目标节点的聚合特征 向量,包括:
[0164]
采用异构网络表示metapath2vec方法分别对所述两个目标节点 进行向量化表示,得到所述两个目标节点的多维特征向量;
[0165]
对所述两个目标节点的多维特征向量进行聚合,得到所述两个目 标节点的聚合特征向量。
[0166]
在此需要说明的是,本发明实施例提供的图谱合并装置,能够实 现上述图谱合并方法实施例所实现的所有方法步骤,且能够达到相同 的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益 效果进行具体赘述。
[0167]
图7示例了一种电子设备的实体结构示意图,如图7所示,该电 子设备可以包括:处理器(processor)710、通信接口(communicationsinterface)720、存储器(memory)730和通信总线740,其中,处理器710, 通信接口720,存储器730通过通信总线740完成相互间的通信。处 理器710可以调用存储器730中的逻辑指令,以执行图谱合并方法, 该方法包括:获取待合并的两个故障根因图谱,所述待合并的两个故 障根因图谱包括第一图谱和第二图谱;基于所述第一图谱和第二图谱, 确定多个目标节点对,所述目标节点对由所述第二图谱的任一目标节 点以及在所述第一图谱的中与所述目标节点具有第一相邻关系的任 一目标节点组成,所述第一相邻关系为在第一知识图谱中相邻;对于 每一所述目标节点对执行以下操作:获取所述目标节点对中的两个目 标节点的聚合特征向量;将所述两个目标节点的聚合特征向量输入至 训练完成的第一模型,得到所述两个目标节点连接的概率值;在所述 两个目标节点连接的概率值大于预设阈值的情况下,确定所述两个目 标节点存在传播概率,则将所述两个目标节点进行连接;在遍历完所 有所述目标节点对后,输出合并后的故障根因图谱;其中,所述第一 模型是基于标签化的聚合特征向量样本训练得到的用于对故障根因 图谱节点之间的传播置信度进行预测的分类模型。
[0168]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的 形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可 读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令
用以使得一台计算机设备(可以是个人计算机,服务器,或者 网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而 前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,random access memory)、磁 碟或者光盘等各种可以存储程序代码的介质。
[0169]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序 产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介 质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法 所提供的图谱合并方法,该方法包括:获取待合并的两个故障根因图 谱,所述待合并的两个故障根因图谱包括第一图谱和第二图谱;基于 所述第一图谱和第二图谱,确定多个目标节点对,所述目标节点对由 所述第二图谱的任一目标节点以及在所述第一图谱的中与所述目标 节点具有第一相邻关系的任一目标节点组成,所述第一相邻关系为在 第一知识图谱中相邻;对于每一所述目标节点对执行以下操作:获取 所述目标节点对中的两个目标节点的聚合特征向量;将所述两个目标 节点的聚合特征向量输入至训练完成的第一模型,得到所述两个目标 节点连接的概率值;在所述两个目标节点连接的概率值大于预设阈值 的情况下,确定所述两个目标节点存在传播概率,则将所述两个目标 节点进行连接;在遍历完所有所述目标节点对后,输出合并后的故障 根因图谱;其中,所述第一模型是基于标签化的聚合特征向量样本训 练得到的用于对故障根因图谱节点之间的传播置信度进行预测的分 类模型。
[0170]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上 存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各 方法提供的图谱合并方法,该方法包括:获取待合并的两个故障根因 图谱,所述待合并的两个故障根因图谱包括第一图谱和第二图谱;基 于所述第一图谱和第二图谱,确定多个目标节点对,所述目标节点对 由所述第二图谱的任一目标节点以及在所述第一图谱的中与所述目 标节点具有第一相邻关系的任一目标节点组成,所述第一相邻关系为 在第一知识图谱中相邻;对于每一所述目标节点对执行以下操作:获 取所述目标节点对中的两个目标节点的聚合特征向量;将所述两个目 标节点的聚合特征向量输入至训练完成的第一模型,得到所述两个目 标节点连接的概率值;在所述两个目标节点连接的概率值大于预设阈 值的情况下,确定所述两个目标节点存在传播概率,则将所述两个目 标节点进行连接;在遍历完所有所述目标节点对后,输出合并后的故 障根因图谱;其中,所述第一模型是基于标签化的聚合特征向量样本 训练得到的用于对故障根因图谱节点之间的传播置信度进行预测的 分类模型。
[0171]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部 件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付 出创造性的劳动的情况下,即可以理解并实施。
[0172]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执
行各个实施例或者实施例的某些部分所 述的方法。
[0173]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。
技术特征:
1.一种图谱合并方法,其特征在于,包括:获取待合并的两个故障根因图谱,所述待合并的两个故障根因图谱包括第一图谱和第二图谱;基于所述第一图谱和第二图谱,确定多个目标节点对,所述目标节点对由所述第二图谱的任一目标节点以及在所述第一图谱的中与所述目标节点具有第一相邻关系的任一目标节点组成,所述第一相邻关系为在第一知识图谱中相邻;对于每一所述目标节点对执行以下操作:获取所述目标节点对中的两个目标节点的聚合特征向量;将所述两个目标节点的聚合特征向量输入至训练完成的第一模型,得到所述两个目标节点连接的概率值;在所述两个目标节点连接的概率值大于预设阈值的情况下,确定所述两个目标节点存在传播概率,则将所述两个目标节点进行连接;在遍历完所有所述目标节点对后,输出合并后的故障根因图谱;其中,所述第一模型是基于标签化的聚合特征向量样本训练得到的用于对故障根因图谱节点之间的传播置信度进行预测的分类模型。2.根据权利要求1所述的图谱合并方法,其特征在于,所述第一模型基于如下步骤训练得到:从所述第一知识图谱中获取正常网络节点、故障网络节点和告警节点,得到第一数据集;对所述第一数据集进行处理,分别得到第一文件,第二文件和第三文件,所述第一文件为节点的集合,所述第二文件为边的集合,所述第三文件为相邻节点的集合;采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量;基于每个所述节点的多维特征向量,对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,其中,一个所述相邻节点对由两个相邻的节点组成;根据每一所述相邻节点对是否存在边,对每一所述相邻节点对的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本;通过所述多个标签化的聚合特性向量样本,对svm模型进行训练,得到所述第一模型。3.根据权利要求2所述的图谱合并方法,其特征在于,所述对每一相邻节点对的多维特征向量进行聚合,得到每一所述相邻节点对的聚合特征向量,包括:对每一相邻节点对中的两个节点的多维特征向量求平均,得到每一所述相邻节点对的聚合特征向量。4.根据权利要求2所述的图谱合并方法,其特征在于,所述采用异构网络表示metapath2vec方法对每个所述节点进行向量化表示,得到每个所述节点的多维特征向量,包括:从所述第一知识图谱的任一节点开始根据预定义的meta-pathschema有偏的游走,生成采样序列数据;使用skip-gram模型通过在所述节点的领域上最大化条件概率来学习所述节点的表征;根据所述采样序列数据,采用梯度下降法更新参数,直至稳定收敛时,输出每个所述节
点的多维特征向量。5.根据权利要求2所述的图谱合并方法,其特征在于,所述根据每一所述相邻节点对是否存在边,对每一所述相邻节点的聚合特征向量进行标签化,得到多个标签化的聚合特征向量样本,包括:获取历史的故障根因图谱的边节点数据;基于所述历史的故障根因图谱的边节点数据,确定每一所述相邻节点对中的两个节点是否存在传播关系;若所述两个节点存在传播关系,则确定所述两个节点组成的相邻节点对存在边,将所述两个节点组成的相邻节点对的聚合特征向量标注为第一值;若所述两个节点不存在传播关系,则确定所述两个节点组成的相邻节点对不存在边,将所述两个节点组成的相邻节点对的聚合特征向量标注为第二值。6.根据权利要求2所述的图谱合并方法,其特征在于,所述通过所述多个标签化的聚合特性向量样本,对svm模型进行训练,得到所述第一模型,包括:将所述多个标签化的聚合特征向量样本分为训练集和测试集;将所述训练集中的聚合特征向量样本作为输入向量逐一输入至所述svm模型,得到预测结果;将所述预测结果与所述聚合特征向量样本对应的标签进行损失函数计算,通过最小化损失函数迭代更新所述svm模型的参数,得到最优解;使用所述测试集对采用所述最优解的所述svm模型进行泛化准确率测试,在测试通过后,得到所述第一模型。7.根据权利要求1所述的图谱合并方法,其特征在于,所述获取所述目标节点对中的两个目标节点的聚合特征向量,包括:采用异构网络表示metapath2vec方法分别对所述两个目标节点进行向量化表示,得到所述两个目标节点的多维特征向量;对所述两个目标节点的多维特征向量进行聚合,得到所述两个目标节点的聚合特征向量。8.一种图谱合并装置,其特征在于,包括:获取单元,用于获取待合并的两个故障根因图谱,所述待合并的两个故障根因图谱包括第一图谱和第二图谱;确定单元,用于基于所述第一图谱和第二图谱,确定多个目标节点对,所述目标节点对由所述第二图谱的任一目标节点以及在所述第一图谱的中与所述目标节点具有第一相邻关系的任一目标节点组成,所述第一相邻关系为在第一知识图谱中相邻;执行单元,用于对于每一所述目标节点对执行以下操作:获取所述目标节点对中的两个目标节点的聚合特征向量;将所述两个目标节点的聚合特征向量输入至训练完成的第一模型,得到所述两个目标节点连接的概率值;在所述两个目标节点连接的概率值大于预设阈值的情况下,确定所述两个目标节点存在传播概率,则将所述两个目标节点进行连接;输出单元,用于在遍历完所有所述目标节点对后,输出合并后的故障根因图谱;其中,所述第一模型是基于标签化的聚合特征向量样本训练得到的,用于对故障根因图谱节点之间的传播置信度进行预测的分类模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图谱合并方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图谱合并方法。
技术总结
本发明提供一种图谱合并方法、装置、电子设备及存储介质,所述方法包括:获取待合并的两个故障根因图谱,包括第一图谱和第二图谱;基于第一图谱和第二图谱,确定多个目标节点对;对于每一目标节点对执行以下操作:获取目标节点对中的两个目标节点的聚合特征向量;将两个目标节点的聚合特征向量输入至训练完成的第一模型,得到两个目标节点连接的概率值;在两个目标节点连接的概率值大于预设阈值的情况下,确定两个目标节点存在传播概率,则将所述两个目标节点进行连接;在遍历完所有目标节点对后,输出合并后的故障根因图谱。本发明可以实现对网络中存在的链接和缺失的链接的准确、全面、均衡的预测,能够准确地合并故障根因图谱。因图谱。因图谱。
技术研发人员:田国良 蒋强 单浩 耿东山 孙健飞
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2022.03.22
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
