基于多指标根因定位算法的故障定位方法及装置与流程

未命名 07-15 阅读:135 评论:0


1.本发明涉及故障定位技术领域,尤其涉及一种基于多指标根因定位算法的故障定位方法及装置。


背景技术:

2.随着业务不断发展,业务微服务架构越来越受到各大企业的青睐,随之也给传统运维带来更大的挑战,多维kpi指标数量繁多、相互之间关系复杂,要想在故障发生后,第一时间定位到故障,是运维人员迫切想要实现的。
3.相关技术中,现有的方法在采用根因定位算法时,往往考虑以单个指标为切入点,进行根因定位,因此忽略了指标之间的相互关联关系,因此定位速度和定位准确度较差。


技术实现要素:

4.本发明实施例提供一种基于多指标根因定位算法的故障定位方法及装置,旨在解决上述背景技术中存在的问题。
5.为了解决上述技术问题,本发明是这样实现的:
6.第一方面,本发明实施例提供了一种基于多指标根因定位算法的故障定位方法,方法包括:
7.获取业务系统的运维数据,并根据所述运维数据构建业务系统拓扑图和故障系统拓扑图;
8.根据所述业务系统拓扑图和所述故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标;
9.根据所述目标指标,确定所述业务系统的故障位置和故障原因;
10.根据所述业务系统的故障位置和故障原因,确定业务系统的故障等级;
11.根据所述业务系统的故障等级和所述故障系统拓扑图,执行对应的告警策略。
12.可选地,所述运维数据包括异常日志数据和网元设备的关键数据;所述根据所述运维数据构建业务系统拓扑图和故障系统拓扑图的步骤,包括:
13.获取网元设备之间的业务处理逻辑,并根据所述网元设备之间的业务处理逻辑关系,确定所述网元设备之间的数据交互关系;
14.根据所述网元设备的关键数据和网元设备之间数据交互关系,构建所述业务系统拓扑图;
15.根据所述异常日志数据,确定网元设备之间的异常传播方向;
16.根据所述网元设备之间的异常传播方向对所述业务系统拓扑图进行更新,获得所述故障系统拓扑图。
17.可选地,所述根据所述业务系统拓扑图和所述故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标的步骤,包括:
18.根据所述业务系统拓扑图,确定第一维度的拓扑图的特征矩阵,其中,所述第一维
度的拓扑图的特征矩阵表征所述业务系统中各网元设备之间的业务关联关系;
19.根据所述故障系统拓扑图,确定第二维度的拓扑图的特征矩阵;其中,所述第二维度的拓扑图的特征矩阵表征所述故障系统中网元设备之间的异常资源调用关系;
20.将所述第一维度的拓扑图的特征矩阵和所述第二维度的拓扑图的特征矩阵输入到预设的神经网络模型中,分别获得第一指标筛选结果和第二指标筛选结果,其中,所述第一指标筛选结果和所述第二指标筛选结果包含多个待选指标以及所述待选指标对应的筛选概率;
21.根据所述第一指标筛选结果和所述第二指标筛选结果中各个待选指标的筛选概率与预设第一阈值的大小关系,筛选出至少一个用于故障根因定位的目标指标。
22.可选地,所述根据所述目标指标,确定所述业务系统的故障位置和故障原因的步骤,包括:
23.确定业务系统中每个监控指标与所述目标指标的相关系数;
24.根据所述相关系数,以及所述相关系数对应的第一权重,计算每个所述监控指标与所述目标指标的关联度分数;
25.根据所述关联度分数与预设第二阈值的大小关系,从所述相关系数中筛选出至少一个故障定位监控指标;
26.根据所述故障定位监控指标,确定所述业务系统的故障位置和故障原因。
27.可选地,所述根据所述故障定位监控指标,确定所述业务系统的故障位置和故障原因的步骤,包括:
28.确定每个所述故障定位监控指标映射的故障位置子区域;
29.将所述故障位置子区域的交集确定为目标故障位置区域,其中,所述目标故障位置区域表征业务系统的故障位置;
30.根据所述目标故障位置区域和故障定位监控指标,确定对应的故障原因。
31.可选地,所述根据所述业务系统的故障位置和故障原因,确定业务系统的故障等级的步骤,包括:
32.根据所述故障位置在所述业务系统的层级,确定所述业务系统的第一故障评估分数;
33.根据所述故障原因对所述业务系统的影响能力,确定所述业务系统的第二故障评估分数;
34.根据所述第一故障评估分数和所述第二故障评估分数,以及所述第一故障评估分数和所述第二故障评估分数对应的第二权重,计算所述业务系统的最终故障评估分数;
35.根据所述业务系统的最终故障评估分数,确定业务系统的故障等级。
36.可选地,所述故障等级包括低等级故障和高等级故障,所述根据所述业务系统的故障等级和所述故障系统拓扑图,执行对应的告警策略的步骤,包括:
37.在所述业务系统的故障等级为低等级的情况下,执行故障自愈处理策略,并不进行告警;
38.在所述业务系统的故障等级为高等级的情况下,执行故障告警处理策略,将业务系统的故障位置和故障原因发送至业务系统的管理人员。
39.本发明实施例第二方面提出一种基于多指标根因定位算法的故障定位装置,装置
包括:
40.获取模块,用于获取业务系统的运维数据,并根据所述运维数据构建业务系统拓扑图和故障系统拓扑图;
41.筛选模块,用于根据所述业务系统拓扑图和所述故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标;
42.第一确定模块,用于根据所述目标指标,确定所述业务系统的故障位置和故障原因;
43.第二确定模块,用于根据所述业务系统的故障位置和故障原因,确定业务系统的故障等级;
44.告警模块,用于根据所述业务系统的故障等级和所述故障系统拓扑图,执行对应的告警策略。
45.可选地,所述获取模块包括:
46.数据交互关系确定子模块,用于获取网元设备之间的业务处理逻辑,并根据所述网元设备之间的业务处理逻辑关系,确定所述网元设备之间的数据交互关系;
47.业务系统拓扑图构建子模块,用于根据所述网元设备的关键数据和网元设备之间数据交互关系,构建所述业务系统拓扑图;
48.异常传播方向确定子模块,用于根据所述异常日志数据,确定网元设备之间的异常传播方向;
49.故障系统拓扑图构建子模块,用于根据所述网元设备之间的异常传播方向对所述业务系统拓扑图进行更新,获得所述故障系统拓扑图。
50.可选地,所述筛选模块包括:
51.第一计算子模块,用于根据所述业务系统拓扑图,确定第一维度的拓扑图的特征矩阵,其中,所述第一维度的拓扑图的特征矩阵表征所述业务系统中各网元设备之间的业务关联关系;
52.第二计算子模块,用于根据所述故障系统拓扑图,确定第二维度的拓扑图的特征矩阵;其中,所述第二维度的拓扑图的特征矩阵表征所述故障系统中网元设备之间的异常资源调用关系;
53.输入子模块,用于将所述第一维度的拓扑图的特征矩阵和所述第二维度的拓扑图的特征矩阵输入到预设的神经网络模型中,分别获得第一指标筛选结果和第二指标筛选结果,其中,所述第一指标筛选结果和所述第二指标筛选结果包含多个待选指标以及所述待选指标对应的筛选概率;
54.筛选子模块,用于根据所述第一指标筛选结果和所述第二指标筛选结果中各个待选指标的筛选概率与预设第一阈值的大小关系,筛选出至少一个用于故障根因定位的目标指标。
55.可选地,所述第一确定模块包括:
56.相关系数确定子模块,用于确定业务系统中每个监控指标与所述目标指标的相关系数;
57.关联度计算子模块,用于根据所述相关系数,以及所述相关系数对应的第一权重,计算每个所述监控指标与所述目标指标的关联度分数;
58.故障定位监控指标筛选子模块,用于根据所述关联度分数与预设第二阈值的大小关系,从所述相关系数中筛选出至少一个故障定位监控指标;
59.根据所述故障定位监控指标,确定所述业务系统的故障位置和故障原因。
60.可选地,所述故障定位监控指标筛选子模块,包括:
61.故障位置子区域确定单元,用于确定每个所述故障定位监控指标映射的故障位置子区域;
62.目标故障位置区域确定单元,用于将所述故障位置子区域的交集确定为目标故障位置区域,其中,所述目标故障位置区域表征业务系统的故障位置;
63.故障原因确定单元,用于根据所述目标故障位置区域和故障定位监控指标,确定对应的故障原因。
64.可选地,第二确定模块包括:
65.第一故障评估分数确定子模块,用于根据所述故障位置在所述业务系统的层级,确定所述业务系统的第一故障评估分数;
66.第二故障评估分数确定子模块,用于根据所述故障原因对所述业务系统的影响能力,确定所述业务系统的第二故障评估分数;
67.最终故障评估分数确定子模块,用于根据所述第一故障评估分数和所述第二故障评估分数,以及所述第一故障评估分数和所述第二故障评估分数对应的第二权重,计算所述业务系统的最终故障评估分数;
68.故障等级确定子模块,用于根据所述业务系统的最终故障评估分数,确定业务系统的故障等级。
69.可选地,所述告警模块包括:
70.第一告警子模块,用于在所述业务系统的故障等级为低等级的情况下,执行故障自愈处理策略,并不进行告警;
71.第二告警子模块,用于在所述业务系统的故障等级为高等级的情况下,执行故障告警处理策略,将业务系统的故障位置和故障原因发送至业务系统的管理人员。
72.本发明实施例第三方面提出一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
73.存储器,用于存放计算机程序;
74.处理器,用于执行存储器上所存放的程序时,实现本发明实施例第一方面提出方法步骤。
75.本发明实施例第四方面提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面提出方法。
76.本发明实施例包括以下优点:首先获取业务系统的运维数据,并根据运维数据构建业务系统拓扑图和故障系统拓扑图,并根据业务系统拓扑图和故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标,然后根据目标指标,确定业务系统的故障位置和故障原因,并根据业务系统的故障位置和故障原因,确定业务系统的故障等级,最后,根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略。在本技术中,通过生成表征业务系统正常运行状态的业务系统拓扑图和业务系统异常信息交互状态的故障系统拓扑图,筛选出用于进行根因定位的多个指标,并基于多个指标进行根因定位,考量了不同指标
之间的关联关系,提高了对业务系统故障诊断的定位速度和定位准确度。
附图说明
77.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
78.图1为本技术实施例涉及的硬件运行环境的电子设备结构示意图。
79.图2为本技术实施例的系统架构示意图。
80.图3是本技术实施例提供的一种基于多指标根因定位算法的故障定位方法的步骤流程图。
81.图4是本技术实施例提供的一种基于多指标根因定位算法的故障定位装置的功能模块示意图。
具体实施方式
82.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
83.下面结合附图对本技术的方案进一步说明。
84.参照图1,图1为本技术实施例方案涉及的硬件运行环境的电子设备结构示意图。
85.如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(centralprocessingunit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(randomaccessmemory,ram)存储器,也可以是稳定的非易失性存储器(non-volatilememory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
86.本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
87.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及电子程序。
88.在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,电子设备通过处理器1001调用存储器1005中存储的基于多指标根因定位算法的故障定位装置,并执行本技术实施例提供的基于多指标根因定位算法的故障定位方法。
89.参照图2,示出了本技术实施例的系统架构示意图。如图1所示,该系统架构可以包括第一设备201、第二设备202、第三设备203、第四设备204和网络205。其中,网络205用以在第一设备201、第二设备202、第三设备203和第四设备204之间提供通信链路的介质。网络205可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
90.在本实施方式中,第一设备201、第二设备202、第三设备203和第四设备204可以是支持网络连接从而提供各种网络服务的硬件设备或软件。当设备为硬件时,其可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。这时,作为硬件设备,其可以实现成多个设备组成的分布式设备群,也可以实现成单个设备。当设备为软件时,可以安装在上述所列举的设备中。这时,作为软件,其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不作具体限定。
91.在具体实现中,设备可以通过安装相应的客户端应用或服务端应用来提供相应的网络服务。设备在安装了客户端应用之后,其可以在网络通信中体现为客户端。相应地,在安装了服务端应用之后,其可以在网络通信中体现为服务端。
92.作为示例,在图2中,第一设备201体现为服务端,第二设备202、第三设备203和第四设备204体现为客户端。具体地,第二设备202、第三设备203和第四设备204可以是安装有信息浏览类应用的客户端,第一设备103可以是信息浏览类应用的后台服务器。需要说明的是,本技术实施例所提供的基于多指标根因定位算法的故障定位方法可以由第一设备201执行。
93.应该理解,图3中的网络和设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的网络和设备。
94.s301:获取业务系统的运维数据,并根据运维数据构建业务系统拓扑图和故障系统拓扑图。
95.在本实施方式中,运维数据是指业务系统在运行过程中产生网元设备之间的正常业务交易数据和网元设备之间异常的交互数据,业务系统拓扑图是指展示业务系统中各个网元设备如何进行数据交互的动态示意图,故障系统拓扑图是指存在异常网元设备如何进行数据交互的动态示意图,而根据运维数据构建业务系统拓扑图和故障系统拓扑图的步骤,包括:
96.s301-1:获取网元设备之间的业务处理逻辑,并根据网元设备之间的业务处理逻辑关系,确定网元设备之间的数据交互关系;
97.s301-2:根据网元设备的关键数据和网元设备之间数据交互关系,构建业务系统拓扑图;
98.s301-3:根据异常日志数据,确定网元设备之间的异常传播方向;
99.s301-4:根据网元设备之间的异常传播方向对业务系统拓扑图进行更新,获得故障系统拓扑图。
100.在s301-1至s301-4的实施方式中,网元设备之间的业务处理逻辑是一个网元设备与其他网元设备进行业务交互时的数据处理逻辑,网元设备之间的数据交互关系即对于任意一个网元设备来说,其需要获取哪些网元设备的数据,又需要将其处理后的数据发送给哪些网元设备,网元设备的关键数据是指网元设备的硬件属性信息,如接口协议,网络地址
等。再获取到网元设备的关键数据和网元设备之间数据交互关系,即可按照数据交互的执行先后顺序,获得业务系统拓扑图。异常日志数据能够反映网元设备之间恶意的数据竞争关系,即异常数据的传播方向,在获得业务系统拓扑图之后,再根据异常数据的传播方向对业务系统拓扑图进行更新,并删除与异常数据的传播方向无关的正常网元设备之间数据交互关系,从而获得故障系统拓扑图。
101.s302:根据业务系统拓扑图和故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标。
102.在本实施方式中,在获得业务系统拓扑图和故障系统拓扑图之后,则可以根据业务系统拓扑图和故障系统拓扑图从业务系统的众多指标中选择出用于确定本次故障的发生位置和发生原因的目标指标,业务系统的指标包括延迟、吞吐量、cpu占用率、ram等性能指标,以及与业务系统的业务关联的业务指标,而根据业务系统拓扑图和故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标的步骤,包括:
103.s302-1:根据业务系统拓扑图,确定第一维度的拓扑图的特征矩阵;
104.s302-2:根据故障系统拓扑图,确定第二维度的拓扑图的特征矩阵;
105.s302-3:将第一维度的拓扑图的特征矩阵和第二维度的拓扑图的特征矩阵输入到预设的神经网络模型中,分别获得第一指标筛选结果和第二指标筛选结果,其中,第一指标筛选结果和第二指标筛选结果包含多个待选指标以及待选指标对应的筛选概率;
106.s302-4:根据第一指标筛选结果和第二指标筛选结果中各个待选指标的筛选概率与预设第一阈值的大小关系,筛选出至少一个用于故障根因定位的目标指标。
107.其中,在s302-1至s302-4的实施方式中,对业务系统拓扑图和故障系统拓扑图进行特征提取,即可得到第一维度的拓扑图的特征矩阵和第二维度的拓扑图的特征矩阵,第一维度的拓扑图的特征矩阵表征业务系统中各网元设备之间的业务关联关系,第二维度的拓扑图的特征矩阵表征故障系统中网元设备之间的异常资源调用关系,因此可以将网元设备之间的正常数据交互关系和异常数据交换关系转化为对应的特征值。然后将第一维度的拓扑图的特征矩阵和第二维度的拓扑图的特征矩阵输入到预设训练好的神经网络模型之中,从而得到第一维度的拓扑图的特征矩阵对应的第一指标筛选结果和第二维度的拓扑图的特征矩阵对应的第二指标筛选结果,第一指标筛选结果包含了根据业务系统拓扑图确定的用于根因定位的指标以及对应的筛选概率,第二指标筛选结果包含了根据故障系统拓扑图确定的用于根因定位的指标以及对应的筛选概率,然后通过将每个指标的筛选概率与预设的筛选概率阈值作比较,将大于筛选概率阈值的指标确定为目标指标。
108.s303:根据目标指标,确定业务系统的故障位置和故障原因。
109.在本实施方式中,在筛选出用于根因定位的目标指标之后,即可根据目标指标,确定业务系统的故障位置和故障原因,其具体的步骤包括:
110.s303-1:确定业务系统中每个监控指标与目标指标的相关系数;
111.s303-2:根据相关系数,以及相关系数对应的第一权重,计算每个监控指标与目标指标的关联度分数;
112.s303-3:根据关联度分数与预设第二阈值的大小关系,从相关系数中筛选出至少一个故障定位监控指标;
113.在s303-1至s303-3的实施方式中,监控指标是指与目标指标存在关联关系的指
标,即监控指标的变化会引起目标指标的变化,当目标指标发生异常变化时,很可能是与其关联性较高的监控指标的变化导致的,作为示例的,若观测到响应时间、交易量等业务指标异常时,则可以查出该业务指标相关性较高的性能指标,这些高相关性的性能指标很有可能是引发这次故障的根因。因此需要计算目标指标的所有监控指标的关联系数,然后根据该监控指标的重要程度对应的权重系数,来计算该监控指标的关联度分数,在根据上述方法完成对所有监控指标的关联度分数的计算之后,则可以根据每个监控指标的关联度分数与预设的关联度分数阈值的大小关系,来对监控指标进行筛选,筛选出来的即为故障定位监控指标,故障定位监控指标是与目标指标强相关性的监控指标。
114.s303-4:根据故障定位监控指标,确定业务系统的故障位置和故障原因。
115.在本实施方式中,在获得故障定位监控指标,则可以根据故障定位监控指标,确定业务系统的故障位置和故障原因,其具体的步骤包括:
116.s303-4-1:确定每个故障定位监控指标映射的故障位置子区域;
117.s303-4-2:将故障位置子区域的交集确定为目标故障位置区域,其中;
118.s303-4-3:根据目标故障位置区域和故障定位监控指标,确定对应的故障原因。
119.在s303-4-1至s303-4-3的实施方式中,目标故障位置区域表征业务系统的故障位置,可以为理解为每种故障定位监控指标对应的故障区域通常是固定的几个区域,因此可以通过故障定位监控指标映射故障位置子区域,然后将故障位置子区域的交集确定为目标故障位置区域,在确定目标故障位置区域之后,则可以根据该目标故障位置区域常发生的故障问题以及障定位监控指标,推断出本次故障的原因。
120.作为示例的,若存在故障定位监控指标a和故障定位监控指标b,故障定位监控指标a映射的故障位置子区域编号为a、b和c,而故障定位监控指标a映射的故障位置子区域编号为c、d和e,则目标故障位置区域为c,即将区域为c确定为根因诊断的故障位置诊断结果,而引起区域c发生故障的原因通常有e、f和g三种,而其中原因e与故障定位监控指标a和故障定位监控指标b均有关,而原因e只与故障定位监控指标a有关,而原因g只与故障定位监控指标b有关,因此可以将原因e为根因诊断的故障原因诊断结果。
121.s304:根据业务系统的故障位置和故障原因,确定业务系统的故障等级。
122.在本实施方式中,在确定出业务系统的故障位置和故障原因,则可以根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略,其具体的步骤包括:
123.s304-1:根据故障位置在业务系统的层级,确定业务系统的第一故障评估分数;
124.s304-2:根据故障原因对业务系统的影响能力,确定业务系统的第二故障评估分数;
125.s304-3:根据第一故障评估分数和第二故障评估分数,以及第一故障评估分数和第二故障评估分数对应的第二权重,计算业务系统的最终故障评估分数;
126.s304-4:根据业务系统的最终故障评估分数,确定业务系统的故障等级。
127.在s304-1至s304-4的实施方式中,首先,若故障位置处于资源层、数据层等上层层级时,则对应的第一故障评估分数就会很高。而若故障位置处于业务层、用户层等下层层级时,则对应的第一故障评估分数就会很低,即故障位置在业务系统的层级与第一故障评估分数呈正相关的关系。其次,若故障对业务系统的影响能力较小,例如使得系统的反馈速度有一点延迟,响应时间增加,则对应的第二故障评估分数就会很低。而若故障对业务系统的
影响能力较大时,例如影响数据的真实性和准确性,则对应的第二故障评估分数就会很高,即故障位置业务系统的影响能力与第二故障评估分数呈正相关的关系。因此在获得第一故障评估分数和第二故障评估分数之后,根据第一故障评估分数和第二故障评估分数对应的权重值,即可计算出最终故障评估分数,然后根据最终故障评估分数所处的分数区间段,确定出业务系统的故障等级。
128.s305:根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略。
129.在本实施方式中,在确定出业务系统的故障等级之后,则可以根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略,其具体的步骤,包括:
130.s305-1:在业务系统的故障等级为低等级的情况下,执行故障自愈处理策略,并不进行告警;
131.s305-2:在业务系统的故障等级为高等级的情况下,执行故障告警处理策略,将业务系统的故障位置和故障原因发送至业务系统的管理人员。
132.在s305-1至s305-2的实施方式中,故障等级包括低等级故障和高等级故障,低等级故障表征不会影响业务系统正常运行的故障,高等级故障表征可能会影响业务系统正常运行的故障,而如果业务系统的故障等级为低等级,则为了保证业务系统能够继续维持正常运行,可以向业务系统下发故障自愈处理策略,并不向业务人员进行告警,由业务系统自行执行故障自愈处理策略,例如将存在故障的数据接口关闭。而如果业务系统的故障等级为高等级,则说明业务系统可能随时停止运行,因此需要及时的通知管理人员,即系统运维人员,来排除故障,因此可以通过预设的邮箱接口来向运维人员发送告警处理消息,告警处理消息中包含了本次故障的故障位置和故障原因,从而帮助运维人员能够快速地完成对业务系统中的故障的根因诊断以及处理策略的确定。
133.本技术提供的基于多指标根因定位算法的故障定位方法,通过首先获取业务系统的运维数据,并根据运维数据构建业务系统拓扑图和故障系统拓扑图,并根据业务系统拓扑图和故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标,然后根据目标指标,确定业务系统的故障位置和故障原因,并根据业务系统的故障位置和故障原因,确定业务系统的故障等级,最后,根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略。在本技术中,通过生成表征业务系统正常运行状态的业务系统拓扑图和业务系统异常信息交互状态的故障系统拓扑图,筛选出用于进行根因定位的多个指标,并基于多个指标进行根因定位,考量了不同指标之间的关联关系,提高了对业务系统故障诊断的定位速度和定位准确度。
134.参照图4,本发明实施例第二方面提出一种基于多指标根因定位算法的故障定位装置400,装置包括:
135.获取模块401,用于获取业务系统的运维数据,并根据运维数据构建业务系统拓扑图和故障系统拓扑图;
136.筛选模块402,用于根据业务系统拓扑图和故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标;
137.第一确定模块403,用于根据目标指标,确定业务系统的故障位置和故障原因;
138.第二确定模块404,用于根据业务系统的故障位置和故障原因,确定业务系统的故障等级;
139.告警模块405,用于根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略。
140.在一种可行的实施方式中,获取模块包括:
141.数据交互关系确定子模块,用于获取网元设备之间的业务处理逻辑,并根据网元设备之间的业务处理逻辑关系,确定网元设备之间的数据交互关系;
142.业务系统拓扑图构建子模块,用于根据网元设备的关键数据和网元设备之间数据交互关系,构建业务系统拓扑图;
143.异常传播方向确定子模块,用于根据异常日志数据,确定网元设备之间的异常传播方向;
144.故障系统拓扑图构建子模块,用于根据网元设备之间的异常传播方向对业务系统拓扑图进行更新,获得故障系统拓扑图。
145.在一种可行的实施方式中,筛选模块包括:
146.第一计算子模块,用于根据业务系统拓扑图,确定第一维度的拓扑图的特征矩阵,其中,第一维度的拓扑图的特征矩阵表征业务系统中各网元设备之间的业务关联关系;
147.第二计算子模块,用于根据故障系统拓扑图,确定第二维度的拓扑图的特征矩阵;其中,第二维度的拓扑图的特征矩阵表征故障系统中网元设备之间的异常资源调用关系;
148.输入子模块,用于将第一维度的拓扑图的特征矩阵和第二维度的拓扑图的特征矩阵输入到预设的神经网络模型中,分别获得第一指标筛选结果和第二指标筛选结果,其中,第一指标筛选结果和第二指标筛选结果包含多个待选指标以及待选指标对应的筛选概率;
149.筛选子模块,用于根据第一指标筛选结果和第二指标筛选结果中各个待选指标的筛选概率与预设第一阈值的大小关系,筛选出至少一个用于故障根因定位的目标指标。
150.在一种可行的实施方式中,第一确定模块包括:
151.相关系数确定子模块,用于确定业务系统中每个监控指标与目标指标的相关系数;
152.关联度计算子模块,用于根据相关系数,以及相关系数对应的第一权重,计算每个监控指标与目标指标的关联度分数;
153.故障定位监控指标筛选子模块,用于根据关联度分数与预设第二阈值的大小关系,从相关系数中筛选出至少一个故障定位监控指标;
154.根据故障定位监控指标,确定业务系统的故障位置和故障原因。
155.在一种可行的实施方式中,故障定位监控指标筛选子模块,包括:
156.故障位置子区域确定单元,用于确定每个故障定位监控指标映射的故障位置子区域;
157.目标故障位置区域确定单元,用于将故障位置子区域的交集确定为目标故障位置区域,其中,目标故障位置区域表征业务系统的故障位置;
158.故障原因确定单元,用于根据目标故障位置区域和故障定位监控指标,确定对应的故障原因。
159.在一种可行的实施方式中,第二确定模块包括:
160.第一故障评估分数确定子模块,用于根据故障位置在业务系统的层级,确定业务系统的第一故障评估分数;
161.第二故障评估分数确定子模块,用于根据故障原因对业务系统的影响能力,确定业务系统的第二故障评估分数;
162.最终故障评估分数确定子模块,用于根据第一故障评估分数和第二故障评估分数,以及第一故障评估分数和第二故障评估分数对应的第二权重,计算业务系统的最终故障评估分数;
163.故障等级确定子模块,用于根据业务系统的最终故障评估分数,确定业务系统的故障等级。
164.在一种可行的实施方式中,告警模块包括:
165.第一告警子模块,用于在业务系统的故障等级为低等级的情况下,执行故障自愈处理策略,并不进行告警;
166.第二告警子模块,用于在业务系统的故障等级为高等级的情况下,执行故障告警处理策略,将业务系统的故障位置和故障原因发送至业务系统的管理人员。
167.需要说明的是,本技术实施例的基于多指标根因定位算法的故障定位装置400的具体实施方式参照前述本技术实施例第一方面提出的基于多指标根因定位算法的故障定位方法的具体实施方式,在此不再赘述。
168.本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用储存介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
169.本发明实施例是参照根据本发明实施例的方法、终端设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
170.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
171.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
172.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。“和/或”表示可以选择两者之中的任意一个,也可以两者都选择。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,
从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
173.以上对本发明所提供的一种基于多指标根因定位算法的故障定位方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种基于多指标根因定位算法的故障定位方法,其特征在于,所述方法包括:获取业务系统的运维数据,并根据所述运维数据构建业务系统拓扑图和故障系统拓扑图;根据所述业务系统拓扑图和所述故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标;根据所述目标指标,确定所述业务系统的故障位置和故障原因;根据所述业务系统的故障位置和故障原因,确定业务系统的故障等级;根据所述业务系统的故障等级和所述故障系统拓扑图,执行对应的告警策略。2.根据权利要求1所述的基于多指标根因定位算法的故障定位方法,其特征在于,所述运维数据包括异常日志数据和网元设备的关键数据;所述根据所述运维数据构建业务系统拓扑图和故障系统拓扑图的步骤,包括:获取网元设备之间的业务处理逻辑,并根据所述网元设备之间的业务处理逻辑关系,确定所述网元设备之间的数据交互关系;根据所述网元设备的关键数据和网元设备之间数据交互关系,构建所述业务系统拓扑图;根据所述异常日志数据,确定网元设备之间的异常传播方向;根据所述网元设备之间的异常传播方向对所述业务系统拓扑图进行更新,获得所述故障系统拓扑图。3.根据权利要求1所述的基于多指标根因定位算法的故障定位方法,其特征在于,所述根据所述业务系统拓扑图和所述故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标的步骤,包括:根据所述业务系统拓扑图,确定第一维度的拓扑图的特征矩阵,其中,所述第一维度的拓扑图的特征矩阵表征所述业务系统中各网元设备之间的业务关联关系;根据所述故障系统拓扑图,确定第二维度的拓扑图的特征矩阵;其中,所述第二维度的拓扑图的特征矩阵表征所述故障系统中网元设备之间的异常资源调用关系;将所述第一维度的拓扑图的特征矩阵和所述第二维度的拓扑图的特征矩阵输入到预设的神经网络模型中,分别获得第一指标筛选结果和第二指标筛选结果,其中,所述第一指标筛选结果和所述第二指标筛选结果包含多个待选指标以及所述待选指标对应的筛选概率;根据所述第一指标筛选结果和所述第二指标筛选结果中各个待选指标的筛选概率与预设第一阈值的大小关系,筛选出至少一个用于故障根因定位的目标指标。4.根据权利要求1所述的基于多指标根因定位算法的故障定位方法,其特征在于,所述根据所述目标指标,确定所述业务系统的故障位置和故障原因的步骤,包括:确定业务系统中每个监控指标与所述目标指标的相关系数;根据所述相关系数,以及所述相关系数对应的第一权重,计算每个所述监控指标与所述目标指标的关联度分数;根据所述关联度分数与预设第二阈值的大小关系,从所述相关系数中筛选出至少一个故障定位监控指标;根据所述故障定位监控指标,确定所述业务系统的故障位置和故障原因。
5.根据权利要求1所述的基于多指标根因定位算法的故障定位方法,其特征在于,所述根据所述故障定位监控指标,确定所述业务系统的故障位置和故障原因的步骤,包括:确定每个所述故障定位监控指标映射的故障位置子区域;将所述故障位置子区域的交集确定为目标故障位置区域,其中,所述目标故障位置区域表征业务系统的故障位置;根据所述目标故障位置区域和故障定位监控指标,确定对应的故障原因。6.根据权利要求1所述的基于多指标根因定位算法的故障定位方法,其特征在于,所述根据所述业务系统的故障位置和故障原因,确定业务系统的故障等级的步骤,包括:根据所述故障位置在所述业务系统的层级,确定所述业务系统的第一故障评估分数;根据所述故障原因对所述业务系统的影响能力,确定所述业务系统的第二故障评估分数;根据所述第一故障评估分数和所述第二故障评估分数,以及所述第一故障评估分数和所述第二故障评估分数对应的第二权重,计算所述业务系统的最终故障评估分数;根据所述业务系统的最终故障评估分数,确定业务系统的故障等级。7.根据权利要求1所述的基于多指标根因定位算法的故障定位方法,其特征在于,所述故障等级包括低等级故障和高等级故障,所述根据所述业务系统的故障等级和所述故障系统拓扑图,执行对应的告警策略的步骤,包括:在所述业务系统的故障等级为低等级的情况下,执行故障自愈处理策略,并不进行告警;在所述业务系统的故障等级为高等级的情况下,执行故障告警处理策略,将业务系统的故障位置和故障原因发送至业务系统的管理人员。8.一种基于多指标根因定位算法的故障定位装置,其特征在于,所述装置包括:获取模块,用于获取业务系统的运维数据,并根据所述运维数据构建业务系统拓扑图和故障系统拓扑图;筛选模块,用于根据所述业务系统拓扑图和所述故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标;第一确定模块,用于根据所述目标指标,确定所述业务系统的故障位置和故障原因;第二确定模块,用于根据所述业务系统的故障位置和故障原因,确定业务系统的故障等级;告警模块,用于根据所述业务系统的故障等级和所述故障系统拓扑图,执行对应的告警策略。9.根据权利要求8所述的基于多指标根因定位算法的故障定位装置,其特征在于,所述运维数据包括异常日志数据和网元设备的关键数据;所述获取模块包括:数据交互关系确定子模块,用于获取网元设备之间的业务处理逻辑,并根据所述网元设备之间的业务处理逻辑关系,确定所述网元设备之间的数据交互关系;业务系统拓扑图构建子模块,用于根据所述网元设备的关键数据和网元设备之间数据交互关系,构建所述业务系统拓扑图;异常传播方向确定子模块,用于根据所述异常日志数据,确定网元设备之间的异常传播方向;
故障系统拓扑图构建子模块,用于根据所述网元设备之间的异常传播方向对所述业务系统拓扑图进行更新,获得所述故障系统拓扑图。10.根据权利要求8所述的基于多指标根因定位算法的故障定位装置,其特征在于,所述筛选模块包括:第一计算子模块,用于根据所述业务系统拓扑图,确定第一维度的拓扑图的特征矩阵,其中,所述第一维度的拓扑图的特征矩阵表征所述业务系统中各网元设备之间的业务关联关系;第二计算子模块,用于根据所述故障系统拓扑图,确定第二维度的拓扑图的特征矩阵;其中,所述第二维度的拓扑图的特征矩阵表征所述故障系统中网元设备之间的异常资源调用关系;输入子模块,用于将所述第一维度的拓扑图的特征矩阵和所述第二维度的拓扑图的特征矩阵输入到预设的神经网络模型中,分别获得第一指标筛选结果和第二指标筛选结果,其中,所述第一指标筛选结果和所述第二指标筛选结果包含多个待选指标以及所述待选指标对应的筛选概率;筛选子模块,用于根据所述第一指标筛选结果和所述第二指标筛选结果中各个待选指标的筛选概率与预设第一阈值的大小关系,筛选出至少一个用于故障根因定位的目标指标。

技术总结
本发明提供了一种基于多指标根因定位算法的故障定位方法及装置,涉及故障定位技术领域。方法包括:首先获取业务系统的运维数据,并根据运维数据构建业务系统拓扑图和故障系统拓扑图,并根据业务系统拓扑图和故障系统拓扑图,筛选出至少一个用于故障根因定位的目标指标,然后根据目标指标,确定业务系统的故障位置和故障原因,并根据业务系统的故障位置和故障原因,确定业务系统的故障等级,最后,根据业务系统的故障等级和故障系统拓扑图,执行对应的告警策略。在本申请中,通过业务系统拓扑图和故障系统拓扑图,筛选出用于进行根因定位的多个指标,并基于多个指标进行根因定位,提高了对业务系统故障诊断的定位速度和定位准确度。度。度。


技术研发人员:王敬宇 黄成明 吕雯鑫 曹金刚
受保护的技术使用者:圣麦克思智能科技(江苏)有限公司
技术研发日:2023.03.17
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐