变更风险监控方法、装置、计算机设备和存储介质与流程
未命名
08-15
阅读:131
评论:0
1.本技术涉及人工智能技术领域,特别是涉及一种变更风险监控方法、装置、计算机设备和存储介质。
背景技术:
2.数据中心开放平台类系统软件品种多样,变更数量大,实施步骤复杂,涉及服务器范围广,涵盖众多重要业务应用场景,为了规避基础设施类故障引发业务不可用,在环境搭建阶段就会将同一个应用同一个集群下或者主备关系的服务器进行物理拆分,分布在不同的故障域内,以降低基础设施类故障的影响范围。在这个情况下生产运维人员无法及时发现故障服务器与变更的关联性,延长了故障排查时间,影响了业务的快速恢复。
技术实现要素:
3.基于此,有必要针对上述技术问题,提供一种确定故障服务器与变更之间的关联性的变更风险监控方法、装置、计算机设备和存储介质。
4.第一方面,本技术提供了一种变更风险监控方法。该方法包括:
5.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
6.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
7.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
8.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
9.在其中一个实施例中,根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息,包括:
10.根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后;
11.分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
12.在其中一个实施例中,根据至少一组运行告警消息,确定变更服务器是否存在变更故障,包括:
13.根据第一监控时段内的运行告警消息,确定第一监控时段的告警总数;
14.根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数;
15.根据第一监控时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障。
16.在其中一个实施例中,根据变更指令和变更涉及内容,输出变更风险提示,包括:
17.根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施;
18.根据异常基础设施和/或变更风险等级,以及变更指令,输出变更风险提示。
19.在其中一个实施例中,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施,包括:
20.根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;其中,性能容量数据包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使用率、传输控制协议tcp连接数、网口读写速率中的至少一种;
21.根据目标基础设施和变更基础设施,确定异常基础设施。
22.在其中一个实施例中,获取变更服务器的变更信息,包括:
23.在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态;
24.若监控得到变更状态为变更完成时,获取变更服务器的变更信息。
25.第二方面,本技术还提供了一种变更风险监控装置。该装置包括:
26.第一获取模块,用于获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
27.第二获取模块,根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
28.确定模块,用于根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
29.输出模块,若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
30.第三方面,本技术还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
31.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
32.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
33.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
34.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
35.第四方面,本技术还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
36.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
37.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
38.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
39.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
40.第五方面,本技术还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
41.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
42.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
43.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
44.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
45.上述变更风险监控方法、装置、计算机设备和存储介质,通过获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;再根据变更服务器
的变更起始时间,获取变更服务器的至少一组运行告警消息;根据至少一组运行告警消息,确定变更服务器是否存在变更故障;若存在,则根据变更指令和变更涉及内容,输出变更风险提示。本技术基于获取的与变更起始时间相关的运行告警消息,不仅可以确定变更服务器是否存在变更故障,也就是说可以确定故障服务器与变更之间的关联性,当变更服务器存在变更故障时,还可基于变更指令和变更涉及内容,输出的变更风险提示,提醒运维人员,并帮助运维人员快速排查故障原因,大幅缩短了故障排查时间,实现业务的快速恢复。
附图说明
46.图1为本实施例提供的变更风险监控方法的应用环境图;
47.图2为本实施例提供的第一种变更风险监控方法的流程示意图;
48.图3为本实施例提供的确定是否存在变更故障的流程示意图;
49.图4为本实施例提供的输出变更风险提示的流程示意图;
50.图5为本实施例提供的第二种变更风险监控方法的流程示意图;
51.图6为本实施例提供的第一种变更风险监控装置的结构框图;
52.图7为本实施例提供的第二种变更风险监控装置的结构框图;
53.图8为本实施例提供的第三种变更风险监控装置的结构框图;
54.图9为本实施例提供的第四种变更风险监控装置的结构框图;
55.图10为本实施例提供的计算机设备的内部结构图。
具体实施方式
56.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
57.本技术实施例提供的变更风险监控方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。具体的,服务器104基于用户在终端102录入的变更清单,获取变更服务器的变更消息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;服务器104再根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;服务器104最后根据至少一组运行告警消息,确定变更服务器是否存在变更故障;若存在,则根据变更指令和变更涉及内容,输出变更风险提示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑等智能设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
58.在其中一个实施例中,提供了一种变更风险监控方法,以该方法应用于图1中的服务器为例进行说明,如图2所示,包括以下步骤:
59.s201,获取变更服务器的变更信息。其中,变更信息包括变更起始时间、变更指令和变更涉及内容。
60.其中,变更服务器是指变更所涉及到的服务器。变更信息是指变更时所涉及到的信息,主要包括变更起始时间、变更指令和变更涉及内容。变更起始时间是指变更开始时间
和变更结束时间。变更指令是指变更时涉及到的指令代码。变更涉及内容是指变更所涉及到的资源内容,例如变更涉及的应用程序、变更涉及的基础设施等;基础设施主要包括设备硬件、网络、操作系统、存储设备、数据库、中间件和云底座等。
61.本实施例一种可选的实施方式为:响应于变更风险监控指令,获取目标变更清单,并根据目标变更清单,获取变更服务器的变更信息。其中,目标变更清单中记录有变更所涉及的变更服务器的身份标识(例如,变更服务器的ip地址)和变更信息。
62.获取目标变更清单的一种可选实施方式为:响应于用户(一般指运维人员)反馈的变更完成指令,通过直接或间接的获取方式,获取该用户在变更完成后上传的变更清单,作为目标变更清单。其中,直接的获取方式是指直接通过用户终端获取用户上传的变更清单。间接的获取方式是指通过调用其他系统(例如,科技管理平台),间接的获取用户上传的变更清单。
63.获取目标变更清单的另一种可选实施方式为:响应于变更风险监控指令,遍历用户上传的原始变更清单对应的实施信息(运维人员在实施变更时,会上传原始变更清单,并在变更完成后,会上传原始变更清单对应的实施信息),若该实施信息对应的语义为已完成变更(例如可通过关键字识别或语义分析技术,确定实时信息的语义),则抽取该原始变更清单,作为目标变更清单。示例性的,响应于变更风险监控指令,系统可每隔30分钟(可根据运维人员的数量或变更需求量灵活设置),遍历用户上传的原始变更清单对应的实施信息(实施信息是指用户上传原始变更清单时备注的实施进度,例如,已完成或未完成等,已完成是指变更已实施完成,未完成是指变更还未完成),若识别到某一原始变更信息对应的实施信息为“已完成”,则抽取该原始变更清单作为目标变更清单。
64.需要说明的是,为了便于变更风险监控,可将所有的目标变更清单解析后(解析后的内容包括变更信息和变更服务器的身份标识)添加至清单列表中,通过定期轮训检测的形式,进行变更风险监控。
65.根据目标变更清单,获取变更服务器的变更信息的一种可选实施方式为:若目标变更清单中直接记录有包含变更信息的内容,则此时可以基于目标变更清单,通过语义分析或关键词识别的形式获取变更信息。其中,目标变更清单中记录有与变更信息对应的语义字段或关键词字段。
66.根据目标变更清单,获取变更服务器的变更信息的另一种可选实施方式为:若变更信息在目标变更清单中以附件(例如word文件)的形式存在,根据目标变更清单,对目标变更清单中的内容进行自然语言解析处理,获取变更服务器的变更信息。例如,目标变更清单中添加有用于记录变更信息的附件,在此情况下,可通过解析附件,获取变更信息。
67.本实施例另一种可选的实施方式为:在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态;若监控得到变更状态为变更完成时,获取变更服务器的变更信息。具体的,在检测到存在服务器变更事件的情况下,可根据用户反馈的信息、变更服务器反馈的信息或通过监控模块直接监控得到的信息,监控变更服务器的变更状态;基于用户反馈的信息、变更服务器反馈的信息或通过监控模块直接监控得到的信息,当监控得到变更状态为变更完成时,获取变更服务器的变更信息。
68.s202,根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息。
69.其中,运行告警消息是指变更服务器在运行过程中因影响服务器正常运行的事件所产生的告警消息。
70.本实施例一种可选的实施方式为:根据变更服务器的变更起始时间,确定一个监控时段,将变更服务器在该监控时段内获取的所有运行告警消息,作为一组运行告警消息。具体的,根据变更服务器的变更起始时间,确定获取运行告警消息的开始时间和结束时间,将开始时间和结束时间之间所获取的所有运行告警消息,作为一组运行告警消息。
71.需要说明的是,当获取的变更服务器的运行告警消息为一组时,获取运行告警消息的开始时间可以在变更起始时间之前,也可以在变更起始时间之后,但获取运行告警消息的结束时间必须在变更起始时间之后。如示例一所示,变更起始时间分别为2023/1/4/12:00和2023/1/4/12:30,可将获取运行告警消息的开始时间设置为2023/1/4/10:00,将获取运行告警消息的结束时间设置为2023/1/4/14:30,将2023/1/4/10:00-2023/1/4/14:30之间获取得到的所有运行告警作为一组运行告警消息。如示例二所示,变更起始时间分别为2023/1/4/12:00和2023/1/4/12:30,可将获取运行告警消息的开始时间设置为2023/1/4/12:30,将获取运行告警消息的结束时间设置为2023/1/4/14:30,将2023/1/4/12:30-2023/1/4/14:30之间获取得到的所有运行告警作为一组运行告警消息。
72.本实施例另一种可选的实施方式为:根据变更服务器的变更起始时间,确定两个监控时段,将变更服务器在每个监控时段内获取的运行告警消息,作为一组运行告警消息,总共可获取两组运行告警消息。其中,一个监控时段可设置于变更起始时间中的变更结束时间之前,另一个监控时段设置于变更起始时间中的变更结束时间之后。例如,变更起始时间分别为2023/1/4/12:00和2023/1/4/12:30,可将其中一个监控时段的获取运行告警消息的开始时间设置为2023/1/4/10:30,将获取运行告警消息的结束时间设置为2023/1/4/12:30,将另一个监控时段的获取运行告警消息的开始时间设置为2023/1/4/12:30,将获取运行告警消息的结束时间设置为2023/1/4/14:30,将获取的两个监控时段的运行告警消息作为两组运行告警消息。
73.本实施例又一种可选的实施方式为:根据变更服务器的变更起始时间,确定多个监控时段,将变更服务器在每个监控时段内获取的运行告警消息,作为一组运行告警消息,总共可获取多组运行告警消息。例如,以根据变更服务器的变更起始时间,确定三个监控时段,获取三组运行告警消息为例,其中,第一个监控时段可设置于变更起始时间中的变更开始时间之前,第二个监控时段可设置于变更起始时间中的变更开始时间和变更结束之间之间,第三个监控时段可设置于变更起始时间中的变更结束时间之后,总共获取三组运行告警消息。
74.s203,根据至少一组运行告警消息,确定变更服务器是否存在变更故障。
75.其中,变更故障是指服务器因变更出现的故障。
76.当获取的变更服务器的运行告警消息为一组,且获取运行告警消息的开始时间在变更起始时间之前时,本实施例可选的实施方式为:根据运行告警消息的严重等级的变化趋势,确定变更服务器是否存在变更故障。例如,根据运行告警消息,确定每个运行告警消息的严重等级,若开始时的运行告警消息的严重等级较低,但随着时间推移,运行告警消息的严重等级逐渐升高,则说明变更服务器的运行告警消息的严重等级变化趋势为逐渐升高,可确定变更服务器存在变更故障。若开始时的运行告警消息的严重等级较高,但随着时
间推移,运行告警消息的严重等级逐渐降低,则说明变更服务器的运行告警消息的变化趋势为逐渐降低,可确定变更服务器不存在变更故障。若开始时的运行告警消息的严重等级较低,但随着时间推移,运行告警消息的严重等级逐渐降低,则说明变更服务器的运行告警消息的严重等级变化趋势较为平稳,可确定变更服务器不存在变更故障。
77.当获取的变更服务器的运行告警消息为一组,且获取运行告警消息的开始时间在变更起始时间之后时,本实施例可选的实施方式为:根据运行告警消息的严重等级的变化趋势,确定变更服务器是否存在变更故障。例如,若开始时的运行告警消息的严重等级较高,但随着时间推移,运行告警消息的严重等级逐渐降低,则说明变更服务器的运行告警消息的变化趋势为逐渐降低,可确定变更服务器不存在变更故障。若开始时的运行告警消息的严重等级较低,但随着时间推移,运行告警消息的严重等级逐渐降低,则说明变更服务器的运行告警消息的严重等级变化趋势较为平稳,可确定变更服务器不存在变更故障。若开始时的运行告警消息的严重等级较低,但随着时间推移,运行告警消息的严重等级逐渐升高,则说明变更服务器的运行告警消息的严重等级变化趋势为逐渐升高,则需要将此次变更信息对应的运行告警消息与数据库中历史变更信息对应的运行告警消息作比对,若历史变更信息对应的运行告警消息的严重等级的变化确实也是逐渐升高,则可确定变更服务器存在变更故障。
78.当获取的变更服务器的运行告警消息为两组,且一个监控时段可设置于变更起始时间中的变更结束时间之前,另一个监控时段设置于变更起始时间中的变更结束时间之后时,本实施例一种可选的实施方式为:可通过对比两组运行告警消息的平均严重等级,确定变更服务器是否存在变更故障。若前一组运行告警消息的平均严重等级低于后一组运行告警消息的平均严重等级,则可确定变更服务器存在变更故障。若前一组运行告警消息的平均严重等级高于后一组运行告警消息的平均严重等级,则可确定变更服务器不存在变更故障。若前一组运行告警消息的平均严重等级与后一组运行告警消息的平均严重等级相同,则可确定变更服务器不存在变更故障。
79.当获取的变更服务器的运行告警消息为多组,且一部分监控时段设置于变更起始时间中的变更开始时间之前,另一部分监控时段可设置于变更起始时间中的变更开始时间和变更结束时间之间,又一部分监控时段设置于变更起始时间中的变更结束时间之后时,本实施例一种可选的实施方式为:根据各组运行告警消息的严重等级,获取严重等级随时间的变化趋势,若严重等级的变化趋势为下降,或严重等级的变化趋势为前后相同,则可确定变更服务器不存在变更故障;若重等级的变化趋势为上升,则可确定变更服务器存在变更故障。
80.s204,若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
81.其中,变更风险提示是指变更存在风险的提示消息。
82.可选的,本实施例中若存在变更故障,则根据变更指令和变更涉及内容,以及变更服务器的身份标识,生成并输出变更风险提示。其中,提示形式可采用但不限于短信、邮件和即时通讯消息等。
83.本实施例中的变更风险监控方法通过获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;在根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;根据至少一组运行告警消息,确定变更服务器是否
存在变更故障;若存在,则根据变更指令和变更涉及内容,输出变更风险提示。本技术基于获取的与变更起始时间相关的运行告警消息,不仅可以确定变更服务器是否存在变更故障,也就是说可以确定故障服务器与变更之间的关联性,当变更服务器存在变更故障时,还可基于变更指令和变更涉及内容,输出的变更风险提示,提醒运维人员,并帮助运维人员快速排查故障原因,大幅缩短了故障排查时间,实现业务的快速恢复。
84.在其中一个实施例中,为了更加准确的确定故障服务器与变更之间的关联性,如图3所示,s202和s203一种可选的实施方式,包括:
85.s301,根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后。
86.其中,预设观察时段是指预先设置的观察时段,用于确定监控时段。
87.可选的,本实施例可先根据变更起始时间中的变更开始时间和预设观察时段,确定第一监控时段;具体的,可根据变更开始时间确定第一监控时段的结束时间,利用变更开始时间减去预设观察时段,确定第一监控时段的开始时间。例如,若变更开始时间为2023/1/4/12:30,预设观察时段为2小时,则第一监控时段的开始时间为2023/1/4/10:30,结束时间为2023/1/4/12:30。再根据变更起始时间中的变更结束时间和预设观察时段,确定第二监控时段;具体的,可根据变更结束时间,确定第二监控时段的开始时间,利用变更结束时间加上预设观察时段,确定第二监控时段的结束时间。例如,若变更结束时间为2023/1/4/14:30,预设观察时段为2小时,则第二监控时段的开始时间为2023/1/4/14:30,结束时间为2023/1/4/16:30。
88.s302,分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
89.可选的,本实施例中当接收到变更风险监控指令,可向存储设备或外部系统中调取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。其中,外部系统包括但不限于集中报警监控系统。
90.s303,根据第一监控时段内的运行告警消息,确定第一监控时段内的告警总数。
91.其中,告警总数是指变更服务器在一段时间内的报警数量之和。
92.本实施例一种可选的实施方式为:通过计算第一监控时段内的运行告警消息的数量,确定第一监控的告警总数。若每次报警,均发送一次运行告警消息,则可通过计算第一监控时段内运行告警消息的总数,从而确定第一监控时段的告警总数。
93.本实施例另一种可选的实施方式为:通过解析运行告警消息,确定第一监控时段的告警总数。若运行告警消息中记录有报警总数,则可通过解析运行告警消息,确定第一监控时段的告警总数。具体的,可通过解析第一监控时段内第一条运行告警消息和第一监控时段内最后一条运行告警消息,确定第一监控时段的告警总数。例如,第一监控时段中第一条运行告警消息解析到的当日报警总数为13次,最后一条运行告警消息解析到的当日报警总数为19次,则第一时段的报警总数为19-13+1=7次。
94.s304,根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数。
95.本实施中确定第二监控时段内的告警总数。可参考上述确定第一监控时段的告警总数的方法,在此不再赘述。
96.s305,根据第一监控时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障。
97.可选的,本实施例中若第一监控时段的告警总数和第二监控时段的告警总数相同,或第一监控时段的告警总数高于第二监控时段的告警总数,则不存在变更故障;若第一监控时段的告警总数低于第二监控时段的告警总数,则存在变更故障。
98.本实施例中根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,再分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息,根据第一监控时段内的运行告警消息,确定第一监控内的告警总数;根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数;根据第一监控该时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障,可更加方便、快速的确定是否存在变更故障。
99.需要说明的是,在上述实施例的基础上,还可设置第三监控时段,其中第三监控时段设置于变更起始时间中的变更开始时间和变更结束时间之间,基于第三监控时段的运行告警消息,获取第三监控时段内的告警总数。下面结合第三监控时段内的告警总数,解释说明可能造成告警的原因,若第一监控时段和第二监控时段内的告警总数相同,但第三监控时段内的告警总数高于另外两个监控时段,则说明变更期间的告警是因变更实施引发的正常监控告警,可忽略此类告警,并可确定变更服务器不存在变更故障。若第一监控时段的告警总数高于第二监控时段内的告警总数,则可说明此次变更是为了解决第一监控时段的告警问题,变更服务器不存在变更故障。若第二监控时段内的告警总数高于第一时段内的告警总数,则可说明此次变更造成了变更服务器的出现故障,造成了告警增多,可确定变更服务器存在变更故障。
100.在其中一个实施例中,为了更加灵活的确定,并输出变更风险提示,如图4所示,s204的一种可选的实施方式为:
101.s401,根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施。
102.其中,变更应用程序是指变更所涉及的应用程序;变更风险等级是指变更风险的严重程度,该严重程度以等级的形式划分,等级越高说明就越严重;变更基础设施是指变更所涉及的基础设施,主要包括变更实施相关的设备硬件、网络、操作系统、存储设备、数据库、中间件和云底座等;性能容量数据主要包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使用率、tcp(transmission control protocol,传输控制协议)连接数和网口读写速率等。
103.根据变更涉及内容中的变更应用程序,确定变更风险等级可选实施方式为:根据变更涉及内容中的变更应用程序,确定变更应用程序在业务中的重要性,再根据变更应用程序在业务中的重要性,确定变更风险等级。例如,变更应用程序在业务中越重要,对应的变更风险等级就越高。
104.根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施的可选实施方式为:根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施。再确定目标基础设施和变更基础设施的交集,进而确定异常基础设施。例如,根据磁盘在变更起始时间中的变更开始时间的磁盘输入输出数据(磁盘输入输
出数据是性能容量数据中的一项数据)和在变更结束时间的磁盘输入输出数据,计算变更开始时间的磁盘输入输出数据与变更结束时间的磁盘输入输出数据的差值,若差值超过数据阈值,则可确定存储设备性能发生突变,则将存储设备作为目标基础设施。再确定目标基础设施与变更基础设施的交集,也就是说查询变更设施中是否存在该存储设备,若存在,则确定该存储设备为异常存储设备。
105.本实施例可通过预先安装的性能容量数据监控软件获取变更服务器的性能容量数据。
106.s402,根据异常基础设施和/或变更风险等级,以及变更指令,输出变更风险提示。
107.本实施例一种可选的实施方式为:根据异常基础设施,以及变更指令,确定变更风险消息,并输出变更风险提示。
108.本实施例另一种可选的实施方式为:根据变更风险等级,以及变更指令,确定变更风险消息,并输出变更风险提示。
109.本实施例又一种可选的实施方式为:根据异常基础设施和变更风险等级,以及变更指令,确定变更风险消息,并输出变更风险提示。
110.其中,本实施例中提示形式可采用但不限于短信、邮件和即时通讯消息等。
111.本实施例可根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施;根据异常基础设施和/或变更风险等级,以及变更指令,灵活输出变更风险提示。基于变更风险提示中的变更风险指令,可提示运维人员潜在高危指令,基于变更风险等级可提示运维人员风险严重程度,基于异常基础设施可提示运维人员故障服务器的潜在故障点。
112.在其中一个实施例中,如图5所示,一种变更风险监控方法可选实施方式,包括:
113.s501,在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态。
114.s502,若监控得到变更状态为变更完成时,获取变更服务器的变更信息。其中,变更信息包括变更起始时间、变更指令和变更涉及内容。
115.s503,根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后。
116.s504,分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
117.s505,根据第一监控时段内的运行告警消息,确定第一监控该时段的告警总数。
118.s506,根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数。
119.s507,根据第一监控该时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障。
120.s508,若存在,根据变更涉及内容中的变更应用程序,确定变更风险等级;以及根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;根据目标基础设施和变更基础设施,确定异常基础设施。
121.s509,根据异常基础设施、变更风险等级和变更指令,输出变更风险提示。
122.本实施例通过获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;再根据变更服务器的变更起始时间,获取变更服务器的至少一组
运行告警消息;根据至少一组运行告警消息,确定变更服务器是否存在变更故障;若存在,则根据变更指令和变更涉及内容,输出变更风险提示。本技术基于获取的与变更起始时间相关的运行告警消息,不仅可以确定变更服务器是否存在变更故障,也就是说可以确定故障服务器与变更之间的关联性,当变更服务器存在变更故障时,还可基于变更指令和变更涉及内容,输出的变更风险提示,提醒运维人员,并帮助运维人员快速排查故障原因,大幅缩短了故障排查时间,实现业务的快速恢复。
123.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的变更风险监控方法的变更风险监控装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个变更风险监控装置实施例中的具体限定可以参见上文中对于变更风险监控方法的限定,在此不再赘述。
124.在其中一个实施例中,如图6所示,提供了一种变更风险监控装置1,该装置包括:
125.第一获取模块10,用于获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
126.第二获取模块20,根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
127.确定模块30,用于根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
128.输出模块40,用于若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
129.在其中一个实施例中,在上图6的基础上,如图7所示,上图6中的第二获取模块20进一步包括:
130.第一确定单元201,用于根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后。
131.第一获取单元202,用于分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
132.在其中一个实施例中,在上图7的基础上,如图8所示,上图7中的确定模块30进一步包括:
133.第二确定单元301,用于根据第一监控时段内的运行告警消息,确定第一监控该时段的告警总数。
134.第三确定单元302,用于根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数。
135.第四确定单元303,用于根据第一监控该时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障。
136.在其中一个实施例中,在上图6的基础上,如图9所示,上图6中的输出模块40进一步包括:
137.第五确定单元401,用于根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施。
138.输出单元402,用于根据异常基础设施和/或变更风险等级,以及变更指令,输出变
更风险提示。
139.在其中一个实施例中,上图9中的第五确定单元401具体用于:根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;其中,性能容量数据包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使用率、传输控制协议tcp连接数、网口读写速率中的至少一种;根据目标基础设施和变更基础设施,确定异常基础设施。
140.上述变更风险监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
141.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储光谱特征数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种变更风险监控方法。
142.本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
143.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
144.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
145.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
146.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
147.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
148.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息,包括:
149.根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后;
150.分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
151.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据至少一组运行告警消息,确定变更服务器是否存在变更故障,包括:
152.根据第一监控时段内的运行告警消息,确定第一监控时段的告警总数;
153.根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数;
154.根据第一监控时段的告警总数和第二监控时段内的告警总数之间的关系,确定是
否存在变更故障。
155.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据变更指令和变更涉及内容,输出变更风险提示,包括:
156.根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施;
157.根据异常基础设施和/或变更风险等级,以及变更指令,输出变更风险提示。
158.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施,包括:
159.根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;其中,性能容量数据包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使用率、传输控制协议tcp连接数、网口读写速率中的至少一种;
160.根据目标基础设施和变更基础设施,确定异常基础设施。
161.在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取变更服务器的变更信息,包括:
162.在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态;
163.若监控得到变更状态为变更完成时,获取变更服务器的变更信息。
164.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
165.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
166.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
167.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
168.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
169.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息,包括:
170.根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后;
171.分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
172.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据至少一组运行告警消息,确定变更服务器是否存在变更故障,包括:
173.根据第一监控时段内的运行告警消息,确定第一监控时段的告警总数;
174.根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数;
175.根据第一监控时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障。
176.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据变更指令和变更涉及内容,输出变更风险提示,包括:
177.根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施;
178.根据异常基础设施和/或变更风险等级,以及变更指令,输出变更风险提示。
179.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施,包括:
180.根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;其中,性能容量数据包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使用率、传输控制协议tcp连接数、网口读写速率中的至少一种;
181.根据目标基础设施和变更基础设施,确定异常基础设施。
182.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取变更服务器的变更信息,包括:
183.在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态;
184.若监控得到变更状态为变更完成时,获取变更服务器的变更信息。
185.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
186.获取变更服务器的变更信息;其中,变更信息包括变更起始时间、变更指令和变更涉及内容;
187.根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;
188.根据至少一组运行告警消息,确定变更服务器是否存在变更故障;
189.若存在,则根据变更指令和变更涉及内容,输出变更风险提示。
190.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息,包括:
191.根据变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,第一监控时段位于变更起始时间中的变更开始时间之前,第二监控时段位于变更起始时间中的变更结束时间之后;
192.分别获取变更服务器在第一监控时段内和第二监控时段内的运行告警消息。
193.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据至少一组运行告警消息,确定变更服务器是否存在变更故障,包括:
194.根据第一监控时段内的运行告警消息,确定第一监控时段的告警总数;
195.根据第二监控时段内的运行告警消息,确定第二监控时段内的告警总数;
196.根据第一监控时段的告警总数和第二监控时段内的告警总数之间的关系,确定是否存在变更故障。
197.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据变更指令和变更涉及内容,输出变更风险提示,包括:
198.根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施;
199.根据异常基础设施和/或变更风险等级,以及变更指令,输出变更风险提示。
200.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据变更涉及内容中的变更基础设施与变更服务器的性能容量数据,确定异常基础设施,包括:
201.根据变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;其中,性能容量数据包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使
用率、tcp连接数、网口读写速率中的至少一种;
202.根据目标基础设施和变更基础设施,确定异常基础设施。
203.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取变更服务器的变更信息,包括:
204.在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态;
205.若监控得到变更状态为变更完成时,获取变更服务器的变更信息。
206.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
207.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
208.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种变更风险监控方法,其特征在于,所述方法包括:获取变更服务器的变更信息;其中,所述变更信息包括变更起始时间、变更指令和变更涉及内容;根据所述变更服务器的变更起始时间,获取所述变更服务器的至少一组运行告警消息;根据所述至少一组运行告警消息,确定所述变更服务器是否存在变更故障;若存在,则根据所述变更指令和变更涉及内容,输出变更风险提示。2.根据权利要求1所述的方法,其特征在于,所述根据所述变更服务器的变更起始时间,获取所述变更服务器的至少一组运行告警消息,包括:根据所述变更服务器的变更起始时间和预设观察时段,确定第一监控时段和第二监控时段,所述第一监控时段位于变更起始时间中的变更开始时间之前,所述第二监控时段位于变更起始时间中的变更结束时间之后;分别获取变更服务器在所述第一监控时段内和所述第二监控时段内的运行告警消息。3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一组运行告警消息,确定所述变更服务器是否存在变更故障,包括:根据所述第一监控时段内的运行告警消息,确定所述第一监控时段的告警总数;根据所述第二监控时段内的运行告警消息,确定所述第二监控时段内的告警总数;根据所述第一监控时段的告警总数和所述第二监控时段内的告警总数之间的关系,确定是否存在变更故障。4.根据权利要求1所述的方法,其特征在于,所述根据所述变更指令和变更涉及内容,输出变更风险提示,包括:根据变更涉及内容中的变更应用程序,确定变更风险等级,和/或,根据变更涉及内容中的变更基础设施与所述变更服务器的性能容量数据,确定异常基础设施;根据所述异常基础设施和/或所述变更风险等级,以及所述变更指令,输出变更风险提示。5.根据权利要求4所述的方法,其特征在于,所述根据变更涉及内容中的变更基础设施与所述变更服务器的性能容量数据,确定异常基础设施,包括:根据所述变更服务器在变更起始时间的性能容量数据,确定性能发生突变的目标基础设施;其中,所述性能容量数据包括处理器占用率、内存占用率、磁盘输入输出数据、文件系统使用率、传输控制协议tcp连接数、网口读写速率中的至少一种;根据所述目标基础设施和变更基础设施,确定异常基础设施。6.根据权利要求1所述的方法,其特征在于,所述获取变更服务器的变更信息,包括:在检测到存在服务器变更事件的情况下,监控变更服务器的变更状态;若监控得到所述变更状态为变更完成时,获取变更服务器的变更信息。7.一种变更风险监控装置,其特征在于,包括:第一获取模块,用于获取变更服务器的变更信息;其中,所述变更信息包括变更起始时间、变更指令和变更涉及内容;第二获取模块,根据所述变更服务器的变更起始时间,获取所述变更服务器的至少一组运行告警消息;
确定模块,用于根据所述至少一组运行告警消息,确定所述变更服务器是否存在变更故障;输出模块,若存在,则根据所述变更指令和变更涉及内容,输出变更风险提示。8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的变更风险监控方法的步骤。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的变更风险监控方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的变更风险监控方法的步骤。
技术总结
本申请涉及一种变更风险监控方法、装置、计算机设备、存储介质。属于人工智能技术领域,方法包括:获取变更服务器的变更信息;根据变更服务器的变更起始时间,获取变更服务器的至少一组运行告警消息;根据至少一组运行告警消息,确定变更服务器是否存在变更故障;若存在,则根据变更指令和变更涉及内容,输出变更风险提示。本申请不仅可以确定变更服务器是否存在变更故障,也就是说可以确定故障服务器与变更之间的关联性,当变更服务器存在变更故障时,还可基于变更指令和变更涉及内容,输出的变更风险提示,提醒运维人员,并帮助运维人员快速排查故障原因,大幅缩短了故障排查时间,实现业务的快速恢复。业务的快速恢复。业务的快速恢复。
技术研发人员:李臻
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.03.16
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
