云服务监控告警系统的制作方法
未命名
07-14
阅读:196
评论:0
1.本发明涉及软件开发技术领域,尤其是涉及一种云服务监控告警系统。
背景技术:
2.随着云计算的日益普及,企业各类业务系统越来越依赖于云服务的支撑,云服务最常见形态包括云服务器、云硬盘、云备份、云数据库、容器引擎、负载均衡等各种资源。为了保证企业业务系统的正常运行,有必要提供一个对云服务资源进行全方位监控的监控告警模型。
技术实现要素:
3.针对以上至少一个技术问题,本发明实施例提供一种云服务监控告警系统。
4.本发明实施例提供的云服务监控告警系统,包括:
5.监控采集模块,用于根据配置的监控采集周期,通过不同的插件采集不同的监控对象的指标数据以及对采集的指标数据进行汇聚处理;
6.告警模块,用于在采集或汇聚得到的指标数据符合告警规则时,生成相应的告警通知,并推送所述告警通知。
7.在一个实施例中,所述监控采集模块包括采集调度单元和多种采集插件,其中:
8.所述多种采集插件中包括实时插件和汇聚插件,所述实时插件用于对对应的监控对象的指标数据进行实时的监控采集,得到实时指标,不同的监控对象采用不同的实时插件进行监控采集;所述汇聚插件用于对所述实时插件采集的实时指标进行汇聚处理,得到汇聚指标;
9.所述采集调度单元用于控制各个插件的采集周期和各个插件的执行调度,且支持各个插件的顺序调度和并发调度两种方式。
10.在一个实施例中,所述汇聚插件对实时指标的汇聚方式包括:计算在预设时间段内的实时指标的平均值、最大值、最小值和求和值中的至少一项。
11.在一个实施例中,系统还包括:
12.数据库集群,用于存储采集得到的实时指标和汇聚处理得到的汇聚指标。
13.在一个实施例中,所述告警模块通过日志监控告警组件实现告警通知的生成和推送。
14.在一个实施例中,系统还包括:
15.通用漏洞披露组件,用于收集业务系统的安全漏洞和披露的安全信息。
16.在一个实施例中,系统还包括:
17.监控数据查询模块,用于提供监控数据查询界面,以使用户在所述监控数据查询界面中输入第一查询条件和选择查询方式,所述第一查询条件包括实例id、实例名称、宿主机、租户id、租户名称和ip地址中的至少一项,所述查询方式包括实时监控、一日内监控、六月内监控和自定义监控中的至少一项。
18.在一个实施例中,系统还包括:
19.监控展示模块,用于展示监控采集到的各个元数据,且以图形面板的形式展示至少一项汇聚指标。
20.在一个实施例中,系统还包括:
21.告警监控模块,包括实时监控单元和历史告警查询单元,所述实时监控单元用于展示实时生成的告警通知,所述历史告警查询单元用于筛选符合第二查询条件的历史告警记录并展示,且支持将筛选出来的历史告警记录导出为excel表格。
22.在一个实施例中,系统还包括:
23.告警规则管理模块,用于对各个告警规则进行管理,所述管理包括添加、修改和删除中的至少一项。
24.本发明实施例提供的云服务监控告警系统,监控采集模块按照监控采集周期,调用不同的插件,从而实现对不同的监控对象进行指标数据采集,且对采集的指标数据进行汇聚处理。告警模块判断采集得到的指标数据或汇聚处理得到的指标数据是否符合告警规则,在符合告警规则时,说明业务系统的运行出现异常,需要进行告警,因此生成告警通知,进而推送告警通知,以便及时排查云服务资源及业务异常,定位并处理故障。可见,基于本发明实施例提供的系统使用户全面高效展示云服务资源的使用情况及业务运行状况,在业务量增多后及时收到告警通知并提前进行服务扩容,保证业务系统顺畅运行。
附图说明
25.图1为本发明一实施例中云服务监控告警系统的结构框图;
26.图2为本发明一实施例中监控采集模块的结构示意图;
27.图3为本发明一实施例中云服务监控告警系统的结构框图。
具体实施方式
28.第一方面,本发明实施例提供一种云服务监控告警系统。
29.参见图1~3,该系统包括:
30.监控采集模块,用于根据配置的监控采集周期,通过不同的插件采集不同的监控对象的指标数据以及对采集的指标数据进行汇聚处理;
31.告警模块,用于在采集或汇聚得到的指标数据符合告警规则时,生成相应的告警通知,并推送所述告警通知。
32.也就是说,监控采集模块的作用是按照监控采集周期,调用不同的插件,从而实现对不同的监控对象进行指标数据采集,且对采集的指标数据进行汇聚处理。告警模块的作用是判断采集得到的指标数据或汇聚处理得到的指标数据是否符合告警规则,在符合告警规则时,说明业务系统的运行出现异常,需要进行告警,因此生成告警通知,进而推送告警通知,以便及时排查云服务资源及业务异常,定位并处理故障。
33.在一个实施例中,所述监控采集模块可以包括采集调度单元和多种采集插件,其中:
34.所述多种采集插件中包括实时插件和汇聚插件,所述实时插件用于对对应的监控对象的指标数据进行实时的监控采集,得到实时指标,不同的监控对象采用不同的实时插
件进行监控采集;所述汇聚插件用于对所述实时插件采集的实时指标进行汇聚处理,得到汇聚指标;
35.所述采集调度单元用于控制各个插件的采集周期和各个插件的执行调度,且支持各个插件的顺序调度和并发调度两种方式。
36.其中,采集调度单元的作用是控制监控采集的周期和各个插件的调度。其中,周期和调度方式可以配置,例如,插件a采集监控对象b的指标数据的周期为5分钟,即每隔5分钟插件a采集一次监控对象b的指标数据。调度方式包括各个插件是顺序调度还是并发调度。顺序调度,例如,在某个时刻需要调度5个插件,这5个插件是按顺序逐个调度,还是一起同时调度。
37.其中,一个监控对象的指标数据需要一个插件进行监控采集。
38.其中,所述多种采集插件有两种,一种是实时插件,一种是汇聚插件,一个实时插件的作用是对该实时插件对应的监控对象的指标数据进行实时采集,得到的指标数据被称为实时指标。一个汇聚插件的作用是对一个实时指标进行汇聚处理,从而得到汇聚指标。
39.其中,一个监控对象的指标数据可以包括该监控对象的元数据、状态指标、性能指标等。
40.可见,监控采集模块是采用插件模式实现,例如,plugin插件模式。
41.当然,为了能够采集到指标数据,系统中还需要包括api(中文为应用程序编程接口)。基于标准api可以对外提供标准的监控服务能力。
42.可见,本发明实施例中的监控采集模块的核心是采集调度单元和各种插件。
43.在一个实施例中,本发明实施例提供的系统还可以包括:
44.数据库集群,用于存储采集得到的实时指标和汇聚处理得到的汇聚指标。
45.例如,数据库集群可以采用mariadb数据库,用来存储实时指标和汇聚指标。
46.在一个实施例中,所述汇聚插件对实时指标的汇聚方式可以包括:计算在预设时间段内的实时指标的平均值、最大值、最小值和求和值中的至少一项。
47.在一个实施例中,所述告警模块可以通过日志监控告警组件实现告警通知的生成和推送。
48.其中,日志监控告警组件即logging monitoring and alerting组件,简称为lma组件,该组件是服务于openstack的一套监控运维组件。本发明实施例中利用该组件生成告警通知,且将告警通知以邮件、短信、站内信、电话语音、微信等方式推送给相应人员。告警通知的推送通道可以选择平台内部消息中心,也可以选择外部的第三方服务集成。
49.在一个实施例中,本发明实施例提供的系统中还可以包括:
50.通用漏洞披露组件,用于收集业务系统的安全漏洞和披露的安全信息。
51.其中,通用漏洞披露组件的英文为common vulnerabilities and exposures,简称为cve组件,该组件是一个安全项目,使用安全内容自动化协议来收集有关安全漏洞和披露的信息,从而便于后续对业务系统进行漏洞修补等操作,提高基于云服务的业务系统的安全性。
52.可理解的是,本发明实施例提供的系统中,监控采集模块采用插件模式,插件基于模型驱动,模型采用面向监控对象设计,从运维的角度识别运维对象即监控对象,从元数据、状态指标、性能指标三大维度,对监控对象进行指标采集。
53.其中,告警规则不论是预制的还是用户自定义的,告警规则大致包括:
54.对在1分钟、5分钟、15分钟、30分钟或60分钟等周期内采集的指标数据进行计算,例如,计算平均值、最大值、最小值、求和值,进而判断计算值和某个告警阈值之间的关系,或者判断汇聚得到的指标数据和某个告警阈值之间的关系,进而得知指标是否符合告警规则。告警的推送方式可以包括每5分钟、10分钟、15分钟、30分钟、1小时、2小时或3小时推送一次,或者仅推送一次。不同的指标数据具有不同的单位。通常每1分钟采集一次指标数据,每5分钟、15分钟、30分钟、60分钟统计一次平均值、最大值、最小值、求和值。
55.在一个实施例中,本发明实施例提供的系统中还可以包括:
56.监控数据查询模块,用于提供监控数据查询界面,以使用户在所述监控数据查询界面中输入第一查询条件和选择查询方式,所述第一查询条件包括实例id、实例名称、宿主机、租户id、租户名称和ip地址中的至少一项,所述查询方式包括实时监控、一日内监控、六月内监控和自定义监控中的至少一项。
57.其中,自定义监控,例如,用户可以设置3天内监控。
58.其中,第一查询条件是指查询监控数据条件,监控数据是指插件所采集到的各个指标数据。
59.例如,用户在监控数据查询界面中设置租户名称为aa,设置查询方式为一日内监控,则在监控数据查询界面上展示的查询结果为租户名称为aa的租户在最近的一日内的各个指标数据。
60.在一个实施例中,本发明实施例提供的系统中还可以包括:
61.监控展示模块,用于展示监控采集到的各个元数据,且以图形面板的形式展示至少一项汇聚指标。
62.即,监控展示模块会展示插件所采集到的元数据,且监控展示模块还会以图形面板的方式展示至少一个汇聚指标,其中汇聚指标,例如,cpu使用率均值、cpu使用率峰值、内存使用率均值、内存使用率峰值、存储使用率、网络流量等。而且图形面板支持最近一天、最近30天的监控数据的查看。
63.在一个实施例中,本发明实施例提供的系统中还可以包括:
64.告警监控模块,包括实时监控单元和历史告警查询单元,所述实时监控单元用于展示实时生成的告警通知,所述历史告警查询单元用于筛选符合第二查询条件的历史告警记录并展示,且支持将筛选出来的历史告警记录导出为excel表格。
65.也就是说,告警通知支持实时监控和历史查询。具体的,通过实时监控单元可以实现对实时生成的告警通知的展示。用户可以设置第二查询条件,历史告警查询单元会根据用户设置的第二查询条件筛选符合条件的历史告警记录,然后展示筛选得到的历史告警记录,而且在界面中还支持用户将筛选得到的历史告警记录导出为excel表格。
66.在一个实施例中,本发明实施例提供的系统中还可以包括:
67.告警规则管理模块,用于对各个告警规则进行管理,所述管理包括添加、修改和删除中的至少一项。
68.也就是说,用户可以通过告警规则管理模块添加、修改和删除告警规则,而且可以设置告警通知的推送方式,例如,每3分钟推送一次,每5分钟推送一次,还是仅推送一次。
69.可理解的是,通过对云服务监控告警系统的设计,可以实现自动监控云服务资源
运行状态、自动监控各个数据指标的使用情况并对监控项设置告警规则,在指标数据达到告警阈值时发送告警通知,从而及时获取异常信息,查询异常原因,方便的了解云服务资源现状,在业务量增多后及时收到告警通知并提前进行服务扩容。
70.可理解的是,本发明实施例提供的云服务监控告警系统是云服务资源详细全面展示的基础,核心是监控采集和告警通知,所有云服务资源对应的各种指标及告警规则都是通过本发明实施例提供的系统关联起来的,从而全面高效展示云服务资源的使用情况及业务运行状况。本发明实施例提供的系统可以帮助企业全面掌控云服务资源和业务系统的使用情况及运行状况,保证业务系统顺畅运行,降低运维成本。
71.可理解的是,本发明实施例提供的系统中,支持预制大量告警规则,同时还需支持自定义告警规则,根据告警规则确定是否存在异常,在存在异常时发出告警通知。
72.参见图2,实时插件和汇聚插件都包括多种:
73.libvirt:用于管理虚拟化平台的开源的api,是后台程序和管理工具。它可以用于管理虚拟化技术。
74.sla:服务级别协议(英文为service level agreement),可以用来提高开发过程的质量,减少项目失败的风险,加强与客户之间的关系。
75.oss:对象存储(英文为object storage service)是一种海量、安全、低成本、高可靠的云存储服务。
76.slb:服务器负载均衡(英文为server load balancing),可以看作热备份路由器协议的扩展,实现多个服务器之间的负载均衡。
77.ecs:云服务器(英文为elastic compute service)是一种简单高效、安全可靠、弹性可伸缩的计算服务。
78.rds:关系型数据库服务(英文为relational database service)的简称,是一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。
79.ceph:是一种分布式文件系统。
80.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
81.本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
82.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
技术特征:
1.一种云服务监控告警系统,其特征在于,包括:监控采集模块,用于根据配置的监控采集周期,通过不同的插件采集不同的监控对象的指标数据以及对采集的指标数据进行汇聚处理;告警模块,用于在采集或汇聚得到的指标数据符合告警规则时,生成相应的告警通知,并推送所述告警通知。2.根据权利要求1所述的系统,其特征在于,所述监控采集模块包括采集调度单元和多种采集插件,其中:所述多种采集插件中包括实时插件和汇聚插件,所述实时插件用于对对应的监控对象的指标数据进行实时的监控采集,得到实时指标,不同的监控对象采用不同的实时插件进行监控采集;所述汇聚插件用于对所述实时插件采集的实时指标进行汇聚处理,得到汇聚指标;所述采集调度单元用于控制各个插件的采集周期和各个插件的执行调度,且支持各个插件的顺序调度和并发调度两种方式。3.根据权利要求2所述的系统,其特征在于,所述汇聚插件对实时指标的汇聚方式包括:计算在预设时间段内的实时指标的平均值、最大值、最小值和求和值中的至少一项。4.根据权利要求2所述的系统,其特征在于,还包括:数据库集群,用于存储采集得到的实时指标和汇聚处理得到的汇聚指标。5.根据权利要求1所述的系统,其特征在于,所述告警模块通过日志监控告警组件实现告警通知的生成和推送。6.根据权利要求1所述的系统,其特征在于,还包括:通用漏洞披露组件,用于收集业务系统的安全漏洞和披露的安全信息。7.根据权利要求1所述的系统,其特征在于,还包括:监控数据查询模块,用于提供监控数据查询界面,以使用户在所述监控数据查询界面中输入第一查询条件和选择查询方式,所述第一查询条件包括实例id、实例名称、宿主机、租户id、租户名称和ip地址中的至少一项,所述查询方式包括实时监控、一日内监控、六月内监控和自定义监控中的至少一项。8.根据权利要求2所述的系统,其特征在于,还包括:监控展示模块,用于展示监控采集到的各个元数据,且以图形面板的形式展示至少一项汇聚指标。9.根据权利要求1所述的系统,其特征在于,还包括:告警监控模块,包括实时监控单元和历史告警查询单元,所述实时监控单元用于展示实时生成的告警通知,所述历史告警查询单元用于筛选符合第二查询条件的历史告警记录并展示,且支持将筛选出来的历史告警记录导出为excel表格。10.根据权利要求1所述的系统,其特征在于,还包括:告警规则管理模块,用于对各个告警规则进行管理,所述管理包括添加、修改和删除中的至少一项。
技术总结
本发明提供一种云服务监控告警系统,系统包括:监控采集模块,用于根据配置的监控采集周期,通过不同的插件采集不同的监控对象的指标数据以及对采集的指标数据进行汇聚处理;告警模块,用于在采集或汇聚得到的指标数据符合告警规则时,生成相应的告警通知,并推送所述告警通知。基于本发明实施例提供的系统使用户全面高效展示云服务资源的使用情况及业务运行状况,在业务量增多后及时收到告警通知并提前进行服务扩容,保证业务系统顺畅运行。保证业务系统顺畅运行。保证业务系统顺畅运行。
技术研发人员:肖峰
受保护的技术使用者:浪潮云信息技术股份公司
技术研发日:2023.04.12
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:中文命名实体识别方法及装置、介质、设备与流程 下一篇:显示面板及电子设备的制作方法
