基于冷启动的宿主机高可用预测方法、装置和电子设备与流程

未命名 09-18 阅读:93 评论:0


1.本发明属于云计算技术领域,具体涉及一种基于冷启动的宿主机高可用预测方法、装置和电子设备。


背景技术:

2.伴随云计算的不断发展,在业务上云逐渐成为主流,云也成为新风尚的代名词。作为基础设施层,面向客户的主要交付方式为云主机,云主机运行的稳定性决定了客户业务的稳定性。
3.而宿主机的故障会对云主机运行造成影响,为了减少云计算系统的停工时间,以保证云计算服务的高度可用性,在相关技术中,在宿主机发生故障后,采集云主机和宿主机的性能数据,并根据该性能数据进行故障诊断和故障处理。
4.但是,在故障发生,到诊断出具体故障以及进行相应故障处理之间,会存在时延,该时延会降低云计算服务的可用性,进而降低了客户业务的稳定性。


技术实现要素:

5.本发明的目的是提供一种基于冷启动的宿主机高可用预测方法、装置和电子设备,在发生故障之前便可以采集宿主机的性能数据、性能数据变化趋势图和日志事件,并基于该性能数据、性能数据变化趋势图和日志事件预测宿主机在未来可能发生的故障,实现了宿主机的高可用性预测,这样能够提前预测所述宿主机的故障,以及时采用相应的故障处理措施。
6.为了解决上述技术问题,本发明是这样实现的:第一方面,本发明提供了一种基于冷启动的宿主机高可用预测方法,该方法包括:获取宿主机在第一历史时间段内的第一性能数据、第一日志数据和第一性能数据变化趋势图,其中,所述第一日志数据包括报错信息和告警信息中的至少一项,所述第一性能数据包括预设性能指标的性能参数,所述第一性能数据变化趋势图指示所述第一性能数据中目标性能指标的性能参数的变化趋势,所述预设性能指标包括至少一个性能指标,所述目标性能指标包括所述预设性能指标中的每一个性能指标;分别从所述第一性能数据中提取第一特征信息、从所述第一日志数据中提取第二特征信息以及从所述第一性能数据变化趋势图中提取第三特征信息,其中,所述第三特征信息指示第一性能参数和第二性能参数的关联关系,所述第一性能数据包括所述第一性能参数和第二性能参数;根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息。
7.第二方面,本发明还提供了一种基于冷启动的宿主机高可用预测装置,该装置包括:第一获取模块,用于获取宿主机在第一历史时间段内的第一性能数据、第一日志
数据和第一性能数据变化趋势图,其中,所述第一日志数据包括报错信息和告警信息中的至少一项,所述第一性能数据包括预设性能指标的性能参数,所述第一性能数据变化趋势图指示目标性能指标的性能参数的变化趋势,所述预设性能指标包括至少一个性能指标,所述目标性能指标包括所述预设性能指标中的每一个性能指标;第一特征提取模块,用于分别从所述第一性能数据中提取第一特征信息、从所述第一日志数据中提取第二特征信息以及从所述第一性能数据变化趋势图中提取第三特征信息,其中,所述第三特征信息指示第一性能参数和第二性能参数的关联关系所述第一性能数据包括所述第一性能参数和第二性能参数;第一特征融合模块,用于对所述第一特征信息、所述第二特征信息以及所述第三特征信息进行特征融合处理,得到目标特征信息;预测模块,用于根据所述目标特征信息,预测所述宿主机在未来时刻的故障信息。
8.第三方面,本发明还提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
9.第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
10.在本发明实施例中,在发生故障之前便可以采集宿主机的性能数据、性能数据变化趋势图和日志数据,并基于该性能数据、性能数据变化趋势图和日志数据,来预测宿主机在未来可能发生的故障,实现了宿主机的高可用性预测,进而能够提前预测宿主机的故障信息,以及时采用相应的故障处理措施。
附图说明
11.图1是本发明提供的一种基于冷启动的宿主机高可用预测方法的流程图;图2是本发明提供的另一种基于冷启动的宿主机高可用预测机制的结构示意图;图3是本发明实施例中的第一性能数据的示意图;图4是本发明实施例中的第一性能数据与第一性能数据变化趋势图的转换示意图;图5是本发明实施例中的一种目标模型的架构示意图;图6是本发明提供的一种基于冷启动的宿主机高可用预测装置的结构示意图;图7是本发明提供的一种电子设备的结构图。
具体实施方式
12.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
13.本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
14.为了便于说明本发明实施例提供的基于冷启动的宿主机高可用预测方法,先对以下名词或术语进行解释说明:1、高可用性:是指通过专门的系统设计,减少系统的停工时间,以保证服务的高度可用性。
15.2、云主机,即虚拟机。
16.3、宿主机,即物理机,在一个云计算系统中,通常由一个宿主机或多个宿主机为云主机提供数据和计算支撑。
17.4、冷启动,即采用从无到有的方式,自动化的实现数据采集、模型训练、使用模型预测故障,该过程中不需要人工标注语料。
18.在相关技术中,为了减少云计算系统的停工时间,以保证云计算服务的高度可用性,通常在宿主机发生故障后,通过代理采集云主机和宿主机的性能数据,并根据该性能数据进行故障诊断。在相关技术中,在该性能数据超过设定阈值时会进行资源优化,资源优化的方式为热迁移高负载的云主机。同时相关技术的方案在预测时通过连续次数来增加判断的准确性,即连续多少次超过阈值才进行资源优化,默认为3次。
19.为了便于理解本发明提供的互联网服务信息确定方法、互联网服务信息确定装置和电子设备,本发明结合附图进行了如下说明:请参阅图1,本发明实施例提供的一种基于冷启动的宿主机高可用预测方法,可以包括以下步骤:步骤101、获取宿主机在第一历史时间段内的第一性能数据、第一日志数据和第一性能数据变化趋势图,其中,所述第一日志数据包括报错信息和告警信息中的至少一项,所述第一性能数据包括预设性能指标的性能参数,所述第一性能数据变化趋势图指示所述第一性能数据中目标性能指标的性能参数的变化趋势,所述预设性能指标包括至少一个性能指标,所述目标性能指标包括所述预设性能指标中的每一个性能指标。
20.一种实施方式中,第一历史时间段可以是位于当前时刻之前的、一定时长的历史时间,如采集当前时刻之间的一个小时或1天等固定时长内的数据。
21.另一种实施方式中,可以基于预设的触发条件来触发数据的采集。例如:在某一性能指标达到预设阈值(如中央处理器(central process unit,cpu)占用量达到50%,或者cpu在短时间内的占用量增速过快等触发条件)时,触发对过去一段时间内的上述第一性能数据、第一日志数据和第一性能数据变化趋势图进行采集或获取。
22.一种实施方式中,采集性能数据的方式可以是获取代理采集的宿主机的第一性能数据。
23.步骤102、分别从所述第一性能数据中提取第一特征信息、从所述第一日志数据中提取第二特征信息以及从所述第一性能数据变化趋势图中提取第三特征信息,其中,所述第三特征信息指示第一性能参数和第二性能参数的关联关系,所述第一性能数据包括所述第一性能参数和第二性能参数。
24.步骤103、根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息。
25.一种实施方式中,第一性能数据可以包括宿主机的任意性能指标的性能参数,例如:cpu占用量、网络吞吐量、内存利用率、磁盘读写性能等。
26.例如:如图3所示,可以在t1、t2、t3等时刻对宿主机的cpu占用量(记为cpu)、网络吞吐量(记为network)、内存利用率(记为memory)、磁盘读写性能(记为disk)等性能指标对应的性能参数分别进行采集,并将各个时刻采集的离散数据序列作为第一性能数据。
27.可选地,第一性能数据可以通过prometheus提供的node exporter(节点导出器)导出得到。其中,prometheus是一种开源的监控系统和报警系统。
28.一种实施方式中,第一日志数据可以包括宿主机的日志事件信息,如告警信息报错信息等。
29.需要说明的是,机器发生故障前会出现一系列的变化,可能表现为在系统日志中打印报错和告警信息等,宿主机的日志事件中的报错信息或告警信息中的可以用于辅助判断宿主机的故障信息。
30.一种实施方式中,第一性能数据变化趋势图可以根据一段时间内的第一性能数据确定,如:第一性能数据包括在时序上依次采集的多个性能指标的性能参数,则第一性能数据变化趋势图可以包括每一个性能指标各自的性能参数的变化趋势。
31.需要说明的是,通过对第一性能数据变化趋势图进行特征提取,可以获得第一性能参数和第二性能参数的关联关系,例如:假设第一性能数据包括在时序上依次采集的同一性能指标的第一性能参数和第二性能参数,则第一性能数据变化趋势图可以指示第一性能参数和第二性能参数之间的变化趋势;或者,第一性能数据包括在同一时间采集的第一性能指标的第一性能参数和第二性能指标的第二性能参数,则第一性能数据变化趋势图可以指示第一性能参数和第二性能参数之间的关联关系。
32.本实施方式中,通过第三特征信息可以获取不同性能指标之间、同一性能指标不同时刻的关联信息,体现了第一性能数据的全局特征,基于该第三特征信息可以降低故障预测的误判概率。
33.而在相关技术中,更多的关注采集的离散的性能指标,该方案难以获取不同指标之间、同一指标不同时刻的关联信息,缺少全局概念,易出现误判的情况。
34.一种实施方式中,可以采用matplotlib工具包将第一性能数据转化为变化趋势图,以对第一性能数据中的第一性能参数和第二性能参数之间的关联信息进行补充,进而覆盖突发性业务(如性能参数飙升又回落)的场景,降低误告警风险。其中,matplotlib工具为一种python语言的2d绘图库。
35.例如:如图4所示,可以在t1、t2、t3等时刻对宿主机的cpu占用量(记为cpu)、网络吞吐量(记为network)、内存利用率(记为memory)、磁盘读写性能(记为disk)等性能指标对应的性能参数分别进行采集,然后根据同一时刻不同性能指标之间的关联关系,或同一性能指标在不同时刻的性能参数的关联关系来补充关联信息,最终基于该关联信息和采集的性能参数,绘制每一个性能指标各自对应的性能数据变化趋势图。
36.可选地,可以基于预设模式(pattern)来进行特征提取。
37.第二特征信息的预设模式(pattern)可以包括每种故障类型的故障数量或者每种故障等级的故障数量,或者是故障总数等,或者,也可以对日志数据进行事件抽取以事件链标记故障前的变化,具体可以根据实际情况进行调整。
38.例如:如下表1所示,可以按照预设模式(pattern)从系统日志中提取每种故障类型:表1
日志信息故障类型pattern系统日志内容1ioerror输入/输出错误(input/outputerror,ioerror)系统日志内容2内核锁死软锁定(softlockup)
39.第三特征信息可以指示同一时刻不同性能指标之间的关联关系,或同一性能指标在不同时刻的性能参数的关联关系。
40.本实施方式中,从第一性能数据、日志数据和第一性能数据变化趋势图这三个维度来作为故障预测的观测数据,能够提升观测数据的全局性能,进而降低故障预测的误判概率。
41.值得提出的是,上述特征提取可以表示为:对第一性能数据、第一日志数据和第一性能数据变化趋势图分别进行对应的特征编码,为了便于说明,对于每种特征编码均以经典模型(比如对图形建模的经典模型为cnn)为例进行举例说明,在此不对每种观测数据的编码方式进行限定。
42.作为一种可选的实施方式,所述根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息,包括:对所述第一特征信息、所述第二特征信息以及所述第三特征信息进行特征融合处理,得到目标特征信息;根据所述目标特征信息,预测所述宿主机在未来时刻的故障信息。
43.在一些实施方式中,对所述第一特征信息、所述第二特征信息以及所述第三特征信息进行特征融合处理,可以包括对所述第一特征信息、所述第二特征信息以及所述第三特征信息,进行拼接处理或相加处理,以将三种特征信息融合为一个完整的目标特征信息。
44.这样,可以直接基于该目标特征信息来预测所述宿主机在未来时刻的故障信息,如预测宿主机可能发生的故障类型、可能发生故障的时间、发生故障的概率等,能够降低根据所述第一特征信息、所述第二特征信息以及所述第三特征信息进行故障预测的复杂程度。
45.需要说明的是,在预测得到故障信息后,可以依据故障信息中指示的故障类型、故障时间、故障概率等信息来决定采取的故障处理措施,具体的,可以将可能发生故障的宿主机上的处理转移至未发生故障的其他宿主机上,以确保云主机的稳定运行。例如:当预测到某一宿主机存在cpu占用量过高的风险时,可以将该宿主机上的处理全部或部分转移至其他可用的宿主机上,以实现云计算系统的稳定运行。
46.作为一种可选地实施方式,所述方法还包括:获取所述宿主机在第二历史时间段的第二性能数据、第二日志数据和第二性能数据变化趋势图,其中,所述第二日志数据包括故障事件的故障信息,且所述第二日志数据还包括在所述故障事件之前的报错信息和告警信息中的至少一项,所述第二性能数据包括所述预设性能指标的性能参数,所述第二性能数据变化趋势图用于指示在相邻时刻采集的所述目标性能指标的性能参数的关联关系;分别从所述第二性能数据中提取第一样本特征信息、从所述第二日志数据中提取
第二样本特征信息以及从所述第二性能数据变化趋势图中提取第三样本特征信息;根据所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型;所述根据所述目标特征信息,预测所述宿主机在未来时刻的故障信息,包括:将所述目标特征信息输入所述目标模型,获取所述目标模型输出的故障信息。
47.其中,第二历史时间段可以是训练目标模型使用的样本数据的采集时间段,该时间段内有已发生的故障。
48.上述第二性能数据、第二日志数据、第二性能数据变化趋势图的含义与上数第一性能数据、第一日志数据、第一性能数据变化趋势图的含义相似,不同之处包括:第一性能数据、第一日志数据和第一性能数据变化趋势图可以是当前采集的用于预测故障信息的数据,而第二性能数据、第二日志数据和第二性能数据变化趋势图是在训练模型的过程中采集的,用于训练预设模型的样本数据。
49.类似的,上述第一样本特征信息、第二样本特征信息和第三样本特征信息的提取方式与第一特征信息、第二特征信息和第三特征信息的提取方式相同,在此不再赘述。
50.可选地,第二日志数据中可以携带标签信息,即已发生的故障的故障信息,如:可以依托相关技术中的故障诊断系统,在判定故障发生后,取当前时刻前t分钟(t可设置)的监控信息,形成标注数据,其中,随故障评估系统的不断优化,可以对训练模型所用的语料的规模、覆盖的故障类型等进行动态扩展。
51.这样,基于该标签信息,能够验证训练过程中的目标模型的准确度,例如:在基于该标签信息确定目标模型的准确度高于某一阈值时,可以结束模型训练过程,得到训练后的目标模型。
52.需要说明的是,相关技术中的宿主机故障诊断是一项相对成熟的技术,具备较高的诊断精度(95%以上)。当诊断系统判定某个计算节点发生某类故障时,从当前时刻取前t(t可配置)分钟内的监控信息作为标注数据的特征值,并将故障类型作为标注数据的标签。这样,依托高精度诊断系统,可以极低的成本构建故障预测的语料库。与人工标注相比,这种自动抽取特定时间段内预定义监控数据的方式具备简便高效、数据规模、故障类型动态可扩展的优点。
53.本实施方式中,可以采用冷启动的方式实现故障预测,从构建训练目标模型的语料数据、训练目标模型、采集用于故障预测的数据、利用目标模型预测故障信息。
54.值得提出的是,在相关技术中,可以采用模型来根据性能数据做故障诊断,其中,模型需要基于大量的人工标注数据进行训练得到,相关技术中的方案主要存在以下缺陷:1、语料标注成本高、规模受限、可扩展性受限。
55.数据的质量、规模会严重影响模型的判断效果,在相关技术中,通常采用人工标注的方式对训练样本进行标注,该标注方式需要定制化指定标注规范(不同领域规范不同),为了保证标注一致性,在实施时至少为三副本标注(三个人标注同一份数据),存在标注成本高、数据规模受限、故障类型受限的问题。
56.2、模型的训练数据仅关注瞬时数据,缺乏样本之间的关联性信息。
57.具体地,相关技术中的训练数据,更多关注采集的离散的性能指标,该方案难以获取不同指标之间、同一指标不同时刻的关联信息,缺少全局概念,易出现误判的情况。
58.而本发明实施例中,可以采用冷启动的方式来采集宿主机的运行数据,并按照运行数据的类型进行对应模式(pattern)的处理,以提取出第二性能数据的第一样本特征信息、第二日志数据的第二样本特征信息和第二性能数据变化趋势图的第三样本特征信息,并基于第一样本特征信息、第二样本特征信息和第三样本特征信息,实现自动化的目标模型训练,在完成目标模型的训练后,则可以利用该目标模型,基于某一故障发生前的运行数据的特征来进行故障信息预测,最后,可以根据预测的故障信息提前获知可能发生的故障,便实现来的基于冷启动的宿主机高可用预测。
59.可选地,所述根据所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型,包括:对所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息进行特征融合处理,得到目标样本特征信息;根据所述目标样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型。
60.本实施方式中,对所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息进行特征融合处理的过程与对所述第一特征信息、所述第二特征信息以及所述第三特征信息进行特征融合处理的过程可以相同,且可以实现降低模型训练过程中的特征复杂程度,进而降低训练难度。
61.一种实施方式中,从所述第一性能数据中提取第一特征信息,包括:根据所述第一性能数据,分别提取所述预设性能指标中每一种性能指标的第一中间特征;对所述每一种性能指标对应的所述第一中间特征进行特征归一化处理,得到所述每一种性能指标对应的第二中间特征;对所述每一种性能指标对应的所述第二中间特征进行第一处理,得到所述第一特征信息,其中,所述第一处理包括线性变换处理。
62.其中,第一中间特征于性能指标是一一对应的,例如:cpu占用量对应的第一中间特征为[mc1, mc2, ...mcn] ,内存利用率对应的第一中间特征为[mm1, mm2, ...mmn]等。
[0063]
需要说明的是,不同性能指标的度量标准可能不一致,此时,通过对所述每一种性能指标对应的所述第一中间特征进行特征归一化处理,如:通过数据平滑方法对每种性能指标的第一中间特征进行特征归一化(normalization),可以将不同性能指标下的第一中间特征转换至同一标准下,以使不同性能指标下的第一中间特征具有可比性。
[0064]
可选地,对所述每一种性能指标对应的所述第二中间特征进行第一处理,可以将所述每一种性能指标对应的所述第二中间特征合并为一个完整的特征,即将m个第二中间特征合并为1个第一特征信息,m表示预设性能指标中包含的性能指标的数量。
[0065]
可选地,本发明实施例中的线性变换处理,可以是对全部第二中间特征进行加权求和或者其他的线性变换处理,在此对线性变换处理不作具体限定。
[0066]
本实施方式中,能够将不同性能指标下的性能参数的特征信息转化为一个完整的特征,如一个数值或一串字符等,这样,便于降低后续基于该特征信息进行特征融合处理和故障预测的处理的复杂程度。
[0067]
一种实施方式中,从所述第一日志数据中提取第二特征信息,包括:根据所述第一日志数据,提取第三中间特征,所述第三中间特征与预设故障类型对应或与预设故障等级对应;对目标第三中间特征进行第二处理,得到所述第二特征信息,其中,所述第二处理包括拼接处理和线性变换处理中的至少一项,所述目标第三中间特征包括全部的预设故障类型或预设故障等级各自对应的所述第三中间特征。
[0068]
在一些实施方式中,预设故障类型可以包括一种或多种故障类型,其中,在预设故障类型包括多种故障类型的情况下,所述第三中间特征可以是每一故障类型在第一历史时间段内的发生次数。
[0069]
在另一些实施方式中,预设故障等级可以按照故障的严重程度将故障划分为一个或多个故障等级,其中,在预设故障等级包括多个故障等级的情况下,所述第三中间特征可以是每一故障等级下的故障在第一历史时间段内的发生次数。
[0070]
当然,第三中间特征也可以是全部的预设故障类型在第一历史时间段内的发生总数,或者是全部的预设故障等级下的故障在第一历史时间段内的发生总数,在此不构成具体限定。
[0071]
需要说明的是,上述日志数据中的故障类型可以理解为告警类型或报错类型,上述日志数据中的故障等级可以理解为告警的紧急程度、报错的严重程度等,在此不构成具体限定。
[0072]
在一些实施方式中,第二处理用于对每一种故障类型或故障等级各自对应的第三中间特征进行融合,得到一个完整的第二特征信息,例如:假设预设的报错类型包括3种,则有3个第三中间特征与3种报错类型一一对应,具体如:第一历史时间段内的日志数据中包含3个类型a的报错信息,包含1个类型b的报错信息,包含4个类型c的报错信息。
[0073]
可选地,第二处理可以包括拼接处理和线性变换处理中的至少一项,本发明实施例中,以第二处理包括拼接处理和线性变换处理为例进行举例说明,在此不构成具体限定。
[0074]
例如:如图5所示,通过拼接处理用于将h个第三中间特征拼接成一个字符串,h表示第三中间特征的数目,再通过线性变换处理用于将该字符串处理成一个数值,如:根据每一种故障类型的严重程度来确定各个故障类型的权重,并基于该权重对字符串中的每种故障类型的字符进行加权求和。
[0075]
本实施方式中,能够将不同类型或等级的故障特征转化为一个完整的特征,如一个数值,这样,便于降低后续基于该特征信息进行特征融合处理和故障预测的处理的复杂程度。
[0076]
一种实施方式中,从所述第一性能数据变化趋势图中提取第三特征信息,包括:根据所述目标性能指标对应的所述第一性能数据变化趋势图,获取所述目标性能指标对应的第四中间特征信息;对所述预设性能指标中的每一种性能指标对应的所述第四中间特征信息进行第三处理,得到所述第三特征信息,所述第三处理包括拼接处理。
[0077]
在一种可能的实施方式中,可以利用卷积神经网络(convolutional neural networks,cnn)提取第一性能数据变化趋势图的特征。
[0078]
例如:如图5所示,可以将n个第一性能数据变化趋势图分别输入至cnn,以利用cnn
从n个第一性能数据变化趋势图中分别提取每种性能指标对应的趋势图信息,n表示预设性能指标中包含的性能指标数目;然后,经过cnn中的卷积层和池化层,基于上述趋势图信息得到每一种性能指标在变化趋势图这一维度的特征信息;最后,可以对每一种性能指标的特征信息拼接成一个完整的第三特征信息。
[0079]
本实施方式中,能够将不同性能指标的性能数据变化趋势特征转化为一个完整的特征,如一串字符,这样,便于降低后续基于该特征信息进行特征融合处理和故障预测的处理的复杂程度。
[0080]
需要说明的是,目标模型的输入可以是第一特征信息、第二特征信息和第三特征信息,或者,目标模型的输入可以是目标特征信息,或者,目标模型的输入可以是第一性能数据、第一日志数据和第一性能数据变化趋势图。
[0081]
一种实施方式中,在目标模型的输入是第一特征信息、第二特征信息和第三特征信息的情况下,可以采用其他方式或模型提取第一性能数据的第一特征信息、提取第一日志数据的第二特征信息、提取第一性能数据变化趋势图的第三特征信息,目标模型可能还具有将第一特征信息、第二特征信息和第三特征信息融合为目标特征信息的功能。
[0082]
另一种实施方式中,在目标模型的输入是目标特征信息的情况下,可以采用其他方式或模型提取第一性能数据的第一特征信息、提取第一日志数据的第二特征信息、提取第一性能数据变化趋势图的第三特征信息,以及将第一特征信息、第二特征信息和第三特征信息融合为目标特征信息。
[0083]
再一种实施方式中,在目标模型的输入是第一性能数据、第一日志数据和第一性能数据变化趋势图的情况下,目标模型还具有分别提取第一性能数据的第一特征信息、提取第一日志数据的第二特征信息、提取第一性能数据变化趋势图的第三特征信息的功能,此外,还可能还具有将第一特征信息、第二特征信息和第三特征信息融合为目标特征信息的功能。
[0084]
例如:如图5所示,目标模型包括输入层、编码层和分类模块。
[0085]
1、输入层,用于输入3个输入信息,分别为系统日志、代理采集的性能指标数据和性能数据变化趋势图。
[0086]
2、编码层,用于提取输入层输入的3种输入信息的特征,并将输入层的每种输入信息对应的多维度(如多性能指标或多故障类型)的特征进行特征融合,得到第一特征信息、第二特征信息和第三特征信息;1)对于系统日志,通过预设pattern提取日志中的报错、告警信息数量,记为特征[fl1, ...,fln],通过拼接(concat)和线性变换(linear) 得到该维度的第一特征信息;2)对于性能数据,先提取每种指标一段时间内的性能数据组成特征(以cpu指标为例,特征为[mc1, mc2, ...mcn]),基于不同性能指标的度量标准不统一,为了实现不同度量标准的性能数据特征的统一,可以采用数据平滑方法对每种性能指标进行特征归一化(normalization),最后经过线性变换(linear)得到该维度的第二特征信息;3)对于性能数据变化趋势图,利用cnn提取每种性能指标的趋势图信息,并经过卷积和池化得到每类性能指标在该维度的第三特征信息。
[0087]
3、分类模块,用于将编码层得到的3种维度的特征信息,即第一特征信息、第二特征信息和第三特征信息,以拼接(concat)方式或加权求和的方式进行特征融合,得到目标
特征信息,最终,将融合后的目标特征信息经线性变换(linear),非线性变换(如经relu激活函数引入非线性变换),最后经softmax函数处理,输出故障分类结果。其中,relu激活函数为一种线性整流函数,其又称修正线性单元;softmax为一种归一化指数函数。
[0088]
在本发明实施例中,在发生故障之前便可以采集宿主机的性能数据、性能数据变化趋势图和日志数据,并基于该性能数据、性能数据变化趋势图和日志数据,来预测宿主机在未来可能发生的故障,实现了宿主机的高可用性预测,进而能够提前预测宿主机的故障信息,以及时采用相应的故障处理措施。
[0089]
请参阅图2,本发明实施例提供的另一种基于冷启动的宿主机高可用预测机制可以包括以下模块:数据采集模块,该采集数据模块采集的数据包括如图1所示方法实施例中的第一性能数据、第一日志数据和第一性能数据变化趋势图。
[0090]
数据分析模块,所述数据分析模块用于执行以下过程:1)分别对第一性能数据、第一日志数据和第一性能数据变化趋势图进行特征抽取,得到第一性能数据的向量特征、第一日志数据中的报错/告警数量以及第一性能数据变化趋势图的趋势特征。
[0091]
2)对所述向量特征、所述报错/告警数量以及所述趋势特征进行融合,得到目标特征信息。
[0092]
3)基于目标特征信息进行高可用预测,得到宿主机可能发生的故障类型。
[0093]
最终,由数据分析模块输出预测到的宿主机可能发生的故障类型。
[0094]
本发明实施例中,在发生故障之前便可以采集宿主机的性能数据、性能数据变化趋势图和系统日志,并基于该性能数据、性能数据变化趋势图和系统日志,来预测宿主机在未来可能发生的故障类型,这样能够提前预测宿主机可能发生的故障类型,实现了宿主机的高可用性预测,进而能够及时采用与该故障类型相对应的故障处理措施,提升云计算系统的稳定性。
[0095]
请参阅图6,是本发明实施例提供的一种基于冷启动的宿主机高可用预测装置的结构图,如图6所示,该基于冷启动的宿主机高可用预测装置600,包括:第一获取模块601,用于获取宿主机在第一历史时间段内的第一性能数据、第一日志数据和第一性能数据变化趋势图,其中,所述第一日志数据包括报错信息和告警信息中的至少一项,所述第一性能数据包括预设性能指标的性能参数,所述第一性能数据变化趋势图指示目标性能指标的性能参数的变化趋势,所述预设性能指标包括至少一个性能指标,所述目标性能指标包括所述预设性能指标中的每一个性能指标;第一特征提取模块602,用于分别从所述第一性能数据中提取第一特征信息、从所述第一日志数据中提取第二特征信息以及从所述第一性能数据变化趋势图中提取第三特征信息,其中,所述第三特征信息指示第一性能参数和第二性能参数的关联关系所述第一性能数据包括所述第一性能参数和第二性能参数;预测模块603,用于根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息。
[0096]
可选地,预测模块603,包括:第一融合单元,用于对所述第一特征信息、所述第二特征信息以及所述第三特征
信息进行特征融合处理,得到目标特征信息;预测单元,用于根据所述目标特征信息,预测所述宿主机在未来时刻的故障信息。
[0097]
可选地,基于冷启动的宿主机高可用预测装置600还包括:第二获取模块,用于获取所述宿主机在第二历史时间段的第二性能数据、第二日志数据和第二性能数据变化趋势图,其中,所述第二日志数据包括故障事件的故障信息,且所述第二日志数据还包括在所述故障事件之前的报错信息和告警信息中的至少一项,所述第二性能数据包括所述预设性能指标的性能参数,所述第二性能数据变化趋势图用于指示在相邻时刻采集的所述目标性能指标的性能参数的关联关系;第人特征提取模块,用于分别从所述第二性能数据中提取第一样本特征信息、从所述第二日志数据中提取第二样本特征信息以及从所述第二性能数据变化趋势图中提取第三样本特征信息;训练模块,用于根据所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型;预测模块603具体用于:将所述目标特征信息输入所述目标模型,获取所述目标模型输出的故障信息。
[0098]
可选地,所述训练模块,包括:第二融合单元,用于对所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息进行特征融合处理,得到目标样本特征信息;训练单元,用于根据所述目标样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型。
[0099]
可选地,第一特征提取模块602,包括:第一提取单元,用于根据所述第一性能数据,分别提取所述预设性能指标中每一种性能指标的第一中间特征;第一处理单元,用于对所述每一种性能指标对应的所述第一中间特征进行特征归一化处理,得到所述每一种性能指标对应的第二中间特征;第二处理单元,用于对所述每一种性能指标对应的所述第二中间特征进行第一处理,得到所述第一特征信息,其中,所述第一处理包括线性变换处理。
[0100]
可选地,第一特征提取模块602,还包括:第二提取单元,用于根据所述第一日志数据,提取第三中间特征,所述第三中间特征与预设故障类型对应或与预设故障等级对应;第三处理单元,用于对目标第三中间特征进行第二处理,得到所述第二特征信息,其中,所述第二处理包括拼接处理和线性变换处理中的至少一项,所述目标第三中间特征包括全部的预设故障类型或预设故障等级各自对应的所述第三中间特征。
[0101]
可选地,第一特征提取模块602,还包括:第三提取单元,用于根据所述目标性能指标对应的所述第一性能数据变化趋势图,获取所述目标性能指标对应的第四中间特征信息;第四处理单元,用于对所述预设性能指标中的每一种性能指标对应的所述第四中间特征信息进行第三处理,得到所述第三特征信息,所述第三处理包括拼接处理。
[0102]
本发明实施例提供的基于冷启动的宿主机高可用预测装置600能够实现图1或图2所示的方法实施例实现的各个过程,且能够取得相同的有益效果,为避免重复,这里不再赘述。
[0103]
可选地,如图7所示,本发明实施例还提供一种电子设备700,包括处理器701,存储器702,存储在存储器702上并可在所述处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现如图1或图2所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0104]
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现如图1或图2所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0105]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory, rom)、随机存取存储器(random access memory, ram)、磁碟或者光盘等。
[0106]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0107]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0108]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

技术特征:
1.一种基于冷启动的宿主机高可用预测方法,其特征在于,包括:获取宿主机在第一历史时间段内的第一性能数据、第一日志数据和第一性能数据变化趋势图,其中,所述第一日志数据包括报错信息和告警信息中的至少一项,所述第一性能数据包括预设性能指标的性能参数,所述第一性能数据变化趋势图指示所述第一性能数据中目标性能指标的性能参数的变化趋势,所述预设性能指标包括至少一个性能指标,所述目标性能指标包括所述预设性能指标中的每一个性能指标;分别从所述第一性能数据中提取第一特征信息、从所述第一日志数据中提取第二特征信息以及从所述第一性能数据变化趋势图中提取第三特征信息,其中,所述第三特征信息指示第一性能参数和第二性能参数的关联关系,所述第一性能数据包括所述第一性能参数和第二性能参数;根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息,包括:对所述第一特征信息、所述第二特征信息以及所述第三特征信息进行特征融合处理,得到目标特征信息;根据所述目标特征信息,预测所述宿主机在未来时刻的故障信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述宿主机在第二历史时间段的第二性能数据、第二日志数据和第二性能数据变化趋势图,其中,所述第二日志数据包括故障事件的故障信息,且所述第二日志数据还包括在所述故障事件之前的报错信息和告警信息中的至少一项,所述第二性能数据包括所述预设性能指标的性能参数,所述第二性能数据变化趋势图用于指示在相邻时刻采集的所述目标性能指标的性能参数的关联关系;分别从所述第二性能数据中提取第一样本特征信息、从所述第二日志数据中提取第二样本特征信息以及从所述第二性能数据变化趋势图中提取第三样本特征信息;根据所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型;所述根据所述目标特征信息,预测所述宿主机在未来时刻的故障信息,包括:将所述目标特征信息输入所述目标模型,获取所述目标模型输出的故障信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型,包括:对所述第一样本特征信息、所述第二样本特征信息以及所述第三样本特征信息进行特征融合处理,得到目标样本特征信息;根据所述目标样本特征信息和所述第二日志数据中的故障信息,对预设模型进行训练,以训练得到目标模型。5.根据权利要求1至4中任一项所述的方法,其特征在于,从所述第一性能数据中提取第一特征信息,包括:根据所述第一性能数据,分别提取所述预设性能指标中每一种性能指标的第一中间特
征;对所述每一种性能指标对应的所述第一中间特征进行特征归一化处理,得到所述每一种性能指标对应的第二中间特征;对所述每一种性能指标对应的所述第二中间特征进行第一处理,得到所述第一特征信息,其中,所述第一处理包括线性变换处理。6.根据权利要求1至4中任一项所述的方法,其特征在于,从所述第一日志数据中提取第二特征信息,包括:根据所述第一日志数据,提取第三中间特征,所述第三中间特征与预设故障类型对应或与预设故障等级对应;对目标第三中间特征进行第二处理,得到所述第二特征信息,其中,所述第二处理包括拼接处理和线性变换处理中的至少一项,所述目标第三中间特征包括全部的预设故障类型或预设故障等级各自对应的所述第三中间特征。7.根据权利要求1至4中任一项所述的方法,其特征在于,从所述第一性能数据变化趋势图中提取第三特征信息,包括:根据所述目标性能指标对应的所述第一性能数据变化趋势图,获取所述目标性能指标对应的第四中间特征信息;对所述预设性能指标中的每一种性能指标对应的所述第四中间特征信息进行第三处理,得到所述第三特征信息,所述第三处理包括拼接处理。8.一种基于冷启动的宿主机高可用预测装置,其特征在于,包括:第一获取模块,用于获取宿主机在第一历史时间段内的第一性能数据、第一日志数据和第一性能数据变化趋势图,其中,所述第一日志数据包括报错信息和告警信息中的至少一项,所述第一性能数据包括预设性能指标的性能参数,所述第一性能数据变化趋势图指示目标性能指标的性能参数的变化趋势,所述预设性能指标包括至少一个性能指标,所述目标性能指标包括所述预设性能指标中的每一个性能指标;第一特征提取模块,用于分别从所述第一性能数据中提取第一特征信息、从所述第一日志数据中提取第二特征信息以及从所述第一性能数据变化趋势图中提取第三特征信息,其中,所述第三特征信息指示第一性能参数和第二性能参数的关联关系所述第一性能数据包括所述第一性能参数和第二性能参数;预测模块,用于根据所述第一特征信息、所述第二特征信息以及所述第三特征信息,预测所述宿主机在未来时刻的故障信息。9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于冷启动的宿主机高可用预测方法中的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于冷启动的宿主机高可用预测方法中的步骤。

技术总结
本发明公开了一种基于冷启动的宿主机高可用预测方法、装置和电子设备,属于云计算技术领域,其中,方法包括:获取宿主机在第一历史时间段内的第一性能数据、第一日志数据和第一性能数据变化趋势图;分别从第一性能数据中提取第一特征信息、从第一日志数据中提取第二特征信息以及从第一性能数据变化趋势图中提取第三特征信息;根据第一特征信息、第二特征信息以及第三特征信息,预测宿主机在未来时刻的故障信息。本发明实施例能够在发生故障之前便基于宿主机的性能数据、性能数据变化趋势图和日志数据来预测宿主机在未来可能发生的故障,实现了宿主机的高可用性预测。实现了宿主机的高可用性预测。实现了宿主机的高可用性预测。


技术研发人员:吴婷 李向瑜 楚昕 陆鋆
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2023.08.16
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐