一种适用于服务器的性能退化与可靠性关联方法与流程

未命名 10-09 阅读:144 评论:0


1.本发明涉及计算机技术领域,具体涉及一种适用于服务器的性能退化与可靠性关联方法。


背景技术:

2.随着服务器产品应用范围的日益广泛,面临的工作环境日益复杂,对服务器提出了更高的质量要求。在服务器的寿命周期内,产品开发阶段往往依据标准进行设计,对于真实的适用环境和条件却难以真是全面的掌握,导致产品出现实验室难以复现的失效问题,继而导致产品寿命相比于试验缩短,使得售后维护策略存在缺陷,产品时常发生不能正常工作的情况,经常给客户造成难以挽回的损失。
3.现在服务器产品往往根据板卡元器件、硬盘等核心部件的mtbf(mean time between failure,平均无故障工作时间)预计作为依据,而板卡mtbf预计往往用计数法与应力法,其中计数法以元器件数量与失效率为依据,考虑恒定温度条件下的失效率和器件数量;应力法以元器件规格书与降额为依据,考虑产品的工作电应力与额定应力的关系进行计算。
4.其中,计数法与应力法都是基于恒定应力条件下计算得到的,并且认为实际工作条件应力水平在额定应力范围内,而现实工作条件应力水平并非恒定值,且时常有超过额定应力范围的情况,对产品寿命影响较大,进而导致预计与实际偏差较大,导致产品在市场端出现很多故障突发情况,经常给售后维护带来非预期的压力与成本。
5.在寿命预测中,现在方法通常以发生故障时或后的时间作为计算数据,忽略了产品工作原理和过程数据的描述,对于性能与可靠性的关系不够重视,导致故障出现后才进行维护处理。而服务器涉及信息安全储存、保密等要求,出现故障后经常造成信息的丢失,给客户造成难以挽回的损失。


技术实现要素:

6.有鉴于此,本发明基于服务器的关键器件性能参数退化模型的研究,提出了一种基于实际应力计算的寿命预测模型与方法。使得当性能参数达到阈值前,即故障发生前就进行维护更新,避免给客户造成数据损失,优化了产品生命周期管理。
7.基于上述目的,第一方面,本发明提供了一种适用于服务器的性能退化与可靠性关联方法,包括以下步骤:
8.在服务器工作条件下,监测采集器件采用的服务器中关键器件的工作电应力和温度应力,获取并记录监测数据;
9.通过统计分析对获取的监测数据进行处理,得到性能参数的退化趋势;
10.基于性能参数的退化趋势和可靠性模型,实时计算得到性能阈值;
11.根据不同等级的性能阈值,制定相应的维护策略。
12.作为本发明的进一步方案,所述服务器中关键器件包括cpu、内存、硬盘、板卡以及
网卡,所述服务器的板卡中还包括电容,所述电容为电解电容。
13.作为本发明的进一步方案,所述关键器件的工作电应力和温度应力为通过采集器件的传感器实时监测获得。
14.作为本发明的进一步方案,所述统计分析包括对监测数据进行趋势分析、回归分析或概率分布分析。
15.作为本发明的进一步方案,所述可靠性模型是基于性能参数的退化趋势与器件寿命之间的关联关系建立;所述性能阈值是根据性能参数的退化趋势和可靠性模型计算得到。
16.作为本发明的进一步方案,所述维护策略包括预警、维护、更换或隔离关机的措施;其中,预警措施是在性能阈值达到预警水平时发出警告信号或通知;维护措施包括对器件进行清洁、散热优化、固件升级等操作;更换措施是在性能阈值达到更换水平时更换相应的器件或板卡;隔离关机措施是在性能阈值达到停止工作水平时将相应的板卡或整个服务器隔离或关机。
17.作为本发明的进一步方案,所述性能参数包括容值、频率响应、传输速率等。
18.作为本发明的进一步方案,所述电解电容的失效机理中,影响容值参数稳定的应力为纹波电流和环境温度,所述电解电容的预计寿命的计算公式为:
[0019][0020]
其中
[0021][0022]
其中,ln:实际纹波电流和环温下的预计寿命;
[0023]
l0:额定纹波电流和额定温度上限条件下的寿命;
[0024]
t0:电容温度的上限;
[0025]
tn:电容实际运行的环温;
[0026]
δtn:tn的环温下流过in的纹波电流时电容中心的温升;
[0027]
δt0:t0的环温下流过额定纹波电流时电容中心的温升;
[0028]v0
:电容额定电压;
[0029]vn
:电容实际运行时的电压
[0030]in
:电容实际流过的纹波电流
[0031]
i0:电容额定纹波电流
[0032]
k:加速系数,取决于k(f);
[0033]
k(f):纹波电流的频率系数。
[0034]
作为本发明的进一步方案,为了表征不同阶段纹波电流和环境温度条件的变化,相对于标准条件下的总运行时间t
total
的计算公式为:
[0035]
t
total
=t
10
+t
20
+t
30
+

+t
n0
[0036]
其中,
[0037][0038][0039][0040][0041]
其中,t
total
:相对于标准条件下的总运行时间;
[0042]
t1、t2、t3…
:每个运行条件下的运行时长;
[0043]
t
10
、t
20
、t
30

:每个条件下相对于标准条件下的运行时长;
[0044]
l1、l2、l3…
:每个运行条件下的预计寿命。
[0045]
作为本发明的进一步方案,电容的容值退化过程的函数表达式为:
[0046][0047]
作为本发明的进一步方案,关键器件的寿命预计数学模型是根据器件在不同应力条件下的性能参数寿命预计数学模型;实时计算得到的性能阈值用于判断关键器件的性能状态,包括警告阈值和工作停止阈值,以及相应的维护策略;所述维护策略根据不同等级的性能阈值制定,包括提醒更换器件或板卡、隔离关机、记录详细信息等操作;所述维护策略根据器件的性能退化情况和可靠性关联模型的计算结果,提前发出更新维护需求,以减少系统故障和数据丢失的风险;所述维护策略通过系统健康监控系统实施,实现对服务器的实时监测和维护操作。
[0048]
本发明的又一方面,还提供了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述任一项根据本发明的适用于服务器的性能退化与可靠性关联方法。
[0049]
本发明的再一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被执行时实现上述任一项根据本发明的适用于服务器的性能退化与可靠性关联方法。
[0050]
与现有技术相比较而言,本发明提出的一种适用于服务器的性能退化与可靠性关联方法,具有以下有益效果:
[0051]
1.技术支持服务器动态稳定性与可靠性的健康管理:该方法提供了技术支持,帮助服务器在使用过程中实现动态稳定性和可靠性的健康管理。通过监测关键器件的工作电应力和温度应力,并进行统计分析和计算,可以及时了解器件的性能退化情况,提前采取维护措施,从而保证服务器的稳定性和可靠性。
[0052]
2.建立性能参数与可靠性关联的数学模型:该方法对使用条件和过程中器件的性能进行研究,并建立了性能参数与可靠性之间的关联数学模型。这样可以更准确地预测器件的寿命和性能退化趋势,为服务器的维护和更新提供科学依据。
[0053]
3.提前发出更新维护需求,避免系统故障和数据丢失:通过实时计算得到的性能阈值,可以在器件或板卡功能丧失前及时发出更新维护需求。这有助于避免因性能降低导
致系统故障和数据丢失,减少对用户造成的损失和不便。
[0054]
4.优化服务器的售后维护策略:该方法提供了器件寿命的预测方法和性能退化与可靠性的关系模型。这使得服务器的售后维护策略可以更加精确和针对性,根据实际情况进行预警、维护、更换或隔离关机等操作,提高维护效率和成本效益。
[0055]
综上所述,该适用于服务器的性能退化与可靠性关联方法通过监测和分析关键器件的工作条件,建立数学模型并制定相应的维护策略,实现了对服务器动态稳定性和可靠性的有效管理,提高了服务器的性能和可靠性,减少了系统故障和数据丢失的风险,为用户提供了更好的使用体验和服务。
[0056]
本技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
[0057]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0058]
在图中:
[0059]
图1为本发明实施例的适用于服务器的性能退化与可靠性关联方法中幂律性能退化数学模型的测试图;
[0060]
图2为本发明实施例的适用于服务器的性能退化与可靠性关联方法中纹波电流示意图。
具体实施方式
[0061]
下面,结合附图以及具体实施方式,对本技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
[0062]
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0063]
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备固有的其他步骤或单元。
[0064]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0065]
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不
是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0066]
下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0067]
本发明基于服务器的关键器件性能参数退化模型的研究,提出了一种基于实际应力计算的寿命预测模型与方法。使得当性能参数达到阈值前,即故障发生前就进行维护更新,避免给客户造成数据损失,优化了产品生命周期管理。
[0068]
在本发明中,产品完成规定功能的能力是由其性能参数保证的,动态环境应力对功能的影响也体现在性能参数的变化上,根据器件在不用应力条件下,性能参数的寿命预计数学模型,估算了器件的使用寿命。
[0069]
产品的性能参数逼近极限值通常是一个逐渐的退化过程,通过数学建模,对该退化过程进行量化的描述;
[0070]
在产品工作使用条件下,监测采集器件的工作电应力与温度应力,通过统计分析的方式进行数据处理,利用性能退化与可靠性关联的数学模型,实时计算得到性能阈值,针对不同等级的阈值,制定了相应的维护策略。
[0071]
参见图1至图2所示,本发明的实施例提供了一种适用于服务器的性能退化与可靠性关联方法,该方法包括以下步骤:
[0072]
在服务器工作条件下,监测采集器件采用的服务器中关键器件的工作电应力和温度应力,获取并记录监测数据;
[0073]
通过统计分析对获取的监测数据进行处理,得到性能参数的退化趋势;
[0074]
基于性能参数的退化趋势和可靠性模型,实时计算得到性能阈值;
[0075]
根据不同等级的性能阈值,制定相应的维护策略。
[0076]
其中,所述关键器件的工作电应力和温度应力为通过采集器件的传感器实时监测获得。
[0077]
所述统计分析包括对监测数据进行趋势分析、回归分析或概率分布分析;所述可靠性模型是基于性能参数的退化趋势与器件寿命之间的关联关系建立;所述性能阈值是根据性能参数的退化趋势和可靠性模型计算得到。
[0078]
在本实施例中,所述维护策略包括预警、维护、更换或隔离关机的措施;其中,预警措施是在性能阈值达到预警水平时发出警告信号或通知;维护措施包括对器件进行清洁、散热优化、固件升级等操作;更换措施是在性能阈值达到更换水平时更换相应的器件或板卡;隔离关机措施是在性能阈值达到停止工作水平时将相应的板卡或整个服务器隔离或关机。
[0079]
在本实施例中,所述性能参数包括容值、频率响应、传输速率等。
[0080]
在本实施例中,所述服务器中关键器件包括cpu、内存、硬盘、板卡以及网卡,服务器主要由cpu、内存、硬盘和板卡、网卡等组成,其中cpu、内存、硬盘具备较高可靠性,板卡由于元器件较多,尤其是电容相对出问题的概率比其他器件要大很多,当电容性能值退化到失效阈值时,板卡功能随即丧失。
[0081]
其中,所述服务器的板卡中还包括电容,所述电容为电解电容。在本实施例中,以电容中电解电容为例进行说明。
[0082]
根据电解电容的失效机理可知,影响容值参数稳定的应力为纹波电流和环境温度,其计算公式如下:
[0083][0084]
其中,
[0085][0086]
其中,ln:实际纹波电流和环温下的预计寿命;
[0087]
l0:额定纹波电流和额定温度上限条件下的寿命;
[0088]
t0:电容温度的上限;
[0089]
tn:电容实际运行的环温;
[0090]
δtn:tn的环温下流过in的纹波电流时电容中心的温升;
[0091]
δt0:t0的环温下流过额定纹波电流时电容中心的温升;
[0092]v0
:电容额定电压;
[0093]vn
:电容实际运行时的电压
[0094]in
:电容实际流过的纹波电流
[0095]
i0:电容额定纹波电流
[0096]
k:加速系数,取决于k(f);
[0097]
k(f):纹波电流的频率系数,其取值可以参照下表1。
[0098]
表1
[0099][0100]
由于电容在实际电路中,纹波电流和环境温度并不是恒定不变的,而是变化的。当纹波电流变大、环温升高时,电容寿命缩短,容值退化加快;当纹波电流减小、环温降低时,电容寿命增加,容值退化减慢。为了表征不同阶段纹波电流和环境温度条件的变化,相对于标准条件下的总运行时间t
total
的计算公式为:
[0101]
t
total
=t
10
+t
20
+t
30
+

+t
n0
ꢀꢀ
(3)
[0102]
其中:
[0103][0104][0105]
[0106][0107]
其中,t
total
:相对于标准条件下的总运行时间;
[0108]
t1、t2、t3…
:每个运行条件下的运行时长;
[0109]
t
10
、t
20
、t
30

:每个条件下相对于标准条件下的运行时长;
[0110]
l1、l2、l3…
:每个运行条件下的预计寿命。
[0111]
参见图1所示,根据电容的性能退化轨迹与寿命计算的研究,容值退化过程与寿命计算值存在幂律相关关系,函数表达式为:
[0112][0113]
对于超级电容来说,低频使用条件下,容值为其关键性能参数,其初始容值为c0,针对某型号电解电容,其信息如下表2:
[0114]
表2
[0115][0116][0117]
参见图1所示,图1为实际测量经过电容得纹波电流,t1=8小时,t2=10.7小时,t3=1.3小时,经过对其均方根计算可得:i1=2.8a,i2=3.15a,i1=2.7a;
[0118]
根据公式(2),以及表格数据,可得δt1=9.8℃,δt2=12.4℃,δt3=9.11℃,环境温度保持在70℃。
[0119]
根据公式(1)计算得,l1=5735.82小时,l2=4788.88小时,l3=6015.77小时。
[0120]
根据公式(3)计算得,t
10
=2.79小时,t
20
=4.47小时,t
30
=0.43小时,t
total
=7.69小时。
[0121]
该型号电容值的性能退化规律符合幂律模型,且a0=-0.02,m=0.28,根据公式(4)计算得,cn=96.58mf。
[0122]
根据原理图以及性能定义,当cn值低于85mf时,功能出现不稳定,低于80mf时,电路不能完成功能要求,故定义85mf为告警阈值,83mf为工作停止阈值,即当超级电容达到85mf时,系统健康监控系统会提示有错误,并告之该电容功能值为85mf,提醒更换新电容或板卡;当电容值达到83mf时,系统健康监控系统将该板卡隔离或关机,并向用户发出记录详细信息,告之用户进行更换电容或板卡。
[0123]
以上数据参数仅作为本技术数据代入,不作.为实际应用参数。
[0124]
本发明的一种适用于服务器的性能退化与可靠性关联方法,优点为:
[0125]
1.技术支持服务器动态稳定性与可靠性的健康管理:该方法提供了技术支持,帮助服务器在使用过程中实现动态稳定性和可靠性的健康管理。通过监测关键器件的工作电应力和温度应力,并进行统计分析和计算,可以及时了解器件的性能退化情况,提前采取维护措施,从而保证服务器的稳定性和可靠性。
[0126]
2.建立性能参数与可靠性关联的数学模型:该方法对使用条件和过程中器件的性能进行研究,并建立了性能参数与可靠性之间的关联数学模型。这样可以更准确地预测器件的寿命和性能退化趋势,为服务器的维护和更新提供科学依据。
[0127]
3.提前发出更新维护需求,避免系统故障和数据丢失:通过实时计算得到的性能阈值,可以在器件或板卡功能丧失前及时发出更新维护需求。这有助于避免因性能降低导致系统故障和数据丢失,减少对用户造成的损失和不便。
[0128]
4.优化服务器的售后维护策略:该方法提供了器件寿命的预测方法和性能退化与可靠性的关系模型。这使得服务器的售后维护策略可以更加精确和针对性,根据实际情况进行预警、维护、更换或隔离关机等操作,提高维护效率和成本效益。
[0129]
因此,本发明的一种适用于服务器的性能退化与可靠性关联方法为服务器的动态稳定性与可靠性提供了技术支持,通过实时监测和分析器件的工作电应力和温度应力,能够及时发现性能退化趋势,预测器件的使用寿命,从而提前采取维护措施。其次,通过建立性能参数与可靠性之间的数学模型,可以量化性能退化过程并与寿命计算值进行关联,为制定维护策略提供了科学依据。最重要的是,该方法能够在器件或板卡功能丧失之前发出更新维护需求,有效避免因性能降低导致系统故障和数据丢失,最大程度地保障服务器的正常运行和用户的利益。
[0130]
综上所述,本技术的方法能够提高服务器的可靠性和稳定性,优化售后维护策略,为服务器的健康管理提供了重要技术支持。
[0131]
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0132]
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个
阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0133]
本发明实施例的第三个方面,还提供了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机程序,该计算机程序被该处理器执行时实现上述任意一项实施例的方法。
[0134]
在该计算机设备中包括一个处理器以及一个存储器,并还可以包括:输入装置和输出装置。处理器、存储器、输入装置和输出装置可以通过总线或者其他方式连接,输入装置可接收输入的数字或字符信息,以及产生与适用于服务器的性能退化与可靠性关联的迁移有关的信号输入。输出装置可包括显示屏等显示设备。
[0135]
存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的适用于服务器的性能退化与可靠性关联方法对应的程序指令/模块。存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储适用于服务器的性能退化与可靠性关联方法的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0136]
处理器在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中,处理器用于运行存储器中存储的程序代码或者处理数据。本实施例计算机设备的多个计算机设备的处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的适用于服务器的性能退化与可靠性关联方法的步骤。
[0137]
应当理解,在相互不冲突的情况下,以上针对根据本发明的适用于服务器的性能退化与可靠性关联方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的适用于服务器的性能退化与可靠性关联和存储介质。
[0138]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个装置的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
[0139]
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。易失性存储器可以包括随机存取存储器(ram),该ram可以充当外部高速缓存存储器。作为例子而非限制性的,ram可以以多种
形式获得,比如同步ram(dram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddr sdram)、增强sdram(esdram)、同步链路dram(sldram)、以及直接rambus ram(drram)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
[0140]
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp和/或任何其它这种配置。
[0141]
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
[0142]
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0143]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

技术特征:
1.一种适用于服务器的性能退化与可靠性关联方法,其特征在于,包括以下步骤:在服务器工作条件下,监测采集器件采用的服务器中关键器件的工作电应力和温度应力,获取并记录监测数据;通过统计分析对获取的监测数据进行处理,得到性能参数的退化趋势;基于性能参数的退化趋势和可靠性模型,实时计算得到性能阈值;根据不同等级的性能阈值,制定相应的维护策略。2.根据权利要求1所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,所述服务器中关键器件包括cpu、内存、硬盘、板卡以及网卡;所述服务器的板卡中还包括电容,所述电容为电解电容。3.根据权利要求2所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,所述关键器件的工作电应力和温度应力为通过采集器件的传感器实时监测获得。4.根据权利要求3所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,所述统计分析包括对监测数据进行趋势分析、回归分析或概率分布分析。5.根据权利要求4所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,所述可靠性模型是基于性能参数的退化趋势与器件寿命之间的关联关系建立;所述性能阈值是根据性能参数的退化趋势和可靠性模型计算得到。6.根据权利要求1所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,所述维护策略包括预警、维护、更换或隔离关机的措施;其中,预警措施是在性能阈值达到预警水平时发出警告信号或通知;维护措施包括对器件进行清洁、散热优化、固件升级操作;更换措施是在性能阈值达到更换水平时更换相应的器件或板卡;隔离关机措施是在性能阈值达到停止工作水平时将相应的板卡或整个服务器隔离或关机。7.根据权利要求5所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,所述性能参数包括容值、频率响应以及传输速率。8.根据权利要求2所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,在电解电容的失效机理中,影响容值参数稳定的应力为纹波电流和环境温度。9.根据权利要求8所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,在电解电容中,根据标准条件下的总运行时间征不同阶段纹波电流和环境温度条件的变化。10.根据权利要求9所述的适用于服务器的性能退化与可靠性关联方法,其特征在于,关键器件的寿命预计数学模型是根据器件在不同应力条件下的性能参数寿命预计数学模型;实时计算得到的性能阈值用于判断关键器件的性能状态,包括警告阈值和工作停止阈值,以及相应的维护策略。

技术总结
本发明提供了一种适用于服务器的性能退化与可靠性关联方法,该方法通过建立器件的寿命预计数学模型和性能退化的量化,实现了对服务器性能状态的实时监测和维护策略的制定。在服务器使用条件下,通过监测采集器件的工作电应力与温度应力,并经过统计分析处理,利用数学模型计算得到性能阈值,以判断器件的性能状态。根据不同等级的阈值,制定相应的维护策略,包括提醒更换器件或板卡、隔离关机和记录详细信息等操作。该方法提供了精确、针对性的维护操作,避免了性能降低导致系统故障和数据丢失的风险,提高了服务器的可靠性和用户满意度。通过建立性能退化与可靠性的关系模型,优化了服务器的售后维护策略,提高了维护效率和成本效益。效益。效益。


技术研发人员:宁凡光
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:2023.06.30
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐