一种刀片式服务器功率控制系统、方法和刀片式服务器与流程
未命名
07-19
阅读:85
评论:0
1.本发明涉及服务器领域,尤其涉及一种刀片式服务器功率控制系统、方法和刀片式服务器。
背景技术:
2.刀片服务器(又称刀片式服务器,blade server)是指在标准高度的机架式机箱内可插装多个卡式的服务器单元,实现高可用和高密度。其主要结构为一大型主体机箱,主体机箱的内部可插上许多刀片节点,其中每一个刀片节点实际上就是一块系统主板。刀片服务器比机架式服务器更节省空间,同时,散热问题也更突出,往往要在机箱内装上大型强力风扇来散热。
3.目前,传统的刀片服务器虽然引入了冷板式液冷技术(即利用工作流体作为中间热量传输的媒介,将热量由热区传递到远处再进行冷却),但是此种方式存在以下缺陷:没有针对多刀片节点服务器系统进行优势性的适配,整机供电单元(power supply unit,简称psu)功耗均衡未实现,多刀片节点服务器之间的电源冗余未实现,此外在供电单元负载控制方面也未有合理考虑冷板功耗的问题,因而亟需改进。
技术实现要素:
4.有鉴于此,有必要针对以上技术问题,提供一种刀片式服务器功率控制系统、方法和刀片式服务器。
5.根据本发明的第一方面,提供了一种刀片式服务器功率控制系统,所述系统包括:多个刀片节点;与每个刀片节点热交换的冷板,所述冷板内有冷却液;液冷模块,用于使所述冷却液在每个所述冷板内循环;多个电源单元,用于为所述多个刀片节点和所述液冷模块供电;整机管理控制模块,与每个刀片节点、所述液冷模块以及每个电源单元通信连接,用于监控每个刀片节点和所述液冷模块的功耗,并将所述功耗均衡分布到所述多个电源单元上。
6.在一些实施例中,所述整机管理控制模块通过获取每个刀片节点的电流值和电压值以得到第一功耗。
7.在一些实施例中,所述液冷模块的输入端设置有第一电流传感器和第一电压传感器,所述整机管理控制模块通过所述第一电流传感器和第一电压传感器采集的数据得到第二功耗。
8.在一些实施例中,所述整机管理控制模块还用于获取自身工作的第三功耗以及刀片式服务器外围部件工作的第四功耗。
9.在一些实施例中,所述整机管理控制模块进一步用于计算所有的所述第一功耗、所述第二功耗、所述第三功耗和第四功耗的总和以得到总功耗,并将所述总功耗与当前在
运行的电源单元数量的比值作为每个电源单元的输出功耗。
10.在一些实施例中,所述整机管理控制模块还用于响应于监测到某一刀片节点对应的第一功耗增加,则重新计算所述总功耗以及每个电源单元的输出功耗。
11.在一些实施例中,所述整机管理控制模块还用于响应于监测到某一刀片节点对应的第一功耗增加,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗增加量同比增加所述液冷模块的第二功耗。
12.在一些实施例中,所述整机管理控制模块还用于基于所述液冷模块的第二功耗的增加量通过所述液冷模块增加流向所述某一刀片节点对应的冷板的冷却液。
13.在一些实施例中,所述整机管理控制模块还用于响应于监测到某一刀片节点对应的第一功耗减少,则重新计算所述总功耗以及每个电源单元的输出功耗。
14.在一些实施例中,所述整机管理控制模块还用于:响应于监测到某一刀片节点对应的第一功耗减少,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗减少量同比减少所述液冷模块的第二功耗。
15.在一些实施例中,所述整机管理控制模块还用于:基于所述液冷模块的第二功耗减少量通过所述液冷模块减少流向所述某一刀片节点对应的冷板的冷却液。
16.在一些实施例中,所述整机管理控制模块还用于:根据下述公式确定液冷模块冷却液流速;;其中,表示冷却液流速,n表示节点数量,表示所述第一功耗,表示所述第二功耗,表示所述第三功耗,表示所述第四功耗,表示第n个刀片节点的用于实际运算的有用功功耗,表示液冷模块和冷板模块的散热损耗,表示冷却液密度,表示预设液冷模块的调控监控时间,表示相比于最近一次调控冷却液的温度变化,表示冷却液的比热容;将所述液冷模块调整为以所确定的冷却液流速输出冷却液。
17.在一些实施例中,所述整机管理控制模块还用于:响应于某一电源单元故障,则将所述总功耗均衡分布到剩余未发生故障的电源单元上。
18.在一些实施例中,所述多个电源单元采用冗余供电架构,其中,所述冗余供电架构至少包括一个备份电源单元。
19.在一些实施例中,所述整机管理控制模块还用于:响应于某一电源单元故障,则采用所述备份电源单元替换故障的电源单元,并将所述总功耗均衡分布到剩余电源单元和在运行的所述备份电源单元上。
20.在一些实施例中,每个刀片节点均包含基板管理控制器,所述基板管理控制器用于获取对应的刀片节点的电流值和电压值并发送给所述整机管理控制模块。
21.在一些实施例中,每个刀片节点均包含第二电流传感器和第二电压传感器,所述
整机管理控制模块通过所述第二电流传感器和第二电压传感器获取对应的刀片节点的电流值和电压值。
22.在一些实施例中,所述整机管理控制模块进一步用于:将每个电源单元的输出电压和输出电流均调整为相同值,从而将功耗均衡分布到所述多个电源单元。
23.根据本发明的第二方面,提供了一种刀片式服务器功率控制方法,所述方法包括:获取每个刀片节点的第一功耗;获取为所有刀片节点提供散热的液冷模块的第二功耗;获取整机管理控制模块工作的第三功耗以及刀片式服务器外围部件工作的第四功耗;基于所述第一功耗、第二功耗、第三功耗和第四功耗计算总功耗;将所述总功耗均衡分布到多个电源单元。
24.在一些实施例中,所述方法还包括:响应于监测到某一刀片节点对应的第一功耗增加,则返回获取每个刀片节点的第一功耗的步骤。
25.在一些实施例中,所述返回获取每个刀片节点的第一功耗的步骤之前,还包括:基于所述第一功耗增加量同比增加液冷模块的第二功耗。
26.在一些实施例中,所述基于所述第一功耗增加量同比增加液冷模块的第二功耗的步骤,还包括:基于对应液冷模块的第二功耗的增加量通过所述液冷模块增加流向所述某一刀片节点对应的冷板的冷却液。
27.在一些实施例中,所述方法还包括:响应于监测到某一刀片节点对应的第一功耗减少,则返回获取每个刀片节点的第一功耗的步骤。
28.在一些实施例中,所述返回获取每个刀片节点的第一功耗的步骤之前,还包括:基于所述第一功耗减少量同比减少对应液冷模块的第二功耗。
29.在一些实施例中,所述基于所述第一功耗减少量同比减少对应液冷模块的第二功耗的步骤,还包括:基于对应液冷模块的第二功耗减少量通过所述液冷模块减少流向所述某一刀片节点对应的冷板的冷却液。
30.根据本发明的第二方面,本发明提供了一种刀片式服务器,所述刀片式服务器包括以上所述的刀片式服务器功率控制系统。
31.上述一种刀片式服务器功率控制系统至少具备以下有益效果:针对刀片式服务器的多刀片节点进行优势性的适配,通过整机管理控制模块监控每个刀片节点和液冷模块的功耗,并将功耗均衡分布到多个供电单元上,实现整机供电单元功耗均衡,提升刀片式服务器的稳定性和可靠性,提升冷板液冷及多节点适配性以及调控能力。
32.此外,本发明还提供了一种片式服务器功率控制方法,以及一种刀片式服务器,同样能实现上述技术效果,这里不再赘述。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
34.图1为本发明一个实施例提供的一种刀片式服务器功率控制系统的结构示意图;图2为本发明一个实施例提供的一种刀片式服务器功率控制方法的流程图;图3为本发明另一个实施例提供的整机管理控制模块工作原理示意图;图4为本发明另一个实施例提供的整机管理控制模块动态调控psu的功耗均衡的示意图。
35.【附图标记说明】100:刀片式服务器功率控制系统;101:刀片节点;102:冷板;103:液冷模块;104:电源单元;105:整机管理控制模块。
具体实施方式
36.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
37.需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
38.在一个实施例中,请参照图1所示,本发明提供了一种刀片式服务器功率控制系统100,具体来说,所述系统包括以下部件:多个刀片节点101;在本实施例中,刀片节点101是指用来提供计算能力的计算板,例如使用刀片节点101提供网络、数据运算、图像处理、存储等服务,在具体实施过程中不同刀片节点的功能及配置可以相同也可以不同。多个刀片节点101插设在标准高度的机箱如下(1u、2u等等),多个刀片节点用于实现hahd(high availability high density,高可用高密度)的低成本服务器平台,以处理高密度计算任务。请参继续照图1所示,其示出了n个刀片节点101,其中n为大于等于二的正整数,在具体实施过程中,刀片节点101的数量可以依据业务场景或者用户需求设定,本发明不限制刀片节点的具体数量,仅用于举例说明。
39.与每个刀片节点101热交换的冷板102,所述冷板102内有冷却液(图中未示出);在本实施例中,冷板102内填充液冷,即利用工作流体作为中间热量传输的媒介,将热量由热区传递到远处再进行冷却,本发明的冷板102和冷却液均采用现有冷板式液冷技术。
40.液冷模块103,用于使所述冷却液在每个所述冷板102内循环;
在本实施例中,液冷模块103能够实现对冷却液的降温功能,例如将冷却液从一个相对较高的温度降低到预先设定的相对较低的温度,液冷模块103通常设置在散热区外部,且能够驱动冷却液在散热区和非散热区之间循环流动。
41.多个电源单元104,用于为所述多个刀片节点101和所述液冷模块103供电;在本实施例中,供电单元104即psu,用于为服务器提供供电,它将高压交流电转换成稳定的低压直流电供给服务器的各个用电部件,例如主板、刀片节点、风冷散热器件、液冷模块等等。
42.整机管理控制模块105,与每个刀片节点101、所述液冷模块103以及每个电源单元通信连接,用于监控每个刀片节点101和所述液冷模块103的功耗,并将所述功耗均衡分布到所述多个电源单元104上。
43.本实施例的一种刀片式服务器功率控制系统,针对刀片式服务器的多刀片节点进行优势性的适配,通过整机管理控制模块监控每个刀片节点和液冷模块的功耗,并将功耗均衡分布到多个供电单元上,实现整机供电单元功耗均衡,提升刀片式服务器的稳定性和可靠性,提升冷板液冷及多节点适配性以及调控能力。
44.在一些实施例中,所述整机管理控制模块105通过获取每个刀片节点101的电流值和电压值以得到第一功耗。
45.在一些实施例中,所述液冷模块103的输入端设置有第一电流传感器和第一电压传感器,所述整机管理控制模块105通过所述第一电流传感器和第一电压传感器采集的数据得到第二功耗。
46.在一些实例里中,所述整机管理控制模块105还用于获取自身工作的第三功耗以及刀片式服务器外围部件工作的第四功耗。
47.在本实施例中,外围部件指的是刀片式服务器中除以上所指的液冷模块103、整机管理控制模块105以外刀片节点101共用的部件,例如外围部件可以是多个刀片节点101共用的硬盘、硬盘背板、风扇,相应的第四功耗就是指硬盘、硬盘背板、风扇的功耗总和。
48.在一些实施例中,所述整机管理控制模块105进一步用于:计算所有的所述第一功耗、所述第二功耗、所述第三功耗和第四功耗的总和以得到总功耗;将所述总功耗与当前在运行的电源单元数量的比值作为每个电源单元的输出功耗。
49.在一些实施例中,所述整机管理控制模块105还用于:响应于监测到某一刀片节点101对应的第一功耗增加,则重新计算所述总功耗以及每个电源单元的输出功耗。
50.本实施例中,在单刀片节点突发流量的时刻,及时进行功耗均衡干预,以达到均流,并在服务器的业务运行中保障数据可靠性,以及服务器本身稳定运行地可靠性和寿命。
51.在一些实施例中,所述整机管理控制模块105还用于:响应于监测到某一刀片节点101对应的第一功耗增加,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗增加量同比增加所述液冷模块103的第二功耗。
52.在本实施例中,液冷模块103能够兼顾刀片节点的功耗增加做出相应的调整,及时
的提升降温的需求,解决了服务器出现散热不及时的问题,显著提升散热的时效性和效率。
53.在一些实施例中,所述整机管理控制模块105还用于:基于所述液冷模块103的第二功耗的增加量通过所述液冷模块103增加流向所述某一刀片节点101对应的冷板102的冷却液。
54.在本实施例中,针对刀片节点功率提升的情况,有针对性的对相应刀片节点进行快速降温,可有效避免局部果然高温或服务器整体散热不均衡的问题。
55.在一些实施例中,所述整机管理控制模块105还用于:响应于监测到某一刀片节点101对应的第一功耗减少,则重新计算所述总功耗以及每个电源单元的输出功耗。
56.本实施例,在单刀片节点流量降低的时刻,及时进行功耗均衡干预,以达到均流,可避免浪费资源,并在服务器的业务运行中保障数据可靠性,以及服务器本身稳定运行地可靠性和寿命。
57.在一些实施例中,所述整机管理控制模块105还用于:响应于监测到某一刀片节点101对应的第一功耗减少,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗减少量同比减少所述液冷模块103的第二功耗。
58.在本实施例中,液冷模块103能够兼顾刀片节点的功耗降低做出相应的调整,及时的减少降温的需求,避免发生资源浪费,提高散热效率。
59.在一些实施例中,所述整机管理控制模块105还用于:基于所述液冷模块103的第二功耗减少量通过所述液冷模块103减少流向所述某一刀片节点101对应的冷板102的冷却液。
60.在本实施例中,针对刀片节点功率降低的情况,有针对性的减少相应刀片节点降温能力,可避免散热不均衡的问题。
61.在一些实施例中,所述整机管理控制模块105还用于:根据下述公式确定液冷模块冷却液流速;;其中,表示冷却液流速,n表示节点数量,表示所述第一功耗,表示所述第二功耗,表示所述第三功耗,表示所述第四功耗,表示第n个刀片节点的用于实际运算的有用功功耗,表示液冷模块和冷板模块的散热损耗,表示冷却液密度,表示预设液冷模块的调控监控时间,表示相比于最近一次调控冷却液的温度变化,表示冷却液的比热容;将所述液冷模块调整为以所确定的冷却液流速输出冷却液。
62.在一些实施例中,所述整机管理控制模块105还用于:响应于某一电源单元故障,则将所述总功耗均衡分布到剩余未发生故障的电源单元上。
63.在一些实施例中,所述多个电源单元104采用冗余供电架构,其中,所述冗余供电架构至少包括一个备份电源单元。
64.在一些实施例中,所述整机管理控制模块105还用于:响应于某一电源单元故障,则采用所述备份电源单元替换故障的电源单元,并将所述总功耗均衡分布到剩余电源单元和在运行的所述备份电源单元上。
65.在一些实施例中,每个刀片节点101均包含基板管理控制器,所述基板管理控制器用于获取对应的刀片节点101的电流值和电压值并发送给所述整机管理控制模块105。
66.在本实施例中,由于通常每个刀片节点都具有单独的基板管理控制器,基板管理控制器本身具有监控节点上各个器件的功能,直接从基板管理控制器获取电流、电压等数据,避免了对刀片节点进行单独改造,利用现有常规刀片服务器就能够实现,有助于节省成本。
67.在一些实施例中,每个刀片节点101均包含第二电流传感器和第二电压传感器,所述整机管理控制模块105通过所述第二电流传感器和第二电压传感器获取对应的刀片节点101的电流值和电压值。
68.在本实施例中,为了保证功率控制的稳定性,单独设置电流、电压传感器提升了安全性,在基板管理控制器不正常工作、或还未正常启动的情况下仍能够保证整机功耗可实现均流,当基板管理控制器正常工作后,再切换到刀片对应的基板管理控制器准确功耗获取状态,具有较好的稳定性。
69.在一些实施例中,所述整机管理控制模块105进一步用于:将每个电源单元的输出电压和输出电流均调整为相同值,从而将功耗均衡分布到所述多个电源单元104。
70.在一些实施例中,请结合图2所示,本发明还提供了一种刀片式服务器功率控制方法200,具体来说所述方法包括以下步骤:步骤201,获取每个刀片节点的第一功耗;步骤202,获取为所有刀片节点提供散热的液冷模块的第二功耗;步骤203,获取整机管理控制模块工作的第三功耗以及刀片式服务器外围部件工作的第四功耗;步骤204,基于所述第一功耗、第二功耗、第三功耗和第四功耗计算总功耗;步骤205,将所述总功耗均衡分布到多个电源单元。
71.本实施例的一种刀片式服务器功率控制方法,针对刀片式服务器的多刀片节点进行优势性的适配,通过整机管理控制模块监控每个刀片节点和液冷模块的功耗,并将功耗均衡分布到多个供电单元上,实现整机供电单元功耗均衡,提升刀片式服务器的稳定性和可靠性,提升冷板液冷及多节点适配性以及调控能力。
72.在一些实施例中,所述方法还包括:响应于监测到某一刀片节点对应的第一功耗增加,则返回获取每个刀片节点的第一功耗的步骤。
73.在一些实施例中,所述返回获取每个刀片节点的第一功耗的步骤,还包括:在返回获取每个刀片节点的第一功耗的步骤之前,基于所述第一功耗增加量同比增加液冷模块的第二功耗。
74.在一些实施例中,所述基于所述第一功耗增加量同比增加液冷模块的第二功耗的步骤,还包括:
基于对应液冷模块的第二功耗的增加量通过所述液冷模块增加流向所述某一刀片节点对应的冷板的冷却液。
75.在一些实施例中,所述方法还包括:响应于监测到某一刀片节点对应的第一功耗减少,则返回获取每个刀片节点的第一功耗的步骤。
76.在一些实施例中,所述返回获取每个刀片节点的第一功耗的步骤,还包括:在返回获取每个刀片节点的第一功耗的步骤之前,基于所述第一功耗减少量同比减少对应液冷模块的第二功耗。
77.在一些实施例中,所述基于所述第一功耗减少量同比减少对应液冷模块的第二功耗的步骤,还包括:基于对应液冷模块的第二功耗减少量通过所述液冷模块减少流向所述某一刀片节点对应的冷板的冷却液。
78.在又一个实施例中,为了便于理解本发明的方案,本实施例以包括n个刀片节点的刀片式服务器为例详细说明本发明方案,一种刀片式服务器功率控制系统,刀片服务器的电源输入由n个psu共同支撑,此外可能还涉及到刀片间共同使用的模块,如硬盘、硬盘背板、风扇、冷板及整机管理控制模块,在原先风冷多节点的基础上,由整机管理控制模块实现对冷板的散热控制,包括控制补液、冷却液流速管理,冷液模块的供电同样由整机管理控制模块进行管控;请参照图3所示,整机管理控制模块工作原理示如下:多节点刀片式服务器涉及多个psu供电,其供电方式为分别上电,统一由整机管理控制模块进行管理和功耗均衡控制。psu上的功率在服务器正常工作的情况下,达到均衡输出,才能良好地保障服务器正常运行,并且在单个节点突发流量的时刻,及时进行功耗均衡干预,以达到均流,并在服务器的业务运行中保障数据可靠性,以及服务器本身稳定运行地可靠性和寿命。为保障业务数据的稳定性,设定有电源冗余,从n+1到n+n冗余量不等。其中,n是代表支持系统正常运行需要的psu数量,后面的数字代表可以不正常工作的做多的psu数量。在保障冷板服务器正常运作的情况下,在保障psu均流的基础上,也需要服务器系统和整机管理控制模块进行服务器支持的冗余设计支持,其实现方式也不能影响到刀片服务器地功率均衡,并且在冗余发生起效时,需要由整机管理控制模块快速完成多个psu的功率再平衡。
79.下面将详细说明整机管理控制模块的具体功能实现:功能一:侦测刀片节点和液冷模块需要的总功耗侦测刀片节点的功耗已经是成熟的方案,通常通过每个节点自身的bmc芯片(基板控制器)上的传感器进行该节点总功耗的计算,并通过信号线将相关数据传送给整机管理控制模块。本发明需要增加对液冷模块的功耗侦测。对于液冷模块来说,其仅需要实现对冷却液的降温功能,因此传感器在标准情况下只需要配备温度传感器。为实现其功耗的准确判定,整个液冷模块的输入端增设电流传感器,由于其供电电压恒定(通常设定在12v直流),液冷模块的功耗可由整机管理控制模块通过计算得出。
80.需要说明的是,采用如上计算方式将会得到较为准确的功耗,并且整机管理控制模块也将较为准确的获得每个刀片节点及液冷模块的功耗。而在节点的bmc模块不正常工作、或还未正常启动的情况下,整机功耗可以通过总的输出电流及输入电压获得。由于psu
的功耗输出均通过整机管理控制模块实现,整机管理控制模块可在这种情况下直接获得相关功耗数据,当bmc正常工作后,再切换到上述的分刀片准确功耗获取状态。
81.功能二:将功耗均流分布到全部工作psu上每个psu的输出电压及输入电压通常情况下都是相同的,在这种情况下,要想实现功耗的均衡,只需要做到电流均衡即可。获取到整机功耗m的数值后,整机管理控制模块获取当前在位的全部psu数量n,将电流平均的分布到每个psu上。此时,每个psu需要负担的功耗为:m/n,而需要承受的输入电流即为:( m/n)/机房的输入电压。需要说明的是机房的输入电压是按照psu支持及实际机房的情况来决定的,存在110v、220v、380v等多种可能。
82.功能三:某刀片的功耗突然发生变化,整机管理控制模块动态调控psu间的功耗均流由于刀片间运行的业务流存在差异,可能存在某个刀片节点的功耗突然变化的情况。功耗突然降低,其对于整机的影响较小,整机系统损坏的可能性也不大;但整机系统的功耗突然增加的情况下,若没有整机管理模块的介入控制,可能造成单psu的电流过大,从而导致该psu损坏或征集系统崩溃宕机,极大影响业务的部署和使用。为避免出现上述情况,整机的功耗是由整机管理控制模块来控制,不再由单节点自身来使用其对应的psu。即:将psu的功耗资源作为整体处理,可视作一个功耗池,需求的功耗值均从该功耗池中获取。
83.请参照图4所示,当某节点的部件需求的功耗突然增加时,该节点的电流传感器将在第一时间侦测到需求回路上的电流变化。当该信息被基板控制器bmc获取到后,bmc电流出现需求增加的这一信息回传给整机管理控制模块,由整机管理控制模块开始增加功耗供给,即逐渐提高输入电流并均分到各psu上。但是,如上的缓慢增加有可能仍无法满足功耗需求增加节点的实际功耗需求,此时,电流增加的策略需要根据bmc回传的电流增加数值进行相应的整机输入电流变化。为保障整机的业务不因为功耗不足造成的停机、宕机,需要电流的增长速度略高于需求的功耗增长速度,当电流增长到需求的电流值后,再进行回调。
84.功能四:整机管理控制模块调控液冷模块的流速和风扇转速当刀片节点功耗发生变化时,其对应的散热需求也会发生相应变化,此时冷液模块同步增加冷却液的流速或散热风扇转速。在这一过程中,为相应的增加或减少功耗供给,冷液模块的电流需要同步变化。为实现这一目的,并且保证节点需求功耗增加时液冷模块不成为功耗限定的瓶颈,上述的整机控制管理模块上调的电流需要同时涵盖节点所需功耗及为驱动散热工作需求的功耗。另外,多增的电流余量同样需要覆盖风冷和液冷散热调控需要的电流,并在一轮调控完成后同步回调到适应的电流,以免出现功耗浪费和过高的电流供给导致的后续再次需要调高功耗所造成的总体功耗不足,避免后续的调控出现异常。
85.功能五:某psu挂掉整机管理控制模块动态调控功耗均流电源冗余的实现采用现有的技术,只是除去服务器节点需要的电源供给外,还需要考量液冷模块所需要的电源供给。
86.本实施例一种刀片式服务器功率控制系统,针对多节点服务器系统进行优势性的适配,实现整机psu功耗均衡,并且在多节点服务器之间,实现电源冗余,以保障服务器产品的高可靠性和安全性。
87.在一些实施例中,本发明还提供了一种刀片式服务器,除包括标准机机箱、多个刀片节点间共同使用的硬盘、硬盘背板、风扇、网络连接模块以外,所述刀片式服务器还包括
以上实施例所述的刀片式服务器功率控制系统,所述系统包括:多个刀片节点;与每个刀片节点热交换的冷板,所述冷板内有冷却液;液冷模块,用于使所述冷却液在每个所述冷板内循环;多个电源单元,用于为所述多个刀片节点和所述液冷模块供电;整机管理控制模块,与每个刀片节点、所述液冷模块以及每个电源单元通信连接,用于监控每个刀片节点和所述液冷模块的功耗,并将所述功耗均衡分布到所述多个电源单元上。
88.在一些实施例中,所述整机管理控制模块通过获取每个刀片节点的电流值和电压值以得到第一功耗。
89.在一些实施例中,所述液冷模块的输入端设置有第一电流传感器和第一电压传感器,所述整机管理控制模块通过所述第一电流传感器和第一电压传感器采集的数据得到第二功耗。
90.在一些实施例中,所述整机管理控制模块还用于获取自身工作的第三功耗以及刀片式服务器外围部件工作的第四功耗。
91.在一些实施例中,所述整机管理控制模块进一步用于计算所有的所述第一功耗、所述第二功耗、所述第三功耗和第四功耗的总和以得到总功耗,并将所述总功耗与当前在运行的电源单元数量的比值作为每个电源单元的输出功耗。
92.在一些实施例中,所述整机管理控制模块还用于响应于监测到某一刀片节点对应的第一功耗增加,则重新计算所述总功耗以及每个电源单元的输出功耗。
93.在一些实施例中,所述整机管理控制模块还用于响应于监测到某一刀片节点对应的第一功耗增加,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗增加量同比增加所述液冷模块的第二功耗。
94.在一些实施例中,所述整机管理控制模块还用于基于所述液冷模块的第二功耗的增加量通过所述液冷模块增加流向所述某一刀片节点对应的冷板的冷却液。
95.在一些实施例中,所述整机管理控制模块还用于响应于监测到某一刀片节点对应的第一功耗减少,则重新计算所述总功耗以及每个电源单元的输出功耗。
96.在一些实施例中,所述整机管理控制模块还用于:响应于监测到某一刀片节点对应的第一功耗减少,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗减少量同比减少所述液冷模块的第二功耗。
97.在一些实施例中,所述整机管理控制模块还用于:基于所述液冷模块的第二功耗减少量通过所述液冷模块减少流向所述某一刀片节点对应的冷板的冷却液。
98.在一些实施例中,所述整机管理控制模块还用于:根据下述公式确定液冷模块冷却液流速;;其中,表示冷却液流速,n表示节点数量,表示所述第一功耗,表示所述第二功耗,表示所述第三功耗,表示所述第四功耗,表示第n个刀片节点的用于实际运算的有用功功耗,表示液冷模块和冷板模块的散热损耗,表示冷却液密度,表示
预设液冷模块的调控监控时间,表示相比于最近一次调控冷却液的温度变化,表示冷却液的比热容;将所述液冷模块调整为以所确定的冷却液流速输出冷却液。
99.在一些实施例中,所述整机管理控制模块还用于:响应于某一电源单元故障,则将所述总功耗均衡分布到剩余未发生故障的电源单元上。
100.在一些实施例中,所述多个电源单元采用冗余供电架构,其中,所述冗余供电架构至少包括一个备份电源单元。
101.在一些实施例中,所述整机管理控制模块还用于:响应于某一电源单元故障,则采用所述备份电源单元替换故障的电源单元,并将所述总功耗均衡分布到剩余电源单元和在运行的所述备份电源单元上。
102.在一些实施例中,每个刀片节点均包含基板管理控制器,所述基板管理控制器用于获取对应的刀片节点的电流值和电压值并发送给所述整机管理控制模块。
103.在一些实施例中,每个刀片节点均包含第二电流传感器和第二电压传感器,所述整机管理控制模块通过所述第二电流传感器和第二电压传感器获取对应的刀片节点的电流值和电压值。
104.在一些实施例中,所述整机管理控制模块进一步用于:将每个电源单元的输出电压和输出电流均调整为相同值,从而将功耗均衡分布到所述多个电源单元。
105.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
106.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:
1.一种刀片式服务器功率控制系统,其特征在于,所述系统包括:多个刀片节点;与每个刀片节点热交换的冷板,所述冷板内有冷却液;液冷模块,用于使所述冷却液在每个所述冷板内循环;多个电源单元,用于为所述多个刀片节点和所述液冷模块供电;整机管理控制模块,与每个刀片节点、所述液冷模块以及每个电源单元通信连接,用于监控每个刀片节点和所述液冷模块的功耗,并将所述功耗均衡分布到所述多个电源单元上。2.根据权利要求1所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块通过获取每个刀片节点的电流值和电压值以得到第一功耗。3.根据权利要求2所述的刀片式服务器功率控制系统,其特征在于,所述液冷模块的输入端设置有第一电流传感器和第一电压传感器,所述整机管理控制模块通过所述第一电流传感器和第一电压传感器采集的数据得到第二功耗。4.根据权利要求3所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于获取自身工作的第三功耗以及刀片式服务器外围部件工作的第四功耗。5.根据权利要求4所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块进一步用于:计算所有的所述第一功耗、所述第二功耗、所述第三功耗和第四功耗的总和以得到总功耗;将所述总功耗与当前在运行的电源单元数量的比值作为每个电源单元的输出功耗。6.根据权利要求5所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:响应于监测到某一刀片节点对应的第一功耗增加,则重新计算所述总功耗以及每个电源单元的输出功耗。7.根据权利要求6所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:响应于监测到某一刀片节点对应的第一功耗增加,则在重新计算所述总功耗以及每个电源单元的输出功耗之前,基于所述第一功耗增加量同比增加所述液冷模块的第二功耗。8.根据权利要求7所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:基于所述液冷模块的第二功耗的增加量通过所述液冷模块增加流向所述某一刀片节点对应的冷板的冷却液。9.根据权利要求5所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:响应于监测到某一刀片节点对应的第一功耗减少,则重新计算所述总功耗以及每个电源单元的输出功耗。10.根据权利要求9所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:响应于监测到某一刀片节点对应的第一功耗减少,则在重新计算所述总功耗以及每个
电源单元的输出功耗之前,基于所述第一功耗减少量同比减少所述液冷模块的第二功耗。11.根据权利要求10所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:基于所述液冷模块的第二功耗减少量通过所述液冷模块减少流向所述某一刀片节点对应的冷板的冷却液。12.根据权利要求6或9所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:根据下述公式确定液冷模块冷却液流速;;其中,表示冷却液流速,n表示节点数量,表示所述第一功耗,表示所述第二功耗,表示所述第三功耗,表示所述第四功耗,表示第n个刀片节点的用于实际运算的有用功功耗,表示液冷模块和冷板模块的散热损耗,表示冷却液密度,表示预设液冷模块的调控监控时间,表示相比于最近一次调控冷却液的温度变化,表示冷却液的比热容;将所述液冷模块调整为以所确定的冷却液流速输出冷却液。13.根据权利要求5所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:响应于某一电源单元故障,则将所述总功耗均衡分布到剩余未发生故障的电源单元上。14.根据权利要求5所述的刀片式服务器功率控制系统,其特征在于,所述多个电源单元采用冗余供电架构,其中,所述冗余供电架构至少包括一个备份电源单元。15.根据权利要求14所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块还用于:响应于某一电源单元故障,则采用所述备份电源单元替换故障的电源单元,并将所述总功耗均衡分布到剩余电源单元和在运行的所述备份电源单元上。16.根据权利要求2所述的刀片式服务器功率控制系统,其特征在于,每个刀片节点均包含基板管理控制器,所述基板管理控制器用于获取对应的刀片节点的电流值和电压值并发送给所述整机管理控制模块。17.根据权利要求2所述的刀片式服务器功率控制系统,其特征在于,每个刀片节点均包含第二电流传感器和第二电压传感器,所述整机管理控制模块通过所述第二电流传感器和第二电压传感器获取对应的刀片节点的电流值和电压值。18.根据权利要求1所述的刀片式服务器功率控制系统,其特征在于,所述整机管理控制模块进一步用于:将每个电源单元的输出电压和输出电流均调整为相同值,从而将功耗均衡分布到所述多个电源单元。19.一种刀片式服务器功率控制方法,其特征在于,所述方法包括:获取每个刀片节点的第一功耗;
获取为所有刀片节点提供散热的液冷模块的第二功耗;获取整机管理控制模块工作的第三功耗以及刀片式服务器外围部件工作的第四功耗;基于所述第一功耗、第二功耗、第三功耗和第四功耗计算总功耗;将所述总功耗均衡分布到多个电源单元。20.根据权利要求19所述的刀片式服务器功率控制方法,其特征在于,所述方法还包括:响应于监测到某一刀片节点对应的第一功耗增加,则返回获取每个刀片节点的第一功耗的步骤。21.根据权利要求20所述的刀片式服务器功率控制方法,其特征在于,在所述返回获取每个刀片节点的第一功耗的步骤之前,还包括:基于所述第一功耗增加量同比增加液冷模块的第二功耗。22.根据权利要求21所述的刀片式服务器功率控制方法,其特征在于,所述基于所述第一功耗增加量同比增加液冷模块的第二功耗的步骤,还包括:基于对应液冷模块的第二功耗的增加量通过所述液冷模块增加流向所述某一刀片节点对应的冷板的冷却液。23.根据权利要求19所述的刀片式服务器功率控制方法,其特征在于,所述方法还包括:响应于监测到某一刀片节点对应的第一功耗减少,则返回获取每个刀片节点的第一功耗的步骤。24.根据权利要求23所述的刀片式服务器功率控制方法,其特征在于,在所述返回获取每个刀片节点的第一功耗的步骤之前,还包括:基于所述第一功耗减少量同比减少对应液冷模块的第二功耗。25.根据权利要求24所述的刀片式服务器功率控制方法,其特征在于,所述基于所述第一功耗减少量同比减少对应液冷模块的第二功耗的步骤,还包括:基于对应液冷模块的第二功耗减少量通过所述液冷模块减少流向所述某一刀片节点对应的冷板的冷却液。26.一种刀片式服务器,其特征在于,所述刀片式服务器包括权利要求1-18任意一项所述的刀片式服务器功率控制系统。
技术总结
本发明涉及服务器领域,尤其涉及一种刀片式服务器功率控制系统、方法和刀片式服务器。所述系统包括:多个刀片节点;与每个刀片节点热交换的冷板,所述冷板内有冷却液;液冷模块,用于使所述冷却液在每个所述冷板内循环;多个电源单元,用于为所述多个刀片节点和所述液冷模块供电;整机管理控制模块,与每个刀片节点、所述液冷模块以及每个电源单元通信连接,用于监控每个刀片节点和所述液冷模块的功耗,并将所述功耗均衡分布到所述多个电源单元上。本发明的方案实现整机供电单元功耗均衡,提升刀片式服务器的稳定性和可靠性,提升冷板液冷及多节点适配性以及调控能力。节点适配性以及调控能力。节点适配性以及调控能力。
技术研发人员:周磊
受保护的技术使用者:苏州浪潮智能科技有限公司
技术研发日:2023.06.13
技术公布日:2023/7/17
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:医用牵引袋 下一篇:一种拨料机构的制作方法
