一种基于SoC阵列服务器的分布式、集中式管理系统的制作方法

未命名 08-26 阅读:157 评论:0

一种基于soc阵列服务器的分布式、集中式管理系统
技术领域
1.本发明涉及服务器技术领域,具体为一种基于soc阵列服务器的分布式、集中式管理系统。


背景技术:

2.soc阵列服务器是现今业界最适合云手机和云游戏(云手游)应用场景的底层硬件基础设施设备,一台soc阵列服务器通常会集成几十个甚至上百个soc阵列卡。对于服务器产品,因为其部署在数据中心难以本地运维和需要7x24小时不间断工作的特性,服务器的远程运维管理能力和业务处理能力同样重要。服务器对系统可维护性有着远高于家用pc的标准,对运行稳定性有着更为严苛的规范,所以通用服务器需要兼具高性能,高可用和高可靠性。
3.通用服务器会采用一个专用的bmc管理模块(基板管理控制器)来确保服务器在运行过程中能够被有效管理、能及时诊断故障,并把采集到的管理信息及时上报给上层运维网管系统,对服务器系统的后台保障起到了至关重要的作用。
4.但对于soc阵列服务器这类特种服务器,业务板卡(soc阵列卡)通常会达到几十甚至上百个,bmc管理模块并发管理如此庞大数量的业务板卡,对bmc管理模块的处理器性能和bmc管理系统的可靠性提出了更加严苛的要求。
5.现有技术均是通过提升bmc管理芯片的性能,采用较高性能的多核arm处理器或x86处理器来实现,缺点是:
6.1.首先,会带来bmc管理模块硬件成本的提升。
7.2.其次,如果只是单纯依赖提高bmc管理芯片的性能来提升bmc管理系统的性能,bmc管理模块硬件和软件的设计复杂度会大大增加;然而软硬件设计的复杂度和bmc管理模块工作的可靠性是正相关的,会导致bmc管理系统的可靠性会降低。
8.3.bmc管理模块处理器硬件性能的提升和管理系统软件运行负载的提升,也会导致不能继续采用低功耗arm处理器芯片,而必须采用多核arm处理器或x86处理器芯片。结果也会导致bmc管理模块的热功耗随之提升,相应会带来机箱散热系统设计复杂度的提升。
9.综上所述,与通用x86和大核arm服务器相比,soc阵列服务器对bmc管理芯片的选型和软硬件系统设计提出了更加严苛的要求,仅通过bmc管理模块处理器芯片的选型是难以同时解决性能、成本、可靠性、散热之间的矛盾。


技术实现要素:

10.本发明提供了一种基于soc阵列服务器的分布式、集中式管理系统,在服务器机箱内部采用分布式和集中式管理相结合的服务器管理软硬件框架方案,可以有效解决上述提到的技术问题。
11.为实现上述目的,本发明提供如下技术方案:一种基于soc阵列服务器的分布式、集中式管理系统,包括bmc管理板和节点底板,bmc管理板和节点底板均设计有管理网络,在
bmc管理板上,bmc管理芯片通过网卡芯片或网络物理层芯片扩展出一路千兆以太网总线接口;再通过网络交换芯片扩展出m路千兆以太网总线接口,用于和m个节点底板实施交互式管理信息通信;
12.在节点底板上,采用千兆以太网交换芯片扩展出1路千兆以太网总线接口作为上联网口与bmc管理板的1路管理网络连接;扩展出n路千兆以太网总线接口作为下联网口与n个soc阵列卡实施交互式管理信息通信;
13.每个节点刀片上的n个soc阵列卡可作为一个区域管理小组,每个区域管理小组中的n个soc阵列卡成员可依靠底板管理网络交换芯片扩展的本地局域网进行互联通信,从n个soc阵列卡中通过选举策略选举出一个soc阵列卡作为管理soc阵列卡master,而其它n-1个soc阵列卡作为成员soc阵列卡slave;master负责把本区域管理小组的选举结果上报给bmc管理系统;bmc管理系统和各soc阵列卡均会记录选举结果;
14.通过master可收集n-1个slave的硬件状态信息,master负责把收集到的整个节点的硬件状态信息定期上报给bmc管理系统。
15.优选地,以soc阵列卡在底板上的位置号大小作为选举策略。
16.优选地,soc阵列卡在节点底板上按顺序部署,靠近机箱背板的soc阵列卡位置号为1,其后面的soc阵列卡位置号依次为2、3
……
n,推荐选举策略把位置号最大(即n)的soc阵列卡选举为master,节点上电运行后,各个soc阵列卡读取本板卡在机箱和底板上的位置信息,并把本板卡的管理信息进行封装后在管理局域网内部进行广播,同一个节点上的各个soc阵列卡把收到的其它soc阵列卡的管理信息与自己的管理信息中的位置信息和运行状态信息进行比较,如发现有比自己位置号更大的soc阵列卡存在且运行正常,则把自己的主从属性标记为“从”;如发现自己的位置号是最大的且自己的运行状态正常,则把自己的主从属性标记为“主”。
17.优选地,节点正常运行的情况下,位置号最大(为n)的板卡会被默认选举为“主”,如果位置号为n的板卡不在位或状态异常,则较小位置号的soc阵列卡将会会被选举为主的机会,同一个节点上的各个soc阵列卡同时需要记录自己和其它n-1个soc阵列卡的管理信息作为管理分组信息,并进行管理分组信息的动态维护:每隔一定时间通过心跳的方式把自己的管理信息发送给其它n-1个soc阵列卡,各soc阵列卡如发现自己或其它soc阵列卡的管理信息有变动则对自己记录的管理分组信息进行更新。
18.优选地,如果在节点运行过程中master发生故障,即一定时间内slave收不到来自master的心跳包,或slave发现master的管理信息中的运行状态为异常,则会重新触发选举策略选出新的master。
19.与现有技术相比,本发明的有益效果是:
20.通过采用分布式+集中式管理相结合的管理框架技术方案,降低了bmc管理系统操作soc阵列卡的指令执行并发量,极大的减轻了bmc管理模块的软硬件工作压力:
21.1.可有效降低bmc处理器芯片及其外设的硬件成本;
22.2.可有效增强bmc管理模块的软硬件可靠性;
23.3.可通过降低bmc管理板的处理器运行功耗来改善机箱系统散热。
附图说明
24.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1为本发明一种基于soc阵列服务器的分布式、集中式管理系统中管理网络硬件拓扑架构的示意图。
26.图2为本发明一种基于soc阵列服务器的分布式、集中式管理系统的soc阵列卡的结构示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
29.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
30.名词解释:
31.bmc:baseboard management controller.基板管理控制器;
32.soc:system on chip.系统级芯片或片上系统。
33.本发明提供一种基于soc阵列服务器的分布式、集中式管理系统,包括bmc管理板和节点底板。
34.一、管理网络硬件方案:
35.假设soc阵列服务器整机节点刀片槽位数量为m(如m=12),每节点刀片soc阵列卡数量为n(如n=6),即整机共n*m(如12*6=72)个soc阵列卡。
36.bmc管理板(bmc管理模块的硬件载体)和节点底板(soc阵列卡部署在节点底板上)均设计有专用的管理网络(专用管理网络用于实现与业务网络分离,互不影响):
37.1.1、在bmc管理板上,bmc管理芯片通过网卡芯片(或网络物理层芯片)扩展出一路千兆以太网总线接口(如果需要提升管理网络带宽可以使用10gb网卡或2.5gb网卡,或通过几路网卡做绑定拓展网络带宽);再通过网络交换芯片扩展出m路千兆以太网总线接口(如果需要提升管理网络带宽可以扩展2.5gb网络),用以和m个节点底板实施交互式管理信息通信。
38.1.2、在节点底板上,采用千兆以太网交换芯片扩展出1路千兆以太网总线接口(如果需要提升管理网络带宽可以扩展2.5gb网络)作为上联网口与bmc管理板的1路管理网络连接;扩展出n路千兆以太网总线接口作为下联网口与n个soc阵列卡实施交互式管理信息通信。
39.上述的管理网络硬件拓扑架构如图1所示。
40.二、分布式+集中式管理系统方案:
41.2.1、每个节点刀片上的n个soc阵列卡可以作为一个区域管理小组,这样整机可以划分为m个区域管理小组。
42.2.2、每个区域管理小组中的n个soc阵列卡成员可以依靠底板管理网络交换芯片扩展的本地局域网进行互联通信。从n个soc阵列卡中通过一定的选举策略选举出一个soc阵列卡作为管理soc阵列卡(master),而其它(n-1)个soc阵列卡作为成员soc阵列卡(slave);master负责把本区域管理小组的选举结果上报给bmc管理系统;bmc管理系统和各soc阵列卡均会记录选举结果。
43.2.3、通过master可以收集(n-1)个slave的硬件状态信息(如温度、供电电源电源、运行功耗、在位状态、运行状态等),master负责把收集到的整个节点的硬件状态信息定期上报给bmc管理系统。这样bmc管理系统不需要向每个soc阵列卡查询其硬件状态信息,只需要向每个节点中的管理soc阵列卡(master)查询即可,极大的减轻了bmc管理系统的工作压力(也可以采用soc阵列卡主动上报的方式)。
44.三、选举策略和维护方案:
45.如上提到的选举策略可以有多种方案,如:根据soc阵列卡上电启动完成的顺序、根据soc阵列卡在底板上的位置号大小、根据soc阵列卡管理网络mac地址值的大小、根据soc阵列卡管理网络ip地址值的大小、根据soc阵列卡sn序列号值的大小等等。这里推荐以soc阵列卡在底板上的位置号大小作为选举策略,优点是正常状态下各节点上的master在其节点底板上的位置是一致的,且不会随着更换soc阵列卡而改变。选举策略如下:
46.3.1、soc阵列卡在节点底板上按顺序部署,靠近机箱背板的soc阵列卡位置号为1,其后面的soc阵列卡位置号依次为2、3
……
n(也可以位置号从大到小反向设计)。推荐选举策略把位置号最大(即n)的soc阵列卡选举为master,优点是该soc阵列卡靠进机箱进风口,soc处理器芯片温度比较低、工作稳定性较高,有利于该soc阵列卡承担节点管理任务,如图2所示。
47.节点上电运行后,各个soc阵列卡读取本板卡在机箱和底板上的位置信息(参考专利cn2022109528898),并把本板卡的管理信息(位置信息+ip地址信息+运行状态信息(正常或有故障))进行封装后在管理局域网内部进行广播。同一个节点上的各个soc阵列卡把收到的其它soc阵列卡的管理信息(ip地址+位置信息+运行状态信息)与自己的管理信息中的位置信息+运行状态信息进行比较,如发现有比自己位置号更大的soc阵列卡存在且运行正常,则把自己的主从属性标记为“从”;如发现自己的位置号是最大的且自己的运行状态正常,则把自己的主从属性标记为“主”。综上,节点正常运行的情况下,位置号最大(为n)的板卡会被默认选举为“主”,如果位置号为n的板卡不在位或状态异常,则较小位置号的soc阵列卡将会会被选举为主的机会。同一个节点上的各个soc阵列卡同时需要记录自己和其它n-1个soc阵列卡的管理信息(位置信息+ip地址信息+运行状态信息)作为管理分组信息,并进行管理分组信息的动态维护:每隔一定时间通过心跳的方式把自己的管理信息发送给其它n-1个soc阵列卡,各soc阵列卡如发现自己或其它soc阵列卡的管理信息有变动则对自己记录的管理分组信息进行更新。
48.3.2、如果在节点运行过程中master发生故障,即一定时间内slave收不到来自master的心跳包,或slave发现master的管理信息中的运行状态为异常,则会重新触发选举
策略选出新的master,选举流程和策略同上描述。
49.与现有技术相比,本发明的有益效果是:
50.通过采用分布式+集中式管理相结合的管理框架技术方案,降低了bmc管理系统操作soc阵列卡的指令执行并发量,极大的减轻了bmc管理模块的软硬件工作压力:
51.1.可有效降低bmc处理器芯片及其外设的硬件成本;
52.2.可有效增强bmc管理模块的软硬件可靠性;
53.3.可通过降低bmc管理板的处理器运行功耗来改善机箱系统散热。
54.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种基于soc阵列服务器的分布式、集中式管理系统,其特征在于,包括bmc管理板和节点底板,bmc管理板和节点底板均设计有管理网络,在bmc管理板上,bmc管理芯片通过网卡芯片或网络物理层芯片扩展出一路千兆以太网总线接口;再通过网络交换芯片扩展出m路千兆以太网总线接口,用于和m个节点底板实施交互式管理信息通信;在节点底板上,采用千兆以太网交换芯片扩展出1路千兆以太网总线接口作为上联网口与bmc管理板的1路管理网络连接;扩展出n路千兆以太网总线接口作为下联网口与n个soc阵列卡实施交互式管理信息通信;每个节点刀片上的n个soc阵列卡可作为一个区域管理小组,每个区域管理小组中的n个soc阵列卡成员可依靠底板管理网络交换芯片扩展的本地局域网进行互联通信,从n个soc阵列卡中通过选举策略选举出一个soc阵列卡作为管理soc阵列卡master,而其它n-1个soc阵列卡作为成员soc阵列卡slave;master负责把本区域管理小组的选举结果上报给bmc管理系统;bmc管理系统和各soc阵列卡均会记录选举结果;通过master可收集n-1个slave的硬件状态信息,master负责把收集到的整个节点的硬件状态信息定期上报给bmc管理系统。2.根据权利要求1所述的一种基于soc阵列服务器的分布式、集中式管理系统,其特征在于:以soc阵列卡在底板上的位置号大小作为选举策略。3.根据权利要求2所述的一种基于soc阵列服务器的分布式、集中式管理系统,其特征在于:soc阵列卡在节点底板上按顺序部署,靠近机箱背板的soc阵列卡位置号为1,其后面的soc阵列卡位置号依次为2、3
……
n,推荐选举策略把位置号最大(即n)的soc阵列卡选举为master,节点上电运行后,各个soc阵列卡读取本板卡在机箱和底板上的位置信息,并把本板卡的管理信息进行封装后在管理局域网内部进行广播,同一个节点上的各个soc阵列卡把收到的其它soc阵列卡的管理信息与自己的管理信息中的位置信息和运行状态信息进行比较,如发现有比自己位置号更大的soc阵列卡存在且运行正常,则把自己的主从属性标记为“从”;如发现自己的位置号是最大的且自己的运行状态正常,则把自己的主从属性标记为“主”。4.根据权利要求3所述的一种基于soc阵列服务器的分布式、集中式管理系统,其特征在于:节点正常运行的情况下,位置号最大(为n)的板卡会被默认选举为“主”,如果位置号为n的板卡不在位或状态异常,则较小位置号的soc阵列卡将会会被选举为主的机会,同一个节点上的各个soc阵列卡同时需要记录自己和其它n-1个soc阵列卡的管理信息作为管理分组信息,并进行管理分组信息的动态维护:每隔一定时间通过心跳的方式把自己的管理信息发送给其它n-1个soc阵列卡,各soc阵列卡如发现自己或其它soc阵列卡的管理信息有变动则对自己记录的管理分组信息进行更新。5.根据权利要求4所述的一种基于soc阵列服务器的分布式、集中式管理系统,其特征在于:如果在节点运行过程中master发生故障,即一定时间内slave收不到来自master的心跳包,或slave发现master的管理信息中的运行状态为异常,则会重新触发选举策略选出新的master。

技术总结
本发明公开了一种基于SoC阵列服务器的分布式、集中式管理系统,包括BMC管理板和节点底板,BMC管理板和节点底板均设计有管理网络,在BMC管理板上,BMC管理芯片通过网卡芯片或网络物理层芯片扩展出一路千兆以太网总线接口;再通过网络交换芯片扩展出M路千兆以太网总线接口,用于和M个节点底板实施交互式管理信息通信;本发明具备可有效降低BMC处理器芯片及其外设的硬件成本,有效增强BMC管理模块的软硬件可靠性等优点。件可靠性等优点。件可靠性等优点。


技术研发人员:康万龙 余浩 温启凯 唐书豪 王伟
受保护的技术使用者:深圳市瑞驰信息技术有限公司
技术研发日:2023.05.25
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐