一种基于超级计算机实验室的远程管理系统及其管理方法

未命名 07-22 阅读:101 评论:0


1.本发明涉及软件管理技术领域,特别涉及一种基于超级计算机实验室的远程管理系统及其管理方法。


背景技术:

2.当前,随着超级计算机的高速发展,其配套管理设施越来越完善,超级计算机的配套管理系统的数量也越来越多,超级计算机管理员根据需要的配套设施对超级计算机进行管理,例如各个节点管理、视频监控、网关管理、命令终端、节点重启、环境监控管理等等,目前,超级计算机实验室有多个系统,比如,节点管理系统、环境监控系统、摄像监控系统、网关管理、堡垒机等系统,上述系统分别通过web技术搭建成网页的形式,由于对上述系统的使用均需要在实验室中进行操作,不能通过校园网进行远程操作,所以对于超级计算机实验室的管理者而言,在处理超级计算机实验室问题时难免会需要耗费大量的往返于实验室与办公室的交通时间,并且当实验室中的设备发生故障,各系统发出告警时,无法第一时间了解故障信息并及时前往现场做出相应的安全处理。并且作业的过程中还需要使用命令终端,在运维的过程中还涉及对超级计算机模块重启等操作,这些操作通常需要搭建ssh(secure shell,安全外壳)隧道,其中,搭建ssh隧道需要通过mobaxtern或者putty等客户端对超算节点进行搭建,步骤繁琐。最后,由于节点管理系统、环境监控系统、摄像监控系统、网关管理系统、命令终端等系统均是独立系统,使用时还需要分别登录,账号密码繁多,操作步骤繁琐。


技术实现要素:

3.有鉴于此,本发明的目的在于提供一种基于超级计算机实验室的远程管理系统及其管理方法,能够使得超级计算机管理员可远程对超级计算机进行监控与管理,有效减少超级计算机管理员在处理超级计算机实验室问题时往返于办公室及实验室的通勤时间,提高实验室管理效率,并能够使超级计算机管理员及时对相关系统出现的问题进行分析以便及时排查故障。其具体方案如下:
4.第一方面,本技术公开了一种基于超级计算机实验室的远程管理系统,包括:
5.超算集群管理系统,用于统一管理节点、命令终端,并控制节点的重启;其中,所述超算集群管理系统包括节点管理模块、重启设置模块、命令终端模块和ai节点模块;
6.机房环境管理系统,用于对超级计算机实验室中的各基础设施进行远程监控与管理;所述机房环境管理系统包括网关管理模块、环控管理模块、视频监控模块和堡垒机模块。
7.可选的,所述超算集群管理系统包含第一超级计算机模块和第二超级计算机模块;其中,所述第一超级计算机模块为整合第一节点管理模块、所述重启设置模块和第一命令终端模块的超级计算机,并且所述第二超级计算机模块为整合第二节点管理模块、第二命令终端模块和所述ai节点模块的超级计算机。
8.可选的,所述第一节点管理模块,用于管理所述第一超级计算机模块中相应的节点。
9.可选的,所述第二节点管理模块,用于管理所述第二超级计算机模块中相应的节点。
10.可选的,所述重启设置模块,用于对所述第一超级计算机模块中的所述节点进行重启管理。
11.可选的,所述第一命令终端模块,用于提供对所述第一超级计算机模块的命令终端进行操作的操作平台;
12.以及,所述第二命令终端模块,用于提供对所述第二超级计算机模块的命令终端进行操作的操作平台。
13.可选的,所述ai节点模块,用于管理所述第二超级计算机模块中的ai节点。
14.可选的,所述基于超级计算机实验室的远程管理系统为web系统。
15.第二方面,本技术公开了一种管理方法,应用于后端,包括:
16.整合通过前端反馈的信息得到整合后信息;所述信息为与远程操作指令相关的信息,并且所述远程操作指令为所述前端接收到的因客户端基于所述前端控制和管理超级计算机实验室各系统的操作而发出的指令;
17.将所述整合后信息反馈至如上述的基于超级计算机实验室的远程管理系统;
18.提取所述远程管理系统响应所述整合后信息输出的数据;
19.将所述数据传送至所述前端,以便所述前端根据所述数据渲染页面,并将渲染后页面反馈至所述客户端以实现超级计算机管理员对超级计算机的远程监控与管理。
20.可选的,所述前端通过html技术、javascript技术和css技术渲染页面,并通过python技术和go技术实现与所述后端相关的数据处理操作。
21.第三方面,本技术公开了一种电子设备,包括:
22.存储器,用于保存计算机程序;
23.处理器,用于执行所述计算机程序,以实现前述公开的管理方法的步骤。
24.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的管理方法的步骤。可见,本技术提供了一种基于超级计算机实验室的远程管理系统,包括:用于统一管理节点、命令终端,并控制节点重启的超算集群管理系统和用于对超级计算机实验室中的各基础设施进行远程监控与管理的机房环境管理系统;其中,所述超算集群管理系统包括节点管理模块、重启设置模块、命令终端模块和ai节点模块;所述机房环境管理系统包括网关管理模块、环控管理模块、视频监控模块和堡垒机模块。由此可知,本技术通过远程管理系统统一调控超算集群管理系统和机房环境管理系统及其相关模块,实现对超级计算机的远程监控与管理,从而能够有效减少超级计算机管理员在处理超级计算机实验室问题时往返于办公室及实验室的通勤时间,提高实验室管理效率,并能够使得超级计算机管理员及时对相关系统出现的问题进行分析以便及时排查故障。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
26.图1为本技术公开的一种基于超级计算机实验室的远程管理系统结构示意图;
27.图2为本技术公开的一种具体的基于超级计算机实验室的远程管理系统结构示意图;
28.图3为本技术公开的一种基于超级计算机实验室的远程管理系统前端主页面示意图;
29.图4为本技术公开的一种曙光超级计算机模块功能页面示意图;
30.图5为本技术公开的一种点击“节点管理”时显示的页面示意图;
31.图6为本技术公开的一种点击“重启设置”的节点一键重启示意图;
32.图7为本技术公开的一种点击“命令终端”时对曙光超级计算机模块“命令终端”的操作示意图;
33.图8为本技术公开的一种浪潮超级计算机模块功能页面示意图;
34.图9为本技术公开的另一种“节点管理”显示页面示意图;
35.图10为本技术公开的另一种浪潮超级计算机模块“命令终端”操作示意图;
36.图11为本技术公开的一种“ai节点”显示页面示意图;
37.图12为本技术公开的一种“网关管理”页面显示示意图;
38.图13为本技术公开的一种“环控管理”页面显示示意图;
39.图14为本技术公开的一种“视频监控”页面显示示意图;
40.图15为本技术公开的一种“堡垒机”页面显示示意图;
41.图16为本技术公开的一种管理方法流程图;
42.图17为本技术公开的一种具体的管理方法流程图;
43.图18为本技术公开的一种免密登录架构示意图;
44.图19为本技术公开的一种重启节点架构示意图;
45.图20为本技术公开的一种免密登录命令终端架构示意图;
46.图21为本技术公开的一种电子设备结构图。
具体实施方式
47.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
48.目前,超级计算机实验室的管理员要使用超级计算机实验室中的系统,比如,节点管理系统、环境监控系统、摄像监控系统、网关管理、堡垒机等系统时均需要在实验室中进行操作,不能通过校园网进行远程操作,所以对于超级计算机实验室的管理员而言,在处理超级计算机实验室问题时难免会需要耗费大量的往返于实验室与办公室的交通时间,并且当实验室中的设备发生故障,各系统发出告警时,无法第一时间了解故障信息并及时前往现场做出相应的安全处理。并且作业的过程中还需要使用命令终端,在运维的过程中还涉
及对超级计算机模块重启等操作,这些操作通常需要搭建ssh隧道,其中,搭建ssh隧道需要通过mobaxtern或者putty等客户端对超算节点进行搭建,步骤繁琐。最后,由于节点管理系统、环境监控系统、摄像监控系统、网关管理系统、命令终端等系统均是独立系统,使用时还需要分别登录,账号密码繁多,操作步骤繁琐。为此,本技术提供了一种基于超级计算机实验室的远程管理系统,通过远程统一调控超算集群管理系统和机房环境管理系统及其相关模块,能够实现对超级计算机的远程监控与管理,有效减少超级计算机管理员在处理超级计算机实验室问题时往返于办公室及实验室的通勤时间,提高实验室管理效率,并能够使得超级计算机管理员及时对相关系统出现的问题进行分析以便及时排查故障。
49.本发明实施例公开了一种基于超级计算机实验室的远程管理系统,参见图1所示,该系统包括:
50.需要指出的是,所述超级计算机实验室可以为超算仿真实验室,即超级计算机仿真实验室。
51.超算集群管理系统11,用于统一管理相应的节点、命令终端,并控制节点的重启;其中,所述超算集群管理系统包括节点管理模块、重启设置模块、命令终端模块和ai节点模块。
52.可以理解的是,超算集群管理系统11整合了所述节点管理模块、所述重启设置模块、所述命令终端模块和所述ai节点模块,而且,所述超算集群管理系统11可以包含多种用于管理服务器节点的超级计算机模块,每种超级计算机模块整合相应的模块。例如,如图2所示,所述超算集群管理系统11包含第一超级计算机模块s1和第二超级计算机模块s2,其中,所述第一超级计算机模块s1为整合第一节点管理模块、所述重启设置模块和第一命令终端模块的超级计算机,所述第二超级计算机模块s2为整合第二节点管理模块、第二命令终端模块和所述ai节点模块的超级计算机,并且所述第一超级计算机模块s1可以为曙光超级计算机模块,所述第二超级计算机模块s2可以为浪潮超级计算机模块。所述第一节点管理模块,用于管理所述第一超级计算机模块s1中相应的节点。所述第二节点管理模块,用于管理所述第二超级计算机模块s2中相应的节点。所述重启设置模块,用于对所述第一超级计算机模块s1中的所述节点进行重启管理。在超算集群管理系统11中设置所述重启设置模块,能够实现节点的重启管理。例如,将第一超级计算机模块中的8个节点设置为一键重启,从而能够简化相关节点通过命令行的形式进行重启操作步骤。所述第一命令终端模块,用于提供对所述第一超级计算机模块s1的命令终端进行操作的操作平台。所述第二命令终端模块,用于提供对所述第二超级计算机模块s2的命令终端进行操作的操作平台。例如,通过python技术、javascript技术或者go技术,将所述命令终端模块设置为网页启动并整合到所述超算集群管理系统11中。所述ai节点模块,用于管理所述第二超级计算机模块s2中的ai节点。
53.机房环境管理系统12,用于对超级计算机实验室中的各基础设施进行远程监控与管理;所述机房环境管理系统包括网关管理模块、环控管理模块、视频监控模块和堡垒机模块。
54.可以理解的是,机房环境管理系统12整合了所述网关管理模块、所述环控管理模块、所述视频监控模块以及所述堡垒机模块,也即所述网关管理模块、所述环控管理模块、所述视频监控模块以及所述堡垒机模块统一由机房环境管理系统12管理调控,并且所述机
房环境管理系统12能够实现对网关、摄像监控等基础设施的远程监控与管理,从而能够实现对超级计算机实验室的远程监控与管理。
55.以超算仿真实验室为例,当超级计算机管理员不在超算仿真实验室时,可通过校园网远程登录所述远程管理系统以实时查看上述超算集群管理系统11和上述机房环境管理系统12的管理信息和监控信息,并统一调控所述超算集群管理系统11和所述机房环境管理系统12及其相关模块,当超算集群管理系统11以及机房环境管理系统12发生故障或发出告警时,超级计算机管理员可及时对以上系统进行问题分析,及时排查故障。
56.可见,本技术实施例中,基于超级计算机实验室的远程管理系统包括:用于统一管理节点、命令终端,并控制节点重启的超算集群管理系统和用于对超级计算机实验室中的各基础设施进行远程监控与管理的机房环境管理系统;其中,所述超算集群管理系统包括节点管理模块、重启设置模块、命令终端模块和ai节点模块;所述机房环境管理系统包括网关管理模块、环控管理模块、视频监控模块和堡垒机模块。本技术通过远程管理系统统一调控超算集群管理系统和机房环境管理系统及其相关模块,实现对超级计算机的远程监控与管理,从而能够有效减少超级计算机管理员在处理超级计算机实验室问题时往返于办公室及实验室的通勤时间,提高实验室管理效率,并能够使超级计算机管理员及时对相关系统出现的问题进行分析以便及时排查故障。
57.例如,上述基于超级计算机实验室的远程管理系统为web系统,当超级计算机管理员登录超算管理平台时,所述远程管理系统在前端主页面如图3所示,主页面主要分为两大模块,第一模块为超算集群管理系统,第二模块为机房环境管理系统,所述超算集群管理系统中的第一超级计算机模块可以为曙光超级计算机,即曙光超算,第二超级计算机模块可以为浪潮超级计算机,即浪潮超算;所述机房环境管理系统整合了“网关管理”、“环控管理”、“视频监控”、“堡垒机”等系统与功能。当超级计算机管理员点击前端主页面中的所述曙光超算时显示的页面如图4所示,即所述曙光超算包含节点管理、命令终端、重启设置等系统与功能,并且当超级计算机管理员点击曙光超算中的“节点管理”时显示的页面如图5所示,可看到所述曙光超算“节点管理”中的内容,具体包括:作业管理、调度管理、记账报表、管理、设置等模块内容;如图6所示,当超级计算机管理员点击“重启设置”时可对所述曙光超算中的8个节点进行一键重启;如图7所示,当超级计算机管理员点击“命令终端”可对所述曙光超算“命令终端”进行命令输入操作。当超级计算机管理员点击前端主页面中的所述浪潮超算时显示的页面如图8所示,即所述浪潮超算包含节点管理、命令终端、ai节点等系统与功能。当超级计算机管理员点击浪潮超算中的“节点管理”时显示的页面如图9所示,可看到所述浪潮超算“节点管理”中的内容,具体包括:集群监控、特征监控、作业管理、集群报警、报表统计、系统管理、管理工具、hadoop、配置中心等模块内容;如图10所示点击“命令终端”可对所述浪潮超算“命令终端”进行命令操作;如图11所示点击“ai节点”可查看所述浪潮超算“ai节点”中的内容。如图12所示,当超级计算机管理员点击前端主页面中的所述机房环境管理系统下的“网关管理”时可以查看“网关管理”中的内容,具体包括:系统监控、网络管理、网络优化、资源管理、防火墙、入侵防御、病毒防护、web防护、vpn(virtual private network,虚拟专用网)、风险扫描、统计报表、日志查询、系统管理等模块内容,并且超级计算机管理员可对各模块进行操作;如图13所示,当超级计算机管理员点击所述机房环境管理系统下的“环控管理”时可查看“环控管理”中的内容,具体包括:数据中心、空调
群控、能耗管理、告警管理、智能门禁、视频管理、数据管理、配置管理、系统管理等模块内容,并且超级计算机管理员可对各模块进行操作;如图14所示,当超级计算机管理员点击所述机房环境管理系统下的“视频监控”时可查看各摄像头所拍摄的监控内容,还可以对各摄像头进行控制管理;如图15所示,当超级计算机管理员点击所述机房环境管理系统下的“堡垒机”时可查看“堡垒机”中的内容,具体包括:用户、资产、授权、策略、审计、工单、运维、任务、系统等模块内容,并且超级计算机管理员可对各其进行操作。
58.本发明实施例公开了一种远程管理方法,应用于后端,参见图16所示,该方法包括:
59.步骤s11:整合通过前端反馈的信息得到整合后信息;所述信息为与远程操作指令相关的信息,并且所述远程操作指令为所述前端接收到的因客户端基于所述前端控制和管理超级计算机实验室各系统的操作而发出的指令。
60.本实施例中,前端接收到客户端因所述前端控制和管理超级计算机实验室各系统的操作而发出的远程操作指令之后,前端将与该远程操作指令相关的信息反馈至后端,后端整合该信息得到整合后信息。
61.步骤s12:将所述整合后信息反馈至如上述的基于超级计算机实验室的远程管理系统。
62.本实施例中,后端整合前端反馈的信息得到整合后信息,然后将所述整合后信息反馈至上述远程管理系统。
63.步骤s13:提取所述远程管理系统响应所述整合后信息输出的数据。
64.本实施例中,上述远程管理系统根据所述整合后信息进行相应的响应后输出相应的数据,即上述远程管理系统完成相关响应后,后端提取上述远程管理系统输出的数据。
65.步骤s14:将所述数据传送至所述前端,以便所述前端根据所述数据渲染页面,并将渲染后页面反馈至所述客户端以实现超级计算机管理员对超级计算机的远程监控与管理。
66.本实施例中,后端提取上述远程管理系统响应后输出的数据,将该数据传送至前端,前端根据该数据渲染页面,具体地,前端可以通过html(hypertext markup language,超文本标记语言)技术、javascript技术和css(cascading style sheets,层叠样式表)技术渲染页面,前端完成页面的渲染,将渲染后页面反馈至客户端,以便超级计算机管理员可远程查看超级计算机实验室的监控信息,或者远程对该超级计算机实验室中的各系统进行相关的管理。
67.需要指出的是,可以通过python技术和go技术实现与所述后端相关的数据处理操作。
68.可见,本技术实施例中,前端接收远程操作指令并反馈信息至后端,然后后端整合信息并将整合后信息反馈至远程管理系统,进而远程管理系统根据整合后信息进行相关的响应,完成响应后,后端提取该远程管理系统中的数据,并将该数据发送至前端,前端根据该数据渲染页面,最后客户端接收到前端反馈的渲染后页面,超级计算机管理员即可实现远程查看相关的监控信息并能够实现对超级计算机实验室中各系统的远程统一调控,从而能够实现对超级计算机的远程监控与管理,有效减少超级计算机管理员在处理超级计算机实验室问题时往返于办公室及实验室的通勤时间,提高实验室管理效率,并能够使超级计
算机管理员及时对相关系统出现的问题进行分析以边及时排查故障。
69.例如,如图17所示,在客户端的浏览器上通过局域网访问上述远程管理系统,即前端接收到客户端的操作,将信息反馈至后端,后端通过python语言和go语言等工具,对前端反馈的信息进行整合,并将整合后信息反馈至服务器系统,上述服务器系统所链接的各个超级计算机及其辅助管理系统根据整合后信息进行相应的响应,后端再通过python语言和go语言等工具提取上述服务器系统响应后输出的相关数据,并将该数据发送至前端,前端通过html技术、javascript技术和css技术,根据该数据完成页面的渲染。其中,所述服务器系统即超算集群及其辅助管理系统,也即本技术基于超级计算机实验室的远程管理系统。
70.需要指出的是,本技术基于超级计算机实验室的远程管理系统集成了各个系统,能够免除各模块系统的账号与密码的登录操作,使得对各模块系统的登录变得简单。例如,免密登录架构如图18所示,超级计算机管理员点击前端登录按钮,后端利用go技术首先建立表单,然后将构建好的表单传输至post()函数,进而将post()函数的值分别传递至上述远程管理系统中的各系统的url(uniform resource locator,统一资源定位符)上,从而能够实现各个系统的免密登录。
71.本技术重启节点架构如图19所示,超级计算机管理员点击上述远程管理系统前端主页面中的超算集群管理系统下的重启设置按钮,后端利用go技术首先根据ip地址或者端口号等建立ssh隧道,使得客户端服务器与超算集群节点建立连接,然后建立session库,并通过combinedoutput()函数对超算服务器执行重启命令,从而实现对各节点的重启管理。
72.本技术免密登录命令终端架构如图20所示,超级计算机管理员点击上述远程管理系统前端主页面中的超算集群管理系统下的命令终端按钮,后端通过go语言首先根据ip地址、端口号、用户名或者密码等建立ssh隧道,使得网站服务器与超算集群建立连接,并将网站服务器与超算集群进行连接的信息反馈至前端,前端通过html技术将网页渲染为网页命令终端,超级计算机管理员在该网页命令终端输入命令,后端接收到该命令之后,通过python语言,使用combinedoutput()函数将该命令传送至超算服务器,超算服务器响应该命令,并将相应的响应结果反馈至后端,后端收集超算服务器反馈的相应结果,生成string格式数据,并将该string格式数据转化为json格式数据,最后将json格式数据反馈至前端,前端显示命令终端的操作结果。
73.进一步的,本技术实施例还提供了一种电子设备。图21是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
74.图21为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的管理方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
75.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电能;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
76.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
77.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的管理方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
78.进一步的,本技术实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的管理方法步骤。
79.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
80.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
81.以上对本发明所提供的一种基于超级计算机实验室的远程管理系统及其管理方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种基于超级计算机实验室的远程管理系统,其特征在于,包括:超算集群管理系统,用于统一管理节点、命令终端,并控制节点的重启;其中,所述超算集群管理系统包括节点管理模块、重启设置模块、命令终端模块和ai节点模块;机房环境管理系统,用于对超级计算机实验室中的各基础设施进行远程监控与管理;所述机房环境管理系统包括网关管理模块、环控管理模块、视频监控模块和堡垒机模块。2.根据权利要求1所述的基于超级计算机实验室的远程管理系统,其特征在于,所述超算集群管理系统包含第一超级计算机模块和第二超级计算机模块;其中,所述第一超级计算机模块为整合第一节点管理模块、所述重启设置模块和第一命令终端模块的超级计算机,并且所述第二超级计算机模块为整合第二节点管理模块、第二命令终端模块和所述ai节点模块的超级计算机。3.根据权利要求2所述的基于超级计算机实验室的远程管理系统,其特征在于,所述第一节点管理模块,用于管理所述第一超级计算机模块中相应的节点。4.根据权利要求2所述的基于超级计算机实验室的远程管理系统,其特征在于,所述第二节点管理模块,用于管理所述第二超级计算机模块中相应的节点。5.根据权利要求2所述的基于超级计算机实验室的远程管理系统,其特征在于,所述重启设置模块,用于对所述第一超级计算机模块中的所述节点进行重启管理。6.根据权利要求2所述的基于超级计算机实验室的远程管理系统,其特征在于,所述第一命令终端模块,用于提供对所述第一超级计算机模块的命令终端进行操作的操作平台;以及,所述第二命令终端模块,用于提供对所述第二超级计算机模块的命令终端进行操作的操作平台。7.根据权利要求2所述的基于超级计算机实验室的远程管理系统,其特征在于,所述ai节点模块,用于管理所述第二超级计算机模块中的ai节点。8.根据权利要求1所述的基于超级计算机实验室的远程管理系统,其特征在于,所述基于超级计算机实验室的远程管理系统为web系统。9.一种管理方法,其特征在于,应用于后端,包括:整合通过前端反馈的信息得到整合后信息;所述信息为与远程操作指令相关的信息,并且所述远程操作指令为所述前端接收到的因客户端基于所述前端控制和管理超级计算机实验室各系统的操作而发出的指令;将所述整合后信息反馈至如上述权利要求1至8任一项所述的基于超级计算机实验室的远程管理系统;提取所述远程管理系统响应所述整合后信息输出的数据;将所述数据传送至所述前端,以便所述前端根据所述数据渲染页面,并将渲染后页面反馈至所述客户端以实现超级计算机管理员对超级计算机的远程监控与管理。10.根据权利要求9所述的管理方法,其特征在于,所述前端通过html技术、javascript技术和css技术渲染页面,并通过python技术和go技术实现与所述后端相关的数据处理操作。

技术总结
本申请公开了一种基于超级计算机实验室的远程管理系统及其管理方法,涉及软件管理技术领域,该远程管理系统包括:超算集群管理系统和机房环境管理系统,其中,超算集群管理系统包括节点管理模块、重启设置模块、命令终端模块和AI节点模块,机房环境管理系统包括网关管理模块、环控管理模块、视频监控模块和堡垒机模块。本申请通过远程管理系统远程统一调控超算集群管理系统和机房环境管理系统及其相关模块,能够实现对超级计算机的远程监控与管理,从而有效减少超级计算机管理员在处理超级计算机实验室问题时往返于办公室及实验室的通勤时间,提高实验室管理效率,并能够使超级计算机管理员及时对相关系统出现的问题进行分析以便及时排查故障。分析以便及时排查故障。分析以便及时排查故障。


技术研发人员:张阳光 陈集文 黄荣威 郑泽龙 张华 周沧涛
受保护的技术使用者:深圳技术大学
技术研发日:2023.04.18
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐