一种故障注入系统、方法及设备与流程
未命名
07-20
阅读:137
评论:0
1.本技术涉及计算机技术领域,尤其涉及一种故障注入系统、方法及设备。
背景技术:
2.服务器在运行过程中,其单板上的器件存在失效的可能性,但由于服务器常年在机房无人环境中运行,所以需要服务器在失效的时候自动将故障告警至相关管理设备,以便为维护人员准确定位故障源。因此,服务器的故障告警性能对保证服务器安全运行十分重要。
3.通常,为了测试服务器的故障告警性能的可靠性,可以人工对向单板上的电路进行故障注入,模拟单板上的器件失效,若服务器能够正确监测到该失效器件并告警,可以表明其故障告警性能可靠,之后还需人工手动恢复电路上注入的故障。
4.显然,这种人工注入故障的方式效率低且费时费力。
技术实现要素:
5.本技术提供了一种故障注入系统、方法及设备、计算机存储介质及计算机程序产品,能够提高故障注入的自动化性能,提高故障注入效率。
6.第一方面,本技术一实施例提供一种故障注入系统,该系统包括至少一个故障注入装置,移动机构、定位装置以及处理器,其中:故障注入装置用于对服务器待测单板上的目标位置注入故障,目标位置为待测单板上的电路的故障注入操作点;述移动机构用于移动故障注入装置;处理器用于控制移动机构将故障注入装置移动至目标位置,以通过故障注入装置调整目标位置处的电路,实现对应的故障注入。
7.在本实施例中,处理器可以控制移动机构将故障注入装置移动至待测单板上的相应位置(即目标位置),从而直接对单板上的电路进行电路调整操作,实现故障注入。其中,该电路可以包括待测单板上的信号电路、电源电路等,但不限于此,对电路上的目标位置可以注入的故障,包括开路故障或短路故障等。这样,不必人工手动操作注入故障,利于提高故障注入的自动化性能,提高故障注入效率。
8.在一些可能的实现方式中,故障注入装置包括短路故障注入装置,短路故障注入装置包括探针和导线,导线的一端连接探针输出端,导线的另一端接地;探针的探测端,用于接触目标位置,以使目标位置所在的电路通过探针和导线接地,实现注入短路故障。
9.这样,通过移动装置装载和移动该短路故障注入装置,接触到目标位置,即可便捷地实现短路故障注入。
10.在一些可能的实现方式中,故障注入装置包括开路故障注入装置,开路故障注入装置包括供电电源和焊接器,供电电源,用于向焊接器提供电能;焊接器,用于在获取电能时发热,以熔断目标位置所在的电路,实现注入开路故障。
11.这样,通过移动装置装载和移动该开路故障注入装置,接触到目标位置,即可便捷地实现开路故障注入。
12.在一些可能的实现方式中,系统还包括定位装置,移动机构参考第一坐标系移动,待测单板上设有位置识别点,
13.处理器还用于调用工程文档,工程文档中包括待测单板上的位置识别点的坐标信息,坐标信息是基于第二坐标系确定的;处理器还用于根据坐标信息,控制移动机构基于第一坐标系,移动至位置识别点上方;定位装置用于在移动机构位于位置识别点上方时,采集移动机构正对的待测单板的图像,图像中至少记录位置识别点的位置;处理器还用于根据图像中记录的位置识别点的位置,控制移动机构与待测单板上的位置识别点对齐,以校准第一坐标系与第二坐标系的对应关系。
14.第二方面,本技术一实施例供了一种故障注入方法,该方法包括:获取故障注入指令,所述故障注入指令用于指示对服务器待测单板上的目标位置注入目标故障,所述目标位置为所述待测单板上的电路的故障注入操作点;根据所述故障注入指令,控制对应的故障注入装置移动至所述目标位置;使所述故障注入装置调整所述目标位置处的所述电路,实现目标故障的注入。
15.在一些可能的实现方式中,所述控制故障注入装置移动至所述目标位置处时,是通过移动机构移动的,所述移动机构移动时参考第一坐标系,所述待测单板上设有位置识别点,其中,在所述控制故障注入装置移动至所述目标位置处之前,所述方法包括:调用工程文档,所述工程文档中包括所述待测单板上的位置识别点的坐标信息,所述坐标信息是基于第二坐标系确定的;根据所述坐标信息,控制所述移动机构基于所述第一坐标系,移动至所述位置识别点上方;在所述移动机构位于所述位置识别点上方时,采集所述移动机构正对的所述待测单板的图像,所述图像中至少记录所述位置识别点的位置;根据所述图像中记录的位置识别点的位置,控制移动机构与所述待测单板上的所述位置识别点对齐,以校准所述第一坐标系与所述第二坐标系的对应关系。
16.在一些可能的实现方式中,故障注入指令中包括目标位置的坐标信息;根据故障注入指令,控制对应的故障注入装置移动至目标位置,包括:根据目标位置的坐标信息控制移动机构移动,以将该移动机构装载的故障注入装置移动至目标位置。
17.在一些可能的实现方式中,故障注入装置包括多个,每个故障注入装置用于注入一种故障,多个故障注入装置装载在移动机构上,根使故障注入装置调整目标位置处的电路,还包括:控制移动机构从多个故障注入装置中,操作能够注入目标故障的一个故障注入装置,来调整目标位置处的电路。
18.在一些可能的实现方式中,在控制故障注入装置移动至目标位置处,以使故障注入装置通过调整目标位置的电路,实现目标故障的注入之后,方法包括:获取服务器上带外控制器上报的告警信息;根据告警信息和故障注入指令是否匹配,测试带外控制器的故障检测性能。
19.在一些可能的实现方式中,在控制故障注入装置移动至目标位置处,以使故障注入装置通过调整目标位置的电路,实现目标故障的注入之后,方法包括:控制故障注入装置对对应注入的故障进行恢复。
20.第三方面,本技术一实施例提供一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序;其中,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
21.第四方面,本技术一实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
22.第五方面,本技术一实施例提供一种计算机程序产品,其特征在于,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
23.第六方面,本技术一实施例提供一种芯片,其特征在于,包括至少一个处理器和接口;至少一个处理器通过接口获取程序指令或者数据;至少一个处理器用于执行程序行指令,以实现第一方面或第一方面的任一种可能的实现方式所描述的方法。
24.可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
25.图1是本技术实施例提供的一种故障注入场景示意图;
26.图2是本技术实施例提供的一种注入装置的结构示意图;
27.图3是本技术实施例提供的另一种注入装置的示意图;
28.图4是本技术实施例提供的一种故障注入系统的结构示意图;
29.图5是本技术实施例提供的一种故障注入系统在故障注入场景中的示意图;
30.图6是本技术另一种实施例提供的故障注入系统在故障注入场景中的示意图;
31.图7是本技术实施例提供的一种故障注入方法的流程示意图;
32.图8是本技术另一实施例提供的一种故障注入方法的流程示意图;
33.图9是本技术实施例提供的一种用户界面的示意图;
34.图10是本技术实施例提供的一种注入短接故障的示意图;
35.图11是本技术实施例提供的一种注入开路故障的示意图;
36.图12是本技术实施例提供的一种故障注入装置的结构示意图;
37.图13是本技术实施例提供的一种芯片的结构示意图。
具体实施方式
38.本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本文中符号“/”表示关联对象是或者的关系,例如a/b表示a或者b。
39.本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
40.在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
41.在本技术实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,
例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
42.为便于理解本技术的技术方案,下面首先对本技术实施例涉及的技术术语解释。
43.bmc(baseboard management controller),基板管理控制器,能够实现一系列的监视和控制功能,操作的对象是系统硬件。比如监视系统的温度,电压,风扇、电源等等,并做相应的调节工作,以保证系统处于健康的状态,能够负责记录各种硬件的信息和日志记录,用于提示用户和后续问题的定位。bmc是一个独立的系统,在计算机上可以具有单独的供电模块,且bmc可以与计算机上的其它硬件(比如cpu、内存等)通过物理通道通信。
44.服务器单板上存在大量的信号电路、电源电路,测试人员可以通过在这些信号电路和电源电路上注入开路或短路故障,来实现对这些电路上的一些器件的失效测试,例如在单板上某个半导体器件所在外围电源电路注入短路故障,模拟该器件处于电源失效场景,继而用以测试服务器对该器件失效的监测和告警能力。
45.当前对信号电路和电源电路注入故障时,通常采用的故障注入方式为:人工手工(例如手工焊接调整电路)短接或断开信号、电源电路上的相关电阻或电容等器件,以对应模拟信号电路、电源电路的短路或开路场景,从而使这些器件失效。手动注入故障完成,服务器中的bmc管理软件会检测并生成相关告警,之后,测试人员还需使用手工方式将上述电路上的故障恢复,这不仅受限于测试人员的专业能力,容易影响测试质量,并且手工操作注入故障也存在效率低下且费时费力的弊端。
46.为了提高对服务器单板上相关电路的故障注入效率,本技术实施例提供了一种故障注入方法,该方法主要是通过自动化的故障注入系统,自动定位到服务器待测单板相应信号电路、电源电路上能够用于注入故障的可操作点,然后基于该可操作点自动构造短路或开路故障,并在服务器告警性能测试完成后,自动恢复该故障,从而降低人工投入,利于提高故障注入的效率。
47.为便于理解本技术实施例的技术方案,下面首先对本技术实施例的至少一种应用场景进行介绍。
48.示例性的,如图1所示,服务器10中可以包括一个或多个单板11,单板11可以是主板、硬盘单板、风扇单板等,但不限于此。每个单板11上可以设有若干信号电路和电源电路等电路,信号电路用于传输通信信号,电源电路用于传输电能,可以理解,这些信号电路和电源电路上均可以包括线路和接入这些线路中的电阻、电容等器件,这些器件(下文也称为“待测器件”)会在其所在电路注入短路或开路故障之后失效。服务器11内的带外控制器12可以与单板11电连接,以对单板11上的这些待测器件所在电路的故障(如开路或短路)等进行监测。
49.为了测试带外控制器12对单板11上器件失效的检测能力的可靠性,在本技术一场景中,可以通过管理终端20控制自动化故障注入系统30,对单板11上的待测器件所在外围电路(包括上述信号电路和电源电路)构造相应的开路或短路故障,对应模拟该器件处于开路或短路的失效场景,若带外控制器12能够对待测器件失效场景正确告警(告警至管理终端20),则可以判定带外控制器12检测性能可靠。
50.作为示例,故障注入系统30构造电路的开路或短路故障时,可以在管理终端20的控制下,启动移动机构32装载故障注入装置31,并将故障注入装置31运送到单板11的待测
器件所在电路对应的目标位置处,该目标位置即当前电路上用于注入故障的操作点,接着可以利用故障注入装置31在目标位置处对该待测器件所在的电路构造开路或短路故障,待测器件失效,以供带外控制器31对当前模拟出的器件失效的场景(即故障源)进行故障检测和告警。
51.在本示例中,带外控制器12可以包括计算机设备外部的监控管理单元、处理器外的管理芯片中的管理系统、计算机设备基板管理控制单元(baseboardmanagement controller,bmc)、系统管理模块(system management mode,smm)等,但不限于此。本技术实施例对于带外控制器的具体形式并不进行限定,在此仅是示例性说明。下述实施例仅以带外控制器12为bmc为例进行说明。
52.本方案中,管理终端10可以为个人计算机(pc)、平板电脑、个人数字助理(personal digitalassistant,pda)、可穿戴设备、智能电视、华为智慧屏等。终端10的示例性实施例包括但不限于搭载ios、android、windows、鸿蒙系统(harmony os)或者其他操作系统的电子设备。上述终端也可以是其他电子设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。本方案对终端的类型不做具体限定。
53.接下来,对本技术实施例提供的一种故障注入系统进行介绍。
54.参考图1所示,故障注入系统30可以包括至少一个故障注入装置31、以及移动机构32,其中,各个故障注入装置31、移动机构32可以通信连接至处理器33上,其中:
55.故障注入装置31可以用于对待测单板上的目标位置注入对应类型的故障,该目标位置为待测单板上的电路的故障注入操作点,待测单板上的该电路可以包括信号电路和电源电路,但不限于此,例如对电源电路中的某个操作点注入开路或短路的故障。
56.移动机构32可以用于装载和移动该故障注入装置31。
57.处理器33可以用于控制移动机构32将故障注入装置31移动至待测单板11的目标位置,以使故障注入装置31调整目标位置处的电路,从而注入对应的故障。
58.下面对上述系统30中的各个部分进行详细解释。
59.示例性的,故障注入装置31可以包括短路故障注入装置311和开路故障注入装置312,其中,
60.短路故障注入装置311用于构造待测器件所在电路的短路故障,
61.开路故障注入装置312用于构造待测器件所在电路的开路故障。待测器件即连接在待测单板11中的电路上的、待被模拟为失效器件的元器件,如电容、电阻、晶体管等,但不限于此,待测器件可以有多个,例如信号电路上的电容c1,电源电路上的电容c2。
62.示例性的,如图2所示,短路故障注入装置311可以包括探针3111和导线(下文也称为“第一导线”)3112,第一导线3112的一端连接探针3111输出端,第一导线3112的另一端接地(gnd)。作为具体示例,短路故障注入装置311可以包括电路板(图2中未标示),该电路板上提供电源地(gnd)触点,以与第一导线3112端部电连接。
63.当对待测器件所在电源电路进行短路故障注入时,探针3111的探测端(电信号输入端)接触待测器件的电源输出端(即当前的目标位置),就可以使待测器件经过探测器3111和导线3112短接到地。同理,进行信号电路的短路故障注入时,将探针3111的探测端接触待测器件的信号输出端,形成短接。短路故障恢复时,只需将探针3111从待测器件的输出端移开即可。
64.示例性的,如图3所示,开路故障注入装置312可以包括供电电源3121和焊接器3122,供电电源3121与该焊接器3122电连接,其中,焊接器3122为通电发热器件,例如烙铁夹、焊接棒等,但不限于此。供电电源3121可以为向焊接器3122提供电能的电源,例如蓄电池、充电电源等。
65.当进行电源电路的开路故障注入时,焊接器3122通电受热,靠近电源电路上的待测器件(如电阻或电容等)在电路中的连接点,使连接点的锡线熔断,将该待测器件从待测单板1移出(即下件),形成待测器件所在电源电路的开路故障,待测器件处于电源失效场景。同理,构造信号电路上的开路故障时,熔断待测器件与其所在信号电路上的连接点即可。在本示例中,待测器件可以通过机械臂灵巧手从单板上取下,后续故障恢复时,可以将取下的元器件放回其原位,并通过焊接器3122将其重新焊连进所在电路,恢复当前电路的通路。
66.示例性的,移动机构32可以是支持线性运动或旋转的机械手臂,机械臂的操作端可以通过灵巧手夹持来装载固定注入装置。在本示例中,机械臂的类型和结构不做唯一限定,例如移动机构32可以是平行连杆机械臂、铰接式机械臂等。举例说明而非限定,可参考图4所示的,该移动机构32可以包括多个机械臂关节,其中,第一机械臂关节321的一端固定在旋转底座322上,其另一端与第二机械臂关节323的一端铰接,第二机械臂关节323的另一端,即操作端32a,通过可伸缩机构(如电动伸缩杆,图4中未标示)连接有灵巧手324。这样,移动机构32可以在上位机的控制下,通过旋转底座(内置旋转电机)322进行旋转运动,还可以使两机械臂关节321,323执行内向弯曲、反向弯曲等动作、以及伸缩灵巧手324、控制灵巧手324进行握持动作或者放松动作等。可以理解,在该示例中,机械臂的各个关节节321,323均可以是本领域成熟的模块化结构,此处不再赘述。
67.在一些具体示例中,移动机构32的操作端32a可以装载有上述探针3111和焊接器3122,然后操作端32a移动到待测单板11上的目标位置处。当需要构造待测单板11中的电路开路故障时,处理器33可以控制移动机构32的操作端32a推出开路故障注入装置312,使该装置312作用在该电路上的目标位置处进行故障注入。同理,当需要构造待测单板11中的电路的短路故障时,处理器42可以控制移动机构32的操作端32a推出短路故障注入装置311。
68.示例性的,参考图4所示,故障注入系统30还可以包括定位装置34,处理器33控制移动机构32移动时,可以通过该定位装置34辅助校准移动机构32在所参照的坐标系(下文也称为“坐标系1”)中初始位置,使坐标系1与待测单板11所参照的坐标系(下文也称为“坐标系2”)对应,这样,移动机构32基于自身所参照的坐标系1,可以使操作端32a准确到达待测单板11上的任意坐标位置。
69.其中,该定位装置34可以是固定在操作端32a上的视觉定位装置,用于捕获静态图像,例如,捕获待测单板11的平面图像,用于校准移动机构32在所参照坐标系1的初始位置。示例性的,可继续参考图4,视觉定位装置34主要包括感光元341,使物体(如机械臂)通过镜头342生成光学图像投射到该感光元件341,感光元件341可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementarymetaloxidesemiconductor,cmos)光电晶体管。
70.感光元件341把对待测单板11采集的光信号转换成电信号,之后将电信号传递给图像信号处理器(image signal processor,isp)343转换成为肉眼可见的图像,然后
isp343将图像传输至图形处理器(graphics processing unit,gpu),进行识别图像处理,以识别图像中包括的元素(如单板上的器件或标识等)。
71.示例性的,待测单板11上设有至少两个位置识别点(mark点),位置识别点是待测单板11上用于进行光学定位的标识点,也可称为基准点,可以为裸铜材质的标识,基于单板11上的至少两个位置识别点的坐标,可以校准移动机构32在所参照的坐标系1中的初始位置。具体校准原理为:
72.基于坐标系2,可以标记待测单板11上的各器件、各位置识别点、以及任意电路上的任意点的坐标,并记录在工程文档(如pcb文档或网表文档)中。在实现电路故障注入过程中,处理器33可以先根据工程文档中记录的位置识别点a坐标,令移动机构32先基于其所参照的坐标系1,将操作端32a移动到该单板11中的位置识别点a的上方。接着,视觉定位装置34通过对操作端32a下方的单板11拍照,并从拍摄的图像中识别当前位置识别点a,计算操作端32a相对于该位置识别点a的偏移位置和角度,通过位置纠偏,令操作端32a与位置识别点a对其,锁定当前操作端32a所在坐标系1中位置坐标与当前位置识别点a坐标的关系。同理,记录单板11上其他位置识别点坐标与操作端32a对应所在坐标系1中坐标的关系,就能够校准移动机构32的初始位置,使坐标系1与待测单板11所参照的坐标系2对应,便于移动机构32基于坐标系1准确到达单板11的任意坐标对应的位置。
73.处理器33可以包括一个或多个处理器,例如,处理器33可以包括中央处理单元(central processing un it,cpu),还可以包括其他通用处理器,如上述图形处理器gpu、控制器、数字信号处理器(digital signal processor,dsp)、图像信号处理器isp、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
74.处理器33中还可以设置存储器,用于存储指令和数据。在一些示例中,处理器33中的存储器为高速缓冲存储器。该存储器可以保存处理器33刚用过或循环使用的指令或数据,如isp根据感光元件生成的图像。如果处理器33需要再次使用该指令或数据,可从所述存储器中直接调用,以避免重复存取,减少处理器33的等待时间,提高系统的效率。
75.此外,该处理器33还可以耦合有内部存储器35,内部存储器35可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器33通过运行存储在内部存储器35的指令,从而执行故障注入系统30的各种功能应用以及数据处理。此外,内部存储器35可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。此外,处理器33还可以通过总线连接通信接口36,用以与故障注入系统30中的其他部分、装置、模块、器件通信连接。
76.可以理解,上述故障注入系统30的所有部件可以部分或全部集成,例如,处理器33和内部存储器35以及通信接口36集成在一个壳体内,作为一个控制终端。视觉定位装置34可以设置在移动机构32的操作端32a上,以便于具有充分的视野采集机械臂操作端32a正对的物体(如单板11)的图像。
77.或者视觉定位装置34也可以与处理器33、内部存储器35以及通信接口36集成在一个壳体内,做为移动机构32和注入装置31的控制终端,控制该两者的上下电、启动,以及控制移动机构32的运行轨迹等等。
78.或者,在一些示例中,处理器33和内部存储器35以及通信接口36也可以是集成在管理终端20内部的器件,除了实现上述故障注入系统30的相应功能外,还可以实现管理终端20侧需要实现的其他功能,如获取测试人员的指令,获取服务器10上带外控制器12的信息,验证带外控制器12的故障检测性能等。
79.下面以处理器33和内部存储器35以及通信接口36集成在一个控制终端30a1为例,阐述本实施例中故障注入系统30对服务器10的待测单板11进行故障注入,以及验证服务器10的bmc12a性能的过程。
80.示例性的,图5示出了一种故障注入系统在故障注入场景中的示意图。如图5所示,服务器10的待测单板11与bmc12a电连接,bmc12a和故障注入系统30的控制终端30a1均通信连接管理终端20。测试人员可以在管理终端20上输入故障注入指令,以指示对待测单板11上的待测器件111所在电路注入目标故障。
81.在本示例中,测试时,待测单板11可以置于移动机构32下方,移动机构32首先在定位装置34的辅助下,基于上文阐述的校准原理,根据单板11上的mark点,定位校准其在所参照坐标系1下的初始位置,使坐标系1与待测单板11所参照的坐标系2对应。接着,控制终端30a1接收故障注入指令,该指令中至少包括用于故障注入的目标位置坐标信息,还可以包括故障类型,可以理解,目标位置可以是待测器件连接至所在电路的某些点,例如器件的信号输出端、正负电源端等。然后,控制终端30a1基于该指令,控制装载有短路故障注入装置311或开路故障注入装置312的操作端32a,根据目标位置的坐标信息移动至单板11上的目标位置,并根据指令中包含的故障类型操作相应的故障注入装置,在目标位置进行故障注入。例如,如果故障类型是短路,则操作端32a的灵巧手324推出短路故障注入311,使探针3111接触信号电路上待测器件的信号输出端(即目标位置),形成信号电路短接,待测器件短接失效。如果故障类型是开路,则操作端32a的灵巧手324推出开路故障注入312,使焊接器3122接触信号电路上待测器件的信号输入、输出端(即两个目标位置),熔断该器件与电路的连接锡线,取下该器件,形成信号电路开路,待测器件开路失效。同理,可以构造待测器件所在的电源电路的短路和开路故障。
82.在本示例中,通过上述方式构造开路或短路故障之后,bmc12a检测该单板11上构造的故障并生成告警信息,上报至管理终端20,管理终端20验证如果该告警信息与对应故障注入指令中表征的故障一致,如故障源、电路故障类型等等一致,则可以判定bmc12a故障检测性能可靠。
83.在一些其他可能的实现方式中,故障注入指令也可以是测试人员在控制终端30a1侧输入,输入之后上报管理终端20以用于验证bmc12a的告警信息。
84.在另一些可能的实现方式中,如图6所示,故障处理系统30的处理器33和内部存储器35以及通信接口36等单独集成到控制终端30a1内,作为上位机能够输入故障构造指令,并上下电以及控制移动机构32和视觉定位装置34以及故障注入装置31等,还能够获取服务器10的带外控制器12上报的告警信息,验证带外控制器12的故障检测性能等。
85.接下来,基于上文所描述的内容,对本技术实施例提供的一种故障注入方法进行介绍。可以理解的是,该方法是基于上文所描述的内容提出,该方法中的部分或全部内容可以参见上文中的描述。
86.请参阅图7,图7是本技术实施例提供的一种故障注入方法的流程示意图。可以理
解,该方法可以通过上述图1中所示的故障注入系统30实现,也就可以通过其他适合的具有计算、处理能力的装置、设备、平台来执行。如图7所示,该故障注入方法可以包括:
87.在s701,处理器获取故障注入指令,故障注入指令用于指示对服务器待测单板上的目标位置注入目标故障,目标位置为待测单板上的电路的故障注入操作点。
88.在本实施例中,故障注入系统的处理器可以获取故障注入指令,以指示故障注入系统中的其他部件实现该指令指示的操作。示例性的,故障注入系统可以是图4中所示的故障注入系统30,且下文以故障注入系统30为例阐述;该处理器可以是集成在控制终端上的处理器,例如该处理器可以是图4中所示处理器33,其可以集成在图5或图6中所示的控制终端30a1上,下文以该处理器为处理器33为例阐述。
89.示例性的,处理器33获取的故障注入指令可以是从管理终端(本文以图5所示的管理终端20为例说明)获取,在其他示例中,处理器33集成在管理终端30a1上时,也可以通过管理终端30a1的外设(如显示器、键盘、鼠标等,但不限于此)获取。
90.示例性的,故障注入指令中可以包括目标位置的坐标信息和目标故障,其中,该坐标信息可以用于描述移动装置32所参照的坐标系2中的点,目标故障可以包括开路故障或短路故障。
91.s702,处理器控制故障注入装置移动至该待测单板上的目标位置处。
92.在本实施例中,处理器33从故障注入指令中,解析出当前要在单板11的哪些目标位置进行何种类型(如开路或短路)的故障(即目标故障)。接着,处理器33可以控制装载有相应故障注入装置31的移动机构32,向故障注入指令中指示的坐标移动,直至达到该坐标对应的目标位置。
93.s703,处理器控制故障注入装置调整目标位置的电路,以注入目标故障。
94.在本实施例中,在移动机构32将故障注入装置31移动至目标位置之后,处理器33可以直接利用该装置31在该目标位置进行对应的故障注入,从而减少人工投入,提高故障注入的自动化性能,从而提高故障注入效率。
95.示例性的,该故障注入装置可以是短路故障注入装置311或开路故障注入装置312,以构造目标器件的短路或开路故障。
96.当服务器10的bmc12a检测到单板11上出现故障,则上报告警信息,使得管理终端20可以通过比对故障注入指令和告警信息,确认二者所表征的故障源、目标故障等是否一致,如是否都是目标位置所在电源电路开路的故障,从而验证bmc12a的故障检测性能的可靠性,若一致则其性能可靠,反之不可靠。这样,整个测试过程人工参与程度低,测试效率高。
97.接下来,以上述处理器33集成在单独的控制终端30a1为例,对本技术实施例的方法进行详细阐述。
98.在本实现方式中,处理器33可以集成在图5中所示的控制终端30a1上,控制终端30a1与被测服务器10上的bmc12a均通信连接管理终端20。具体的,故障注入方法可以包括:
99.s801,管理终端生成故障注入指令,故障注入指令用于指示对服务器待测单板上的目标位置注入目标故障。
100.在本实施例中,管理终端20可以通过运行测试软件或浏览器,登录故障测试用户界面,该用户界面可以提供软件接口以接收用户的指令。作为示例,用户界面上可以具有菜
单(munustr ip)、按钮(button)、复选框(checkbox)等控件,以支持用户进行指令输入操作。
101.示例性的,用户基于该用户界面可以输入故障注入指令,该故障注入指令可以用于指示对待测单板11上的目标位置注入目标故障。其中,目标位置可以是待测器件至其所在电路的连接点,例如待测器件的信号或电源输入端、输出端,这样,在目标位置注入短路故障或者开路故障之后,形成当前电路短接或开路,待测器件对应失效。
102.在一些具体示例中,参考图9所示,用户界面201上可以显示多个故障类型的选项、坐标输入框或其他坐标信息输入接口等,供用户输入故障注入指令。例如,可以在用户界面201选择对单板11上的坐标(x1,y1)位置注入开路故障。
103.或者,在一些示例中,可以单独输入坐标信息,和单独输入目标故障,例如先输入坐标信息以指示注入故障的目标位置,便于后续将故障注入装置移动到该位置,之后再输入目标故障,执行故障注入操作。
104.s802,控制终端获取该故障注入指令。
105.在本实施例中,管理终端20生成的故障注入指令可以发送到控制终端30a1,由控制终端30a1内的处理器33处理执行。
106.s803,控制终端根据故障注入指令,将对应的故障注入装置移动至目标位置。其中,如图8所示,执行该s803时,具体可以包括:
107.s8031,控制终端获取待测单板的工程文档。
108.在本步骤中,待测单板11的工程文档可以从管理终端20上获取,或者在一些示例中,工程文档可以预先存储在控制终端30a1的存储器中,供处理器33从该存储器中调用获取。
109.该工程文档可以用于记录单板上各待测器件及其所在信号电路和电源电路等关联电路的布局信息,其中,该工程文档可以是pcb文件、或网表文件,但不限于此。这样,处理器33基于工程文档可以识别出当前待测单板11上各个器件、以及电路上任意点的位置坐标、以及位置识别点坐标。
110.s8032,控制终端根据工程文档,控制定位装置校准移动机构所参照的第一坐标系与第二坐标系的对应关系,第二坐标系用于描述待测单板上的任意位置。
111.在本步骤中,基于坐标系2(即第二坐标系),在工程文档中记录待测单板11中各器件、电路上任意点、各位置识别点的坐标信息,其中,位置识别点可以有至少两个,例如包括点a(x2,y2)和点b(x3,y3)。接着,控制终端30a1可以首先根据所述坐标信息,控制所述移动机构基于所述第一坐标系,移动至所述位置识别点上方,例如令移动机构的操作端32a基于所参照的坐标系1移动至点a(x2,y2)的上方。
112.然后在移动机构位于位置识别点上方时,令定位装置34采集移动机构正对的待测单板的图像,图像中至少记录位置识别点的位置。例如令定位装置34采集一张位于下方的待测单板11的图像,该图像中至少记录位置识别点a(其在单板上可以为圆形标记,但不限于此)的在单板11上的位置。
113.接着,根据图像中记录的位置识别点的位置,控制移动机构与待测单板上的位置识别点对齐,以校准第一坐标系与第二坐标系的对应关系。例如从该图像中识别出待测单板11上的实际位置识别点a,然后通过纠正操作端32a相对于位置识别点a的偏移距离和角
度,与该点a对齐,并锁定当前操作端32a的位置坐标与点a坐标的对应关系,同理记录点b(x3,y3)与操作端32a对应位置坐标的关系,可以校准操作端32a在参照的坐标系1(即第一坐标系)下的初始位置,使坐标系1与单板11参照的坐标系2对应。
114.s8034,控制终端控制故障注入装置移动至故障注入指令中指示的目标位置。
115.在本实施例中,校准移动机构32参照的坐标系1之后,控制终端30a1可以根据故障注入指令中指示的目标位置,令装载有短路故障注入装置311和开路故障注入装置312的操作端32a移动至该待测单板11上的目标位置处。
116.在一些示例中,也可以在操作端32a仅装载故障注入指令中目标故障所对应的故障注入装置。
117.s804,在该目标位置处,利用故障注入装置进行对应的故障注入。
118.在本实施例中,如果目标故障是对信号电路111a上的目标位置注入短路故障,则参考图10中(10a)所示,当前移动机构32将装载短路故障注入装置311置于信号电路111a上的待测器件111的输出端out(即当前目标位置)。然后,如图10中(10b)所示,短路故障注入装置311的探针3111接触该输出端out,使该电路111a形成短接,待测器件111短路失效。同理,可以构造电源电路111b的短路,使器件112短接失效。
119.在本实施例中,如果目标故障是对电源电路111b注入开路故障,则参考图11中(11a)所示,当前移动机构32将装载的开路故障注入装置312置于电源电路111b的目标位置处,即待测器件(电容或电阻)112的两端。然后,如图11中(11b)所示,将开路故障注入装置312的烙铁夹3122a接触该元器件112两端,控制终端30a1对控制供电电源3121上电,对烙铁夹3122a供电加热,以熔断器件112与电源电路111b的连接,如图11中(11c)所示,将其从单板11上下件,该电源电路111b形成开路,器件112开路失效。同理,可以构造信号电路111a的开路故障,使器件111开路失效。
120.这样,在故障注入自动化程度高,减少测试人员的手工操作,从而利于避免因人为因素引起故障注入错误,也利于降低人工投入,提高故障注入效率,从而利于提高对bmc12性能测试的效率。
121.接着,在通过上述步骤s804构造完成目标故障之后,可以执行:
122.s805,管理终端获取服务器上带外控制器上报的告警信息,
123.s806,管理终端根据告警信息和故障注入指令,测试带外控制器的故障检测性能。
124.在本实施例中,管理终端20生成故障注入指令之后,可以形成记录并保存。当服务器10的bmc12a检测到单板11上出现故障之后,执行s8051生成告警信息并上报告警信息之后,管理终端10可以通过比对该记录和告警信息,确认二者所表征的故障位置和目标故障是否一致,如是否都是目标位置所在电源电路开路的故障,从而验证bmc12a的故障检测性能的可靠性,若一致则其性能可靠,反之不可靠。这样,整个测试过程人工参与程度低,测试效率高。
125.当完成对bmc12a的测试之后,还可以包括:
126.s807,控制故障注入装置对对应注入的故障进行恢复。
127.在本实施例中,如果构造的是电路的短路故障,可以直接通过移动机构32移开目标位置处的短路故障注入装置311,解除短路,单板11恢复正常状态。
128.如果构造的是电路的开路故障,可以通过移动机构32将下件的元器件(如元器件
112)放回原位,并再次将开路故障注入装置312的烙铁夹3122a加热,焊接该元器件两端锡线,恢复通路,解除开路故障。故障恢复之后,可通过s8071至s8072上报管理终端20故障已恢复的信息。
129.这样,也恢复故障时,也不必人工手动操作,自动化以实现高效故障恢复。此外在本实施例中,完成故障恢复之后,bmc可以采集当前目标器件的状态,生成其电路已恢复的信息,告知管理终端使测试人员知晓故障已恢复。
130.在一些其他可能的实现方式中,上述步骤s801、s806,s807等步骤也可以由控制终端30a1执行,可以达到相同或相似的目的和技术效果,此处不再赘述。
131.基于上述实施例中的方法,本技术实施例提供了一种故障注入的装置。请参阅图12,图12是本技术实施例提供的一种故障注入的装置的结构示意图。
132.如图12所示,该故障注入的装置1200,可以包括:获取模块1201和确定模块1202,获取模块1201可以用于获取故障注入指令,故障注入指令用于指示对服务器待测单板上的目标位置注入目标故障,目标位置为位于待测单板上的电路的故障注入操作点;确定模块1202可以用于根据故障注入指令,控制对应的故障注入装置移动至目标位置;以及使故障注入装置调整目标位置处的电路,实现目标故障的注入。
133.在一些实施例中,处理模块1202还可以用于调用工程文档,所述工程文档中包括所述待测单板上的位置识别点的坐标信息,所述坐标信息是基于第二坐标系确定的;确定模块1202还用于根据所述坐标信息,控制所述移动机构基于所述第一坐标系,移动至所述位置识别点上方;获取模块1201还用于当所述移动机构位于所述位置识别点上方时,获取所述移动机构正对的所述待测单板的图像,所述图像中至少记录所述位置识别点的位置;确定模块1202还用于根据所述图像中记录的位置识别点的位置,控制移动机构与所述待测单板上的所述位置识别点对齐,以校准所述第一坐标系与所述第二坐标系的对应关系。
134.在一些实施例中,故障注入装置包括多个,每个故障注入装置用于注入一种故障,多个故障注入装置装载在移动机构上,处理模块1202还可以用于控制移动机构从多个故障注入装置中,操作能够注入目标故障的一个故障注入装置,来调整目标位置处的电路。
135.在一些实施例中,处理模块1202还可以用于获取服务器上带外控制器上报的告警信息;根据告警信息和故障注入指令是否匹配,测试带外控制器的故障检测性能。
136.在一些实施例中,处理模块1202还可以用于控制故障注入装置对对应注入的故障进行恢复。
137.应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
138.基于上述实施例中的方法,本技术实施例提供了一种电子设备。该电子设备可以包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序;其中,当存储器存储的程序被执行时,处理器用于执行上述实施例中的方法。
139.基于上述实施例中的方法,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
140.基于上述实施例中的方法,本技术实施例提供了一种计算机程序产品,其特征在
于,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
141.基于上述实施例中的方法,本技术实施例还提供了一种芯片。请参阅图13,图13为本技术实施例提供的一种芯片的结构示意图。如图13所示,芯片1300包括一个或多个处理器1301以及接口电路1302。可选的,芯片1300还可以包含总线1303。其中:
142.处理器1301可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1301可以是通用处理器、数字通信器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
143.接口电路1302可以用于数据、指令或者信息的发送或者接收,处理器1301可以利用接口电路1302接收的数据、指令或者其它信息,进行加工,可以将加工完成信息通过接口电路1302发送出去。
144.可选的,芯片1300还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(nvram)。
145.可选的,存储器存储了可执行软件模块或者数据结构,处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
146.可选的,接口电路1302可用于输出处理器1301的执行结果。
147.需要说明的,处理器1301、接口电路1302各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。
148.应理解,上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。
149.可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。此外,在一些可能的实现方式中,上述实施例中的各步骤可以根据实际情况选择性执行,可以部分执行,也可以全部执行,此处不做限定。
150.可以理解的是,本技术的实施例中的处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(fieldprogrammable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
151.本技术的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,ram)、闪存、只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至
处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
152.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
153.可以理解的是,在本技术的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本技术的实施例的范围。
技术特征:
1.一种故障注入系统,其特征在于,包括至少一个故障注入装置,移动机构以及处理器,其中:所述故障注入装置,用于对服务器待测单板上的目标位置注入故障,所述目标位置为所述待测单板上的电路的故障注入操作点;所述移动机构,用于移动所述故障注入装置;所述处理器,用于控制所述移动机构将所述故障注入装置移动至所述目标位置,以通过所述故障注入装置调整所述目标位置处的所述电路,进行对应的故障注入。2.根据权利要求1所述的系统,其特征在于,所述故障注入装置包括短路故障注入装置,所述短路故障注入装置包括探针和导线,所述导线的一端连接所述探针输出端,所述导线的另一端接地;所述探针的探测端,用于接触所述目标位置,以使所述目标位置所在的电路通过所述探针和所述导线接地,实现注入短路故障。3.根据权利要求1或2所述的系统,其特征在于,所述故障注入装置包括开路故障注入装置,所述开路故障注入装置包括供电电源和焊接器,所述供电电源,用于向所述焊接器提供电能;所述焊接器,用于在获取所述电能时发热,以熔断所述目标位置所在的电路,实现注入所述开路故障。4.根据权利要求1-3任一所述的系统,其特征在于,所述系统还包括定位装置,所述移动机构参考第一坐标系移动,所述待测单板上设有位置识别点,所述处理器,还用于调用工程文档,所述工程文档中包括所述待测单板上的位置识别点的坐标信息,所述坐标信息是基于第二坐标系确定的;所述处理器,还用于根据所述坐标信息,控制所述移动机构基于所述第一坐标系,移动至所述位置识别点上方;所述定位装置,用于在所述移动机构位于所述位置识别点上方时,采集所述移动机构正对的所述待测单板的图像,所述图像中至少记录所述位置识别点的位置;所述处理器,还用于根据所述图像中记录的位置识别点的位置,控制移动机构与所述待测单板上的所述位置识别点对齐,以校准所述第一坐标系与所述第二坐标系的对应关系。5.一种故障注入方法,其特征在于,所述方法包括:获取故障注入指令,所述故障注入指令用于指示对服务器待测单板上的目标位置注入目标故障,所述目标位置为所述待测单板上的电路的故障注入操作点;根据所述故障注入指令,控制对应的故障注入装置移动至所述目标位置;使所述故障注入装置调整所述目标位置处的所述电路,以注入所述目标故障。6.根据权利要求5所述的方法,其特征在于,所述控制故障注入装置移动至所述目标位置处时,是通过移动机构移动的,所述移动机构移动时参考第一坐标系,所述待测单板上设有位置识别点,其中,在所述控制故障注入装置移动至所述目标位置处之前,所述方法包括:
调用工程文档,所述工程文档中包括所述待测单板上的位置识别点的坐标信息,所述坐标信息是基于第二坐标系确定的;根据所述坐标信息,控制所述移动机构基于所述第一坐标系,移动至所述位置识别点上方;在所述移动机构位于所述位置识别点上方时,采集所述移动机构正对的所述待测单板的图像,所述图像中至少记录所述位置识别点的位置;根据所述图像中记录的位置识别点的位置,控制移动机构与所述待测单板上的所述位置识别点对齐,以校准所述第一坐标系与所述第二坐标系的对应关系。7.根据权利要求5或6所述的方法,其特征在于,所述故障注入指令中包括所述目标位置的坐标信息;所述根据所述故障注入指令,控制对应的故障注入装置移动至所述目标位置,包括:根据所述目标位置的坐标信息控制移动机构移动,以将该移动机构装载的所述故障注入装置移动至所述目标位置。8.根据权利要求5至7任一所述的方法,其特征在于,所述故障注入装置包括多个,每个故障注入装置用于注入一种故障,所述多个故障注入装置装载在所述移动机构上,所述根使所述故障注入装置调整所述目标位置处的电路,还包括:控制所述移动机构从所述多个故障注入装置中,操作能够注入所述目标故障的一个故障注入装置,来调整所述目标位置处的电路。9.根据权利要求5-8任一所述的方法,其特征在于,在所述使所述故障注入装置调整所述目标位置的电路,实现目标故障的注入之后,所述方法包括:获取所述服务器上带外控制器上报的告警信息;根据所述告警信息和所述故障注入指令是否匹配,测试所述带外控制器的故障检测性能。10.一种电子设备,其特征在于,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行所述存储器存储的程序;其中,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求5-9任一所述的方法。
技术总结
本申请实施例提供了一种故障注入系统、方法及设备,涉及计算机技术领域。该系统可以包括至少一个故障注入装置,移动机构以及处理器,故障注入装置用于对服务器待测单板上的目标位置注入故障,目标位置为位于待测单板上的电路的故障注入操作点;移动机构用于移动故障注入装置;处理器用于控制移动机构将故障注入装置移动至目标位置,以通过故障注入装置调整目标位置处的电路,进行对应的故障注入。这样,利用移动机构,实现自动化控制故障注入装置进行故障注入,可以减少人工投入,提高故障注入效率。效率。效率。
技术研发人员:唐钰朝
受保护的技术使用者:超聚变数字技术有限公司
技术研发日:2023.03.14
技术公布日:2023/7/18
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
