一种故障诊断模型训练方法及装置与流程

未命名 10-18 阅读:130 评论:0


1.本技术涉及故障诊断技术领域,更具体地,涉及一种故障诊断模型训练方法及装置。


背景技术:

2.轴承作为机械传动的关键零件,被广泛应用于各种机械设备中,其健康状况对于机械设备的安全性与稳定性具有重要影响。然而设备在高速、重载等恶劣环境下长期工作时,轴承将会不可避免地发生退化,产生裂纹、磨损等。一旦发生故障将直接影响整个设备的正常运行,轻则给企业造成经济损失,重则引发事故,威胁生命安全。因此,为保证机械设备的正常运行,对轴承的健康状况进行监测以及时排除安全隐患具有重大的工程意义。
3.目前,对于滚动轴承的故障诊断方法主要分为基于解析模型和基于数据驱动两方面。基于解析模型的方法需要对故障诊断问题进行解析化表达,对于复杂度较高的系统建模难度大,且建立的模型在其他系统上的普适性较低,实际推广使用具有一定局限性。而基于数据驱动的故障诊断方法因其特征提取能力不足,难以挖掘提取故障数据中更深层次的微小特征,从而限制了诊断准确率的提升。
4.随着互联网、物联网等快速兴起与普及,当前社会数据的增长速度比以往任何时期都要迅猛。大数据给深度神经网络提供了充足的训练“原料”,给基于数据驱动的机械智能故障诊断的深入研究和应用提供了新的机遇,当前基于深度学习的故障诊断方法因能有效对故障信息进行表征而被广泛应用于故障诊断领域。但在实际工业活动中,工作人员在缺乏专业知识情况下易赋予故障模式错误的标签分类。因而在真实的工业数据集中,标注错误(即标签噪声)问题是不可避免的。
5.然而,当前大多数基于数据驱动的故障诊断方法过于依赖标注完备的数据集,当存在标签噪声时,模型会因过拟合于噪声标签数据而导致模型特征表达能力不足,影响诊断精度。


技术实现要素:

6.本技术提供一种故障诊断模型训练方法及装置,通过引入基于特征编码向量表示的注意力权重实现动态划分样本,以对损失函数进行正则化,对于标签噪声样本具有较高诊断鲁棒性,减少标签噪声样本引起的梯度表示,避免模型过拟合于噪声标签数据,提高模型特征的表达能力和诊断精度。
7.本技术提供了一种故障诊断模型训练方法,包括:
8.接收输入的第一训练数据集,第一训练数据集中的所有训练样本均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签;
9.循环执行如下步骤,直到当前模型训练轮次达到模型训练最大轮次:
10.将第一训练数据集中的所有训练样本转化为对应的第一特征编码向量;
11.对第一特征编码向量进行标签分类,获得训练样本属于每一类健康状态的概率;
12.依据第一特征编码向量获取训练样本的注意力权重;
13.依据所有训练样本的概率、注意力权重以及训练样本的标签计算当前轮次训练的噪声注意力损失函数;
14.依据噪声注意力损失函数进行模型参数的更新。
15.优选地,故障诊断模型训练方法还包括:利用第一训练数据集进行对比学习,获得对比损失函数;
16.依据噪声注意力损失函数和对比损失函数获得当前轮次训练的综合损失函数;
17.并且,
18.依据综合损失函数进行模型参数的更新。
19.优选地,利用第一训练数据集进行对比学习,获得对比损失函数,具体包括:
20.对第一训练数据集中的训练样本进行两种不同的数据增强,形成数据增强样本集;
21.对数据增强样本集内的任意两个数据增强样本组成的样本对进行对比学习,以获得对比损失函数。
22.优选地,对数据增强样本集内的任意两个数据增强样本组成的样本对进行对比学习,获得对比损失函数,具体包括:
23.对于任意样本对,首先,将样本对中的两个数据增强样本分别转化为第一特征编码向量和第二特征编码向量;然后,分别将第一特征编码向量和第二特征编码向量映射为空间表示向量;最后计算两个空间表示向量之间的相似度;
24.利用所有样本对的相似度计算样本间互信息,依据所有样本间互信息计算对比损失函数。
25.优选地,计算噪声注意力损失函数之前,还包括:
26.判断当前模型训练轮次是否达到标签纠正启用轮次,标签纠正启用轮次小于模型训练最大轮次;
27.若是,则对标签进行标签纠正,形成纠正后标签,所有具有纠正后标签的训练样本形成第二训练数据集;
28.依据所有训练样本的概率、注意力权重以及与训练样本对应的纠正后标签计算当前轮次训练的噪声注意力损失函数;
29.并且,将第一训练数据集更新为第二训练数据集,利用第二训练数据集进行后续轮次的训练。
30.本技术还提供一种故障诊断模型训练装置,包括训练数据接收模块、第一转化模块、分类模块、权重获得模块、第一损失函数计算模块以及参数更新模块;
31.训练数据接收模块用于接收输入的第一训练数据集,第一训练数据集中的所有训练样本均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签;
32.第一转化模块用于将第一训练数据集中的所有训练样本转化为对应的第一特征编码向量;
33.分类模块用于对第一特征编码向量进行标签分类,获得训练样本属于每一类健康状态的概率;
34.权重获得模块用于依据第一特征编码向量获取训练样本的注意力权重;
35.第一损失函数计算模块用于依据所有训练样本的概率、注意力权重以及训练样本的标签计算当前轮次训练的噪声注意力损失函数;
36.参数更新模块用于依据噪声注意力损失函数进行模型参数的更新。
37.优选地,故障诊断模型训练装置还包括对比学习模块和第二损失函数计算模块;
38.对比学习模块用于利用第一训练数据集进行对比学习,获得对比损失函数;
39.第二损失函数计算模块用于依据噪声注意力损失函数和对比损失函数获得当前轮次训练的综合损失函数;
40.并且,参数更新模块用于依据综合损失函数进行模型参数的更新。
41.优选地,对比学习模块包括数据增强模块和样本对对比学习模块;
42.数据增强模块用于对第一训练数据集中的所有训练样本进行两种不同的数据增强,形成数据增强样本集;
43.样本对对比学习模块用于对数据增强样本集内的任意两个数据增强样本进行对比学习,以获得对比损失函数。
44.优选地,样本对对比学习模块包括第二转化模块、映射模块、相似度计算模块以及对比损失函数计算模块;
45.第二转化模块用于将样本对中的两个数据增强样本分别转化为第一特征编码向量和第二特征编码向量;
46.映射模块用于分别将第一特征编码向量和第二特征编码向量映射为空间表示向量;
47.相似度计算模块用于计算两个空间表示向量之间的相似度;
48.对比损失函数计算模块用于利用所有样本对的相似度计算样本间互信息,依据所有样本间互信息计算对比损失函数。
49.优选地,故障诊断模型训练装置还包括判断模块、标签纠正模块以及数据集更新模块;
50.判断模块用于判断当前模型训练轮次是否达到标签纠正启用轮次;
51.标签纠正模块用于在当前模型训练轮次达到标签纠正启用轮次时,对标签进行标签纠正,形成纠正后标签,所有具有纠正后标签的训练样本形成第二训练数据集;
52.数据集更新模块用于将第一训练数据集更新为第二训练数据集,利用第二训练数据集进行后续轮次的训练;
53.第一损失函数计算模块用于依据所有训练样本的概率、注意力权重以及与训练样本对应的纠正后标签计算当前轮次训练的噪声注意力损失函数。
54.通过以下参照附图对本技术的示例性实施例的详细描述,本技术的其它特征及其优点将会变得清楚。
附图说明
55.被结合在说明书中并构成说明书的一部分的附图示出了本技术的实施例,并且连同其说明一起用于解释本技术的原理。
56.图1为本技术提供的故障诊断模型训练方法的一个优选实施例的流程图;
57.图2为本技术提供的特征编码模块的一个实施例的结构图;
58.图3为本技术提供的对比学习的流程示意图;
59.图4为本技术提供的故障诊断模型训练系统的一个实施例的结构图;
60.图5为本技术提供的标签纠正前后的标签噪声率的对比图;
61.图6为本技术提供的本技术的模型训练方法与其他模型训练方法的分类效果对比图;
62.图7为本技术提供的故障诊断模型训练装置的结构图。
具体实施方式
63.现在将参照附图来详细描述本技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。
64.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本技术及其应用或使用的任何限制。
65.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
66.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
67.本技术提供一种故障诊断模型训练方法及装置,通过引入基于特征编码向量表示的注意力权重实现权重的动态分配和样本的动态划分,以对损失函数进行正则化,减少标签噪声样本引起的梯度表示,避免模型过拟合于噪声标签数据,从而有效解决存在标注错误数据的故障诊断问题,提高模型特征的表达能力和诊断精度。并且,本技术通过对比学习拉近正样本对的映射距离、推远负样本特征距离,优化特征空间,以进一步增强模型特征表达能力,减少标签噪声的负面影响。另外,本技术在训练后期通过集成模型预测与数据原始噪声标签以执行标签纠正,构建噪声率水平较低的训练数据集,进一步提升模型泛化能力,获得更为良好的特征表示。
68.如图1所示,本技术提供的故障诊断模型训练方法包括:
69.s110:接收输入的第一训练数据集,第一训练数据集中的所有训练样本(故障信号样本)均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签。作为一个实例,第一训练数据集为带有标注错误的同一工况下滚动轴承不同状态的振动信号。
70.第一训练数据集表示为其中x
[i]
为训练样本,为训练样本x
[i]
的标签。值得注意的是,可能是正确标签,也可能是错误标签(即标签噪声)。
[0071]
s120:将第一训练数据集中的所有训练样本转化为对应的第一特征编码向量。
[0072]
具体地,通过特征编码模块f(
·
;θf)将训练样本转化为对应的第一特征编码向量,其中,θf为其模块参数集合,请参考图4。f(
·
;θf)将输入的训练样本的信息序列(例如滚动轴承的振动信号序列)映射至高维特征嵌入空间,即f:x

rf,训练样本x
[i]
对应的第一特征编码向量表示为h
[i]

[0073]
作为一个实施例,特征编码模块采用resnet结构,如图2所示,resnet结构在传统的深度神经网络中增加了残差块,以此来简化网络的复杂度,同时解决了网络退化的问题。利用残差块可以训练出较有效的深度网络,输入可以通过残差块中的恒等映射连接更加快速地向前传播。
[0074]
s130:对第一特征编码向量进行标签分类,获得训练样本属于每一类健康状态的概率。
[0075]
具体地,通过标签分类解码模块c(
·
;θc)对第一特征编码向量进行标签分类,请参考图4。c(
·
;θc)将上述高维嵌入空间获得的第一特征编码向量h
[i]
作为输入,随后将其映射至设备健康状态空间,输出健康状态空间概率分布p=softmax(v),即c:f(x)
→rm
,其中v为标签分类解码模块输出的分类值。对于给定训练样本x
[i]
,其属于第k类健康状态概率p
[i]
为:
[0076][0077]
s140:依据第一特征编码向量获取训练样本的注意力权重。
[0078]
早期的模型学习现象表明,深度学习模型趋向于在拟合错误标注的样本之前记忆正确标注样本。因此,在早期学习阶段,正确标注样本相较于错误标注样本更有可能具备更为良好的学习特征表示。为了使得深度神经网络产生反映学习表示质量的注意权重,本技术在特征编码模块f(
·
;θf)后引入注意力权重分支,请参考图4。注意力权重分支由全连接层组成,输出标量e
[i]
,使得e
[i]
=wh
[i]
+b,并采用sigmoid函数将其放缩至0到1,其中表示分支权重,表示相应的偏差。
[0079]
对于每个训练样本x
[i]
,输出的注意力权重为:
[0080][0081]
s150:计算当前轮次训练的噪声注意力损失函数.
[0082]
作为一个实施例,依据所有训练样本的概率、注意力权重以及训练样本的标签计算当前轮次训练的噪声注意力损失函数。
[0083]
分类任务中通常采用交叉熵l
ce
作为经验风险损失函数衡量模型预测与标签拟合程度,以在反向传播过程执行模型参数更新优化:
[0084][0085]
式中n为模型训练的批量大小。
[0086]
为了使注意力权重自动捕捉表征的差异,本技术将其作为正则化项引入式(3),并由此提出一种由注意力项la和提升项lb组成的噪声注意力损失函数l
nal
:
[0087][0088]
式中λ为可调节的超参数。其中注意力项la通过将式(3)中预测项由模型预测与样
本原始标签数据加权集合而成:对于正确标注样本,模型所输出的注意力权重趋向1,此时la将退化为式(3)的交叉熵损失函数。而对于错误标记样本,其注意力权重将会趋向0,减少其引起的梯度表示。
[0089]
一方面,在早期学习阶段中,模型仍未过拟合于标注错误样本(即标签噪声样本),因此,与标注正确的样本相比,仍无法有效对标注错误样本进行表征,使得预测健康状态与其对应的标注健康状态拟合程度不佳。通过最小化la,能够有效使得模型对于错误标注样本的输出注意力权重趋近于0。另一方面,由于模型会先行拟合正确标注样本,使得趋向0,此时注意力权重值对于最小化la并无影响。因此本技术通过引入提升项lb以避免模型对于所有样本输出权重值均为0,lb可被视为二元交叉熵损失函数,即对于所有输入其目标预测值均为1,以使得对于标注正确样本,其权重值能够有效趋近于1。
[0090]
对于式(4)中所提出的噪声注意力损失函数l
nal
,为简便起见,本技术将其重写为并对其进行梯度分析以进一步说明其有效性:
[0091][0092]
其中设置缩放因子
[0093]
相较于交叉熵损失函数l
ce
,l
nal
通过引入缩放因子进行梯度重加权以减少标签噪声样本数据的影响。其中在上单调增加,且具有上单调增加,且具有对于正确标注样本其交叉熵梯度项(p
j-1)在早期学习阶段后趋向于0,易使得模型过拟合于错误标记样本。而通过引入缩放因子(值得注意的是,对于标注错误样本,其缩放因子在注意力权重的作用下趋向于0),能够有效减少标注错误样本引起的梯度表示,防止其主导梯度更新。
[0094]
s1100:依据综合损失函数进行模型参数的更新。若当前模型训练轮次达到模型训练最大轮次,则执行s1100后返回s120。否则,结束训练。
[0095]
作为一个实施例,将噪声注意力损失函数作为综合损失函数,依据综合损失函数进行模型参数的更新。
[0096]
在上述基础上,优选地,故障诊断模型训练方法还包括:
[0097]
s160:利用第一训练数据集进行对比学习,获得对比损失函数。
[0098]
s170:依据噪声注意力损失函数和对比损失函数获得当前轮次训练的综合损失函数。
[0099]
并且,步骤s1100中,依据综合损失函数进行模型参数的更新。
[0100]
作为一个实施例,s160中,利用第一训练数据集进行对比学习,获得对比损失函数,具体包括:
[0101]
s1601:对第一训练数据集中的训练样本进行两种不同的数据增强,形成数据增强样本集。
[0102]
作为一个实施例,从第一训练数据集中随机抽样批次大小为n的训练样本如图4所示,对于该批次中每个训练样本实行两种不同数据增强方法ta,tb,以获得数据增强样本集(共2n个),其包括第一数据增强方法ta获得的第一数据增强样本集和第二数据增强方法tb获得的第二数据增强样本集。
[0103]
作为实例,如图3所示,训练样本x经过两种不同数据增强方法ta,tb后获得的数据增强样本为xa,xb。
[0104]
s1602:对数据增强样本集内的任意两个数据增强样本组成的样本对进行对比学习,以获得对比损失函数。
[0105]
对于一个给定的数据增强样本(由训练样本x
[k]
经数据增强方法ta获得),它可与该数据增强样本集中的其余2n-1个样本组成样本对,其中为正样本对(其中,由训练样本x
[k]
经数据增强方法tb获得)而与其余2n-2个样本(由训练样本x
[k]
之外的训练样本通过数据增强方法ta或tb获得)组成负样本对。
[0106]
如图4所示,对数据增强样本集内的任意两个数据增强样本组成的样本对进行对比学习,获得对比损失函数,具体包括:
[0107]
p1:对于任意样本对,首先,将样本对中的两个数据增强样本分别转化为第一特征编码向量和第二特征编码向量;然后,分别将第一特征编码向量和第二特征编码向量映射为空间表示向量;最后计算两个空间表示向量之间的相似度。
[0108]
作为一个实施例,以负样本对为例,首先,请参考s120,利用特征编码模块f(
·
;θf)从两个数据增强样本中提取特征表示,得到相应的特征编码向量:
[0109][0110]
然后,通过投影层g(
·
;θg)将第一特征编码向量和第二特征编码向量映射至单位超球体空间,以获取对应的空间表示向量:
[0111][0112]
最后,在单位超球体向量空间中,采用余弦相似度衡量两个空间表示向量的相似程度。对于每一对特征对(k,j),其中k∈{1,2,3,...,n},j∈{1,2,3,...,n},其余弦相似度计算公式为:
[0113][0114]
作为实例,如图3所示,正样本对(xa,xb)经特征编码模块f(
·
;θf)后获得第一特征编码向量va和第二特征编码向量vb,经投影层g(
·
;θg)后分别获得空间表示向量za,zb,最后计算二者的相似度。
[0115]
p2:利用所有样本对的相似度计算样本间互信息,依据所有样本间互信息计算对比损失函数。
[0116]
作为一个实施例,对于任意第一数据增强样本其样本间互信息为:
[0117][0118]
对于任意第二数据增强样本其样本间互信息为:
[0119][0120]
式(9)和(10)中,为指示函数,当j≠i时,取值为1,反之则为0。τ为对比损失温度系数。
[0121]
作为一个实施例,采用infonce作为损失函数lc:
[0122][0123]
由此,s170中,综合损失函数l为:
[0124]
l=l
nal
+λclcꢀꢀꢀ
(12)
[0125]
式中,λc为对比损失平衡系数。
[0126]
本技术的故障诊断模型训练方法中,总体训练目标是应用梯度下降法使得损失函数(例如这里的综合损失函数l)最小化。可以采用adam优化器进行梯度下降。
[0127]
通过对比学习损失,能够有效使得高维特征嵌入空间中具有相同健康状态的样本在空间分布更加紧密,并且进一步拉远不同健康状态的样本之间的距离,实现判别特征增强,提高标签纠正(请见下述说明)中所集成伪标签准确性。
[0128]
在上述基础上,优选地,s150之前,还包括:
[0129]
s180:判断当前模型训练轮次是否达到标签纠正启用轮次。若是,则执行s190,在每个轮次执行标签纠正;否则,执行s150。
[0130]
s190:对训练样本的标签进行标签纠正,形成纠正后标签,所有具有纠正后标签的训练样本形成第二训练数据集。随后执行s150,并且在s150中,依据所有训练样本的概率、注意力权重以及与训练样本对应的纠正后标签计算当前轮次训练的噪声注意力损失函数。
[0131]
具体地,通过标签纠正(label correction,lc)模块对标签进行纠正,以获得标签噪声率较低的第二训练数据集:
[0132][0133]
其中,f(y,y
[t]
)为第t个模型训练轮次中训练样本的标签,f(y,y
[t-1]
)为第t-1个模型训练轮次中训练样本的标签;为第一训练数据集中训练样本的标签;es为标签纠正启用轮次;m为当前模型训练轮次与标签纠正启用轮次之间的差值;α为伪标签更新动量,取值为[0,1)。t≥es的式子中,第一项为具有指数衰减权重αm的原始噪声标签,能够使得模型标签数据较为平缓地进行迭代,缓解认知偏差问题。第二项为集成预测项,由预测值的指数移动平均构成,在迭代轮次为es+m时,其集成迭代项为+m时,其集成迭代项为且随着模型迭代轮次的增加,αm逐渐接近于0,使得模型预测目标最终取决于集成预测项,以构建
更为完备的训练标签集,并将其引入l
nal
代替原有噪声标签进行模型训练。
[0134]
在该优选实施例中,故障诊断模型训练方法还包括:
[0135]
s1110:将第一训练数据集更新为第二训练数据集。随后返回s120(对比学习的优选实施例中,还返回s160)利用第二训练数据集进行后续轮次的训练。
[0136]
需要说明的是,本技术对s1100和s1110的先后顺序不做限制,两个步骤也可以同时进行。
[0137]
图5示出了90%标签噪声率情况下的第一训练数据集(a)和经过标签纠正获得的第二训练数据集(b)的标签噪声率的对比图,其中对角线上的数值代表具有正确标签的分值。从图5可以看出,标签纠正后标签噪声率明显降低。
[0138]
基于本技术中结合了权值分配、标签纠正以及对比学习的模型训练方法,训练后的分类效果(请见图6(d))为与其他训练方法的对比如图6所示。图6是利用五分类法对故障信号进行分类的。图6(a)为采用交叉熵损失函数ce的分类效果,从图中可以看出,多个故障类型的分类结果相互交叉,无法获得明确的边界。图6(b)为采用对称交叉熵损失函数sce的分类效果,其将交叉熵与反交叉熵结合在一起,从图中可以看出,第0类和第4类故障可以与其他三类区分开,但是其他三类相互交叉。图6(c)为采用早期正则化elr的分类效果,其将模型多个先前迭代周期的预测值进行集成作为正则化项引入损失函数进行训练,从图中可以看出,五个类型基本具有各自的边界,但是第2类和第3类仍然存在少量交叉。从图6(d)可以看出,本技术的模型训练方法中,五类故障具有明确的边界。
[0139]
需要说明的是,模型训练完成后,故障诊断模型包括上述特征编码模块和标签分类解码模块,将故障信号输入故障诊断模型后,模型首先将故障信号转化成特征编码向量,随后将特征编码向量输入标签分类解码模块中,获得故障信号属于每一类健康状态的概率。
[0140]
基于上述故障诊断模型训练方法,本技术还提供一种故障诊断模型训练装置。如图7所示,故障诊断模型训练装置包括训练数据接收模块710、第一转化模块720、分类模块730、权重获得模块740、第一损失函数计算模块750以及参数更新模块760。
[0141]
训练数据接收模块710用于接收输入的第一训练数据集,第一训练数据集中的所有训练样本均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签。
[0142]
第一转化模块720用于将第一训练数据集中的所有训练样本转化为对应的第一特征编码向量。
[0143]
分类模块730用于对第一特征编码向量进行标签分类,获得训练样本属于每一类健康状态的概率。
[0144]
权重获得模块740用于依据第一特征编码向量获取训练样本的注意力权重。
[0145]
第一损失函数计算模块750用于依据所有训练样本的概率、注意力权重以及训练样本的标签计算当前轮次训练的噪声注意力损失函数。
[0146]
参数更新模块760用于依据噪声注意力损失函数进行模型参数的更新。
[0147]
优选地,故障诊断模型训练装置还包括对比学习模块770和第二损失函数计算模块780。
[0148]
对比学习模块770用于利用第一训练数据集进行对比学习,获得对比损失函数。
[0149]
第二损失函数计算模块780用于依据噪声注意力损失函数和对比损失函数获得当前轮次训练的综合损失函数。
[0150]
并且,参数更新模块760用于依据综合损失函数进行模型参数的更新。
[0151]
优选地,对比学习模块770包括数据增强模块7701和样本对对比学习模块7702。
[0152]
数据增强模块7701用于对第一训练数据集中的所有训练样本进行两种不同的数据增强,形成数据增强样本集。
[0153]
样本对对比学习模块7702用于对数据增强样本集内的任意两个数据增强样本进行对比学习,以获得对比损失函数。
[0154]
优选地,样本对对比学习模块7702包括第二转化模块、映射模块、相似度计算模块以及对比损失函数计算模块。
[0155]
第二转化模块用于将样本对中的两个数据增强样本分别转化为第一特征编码向量和第二特征编码向量。
[0156]
映射模块用于分别将第一特征编码向量和第二特征编码向量映射为空间表示向量。
[0157]
相似度计算模块用于计算两个空间表示向量之间的相似度。
[0158]
对比损失函数计算模块用于利用所有样本对的相似度计算样本间互信息,依据所有样本间互信息计算对比损失函数。
[0159]
优选地,故障诊断模型训练装置还包括判断模块790、标签纠正模块7100以及数据集更新模块7110。
[0160]
判断模块790用于判断当前模型训练轮次是否达到标签纠正启用轮次。
[0161]
标签纠正模块7100用于在当前模型训练轮次达到标签纠正启用轮次时,对标签进行标签纠正,形成纠正后标签,所有具有纠正后标签的训练样本形成第二训练数据集。
[0162]
数据集更新模块7110用于将第一训练数据集更新为第二训练数据集,利用第二训练数据集进行后续轮次的训练。
[0163]
第一损失函数计算模块750用于依据所有训练样本的概率、注意力权重以及与训练样本对应的纠正后标签计算当前轮次训练的噪声注意力损失函数。
[0164]
本技术根据模型早期学习特点进行权值分配以及标签纠正,并引入对比学习以增强模型表征能力,无需额外训练子集,并且即便在较高噪声率下模型仍能保持良好的泛化性能。首先,根据模型会首先拟合标注正确的样本,使得样本的特征表示能力与其标签的标注准确度一致的特点,设计注意力权重分支,并将其引入损失函数中划分样本,以实行正则化,即对于正确标注样本赋予较大权重,而减少错误标注样本的权重值,有效地确保了正确标注样本在模型执行梯度更新过程中保持主导地位。其次,标签纠正模块通过集成预测项与原始标签数据执行标签纠正,构建更为完备的训练数据集。最后,设计对比学习模块,使得对比学习模块的特征相似性和与模型分类分支的结构相似性的约束施加在共享的特征提取网络中,充分挖掘故障信号内在的判别信息。
[0165]
本技术通过引入注意力权重分支以增强模型鲁棒性,并从标签纠正以及对比学习增强判别能力两方面入手,增加模型可用样本并优化高维嵌入空间下各类健康状态样本判别边界,进一步提高模型泛化能力,在各种噪声水平下达到了98.0%以及98.2%的平均诊断精度。
[0166]
虽然已经通过例子对本技术的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本技术的范围。本领域的技术人员应该理解,可在不脱离本技术的范围和精神的情况下,对以上实施例进行修改。本技术的范围由所附权利要求来限定。

技术特征:
1.一种故障诊断模型训练方法,其特征在于,包括:接收输入的第一训练数据集,所述第一训练数据集中的所有训练样本均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签;循环执行如下步骤,直到当前模型训练轮次达到模型训练最大轮次:将所述第一训练数据集中的所有训练样本转化为对应的第一特征编码向量;对所述第一特征编码向量进行标签分类,获得所述训练样本属于每一类健康状态的概率;依据所述第一特征编码向量获取所述训练样本的注意力权重;依据所有训练样本的概率、所述注意力权重以及所述训练样本的标签计算当前轮次训练的噪声注意力损失函数;依据所述噪声注意力损失函数进行模型参数的更新。2.根据权利要求1所述的故障诊断模型训练方法,其特征在于,还包括:利用所述第一训练数据集进行对比学习,获得对比损失函数;依据所述噪声注意力损失函数和所述对比损失函数获得当前轮次训练的综合损失函数;并且,依据所述综合损失函数进行模型参数的更新。3.根据权利要求2所述的故障诊断模型训练方法,其特征在于,利用所述第一训练数据集进行对比学习,获得对比损失函数,具体包括:对所述第一训练数据集中的训练样本进行两种不同的数据增强,形成数据增强样本集;对所述数据增强样本集内的任意两个数据增强样本组成的样本对进行对比学习,以获得所述对比损失函数。4.根据权利要求3所述的故障诊断模型训练方法,其特征在于,对所述数据增强样本集内的任意两个数据增强样本组成的样本对进行对比学习,获得所述对比损失函数,具体包括:对于任意样本对,首先,将所述样本对中的两个数据增强样本分别转化为所述第一特征编码向量和第二特征编码向量;然后,分别将所述第一特征编码向量和所述第二特征编码向量映射为空间表示向量;最后计算两个空间表示向量之间的相似度;利用所有样本对的相似度计算样本间互信息,依据所有样本间互信息计算对比损失函数。5.根据权利要求1或2所述的故障诊断模型训练方法,其特征在于,计算所述噪声注意力损失函数之前,还包括:判断当前模型训练轮次是否达到标签纠正启用轮次,所述标签纠正启用轮次小于所述模型训练最大轮次;若是,则对所述标签进行标签纠正,形成纠正后标签,所有具有纠正后标签的训练样本形成第二训练数据集;依据所有训练样本的概率、注意力权重以及与所述训练样本对应的纠正后标签计算当前轮次训练的噪声注意力损失函数;
并且,将所述第一训练数据集更新为所述第二训练数据集,利用所述第二训练数据集进行后续轮次的训练。6.一种故障诊断模型训练装置,其特征在于,包括训练数据接收模块、第一转化模块、分类模块、权重获得模块、第一损失函数计算模块以及参数更新模块;所述训练数据接收模块用于接收输入的第一训练数据集,所述第一训练数据集中的所有训练样本均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签;所述第一转化模块用于将所述第一训练数据集中的所有训练样本转化为对应的第一特征编码向量;所述分类模块用于对所述第一特征编码向量进行标签分类,获得所述训练样本属于每一类健康状态的概率;所述权重获得模块用于依据所述第一特征编码向量获取所述训练样本的注意力权重;所述第一损失函数计算模块用于依据所有训练样本的概率、所述注意力权重以及所述训练样本的标签计算当前轮次训练的噪声注意力损失函数;所述参数更新模块用于依据所述噪声注意力损失函数进行模型参数的更新。7.根据权利要求6所述的故障诊断模型训练装置,其特征在于,还包括对比学习模块和第二损失函数计算模块;所述对比学习模块用于利用所述第一训练数据集进行对比学习,获得对比损失函数;所述第二损失函数计算模块用于依据所述噪声注意力损失函数和所述对比损失函数获得当前轮次训练的综合损失函数;并且,所述参数更新模块用于依据所述综合损失函数进行模型参数的更新。8.根据权利要求7所述的故障诊断模型训练装置,其特征在于,所述对比学习模块包括数据增强模块和样本对对比学习模块;所述数据增强模块用于对所述第一训练数据集中的所有训练样本进行两种不同的数据增强,形成数据增强样本集;所述样本对对比学习模块用于对所述数据增强样本集内的任意两个数据增强样本进行对比学习,以获得所述对比损失函数。9.根据权利要求8所述的故障诊断模型训练装置,其特征在于,所述样本对对比学习模块包括第二转化模块、映射模块、相似度计算模块以及对比损失函数计算模块;所述第二转化模块用于将所述样本对中的两个数据增强样本分别转化为所述第一特征编码向量和第二特征编码向量;所述映射模块用于分别将所述第一特征编码向量和所述第二特征编码向量映射为空间表示向量;所述相似度计算模块用于计算两个空间表示向量之间的相似度;所述对比损失函数计算模块用于利用所有样本对的相似度计算样本间互信息,依据所有样本间互信息计算对比损失函数。10.根据权利要求6或7所述的故障诊断模型训练装置,其特征在于,还包括判断模块、标签纠正模块以及数据集更新模块;所述判断模块用于判断当前模型训练轮次是否达到标签纠正启用轮次;
所述标签纠正模块用于在当前模型训练轮次达到标签纠正启用轮次时,对所述标签进行标签纠正,形成纠正后标签,所有具有纠正后标签的训练样本形成第二训练数据集;所述数据集更新模块用于将所述第一训练数据集更新为所述第二训练数据集,利用所述第二训练数据集进行后续轮次的训练;所述第一损失函数计算模块用于依据所有训练样本的概率、注意力权重以及与所述训练样本对应的纠正后标签计算当前轮次训练的噪声注意力损失函数。

技术总结
本申请公开了一种故障诊断模型训练方法及装置,方法包括:接收输入的第一训练数据集,第一训练数据集中的所有训练样本均具有标签,其中一部分训练样本具有正确标签,另一部分训练样本具有错误标签;循环执行如下步骤,直到当前模型训练轮次达到模型训练最大轮次:将第一训练数据集中的所有训练样本转化为对应的第一特征编码向量;对第一特征编码向量进行标签分类,获得训练样本属于每一类健康状态的概率;依据第一特征编码向量获取训练样本的注意力权重;依据所有训练样本的概率、注意力权重以及训练样本的标签计算当前轮次训练的噪声注意力损失函数;依据噪声注意力损失函数进行模型参数的更新。本申请提高了模型特征的表达能力和诊断精度。能力和诊断精度。能力和诊断精度。


技术研发人员:王明君 金泽中 孙东 郑华丽 叶春明
受保护的技术使用者:浙江中烟工业有限责任公司
技术研发日:2023.07.24
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐