一种深度对比学习与密度聚类结合的异常检测方法
未命名
09-07
阅读:138
评论:0
1.本发明属于机械故障检测领域,涉及一种深度对比学习与密度聚类结合的异常检测方法。
背景技术:
2.近年来,机械设备自动化程度和集成度不断提升,大规模、长时间、高频率等特征使得可以用于设备运行状态监测的数据量大幅增加,为基于数据驱动的异常检测方法的运用提供了基础并逐渐成为新的趋势,基于数据驱动的异常检测方法可以有效避免传统异常检测方法存在的准确率低、过度依赖人工经验、误判率与漏判率偏高等问题。
3.工业现场环境多变,机械设备组成复杂,造成可能发生的故障类型多种多样,任何基于数据驱动的状态监测方法都无法掌握所有故障类型的特征信息。因此,提高模型在仅知道正常样本情况下的故障检测的准确率、降低故障检测过程的复杂程度对于故障检测领域仍具有重要意义。
4.具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,简称dbscan)是一种无监督的聚类方法。在利用dbscan进行聚类时,不需要输入聚类个数,也无需样本的标签信息,仅根据密度大小进行类别划分,不会受到空间中样本分布形状影响。对比学习是一种自监督的深度学习算法,其优势是在训练网络过程中无需使用样本的标签。两者对于故障检测都具有一定的优势,但两种技术本身仍存在许多缺陷需要提升,且如何将两者进行有效结合也是本领域技术人员亟待解决的问题。
技术实现要素:
5.有鉴于此,本发明的目的在于提供一种深度对比学习与密度聚类结合的异常检测方法。
6.为达到上述目的,本发明提供如下技术方案:
7.一种深度对比学习与密度聚类结合的异常检测方法,该方法包括以下步骤:
8.s1:实时监测机械设备运行过程中的工况信息,利用加速度传感器采集设备振动信号数据,振动信号数据为设备在x轴、y轴以及z轴方向中一个或多个方向振动信号;
9.s2:采用对比学习网络对采集到的实时振动信号数据以及正常状态的振动信号数据同时进行自监督学习,分别提取到振动信号数据样本中所包含的高维特征信息;
10.s3:利用t分布随机近邻嵌入将所述高维特征信息投影到低维特征空间;
11.s4:利用基于最小突变距离的方法计算出聚类半径,并利用基于密度的聚类算法将所述低维特征空间中的振动信号数据样本进行聚类处理;
12.s5:若低维特征空间中存在多个类簇,则表明设备产生故障,反之则表明设备正常。
13.本发明的有益效果在于:本发明所提出的故障检测方法有效避免了传统故障检测
方法过度依赖人工经验、过程繁琐等问题,可以实现高效的故障检测。并且发明中的所包含的基于最小突变距离的参数设置方法能够根据数据特征自动设置聚类过程中所使用的参数,该参数设置方法高效且有效;充分发挥了对比学习算法与dbscan算法各自的优势,提升了故障检测的准确性和实时性。
14.本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
15.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
16.图1为本发明所述深度对比学习与密度聚类结合的异常检测方法框架图;
17.图2是本发明所述深度对比学习与密度聚类结合的异常检测方法流程图;
具体实施方式
18.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
20.其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
21.本发明中是一种深度对比学习与密度聚类结合的异常检测方法,总体的框架如图1所示,首先利用对比学习来对所采集到的机械状态监测信号和正常样本进行特征提取,并且使用(t-distributed stochastic neighbor embedding,t-sne)将这些较高维度的特征最大程度的保留至低维空间;然后利用dbscan算法进行故障检测,低维特征用于dbscan后,本发明能够自动检测聚类簇,可以有效检测到正常以外的故障类别样本;在利用dbscan算法的过程中,本发明还包括了一种基于最小突变距离的参数设置方法,该方法能够根据数据特征自动设置聚类过程中所使用的参数。
22.图2是本发明实施例中深度对比学习与密度聚类结合的异常检测方法流程图,如图2所示,所述故障检测方法包括以下步骤:
23.s1:实时监测机械设备运行过程中的工况信息,利用加速度传感器采集设备振动信号数据,振动信号数据为设备在x轴、y轴以及z轴方向中一个或多个方向振动信号;
24.在本发明实施例中,可以针对某一齿轮箱故障数据中的5种故障振动信号进行实时采集,包括:外圈故障、内圈故障、组合故障、齿根腐蚀故障、齿根断裂故障。
25.s2:采用对比学习网络对采集到的实时振动信号数据以及正常状态的振动信号数据同时进行自监督学习,分别提取到振动信号数据样本中所包含的高维特征信息;
26.在本发明实施例中,需要将实时采集到的振动信号数据与具有正常状态的振动信号数据同时进行自监督学习,如果这些数据具有不同的类型,那说明实时采集到的振动信号数据与正常状态的振动信号数据类型不同,也就是实时采集到的振动信号数据不是正常状态下的振动信号数据,就可以得出此时的设备已经出现故障。
27.在本发明实施例中,所述步骤s2包括:
28.s21:对振动信号数据采用振幅缩放和噪声添加进行数据增强,调整振幅比例,并通过乘以随机标量来更改窗口中振动信号数据的大小;
29.在本发明实施例中,充分利用振动信号数据的高斯分布情况,来对这些数据进行扩充,增强网络模型的泛化能力,学习出更为健壮的特征信息;具体可包括如下:
30.根据振动信号数据的高斯分布情况确定出比例系数,利用比例系数与窗口中振动信号数据的乘积得到增强后的振动信号数据,可以表示为:
[0031][0032]
根据振动信号数据的高斯分布情况确定出高斯噪声,利用高斯噪声与窗口中振动信号数据的求和得到增强后的振动信号数据,可以表示为:
[0033][0034]
其中,为增强后的振动信号数据,x为原始的振动信号数据,比例系数s由高斯分布s~n(1,σs)产生,高斯噪声g根据高斯分布g~n(0,σn)产生。
[0035]
s22:对增强后的振动信号数据进行编码,将编码得到的振动信号数据经过投影头映射到高维特征空间;
[0036]
在本发明实施例中,所述投影头可以包含双层感知机;利用编码网络对所述增强后的振动信号数据进行编码,采用第一层感知机w
(1)
对编码得到的振动信号数据hk进行感知处理,输出得到初步特征向量;采用relu非线性层对所述初步特征向量进行非线性处理,输出得到中间特征向量;采用第二层感知机w
(2)
对所述中间特征向量进行感知处理,输出得到振动信号数据的高维特征向量;具体可以表示为:
[0037]hk
=f(xk)
[0038]
zk=g(hk)=w
(2)
σ(w
(1)hk
)
[0039]
其中,xk表示增强后的振动信号数据,f(
·
)为resnet50编码网络,hk表示编码后的振动信号数据,g(
·
)是一个神经网络投影头,其结构为一个两层的感知机,其中σ是一个relu非线性层,w为多层感知机。
[0040]
s23:将高维特征空间的振动信号数据输入对比学习网络中,并利用对比损失函数优化对比学习网络。
[0041]
在本发明实施例中,所述步骤s23中的损失函数包括:
[0042][0043]
其中,l
i,j
表示第i个高维特征信息zi与第j个高维特征信息zj之间的损失,1
[k≠i]
∈{0,1}为指示函数,该函数在k≠i时值为1,n表示高维特征空间中高维特征信息总数;τ是一个可调节的参数,sim(
·
,
·
)表示余弦相似度,zj为第i个高维特征信息zi的正样本,zw为第i个高维特征信息zi的负样本。
[0044]
在本实施例中,基于上述损失函数,编码器和投影头的表示会随着时间的推移而改变,并且获得的表示会将相似的样本放置在空间中更近的位置,在训练结束后,投影头将会被舍去,仅保留编码器,得到样本所包含的高维特征信息。
[0045]
s3:利用t分布随机近邻嵌入将所述高维特征信息投影到低维特征空间;
[0046]
在本发明实施例中,t-sne会对数据进行多次迭代运算,尽可能地使低维空间的数据保留至高维空间的特征信息。最终,通过对比学习与t-sne的联合,原始数据中所包含的特征信息在最大程度上被保留至了低维空间;其中,所述步骤s3中利用t分布随机近邻嵌入将所述高维特征信息投影到低维特征空间所采用的代价函数表示为:
[0047][0048]
其中,c表示代价函数;kl表示散度损失;p||q分别代表高维特征空间和低维特征空间;p
ij
表示i个高维特征信息zi与第j个高维特征信息zj在高维特征空间的联合密度概率,q
ij
表示i个高维特征信息zi与第j个高维特征信息zj在低维特征空间的联合密度概率。
[0049]
s4:利用基于最小突变距离的方法计算出聚类半径,并利用基于密度的聚类算法将所述低维特征空间中的振动信号数据样本进行聚类处理;
[0050]
在本发明实施例中,所述步骤s4中利用基于最小突变距离的方法计算出聚类半径包括:
[0051]
s41:计算低维特征空间中样本数据集x中每一个样本点到其他样本点的欧式距离,并得到样本距离集dist(x);其中,所述样本距离集dist(x)可以具体表示为:
[0052]
dist(x)={dist(ai,aj)|1≤i≤n,1≤j≤n,i≠j}
[0053]
式中,n为数据集x所包含的样本数量;dist(x)为数据集x的样本距离集,其维度为n
×
(n-1);dist(ai,aj)为样本ai到样本aj的欧式距离。
[0054]
可以理解的是,这里的样本数据集x即为振动信号数据样本构成的数据集,而振动样本数据样本包括实时采集的振动信号数据、正常状态下的振动信号数据,以及对这些振动信号数据进行增强后的数据;每个振动样本数据为一个样本,每个样本在低维样本空间中以样本点的形式存在。
[0055]
s42:对样本距离集dist(x)中每一个样本点到其他样本点的欧式距离进行升序排列得到样本升序集rdist(x);
[0056]
s43:对样本升序集rdist(x)中每一个样本点所对应的样本距离集进行突变点检测,记录发生突变时对应的突变距离长度,得到样本距离集chang(x);其中,样本距离集chang(x)={x1,x2,....xw},这里假设有w个突变样本,对应了w个突变距离。在本发明实施
例的实际应用过程中,将样本升序集rdist(x)中dist(ai,a
j+1
)-dist(ai,aj)≥1时判定点a
j+1
为突变样本点,其对应的距离dist(ai,a
j+1
)即为突变距离长度。
[0057]
在本发明优选实施例中,本实施例还包括对所述样本距离集chang(x)去掉样本数据集x中噪声点所产生的数据。
[0058]
s44:选取样本距离集chang(x)中的最小值x
min
设定为聚类半径,即为基于密度的聚类算法的邻域半径eps。
[0059]
在本发明实施例中,所述利用基于密度的聚类算法将所述低维特征空间中的振动信号数据样本进行聚类处理包括:
[0060]
s45:检测数据库中尚未检查过的样本点对象p,如果样本点对象p未被处理,即未被分类到某个簇中或者未被标记为噪声,则检查其邻域半径eps内的样本点对象,若邻域样本对象数不小于最小包含样本点数minpts,则建立新簇c,将其中的所有样本点对象加入候选集n;
[0061]
s46:对候选集n中所有尚未被处理的样本点对象q,检查其邻域半径eps内的样本点对象,若至少包含minpts个样本点对象,则将这些邻域样本点对象加入候选集n;如果样本点对象q未被分类到任何簇中,则将样本点对象q加入新簇c;
[0062]
s47:重复步骤s46,继续检查候选集n中未处理的样本点对象,并令当前候选集n为空;
[0063]
s48:重复步骤s45~s47,直到所有样本点对象都归入了某个簇或标记为噪声。
[0064]
s5:若低维特征空间中存在多个类簇,则表明设备产生故障,反之则表明设备正常。
[0065]
在本发明实施例中,通过判断低维样本空间中振动样本数据的类簇数量来判断是否出现了与正常状态以外的类簇,若出现了多个类簇,就可以表明这些数据中有非正常的振动信号数据,表明设备产生了故障。
[0066]
本发明有效避免了传统故障检测方法过度依赖人工经验、过程繁琐等问题,对比学习和t-sne将原始数据映射至低维特征空间,两者相结合可以使高维数据在低维空间中依然可以保留高维空间所包含的特征信息,最小突变距离的参数设置方法可以实现根据数据特征自动设置参数,dbscan可以实现对空间中的异常样本自动检测。
[0067]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:rom、ram、磁盘或光盘等。
[0068]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种深度对比学习与密度聚类结合的异常检测方法,其特征在于,所述方法包括以下步骤:s1:实时监测机械设备运行过程中的工况信息,利用加速度传感器采集设备振动信号数据,振动信号数据为设备在x轴、y轴以及z轴方向中一个或多个方向振动信号;s2:采用对比学习网络对采集到的实时振动信号数据以及正常状态的振动信号数据同时进行自监督学习,分别提取到振动信号数据样本中所包含的高维特征信息;s3:利用t分布随机近邻嵌入将所述高维特征信息投影到低维特征空间;s4:利用基于最小突变距离的方法计算出聚类半径,并利用基于密度的聚类算法将所述低维特征空间中的振动信号数据样本进行聚类处理;s5:若低维特征空间中存在多个类簇,则表明设备产生故障,反之则表明设备正常。2.根据权利要求1所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s2包括:s21:对振动信号数据采用振幅缩放和噪声添加进行数据增强,调整振幅比例,并通过乘以随机标量来更改窗口中振动信号数据的大小;s22:对增强后的振动信号数据进行编码,将编码得到的振动信号数据经过投影头映射到高维特征空间;s23:将高维特征空间的振动信号数据输入对比学习网络中,并利用对比损失函数优化对比学习网络。3.根据权利要求2所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s21包括:根据振动信号数据的高斯分布情况确定出比例系数,利用比例系数与窗口中振动信号数据的乘积得到增强后的振动信号数据;根据振动信号数据的高斯分布情况确定出高斯噪声,利用高斯噪声与窗口中振动信号数据的求和得到增强后的振动信号数据。4.根据权利要求2所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s22包括:利用编码网络对所述增强后的振动信号数据进行编码,采用第一层感知机对编码得到的振动信号数据进行感知处理,输出得到初步特征向量;采用relu非线性层对所述初步特征向量进行非线性处理,输出得到中间特征向量;采用第二层感知机对所述中间特征向量进行感知处理,输出得到振动信号数据的高维特征向量。5.根据权利要求2所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s23中的损失函数包括:其中,l
i,j
表示第i个高维特征信息z
i
与第j个高维特征信息z
j
之间的损失,1
[k≠i]
∈{0,1}为指示函数,该函数在k≠i时值为1,n表示高维特征空间中高维特征信息总数;τ是一个可调节的参数,sim(
·
,
·
)表示余弦相似度,z
j
为第i个高维特征信息z
i
的正样本,z
w
为第i
个高维特征信息z
i
的负样本。6.根据权利要求1所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s3中利用t分布随机近邻嵌入将所述高维特征信息投影到低维特征空间所采用的代价函数包括:其中,c表示代价函数;p
ij
表示i个高维特征信息z
i
与第j个高维特征信息z
j
在高维特征空间的联合密度概率,q
ij
表示i个高维特征信息z
i
与第j个高维特征信息z
j
在低维特征空间的联合密度概率。7.根据权利要求1所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s4中利用基于最小突变距离的方法计算出聚类半径包括:s41:计算低维特征空间中样本数据集x中每一个样本点到其他样本点的欧式距离,并得到样本距离集dist(x);s42:对样本距离集dist(x)中每一个样本点到其他样本点的欧式距离进行升序排列得到样本升序集rdist(x);s43:对样本升序集rdist(x)中每一个样本点所对应的样本距离集进行突变点检测,记录发生突变时对应的突变距离长度,得到样本距离集chang(x);s44:选取样本距离集chang(x)中的最小值设定为聚类半径,即为基于密度的聚类算法的邻域半径eps。8.根据权利要求7所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述步骤s4还包括对所述样本距离集去掉样本数据集x中噪声点所产生的数据。9.根据权利要求7或8所述的一种深度对比学习与密度聚类结合的异常检测方法,其特征在于:所述利用基于密度的聚类算法将所述低维特征空间中的振动信号数据样本进行聚类处理包括:s45:检测数据库中尚未检查过的样本点对象p,如果样本点对象p未被处理,即未被分类到某个簇中或者未被标记为噪声,则检查其邻域半径eps内的样本点对象,若邻域样本对象数不小于最小包含样本点数minpts,则建立新簇c,将其中的所有样本点对象加入候选集n;s46:对候选集n中所有尚未被处理的样本点对象q,检查其邻域半径eps内的样本点对象,若至少包含minpts个样本点对象,则将这些邻域样本点对象加入候选集n;如果样本点对象q未被分类到任何簇中,则将样本点对象q加入新簇c;s47:重复步骤s46,继续检查候选集n中未处理的样本点对象,并令当前候选集n为空;s48:重复步骤s45~s47,直到所有样本点对象都归入了某个簇或标记为噪声。
技术总结
本发明属于机械异常检测领域,涉及一种深度对比学习与密度聚类结合的异常检测方法;该方法包括利用对比学习提取原始数据所包含的高维特征信息;利用t-SNE将高维特征信息转化至低维特征空间;根据最小突变距离方法确定DBSCAN聚类半径;利用DBSCAN对低维特征空间中异于正常样本的数据进行识别,实现故障检测。本发明有效避免了传统故障检测方法过度依赖人工经验、过程繁琐等问题,对比学习和t-SNE将原始数据映射至低维特征空间,两者相结合可以使高维数据在低维空间中依然可以保留高维空间所包含的特征信息,最小突变距离的参数设置方法可以实现根据数据特征自动设置参数,DBSCAN可以实现对空间中的异常样本自动检测。DBSCAN可以实现对空间中的异常样本自动检测。DBSCAN可以实现对空间中的异常样本自动检测。
技术研发人员:张焱 刘卓林 韩延 黄庆卿
受保护的技术使用者:重庆邮电大学
技术研发日:2023.06.08
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
