一种工业互联网的异常数据检测方法、系统和设备
未命名
08-07
阅读:94
评论:0
1.本发明涉及网络安全技术领域,具体为一种工业互联网的异常数据检测方法、系统和设备。
背景技术:
2.工业互联网已被广泛用于化学、电力、水和废水以及其他关键基础设施系统。如今,大多数工业控制系统使用信息和通信技术来控制其工业过程(例如电动汽车充电站、汽车、火车和公共汽车以及许多其他应用)。工业控制系统与其他信息服务的结合使工业设施面临由网络漏洞能力引起的可能威胁的新来源。
3.现有的网络安全检测方法都专注于检测特征空间中的异常,即查看与正常空间有较大偏差的数据点。在集成控制系统检测方法中,连续生产设备产生大量非线性、高维的数据,导致系统安全人员出现数据处理效率低下、攻击检测速度慢的问题;且工业互联网中的数据存在大量噪声,决策树算法容易过拟合,降低检测结果的准确度;支持向量机在处理海量数据时需要消耗大量的计算机系统资源;传统机器学习检测算法易受到大量参数、不确定结构和强样本依赖性的影响,不稳定。综上,现有的工业互联网检测方法存在检测效率低,检测质量低、检测结果不稳定的问题,造成工业互联网平台安全性差。
技术实现要素:
4.本发明的目的是提供了一种工业互联网的异常数据检测方法、系统和设备。
5.本发明技术方案如下:
6.一种工业互联网的异常数据检测方法,包括如下操作:
7.s1获取节点的真实数据分布,基于所述真实数据分布,得到潜在表示分布;将所述潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将所述真实数据分布与第一正常数据分布进行对比,得到第一异常分数;
8.s2将所述节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将所述真实数据分布与第二正常数据分布进行对比,得到第二异常分数;
9.s3基于所述第一异常分数与第二异常分数,得到异常总分数;
10.s4将异常总分数与阈值进行对比,得到异常风险等级;
11.s5基于所述异常风险等级,更新所述节点的交流权限。
12.如上所述的异常数据检测方法,其特征在于,
13.所述s1中得到潜在表示分布的操作,是通过极大极小对抗的编码器实现的;所述编码器用于将真实数据分布转化为潜在表示分布;
14.所述s1中得到第一正常数据分布的操作,是通过极大极小对抗的生成器实现的,所述生成器用于将潜在表示分布转化为第一正常数据分布;
15.所述s2中得到第二正常数据分布的操作,是通过极大极小对抗的判别器实现的;所述判别器用于将真实数据分布转化为第二正常数据分布。
16.所述极大极小对抗的操作具体为:
17.获取包含所述编码器、生成器和判别器的目标函数,通过最小化所述目标函数值与最大化所述目标函数值的博弈,使所述编码器、生成器和判别器达到纳什均衡状态。
18.所述生成器经过极大极小对抗处理之前,还包括进化训练所述生成器;所述进化训练的操作具体为:
19.步骤一:将正常节点训练集中的正常数据分布转化为潜在表示分布,将所述潜在表示分布输入生成器中,得到父代样本;
20.步骤二:将所述父代样本进行变异处理,得到子代样本;
21.步骤三:基于所述子代样本的特征表达,得到质量评价分数;
22.步骤四:若所述质量评价分数小于第一标准值,剔除对应子代样本;若所述质量评价分数不小于第一标准值,执行步骤五;
23.步骤五:若所述质量评价分数小于第二标准值,对应子代样本作为新的父代样本执行步骤二;若所述质量评价分数不小于第二标准值,训练结束。
24.所述质量评价分数是基于生成样本质量评分和生成样本多样性评分得到的;
25.所述生成样本质量评分为所述子代样本中正常特征表示的期望值;
26.所述生成样本多样性评分是基于正常数据分布中正常特征表示,以及所述子代样本中正常特征表示得到的。
27.如上所述的异常数据检测方法,所述s3的操作具体为:获取平衡参数,基于所述平衡参数,对第一异常分数与第二异常分数进行加权处理,得到所述总异常分数。
28.如上所述的异常数据检测方法,所述s4的操作具体为:
29.将所述异常总分数与阈值进行对比,得到所述异常风险等级;
30.若所述总异常分数小于第一阈值,则节点的异常数据风险等级为第一风险等级;
31.若所述总异常分数不小于第一阈值且不大于第二阈值,则节点的异常数据风险等级为第二风险等级;
32.若所述总异常分数大于第二阈值且小于第三阈值,则节点的异常数据风险等级为第三风险等级;
33.若所述总异常分数不小于第三阈值,则节点的异常数据风险等级为第四风险等级。
34.一种工业互联网的异常数据检测系统,包括:
35.第一异常分数生成模块,用于获取节点的真实数据分布,基于所述真实数据分布,得到潜在表示分布;将所述潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将所述真实数据分布与第一正常数据分布进行对比,得到第一异常分数;
36.第二异常分数生成模块,用于将所述节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将所述真实数据分布与第二正常数据分布进行对比,得到第二异常分数;
37.异常总分数生成模块,用于基于所述第一异常分数与第二异常分数,得到异常总分数;
38.异常风险等级生成模块,用于将异常总分数与阈值进行对比,得到异常风险等级;
39.交流权限更新模块,用于基于所述异常数据风险等级,更新所述节点的交流权限。
40.一种工业互联网的异常数据检测系统设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如上述的工业互联网的异常数据检测方法。
41.一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现上述的工业互联网的异常数据检测方法。
42.本发明的有益效果在于:
43.本发明提供一种工业互联网的异常数据检测方法,对比初始节点的数据分布与经过提取处理的第一正常数据分布中正常特征表达性能得到第一异常评分;且对比初始节点的数据分布与经过增强处理的第二正常数据分布中正常特征表达性能得到第二异常评分,基于第一异常评分和第二异常评分,得到节点的风险等级,并立刻做出相应的节点交流权限限制,双重检测,准确性高,检测结果稳定,有利于维护工业互联网安全;
44.本发明提供一种工业互联网的异常数据检测方法,利用仅含有正常节点的训练集去进化训练生成器,增强生成器正常特征提取的能力和稳定性,提升检测方法的检测效率以及最终计算结果的准确度;另外,还将编码器、生成器和判别器进行极大极小对抗处理,提高了编码器的映射能力,生成器的正常特征提取能力,和判别器的正常特征增强能力,增强了检测方法在处理高维数据时的稳定性和计算效率,提高检测方法的稳定性和准确度。
附图说明
45.通过阅读下文优选实施方式的详细描述,本技术的方案和优点对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
46.在附图中:
47.图1为实施例中检测方法的流程示意图;
48.图2为实施例中检测系统的结构示意图;
49.图3为实施例中检测设备的结构示意图。
具体实施方式
50.下面将结合附图更详细地描述本公开的示例性实施方式。
51.本实施例提供了一种工业互联网的异常数据检测方法,参见图1,包括:
52.s1获取节点的真实数据分布,基于所述真实数据分布,得到潜在表示分布;将所述潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将所述真实数据分布与第一正常数据分布进行对比,得到第一异常分数;
53.s2将所述节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将所述真实数据分布与第二正常数据分布进行对比,得到第二异常分数;
54.s3基于所述第一异常分数与第二异常分数,得到异常总分数;
55.s4将异常总分数与阈值进行对比,得到异常风险等级;
56.s5基于所述异常风险等级,更新所述节点的交流权限。
57.s1获取节点的真实数据分布,基于真实数据分布,得到潜在表示分布;将潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将真实数据分布与第一正常数据分布进行对比,得到第一异常分数。
58.得到潜在表示分布的操作是通过极大极小对抗的编码器实现的;编码器用于将真实数据分布转化为潜在表示分布;将节点的真实数据分布放入编码器中,经映射处理,得到潜在表示分布。具体为,基于正则化约束的自编码器(regularization-basedae,rae)首先,将真实数据分布映射到潜在特征空间形成低维的潜在表示,然后,通过改进的正则化项使潜在表示类间距离增大,类内距离缩短,使潜在表示在潜在特征空间集中分布,得到更合理化的潜在表示分布。
59.得到第一正常数据分布的操作,是通过极大极小对抗的生成器实现的,生成器用于将潜在表示分布转化为第一正常数据分布;将潜在表示分布放入生成器中,经正常特征提取处理,得到第一正常数据分布。
60.生成器经过极大极小对抗处理之前,还包括进化训练处理生成器。进化训练的操作具体为:步骤一:将正常节点训练集中的正常数据分布转化为潜在表示分布,将潜在表示分布输入生成器中,得到父代样本;步骤二:将父代样本进行变异处理,得到子代样本;步骤三:基于子代样本的特征表达,得到质量评价分数;步骤四:若质量评价分数小于标准值,剔除对应子代样本;若质量评价分数不小于标准值,执行步骤五;步骤五:若质量评价分数小于第二标准值,对应子代样本作为新的父代样本执行步骤二;若质量评价分数不小于第二标准值,训练结束。训练后的生成器的输出在测试数据为正常数据时会和测试数据几乎相同,能够将节点数据当中的正常特征更准确提取出来。标准值、迭代次数可根据实际生成器准确率需求进行设置。
61.质量评价分数是基于生成样本质量评分和生成样本多样性评分得到的;生成样本质量评分为子代样本中正常特征表示的期望值,生成样本多样性评分是基于正常数据分布中正常特征表示,以及子代样本中正常特征表示得到的。
62.质量评价分数可通过如下公式得到:
63.f=f1+αf2,
[0064][0065][0066]
f为质量评价分数,f1为生成样本质量评分,是由编码器输出的潜在表示分布z输入生成器g后,生成器g将潜在表示分布变异为子代样本分布,并提取子代样本分布中的正常特征g(z),正常特征g(z)进入判别器d后,经计算得到正常特征表示的期望值常特征g(z),正常特征g(z)进入判别器d后,经计算得到正常特征表示的期望值为数学期望函数;f2为生成样本多样性评分,是求生成器d的梯度,x为正常数据分布,d(x)为将正常数据分布x输入判别器d得到的正常特征表示,α为平衡为生成样本质量评分f1和生成样本多样性评分f2的参数,α≥0。
[0067]
s2将节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将真实数据分布与第二正常数据分布进行对比,得到第二异常分数。
[0068]
得到第二正常数据分布的操作,是通过极大极小对抗的判别器实现的;判别器用于将真实数据分布转化为第二正常数据分布;将节点的真实数据分布放入经过了极大极小对抗的判别器中,经正常特征增强处理,得到第二正常数据分布。判别器用于对真实数据分布中的正常特征进行增强处理,通过将当前节点中的正常特征与其邻域节点的正常特征,进行信息聚合,得到得到关联性更强、表达能力更强的第二正常数据分布。节点中异常特征
占比通常较小,使得节点的正常特征具有关联性强的特点,所以节点的正常特征越多,与其他节点之间存在的边数越多,关联性越强,通过多次迭代的方式,聚合邻域节点特征,使得节点的正常特征具有更好的相关性,会保持高度异质性。另外,判别器还可以用于训练生成器时,将子代样本分布中的正常特征表达性能进行计算和判别质量评价分数与标准值的大小。
[0069]
极大极小对抗的操作具体为:获取包含所述编码器、生成器和判别器的目标函数,通过最小化目标函数值与最大化目标函数值的博弈,使编码器、生成器和判别器达到纳什均衡状态。
[0070]
极大极小对抗可通过如下公式实现:
[0071][0072]
v(g,e,d)为包含编码器e、生成器g和判别器d的目标函数,为数学期望函数,x为正常数据,px为初始正常数据分布,z为初始潜在表示,pz是初始潜在表示分布,p
e(
·
|x)
是将正常数据x输入至编码器e得到的潜在表示分布,p
g(
·
|z)
将p
e(
·
|x)
输入至生成器g得到的数据分布,d(x,z)表示将x与z输入鉴别器d,表示求编码器生成的分布的数学期望,表示求真实数据的分布的期望,表示求生成器生成的分布的数学期望,表示求潜在表示的分布的数学期望。
[0073]
在极大极小对抗的训练中,训练判别器d使得最大概率地能够分对区分输入样本是来自编码器e还是生成器g,训练编码器e、生成器g目的是最小化[1-logd(x,z)],即最大化判别器d的损失。训练过程中固定一方,更新另一个网络的参数,交替迭代,使得对方的错误最大化,最终,生成器g能估测出样本数据的分布,也就是生成的样本更加的真实。同时,训练生成器g的目的是是希望d(x,z)趋近于1,也就是正类,这样生成器g的损失就会最小。而判别器d的训练是一个2分类,目标是分清楚真实数据和生成数据,也就是希望真实数据的判别器d输出趋近于1,而生成数据的输出即d(x,z)趋近于0,或是负类,这里就是体现了对抗的思想。对抗训练之后,生成的数据分布与实际分布相同,编码器e、生成器g和判别器d就处于纳什均衡状态。整个极大极小对抗的过程中,编码器e、生成器g和判别器d之间相互博弈,生成器g试图生成足以骗过判别器d的样本分布;编码器e将真实数据映射到潜在表示;判别器d则尽可能的去区分输入样本是来自真实数据还是生成器g的生成样,以及区分潜在表示是生成器g输入或编码器e输出,由此提高了编码器e的映射能力,生成器g的正常特征提取能力,以及判别器d的正常特征增强能力。
[0074]
s3基于第一异常分数与第二异常分数,得到异常总分数。
[0075]
具体为,获取平衡参数,基于平衡参数,对第一异常分数与第二异常分数进行加权处理,得到总异常分数。
[0076]
总异常分数可通过如下公式实现:
[0077]
a(x')=λr(x')+(1-λ)l(x'),
[0078]
r(x')=||x'-g(z)||1,
[0079]
l(x')=σ(d(x'),1),
[0080]
a(x')为节点的真实数据分布x'的异常总分数,λ为平衡参数,λ≥0;r(x')为第一异常分数,是真实数据分布x'中正常特征表达,与输入至生成器g的潜在表示分布z得到的
第一正常数据分布的正常特征表达之间的差值的绝对值;l(x')为第二异常分数,是使用交叉损失函数σ计算真实数据分布x'的正常特征表达,与输入至判别器d中真实数据分布x'得到的第二正常数据分布的正常特征表达之间的交叉损失熵。
[0081]
s4将异常总分数与阈值进行对比,得到异常风险等级;
[0082]
具体为:若总异常分数小于第一阈值,则节点的异常数据风险等级为第一风险等级;若总异常分数不小于第一阈值且不大于第二阈值,则节点的异常数据风险等级为第二风险等级;若总异常分数大于第二阈值且小于第三阈值,则节点的异常数据风险等级为第三风险等级;若总异常分数不小于第三阈值,则节点的异常数据风险等级为第四风险等级。
[0083]
第一阈值为0.3,第二阈值为0.5,第三阈值为0.8,第四阈值为1。
[0084]
s5基于异常风险等级,更新述节点的交流权限。
[0085]
具体为:若节点的异常数据风险等级为第一风险等级,开放对应节点的全部交流权限;若节点的异常数据风险等级为第二风险等级,对应节点仅能和第一风险等级的节点进行交流,且立即修复对应节点;若节点的异常数据风险等级为第三风险等级,延迟对应节点进入工业互联网的时间,并在预设周期内将对应节点进行多次检测;若节点的异常数据风险等级为第四风险等级,将对应节点从工业互联网中剔除。
[0086]
在本实施例中,使用云计算模块接收保存第二风险等级、第三风险等级和第四风险等级对应节点的数据,并对工业互联网企业侧发出警告。且会记录存在第二风险等级、第三风险等级和第四风险等级对应节点数据的设备id,记为异常设备id,云计算模块会根据接受数据生成安全日志下发至企业端,为设备的维修维护提供支持。
[0087]
本实施例提供一种工业互联网的异常数据检测系统,参见图2,包括:
[0088]
第一异常分数生成模块,用于获取节点的真实数据分布,经映射处理,得到潜在表示分布;将潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将真实数据分布与第一正常数据分布进行对比,得到第一异常分数;
[0089]
第二异常分数生成模块,用于将节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将真实数据分布与第二正常数据分布进行对比,得到第二异常分数;
[0090]
异常总分数生成模块,用于基于第一异常分数与第二异常分数,得到异常总分数;
[0091]
异常风险等级生成模块,用于将异常总分数与阈值进行对比,得到异常风险等级;
[0092]
交流权限更新模块,用于基于异常数据风险等级,更新节点的交流权限。
[0093]
本实施例提供一种工业互联网的异常数据检测系统设备,参见图3,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现上述的一种工业互联网的异常数据检测方法。
[0094]
本实施例提供一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现上述的一种工业互联网的异常数据检测方法。
[0095]
本实施例提供一种工业互联网的异常数据检测方法,对比初始节点的数据分布与经过提取处理的第一正常数据分布中正常特征表达性能得到第一异常评分;且对比初始节点的数据分布与经过增强处理的第二正常数据分布中正常特征表达性能得到第二异常评分,基于第一异常评分和第二异常评分,得到节点的风险等级,并立刻做出相应的节点交流权限限制,双重检测,准确性高,检测结果稳定,有利于维护工业互联网安全;
[0096]
本实施例提供一种工业互联网的异常数据检测方法,利用仅含有正常节点的训练
集去进化训练生成器,增强生成器正常特征提取的能力和稳定性,提升检测方法的检测效率以及最终计算结果的准确度;另外,还将编码器、生成器和判别器进行极大极小对抗处理,由此去提高了编码器的映射能力,生成器的正常特征提取能力,和判别器的正常特征增强能力,增强了检测方法在处理高维数据时的稳定性和计算效率,提高检测方法的稳定性和准确度。
技术特征:
1.一种工业互联网的异常数据检测方法,其特征在于,包括如下操作:s1获取节点的真实数据分布,基于所述真实数据分布,得到潜在表示分布;将所述潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将所述真实数据分布与第一正常数据分布进行对比,得到第一异常分数;s2将所述节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将所述真实数据分布与第二正常数据分布进行对比,得到第二异常分数;s3基于所述第一异常分数与第二异常分数,得到异常总分数;s4将异常总分数与阈值进行对比,得到异常风险等级;s5基于所述异常风险等级,更新所述节点的交流权限。2.根据权利要求1所述的异常数据检测方法,其特征在于,所述s1中得到潜在表示分布的操作,是通过极大极小对抗的编码器实现的;所述编码器用于将真实数据分布转化为潜在表示分布;所述s1中得到第一正常数据分布的操作,是通过极大极小对抗的生成器实现的,所述生成器用于将潜在表示分布转化为第一正常数据分布;所述s2中得到第二正常数据分布的操作,是通过极大极小对抗的判别器实现的;所述判别器用于将真实数据分布转化为第二正常数据分布。3.根据权利要求2所述的异常数据检测方法,其特征在于,所述极大极小对抗的操作具体为:获取包含所述编码器、生成器和判别器的目标函数,通过最小化所述目标函数值与最大化所述目标函数值的博弈,使所述编码器、生成器和判别器达到纳什均衡状态。4.根据权利要求2所述的异常数据检测方法,其特征在于,所述生成器经过极大极小对抗处理之前,还包括进化训练所述生成器;所述进化训练的操作具体为:步骤一:将正常节点训练集中的正常数据分布转化为潜在表示分布,将所述潜在表示分布输入生成器中,得到父代样本;步骤二:将所述父代样本进行变异处理,得到子代样本;步骤三:基于所述子代样本的特征表达,得到质量评价分数;步骤四:若所述质量评价分数小于第一标准值,剔除对应子代样本;若所述质量评价分数不小于第一标准值,执行步骤五;步骤五:若所述质量评价分数小于第二标准值,对应子代样本作为新的父代样本执行步骤二;若所述质量评价分数不小于第二标准值,训练结束。5.根据权利要求4所述的异常数据检测方法,其特征在于,所述质量评价分数是基于生成样本质量评分和生成样本多样性评分得到的;所述生成样本质量评分为所述子代样本中正常特征表示的期望值;所述生成样本多样性评分是基于正常数据分布中正常特征表示,以及所述子代样本中正常特征表示得到的。6.根据权利要求1所述的异常数据检测方法,其特征在于,所述s3的操作具体为:获取平衡参数,基于所述平衡参数,对第一异常分数与第二异常分数进行加权处理,得到所述总异常分数。
7.根据权利要求1所述的异常数据检测方法,其特征在于,所述s4的操作具体为:将所述异常总分数与阈值进行对比,得到所述异常风险等级;若所述总异常分数小于第一阈值,则节点的异常数据风险等级为第一风险等级;若所述总异常分数不小于第一阈值且不大于第二阈值,则节点的异常数据风险等级为第二风险等级;若所述总异常分数大于第二阈值且小于第三阈值,则节点的异常数据风险等级为第三风险等级;若所述总异常分数不小于第三阈值,则节点的异常数据风险等级为第四风险等级。8.一种工业互联网的异常数据检测系统,其特征在于,包括:第一异常分数生成模块,用于获取节点的真实数据分布,基于所述真实数据分布,得到潜在表示分布;将所述潜在表示分布进行正常特征提取处理,得到第一正常数据分布;将所述真实数据分布与第一正常数据分布进行对比,得到第一异常分数;第二异常分数生成模块,用于将所述节点的真实数据分布进行正常特征增强处理,得到第二正常数据分布;将所述真实数据分布与第二正常数据分布进行对比,得到第二异常分数;异常总分数生成模块,用于基于所述第一异常分数与第二异常分数,得到异常总分数;异常风险等级生成模块,用于将异常总分数与阈值进行对比,得到异常风险等级;交流权限更新模块,用于基于所述异常数据风险等级,更新所述节点的交流权限。9.一种工业互联网的异常数据检测系统设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1-7任一项所述的工业互联网的异常数据检测方法。10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的工业互联网的异常数据检测方法。
技术总结
本发明涉及网络安全技术领域,具体为一种工业互联网的异常数据检测方法、系统和设备,该检测方法中,对比初始节点的数据分布与经过提取处理的第一正常数据分布中正常特征表达性能得到第一异常评分;且对比初始节点的数据分布与经过增强处理的第二正常数据分布中正常特征表达性能得到第二异常评分,基于第一异常评分和第二异常评分,得到节点的风险等级,并立刻做出相应的节点交流权限限制,双重检测,准确性高,检测结果稳定,有利于维护工业互联网安全。联网安全。联网安全。
技术研发人员:刘兆伟 郭德志 王海洋 阎维青 徐金东 宋永超
受保护的技术使用者:烟台大学
技术研发日:2023.06.26
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
