一种基于概率分布和XGBoost决策算法的织机异常数据处理方法

未命名 07-27 阅读：76 评论：0

一种基于概率分布和xgboost决策算法的织机异常数据处理方法
技术领域
1.本发明属于纺织行业织造车间智能制造领域，具体涉及一种基于概率分布和xgboost决策算法的织机异常数据处理方法。

背景技术：

2.我国纺织业的智能制造也取得了显著进展。以物联网为基础，实现纺织高质量数据互联互通是行业进行数据化分析、智能化排产等一系列智能制造的前提。因此，需要对纺织异常数据的产生原因和存在形式进行分析研究，进而制定贴合纺织生产场景下的异常数据处理方法。在纺织设备中，织机在织布过程中的工艺流程复杂、产生的作业信息量庞大，作为纺织布匹成形的末道加工设备，其生产情况直接影响织造布匹的最终品次。为此，实现对织机异常数据的处理，提高织造数据准确性，对实现纺织智能制造高质量发展具有重要意义。
3.目前，在异常数据的处理中，主要包括对异常数据的清洗和修复，通过对行业异常数据特征进行分析，对异常数据进行识别和清洗。由于纺织生产环境复杂，网络通信故障和测量传感器硬件损坏等因素的影响，出现大量异常和离群数据掺杂在纺织大数据中，造成数据缺失可用率低，生产信息不准确，最终影响织造布匹品次的问题没有有效的方法进行处理。

技术实现要素：

4.本发明实施例的目的是提供一种基于概率分布和xgboost决策算法的织机异常数据处理方法，能够解决由于纺织生产环境复杂，网络通信故障和测量传感器硬件损坏等因素的影响，出现大量异常和离群数据掺杂在纺织大数据中，造成数据缺失可用率低，生产信息不准确，最终影响织造布匹品次的技术问题。
5.为了解决上述技术问题，本发明是这样实现的：
6.本发明实施例提供了一种基于概率分布和xgboost决策算法的织机异常数据处理方法，包括：
7.s101：定时采集织机原始数据；
8.s102：计算各相邻数据点之间的变化差值；
9.s103：计算不同时间窗口下的自适应回归基准阈值；
10.s104：根据自适应回归基准阈值更新不同时刻下的可信区间；
11.s105：将数据值在可信区间范围外的数据点确定为；
12.s106：构建基于概率分布的贝叶斯网络异常数据识别模型；
13.s107：通过基于概率分布的贝叶斯网络异常数据识别模型，确定导致异常数据点产生数据异常的织机参数；
14.s108：构建基于xgboost决策法的织机缺失数据修复模型；
15.s109：对基于xgboost决策法的织机缺失数据修复模型进行训练；
16.s110：通过训练后的基于xgboost决策法的织机缺失数据修复模型对异常数据点进行修复。
17.在本发明实施例中，首先，采用设置自适应回归阈值的方式对织机各原始数据变化的可信区间进行确定，缩小对异常数据的定位范围。然后构建基于概率分布的异常数据识别模型，进一步实现对异常数据的准确定位，通过所述基于概率分布的贝叶斯网络异常数据识别模型，确定导致所述异常数据点产生数据异常的织机参数。最后，构建基于xgboost决策法的织机缺失数据修复模型，利用xgboost决策法对异常数据造成的数据缺失进行修复，在实现数据清洗的同时对缺失数据进行填补修复，弥补采样数据中数据缺失可用率低的技术问题，提升织机生产信息准确性和最终织造布匹的品次，大大提升企业生产效益。
附图说明
18.图1是本发明实施例提供的一种基于概率分布和xgboost决策算法的织机异常数据处理方法的流程示意图。
19.图2是本发明实施例提供的一种织机异常数据识别的网络关系图。
20.本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
21.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
22.下面结合附图，通过具体的实施例及其应用场景对本发明实施例提供基于概率分布和xgboost决策算法的织机异常数据处理方法进行详细地说明。
23.参照图1，示出了本发明实施例提供的一种基于概率分布和xgboost决策算法的织机异常数据处理方法的流程示意图。
24.本发明实施例提供的一种基于概率分布和xgboost决策算法的织机异常数据处理方法，包括：
25.s101：定时采集织机原始数据。
26.需要说明的是，织机在运行过程中，在对织机设备进行联网数据采集的过程中，由于设备本身通讯异常、传感器故障以及网络线路信号不稳定等原因，都会出现原始采集信息中带有异常干扰数据的问题发生，使采集数据的可靠度下降，所以说，采集的织机原始数据中包含有异常数据和正常数据，采集的原始数据为后续进行异常数据的处理提供数据基础。本领域技术人员可以自行设定定时方式对织机的原始数据进行采集，本方案对定时方式不做限定。
27.表1
[0028][0029][0030]
需要说明的是，织机的作用是将织轴的经纱和纬纱筒的纬纱纵横向交织加工成布匹。由于织机加工过程复杂且每根织轴的加工时间漫长，因此，织机设备在作业时所产生的数据量庞大。织机数据可分为2类：静态数据和动态数据。静态数据指能够提前设定和预知，并且在短周期内不会发生变化的数据，如设备属性、产品工艺信息等；动态数据指随着设备的工作状态和加工工艺要求实时改变的数据，如织机织布产量、打纬次数、织机状态、运行时间、运行车速、运行效率和经纬停次数等。在这2类数据中，动态数据变化频率高且反映着织机的整体生产情况。在织机实际运行过程中，各动态数据间的变化幅度不一，但都具有时间关联性，并且各数据间的变化相互联系。各织机参数与时间的关联性如表1所示，织机在正常运行时的织布产量会随时间的累计而呈连续性增长趋势，织机车速由于织机状态变化的过渡时间较短，采集数值会出现短时间的离散性低频跳变。
[0031]
在实际运行过程中，各数据间的变化相互联系。织机单位时刻的织布产量与车速保持同步正相关性变化，织机在运行状态时，产量值也应同步增长，并且织机车速大于0，同理，织机在停车状态时的产量值应维持不变，且车速等于0。织布产量、运行时间、运行车速和运行状态之间的理论关系式为：
[0032][0033][0034]
其中，m表示织机的织布长度，单位cm，t表示织机的织布时间，单位min，w表示布匹的纬密参数值，也就是布匹1cm长度上的纬纱根数，s表示织机织布时的运行车速也就是织机1分钟的打纬次数，k表示织机当前时刻的工作状态其中1为运行，0为停车。
[0035]
s102：计算各相邻数据点之间的变化差值。
[0036]
需要说明的是，由于织机在运行过程中不同因素的影响，采集的原始数据中，任意相邻两个数据点之间的数据值不可能完全相同，通过计算相邻数据点之间的变化差值，理论上来讲，织机在连续的工作过程中，若工况相同，则相邻数据之间的变化差值会保持在一定范围内，因此通过比较相邻数据之间的变化差值可以初步定位出异常数据的位置，为后续精确定位异常数据打下基础。
[0037]
s103：计算不同时间窗口下的自适应回归基准阈值。
[0038]
需要说明的是，相对于现有技术，自适应回归阈值能够随原始数据的不断更新，自
动修正不同时段下的基准阈值，避免因采集端和底层设备终端之间出现不定时通信故障而导致的正常数据波动被误判为异常数据的情况，提升异常数据的定位准确性。
[0039]
表2
[0040][0041]
如表2所示，在计算自适应回归基准阈值时，将每个数据值的更新时间考虑进计算中，得到单位时间内的数据变化差值序列。然后，将n维的时间窗口下有时序特征的变化差值序列进行滑动平均，最终得到不同时间窗口下的自适应回归基准阈值。
[0042]
在一种可能的实施方式中，s103具体包括：
[0043]
s1031：获取单位时间内的数据变化差值序列；
[0044]
s1032：按照时间顺序，计算当前时间窗口下的数据变化差值的滑动平均值，作为当前时间窗口下的回归基准阈值，其中，当前时间窗口为n维时间窗口，当前窗口包括n个单位时间；
[0045]
其中，回归基准阈值的计算方式为：
[0046][0047]
其中，f(i)表示第i个时间窗口下的基准阈值，xk表示参数在k时刻的数据值，tk表示参数在k时刻的数据更新时间，n表示时间窗口的长度。
[0048]
需要说明的是，n个单位时间为一个时间窗口，第一个时间窗口是指第1至n个单位时间，第二时间窗口是指第n+1至2n个单位时间。
[0049]
s104：根据自适应回归基准阈值更新不同时刻下的可信区间。
[0050]
在一种可能的实施方式中，可信区间的上限和下限分别为：
[0051][0052][0053]
其中，h
t
表示t时刻下的可信区间的上限，l
t
表示t时刻下的可信区间的下限，y
t-a
表示t时刻前一次合法的数据值，c表示幅值系数。
[0054]
需要说明的是，根据自适应回归基准阈值，可以判断出不同数据值偏离基准阈值的程度，而计算出可信区间的上下限，可以确定出在可信区间上下限的范围内的数据值是正常的数据值，也相当于是确定了正常的数据值，采用这种方法，不仅可以避免正常数据误判为异常数据的概率，还可以将采集的原始数据初步区分为正常数据和异常数据。
[0055]
s105：将数据值在可信区间范围外的数据点确定为异常数据。
[0056]
可以理解的是，在s104中计算出的可信区间的上限和下限，可以通过数据值是否
在可信区间的范围内，进而判断出数据值是否是正常数据，也就是说，不在可信区间范围内的数据值为异常数据值，异常数据值对应的数据点便可以确定为异常数据，也就初步定位出了异常数据的位置。
[0057]
s106：构建基于概率分布的贝叶斯网络异常数据识别模型。
[0058]
在一种可能的实施方式中，s106具体包括：
[0059]
s1061：建立样本数据集d，样本数据集d包括织布产量(x1)、打纬次数(x2)、运行时间(x3)、运行效率(x4)、运行车速(x5)、织机状态(x6)和数据类型(x7)，样本数据集d的组成关系为：
[0060][0061]
其中，d的维度为i
×
7，i表示对织机数据的时序采集点个数。
[0062]
s1062：采用等频分箱离散法对样本数据集进行离散化处理；
[0063]
需要说明的是，由于贝叶斯网络对离散数据具有优越的处理性能，因此，需要对样本数据集d的样本元素进行离散化处理，其中，织机状态是反映织机运行和停车的二值元素，数据类型是代表各时刻点下织机数据属于正常数据点、偏离异常点或不活跃异常点的三值元素，无需做离散化处理。采用等频分箱离散法对织布产量、打纬次数、运行时间、运行效率和运行车速5类数据进行离散化，便于精准的进一步定位异常数据。
[0064]
具体地，采用等频分箱离散法对织布产量(x1)、打纬次数(x2)、运行时间(x3)、运行效率(x4)和运行车速(x5)进行离散化处理。
[0065]
在一种可能的实施方式中，在s1062之后还包括：
[0066]
s1062a：在贝叶斯网络中引入各参数之间的相关性系数，相关性系数的计算方式为：
[0067][0068]
其中，a,b表示需要求取相关程度的元素，cov表示元素间的协方差值，σ表示元素间的标准差值，ρ(a,b)表示元素a,b间的相关性系数。
[0069]
需要说明的是，织机各参数间相关性系数是确定贝叶斯网络关系结构的依据，本文利用pearson相关性函数对各网络节点进行相关性分析，以此确定概率分布网络的关系结构。
[0070]
s1063：确定基于概率分布的贝叶斯网络异常数据识别模型的网络结构；
[0071]
网络结构为贝叶斯网络，贝叶斯网络的关系式为：
[0072]
b＝(j,t)
[0073]
其中，j表示描述各元素间关联关系的网络结构图，包括元素节点和关系指向线，t表示描述网络中各元素节点间概率分布的关系数据集。
[0074]
s1064：根据各子节点下的先验概率p(xi|d),i＝1,2,
···
,6，对各子节点间概率分布进行训练，确定织机异常识别网络中证据节点与子节点的条件概率分布p(x7＝mj|
xi)。
[0075]
s1065：计算各节点的全概率：
[0076][0077]
其中，p(x7＝mj)表示各数据类型条件成立的联合全概率，即织布产量、打纬次数、运行时间、运行效率、运行车速和织机状态六类数据共同影响下的结果情况概率。
[0078]
s1066：根据各节点全概率分布确定织机数据情况类型。
[0079]
s1067：在子节点输出结果为异常数据的情况下，根据异常数据的概率分布，对各证据节点的后验概率进行推理，最终定位到产生数据异常的织机参数，后验概率的计算方式为：
[0080][0081]
其中，p(xi|x7)表示已知结果子节点数据类型父节点xi条件成立的概率，即后验概率。
[0082]
s1068：将样本数据集输入至基于概率分布的贝叶斯网络异常数据识别模型进行训练。
[0083]
s107：通过基于概率分布的贝叶斯网络异常数据识别模型，确定导致异常数据点产生数据异常的织机参数。
[0084]
在一种可能的实施方式中，在s107之后还包括：
[0085]
s111：清除导致异常数据点产生数据异常的织机参数。
[0086]
需要说明的是，经过前面的异常数据定位和织机参数的定位，最终确定出异常数据的准确位置，清除确定的异常数据，避免后续在对该异常数据点进行修复的过程中异常数据的影响，之后对清除后的数据缺失位进行修复，以提高数据的整体质量。
[0087]
s108：构建基于xgboost决策法的织机缺失数据修复模型。
[0088]
其中，xgboost是基于极限梯度提升的决策树集成算法，其基本思想是以梯度下降法集成多个基学习器来逐渐减小模型每次修复结果与织机实际值的残差，由于织机数据具有多维度的特征，相对于现有技术，本文通过xgboost决策法，充分利用织机各维度数据间的关联性，对缺失位数据进行修复，在避免修复过程中考虑不充分的同时，设置多个基学习器逐步对缺失位进行修复以逼近织机实际值，提升修复效果。。
[0089]
在一种可能的实施方式中，s108具体为：
[0090]
s1081：以回归树作为基学习器构建基于xgboost决策法的织机缺失数据修复模型，基于xgboost决策法的织机缺失数据修复模型的表达式为：
[0091][0092]
其中，表示i时刻下的织机数据修复结果，xi表示i时刻下待修复织机参数的已知关联输入样本，n表示基学习器的数量，fk表示第k个基学习器。
[0093]
s109：对基于xgboost决策法的织机缺失数据修复模型进行训练。
[0094]
在一种可能的实施方式中，s109具体包括：
[0095]
s1091：将经过异常识别后得到的织机各参数正常数据点作为基于xgboost决策法的织机缺失数据修复模型的特征样本，构建特征样本集，将特征样本集按预设比例划分为训练集和测试集。
[0096]
需要说明的是，将经过异常识别后得到的织机各参数正常数据点作为驱动模型的特征样本集，消除原始数据高维稀疏特征造成模型过拟合的情况，可以提高模型的数据修复能力。
[0097]
可选地，训练集和测试集的预设比例为7：3。
[0098]
s1092：选择回归树作为基于xgboost决策法的织机缺失数据修复模型的基学习器，将基于xgboost决策法的织机缺失数据修复模型的目标损失函数设置为均方损失回归。
[0099]
s1093：以误差最小原则调整基于xgboost决策法的织机缺失数据修复模型的学习率、基学习器数量和回归树深度。
[0100]
需要说明的是，本文数据修复问题为回归问题，在对模型的基学习器(booster)和目标损失函数(objective)进行选择时，选择回归树作为织机缺失数据修复模型的基学习器，织机缺失数据修复模型的目标损失函数设置为均方损失回归；以误差最小原则调整模型的学习率(learning_rate)、基学习器数量(n_estimator)和回归树深度(max_depth)；为防止模型训练时对样本数据的过度拟合，对构造基学习器时的随机采样数占比(subsample)和随机特征数占比(colsample_bytree)进行设置，提升修复质量，降低修复误差。
[0101]
s1094：通过训练集对基于xgboost决策法的织机缺失数据修复模型进行训练。
[0102]
s1095：在基于xgboost决策法的织机缺失数据修复模型的迭代次数达到基学习器数量的情况下，输出基于xgboost决策法的织机缺失数据修复模型的输出结果。
[0103]
s1096：判断输出结果是否在织机各对应参数的可信区间上限和下限之间，若输出结果在可信区间上限和下限之间，进入s1097，否则，进入s1098。
[0104]
s1097：对输出结果进行异常值校验，判断输出结果是否通过异常值校验，在输出结果通过异常值校验的情况下，进入s1099，否则，进入s1098。
[0105]
s1098：调整学习率、基学习器数量和回归树深度，返回s1094，重新训练基于xgboost决策法的织机缺失数据修复模型。
[0106]
需要说明的是，按照初始化参数对模型进行训练和构造，待模型训练迭代数达到基学习器最大数量时，输出模型训练结果和误差，判断训练结果是否包含在织机各对应参数的可信区间范围内，并且重新利用异常数据识别方法对结果进行异常值校验，若校验不通过，则调整模型学习率(learning_rate)和基学习器数量(n_estimator)的参数值，重新训练模型，直至输出结果满足处于可信区间的条件，并且可以通过异常值的校验，结束参数调整，完成基于xgboost决策法的织机缺失数据修复模型的训练。
[0107]
s1099：随机输入测试集中与织机待修复数据相关联的的样本信息，对比目标输出结果与对应织机真实参数的偏差，在目标输出结果与对应织机真实参数的偏差在预设范围内的情况下，结束基于xgboost决策法的织机缺失数据修复模型的训练。
[0108]
可以理解的是，之前训练好的基于xgboost决策法的织机缺失数据修复模型输出结果确实是经过了验证，但是，为了避免意外情况的出现，进一步利用测试集对基于
xgboost决策法的织机缺失数据修复模型进行进一步验证，如果验证结果通过，则表示基于xgboost决策法的织机缺失数据修复模型具有普遍适用性，经过进一步的验证，提升训练模型的可靠性和可信度。
[0109]
s110：通过训练后的基于xgboost决策法的织机缺失数据修复模型对异常数据点进行修复。
[0110]
可以理解的是，利用训练好的基于xgboost决策法的织机缺失数据修复模型对定位出的异常数据点进行修复，填补缺失位，提升织机采样数据的可用率，提高异常数据的修复成功率。
[0111]
在一种可能的实施方式中，在s110之后还包括：
[0112]
s112：对修复后的数据进行可靠性验证。
[0113]
需要说明的是，为了避免定位出的异常数据修复后，出现修复不准确或者不满足预设条件的情况，对修复后的数据进行可靠性验证，以验证修复效果的可靠性。
[0114]
在一种可能的实施方式中，s112具体为：
[0115]
s1121：采用平均绝对误差指标mae、均方根误差指标rmse和拟合系数指标r2对修复后的数据进行可靠性验证：
[0116][0117][0118][0119]
其中，yi表示测试集中测试样本的实际值，表示测试样本的预测值，表示测试样本的均值，mae、rmse和r2值的范围为[0,1]，mae和rmse的值越小，说明修复结果与真实值越接近，r2的值越接近于1，说明基于xgboost决策法的织机缺失数据修复模型对织机缺失数据的修复准确度越高。
[0120]
在实际使用过程中，现有服务于纺织企业织布生产的织机设备中，多数带有供外部数据采集通讯的信息传输接口，如丰田、津田驹、必佳乐织机等。本文以石家庄某纺织企业的必佳乐omniplus-340型喷气织机采集数据为例，对所提异常数据处理方法有效性进行验证。现有采集设备主要采用外置数据采集终端对织机的各类生产数据进行采集。为贴合实际织造车间以班次为周期的生产作息规律，本文收集了织机的完整班次数据，数据采集频率为每分钟1次，采集数据集共计样本720组，每组样本包括织机的织布产量、打纬次数、运行时间、运行效率、运行车速、织机状态和异常情况7类数据信息。
[0121]
采用设置自适应回归阈值的方式对织机各参数变化的可信区间进行定义。本文以数据可变范围广、易受环境干扰的织机织布产量、打纬次数、运行效率和运行车速4类参数
作为该方法处理效果的验证数据。对数据的变化特点进行分析，可知：织机织布产量和打纬次数在正常情况下的瞬时变化幅值相对较小，而织机车速和效率由于织机存在运行和停车状态的快速切换，短时刻间数值会出现大幅度跳变。因此，在对织机车速和效率进行处理时，时间窗口长度的设定需要大于织布产量和打纬次数的窗口长度。但是，时间窗口长度过长会降低基阈值的实时更新率；窗口长度过短，所包含的历史数据过少，难以体现数据的变化趋势。图为不同时间窗口长度下织机各参数的异常点识别情况。
[0122]
实验发现，本文对织机织布产量、打纬次数、运行效率和运行车速的时间窗口长度分别设置为30、23、48和57。在确定各参数数据变化的可信区间后，其中，对织布产量异常点有效识别个数25个，识别率32.05％；打纬次数异常点有效识别个数17个，识别率21.15％；运行效率异常点有效识别个数10个，识别率13.33％；运行车速异常点有效识别个数17个，识别率26.98％。此外，采用设置自适应回归阈值定义数据变化可信区域的方式，能估算出织机参数的整体变化趋势，缩小对织机异常数据的定位范围，并且，能够对异常数据进行初步识别。仅通过定义可信区域识别到的异常数据点中，多数为全局偏离异常点，局部偏离异常点和不活跃异常数据点由于波动幅度不明显被包括在可信区域内而不能被有效识别，证明了引入自适应回归基准阈值定义可信区间的有效性和对异常数据的识别能力大大提升。
[0123]
表3各参数间的相关性系数
[0124]
x1x2x3x4x5x6x11.000.970.960.340.090.08x20.971.000.990.350.090.08x30.960.991.000.340.090.08x40.340.350.341.000.110.12x50.090.090.090.111.000.93x60.080.080.080.120.931.00
[0125]
自适应回归阈值的设定能有效对全局偏离异常数据进行定位，但对于波动幅度不明显的局部偏离异常数据和不活跃异常数据的识别效果不佳。本文搭建基于参数间相关性的贝叶斯网络异常数据识别模型，进一步对异常数据发生时刻点和异常类型进行定位。首先，对织机织布产量、打纬次数、运行时间、运行效率、运行车速、织机状态6类参数的相关性进行分析，确定参数间的相互关联程度，作为构建异常识别关系网络结构的依据。各参数间的相关性系数如表3所示。
[0126]
从表3中各参数间的相关性系数结果可知，织机运行时间、打纬次数和织布产量3者间具有数据相关性。其中，运行时间和打纬次数间的相关性程度最高，相关性系数为0.99；织机状态和运行车速间具有数据相关性，相关性系数为0.93.
[0127]
参照图2，示出了本发明实施例提供的一种织机异常数据识别的网络关系图。
[0128]
由图2可知，织机数据的异常情况由织布产量、打纬次数、运行时间、运行效率、运行车速和织机状态6类证据节点共同决定。
[0129]
表4各方法的异常数据识别情况
[0130][0131]
为验证本文识别网络对织机异常数据识别的有效性，将本文方法与决策树、k最近邻算法进行对比。表4为各方法对织机织布产量、打纬次数、运行效率和运行车速4类参数的异常点识别情况。由表4可知，本文基于概率分布的异常点识别方法对织机4类参数的异常点识别率分别为98.71％、95.00％、98.67％和98.41％，平均识别率为97.70％，高于其他两种对比方法，原因是所提方法充分利用了各数据间的相关性。
[0132]
表5xgboost模型参数
[0133][0134]
利用xgboost决策法对织机缺失数据点进行修复，模型的参数设置如表5所示。为定量分析模型对织机缺失数据修复的可靠性，本文将特征样本集随机拆分为7:3比例划分成训练集和测试集，使用hermite插值、三次样条插值和本文方法分别对织机缺失数据点进
行修复。从织机织布产量、打纬次数、运行效率和运行车速4类参数中各随机选择5个不同时刻观测点进行数据修复。
[0135]
结果表明，对比填补后的数据值与真实数据间的拟合程度，本文提出的使用xgboost决策法对织机缺失数据的修复结果更接近于织机参数的实际值，而两种对比方法在观测点下得到的修复值与实际值之间具有较大误差。其原因是相比于从单一维度下特征信息的获取只能从数据本身的前后变化趋势为依据，本文使用xgboost决策法对织机缺失值进行修复时，考虑了织机多维度参数间的相互关联性，利用已有的关联参数相关性信息，实现对缺失数据更加准确的修复。
[0136]
表6各参数修复评价结果
[0137][0138]
表6为hermite插值、三次样条插值和本文方法对织机各参数修复情况的评价结果。根据表中评价指标，本文方法对织机缺失数据修复的结果均优于其他两种方法，评价指标mae、rmse最小，织机织布产量、打纬次数、运行效率和运行车速对应的r2值分别为0.9649、0.9563、0.9832、0.9736。在验证基于xgboost决策法对织机缺失数据修复的准确性后，利用训练好的修复模型对织机各参数的数据缺失位进行修复，提升了织机数据的整体质量。
[0139]
在本发明实施例中，首先，采用设置自适应回归阈值的方式对织机各原始数据变化的可信区间进行确定，缩小对异常数据的定位范围。然后构建基于概率分布的异常数据识别模型，进一步实现对异常数据的准确定位，通过所述基于概率分布的贝叶斯网络异常数据识别模型，确定导致所述异常数据点产生数据异常的织机参数。最后，构建基于xgboost决策法的织机缺失数据修复模型，利用xgboost决策法对异常数据造成的数据缺失进行修复，在实现数据清洗的同时对缺失数据进行填补修复，弥补采样数据中数据缺失可用率低的技术问题，提升织机生产信息准确性和最终织造布匹的品次，大大提升企业生产效益。
[0140]
以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

技术特征：
1.一种基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，包括：s101：定时采集织机原始数据；s102：计算各相邻数据点之间的变化差值；s103：计算不同时间窗口下的自适应回归基准阈值；s104：根据所述自适应回归基准阈值更新不同时刻下的可信区间；s105：将数据值在可信区间范围外的数据点确定为异常数据；s106：构建基于概率分布的贝叶斯网络异常数据识别模型；s107：通过所述基于概率分布的贝叶斯网络异常数据识别模型，确定导致所述异常数据点产生数据异常的织机参数；s108：构建基于xgboost决策法的织机缺失数据修复模型；s109：对所述基于xgboost决策法的织机缺失数据修复模型进行训练；s110：通过训练后的基于xgboost决策法的织机缺失数据修复模型对所述异常数据点进行修复。2.根据权利要求1所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，所述s103具体包括：s1031：获取单位时间内的数据变化差值序列；s1032：按照时间顺序，计算当前时间窗口下的数据变化差值的滑动平均值，作为所述当前时间窗口下的回归基准阈值，其中，所述当前时间窗口为n维时间窗口，所述当前窗口包括n个单位时间；其中，所述回归基准阈值的计算方式为：其中，f(i)表示第i个时间窗口下的基准阈值，x k
表示参数在k时刻的数据值，t
k
表示参数在k时刻的数据更新时间，n表示时间窗口的长度。3.根据权利要求1所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，所述s104具体为：s1041：根据所述自适应回归基准阈值，计算t时刻下织机参数的可信区间上限和下限：计算t时刻下织机参数的可信区间上限和下限：其中，h
t
表示t时刻下的所述可信区间上限，l
t
表示t时刻下的所述可信区间下限，y
t-a
表示t时刻前一次合法的数据值，c表示幅值系数。4.根据权利要求1所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，所述s106具体包括：
s1061：建立样本数据集d，所述样本数据集d包括织布产量(x1)、打纬次数(x2)、运行时间(x3)、运行效率(x4)、运行车速(x5)、织机状态(x6)和数据类型(x7)，所述样本数据集d的组成关系为：其中，d的维度为i
×
7，i表示对织机数据的时序采集点个数；s1062：采用等频分箱离散法对所述样本数据集进行离散化处理；s1063：确定所述基于概率分布的贝叶斯网络异常数据识别模型的网络结构；所述网络结构为贝叶斯网络，所述贝叶斯网络的关系式为：b＝(j,t)其中，j表示描述各元素间关联关系的网络结构图，包括元素节点和关系指向线，t表示描述网络中各元素节点间概率分布的关系数据集；s1064：根据各子节点下的先验概率p(x
i
|d),i＝1,2,
···
,6，对各子节点间概率分布进行训练，确定织机异常识别网络中证据节点与子节点的条件概率分布p(x7＝m
j
|x
i
)；s1065：计算各节点的全概率：其中，p(x7＝m
j
)表示各数据类型条件成立的联合全概率，即织布产量、打纬次数、运行时间、运行效率、运行车速和织机状态六类数据共同影响下的结果情况概率；s1066：根据各节点全概率分布确定织机数据情况类型；s1067：在子节点输出结果为异常数据的情况下，根据所述异常数据的概率分布，对各证据节点的后验概率进行推理，最终定位到产生数据异常的织机参数，所述后验概率的计算方式为：其中，p(x
i
|x7)表示已知结果子节点数据类型父节点x i
条件成立的概率，即所述后验概率；s1068：将所述样本数据集输入至所述基于概率分布的贝叶斯网络异常数据识别模型进行训练。5.根据权利要求4所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，在所述s1062之后还包括：s1062a：在所述贝叶斯网络中引入各参数之间的相关性系数，所述相关性系数的计算方式为：其中，a,b表示需要求取相关程度的元素，cov表示元素间的协方差值，σ表示元素间的
标准差值，ρ(a,b)表示元素a,b间的相关性系数。6.根据权利要求1所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，在所述s107之后还包括：s111：清除导致所述异常数据点产生数据异常的织机参数。7.根据权利要求1所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，所述s108具体为：s1081：以回归树作为基学习器构建所述基于xgboost决策法的织机缺失数据修复模型，所述基于xgboost决策法的织机缺失数据修复模型的表达式为：其中，表示i时刻下的织机数据修复结果，x
i
表示i时刻下待修复织机参数的已知关联输入样本，n表示所述基学习器的数量，f
k
表示第k个基学习器。8.根据权利要求7所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，所述s109具体包括：s1091：将经过异常识别后得到的织机各参数正常数据点作为所述基于xgboost决策法的织机缺失数据修复模型的特征样本，构建特征样本集，将所述特征样本集按预设比例划分为训练集和测试集；s1092：选择回归树作为所述基于xgboost决策法的织机缺失数据修复模型的基学习器，将所述基于xgboost决策法的织机缺失数据修复模型的目标损失函数设置为均方损失回归；s1093：以误差最小原则调整所述基于xgboost决策法的织机缺失数据修复模型的学习率、基学习器数量和回归树深度；s1094：通过所述训练集对所述基于xgboost决策法的织机缺失数据修复模型进行训练；s1095：在所述基于xgboost决策法的织机缺失数据修复模型的迭代次数达到所述基学习器数量的情况下，输出所述基于xgboost决策法的织机缺失数据修复模型的输出结果；s1096：判断所述输出结果是否在织机各对应参数的所述可信区间上限和下限之间，若所述输出结果在所述可信区间上限和下限之间，进入s1097，否则，进入s1098；s1097：对所述输出结果进行异常值校验，判断所述输出结果是否通过所述异常值校验，在所述输出结果通过所述异常值校验的情况下，进入s1099，否则，进入s1098；s1098：调整所述学习率、所述基学习器数量和所述回归树深度，返回s1094，重新训练所述基于xgboost决策法的织机缺失数据修复模型；s1099：随机输入所述测试集中与织机待修复数据相关联的的样本信息，对比目标输出结果与对应织机真实参数的偏差，在所述目标输出结果与所述对应织机真实参数的偏差在预设范围内的情况下，结束所述基于xgboost决策法的织机缺失数据修复模型的训练。9.根据权利要求1所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，在所述s110之后还包括：s112：对修复后的数据进行可靠性验证。
10.根据权利要求9所述的基于概率分布和xgboost决策算法的织机异常数据处理方法，其特征在于，所述s112具体为：s1121：采用平均绝对误差指标mae、均方根误差指标rmse和拟合系数指标r2对修复后的数据进行可靠性验证：数据进行可靠性验证：数据进行可靠性验证：其中，y
i
表示所述测试集中测试样本的实际值，表示所述测试样本的预测值，表示所述测试样本的均值，mae、rmse和r2值的范围为[0,1]，mae和rmse的值越小，说明修复结果与真实值越接近，r2的值越接近于1，说明所述基于xgboost决策法的织机缺失数据修复模型对织机缺失数据的修复准确度越高。

技术总结
本发明公开了一种基于概率分布和XGBoost决策算法的织机异常数据处理方法，属于纺织行业织造车间智能制造领域，方法包括：定时采集织机原始数据；计算各相邻数据点之间的变化差值；计算不同时间窗口下的自适应回归基准阈值；根据自适应回归基准阈值更新不同时刻下的可信区间；将数据值在可信区间范围外的数据点确定为异常数据；构建基于概率分布的贝叶斯网络异常数据识别模型；通过基于概率分布的贝叶斯网络异常数据识别模型，确定导致异常数据点产生数据异常的织机参数；构建基于XGBoost决策法的织机缺失数据修复模型；对基于XGBoost决策法的织机缺失数据修复模型进行训练；通过训练后的基于XGBoost决策法的织机缺失数据修复模型对异常数据点进行修复。复模型对异常数据点进行修复。复模型对异常数据点进行修复。

技术研发人员：戴宁徐开心胡旭东沈春娅袁嫣红向忠汝欣
受保护的技术使用者：浙江理工大学
技术研发日：2023.04.03
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于概率分布和XGBoost决策算法的织机异常数据处理方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于概率分布和XGBoost决策算法的织机异常数据处理方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表