基于随机森林分析数字孪生机理优化的应用场景建设方法与流程

未命名 07-23 阅读:125 评论:0


1.本发明涉及大数据领域、物联网领域以及数字孪生领域,具体为基于随机森林分析数字孪生机理优化的应用场景建设方法。


背景技术:

2.随着物联网以及数字孪生模型在植物保护类产品的生产过程中的应用,整套模型的机理解释性要求也越来越高。一个强机理解释能够对生产过程提供较高价值的指导与监测。但是在植物保护类产品的生产过程中,工艺参数、环境数据其总量是非常庞大且维度是非常高的。因此急需一种能够对现场环境做出监测并且对特征进行筛选的方法,做到从现实生产到虚拟驱动模型的全过程强机理解释。


技术实现要素:

3.为解决上述技术问题,本发明提出了基于随机森林分析数字孪生机理优化的应用场景建设方法,能够实现对现场生产过程进行自动监测,并且能够智能的从高维特征中筛选出重要特征输入到数字孪生模型中。
4.为实现上述目的,本发明采取的技术方案是:
5.基于随机森林分析数字孪生机理优化的应用场景建设方法,包括以下步骤:
6.1)生产数据提取;
7.根据所需运用场景,在进行随机森林算法模型分类检测前,需要应用物联网技术对生产过程的全物理参数以及环境数据信息进行提取;
8.2)随机森林模型训练监测;
9.利用随机森林完成特征值与标签值间的函数映射,缺失的数据利用平均值与众值填补,维度不平衡则利用归一化处理,单棵决策树采用基尼系数作为划分标准,模型评判则利用正确分类样本在总样本间的比例。
10.3)pca特征选择;
11.利用pca降维算法,计算协方差矩阵,并提取出物联网高纬度特征信息中超过阈值的重要特征;
12.4)重要特征提取;
13.利用pca主成分分析对特征进行筛选,并结合随机森林基尼系数特征重要度进行双重验证,进而做到最少特征值数量,数字孪生模型机理强解释性。
14.5)数字孪生模型机理解释;
15.将数字孪生系统依照前述步骤计算的最少数目重要特征项的信息来源进行建模,推演,计算仿真。
16.作为本发明进一步改进,所述步骤2)中维度不平衡归一化处理表示为:
17.本次选择预处理主要为缺失数据值采用平均值、分类值采用众数值的方式进行填补,填补完成后,需要对特征数值进行归一化处理;
[0018][0019]
其中i为数据集的特征维度,j为数据集所拥有的数据量大小,x’ij
为归一化后的新的特征值,x
ij
为原特征值,x
ij
_min为第i维特征的平均值,为第i维特征的最大值;
[0020]
所述步骤2)中基尼指数表示为:
[0021]
单棵子树分裂点划分以及最佳分割特征选择依照基尼指数进行划分:
[0022][0023]
其中gi为基尼指数,c为目标标签类别个数,本次申请中只有两个类别分别为安全生产以及非安全生产,p(c)中第c类别的样本的比例;
[0024]
所述步骤2)中模型评判表示为:
[0025]
本次随机森林模型为处理一个分类问题,所以此次模型评定标准表示为:
[0026][0027]
其中u为准确率,m为判定成功的样本个数,n则为总样本数量。当训练集与测试集的u分别超过0.92,0.95即可完成模型搭建。
[0028]
作为本发明进一步改进,所述步骤3)中协方差矩阵表示为:
[0029]
此外还需要进行协方差计算即计算数据集的协方差矩阵,用于衡量特征之间的相关性:
[0030][0031]
其中cm为计算后的协方差矩阵,n为数据集的样本数,x则为数据集进行中心化后的矩阵,x
t
表示将中心化后的矩阵进行转置处理。
[0032]
作为本发明进一步改进,所述步骤4)中随机森林重要特征与pca重要特征双重验证表示为:
[0033]
在两者分别选择完毕后,需要依照下述公式进行合并分析:
[0034][0035]
其中x
last
为最终输入到数字孪生模型中的特征数目,x
l
为随机森林中的重要特征,xk为pca降维算法中的优选特征,n为随机森林中重要特征的数目,m为pca降维算法中的特征数目;
[0036]
所述步骤4)中随机森林重要特征数目与pca降维算法中提取出的重要特征数目各取n和m时,输出到数字孪生重要特征表示为:
[0037]
当随机森林中的重要特征数目多于或者等于pca降维算法,则直接输出x
l
随机森林中的重要特征到数字孪生模型当中,但当随机森林中的重要特征数目少于pca降维算法中的特征数目时,则需要进行特征筛选计算出优选特征xk:
[0038]
d=v(x
l
)+v(xk),k=1,2,3,...,m-n
ꢀꢀ⑹
[0039]
d≥0.95
ꢀꢀ⑺
[0040]
其中d为方差累计解释比例,v则为对单个特征进行计算单个方差解释比例。v(x
l
)表示随机森林中的重要特征在pca降维算法中的总累计方差解释比例,v(xk)表示从pca降维算法选出的重要特征剔除随机森林选出的重要特征后,对剩余重要特征进行排序计算方差解释比例,从剩下方差解释比例最大的开始一个个累加,直到满足公式7,即累计方差解释比例大于0.95,选择出最小k值,即需要从pca中剩余重要特征中所选取的个数。最终并将优选出pca中的剩余重要特征,与随机森林选出的重要特征一起输出作为数字孪生中的解释特征项。
[0041]
本技术具有以下效益:
[0042]
本技术提供的一种的基于随机森林分析数字孪生机理优化的应用场景建设方法使用随机森立对植物保护类工厂生产环境实时监测分类,提高了处理速度以及监测准确性;
[0043]
本技术提供的一种的基于随机森林分析数字孪生机理优化的应用场景建设方法结合随机森林特征选择以及pca降维算法对高纬度特征进行筛选重要特征输入到数字孪生模型中,提高了整体模型可解释性。
[0044]
本次申请提供的一种的基于随机森林分析数字孪生机理优化的应用场景建设方法采用物联网,提取整个工厂的物理参数、环境数据,保证数据集在输入随机森林算法时其数据量与维度的充足性,提高模型精确性。
附图说明
[0045]
图1根据本技术实施例提供的基于随机森林分析数字孪生机理优化的应用场景建设方法流程图;
[0046]
图2根据本技术实施例提供的基于随机森林分析数字孪生机理优化的应用场景建设方法物联网植保产品生产高纬度特征信息图;
[0047]
图3根据本技术实施例提供的基于随机森林分析数字孪生机理优化的应用场景建设方法随机森林和pca重要特征合并流程图。
具体实施方式
[0048]
下面结合附图与具体实施方式对本发明作进一步详细描述:
[0049]
如图1所示为本技术提供的基于随机森林分析数字孪生机理优化的应用场景建设方法流程图。
[0050]
步骤s1:植保生产数据提取。
[0051]
如图2所示为本技术提供的基于随机森林分析数字孪生机理优化的应用场景建设方法物联网植保产品生产高纬度特征信息图。
[0052]
本次现实应用平台为植保类产品生产基地,在进行随机森林算法模型分类检测前,需要应用物联网技术对生产过程的全物理参数以及环境数据信息进行提取。
[0053]
首先对物理参数进行数据采集,这其中包括声音水平和噪音、工厂设备和机器的振动水平、工厂设备、车辆或货物的实时位置信息、重要设备的电压电流及功率信息。
[0054]
此外本次的环境信息对于植保类产品的生产也及其重要,包括生产过程中的温度数据、湿度数据、灌水流量、监测气象数据如风速、风向、大气压力和降水量、监测水质参数
如ph值、溶解氧、浊度和电导率、空气中的气体浓度和化学物质含量。
[0055]
步骤s2:随机森林模型训练监测。
[0056]
根据上述所述,本次特征参数由于涉及到整个植保类平台的数字孪生模型搭建,物联网提出的所有特征信息都有可能关乎到后续生产安全监测精度,因此采用随机森林对本次特征参数与目标标签进行函数映射。
[0057]
首先对原始特征数据进行预处理操作,由于本次物联网提取出的特征数据具有维度高,各个特征维度之间的数据尺度范围差异大,因此需要对特征进行预处理操作,本次选择预处理主要为缺失数据值采用平均值、分类值采用众数值的方式进行填补,填补完成后,需要对特征数值进行归一化处理。
[0058][0059]
其中i为数据集的特征维度,j为数据集所拥有的数据量大小,x’ij
为归一化后的新的特征值,x
ij
为原特征值,x
ij
_min为第i维特征的平均值,为第i维特征的最大值。
[0060]
将物联网传入的数据处理完毕后,需要对随机森林模型进行构建,此时构建的核心就是一个个决策树并且每个决策树中,对总i维的特征进行随机抽取,以防止由于此次申请时,维度数量过大造成过拟合现象。此外在样本选择方面采用又放回采样。
[0061]
单棵子树分裂点划分以及最佳分割特征选择依照基尼指数进行划分:
[0062][0063]
其中gi为基尼指数,c为目标标签类别个数,本次申请中只有两个类别分别为安全生产以及非安全生产,p(c)中第c类别的样本的比例。
[0064]
当所有决策树都训练完成后,组合为一个随机森林。本次申请中的分类问题中,使用投票方式确定最终的预测类别。即判定安全的标签的投票数超过了判定非安全的投票数,则判定为安全,反之则预测为非安全生产。
[0065]
本次随机森林模型为处理一个分类问题,所以此次模型评定标准可表示为:
[0066][0067]
其中u为准确率,m为判定成功的样本个数,n则为总样本数量。当训练集与测试集的u分别超过0.92,0.95即可完成模型搭建。
[0068]
步骤s3:pca特征选择。
[0069]
在本次pca特征选择中,首先需要将原有物联网中提取的海量数据进行如同步骤s2中的部分预处理操作一样,进行缺失值填补,填补完成后进行归一化处理。
[0070]
填补完成后需要对数据进行统一中心化,即每个数据都减去均值,使得数据集各个维度的平均值为0。
[0071]
此外还需要进行协方差计算即计算数据集的协方差矩阵,用于衡量特征之间的相关性:
[0072][0073]
其中cm为计算后的协方差矩阵,n为数据集的样本数,x则为数据集进行中心化后
的矩阵,x
t
表示将中心化后的矩阵进行转置处理。
[0074]
随后求出协方差矩阵的特征值及对应的特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,计算选择出其重要特征值。
[0075]
步骤s4:重要特征提取。
[0076]
如图3所示为本技术提供的基于随机森林分析数字孪生机理优化的应用场景建设方法随机森林和pca重要特征合并流程图。
[0077]
根据步骤s3以及步骤s4,各自得到了步骤s1物联网中物联网的重要特征选择范围。
[0078]
在随机森林中,依照基尼系数重要性来计算特征的重要性得分,本次申请种由于特征维度大,所以为了加强数字孪生模型的可解释性,采用一个较高的阈值,来选择对模型影响最重要的特征参数值,。
[0079]
在pca降维算法中,首先根据pca降维算法自身也设计一个高阈值,只有高于该阈值的特征才会被记为重要特征。
[0080]
在两者分别选择完毕后,需要依照下述公式进行合并分析:
[0081][0082]
其中x
last
为最终输入到数字孪生模型中的特征数目,x
l
为随机森林中的重要特征,xk为pca降维算法中的优选特征,n为随机森林中重要特征的数目,m为pca降维算法中的特征数目。
[0083]
当随机森林中的重要特征数目多于或者等于pca降维算法,则直接输出x
l
随机森林中的重要特征到数字孪生模型当中,但当随机森林中的重要特征数目少于pca降维算法中的特征数目时,则需要进行特征筛选计算出优选特征xk:
[0084]
d=v(x
l
)+v(xk),k=1,2,3,...,m-n
ꢀꢀꢀ⑹
[0085]
d≥0.95
ꢀꢀꢀ⑺
[0086]
其中d为方差累计解释比例,v则为对单个特征进行计算单个方差解释比例。v(x
l
)表示随机森林中的重要特征在pca降维算法中的总累计方差解释比例,v(xk)表示从pca降维算法选出的重要特征剔除随机森林选出的重要特征后,对剩余重要特征进行排序计算方差解释比例,从一个开始挨个累加,直到满足公式7,即累计方差解释比例大于0.95,选择出最小k值,即需要从pca中剩余特征中所选取的个数。最终并将优选出pca中的剩余重要特征,与随机森林选出的重要特征一起输出作为数字孪生中的解释特征项。
[0087]
步骤s5:数字孪生模型机理解释。
[0088]
将数字孪生系统依照输入来的重要特征项的信息来源进行建模,推演,计算仿真等。
[0089]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

技术特征:
1.基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于,包括以下步骤:1)生产数据提取;根据所需运用场景,在进行随机森林算法模型分类检测前,需要应用物联网技术对生产过程的全物理参数以及环境数据信息进行提取;2)随机森林模型训练监测;利用随机森林完成特征值与标签值间的函数映射,缺失的数据利用平均值与众值填补,维度不平衡则利用归一化处理,单棵决策树采用基尼系数作为划分标准,模型评判则利用正确分类样本在总样本间的比例;3)pca特征选择;利用pca降维算法,计算协方差矩阵,并提取出物联网高纬度特征信息中超过阈值的重要特征;4)重要特征提取;利用pca主成分分析对特征进行筛选,并结合随机森林基尼系数特征重要度进行双重验证,进而做到最少特征值数量,数字孪生模型机理强解释性。5)数字孪生模型机理解释;将数字孪生系统依照前述步骤计算的最少数目重要特征项的信息来源进行建模,推演,计算仿真。2.根据权利要求1所述的基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于:所述步骤2)中维度不平衡归一化处理表示为:本次选择预处理主要为缺失数据值采用平均值、分类值采用众数值的方式进行填补,填补完成后,需要对特征数值进行归一化处理;其中i为数据集的特征维度,j为数据集所拥有的数据量大小,x’ij
为归一化后的新的特征值,x
ij
为原特征值,x
ij
_min为第i维特征的平均值,为第i维特征的最大值;所述步骤2)中基尼指数表示为:单棵子树分裂点划分以及最佳分割特征选择依照基尼指数进行划分:其中gi为基尼指数,c为目标标签类别个数,本次申请中只有两个类别分别为安全生产以及非安全生产,p(c)中第c类别的样本的比例;所述步骤2)中模型评判表示为:本次随机森林模型为处理一个分类问题,所以此次模型评定标准表示为:其中u为准确率,m为判定成功的样本个数,n则为总样本数量。当训练集与测试集的u分别超过0.92,0.95即可完成模型搭建。
3.根据权利要求1所述的基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于:所述步骤3)中协方差矩阵表示为:此外还需要进行协方差计算即计算数据集的协方差矩阵,用于衡量特征之间的相关性:其中cm为计算后的协方差矩阵,n为数据集的样本数,x则为数据集进行中心化后的矩阵,x
t
表示将中心化后的矩阵进行转置处理。4.根据权利要求1所述的基于随机森林分析数字孪生机理优化的应用场景建设方法,其特征在于:所述步骤4)中随机森林重要特征与pca重要特征双重验证表示为:在两者分别选择完毕后,需要依照下述公式进行合并分析:其中x
last
为最终输入到数字孪生模型中的特征数目,x
l
为随机森林中的重要特征,x
k
为pca降维算法中的优选特征,n为随机森林中重要特征的数目,m为pca降维算法中的特征数目;所述步骤4)中随机森林重要特征数目与pca降维算法中提取出的重要特征数目各取n和m时,输出到数字孪生重要特征表示为:当随机森林中的重要特征数目多于或者等于pca降维算法,则直接输出x
l
随机森林中的重要特征到数字孪生模型当中,但当随机森林中的重要特征数目少于pca降维算法中的特征数目时,则需要进行特征筛选计算出优选特征x
k
:d=v(x
l
)+v(x
k
),k=1,2,3,

,m-n (6)d≥0.95 (7)其中d为方差累计解释比例,v则为对单个特征进行计算单个方差解释比例。v(x
l
)表示随机森林中的重要特征在pca降维算法中的总累计方差解释比例,v(x
k
)表示从pca降维算法选出的重要特征剔除随机森林选出的重要特征后,对剩余重要特征进行排序计算方差解释比例,从剩下方差解释比例最大的开始一个个累加,直到满足公式7,即累计方差解释比例大于0.95,选择出最小k值,即需要从pca中剩余重要特征中所选取的个数。最终并将优选出pca中的剩余重要特征,与随机森林选出的重要特征一起输出作为数字孪生中的解释特征项。

技术总结
本发明提出了基于随机森林分析数字孪生机理优化的应用场景建设方法,在传统植保类产品生产过程中,当应用物联网技术来监测工厂平台,提取整体生产过程中的各类数字信息到数字孪生模型时。海量以及超高维度的生产信息会被输入到数字孪生模型中,这对于最终的数字孪生机理解释是一种灾难性的。因此本次首先在海量数据传入到数字孪生模型前,通过随机森林算法去预测植保类产品的生产是否安全。再结合PCA降维算法提取出整个物联网模型中的重要特征,将这些重要特征输入到数字孪生模型当中,从而做到生产全过程的有效监测,数字孪生模型的强机理解释性。机理解释性。机理解释性。


技术研发人员:吴伟 吴静 陆静 徐其文 杨以兵
受保护的技术使用者:江苏克胜集团股份有限公司
技术研发日:2023.05.17
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐