一种等离子体光谱识别方法、装置、电子设备及存储介质
未命名
10-18
阅读:108
评论:0
1.本发明涉及光谱检测技术领域,尤其涉及一种等离子体光谱识别方法、装置、电子设备及存储介质。
背景技术:
2.随着等离子体(plasma)科学的不断研究,等离子体诊断技术也随之发展起来。等离子体诊断(plasma diagnostics)是根据对等离子体物理过程的了解,采用相应的方法和技术来测量等离子体参量的科学技术。等离子体诊断是天体测量学和天体物理学的一个重要基础。
3.等离子体光谱法是一种常见的等离子体诊断方法,其是利用等离子体的发射光谱或吸收光谱诊断等离子体温度、密度和化学组分等参量的方法。然而,现有技术中使用的等离子体光谱分析仪器设备系统操作复杂,且技术成本较高。
技术实现要素:
4.本发明提供一种等离子体光谱识别方法、装置、电子设备及存储介质,用以解决现有技术中等离子体光谱法操作过程较为复杂,且技术成本较高的缺陷。
5.本发明提供一种等离子体光谱识别方法,包括:
6.将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到所述待识别等离子体光谱信息对应的目标分类光谱参数,以根据所述目标分类光谱参数,对所述待识别等离子体光谱信息进行光谱波长特征分析;
7.其中,所述训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。
8.根据本发明提供的一种等离子体光谱识别方法,在所述将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型之前,还包括:
9.获取原始等离子体光谱信息数据集;
10.采用特征工程方法和/或合成采样方法,对所述原始等离子体光谱信息数据集进行预处理,得到等离子体光谱信息样本数据集;
11.采用交叉验证的方法,利用所述等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练。
12.根据本发明提供的一种等离子体光谱识别方法,所述等离子体光谱信息样本包括2048组特征波长,所述特征波长的波长范围为 366.19nm至1051.14nm。
13.根据本发明提供的一种等离子体光谱识别方法,所述利用所述等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练之后,包括:
14.基于网格搜索方法,对lgbm光谱识别模型的参数进行优化,得到所述lgbm光谱识别模型的最佳参数。
15.根据本发明提供的一种等离子体光谱识别方法,所述采用交叉验证的方法,利用
所述等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练,包括:
16.采取交叉验证的方法,从所述等离子体光谱信息样本数据集中得到训练样本集;
17.将所述训练样本集中的等离子体光谱信息样本和所述等离子体光谱信息样本携带的真实光谱参数标签作为一组训练样本,获取多组训练样本;
18.利用所述多组训练样本,对lgbm光谱识别模型进行训练。
19.根据本发明提供的一种等离子体光谱识别方法,所述利用所述多组训练样本,对lgbm光谱识别模型进行训练,包括:
20.对于任意一组训练样本,将所述训练样本输入lgbm光谱识别模型,输出所述训练样本对应的预测概率;所述预测概率用于确定所述训练样本的分类结果;
21.利用预设损失函数,根据所述训练样本对应的预测概率和所述训练样本中的真实光谱参数标签计算损失值;
22.若所述损失值小于预设阈值,则所述lgbm光谱识别模型训练完成。
23.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述等离子体光谱识别方法。
24.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述等离子体光谱识别方法。
25.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述等离子体光谱识别方法。
26.本发明提供的一种等离子体光谱识别方法、装置、电子设备及存储介质,通过携带有真实光谱参数标签的等离子体光谱信息样本对lgbm模型进行训练,得到训练好的lgbm光谱识别模型,以将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,根据目标分类光谱参数对待识别等离子体光谱信息进行光谱波长特征分析,由此,通过采用机器学习lgbm算法自动学习等离子体光谱波长特征之间隐含的物理信息,实现对等离子体光谱的精准识别与分类,操作方便,可以极大地降低等离子体光谱诊断的技术成本。
附图说明
27.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1是本发明提供的等离子体光谱识别方法的流程示意图;
29.图2是本发明提供的等离子体光谱识别方法输出的特征重要性示意图;
30.图3是本发明提供的等离子体光谱识别方法的模型训练及测试的流程示意图;
31.图4是本发明提供的等离子体光谱识别装置的结构示意图;
32.图5是本发明提供的电子设备的实体结构示意图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.下面结合图1-图5描述本发明的一种等离子体光谱识别方法、装置、电子设备及存储介质。
35.图1是本发明提供的等离子体光谱识别方法的流程示意图,如图1所示,该方法包括:
36.步骤s1,将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,以根据目标分类光谱参数,对待识别等离子体光谱信息进行光谱波长特征分析;
37.其中,训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。
38.需要说明的是,等离子体(plasma)又叫做电浆,是由部分电子被剥夺后的原子及原子团被电离后产生的正负离子组成的离子化气体状物质,尺度大于德拜长度的宏观电中性电离气体,其运动主要受电磁力支配,并表现出显著的集体行为。它广泛存在于宇宙中,常被视为是除去固、液、气外,物质存在的第四态;
39.等离子体光谱是指从等离子体内部发出的从红外到真空紫外波段的电磁辐射谱。
40.在本实施例中,lgbm算法模型也称为lightgbm模型,它是个快速、分布式的、高性能的基于决策树算法的梯度提升框架,可用于排序、分类、回归以及很多其他的机器学习任务中。
41.lgbm模型是基于梯度提升决策树(gradientboostingdecisiontree,gbdt)和xgboost提升树算法的模型,并采用了直方图算法、直方图差加速、深度限制的按叶子生长(leaf-wise)机制,梯度单边采样(gradient-basedone-sidesampling,goss)与互斥特征抽样(exclusivefeaturebundling,efb)等方法,具有较高的分类识别精度和训练速度;
42.其中,lgbm模型是采用最优的按叶子生长(leaf-wise)的策略分裂叶子节点,摒弃了现有大部分gbdt决策树算法使用的按层生长(level-wise)的决策树生长策略。因此,在lightgbm算法中,当增长到相同的叶子节点,leaf-wise算法比level-wise算法减少更多的损失(loss),因此可以实现更高的精度。
43.具体地,本发明所描述的待识别等离子体光谱信息指的是需要进行识别的等离子体光谱信息,其具体可以是等离子体辉光放电光谱,可以通过光纤光谱仪获取。
44.本发明所描述的目标分类光谱参数指的是可以表征待识别等离子体光谱特性的一类参量,其具体可以包括等离子体辉光放电的环境气压、放电功率、放电位置等中的至少一类参量。
45.本发明所描述的训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的,用于学习待识别等离子体光谱波长特征之间隐含的物理信息,对输入的待识别等离子体光谱进行识别,从而输出可以表征待识别等离子体光谱特征所对应的目标分类光谱参数,以此实现对不同目标分类光谱参数下的等离子体光
谱信息的识别与分类。
46.其中,模型训练样本可以是由多组携带有真实光谱参数标签的等离子体光谱信息样本组成的。
47.其中,本发明所描述的真实光谱参数标签是根据等离子体光谱信息样本预先确定的,并与等离子体光谱信息样本是一一对应的。也就是说,模型训练样本中的每一个等离子体光谱信息样本,都预先设定好携带一个与之对应的光谱参数作为真实标签。
48.在一些实施例中,在步骤s1,将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型之前,还包括:
49.获取原始等离子体光谱信息数据集;
50.采用特征工程方法和/或合成采样方法,对原始等离子体光谱信息数据集进行预处理,得到等离子体光谱信息样本数据集;
51.采用交叉验证的方法,利用等离子体光谱信息样本数据集对 lgbm光谱识别模型进行训练。
52.具体地,本发明实施例所描述的原始等离子体光谱信息数据集指的是未经任何数据处理的等离子体光谱信息数据集。
53.在将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,之前,还需对lgbm光谱识别模型进行训练,具体训练过程如下:
54.通过射频等离子体放电实验产生复杂等离子体,使用光纤光谱仪采集原始等离子体光谱信息样本,并将每个等离子体光谱信息样本都存储为txt文件。
55.其中,在本实施例中,等离子体光谱信息样本包括2048组特征波长,特征波长的波长范围为366.19nm至1051.14nm,更具体地,光谱数据txt格式的文本中可以包括两列数据,第一列是光谱的特征波长,其范围覆盖了从近红外波段到真空紫外波段的范围,即 366.19nm至1051.14nm,共2048组波长特征;第二列为特征波长对应的光谱强度。
56.本发明实施例的方法,通过采集的等离子体光谱信息样本,其包含2048组特征波长,特征波长的波长范围为366.19nm至 1051.14nm,对lgbm模型进行训练,从而有利于实现训练好的 lgbm光谱识别模型对近红外到真空紫外光波段范围的等离子体光谱的识别与诊断,提高模型的可适用范围。
57.进一步地,在本实施例中,可以使用python语言及numpy、 pandas数据分析库,将采集到的等离子体光谱信息样本数据读取为 dataframe数据结构,并存储为逗号分隔值(comma-separatedvalues,csv)文件格式的数据,由此获取原始等离子体光谱信息数据集。
58.进一步地,采用特征工程方法和/或合成采样方法,对原始等离子体光谱信息数据集进行预处理,得到等离子体光谱信息样本数据集,也就是说,在本实施例中,可以采用特征工程方法,或合成采样(synthetic minority oversampling technique,smote)方法,或同时采用特征工程方法和smote方法,来对原始等离子体光谱信息数据集进行预处理,构造高价值特征数据;
59.其中,在本实施例中,使用的特征工程方法具体可以包括特征衍生、特征离散化、特征归一化(标准化)和特征筛选;具体地,通过对原始等离子体光谱信息数据集进行特征衍生,可以生成更多对lgbm模型分类有价值的特征;特征离散化,可以提取线性特征的非线
性规律,有利于加速模型的收敛速度,减弱异常值对模型的影响,从而提高算法鲁棒性;特征归一化(标准化)本质上是一个去量纲的过程,可以提高模型的精度并加速收敛;特征筛选,对数据进行降维,降低模型学习的难度,提高精度并加快收敛。
60.更具体地,在本实施中,特征工程方法中,特征衍生方法可以包括:数学运算:连续型特征加减乘除方法;多项式组合:构造多项式特征,得到特征的交叉组合和高次项;笛卡尔积:对离散型特征进行交叉组合;特征衍生可以根据光谱的波长特征构造线性/非线性相关的新特征,这些新特征中可能会存在对模型识别增益较大的特征,可以提高模型的识别性能。构造出的冗余特征可以在特征筛选部分消除。
61.在本实施例中,特征离散化方法可以包括:
①
二值化:设置阈值将特征离散为0和1,将细粒度特征转化为粗粒度特征;
②
等频分箱:划分区间包含大致相同的样本数量;
③
等距分箱:划分区间的取值范围相同;
④
聚类分箱:基于聚类算法的分箱,将同一个类簇里的样本分为同一类。离散化特征在加速模型收敛速度的同时,可以消除光谱数据中的异常数据影响,提高模型识别的鲁棒性。
62.在本实施例中,特征缩放本质上是一个去量纲的过程,可以提高模型的精度并加速收敛。其常见方法包括标准化(减去均值除以标准差)和归一化(减去最小值除以数据的分布范围差值,即数据最大值减去最小值)。经过缩放的光谱特征,其不同波长对应的光谱强度分布之间的差异会被消除,即所有波长特征对应的光谱强度都被缩放到相同范围内,消除了量纲的影响。
63.其中,具体特征缩放方案的选取可参考以下先验性规则:
64.①
对数据范围有要求,使用归一化;
65.②
数据存在异常值和噪声,使用标准化;
66.③
分类、聚类、pca等算法中,需要用距离度量相似性的,标准化效果更好;
67.④
数据不符合正态分布的,采取归一化;
68.⑤
归一化适合于小样本,标准化适合大样本。
69.在本实施例中,等离子体光谱拥有2048组波长,训练过程中有些波长特征对模型的增益是非常有限的,而过多的波长会影响模型的收敛速度和拟合难度。通过特征筛选的方法,可以对光谱数据进行降维,降低模型学习的难度,提高识别精度并加快收敛。
70.在本实施例中,特征筛选方法包括filter过滤法、wrapper包裹法和embedded嵌入法;
71.其中,filter过滤法中,根据某种统计检验分数及相关性指标来筛选特征;其具体可以包括:
①
方差选择法:设定一个方差的阈值,选择方差大于阈值的特征;方差太小说明特征分布差异太小,对样本分类没有作用;
②
相关系数法:设定相关系数的阈值,计算特征变量和目标变量之间的相关系数,选取大于阈值的变量;
③
iv值:设置iv阈值,选取iv值大于阈值的特征变量;
72.wrapper包裹法具体可以包括:
①
稳定性方法:在不同的特征子集和样本子集上进行特征选择,不断重复并汇总特征选择结果;比如统计某个特征是重要性特征的频率,选择频数大的特征;
②
递归消除法:反复构建模型,选出最好/最差的特征,将选出的特征放置后对剩余的特征进行筛选,直到所有特征遍历完毕;这个过程中选取特征的顺序就是特征的排序;
73.embedded嵌入法具体可以包括:
①
基于惩罚项筛选:选取带有正则化惩罚项的模型对特征进行筛选,比如逻辑回归中的l1正则化,会产生稀疏特征;
②
基于特征重要性的筛选:通过树类模型(随机森林、gbdt)输出的特征重要性指标对特征进行筛选。
74.在本实施例中,smote合成采样方法是根据少数类样本人工合成新样本添加到样本数据集的方法,其具体包括步骤110、步骤120 和步骤130。
75.其中,步骤110,从原始等离子体光谱信息数据集中随机选定对多个少数类样本,针对每一个少数类样本,通过欧氏距离计算出 k个近邻样本;
76.步骤120,根据样本不平衡比例设置采样倍率n;
77.步骤130,从k个近邻样本中随机选取若干样本,分别与原样本按照下述公式计算得到新样本:
78.新样本=近邻样本+(0到1间的随机数)*(原样本和近邻样本的距离)。
79.由此,可以使用smote算法对原始等离子体光谱信息数据集进行合成采样,扩充等离子体光谱信息样本数据集。
80.在本实施例中,通过特征工程方法和/或合成采样方法,对原始等离子体光谱信息数据集进行预处理,得到等离子体光谱信息样本数据集之后,采用交叉验证的方法,利用等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练,以及测试。
81.在本实施例中,可以采取五折交叉验证的方法,将数据样本划分为训练样本集和测试样本集,训练样本集和测试样本集的比例设置为4:1,训练样本集部分用来训练模型,测试样本集部分用来验证模型的训练效果,也就是说,将等离子体光谱信息样本数据集分成五份,将其中4份等离子体光谱信息样本数据集用来训练模型,1 份等离子体光谱信息样本数据集用来验证模型的训练效果。
82.优选地,还可以采取十折交叉验证,将数据样本划分为训练样本集和测试样本集,训练样本集和测试样本集的比例设置为9:1,可以有利于提升训练好的lgbm光谱识别模型的模型精度。
83.在本实施例中,通过采用特征工程方法和/或合成采样方法,对获取到的原始等离子体光谱信息数据集进行数据特征提取和样本数据集扩充等预处理,得到等离子体光谱信息样本数据集,并采用交叉验证的方法,利用等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练,可以有效加速lgbm模型训练的收敛速度,减弱异常值对lgbm模型的影响,提高算法鲁棒性,并可有效提高训练好的lgbm光谱识别模型的模型精度,从而有利于实现对等离子体光谱的精准识别与分类。
84.本发明提供的等离子体光谱识别方法,通过携带有真实光谱参数标签的等离子体光谱信息样本对lgbm模型进行训练,得到训练好的lgbm光谱识别模型,以将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,根据目标分类光谱参数对待识别等离子体光谱信息进行光谱波长特征分析,由此,通过采用机器学习lgbm算法自动学习等离子体光谱波长特征之间隐含的物理信息,实现对等离子体光谱的精准识别与分类,操作方便,可以极大地降低等离子体光谱诊断的技术成本。
85.在一些实施例中,在利用所述等离子体光谱信息样本数据集对 lgbm光谱识别模型进行训练之后,包括:
86.基于网格搜索方法,对lgbm光谱识别模型的参数进行优化,得到lgbm光谱识别模型的最佳参数。
87.具体地,本发明实施例所描述的最佳参数指的是可以用于表征 lgbm光谱识别模型训练效果最好的一组模型超参数。
88.需要说明的是,网格搜索方法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。即将各个可能的模型参数取值进行排列组合,列出所有可能的组合结果生成“网格”,然后将各组合用于模型训练,并使用交叉验证对模型表现进行评估,直至找到最佳参数组合。
89.在本实施例中,可以使用网格搜索方法对lgbm光谱识别模型进行参数优化,具体可以包括:调整决策树的最大深度max_depth、叶子可能具有的最小记录数min_data_in_leaf、每次迭代时用的数据比例bagging_fraction等参数,通过遍历各个可能的模型参数,获取 lgbm光谱识别模型的最佳参数。
90.在本实施例中,使用网格搜索方法对lgbm光谱识别模型的参数进行优化,优化的参数可以包括拟合参数、抽样参数、正则化参数和集成参数中的至少一项;
91.其中,拟合参数可以包括树的最大深度max_depth、节点分裂的最小增益min_gain_to_split、分支数目num_leaves以及叶子节点的最小样本数min_data_in_leaf;
92.抽样参数可以包括:样本抽样比例bagging_fraction、样本采样频率bagging_freq及每棵树的特征抽样比例feature_fraction;
93.正则化参数可以包括:损失函数中l2正则化的系数lambda_l2 和损失函数中l1正则化的系数(lambda_l1);
94.集成参数可以包括学习率learn_rate和基模型的最大数量 n_estimators,其中,可以通过优化学习率,减小每一棵树的权重,提高模型的鲁棒性。
95.可以理解的是,通过使用网格搜索方法对lgbm光谱识别模型的参数进行优化,可以确定lgbm光谱识别模型的最佳参数,包括最佳拟合参数、最佳抽样参数、最佳正则化参数和最佳集成参数。
96.更具体地,在本实施例中,对于lgbm光谱识别模型的参数优化,可以通过下述优化方法来加快模型的训练速度:
97.通过bagging_fraction和bagging_freq参数来确定样本采样频率,通过设置feature_fraction参数确定特征采样频率;减少max_depth,减少单棵树的深度;减少max_bin,控制特征分箱的数量。
98.在本实施例中,可以通过下述优化方法来加快模型的准确度,减少模型偏差:
99.使用较大的max_bin和num_leaves;使用较小的learning_rate。
100.在本实施例中,可以通过下述优化方法来加快模型的准确度,降低模型过拟合:
101.使用较小的特征值离散化的分箱数量max_bin和num_leaves;通过设置bagging_fraction和bagging_freq来使用bagging;通过设置 feature_fraction来使用特征子抽样;使用更多的训练数据;使用 lambda_l1,lambda_l2和最小分裂增益min_split_gain来使用正则;尝试max_depth来避免生成过深的树。
102.本发明实施例的方法,通过采用网格搜索方法,找到lgbm光谱识别模型的最佳参数,从而可以进一步提高lgbm模型训练的收敛速度,提高模型算法的鲁棒性,以及提高训练
好的lgbm光谱识别模型的模型精度。
103.在一些实施例中,采用交叉验证的方法,利用等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练,包括:
104.采取交叉验证的方法,从等离子体光谱信息样本数据集中得到训练样本集;
105.将训练样本集中的等离子体光谱信息样本和等离子体光谱信息样本携带的真实光谱参数标签作为一组训练样本,获取多组训练样本;
106.利用多组训练样本,对lgbm光谱识别模型进行训练。
107.具体地,通过采取五折交叉验证的方法或十折交叉验证的方法,将等离子体光谱信息样本数据集划分成训练样本集和测试样本集,将训练样本集中等离子体光谱信息样本和等离子体光谱信息样本携带的真实光谱参数标签作为一组训练样本,即将每个带有真实光谱参数标签的等离子体光谱信息样本作为一组训练样本,由此即可获得多组训练样本。
108.在本发明的实施例中,等离子体光谱信息样本与等离子体光谱信息样本携带的真实光谱参数标签是一一对应的。
109.然后,在获得多组训练样本之后,再将多组训练样本依次输入至lgbm光谱识别模型,即将每组训练样本中的待回复文本样本序列和真实回复文本序列标签同时输入至lgbm光谱识别模型,根据 lgbm光谱识别模型的每一次输出结果,通过计算损失函数值,对 lgbm光谱识别模型中的模型参数进行调整,最终完成lgbm光谱识别模型的训练过程。
110.通过本发明实施例的方法,将训练样本集中的等离子体光谱信息样本和等离子体光谱信息样本携带的真实光谱参数标签作为一组训练样本,获取多组训练样本,利用多组训练样本,有效地对 lgbm光谱识别模型进行模型训练。
111.在一些实施例中,利用多组训练样本,对lgbm光谱识别模型进行训练,包括:
112.对于任意一组训练样本,将训练样本输入lgbm光谱识别模型,输出训练样本对应的预测概率;预测概率用于确定训练样本的分类结果;
113.利用预设损失函数,根据训练样本对应的预测概率和训练样本中的真实光谱参数标签计算损失值;
114.若损失值小于预设阈值,则lgbm光谱识别模型训练完成。
115.具体地,本发明实施例所描述的预设损失函数指的是预先设置在lgbm光谱识别模型里的损失函数,用于模型评估。
116.本发明实施例所描述的预设阈值指的是模型预先设置的阈值,用于获得最小损失值,完成模型训练。
117.在获得多组训练样本之后,对于任意一个训练样本,将该训练样本中的等离子体光谱信息样本和等离子体光谱信息样本携带的真实光谱参数标签同时输入至lgbm光谱识别模型,输出该训练样本对应的预测概率,其中预测概率指的是该训练样本针对不同光谱参数对应的预测概率,可以确定训练样本的分类结果。
118.在此基础上,利用预设损失函数根据训练样本对应的预测概率和训练样本中的真实光谱参数标签计算损失值。其中,真实光谱参数标签可以表示为one-hot向量,预设损失函数可以为平方损失函数。
119.在本发明的实施例中,真实光谱参数标签的表示方式和预设损失函数可以根据实际需求进行设置,此处不做具体限定。
120.在计算获得损失值之后,本次训练过程结束,更新lgbm光谱识别模型中的模型参数之后,再进行下一次训练。在训练的过程中,若针对某个训练样本计算获得的损失值小于预设阈值或者达到预设最大迭代次数,则lgbm光谱识别模型训练完成。
121.本发明实施例的方法,通过对lgbm光谱识别模型进行训练,将lgbm光谱识别模型的损失值控制在预设范围内,从而有利于提高lgbm光谱识别模型识别等离子体光谱对应的光谱参数类别的精度。
122.在本实施例中,在完成对lgbm光谱识别模型的训练之后,使用精准率、召回率、f1分数对训练好的lgbm光谱识别模型进行评估。其中,准确度、精准率、召回率以及f1分数的计算公式分别如下:
123.准确度=(tp+tn)/(p+n);
124.精准率=tp/(tp+fp);
125.召回率=tp/(tp+fn);
126.f1分数=2*精准率*召回率/(精准率+召回率);
127.其中,t代表分类正确的样本数量,f代表分类错误的样本数量, p代表正样本的样本数量,n代表负样本的样本数量;tp代表样本为正,预测结果为正的个数,fp代表样本为负,预测结果为正的个数,tn代表样本为负,预测结果为负的个数,fn代表样本为正,预测结果为负的个数。
128.可以理解的是,在模型的训练过程中,往往会需求更加优异的模型性能指标如准确率、召回率等,但在实际生产中,随着模型上线使用产生衰减,又需要快速定位问题进行修复,因此,了解模型如何运作、哪些特征起到了关键作用有着重要意义。在本发明的实施例中,尝试从变量重要性,结合shap值去进行解释。
129.其中,shap是shapley additive explanations的缩写,即沙普利加和解释,对于每个样本模型都产生一个预测值,shap value就是该样本中每个特征所分配到的数值。
130.在本发明的实施例中,根据lgbm光谱识别模型的训练及识别效果,结合模型本身输出的特征重要性(feature importance)及特征 shap值(shap value),计算在多个特征波长中某个特征波长的贡献来确定该特征波长的重要程度,对等离子体光谱波长特征进行相关性和特征重要性分析,找出影响模型的显著变量,并进行可视化输出。
131.在本实施例中,基于树的集成模型特征的重要性是在所有单颗树上该特征重要性的一个平均值,而单颗树上特征重要性计算方法为:根据该特征进行分裂后平方损失的减少量的求和;
132.shap值的计算方法是计算特征组合中包含某个特征的收益,减去该组合不包含这个特征时的收益,即可得到该特征在这种组合中的贡献度;再计算所有组合,加权平均,得到该特征的整体贡献度。
133.根据上述featrue importance和shap值输出的重要特征,对选中的特征进行相关性分析。
134.图2是本发明提供的等离子体光谱识别方法输出的特征重要性示意图,如图2所示,横坐标表示特征重要性,即特征波长的重要程度;纵坐标表示多个特征波长,可以理解的是,特征波长为 449.31nm时,其特征重要性的权重值最大,为45,也就是说,本实施例中,等离子体光谱中449.31nm的特征波长相较于特征波长482.97nm、480.87nm、518.54nm等,对
完成lgbm光谱识别模型训练的贡献程度是最大的,属于重要特征。
135.图3是本发明提供的等离子体光谱识别方法的模型训练及测试的流程示意图,如图3所示,本发明实施例中的等离子体光谱识别方法的模型训练及测试包括以下步骤:
136.步骤s310,通过放电实验获取原始等离子体光谱数据,即通过射频等离子体放电实验产生复杂等离子体,使用光纤光谱仪采集原始等离子体光谱信息样本;
137.步骤s320,清洗原始数据,构造数据集并存储为csv格式,即将每个原始等离子体光谱信息样本都存储为txt文件,使用python 语言及numpy、pandas数据分析库,将采集到的等离子体光谱信息样本数据读取为dataframe数据结构,并存储为csv文件格式的数据,由此获取原始等离子体光谱信息数据集;
138.步骤s330,采用特征工程方法和合成采样方法,构造等离子体光谱信息样本数据集,即采用特征工程方法和/或合成采样方法,对原始等离子体光谱信息数据集进行预处理,得到等离子体光谱信息样本数据集;
139.步骤s340,通过交叉验证训练lgbm模型,并测试算法性能,即采用交叉验证的方法,利用等离子体光谱信息样本数据集对 lgbm光谱识别模型进行训练和测试,得到训练好的lgbm光谱识别模型;
140.之后,分为两支并行处理步骤,即一支为步骤s3501和步骤 s3601,另一支为步骤s3502和步骤s3602;
141.其中,步骤s3501,使用网格搜索方法对lgbm光谱识别模型的参数进行优化,即基于网格搜索方法,对lgbm光谱识别模型的参数进行优化,得到lgbm光谱识别模型的最佳参数;
142.步骤s3601,使用准确度、精确率、召回率和f1分数评估训练好的lgbm光谱识别模型;
143.步骤s3502,输出模型feature importance和shap值,选取重要特征;
144.步骤s3602,将选取的重要特征和峰值特征进行对比,验证相关性。
145.与现有技术相比,本发明提供的等离子体光谱识别方法带来的有益效果有:
146.本发明使用lgbm机器学习模型对射频放电生成的复杂等离子体辉光光谱进行识别诊断,并使用了多组特征工程方法以及合成采样方法提高模型的识别性能。
147.本发明基于lgbm模型的识别结果对等离子体辉光光谱进行了光谱波长特征分析,相对于传统的光谱分析关注的光波峰值特征,提出了基于lgbm机器学习模型的光谱波长特征重要性分析,及选取重要特征后的相关性分析方法。
148.本发明提供的等离子体光谱识别方法,可应用于等离子体辉光光谱的识别,在模型的识别精度、训练速度,算法稳定性等方面有良好的表现,能够适用于等离子体辉光光谱的识别的工作中。
149.下面对本发明提供的等离子体光谱识别装置进行描述,下文描述的等离子体光谱识别装置与上文描述的等离子体光谱识别方法可相互对应参照。
150.图4是本发明提供的等离子体光谱识别装置的结构示意图,如图4所示,包括:
151.识别模块410,用于将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,以根据目标分类光谱参数,对待识别等离子体光谱信息进行光谱波长特征分析;
152.其中,训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。
153.本实施例所述的等离子体光谱识别装置可以用于执行上述等离子体光谱识别方法实施例,其原理和技术效果类似,此处不再赘述。
154.本发明提供的等离子体光谱识别装置,通过携带有真实光谱参数标签的等离子体光谱信息样本对lgbm模型进行训练,得到训练好的lgbm光谱识别模型,以将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,根据目标分类光谱参数对待识别等离子体光谱信息进行光谱波长特征分析,由此,通过采用机器学习lgbm算法自动学习等离子体光谱波长特征之间隐含的物理信息,实现对等离子体光谱的精准识别与分类,操作方便,可以极大地降低等离子体光谱诊断的技术成本。
155.图5是本发明提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口 (communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行上述各方法所提供的等离子体光谱识别方法,该方法包括:将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,以根据目标分类光谱参数,对待识别等离子体光谱信息进行光谱波长特征分析;其中,训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。
156.此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,randomaccess memory)、磁碟或者光盘等各种可以存储程序代码的介质。
157.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的等离子体光谱识别方法,该方法包括:将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,以根据目标分类光谱参数,对待识别等离子体光谱信息进行光谱波长特征分析;其中,训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。
158.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的等离子体光谱识别方法,该方法包括:将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到待识别等离子体光谱信息对应的目标分类光谱参数,以根据目标分类光谱参数,对待识别等离子体光谱信息进行光谱波长特征分析;其中,训练好的lgbm光谱识别模型是根据携带有真实
光谱参数标签的等离子体光谱信息样本进行训练得到的。
159.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
160.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
161.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种等离子体光谱识别方法,其特征在于,包括:将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到所述待识别等离子体光谱信息对应的目标分类光谱参数,以根据所述目标分类光谱参数,对所述待识别等离子体光谱信息进行光谱波长特征分析;其中,所述训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。2.根据权利要求1所述的等离子体光谱识别方法,其特征在于,在所述将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型之前,还包括:获取原始等离子体光谱信息数据集;采用特征工程方法和/或合成采样方法,对所述原始等离子体光谱信息数据集进行预处理,得到等离子体光谱信息样本数据集;采用交叉验证的方法,利用所述等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练。3.根据权利要求1所述的等离子体光谱识别方法,其特征在于,所述等离子体光谱信息样本包括2048组特征波长,所述特征波长的波长范围为366.19nm至1051.14nm。4.根据权利要求2所述的等离子体光谱识别方法,其特征在于,所述利用所述等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练之后,包括:基于网格搜索方法,对lgbm光谱识别模型的参数进行优化,得到所述lgbm光谱识别模型的最佳参数。5.根据权利要求2所述的等离子体光谱识别方法,其特征在于,所述采用交叉验证的方法,利用所述等离子体光谱信息样本数据集对lgbm光谱识别模型进行训练,包括:采取交叉验证的方法,从所述等离子体光谱信息样本数据集中得到训练样本集;将所述训练样本集中的等离子体光谱信息样本和所述等离子体光谱信息样本携带的真实光谱参数标签作为一组训练样本,获取多组训练样本;利用所述多组训练样本,对lgbm光谱识别模型进行训练。6.根据权利要求5所述的等离子体光谱识别方法,其特征在于,所述利用所述多组训练样本,对lgbm光谱识别模型进行训练,包括:对于任意一组训练样本,将所述训练样本输入lgbm光谱识别模型,输出所述训练样本对应的预测概率;所述预测概率用于确定所述训练样本的分类结果;利用预设损失函数,根据所述训练样本对应的预测概率和所述训练样本中的真实光谱参数标签计算损失值;若所述损失值小于预设阈值,则所述lgbm光谱识别模型训练完成。7.一种等离子体光谱识别装置,其特征在于,包括:识别模块,用于将待识别等离子体光谱信息输入到训练好的lgbm光谱识别模型,得到所述待识别等离子体光谱信息对应的目标分类光谱参数,以根据所述目标分类光谱参数,对所述待识别等离子体光谱信息进行光谱波长特征分析;其中,所述训练好的lgbm光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述等离子体光谱识别方法。9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述等离子体光谱识别方法。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述等离子体光谱识别方法。
技术总结
本发明提供一种等离子体光谱识别方法、装置、电子设备及存储介质,包括:将待识别等离子体光谱信息输入到训练好的LGBM光谱识别模型,得到所述待识别等离子体光谱信息对应的目标分类光谱参数,以根据所述目标分类光谱参数,对所述待识别等离子体光谱信息进行光谱波长特征分析;其中,所述训练好的LGBM光谱识别模型是根据携带有真实光谱参数标签的等离子体光谱信息样本进行训练得到的。本发明的方法,通过采用机器学习LGBM算法自动学习等离子体光谱波长特征之间隐含的物理信息,实现对等离子体光谱的精准识别与分类,操作方便,可以极大地降低等离子体光谱诊断的技术成本。大地降低等离子体光谱诊断的技术成本。大地降低等离子体光谱诊断的技术成本。
技术研发人员:黄峰 史冠男 李宝霞 郭俊伟 唐小江
受保护的技术使用者:中国农业大学
技术研发日:2022.03.22
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
