一种光谱样本加权方法及系统与流程

未命名 10-14 阅读:83 评论:0


1.本发明属于光谱预测技术领域,尤其涉及一种光谱样本加权方法及系统。


背景技术:

2.现有的使用加权提高光谱数据回归预测性能的方法主要从光谱数据的两个维度出发:一种是从波长维度出发,通过算法筛选出特征波长,筛选特征波长可以帮助我们减少冗余信息,提高模型的准确性。根据筛选出光谱变量的分布特征,分为波长筛选和波段(波长区间)筛选。波长选择以波长点为单位,波段选择是选取一段或者几段连续的波长。然而,特征波长的选择可能是主观的,缺乏普适性。不同的算法和数据集可能选择不同的特征波长,导致结果的不一致性。波长筛选和波段筛选可能会忽略非选定范围内的重要信息,造成信息损失。另外,波段选择需要确定波长区间,但在实际应用中,波长区间的选择可能是困难的,并且可能存在重叠或冗余。
3.第二种是从样本的维度出发,通过待测样本与训练集的距离可以使用局部样本加权训练或者全局增加权重,改变预测样本附近的一些样本权重得到的模型就比较适合样本数据。局部样本加权训练容易受到训练集中离群值或噪声的影响,导致过拟合。对于全局建模方式,预测结果可能受到整个数据集中样本的平均性质,无法充分考虑不同样本之间的差异。


技术实现要素:

4.有鉴于此,本发明提供一种光谱样本加权方法及系统,从样本维度出发,选择训练集中与待测样本距离更近的部分作为加权对象,并根据各自权重进行加权,适配于各种光谱回归预测算法。
5.为解决以上技术问题,本发明的技术方案为采用一种光谱样本加权方法,包括:对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲;获取训练集中影响预测结果所需要增加的总的样本数量l

;计算待测光谱样本与训练集中每个训练光谱样本的距离d,在训练集中选择与待测光谱样本距离较近的部分训练光谱样本作为加权对象;根据待测光谱样本与训练集中每个训练光谱样本的距离d计算加权对象的权重,并根据权重以及样本数量l

计算每个加权对象需要复制的数量;将相应数量的加权对象加入训练集进行建模。
6.作为一种改进,所述对待测光谱样本以及训练集中训练光谱样本进行预处理的方法包括:将待测光谱样本的光谱数据以及训练光谱样本的光谱数据和理化值进行归一化。
7.作为一种进一步的改进,所述获取训练集中影响预测结果所需要增加的总的样本
数量l

的方法包括:取样步骤,将训练集中的n个训练光谱样本中的一个作为测试样本,其余n-1个作为建模样本进行建模获得模型m

;基准值计算步骤,将测试样本输入模型m

中获得预测结果t1,并利用预测结果t1计算基准值s;迭代步骤,将测试样本逐次复制1~l份分别加入建模样本中进行建模获得模型m1~m
l
,将测试样本输入模型m1~m
l
中获得预测值直到获得的预测值在基准值s与测试样本的测量值y之间为止,记录迭代次数l;重复取样步骤、基准值计算步骤和迭代步骤,直到训练集中每个训练样本均作为测试样本为止,将获得的n个迭代次数l的平均值作为需要增加的总的样本数量l


8.作为另一种更进一步的改进,所述利用预测结果t1计算基准值s的方法为:利用公式s=t1+β*(y-t1)计算基准值,其中s为基准值,t1为预测结果,y为测量值,β为权重系数且β∈(0,1)。
9.作为一种改进,所述计算待测光谱样本与训练集中每个训练光谱样本的距离的方法包括:利用偏最小二乘建模获得模型m

,并将待测光谱样本输入模型m

预测待测光谱样本的理化值;利用公式d=α1*d
x
/d
xmax
+α2*dy/d
ymax
计算待测光谱样本与训练光谱样本的距离,其中d为待测光谱样本与训练光谱样本的距离,d
x
为待测光谱样本与训练光谱样本光谱数据的欧式距离,dy为待测光谱样本与训练光谱样本理化值的欧氏距离,d
xmax
为所有训练光谱样本中与待测光谱样本光谱数据的最大欧式距离,d
ymax
为所有训练光谱样本中与待测光谱样本理化值的最大欧式距离,α1和α2均为权重系数且均∈(0,1),α1+α2=1并且α
1>
α2。 作为一种改进, 加权对象的权重计算方法为:利用公式计算加权对象的权重,其中rk为第k个加权对象的权重,dk为第k个加权对象的距离,d1~dn为第1~n个加权对象的距离。
10.作为一种改进,所述根据权重以及样本数量l

计算每个加权对象需要复制的数量的方法为:利用公式q
k=rk*
l

计算加权对象需要复制的数量,其中qk为第k个加权对象需要复制的数量,rk为第k个加权对象的权重,l

为所需要增加的总的样本数量。
11.本发明还提供一种光谱样本加权系统,包括:预处理模块,用于对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲;总增加样本数量计算模块,用于获取训练集中影响预测结果所需要增加的总的样本数量l

;加权对象确定模块,用于计算待测光谱样本与训练集中每个训练光谱样本的距离d,在训练集中选择与待测光谱样本距离较近的部分训练光谱样本作为加权对象;复制数量计算模块,用于根据待测光谱样本与训练集中每个训练光谱样本的距离d计算加权对象的权重,并根据权重以及样本数量l

计算每个加权对象需要复制的数量。
12.本发明还提供一种存储介质,所述存储介质内存储有计算机程序,当所述计算机
程序被执行时,可实现上述的光谱样本加权方法。
13.本发明还提供一种计算机系统,包括处理器和存储器,所述存储器内存储有计算机程序,当所述计算机程序被处理器执行时,可实现上述的光谱样本加权方法。
14.本发明的有益之处在于:本发明从样本维度出发,通过待测光谱样本与训练集中的训练光谱样本的距离,在训练集中找到待测光谱样本附近样本。根据距离的远近和训练集数量增加训练集中这些附近样本的数量达到加权的目的。本发明可以使用全局的训练集,而只对附件的样本进行加权,并且本发明提供的加权方式只修改建模集本身,所以可以适配各种光谱回归预测算法。另外本发明可以更为灵活的加权训练集的某个区域,同时使用了整个训练集样本建模,提高精度的同时不会降低泛用性。
附图说明
15.图1为本发明的流程图。
16.图2为本发明的结构示意图。
实施方式
17.为了使本领域的技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明作进一步的详细说明。
18.如图1所示,本发明提供一种光谱样本加权方法。本发明中所谓的样本加权,是对光谱数据回归预测中使用的算法进行样本权重的处理。这里的样本权重是针对样本对模型预测结果的重要性进行调整,从而提高模型的预测性能。
19.本发明具体包括以下步骤:s1对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲。
20.本发明中,理化值指的是样本的物理或化学性质的数值测量结果,也可以称为样本的标签或真实值。在光谱数据回归问题中,我们常常使用光谱数据作为自变量,来预测物理或化学性质的变量,比如含量、浓度或量比等,这些就是理化值。例如,在食品分析中,我们可以使用光谱数据预测样品中某种成分的含量,该含量就是理化值。在建立预测模型时,通常需要使用一部分样本的光谱和其对应的理化值来训练模型,然后使用其他样本的光谱来验证模型的预测性能。
21.具体地,本发明中将所有光谱样本处于相同的量纲的方法为将待测光谱样本的光谱数据以及训练光谱样本的光谱数据和理化值进行归一化。
22.训练集中的训练光谱样本包括光谱数据和其对应的理化值,该理化值为实际测量获得,可以理解为真实的理化值。而待测光谱样本仅包含光谱数据,其理化值需要利用训练集建模来预测。
23.归一化是一种数学处理方法,用于将数据转换为一个标准范围内。本发明中是用来消除光谱数据中不同维度的量纲,因为后续步骤计算距离时候需要计算每个维度的距离,如果维度之间相差过大,对最后计算的总距离影响会不同,比如说一个样本是(0.1,310)第二个样本是(0.3,320),这两个样本第一个维度是0.1、0.3中间只相差0.2.第二个维
度是310和320,中间相差10。
24.如果我们把这两个维度都归一化在[0,1]之间,每个维度差距都会差不多,对最后距离的计算影响都差不多。极大极小值归一化,也称为最大最小归一化,是一种常用的数据标准化方法。它通过利用数据列中的最大值和最小值进行标准化处理,将数据转换到一个标准范围内,通常是 [0,1]之间。具体计算方式为数据与该列的最小值作差,再除以极差。具体公式为:x=(x-min)/(max-min),其中 x

表示单个数据的取值,min是数据所在列的最小值,max是数据所在列的最大值。
[0025]
通过归一化处理后,样本的光谱数据以及理化值都在同一量纲上,其对后续预测的影响也在同一水平,保证了预测的精确性。
[0026]
s2获取训练集中影响预测结果所需要增加的总的样本数量l


[0027]
所谓样本加权通俗点说就扩大样本增加某些样本的数量。因此具体哪些样本需要增加,增加的数量是多少是本发明需要解决的问题。而本步骤的目的正是在于确定增加样本的总数量,其具体又包括。
[0028]
s21取样步骤,将训练集中的n个训练光谱样本中的一个作为测试样本,其余n-1个作为建模样本进行建模获得模型m


[0029]
例如训练集中共100个训练光谱样本,将1号样本作为测试样本,剩余的2~100号样本作为建模样本进行建模获得模型。
[0030]
s22基准值计算步骤,将测试样本输入模型m

中获得预测结果t1,并利用预测结果t1计算基准值s。
[0031]
基准值s的计算方法为利用公式s=t1+β*(y-t1)计算基准值,其中s为基准值,t1为预测结果,y为测量值(该理化值为测量结果即真实值,而并非预测结果),β为权重系数且β∈(0,1)。
[0032]
β值根据经验进行调整,例如取值0.9。通过上述公式计算出一个基准值,位于基准值s和测量值y之间的预测结果被认为是可接受的。
[0033]
s23迭代步骤,将测试样本逐次复制1~l份分别加入建模样本中进行建模获得模型m1~m
l
,将测试样本输入模型m1~m
l
中获得预测值直到获得的预测值在基准值s与测试样本的测量值y之间为止,记录迭代次数l。
[0034]
例如第一次将作为测试样本的1号样本复制1份加入建模样本进行建模获得模型m1,然后将测试样本输入模型m1中获得预测结果k1。然后看k1是否落入基准值s和测量值y形成的区间。若不在,则将作为测试样本的1号样本复制2份加入建模样本进行建模获得模型m2,然后将测试样本输入模型m2中获得预测结果k2……
以此类推,直到第l次,将1号样本复制l份加入建模样本进行建模获得模型m
l
,然后将测试样本输入模型m
l
中获得预测结果k
l
,而预测结果k
l
落入了基准值s和测量值y形成的区间位置。此时将迭代次数l记录下来标注为l1。
[0035]
s24重复s21取样步骤、s22基准值计算步骤和s23迭代步骤,直到训练集中每个训练样本均作为测试样本为止,将获得的n个迭代次数l的平均值作为需要增加的总的样本数量l


[0036]
承接上方例子,1号样本迭代完毕获得迭代次数l1后,将2号样本作为测试样本重复步骤s21~23获得迭代次数l2,直到100号样本作为测试样本获得迭代次数l
100
。再将获得
的迭代次数l1~l
100
的平均值作为需要增加的总的样本数量l

s3计算待测光谱样本与训练集中每个训练光谱样本的距离d,在训练集中选择与待测光谱样本距离较近的部分训练光谱样本作为加权对象。
[0037]
步骤s2计算出了需要增加的总的样本数量,而本步骤的目的在于确定训练集中哪些训练光谱样本作为加权对象即哪些样本需要增加。
[0038]
具体地,本步骤计算待测光谱样本与训练集中每个训练光谱样本的距离的方法包括:s31利用偏最小二乘建模获得模型m

,并将待测光谱样本输入模型m

预测待测光谱样本的理化值;s32利用公式d=α1*d
x
/d
xmax
+α2*dy/d
ymax
计算待测光谱样本与训练光谱样本的距离,其中d为待测光谱样本与训练光谱样本的距离,d
x
为待测光谱样本与训练光谱样本光谱数据的欧式距离,dy为待测光谱样本与训练光谱样本理化值的欧氏距离,d
xmax
为所有训练光谱样本中与待测光谱样本光谱数据的最大欧式距离,d
ymax
为所有训练光谱样本中与待测光谱样本理化值的最大欧式距离,α1和α2均为权重系数且均∈(0,1),α1+α2=1并且α
1>
α2。
[0039]
由于光谱数据均为真实值,因此dx可信度更高需要拥有更高的权重,而待测光谱样本的理化值是通过模型m

预测获得的,因此可信度较低。所以此处权重系数α
1>
α2,例如α1=0.8而α2=0.2。
[0040]
再计算出每个训练光谱样本与待测光谱样本的距离后,可选择与待测光谱样本距离较近的部分训练光谱样本作为加权对象。具体地,可将训练光谱样本按照距离的升序进行排列,然后取头部的1/4作为加权对象。
[0041]
在实际应用中,光谱样本的来源可能会有些许不同。例如在利用近红外进行酒窖理化值预测时,训练集中的训练光谱样本有可能在某些特殊属性如温度、原料等上具有一定差异。而酒窖预测中上述特殊属性对最后获取的理化值影响较大。在该应用场景下,也可以根据光谱样本的特殊属性在训练集中选择相同属性的样本作为加权对象,而无需选择距离排序头部的部分样本。
[0042]
当然,对于其他方面的实际应用,也可以根据上述方式选择加权对象。
[0043]
s4根据待测光谱样本与训练集中每个训练光谱样本的距离d计算加权对象的权重,并根据权重以及样本数量l

计算每个加权对象需要复制的数量。
[0044]
再确定好加权对象后,本步骤的目的在于计算出每个加权对象具体需要增加的数量,即通过每个加权对象的权重来确定其需要增加的数量,权重越高,增加的数量就越多。
[0045]
具体地,加权对象的权重计算方法为:利用公式计算加权对象的权重,其中rk为第k个加权对象的权重,dk为第k个加权对象的距离,d1~dn为第1~n个加权对象的距离。
[0046]
例如,计算出第k个加权对象的权重rk=0.03。那么将权重与需要增加样本的总数量l

相乘即可得出加权对象k需要增加的数量。具体地,利用公式q
k=rk*
l

计算加权对象需要复制的数量,其中qk为第k个加权对象需要复
制的数量,rk为第k个加权对象的权重,l

为所需要增加的总的样本数量。
[0047]
s5将相应数量的加权对象加入训练集进行建模。
[0048]
计算出每个加权对象需要增加的数量后,只需要将该加权对象复制相应的数量添加到训练集中即可,然后通过训练集进行建模对待测光谱样本进行预测即可。这样即完成了1个待测光谱样本的预测。新的待测样本样本出现后重复本发明步骤s1~s5即可。
[0049]
如图2所述,本发明还提供一种光谱样本加权系统,包括:预处理模块,用于对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲;总增加样本数量计算模块,用于获取训练集中所需要增加的总的样本数量l

;加权对象确定模块,用于计算待测光谱样本与训练集中每个训练光谱样本的距离d,在训练集中选择与待测光谱样本距离较近的部分训练光谱样本作为加权对象;复制数量计算模块,用于根据待测光谱样本与训练集中每个训练光谱样本的距离d计算加权对象的权重,并根据权重以及样本数量l

计算每个加权对象需要复制的数量。
[0050]
本发明还提供一种存储介质,所述存储介质内存储有计算机程序,当所述计算机程序被执行时,可实现上述的光谱样本加权方法。
[0051]
本发明还提供一种计算机系统,包括处理器和存储器,所述存储器内存储有计算机程序,当所述计算机程序被处理器执行时,可实现上述的光谱样本加权方法。
[0052]
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种光谱样本加权方法,其特征在于,包括:对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲;确定训练集中所需要增加的总的样本数量l

;计算待测光谱样本与训练集中每个训练光谱样本的距离d,在训练集中选择与待测光谱样本距离最近的10%~60%训练光谱样本作为加权对象;根据待测光谱样本与训练集中每个训练光谱样本的距离d计算加权对象的权重,并根据权重以及样本数量l

计算每个加权对象需要复制的数量;将相应数量的加权对象加入训练集进行建模。2.根据权利要求1所述的一种光谱样本加权方法,其特征在于,所述对待测光谱样本以及训练集中训练光谱样本进行预处理的方法包括:将待测光谱样本的光谱数据以及训练光谱样本的光谱数据和理化值进行归一化。3.根据权利要求1所述的一种光谱样本加权方法,其特征在于,确定训练集中所需要增加的总的样本数量l

的方法包括:取样步骤,将训练集中的n个训练光谱样本中的一个作为测试样本,其余n-1个作为建模样本进行建模获得模型m

;基准值计算步骤,将测试样本输入模型m

中获得预测结果t1,并利用预测结果t1计算基准值s;迭代步骤,将测试样本逐次复制1~l份分别加入建模样本中进行建模获得模型m1~m
l
,将测试样本输入模型m1~m
l
中获得预测值直到获得的预测值在基准值s与测试样本的测量值y之间为止,记录迭代次数l;重复取样步骤、基准值计算步骤和迭代步骤,直到训练集中每个训练样本均作为测试样本为止,将获得的n个迭代次数l的平均值作为需要增加的总的样本数量l

。4.根据权利要求3所述的一种光谱样本加权方法,其特征在于,所述利用预测结果t1计算基准值s的方法为:利用公式s=t1+β*(y-t1)计算基准值,其中s为基准值,t1为预测结果,y为测量值,β为权重系数且β∈(0,1)。5.根据权利要求1所述的一种光谱样本加权方法,其特征在于,所述计算待测光谱样本与训练集中每个训练光谱样本的距离的方法包括:利用偏最小二乘建模获得模型m

,并将待测光谱样本输入模型m

预测待测光谱样本的理化值;利用公式d=α1*d
x
/d
xmax
+α2*d
y
/d
ymax
计算待测光谱样本与训练光谱样本的距离,其中d为待测光谱样本与训练光谱样本的距离,d
x
为待测光谱样本与训练光谱样本光谱数据的欧式距离,d
y
为待测光谱样本与训练光谱样本理化值的欧氏距离,d
xmax
为所有训练光谱样本中与待测光谱样本光谱数据的最大欧式距离,d
ymax
为所有训练光谱样本中与待测光谱样本理化值的最大欧式距离,α1和α2均为权重系数且均∈(0,1),α1+α2=1并且α
1>
α2。
6.根据权利要求1所述的一种光谱样本加权方法,其特征在于,加权对象的权重计算方法为:利用公式计算加权对象的权重,其中r
k
为第k个加权对象的权重,d
k
为第k个加权对象的距离,d1~d
n
为第1~n个加权对象的距离。7.根据权利要求1所述的一种光谱样本加权方法,其特征在于,所述根据权重以及样本数量l

计算每个加权对象需要复制的数量的方法为:利用公式q
k=
r
k*
l

计算加权对象需要复制的数量,其中q
k
为第k个加权对象需要复制的数量,r
k
为第k个加权对象的权重,l

为所需要增加的总的样本数量。8.一种光谱样本加权系统,其特征在于包括:预处理模块,用于对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲;总增加样本数量计算模块,用于获取训练集中所需要增加的总的样本数量l

;加权对象确定模块,用于计算待测光谱样本与训练集中每个训练光谱样本的距离d,在训练集中选择与待测光谱样本距离最近的10%~60%训练光谱样本作为加权对象;复制数量计算模块,用于根据待测光谱样本与训练集中每个训练光谱样本的距离d计算加权对象的权重,并根据权重以及样本数量l

计算每个加权对象需要复制的数量。9.一种存储介质,其特征在于,所述存储介质内存储有计算机程序,当所述计算机程序被执行时,可实现权利要求1~7中任意一项所述的光谱样本加权方法。10.一种计算机系统,包括处理器和存储器,所述存储器内存储有计算机程序,当所述计算机程序被处理器执行时,可实现权利要求1~7中任意一项所述的光谱样本加权方法。

技术总结
本发明公开了一种光谱样本加权方法及系统,属于人工智能模型技术领域。该方法包括:对待测光谱样本以及训练集中训练光谱样本进行预处理,使得所有光谱样本处于相同的量纲;确定训练集中所需要增加的总的样本数量L


技术研发人员:耿东晛 韩裕 邱瑞雪 罗兵 余振芳 郭明亮
受保护的技术使用者:四川省分析测试服务中心
技术研发日:2023.08.29
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐