一种基于PCA的冗余变量筛选改进方法及装置与流程
未命名
07-13
阅读:124
评论:0
一种基于pca的冗余变量筛选改进方法及装置
技术领域
1.本发明涉及数据挖掘的技术领域,尤其涉及一种基于pca的冗余变量筛选改进方法及装置。
背景技术:
2.近年来,随着信息技术的不断发展,数据信息的爆炸性增长令数据复杂度越来越高,以及各种数据类型的增加,从而导致“维度灾难”。传统数据挖掘技术在处理高维数据时面临巨大挑战,在资源和时间方面要求越来越高。而对特征数据进行降维操作不仅能降低数据的维度,还能提高算法的性能。数据降维的方法主要分为特征变换方法与特征选择方法。
3.数据降维算法在地理、医学、仿真等领域有着广泛的应用,而特征选择算法一直是国内外研究人员大量研究的主题。特征选择方法是通过特征选择算法从原始特征集中选择出评估标准最佳的特征子集,以便帮助研究人员把任务更好地进行分类与回归,提高数据分类的精确度和效率。任家东等过计算特征的皮尔逊相关系数来判断特征的强弱关系,确定最优的阈值进行特征提取后在k近邻、决策树、随机森林等模型进行分类实验评估取得了较好的效果。陈亮等将正余弦函数的连续优化转换为特征选择的二进制优化,实现个体位置与特征子集间的映射关系,有效选择了最优特征子集并降低特征维度,提高了数据分类准确率。但其算法迭代次数过多并未接近最优解。苏卫星等引入基于相关性的特征选择(cfs)来获取最优特征子集,进而实现数据降维,并选用偏最小二乘回归法(plsr)作为建模的核心算法,有效地解决了变量间多重相关性带来的危害。李静星等通过最大信息系数衡量标准对特征的相关度和冗余性进行分析得到类属性的马尔科夫毯代表集和次最优特征子集,可以在测试阶段提高分类精度且起到显著的降维效果。李欣倩等使用互信息方法剔除不相关的特征,通过粒子群算法得到聚类簇的数量,最后将每个聚类簇中与类别互信息最高的特征合并为特征子集,可以有效减少特征之间的相关性,提升算法的分类性能。汪力纯等通过smote算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对smote算法进行改进,在处理高维不平衡数据方面各评价指标更高。但是算法的整体运行时间与其他算法相比没有显著优势。许召召等使用信息增益比计算每个特征的信息增益比值,根据特征的信息密度进行密度等分,最后,使用分组进化遗传算法对密度等分的特征组进行搜索在uci医学数据集上取得了不错的效果。但在高维小样本数据中的效果并不理想。解决此类问题有多种方法,如基于主成分分析pca(principal component analysis)的冗余变量筛选算法,但该算法在选择关键变量的环节也需要人为干预,需要经验丰富的技术人员进行挑选,存在一定的随机性,导致该算法在后续机器学习模型训练阶段存在预测精度不稳定的问题。
技术实现要素:
4.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施
例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
5.鉴于上述现有存在的问题,提出了本发明。
6.因此,本发明提供了一种基于pca的冗余变量筛选改进方法及装置解决现有的特征选择算法存在专家经验挑选关键变量导致机器学习模型预测精度低的问题。
7.为解决上述技术问题,本发明提供如下技术方案:
8.第一方面,本发明实施例提供了一种基于pca的冗余变量筛选改进方法,包括:
9.采集气体流量计特征历史工作数据,对所述历史工作数据进行预处理;
10.对所述预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;
11.基于所述关键变量筛选指标q1、q2计算第三关键变量筛选指标qf,并根据所述第三关键变量筛选指标qf完成特征选择得到筛选后的关键变量;
12.将所述关键变量输入机器学习分类算法中进行测试得到实际预测效果。
13.作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:所述采集的气体流量计特征包括:流量计温度,流量计压力;
14.所述预处理包括:通过数据标准化方法对数据进行预处理;所述数据为采集的公开数据集。
15.作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:对所述预处理后的数据进行变量聚类,包括:
16.基于每一个类提取一个主成分pz,计算每个类classz里的每个变量xi和所述类主成分pz的皮尔逊相关系数;
17.当皮尔逊相关系数值最大时,所述变量xi在其所在的classz组内最有代表性,则选取最大值时对应的变量;
18.同时计算每个类classz里的每个变量xi和其他类主成分pz的皮尔逊相关系数,当皮尔逊相关系数值最小时,所述变量xi和其他类主成分pz相关性最弱,所述变量xi在其所在的classz组内最有代表性,则选取最小值时对应的变量。
19.作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:计算第一关键变量筛选指标q1,包括:基于所述类内相似度最大的变量与类间相似度最小的变量,记xi与pz的相关系数为r;
20.第一关键变量筛选指标q1,表示为:
[0021][0022]
其中,为每个变量与其所在组的主成分之间的相关系数的平方,为变量与其他所有组的主成分之间最大的相关系数的平方,为第i个目标变量的q1指标。
[0023]
作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:计算关键变量筛选指标q2,包括:基于选择的每一个类里离pz最近的变量xi,计算变量xi的信息熵以及变量xi方差,用以辅助进行关键变量筛选;第二关键变量筛选指标q2,表示为:
[0024][0025]
其中,为第i个目标变量的q2指标,e
target
为目标变量的信息熵,为变量xi的样本方差,k为样本量。
[0026]
作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:计算第三关键变量筛选指标qf,包括:
[0027]
当第一关键变量筛选指标q1的值减小且第二关键变量筛选指标q2的值增大时,变量xi在其所在的组内代表性增强;
[0028]
设最终的权重值为第二关键变量筛选指标q2与第一关键变量筛选指标q1的比值qf,当第三关键变量筛选指标qf的值增大,且变量xi在其所在组代表性增强,则筛选出最终的关键变量。
[0029]
作为本发明所述的基于pca的冗余变量筛选改进方法的一种优选方案,其中:还包括:第三关键变量筛选指标qf,表示为:
[0030][0031]
其中,为第i个目标变量的qf指标。
[0032]
第二方面,本发明实施例提供了一种基于pca的冗余变量筛选改进装置,包括:
[0033]
数据获取模块,用于采集气体流量计特征历史工作数据,对所述历史工作数据进行预处理;
[0034]
变量聚类模块,用于对所述预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;
[0035]
计算模块,用于基于所述关键变量筛选指标q1、q2计算第三关键变量筛选指标qf,并根据所述第三关键变量筛选指标qf完成特征选择得到筛选后的关键变量;
[0036]
学习预测模块,用于将所述关键变量输入机器学习分类算法中进行测试得到实际预测效果。
[0037]
第三方面,本发明实施例提供了一种计算设备,包括:
[0038]
存储器和处理器;
[0039]
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的基于pca的冗余变量筛选改进方法。
[0040]
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述基于pca的冗余变量筛选改进方法。
[0041]
与现有技术相比,本发明的有益效果:本发明利用数据标准化处理原始数据,平衡了各特征的贡献,消除量纲影响,解决了数据的可比性;其次选取各原始变量的方差和目标变量的熵值计算第二个关键变量筛选指标,增加特征选择的考量因素;最后以第二关键变量筛选指标与第一关键变量筛选指标的比值作为最终的关键变量筛选指标,能够更好地对原始数据进行特征提取,并提高预测精度。
附图说明
[0042]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0043]
图1为本发明一个实施例所述的一种基于pca的冗余变量筛选改进方法及装置的方法流程图;
[0044]
图2为本发明一个实施例所述的一种基于pca的冗余变量筛选改进方法及装置的变量聚类结构示意图;
[0045]
图3为本发明一个实施例所述的一种基于pca的冗余变量筛选改进方法及装置的传统方法与本发明方法预测的准确率对比图;
[0046]
图4为本发明一个实施例所述的一种基于pca的冗余变量筛选改进方法及装置的传统方法与本发明方法预测的精确率对比图;
[0047]
图5为本发明一个实施例所述的一种基于pca的冗余变量筛选改进方法及装置的传统方法与本发明方法预测的召回率对比图;
[0048]
图6为本发明一个实施例所述的一种基于pca的冗余变量筛选改进方法及装置的传统方法与本发明方法预测的f1分数指标对比图。
具体实施方式
[0049]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0050]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0051]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0052]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0053]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0054]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,
也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0055]
实施例1
[0056]
参照图1~2,为本发明的一个实施例,该实施例提供了一种基于pca的冗余变量筛选改进方法,包括:
[0057]
s101:采集气体流量计特征历史工作数据,对历史工作数据进行预处理;
[0058]
具体的,采集的气体流量计特征包括:流量计温度,流量计压力;
[0059]
预处理包括:通过数据标准化方法对数据进行预处理;数据为采集的公开数据集。
[0060]
s102:对预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;
[0061]
更进一步的,对预处理后的数据进行变量聚类,包括:
[0062]
基于每一个类提取一个主成分pz,计算每个类classz里的每个变量xi和类主成分pz的皮尔逊相关系数;
[0063]
当皮尔逊相关系数值最大时,变量xi在其所在的classz组内最有代表性,则选取最大值时对应的变量;
[0064]
同时计算每个类classz里的每个变量xi和其他类主成分pz的皮尔逊相关系数,当皮尔逊相关系数值最小时,变量xi和其他类主成分pz相关性最弱,变量xi在其所在的classz组内最有代表性,则选取最小值时对应的变量。
[0065]
图2是本发明提供的一种基于pca的冗余变量筛选改进方法的变量聚类结构示意图,参见图2,在一个可选的实施例中,假设输入变量为:x={x1,x2,
……
,x
15
},计算各个变量之间的线性相关性,得到变量相关性矩阵r:
[0066][0067]
依据各个变量的相关系数将原始变量分成λ类,假定λ=4,class1,class2,class3,class4,每类变量分布如下:
[0068]
s201:class1={x1,x5,x8};
[0069]
s202:class2={x2,x3,x6,x
10
};
[0070]
s203:class3={x4,x
11
,x
12
,x
13
,x
15
};
[0071]
s204:class4={x7,x9,x
14
}。
[0072]
更进一步的,计算第一关键变量筛选指标q1,包括:基于类内相似度最大的变量与类间相似度最小的变量,记xi与pz的相关系数为r;
[0073]
第一关键变量筛选指标q1,表示为:
[0074][0075]
其中,为每个变量与其所在组的主成分之间的相关系数的平方,
为变量与其他所有组的主成分之间最大的相关系数的平方,为第i个目标变量的q1指标。
[0076]
更进一步的,计算关键变量筛选指标q2,包括:基于选择的每一个类里离pz最近的变量xi,计算变量xi的信息熵以及变量xi方差,用以辅助进行关键变量筛选;
[0077]
第二关键变量筛选指标q2,表示为:
[0078][0079]
其中,为第i个目标变量的q2指标,e
target
为目标变量的信息熵,s
x
i为变量xi的样本方差,k为样本量。
[0080]
应说明的是,引入结合信息熵的关键变量筛选指标q2,用以辅助进行关键变量筛选,信息熵是对不确定性的一种度量。目标变量的不确定性越大,熵值就越大,包含的信息量越大;目标变量的不确定性越小,熵值就越小,包含的信息量就越小。可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该变量对综合评价的影响(权重)越大。
[0081]
目标变量的信息熵,表示为:
[0082][0083]
其中,k为样本量,y
ij
是目标变量的第j个指标的比重。
[0084]
还应说明的是,方差是在衡量随机变量或一组数据时离散程度的度量,也可以用来推断变量的变异程度。输入变量的方差越大,说明输入变量取值越离散、变异程度越大、提供的信息量越多,其因素水平或交互作用越会对目标变量产生影响。
[0085]
方差计算表示为:
[0086][0087]
其中,为输入变量xi的样本方差,k为样本量,为样本均值。
[0088]
具体的,由上述对信息熵值与方差的分析可知,e
target
的值越大,包含的信息量就越多。越大则表示输入变量xi的变异程度越大,越会对目标变量产生影响。而对于每个输入变量的重要性,需要计算每个输入变量的方差占所有变量方差总和的比例值,该值越大说明该输入变量包含的信息量越多,越有代表性。
[0089]
s103:基于关键变量筛选指标q1、q2计算第三关键变量筛选指标qf,并根据第三关键变量筛选指标qf完成特征选择得到筛选后的关键变量;
[0090]
在一个可选的实施例中,将筛选后的数据输入到k近邻、随机森林、近邻成分分析等机器学习分类算法中得到实际预测效果。
[0091]
更进一步的,计算第三关键变量筛选指标qf,包括:
[0092]
当第一关键变量筛选指标q1的值减小且第二关键变量筛选指标q2的值增大时,变量xi在其所在的组内代表性增强;
[0093]
设最终的权重值为第二关键变量筛选指标q2与第一关键变量筛选指标q1的比值
qf,当第三关键变量筛选指标qf的值增大,且变量xi在其所在组代表性增强,则筛选出最终的关键变量。
[0094]
更进一步的,还包括:第三关键变量筛选指标qf,表示为:
[0095][0096]
其中,为第i个目标变量的qf指标。
[0097]
s104:将关键变量输入机器学习分类算法中进行测试得到实际预测效果。
[0098]
上述为本实施例的一种基于pca的冗余变量筛选改进方法的示意性方案。需要说明的是,该基于pca的冗余变量筛选改进装置的技术方案与上述的基于pca的冗余变量筛选改进方法的技术方案属于同一构思,本实施例中基于pca的冗余变量筛选改进装置的技术方案未详细描述的细节内容,均可以参见上述基于pca的冗余变量筛选改进方法的技术方案的描述。
[0099]
本实施例中一种基于pca的冗余变量筛选改进装置,包括:
[0100]
数据获取模块,用于采集气体流量计特征历史工作数据,对历史工作数据进行预处理;
[0101]
变量聚类模块,用于对预处理后的数据进行变量聚类,并进行特征选择,计算第一关键变量筛选指标q1、第二关键变量筛选指标q2;
[0102]
计算模块,用于基于关键变量筛选指标q1、q2计算第三关键变量筛选指标qf,并根据第三关键变量筛选指标qf完成特征选择得到筛选处理后的数据;
[0103]
学习预测模块,用于将数据输入机器学习分类算法中进行测试得到实际预测效果。
[0104]
本实施例还提供一种计算设备,适用于基于pca的冗余变量筛选改进方法的情况,包括:
[0105]
存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的基于pca的冗余变量筛选改进方法。
[0106]
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0107]
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现基于pca的冗余变量筛选改进方法。
[0108]
本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有
相同的有益效果。
[0109]
实施例2
[0110]
参照图3~6,为本发明的一个实施例,本实施例中将超声波流量计数据集分别使用传统的基于主成分的冗余变量筛选方法和本发明方法进行关键变量的筛选,分别在k近邻knn(k-nearest neighbor)、随机森林rf(random forest)、近邻成分分析nca(neighbourhood component analysis)分类算法上进行验证。
[0111]
为减小实验误差,设置8次不同的数据划分情况,将各个算法的分类准确率、精确率、召回率与f1-score进行对比实验结果如图3所示,经过8次不同的数据划分情况进行实验验证后,本发明方法有效提高了识别准确率。
[0112]
为了更好地证明本发明方法在性能上的优越性,采用精确率、召回率和f1分数,对算法的分类性能表现进行实验对比,如图4~图6所示,通过对比图可以看出本发明方法在精确率、召回率和f1得分三项指标上都要优于传统的冗余变量筛选方法,经过分析,本发明方法在三种经典分类算法下的精确率、召回率和f1分数指标均有不同程度的提升。
[0113]
为了直观评估本文算法改进效果,分别取8次实验结果的平均值进行对比,对比结果如表1~表4所示:
[0114]
表1超声波流量计数据集降维后经过knn、rf、nca算法的分类准确率
[0115][0116]
由表1可以看出,本发明方法在三种经典分类算法上的平均准确率约为76%,相较于传统方法提升了约7%。
[0117]
表2超声波流量计数据集降维后经过knn、rf、nca算法的分类精确率
[0118][0119]
由表2可以看出,本发明方法在三种分类算法上的平均精确率约为80%,相较于传统方法提升了约4%。
[0120]
表3超声波流量计数据集降维后经过knn、rf、nca算法的分类召回率
[0121][0122]
由表3可以看出,本发明方法在三种分类算法上的平均召回率约为78%,相较于传统方法提升了约6%。
[0123]
表4超声波流量计数据集降维后经过knn、rf、nca算法的f1-score
[0124][0125]
由表4可以看出,本发明方法在三种分类算法上的平均f1分数约为79%,相较于传统方法提升了约5%。
[0126]
通过上述对比可以看出,本发明方法准确率、精确率、召回率与f1-score上均有较大提升。本发明方法提升了基于主成分的冗余变量筛选算法性能方面具有一定的有效性。进一步地,本发明方法可以在原有基于pca的冗余变量筛选算法上加入多个考量指标,解决由于人为干预导致机器学习模型预测精度低的问题,可以更好地对原始数据进行特征提取,提高预测精度。
[0127]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种基于pca的冗余变量筛选改进方法,其特征在于,包括:采集气体流量计特征历史工作数据,对所述历史工作数据进行预处理;对所述预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;基于所述关键变量筛选指标q1、q2计算第三关键变量筛选指标q
f
,并根据所述第三关键变量筛选指标q
f
完成特征选择得到筛选后的关键变量;将所述关键变量输入机器学习分类算法中进行测试得到实际预测效果。2.如权利要求1所述的基于pca的冗余变量筛选改进方法,其特征在于:所述采集的气体流量计特征包括:流量计温度,流量计压力;所述预处理包括:通过数据标准化方法对数据进行预处理;所述数据为采集的公开数据集。3.如权利要求2所述的基于pca的冗余变量筛选改进方法,其特征在于,对所述预处理后的数据进行变量聚类,包括:基于每一个类提取一个主成分p
z
,计算每个类class
z
里的每个变量x
i
和所述类主成分p
z
的皮尔逊相关系数;当皮尔逊相关系数值最大时,所述变量x
i
在其所在的class
z
组内最有代表性,则选取最大值时对应的变量;同时计算每个类class
z
里的每个变量x
i
和其他类主成分p
z
的皮尔逊相关系数,当皮尔逊相关系数值最小时,所述变量x
i
和其他类主成分p
z
相关性最弱,所述变量x
i
在其所在的class
z
组内最有代表性,则选取最小值时对应的变量。4.如权利要求3所述的基于pca的冗余变量筛选改进方法,其特征在于,计算第一关键变量筛选指标q1,包括:基于所述类内相似度最大的变量与类间相似度最小的变量,记x
i
与p
z
的相关系数为r;第一关键变量筛选指标q1,表示为:其中,为每个变量与其所在组的主成分之间的相关系数的平方,为变量与其他所有组的主成分之间最大的相关系数的平方,为第i个目标变量的q1指标。5.如权利要求4所述的基于pca的冗余变量筛选改进方法,其特征在于,计算关键变量筛选指标q2,包括:基于选择的每一个类里离p
z
最近的变量x
i
,计算变量x
i
的信息熵以及变量x
i
方差,用以辅助进行关键变量筛选;第二关键变量筛选指标q2,表示为:其中,为第i个目标变量的q2指标,e
target
为目标变量的信息熵,为变量x
i
的样本方差,k为样本量。
6.如权利要求4或5所述的基于pca的冗余变量筛选改进方法,其特征在于,计算第三关键变量筛选指标q
f
,包括:当第一关键变量筛选指标q1的值减小且第二关键变量筛选指标q2的值增大时,变量x
i
在其所在的组内代表性增强;设最终的权重值为第二关键变量筛选指标q2与第一关键变量筛选指标q1的比值q
f
,当第三关键变量筛选指标q
f
的值增大,且变量x
i
在其所在组代表性增强,则筛选出最终的关键变量。7.如权利要求6所述的基于pca的冗余变量筛选改进方法,其特征在于,还包括:第三关键变量筛选指标q
f
,表示为:其中,为第i个目标变量的q
f
指标。8.一种基于pca的冗余变量筛选改进装置,其特征在于,包括,数据获取模块,用于采集气体流量计特征历史工作数据,对所述历史工作数据进行预处理;变量聚类模块,用于对所述预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标q1和第二关键变量筛选指标q2;计算模块,用于基于所述关键变量筛选指标q1、q2计算第三关键变量筛选指标q
f
,并根据所述第三关键变量筛选指标q
f
完成特征选择得到筛选后的关键变量;学习预测模块,用于将所述关键变量输入机器学习分类算法中进行测试得到实际预测效果。9.一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述基于pca的冗余变量筛选改进方法的步骤。10.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述基于pca的冗余变量筛选改进方法的步骤。
技术总结
本发明公开了一种基于PCA的冗余变量筛选改进方法及装置,包括:采集气体流量计特征历史工作数据,对历史工作数据进行预处理;对预处理后的数据进行目标变量聚类,并结合特征选择,计算第一关键变量筛选指标Q1和第二关键变量筛选指标Q2;基于关键变量筛选指标Q1、Q2计算第三关键变量筛选指标Q
技术研发人员:岳喜超 王勇 刘蔚
受保护的技术使用者:上海云剑信息技术有限公司
技术研发日:2023.03.24
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
