电力敏感数据处理方法、装置、电子设备及存储介质与流程

未命名 08-27 阅读:136 评论:0


1.本发明实施例涉及电力数据处理领域,尤其涉及一种电力敏感数据处理方法、装置、电子设备及存储介质。


背景技术:

2.随着电力行业的发展及网络通信的复杂化,电网业务系统的使用也越来越多样化,相关行业的数据量大大增长,电网企业已经步入了数据化的新时代。信息化伴随而来的就是企业存在敏感信息泄露的风险,特别是企业电力习惯、客户信息以及企业隐私行为等。一旦这些敏感数据发生泄漏,并被分析和利用,将对用户隐私以及电网安全形成极大的威胁,同时海量数据也增加了信息保护的难度。为了在业务需求和风险之间找到平衡,需要对不同价值和属性的数据进行分级,根据分级的结果采取不同的处置方法,这样可以在保障运行平稳的同时降低数据泄露的风险。
3.传统的电力敏感数据分级方法严重依赖于人工,受主观因素影响较大,难以做到精准快速的自动化分类,因此考虑使用基于机器学习的自动化分类分级方法。而以svm为代表的有监督方法虽然可以在大量标注数据训练的基础上得到较为准确的分类模型,但是由于电力数据特征维度比较多,存在大量冗余信息,会使得模型的学习产生偏移,影响分类结果,同时也会增加算法的时间和空间复杂度,降低性能。同时,由于电力数据包含多种类型,这进一步增加了方法的使用难度。


技术实现要素:

4.鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种电力敏感数据处理方法、装置、电子设备及存储介质。
5.第一方面,本发明实施例提供一种一种电力敏感数据处理方法,包括:采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。
6.在一个可能的实施方式中,所述方法还包括:采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性-网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;
基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的svm算法进行训练。
7.在一个可能的实施方式中,所述方法还包括:计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。
8.在一个可能的实施方式中,所述方法还包括:基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。
9.在一个可能的实施方式中,所述方法还包括:对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。
10.在一个可能的实施方式中,所述方法还包括:基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权重,计算每一特征项在数据类别中的方差,完成特征降维;对降维后的特征进行归一化处理,得到归一化特征向量。
11.在一个可能的实施方式中,所述方法还包括:基于所述敏感性预测结果,对所述业务数据进行分类管理和保护。
12.第二方面,本发明实施例提供一种电力敏感数据处理装置,包括:采集标注模块,用于采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;特征构建模块,用于基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;模型训练模块,用于基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;数据分类模块,用于基于所述电力敏感数据分类模型对电力系统中产生的业务数
据进行分类,输出敏感性预测结果。
13.可选的,所述模型训练模块,还用于采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性-网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的支持向量机分类算法进行训练。
14.可选的,所述模型训练模块,还用于计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。
15.可选的,所述采集标注模块,还用于基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。
16.可选的,所述特征构建模块,还用于对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。
17.可选的,所述特征构建模块,还用于基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权重,计算每一特征项在数据类别中的方差,完成特征降维;对降维后的特征进行归一化处理,得到归一化特征向量。
18.可选的,所述数据分类模块,还用于基于所述敏感性预测结果,对所述业务数据进行分类管理和保护。
19.第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的电力敏感数据处理程序,以实现上述第一方面中所述的电力敏感数据处理方法。
20.第四方面,本发明实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中所述的电力敏感数据处理方法。
21.本发明实施例提供的电力敏感数据处理方案,通过采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。相比于传统的电力敏感数据分级方法严重依赖于人工,分类不精准的问题;或者,以支持向量机(support vector machine,svm)为代表的
有监督方法在电力数据特征维度比较多,存在大量冗余信息的情况下会使得模型的学习产生偏移,影响分类结果的问题。由本方案,将数值型和字符型电力敏感数据进行统一编码,从而在同一框架下同时处理多源、异构的电力结构化数据;构造同时考虑局部和全局信息的混合核函数,在对样本进行核空间投影时兼顾全局样本的整体特征;在分类模型的训练过程中,引入向量夹角计算相似度,改善传统分类方法对不属于其分类范围的数据分类能力差的问题,提升了电力系统敏感数据分级分类结果的准确性和可靠性。
附图说明
22.图1为本发明实施例提供的一种电力敏感数据处理方法的流程示意图;图2为本发明实施例提供的一种电力敏感数据预处理和数据向量化编码的流程示意图;图3为本发明实施例提供的一种基于改进svm算法的电力敏感数据分类流程示意图;图4为本发明实施例提供的一种电力数据通过核函数构建多维特征向量流程示意图;图5为本发明实施例提供的一种基于关联系数进行电力数据特征模型优化的流程示意图;图6为本发明实施例提供的一种电力敏感数据处理装置的结构示意图;图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
23.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
25.图1为本发明实施例提供的一种电力敏感数据处理方法的流程示意图,如图1所示,该方法具体包括:s11、采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注。
26.本发明实施例主要应用于电力敏感数据自动化分类分级的场景,并根据分类分级结果对电力业务数据进行分类管理和保护。
27.电力数据主要包括营销、电网、物资、财务等数据。首先,采集电力系统运行过程中产生的样本敏感数据,包括电力运行数据、用户电能数据、用户隐私信息,及电价数据等。然后利用人工或者规则等方法对收集到的数据进行敏感性标注。人工方式使用专业标注人员,根据收集到的数据内容判断敏感性,并进行标注;规则方法则提前设置好规则,例如敏感字段,敏感数值等,随后对数据进行自动化标注。一般可以使用两者结合的方式进行标注。
28.可选的,还可以对敏感性标注完成的样本敏感数据进行数据清洗及数据预处理。数据往往会存在缺失值、重复值、不可靠值等,如果直接输入训练模型可能会使得模型训练异常。同时,数据分布也具有不平衡性,可能会使模型训练产生歧视性。因此,在数据使用之前需要进行数据预处理,消除脏数据对分类分级的影响。针对电力系统不同敏感数据的属性,去除唯一属性、处理缺失值、异常值,对不平衡数据进行平衡处理,得到干净数据。对采集到的电力敏感数据进行清洗和预处理,对缺失值进行补全,对异常值进行重置。补全和重置方法包括使用临近数据值或数据平均值。例如,若用户电费中出现负值时,可以使用其邻居用户的结算电费或者所有用户结算电费的平均值进行重置,可以防止脏数据干扰后续的分类分级。最终,将干净的数据作为目标样本敏感数据。
29.s12、基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量。
30.识别目标样本敏感数据的数据类型。目标样本敏感数据的数据类型可能是字符和数值两种类型,需要分别处理,构造统一的特征向量。
31.具体的,对于字符型数据,从待分类字符串中提取多个统计特征,包括字符串长度、字符分布、信息熵等信息,进行向量化编码。例如电力用户信息、用户的用电/发电状态信息、电力系统日志记录、电力用户特征描述等,提取字符出现的频次数据、分类编码和序号编码,提取敏感词出现的次数,词语出现的频数,字符串长度,及利用正则匹配是否命中敏感词等数据。
32.对于数值型数据,如用户用电数值、用户结算电费,用户用电曲线等,可以提取方差、极值、均值等可以反映数据总体分布的特征。
33.上述特征向量是数据若干统计特征的拼接和组合,尽管可以反映数据的整体分布情况和总体特征,但其在特征空间内的相关性较大,存在很大的冗余,直接用于分类分级不仅可能会导致算法过拟合,降低分类的准确性,还会占用不必要的存储空间,降低算法的效率。例如用户7日平均电费和总电费,尽管是两个不同维度的统计特征,但是由于其本质上反应的是同一属性,因此存在冗余。若过多这种类似的冗余特征,可能会使得模型算法偏向处理这类特征,导致结果不准确。对特征进行筛选,保留重要特征,删除冗余和无关项,并引入频率参数,利用特征项在某一类别出现的频率作为该特征信息与类别关联关系的体现;通过设置合理的参数调整高频特征信息的权重,降低低频特征项的权重,减少低频特征项对训练的影响。计算特征信息在不同类别中的方差,量化特征信息在各个类别的分布频率对最终分类结果的影响,最终根据这些结果得到筛选后的特征向量。
34.进一步的,对特征筛选后的向量进行标准化和归一化处理,将不同特征的量化值转换到同一量纲下,去除量纲不同带来的影响,得到归一化分类特征。例如用户电费大约几十元,而来自日志字符型电力数据的长度则可能高达数百至数千,若不直接进行处理则会导致用户电费特征被忽略,影响模型精度。
35.s13、基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型。
36.利用归一化特征向量对改进支持向量机(support vector machine,svm)分类算法进行训练,根据交叉验证结果调整特征选择过程的参数设置,直至优化模型到预期水平。
37.具体的,如图3所示,为本发明实施例提供的一种基于改进svm算法的电力敏感数
据分类流程示意图。具体步骤包括:步骤1:使用前述方法进行数据收集、数据标注及特征提取。
38.步骤2:核函数选择,svm算法的核心在于核函数,采用全局与局部相结合的核函数算法,综合了全局核函数泛化能力强与局部核函数分类能力强的优势。
39.多项式核函数具有良好的全局性质,具有很强的泛化能力,而且阶数越低,泛化能力越强,多项式核函数如下:(1)高斯核函数局部性很强,其学习能力随着参数σ的增大而减弱,高斯核函数如下:(2)根据核函数的构成条件,满足mercer条件的核函数进行非负数线性组合仍然是符合mercer条件的核函数。根据mercer定理,对于任意的对称函数,对于任意的且,有:(3)因此,利用这多项式核函数和高斯核函数各自的优点构建混合核函数,混合核函数兼备较好的学习能力和较好的泛化能力。定义,对多项式核函数和高斯核函数进行非负线性组合形成混合核函数如下:(4)式中,为多项式核函数,为高斯核函数。
40.本发明实施例采用双线性-网格搜索方法进行核函数参数优化,该方法结合全局核函数和局部核函数的组合优势,首先通过双线性算法进行全局范围内快速搜索,找到最优解的最小区间,再利用指数网格搜索法进行高精度搜索,在找到最优解的最小区间进一步的精确搜索,从而找到混合核函数的参数最优解。
41.步骤3:核空间投影,通过核函数,支持向量机可以将特征向量映射到更高维的空间中,使得原本线性不可分的数据在映射之后的空间中变得线性可分。
42.采用svm分类算法对核空间投影后的特征向量进行分类分级。svm学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。即为分离超平面,对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的。
43.对于输入空间中的非线性分类问题,可以通过非线性变换将它转化为某个维特征空间中的线性分类问题,在高维特征空间中学习线性支持向量机。由于在线性支持向量机学习的对偶问题里,目标函数和分类决策函数都只涉及实例和实例之间的内积,所以不需要显式地指定非线性变换,而是用核函数替换当中的内积。核函数表示通过一个非线性转换后的两个实例间的内积。具体地,是一个函数,或正定核,意味着存在一个从输入空间到特征空间的映射,对任意输入空间中的,有:(5)
在线性支持向量机学习的对偶问题中,用核函数替代内积,求解得到的就是非线性支持向量机:(6)步骤4:svm分类,非线性支持向量机学习算法如下:输入:训练数据集其中,;输出:分离超平面和分类决策函数;选取适当的核函数和惩罚参数,构造并求解凸二次规划问题:;s.t.;(7)得到最优解;计算:选择的一个分量满足条件,计算:(8)分类决策函数:(9)在本发明实施例下的分类决策函数为:(10)上述电力数据通过核函数构建多维特征向量,如图4所示。
44.进一步的,基于所述电力敏感数据分类模型对电力系统中产生的业务数据与全部数据类别进行关联度系数计算,以衡量分类效果与精度。针对归一化后的电力系统特征向量,本发明实施例提出了信息关联系数的概念,引入向量夹角来表示向量之间的关联关系,作为其二者之间的关联系数,向量夹角越小,说明两个向量越相似,运用相似度值改善二分法对不属于其分类范围的信息分类识别力差的问题,关联度系数如下:(11)其中,代表授权值,代表向量和的余弦值,越接近1说明向量夹角越小,向量相似度越高,使用向量代表全部类别与信息样本的
关联度,按照上式计算信息样本与全部类别的关联度值。
45.进一步的,采用循环迭代优化,每次迭代剔除与各个电力数据信息关联度最小的类别,减少电力数据信息样本矩阵的维度。既避免了低频次项的高权重对分类结果的影响,又可以识别到均匀分布的高频特殊项,保留了最高效且优质的电力数据信息特征。在达到设定阈值后迭代结束,此时只有高关联度特征向量及在此基础上训练的svm分类模型被保留下来,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。
46.s14、基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。
47.基于电力敏感数据分类模型对电力系统中产生的业务数据进行分类,在最终的分类选择过程中,面对新数据,使用训练好的电力敏感数据分类模型进行支持向量机识别分类,并获得最终的电力系统敏感数据分类结果。上述基于关联系数进行电力数据特征模型优化,如图5所示。
48.进一步的,基于敏感性预测结果,可以对业务数据进行分类管理和保护。
49.本发明实施例利用特征构造方法获取电力敏感数据特征向量,对多源、异构电力数据进行预处理,将数值型和字符型电力敏感数据进行统一编码,根据统计特征属性,提取电力敏感数据特征向量。对于字符型数据,从待分类字符串中提取多个统计特征,包括字符串长度、字符分布、信息熵等信息,进行向量化编码。对于数值型数据,可以将其数据直接进行编码,从而构建电力数据初级特征向量。
50.本发明实施例使用核函数将从高维数据中提取出高维特征,从而对所述待电力敏感数据进行深层次的理解。由于在核空间投影时使用了混合核函数,考虑到了数据的全局信息,从高维特征中去除冗余特征,使得后续分隔超平面的计算更加准确,使得svm算法既具有良好的学习能力,又具有较强的泛化能力,在提升分类分级准确率的同时加速算法运行。通过本发明使用改进svm算法对电力敏感数据进行分类,利用核函数将数据投影到高维核空间,按照敏感数据的特征计算分隔超平面,最大化不同类别间的距离,从而实现敏感数据的自动化分类分级。该分类方法不需要人工提取特征或设置规则,以数据驱动的方式自动化的从大规模数据中学习深层次语义特征,具有鲁棒性好,准确率高,对数据不敏感的特点。
51.本发明实施例提供的电力敏感数据处理方法不依赖于人工方法进行分类分级,可以自动划分敏感数据类别和等级,使得方法可以应用于大规模数据的场景,解决了传统方法分类分级准确率低问题;采用基于有监督的方法实现对电力敏感数据的自动化分类分级,可以更好的利用数据的标签信息,使用核函数将线性不可分的复杂数据投影到高维线性可分的核空间,提取数据的深层特征,提高了分类结果的准确率;使用改进的svm算法,解决了传统svm算法在核空间投影时无法考虑全局数据特征,进而引入冗余信息的缺点,可以提取出更具表示能力的高维信息,提高了算法的准确率。同时由于去除了冗余信息,因而算法收敛速度、执行速度均得到提升,并且具有良好的可解释性;引入关联系数在模型优化过程中进行自适应的特征选择,使得模型可以根据训练数据的分布自动化的选择合适的特征参与训练,提高了特征集的表示能力以及模型预测的准确率。
52.本发明实施例提供的电力敏感数据处理方法,通过采集电力系统运行过程中产生
的样本敏感数据并对所述样本敏感数据进行敏感性标注;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量;基于所述归一化特征向量对预先改进的svm算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。相比于传统的电力敏感数据分级方法严重依赖于人工,分类不精准的问题;或者,以svm为代表的有监督方法在电力数据特征维度比较多,存在大量冗余信息的情况下会使得模型的学习产生偏移,影响分类结果的问题。由本方法,将数值型和字符型电力敏感数据进行统一编码,从而在同一框架下同时处理多源、异构的电力结构化数据;构造同时考虑局部和全局信息的混合核函数,在对样本进行核空间投影时兼顾全局样本的整体特征;在分类模型的训练过程中,引入向量夹角计算相似度,改善传统分类方法对不属于其分类范围的数据分类能力差的问题,提升了电力系统敏感数据分级分类结果的准确性和可靠性。
53.图6示出了本发明实施例的一种电力敏感数据处理装置的结构示意图。如图6所示,该装置包括:采集标注模块601,用于采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
54.特征构建模块602,用于基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
55.模型训练模块603,用于基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
56.数据分类模块604,用于基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
57.本发明实施例提供的电力敏感数据处理装置,用于执行上述实施例提供的电力敏感数据处理方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
58.图7示出了本发明实施例的一种电子设备,如图7所示,该电子设备可以包括处理器701和存储器702,其中处理器701和存储器702可以通过总线或者其他方式连接,图7中以通过总线连接为例。
59.处理器701可以为中央处理器(central processing unit,cpu)。处理器701还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
60.存储器702作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非
暂态计算机可执行程序以及模块,如本发明实施例中所提供方法所对应的程序指令/模块。处理器701通过运行存储在存储器702中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
61.存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器701所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至处理器701。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
62.一个或者多个模块存储在存储器702中,当被处理器701执行时,执行上述方法实施例中的方法。
63.上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
64.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
65.虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

技术特征:
1.一种电力敏感数据处理方法,其特征在于,包括:采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型,包括:采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性-网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的支持向量机分类算法进行训练。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。4.根据权利要求1所述的方法,其特征在于,所述采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,包括:基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。5.根据权利要求4所述的方法,其特征在于,所述基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,包括:对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;
基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。6.根据权利要求5所述的方法,其特征在于,所述基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量,包括:基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权重,计算每一特征项在数据类别中的方差,完成特征降维;对降维后的特征进行归一化处理,得到归一化特征向量。7.根据权利要求1所述的方法,其特征在于,所述基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果之后,包括:基于所述敏感性预测结果,对所述业务数据进行分类管理和保护。8.一种电力敏感数据处理装置,其特征在于,包括:采集标注模块,用于采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注,其中,敏感性标注的内容至少包括敏感字段和敏感数值;特征构建模块,用于基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量,其中,所述数据类型为字符型数据和数值型数据;模型训练模块,用于基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;数据分类模块,用于基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。9.根据权利要求8所述的电力敏感数据处理装置,其特征在于,所述模型训练模块,还用于采用多项式核函数和高斯核函数预先构建混合核函数;采用双线性-网格搜索方法对所述混合核函数进行参数优化,得到优化后的混合核函数;基于所述优化后的混合核函数对所述归一化特征向量进行核空间投影;基于核空间投影后的归一化特征向量对所述预先改进的支持向量机分类算法进行训练。10.根据权利要求9所述的电力敏感数据处理装置,其特征在于,所述模型训练模块,还用于计算核空间投影后的归一化特征向量与预设向量之间的向量夹角,得到样本敏感数据与全部数据类别的关联系数,其中,所述预设向量为全部数据类别与信息样本的关联度,所述向量夹角表示向量之间的关联系数;基于样本敏感数据与全部数据类别的关联系数通过预设规则进行循环迭代优化,得到符合预设关联程度的目标特征向量和基于所述目标特征向量训练完成的电力敏感数据分类模型。11.根据权利要求8所述的电力敏感数据处理装置,其特征在于,所述采集标注模块,还用于基于预先设置的敏感性标注规则对所述样本敏感数据进行自动敏感性标注,标注内容至少包括敏感字段、敏感数值;对自动敏感性标注后的内容进行审核,优化敏感性标注内容。12.根据权利要求11所述的电力敏感数据处理装置,其特征在于,所述特征构建模块,还用于对优化敏感性标注内容后的样本敏感数据进行数据清洗操作,得到目标样本敏感数
据并识别所述目标样本敏感数据的数据类型;若所述目标样本敏感数据的数据类型为字符型数据,则提取所述字符型数据的多个统计特征;若所述目标样本敏感数据的数据类型为数值型数据,则对数值型数据进行编码,得到编码特征;基于所述多个统计特征和编码特征确定所述目标样本敏感数据对应的归一化特征向量。13.根据权利要求12所述的电力敏感数据处理装置,其特征在于,所述特征构建模块,还用于基于预设筛选规则对所述多个统计特征和编码特征进行特征筛选,得到多个特征项,所述特征项在某一数据类别出现的频率作为该特征项与对应类别的关联关系;基于预设权重分配规则以及每个特征项对应的频率为每个特征项分配对应权重,计算每一特征项在数据类别中的方差,完成特征降维;对降维后的特征进行归一化处理,得到归一化特征向量。14.根据权利要求12所述的电力敏感数据处理装置,其特征在于,所述数据分类模块,还用于基于所述敏感性预测结果,对所述业务数据进行分类管理和保护。15.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的电力敏感数据处理程序,以实现权利要求1~7中任一项所述的电力敏感数据处理方法。16.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的电力敏感数据处理方法。

技术总结
本发明实施例涉及一种电力敏感数据处理方法、装置、电子设备及存储介质,包括:采集电力系统运行过程中产生的样本敏感数据并对所述样本敏感数据进行敏感性标注;基于所述样本敏感数据的数据类型,对敏感性标注完成的样本敏感数据进行特征构建,得到所述样本敏感数据对应的归一化特征向量;基于所述归一化特征向量对预先改进的支持向量机分类算法进行训练,得到训练完成的电力敏感数据分类模型;基于所述电力敏感数据分类模型对电力系统中产生的业务数据进行分类,输出敏感性预测结果。由此,兼顾全局样本的整体特征,改善传统分类方法对不属于其分类范围的数据分类能力差的问题,提升了电力系统敏感数据分级分类结果的准确性和可靠性。和可靠性。和可靠性。


技术研发人员:石聪聪 翟雨佳 黄秀丽 许道强 刘圣龙 邓君华 江伊雯 费稼轩 于鹏飞
受保护的技术使用者:国家电网有限公司大数据中心 国网江苏省电力有限公司营销服务中心 国网江苏省电力有限公司 国家电网有限公司
技术研发日:2023.07.21
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐