基于用电大数据的电费回收风险评估方法及系统与流程
未命名
07-20
阅读:257
评论:0
1.本发明属于违约风险评估技术领域,特别涉及基于用电大数据的电费回收风险评估方法及系统。
背景技术:
2.在电力市场的营销过程中,电费的有效回收是电力销售环节中的重要一环,也是最为关键的一个环节。面对不断增加的电费回收风险,供电企业必须积极探索、创新管理手段,多渠道保证电费回收率。在电费回收管理过程中,对于电费回收风险的提前预判是回收是否成功最为关键的因素,通过提前感知、快速介入、紧密跟踪可有效的降低用户欠费事件发生的概率,减少用户欠费对企业发展带来的不良后果。
3.由于用户的违约行为受非常多的因素所共同影响,传统的人工管控往往只能以单一因素进行考量,例如以电量环比突变等,无法高效准确的锁定管控范围,导致电费管控相关人员无法精准的采取相关措施,进而导致电费回收效率很难得到大的提升,往往是事倍功半。通过机器学习可完成多因素变量影响下复杂模型的建模,实现违约用户的准确预测,为管控人员提供科学的指导,可有效的提升电费回收效率。
技术实现要素:
4.本发明提供基于用电大数据的电费回收风险评估方法,旨在解决人工管控效率低的问题。
5.为解决上述技术问题,本发明提出基于用电大数据的电费回收风险评估方法,包括以下步骤:
6.s1:采集用户的用电数据,对所述用电数据进行预处理,按设定比例划分为训练集和验证集;
7.s2:利用机器学习构建用于电费回收风险评估的数据模型,利用所述训练集迭代训练所述数据模型,直至训练结果与所述验证集的验证结果达到设定阈值,对所述验证结果的评价包括roc曲线、混淆矩阵及违约准确率韦恩图;所述数据模型采用逻辑回归模型;
8.s3:收集指定期间的用户用电实时数据,输入至训练好的数据模型进行电费回收风险评估,获得用户的违约预测结果。
9.优选地,所述用电数据来源于电力营销业务应用系统及用电信息采集系统,所述用电数据包括用户的户号、户名、市场化用户标识、地区、城乡类别、缴费方式、转供标志、合同容量、电费期间、总电量、应收金额、是否违约、行业上级分类、电费单价、电量占比、电量环比、电量同比及近半年违约次数。
10.优选地,所述预处理包括字段处理、数据清洗、特征值分析、特征值处理。
11.优选地,所述特征值处理的数据包括离散型特征及连续型特征。
12.优选地,所述离散型特征的处理采用独热编码,使用若干位状态寄存器来对若干个离散特征进行编码,每个离散特征都有独立的寄存器位,并且在任意时候,其中只有一位
有效。
13.优选地,对所述连续型特征用离散化方式进行处理。
14.相应的,本发明还提出基于用电大数据的电费回收风险评估系统,包括:数据采集模块、数据预处理模块、数据模型及数据展示模块;
15.所述数据采集模块用于采集用户用电实时数据;
16.所述数据预处理模块用于对所述用户用电实时数据进行预处理,所述预处理包括字段处理、数据清洗、特征值分析、特征值处理;
17.所述数据模型采用逻辑回归模型,用于对预处理后的用户用电实时数据进行电费回收风险评估,输出用户的违约预测结果;
18.所述数据展示模块用于提供可视化界面以展示所述违约预测结果、数据训练与分析结果及数据模型评价结果。
19.优选地,所述数据展示模块进一步包括违约预测子模块、数据训练与分析子模块及预测模型评价子模块;
20.所述违约预测子模块用于对违约数据进行预测,以及对预测结果进行展示;
21.所述数据训练与分析子模块用于接收训练文件对所述数据模型的训练数据进行实时更新及实施训练,以及对训练结果进行展示;
22.所述预测模型评价子模块用于对所述违约预测子模块的预测结果进行验证,并展示验证结果。
23.优选地,所述数据预处理模块进行特征值处理方式包括对离散型特征进行独热编码以及对连续型特征进行离散化。
24.优选地,所述验证结果的展示方式包括roc曲线、混淆矩阵及违约准确率韦恩图。
25.与现有技术相比,本发明具有以下技术效果:
26.1.本发明提出的风险评估方法通过机器学习可完成多因素变量影响下复杂模型的建模,解决传统的人工管控只能以单一因素进行考量,无法高效准确的锁定管控范围,导致电费管控相关人员无法精准的采取相关措施的问题,可实现违约用户的准确预测,为管控人员提供科学的指导,可有效的提升电费回收效率。
27.2.本发明提出的风险评估方法在设计数据模型时将电量占比、电量同比、电量环比、历史违约次数等电量数据作为特征值纳入数据模型的构建,特征值选取合理,预测效果较好,充分挖掘了电力数据的价值,可有效提高电费回收风险评估的准确性。
28.3.本发明提出的风险评估方法对用电数据中的连续型数据进行离散化处理,解决离散型数据无法直接被数据模型使用并参与到模型的计算过程中的问题;以及对离散型数据进行独热编码处理,避免直接将离散型数据直接输入模型计算时导致模型计算量过大的问题,避免模型的过拟合,提高模型的训练效率。
29.4.本发明提出的风险评估系统包括数据采集模块、数据预处理模块、数据模型及数据展示模块,其中的数据展示模块提供可视化界面以展示违约预测结果、数据训练与分析结果及数据模型评价结果,并提供人机交互接口对训练数据进行实时更新与实时训练,利用数据的不断更新,实现数据模型的不断迭代,保证了系统预测的准确性。
附图说明
30.图1是本发明所述的基于用电大数据的电费回收风险评估方法的流程图。
具体实施方式
31.为使本发明的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例,并参照附图,对本发明的技术方案进行清楚、完整地描述。
32.请参阅图1,为本实施例提出的基于用电大数据的电费回收风险评估方法,包括以下步骤:
33.s1:采集用户的用电数据,对所述用电数据进行预处理,按设定比例划分为训练集和验证集。
34.s2:利用机器学习构建用于电费回收风险评估的数据模型,利用所述训练集迭代训练所述数据模型,直至训练结果与所述验证集的验证结果达到设定阈值,对所述验证结果的评价包括roc曲线、混淆矩阵及违约准确率韦恩图;所述数据模型采用逻辑回归模型。
35.s3:收集指定期间的用户用电实时数据,输入至训练好的数据模型进行电费回收风险评估,获得用户的违约预测结果。
36.在步骤s1中,所述预处理包括字段处理、数据清洗、特征值分析、特征值处理。本实施例使用的数据主要来源于电力营销业务应用系统和用电信息采集系统,所获取数据的基础字段包括:户号、户名、市场化用户标识、用电类别、行业分类、供电单位、城乡类别、缴费方式、转供标志、合同容量、运行容量、电费期间、总电量、应收金额、应交违约金及实收违约金。
37.由于模型构建过程中使用的一部分特征值不属于原始数据,需对基础数据进行整理、归类,同时利用原始数据构建出建模过程中需要的新特征值。基础字段中保留户号、户名、市场化用户标识、城乡类别、缴费方式、转供标志、合同容量、电费期间、总电量、应收金额。同时新增地区、是否违约、行业上级分类、电费单价、电量占比、电量环比、电量同比及近半年违约次数字段。其中,是否违约字段取值方法为:当应交违约金和实收违约金同时为0时,取0(表示未违约),否则取1(表示违约);行业上级分类字段根据行业代码匹配文件进行归类,将分类数量缩小为原来的1/10;电费单价为应收金额/总电量;电量占比的计算方式为:总电量/(合同容量
×
24
×
30);电量环比的计算方式为:(总电量-上月总电量)/上月电量;电量同比的计算方式为:(总电量-去年同期总电量)/去年同期总电量。
38.然后对上述数据进行清洗,经过初步分析,数据中存在许多噪声,如考核用户、电量为零或电费为零的记录,这些数据与电费回收并无关系,会影响模型的准确性,需进行数据剔除;数据中存在许多空值,需要对这些空值进行补零处理,如某一条记录为新户的第一个月电费,并无上月电费记录,则该记录的电量环比和电量同比就无法计算,需做补零处理。
39.为了确保模型的训练效果,本实施例首先对获取的数据按字段进行了统计分析,通过图形化分析,挖掘各字段与用户违约之间存在的联系,并作为特征值参与到模型的训练中。通过对获取字段进行逐一的分析,所述特征值处理的数据包括离散型特征及连续型特征。本实施例确定了16个特征值,其中连续性特征值10个,离散型特征值6个。基于机器学习的数据模型只能识别数值型的特征,而特征值数据中有很多字段是离散型特征,无法直
接被模型使用并参与到模型的计算过程中,对于离散型特征还需要进行编码后才能作为模型的输入。
40.对于离散型特征:市场化用户标识、行业上级分类、地区、城乡类别、缴费方式、转供标志。上述特征为离散型特征,本实施例采用独热编码,使用若干位状态寄存器来对若干个离散特征进行编码,每个离散特征都有独立的寄存器位,并且在任意时候,其中只有一位有效。如转供标志有三种类别:转供户、被转供户、无转供,则对应的编码为100、010、001。
41.对于连续型特征:合同容量、电费年月、总电量、应收金额、电费单价、电量占比、电量环比、电量同比、近半年违约次数。连续型特征可直接输入模型计算,但对于模型来说,一个数值就属于一个类别,直接输入计算会导致模型计算量过大,且容易导致模型过拟合,所以需要对连续型特征进行离散化处理,本实施例将连续型特征均分为10类,分别以0-9标识。其中电费年月只需保留月份,即以1-12标识即可。
42.对于是否违约字段,是否违约字段属于标签,不做任何处理,该字段只有0和1组成,其中0表示未违约,1表示违约。
43.所述步骤s2中,逻辑回归模型为一个二分类问题,已知分类标签y{0,1},特征自变量x{x1,x2,
…
,xn},可以通过找一个线性模型来由x预测y,即但是这样的函数图像是类似一条斜线,难以达到预想的(0或1)的取值,本实施例引入逻辑函数sigmoid函数,即
[0044][0045]
通过两个函数的相互结合,令
[0046][0047]
可将取值范围控制在0或1上,初步达成目标。
[0048]
以上函数可以转化为对数几率函数,即
[0049]
其中,y视为样本x作为正例的概率,那么1-y则为样本x作为反例的概率,二者的比值为对其取对数后为即为对数几率,因此有:
[0050][0051]
可进一步的推出:
[0052][0053][0054]
通过以上公式可以得到一个似然函数:
[0055][0056]
将目标转换为求该似然函数的最大值,为了更方便求解,对等式两边同取对数,写成对数似然函数:
[0057][0058]
进一步将求最大值问题转化为求最小值问题,在机器学习中有损失函数的概念,其衡量的是模型预测错误的程度。如果取整个数据集上的平均对数似然损失,可以得到模型的损失函数:
[0059][0060]
通过随机梯度下降的方法使函数收敛
[0061][0062]
通过对的一阶导数来找下降方向,并以迭代的方式来更新参数,即
[0063][0064][0065]
数据模型验证结果的展示主要由roc曲线、混淆矩阵、违约准确率韦恩图三部分构成,其中roc曲线(receiver operating characteristic curve,受试者工作特征曲线)根据曲线位置,把整个图划分成了两部分,曲线下方部分的面积被称为auc(area under curve),用来表示预测准确性,auc值越高,也就是曲线下方面积越大,说明预测准确率越高。曲线越接近左上角(x越小,y越大),预测准确率越高。一个优秀的预测模型,命中率尽可能高的同时,假报警率应尽可能低,然而这两个指标成正相关,所以为了衡量一个模型的优劣,根据不同阈值下的命中率和假报警率绘制roc曲线。混淆矩阵是对整个预测模型的综合评价(含对不违约用户的预测效果),而违约准确率主要用于直观反应对于违约事件的预测效果。
[0066]
对于违约结果的验证,其结果主要包括以下四种可能性:实际违约预测结果也为
违约(预测准确)、实际违约预测结果为不违约(预测不准确)、实际不违约预测结果为不违约(预测准确)、实际不违约预测结果为违约(预测不准确)。为了直观的看出四种情况的具体数据,本实施例采用混淆矩阵的方式进行展示评价。
[0067]
相应的,本实施例还提出基于用电大数据的电费回收风险评估系统,包括:数据采集模块、数据预处理模块、数据模型及数据展示模块。所述数据采集模块用于采集用户用电实时数据。所述数据预处理模块用于对所述用户用电实时数据进行预处理,所述预处理包括字段处理、数据清洗、特征值分析、特征值处理。所述数据模型采用逻辑回归模型,用于对预处理后的用户用电实时数据进行电费回收风险评估,输出用户的违约预测结果。所述数据展示模块用于提供可视化界面以展示所述违约预测结果、数据训练与分析结果及数据模型评价结果。
[0068]
所述数据展示模块进一步包括违约预测子模块、数据训练与分析子模块及预测模型评价子模块。所述违约预测子模块用于对违约数据进行预测,以及对预测结果进行展示。违约预测子模块包含了预测文件的上传接口,通过该接口可上传需要预测月份的电量数据表格对违约数据进行预测,预测结束后,结果会以表格和图表的形式分别进行展示,也可通过导出按键导出预测结果为违约用户的详情,发送到电费催收人员手中进行逐一电费催收。违约预测的图形展示主要是展示预测的违约结果在总户数中的数量占比与资金占比分析。
[0069]
所述数据训练与分析子模块用于接收训练文件对所述数据模型的训练数据进行实时更新及实施训练,以及对训练结果进行展示。所述数据训练与分析子模块包括训练文件的上传接口及参与训练数据的展示区域,为参与训练数据中所有违约用户的统计分析结果,以其中七个特征值:电费期间、近半年违约次数、电量占比、电量同比、电量环比、地区及电费单价进行展示
[0070]
所述预测模型评价子模块用于对所述违约预测子模块的预测结果进行验证,并展示验证结果。所述验证结果的展示方式包括roc曲线、混淆矩阵及违约准确率韦恩图。所述预测模型评价子模块包括上传接口用于上传预测月份对应的实际违约数据,对预测结果进行验证。
[0071]
所述数据预处理模块进行特征值处理方式包括对离散型特征进行独热编码以及对连续型特征进行离散化。
[0072]
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
技术特征:
1.基于用电大数据的电费回收风险评估方法,其特征在于,包括以下步骤:s1:采集用户的用电数据,对所述用电数据进行预处理,按设定比例划分为训练集和验证集;s2:利用机器学习构建用于电费回收风险评估的数据模型,利用所述训练集迭代训练所述数据模型,直至训练结果与所述验证集的验证结果达到设定阈值,对所述验证结果的评价包括roc曲线、混淆矩阵及违约准确率韦恩图;所述数据模型采用逻辑回归模型;s3:收集指定期间的用户用电实时数据,输入至训练好的数据模型进行电费回收风险评估,获得用户的违约预测结果。2.根据权利要求1所述的基于用电大数据的电费回收风险评估方法,其特征在于,所述用电数据来源于电力营销业务应用系统及用电信息采集系统,所述用电数据包括用户的户号、户名、市场化用户标识、地区、城乡类别、缴费方式、转供标志、合同容量、电费期间、总电量、应收金额、是否违约、行业上级分类、电费单价、电量占比、电量环比、电量同比及近半年违约次数。3.根据权利要求1所述的基于用电大数据的电费回收风险评估方法,其特征在于,所述预处理包括字段处理、数据清洗、特征值分析、特征值处理。4.根据权利要求3所述的基于用电大数据的电费回收风险评估方法,其特征在于,所述特征值处理的数据包括离散型特征及连续型特征。5.根据权利要求4所述的基于用电大数据的电费回收风险评估方法,其特征在于,所述离散型特征的处理采用独热编码,使用若干位状态寄存器来对若干个离散特征进行编码,每个离散特征都有独立的寄存器位,并且在任意时候,其中只有一位有效。6.根据权利要求4所述的基于用电大数据的电费回收风险评估方法,其特征在于,对所述连续型特征用离散化方式进行处理。7.基于用电大数据的电费回收风险评估系统,其特征在于,包括:数据采集模块、数据预处理模块、数据模型及数据展示模块;所述数据采集模块用于采集用户用电实时数据;所述数据预处理模块用于对所述用户用电实时数据进行预处理,所述预处理包括字段处理、数据清洗、特征值分析、特征值处理;所述数据模型采用逻辑回归模型,用于对预处理后的用户用电实时数据进行电费回收风险评估,输出用户的违约预测结果;所述数据展示模块用于提供可视化界面以展示所述违约预测结果、数据训练与分析结果及数据模型评价结果。8.根据权利要求7所述的基于用电大数据的电费回收风险评估系统,其特征在于,所述数据展示模块进一步包括违约预测子模块、数据训练与分析子模块及预测模型评价子模块;所述违约预测子模块用于对违约数据进行预测,以及对预测结果进行展示;所述数据训练与分析子模块用于接收训练文件对所述数据模型的训练数据进行实时更新及实施训练,以及对训练结果进行展示;所述预测模型评价子模块用于对所述违约预测子模块的预测结果进行验证,并展示验证结果。
9.根据权利要求7所述的基于用电大数据的电费回收风险评估系统,其特征在于,所述数据预处理模块进行特征值处理方式包括对离散型特征进行独热编码以及对连续型特征进行离散化。10.根据权利要求8所述的基于用电大数据的电费回收风险评估系统,其特征在于,所述验证结果的展示方式包括roc曲线、混淆矩阵及违约准确率韦恩图。
技术总结
本发明公开了基于用电大数据的电费回收风险评估方法,包括以下步骤:采集用户的用电数据,对所述用电数据进行预处理,按设定比例划分为训练集和验证集;利用机器学习构建用于电费回收风险评估的数据模型,利用所述训练集迭代训练所述数据模型,直至训练结果与所述验证集的验证结果达到设定阈值;所述数据模型采用逻辑回归模型;收集指定期间的用户用电实时数据,输入至训练好的数据模型进行电费回收风险评估,获得用户的违约预测结果。还公开了基于用电大数据的电费回收风险评估系统,包括数据采集模块、数据预处理模块、数据模型及数据展示模块。本发明可实现违约用户的准确预测,为管控人员提供科学的指导,可有效的提升电费回收效率。回收效率。回收效率。
技术研发人员:郑鹭洲 林巍 张登灵 蒋伟杰 谢妃梅 林怡 石之华 陈颖心 翁菖宏 陈思源 王若雪
受保护的技术使用者:国网福建省电力有限公司福州供电公司
技术研发日:2023.02.17
技术公布日:2023/7/19
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
