一种企业外迁预测方法、装置、设备及存储介质与流程
未命名
09-17
阅读:98
评论:0
1.本发明涉及企业外迁领域,特别涉及一种企业外迁预测方法、装置、设备及存储介质。
背景技术:
2.在招商引资环节,用户在获取到目标招商企业的同时,对于后续能否成功招商存在较大不确定性,其中关键点在于企业是否愿意外迁,基于此类需求,现有技术对于企业外迁预测建立了相关数据及算法模型。
3.现有企业外迁预测技术重点在于如何构建机器学习模型使得在有限数据集上做出更加准确的预测结果,面向特征构建、参数调优建立预测框架,尽可能提升模型评分。机器学习模型包括但不限于使用特征采集器、特征融合器或将特征嵌入至低维向量进行表示,此类筛选、压缩、重构等特征工程手段让历史外迁数据能够被模型理解计算。再利用决策树、集成学习等通用算法模型进行训练,得出外迁可能性分值。虽然树模型在机器学习模型中具有较好的可解释性,可生成决策路径以反应特征和结果的映射关系,但在业务上仍然不便于用户直观地进行理解,而且对于大量特征的解释难以确定。
技术实现要素:
4.有鉴于此,本发明的目的在于提供一种企业外迁预测方法、装置、设备及存储介质,能够通过将企业的工商数据加工成指标特征,并对指标特征进行预测得到预测结果,然后将预测结果映射至解释词条,使得预测结果具有可解释性。其具体方案如下:第一方面,本技术提供了一种企业外迁预测方法,包括:基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征;将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果;基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征;基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。
5.可选的,所述基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征之前,还包括:利用数据分析方法对存在数据缺失的所述若干种初始指标特征进行数据填充;和/或,利用箱型图对所述若干种初始指标特征进行异常检测,并利用所述数据分析方法对存在异常数据的所述若干种初始指标特征进行数据填充。
6.可选的,所述基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征,包括:确定各种所述初始指标特征分别对应的证据权重,并基于各种所述初始指标特征分别对应的证据权重确定出各种所述初始指标特征分别对应的信息价值;从所述若干种初始指标特征中筛选出信息价值大于预设阈值的若干种待输入指标特征。
7.可选的,所述将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测之前,还包括:利用训练集对初始分类网络模型进行训练,以得到预先训练好的分类网络模型;利用验证集对所述分类网络模型进行验证,以得到企业外迁验证结果;将与所述验证集对应的所述企业外迁验证结果转换为第一概率密度函数,并将与所述验证集对应的企业外迁真实结果转换为第二概率密度函数;计算所述第一概率密度函数与所述第二概率密度函数之间的ks统计量,并基于所述ks统计量确定分类阈值;相应的,所述将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果,包括:将所述若干种待输入指标特征输入至所述分类网络模型以基于所述分类阈值进行相应的企业外迁预测,得到企业外迁预测结果。
8.可选的,所述从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征之前,还包括:获取若干企业的历史工商数据,并确定所述历史工商数据中的各种指标特征;确定每种所述指标特征各自对应的预设影响度范围。
9.可选的,确定任一指标特征对应的预设影响度范围,包括:基于所述shap模型并利用任一指标特征下各企业的历史工商数据内容确定所述任一指标特征对各企业的第二影响度;统计具有相同所述第二影响度的企业的数量,并针对数值不同的所述第二影响度构建所述第二影响度与相应的企业的数量之间的对应关系;对所有所述第二影响度进行分箱划分得到若干分箱区间;从所述若干分箱区间中确定出包含与最多企业数量对应的所述第二影响度的目标分箱区间,并筛选出所述目标分箱区间中的企业数量最少的所述第二影响度;基于所述与最多企业数量对应的所述第二影响度和所述目标分箱区间中的企业数量最少的所述第二影响度确定与所述任一指标特征对应的预设影响度范围。
10.可选的,所述基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条之后,还包括:若所述若干种目标指标特征的数量为一种,则直接对与所述目标指标特征匹配的目标解释词条进行可视化显示;若所述若干种目标指标特征的数量为多种,则基于与各种所述目标指标特征分别对应的第一影响度和预设指标权重以及与各种所述目标指标特征分别匹配的目标解释词条的预设词条权重确定出与各种所述目标指标特征分别对应的排序分值;
基于所述排序分值由大到小的顺序对与各种所述目标指标特征分别匹配的目标解释词条进行可视化显示。
11.第二方面,本技术提供了一种企业外迁预测装置,包括:指标特征筛选模块,用于基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征;企业外迁预测模块,用于将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果;影响度确定模块,用于基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征;解释词条匹配模块,用于基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。
12.第三方面,本技术提供了一种电子设备,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序以实现前述的企业外迁预测方法。
13.第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的企业外迁预测方法。
14.本技术中,基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征;将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果;基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征;基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。由此可见,本技术通过将待检测企业的工商数据加工成指标特征,并根据证据权重从若干种初始指标特征中筛选出具有较强预测能力的若干种待输入指标特征,从而排除对企业外迁预测没有帮助或具有冗余信息的特征,降低噪声对企业外迁预测的精度和稳定性的影响;另外,本技术通过shap模型可以确定各种待输入指标特征分别对企业外迁预测结果的影响度,从而根据影响度筛选出具有主要影响的若干种目标指标特征,并从预设解释词条库中确定与各种目标指标特征分别匹配的目标解释词条,以对企业外迁预测结果进行解释,从而使得预测结果具有可解释性,并且可以帮助相关行业用户更好地理解企业外迁预测结果。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
16.图1为本技术公开的一种企业外迁预测方法流程图;
图2为本技术公开的一种企业外迁预测整体流程图;图3为本技术公开的一种企业外迁预测的结构图;图4为本技术公开的一种具体的企业外迁预测方法流程图;图5为本技术公开的一种第二影响度与相应的企业的数量之间的对应关系示意图;图6为本技术公开的一种企业外迁预测装置结构示意图;图7为本技术公开的一种电子设备结构图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.在招商引资环节,用户在获取到目标招商企业的同时,对于后续能否成功招商存在较大不确定性,其中关键点在于企业是否愿意外迁。基于此类需求,现有技术对于企业外迁预测建立了相关数据及算法模型,但在业务上模型对企业外迁的预测结果不便于用户直观地进行理解,而且对于大量特征的解释难以确定。为此,本技术提供了一种企业外迁预测方法,能够通过将企业的工商数据加工成指标特征,并对指标特征进行预测得到预测结果,然后将预测结果映射至解释词条,使得预测结果具有可解释性。
19.参见图1所示,本发明实施例公开了一种企业外迁预测方法,包括:步骤s11、基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征。
20.本实施例中,如图2所示,获取待检测企业的工商数据,并从待检测企业的工商数据中确定出若干种初始指标特征,以及将若干种初始指标特征存储在指标库中,其中,若干种初始指标特征包括但不限于企业法人、股东在经营区域内外的对外投资、专利、商标、失信记录、以及企业的产业趋势、市场规模等。同时,由于某些指标特征存在潜在关联,因此可以通过对存在潜在关联的指标特征进行加权计算得到新的初始指标特征,以丰富对待检测企业的特征描述。
21.本实施例中,基于各种初始指标特征分别对应的证据权重从若干种初始指标特征中筛选若干种待输入指标特征之前,还包括利用数据分析方法对存在数据缺失的若干种初始指标特征进行数据填充;和/或,利用箱型图对若干种初始指标特征进行异常检测,并利用数据分析方法对存在异常数据的若干种初始指标特征进行数据填充。可以理解的是,通过将待检测企业的工商数据加工成若干种初始指标特征,由于若干种初始指标特征不一定均具备良好的预测能力,因此需要对若干种初始指标特征进行筛选过滤。具体的,首先通过数据分析方法对若干种初始指标特征中的缺失值进行填充,其中,根据若干种初始指标特征中的非空数据和指标库中存储的历史指标特征对缺失值进行简单推理填充,例如,通过非空数据的平均值、分位数、众数等对缺失值进行填充。进一步的,利用箱型图对若干种初始指标特征进行异常检测,以确定若干种初始指标特征中是否存在异常值,若存在异常值,
则利用数据分析方法对若干种初始指标特征中的异常值进行数据填充。其中,箱型图检测异常值的公式如下:;需要说明的是,d表示初始指标特征的值;d
abnormal
=1表示初始指标特征存在异常值;d
abnormal
=0表示初始指标特征不存在异常值;q1为初始指标特征的中位数
×
0.25;q3为初始指标特征的中位数
×
0.75;iqr为q3减去q1。
22.本实施例中,所述基于各种初始指标特征分别对应的证据权重从若干种初始指标特征中筛选若干种待输入指标特征,包括确定各种初始指标特征分别对应的证据权重,并基于各种初始指标特征分别对应的证据权重确定出各种初始指标特征分别对应的信息价值;从若干种初始指标特征中筛选出信息价值大于预设阈值的若干种待输入指标特征。可以理解的是,如图2所示,首先确定出每种初始指标特征分别对应的证据权重(woe,weight of evidence),通过证据权重可以识别和排除对企业外迁预测没有帮助或者具有冗余信息的指标特征,从而降低噪声对企业外迁预测的精度和稳定性的影响。进一步的,根据每种初始指标特征分别对应的证据权重计算出每种初始指标特征分别对应的信息价值(iv,information value),由于信息价值可以用于衡量指标特征的预测能力,因此,通过从若干种初始指标特征中选取信息价值大于预设阈值的若干种待输入指标特征,从而将若干种待输入指标特征输入分类网络模型,其中,预设阈值一般指定为0.1。
23.步骤s12、将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果。
24.本实施例中,将若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测之前,还包括:利用训练集对初始分类网络模型进行训练,以得到预先训练好的分类网络模型;利用验证集对分类网络模型进行验证,以得到企业外迁验证结果;将与验证集对应的企业外迁验证结果转换为第一概率密度函数,并将与验证集对应的企业外迁真实结果转换为第二概率密度函数;计算第一概率密度函数与第二概率密度函数之间的ks(kolmogorov-smirnov,柯尔莫哥洛夫-斯米尔诺夫检验)统计量,并基于ks统计量确定分类阈值。其中,初始分类网络模型可以选取lgbm(light gradient boosting machine,轻量级梯度提升机)模型,也可以根据实际应用场景选取其他分类网络模型。具体的,本技术的方法以lgbm模型为例,如图2所示,lgbm模型是一种基于梯度提升算法的集成学习模型,在尽可能保证模型可解释性的前提下,相对于其他传统机器学习算法,lgbm具有相对更快的训练速度和准确率。进一步的,基于采集到的若干企业的历史工商数据构建训练集和验证集,并利用训练集对初始lgbm模型进行训练,以得到预先训练好的lgbm模型;利用验证集对lgbm模型进行验证,以得到企业外迁验证结果。接下来,使用k-s检验法划定分类阈值,具体步骤为将与验证集对应的企业外迁验证结果和企业外迁真实结果分别转换为概率密度函数,并计算两个概率密度函数之间的ks统计量,在两个概率密度函数差距最大处选取分类阈值,也即基于ks统计量确定分类阈值。由于在预测企业是否发生外迁时,0或1两端值更容
易预测,0表示不外迁,1表示外迁;而差距最大处的值为最难区分是否发生企业外迁的数值,因此可以将差距最大处的值作为划分是否发生企业外迁的分类阈值。在确定出分类阈值之后,通过将若干种待输入指标特征输入至lgbm模型以基于分类阈值进行相应的企业外迁预测,即可得到企业外迁预测结果。
25.需要说明的是,如果需要对企业外迁预测结果进行高、中、低三个等级的划分,需要将企业外迁验证结果的密集分布处对应的数值确定为等级划分阈值。此时若企业外迁预测结果中的预测概率在0~分类阈值之间,则表明企业外迁的可能性为低等级;若预测概率在分类阈值~等级划分阈值之间,则表明企业外迁的可能性为中等级;若预测概率在等级划分阈值~1之间,则表明企业外迁的可能性为高等级。
26.步骤s13、基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征。
27.本实施例中,在从若干种待输入指标特征中筛选出第一影响度满足对应的预设影响度范围的若干种目标指标特征之前,需要先获取若干企业的历史工商数据,并确定若干企业的历史工商数据中的各种指标特征,从而确定出每种指标特征各自对应的预设影响度范围。
28.本实施例中,如图2所示,利用shap(shapley additive explanations)模型分析每种待输入指标特征分别对企业外迁预测结果的第一影响度,其中第一影响度即为沙普利值;由于每种指标特征均有各自对应的预设影响度范围,因此,需要从若干种待输入指标特征中筛选出第一影响度在各自对应的预设影响度范围内的若干种目标指标特征,也即从若干种待输入指标特征中筛选出具有主要影响的若干种目标指标特征。
29.步骤s14、基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。
30.本实施例中,如图2所示,预先构建一个与企业外迁行为相关的预设解释词条库,也即专家解释库,并将指标库与预设解释词条库构建对应关系,这样一来,即可从预设解释词条库中确定出与各种目标指标特征分别匹配的目标解释词条。
31.在一种具体实施方式中,如果若干种目标指标特征的数量为一种,也即此时与目标指标特征匹配的目标解释词条只有一条,则直接对与目标指标特征匹配的目标解释词条进行可视化显示。
32.在另一种具体实施方式中,如果若干种目标指标特征的数量为多种,则基于与各种目标指标特征分别对应的第一影响度和预设指标权重以及与各种目标指标特征分别匹配的目标解释词条的预设词条权重确定出与各种目标指标特征分别对应的排序分值;基于排序分值由大到小的顺序对与各种目标指标特征分别匹配的目标解释词条进行可视化显示。可以理解的是,如果若干种目标指标特征的数量为多种,也即与目标指标特征匹配的目标解释词条的条数大于一条,则需要对目标解释词条进行排序分值的计算之后,按照排序分值的大小顺序对目标解释词条进行可视化显示。排序分值计算公式如下:;
需要说明的是,对于任意一种目标指标特征对应的目标解释词条的排序分值的计算,需要根据该目标指标特征对应的第一影响度v
shapley
、该目标指标特征对应的预设指标权重wi、以及与该目标指标特征匹配的目标解释词条的预设词条权重ws计算相应的排序分值r
score
;其中,预设指标权重和预设词条权重为基于先验知识确定的权重。
33.本实施例中,对于企业外迁预测,企业各维度数据至少为tb(terabyte,太字节)级,一般存储在hdfs(hadoop distributed file system,hadoop分布式文件系统)或s3等大数据存储引擎中,而企业外迁预测需要对多个维度数据共同进行加工并输入至分类网络模型,因此对实时性要求不会太高,一般采用批处理操作对存量企业进行预测。将分类网络模型引入批处理计算的实现较为复杂,若直接将分类网络模型封装为接口,则无法满足高并发场景调用;若使用支持批处理计算的大数据框架实现分布式的算法训练,如spark ml(spark machine learning,spark机器学习),开发成本较高,且受限于框架本身的接口功能,无法灵活应用模型优化器。因此,如图3所示,本技术采用离线训练的方法,利用提前从若干企业的工商数据中随机采样得到的训练集对初始分类网络模型进行训练,通过调整模型参数得到预先训练好的分类网络模型。然后通过模型标准化工具,如pmml(predictive model markup language,预言模型标记语言)将分类网络模型以xml(extensible markup language,可扩展标记语言)文件的形式在大数据框架中进行模型加载和模型广播。对于模型广播,由于企业工商数据至少为tb级,因此大数据框架中设置了多台计算机以分别对相应的企业工商数据进行企业外迁预测,故需要将分类网络模型分别广播至各台计算机。其中,大数据框架包括指标加工模块、模型预测模块、专家解释模块,并且在大数据框架中采用了管道机制中的串联通行,以直接进行全链路处理。需要说明的是,指标加工模块用于将待检测企业的工商数据加工为若干种指标特征;模型预测模块用于对输入分类网络模型的若干种指标特征进行企业外迁预测,得到企业外迁预测结果;专家解释模块用于通过专家解释库将对企业外迁预测结果具有主要影响的指标特征映射至解释词条,以对企业外迁预测结果进行解释;外迁预警库用于存储预测为外迁的企业信息。
34.由此可见,本技术通过将待检测企业的工商数据加工成指标特征,并根据证据权重从若干种初始指标特征中筛选出具有较强预测能力的若干种待输入指标特征,从而排除对企业外迁预测没有帮助或具有冗余信息的特征,降低噪声对企业外迁预测的精度和稳定性的影响;另外,本技术通过shap模型可以确定各种待输入指标特征分别对企业外迁预测结果的影响度,从而根据影响度筛选出具有主要影响的若干种目标指标特征,并从预设解释词条库中确定与各种目标指标特征分别匹配的目标解释词条,以对企业外迁预测结果进行解释,从而使得预测结果具有可解释性,并且可以帮助相关行业用户更好地理解企业外迁预测结果。
35.基于前一实施例可知,本技术描述了企业外迁预测以及预测结果映射至解释词条的完成过程,接下来,本技术将对如何确定任一指标特征对应的预设影响度范围进行详细阐述。参见图4所示,本发明实施例公开了一种预设影响度范围确定的过程,包括:步骤s21、基于shap模型并利用任一指标特征下各企业的历史工商数据内容确定所述任一指标特征对各企业的第二影响度。
36.本实施例中,在离线阶段,对于若干种指标特征中的任一指标特征,通过shap模型对任一指标特征下各个企业的历史工商数据内容进行分析,以得到任一指标特征对各个企
业的第二影响度(沙普利值)分布情况。其中,各个企业的历史工商数据内容为各个企业的历史工商数据中与任一指标特征对应的数据内容。
37.步骤s22、统计具有相同所述第二影响度的企业的数量,并针对数值不同的所述第二影响度构建所述第二影响度与相应的企业的数量之间的对应关系。
38.本实施例中,如图5所示,对具有相同第二影响度的企业的数量进行统计,并将企业的数量作为纵坐标,将数值不同的第二影响度作为横坐标,从而针对数值不同的第二影响度构建第二影响度与相应的企业的数量两者之间的对应关系。
39.步骤s23、对所有所述第二影响度进行分箱划分得到若干分箱区间。
40.本实施例中,判断第二影响度与相应的企业的数量两者之间的对应关系是否遵循幂律分布,如果遵循幂律分布,则对所有第二影响度进行等宽分箱,以得到若干分箱区间;如果不遵循幂律分布,则利用woe方法对所有第二影响度进行分箱划分,以得到若干分箱区间。
41.步骤s24、从所述若干分箱区间中确定出包含与最多企业数量对应的所述第二影响度的目标分箱区间,并筛选出所述目标分箱区间中的企业数量最少的所述第二影响度。
42.本实施例中,基于第二影响度与相应的企业的数量两者之间的对应关系确定出与最多企业数量对应的第二影响度,并从若干分箱区间中确定出包含与最多企业数量对应的第二影响度的目标分箱区间,然后在目标分箱区间中筛选出企业数量最少的第二影响度。
43.步骤s25、基于所述与最多企业数量对应的所述第二影响度和所述目标分箱区间中的企业数量最少的所述第二影响度确定与所述任一指标特征对应的预设影响度范围。
44.本实施例中,从目标分箱区间中确定出预设影响度范围,具体的,与最大企业数量对应的第二影响度即为预设影响度范围的第一个临界值,而目标分箱区间中的企业数量最少的第二影响度即可预设影响度范围的另一个临界值。这样一来,通过上述步骤,即可预先确定出与每种指标特征分别对应的预设影响度范围,以用于后续筛选对企业外迁预测结果具有主要影响的指标特征。
45.由此可见,本技术通过确定任一指标特征对各个企业外迁的第二影响度,以针对数值不同的第二影响度构建第二影响度与相应的企业的数量之间的对应关系,从而对第二影响度进行分箱划分得到若干分箱区间,然后基于与最大企业数量对应的第二影响度确定目标分箱区间,并基于与最大企业数量对应的第二影响度以及目标分箱区间中的企业数量最少的第二影响度确定与任一指标特征对应的预设影响度范围,以此类比,可以确定出与各种指标特征分别对应的预设影响度范围,以便后续从若干种指标特征种筛选出对企业外迁预测结果具有主要影响的指标特征。
46.参见图6所示,本发明实施例公开了一种企业外迁预测装置,包括:指标特征筛选模块11,用于基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征;企业外迁预测模块12,用于将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果;影响度确定模块13,用于基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响
度满足对应的预设影响度范围的若干种目标指标特征;解释词条匹配模块14,用于基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。
47.由此可见,本技术通过将待检测企业的工商数据加工成指标特征,并根据证据权重从若干种初始指标特征中筛选出具有较强预测能力的若干种待输入指标特征,从而排除对企业外迁预测没有帮助或具有冗余信息的特征,降低噪声对企业外迁预测的精度和稳定性的影响;另外,本技术通过shap模型可以确定各种待输入指标特征分别对企业外迁预测结果的影响度,从而根据影响度筛选出具有主要影响的若干种目标指标特征,并从预设解释词条库中确定与各种目标指标特征分别匹配的目标解释词条,以对企业外迁预测结果进行解释,从而使得预测结果具有可解释性,并且可以帮助相关行业用户更好地理解企业外迁预测结果。
48.在一些具体实施例中,所述企业外迁预测装置,还包括:第一数据填充单元,用于利用数据分析方法对存在数据缺失的所述若干种初始指标特征进行数据填充;第二数据填充单元,用于利用箱型图对所述若干种初始指标特征进行异常检测,并利用所述数据分析方法对存在异常数据的所述若干种初始指标特征进行数据填充。
49.在一些具体实施例中,所述指标特征筛选模块11,包括:信息价值确定单元,用于确定各种所述初始指标特征分别对应的证据权重,并基于各种所述初始指标特征分别对应的证据权重确定出各种所述初始指标特征分别对应的信息价值;指标特征筛选单元,用于从所述若干种初始指标特征中筛选出信息价值大于预设阈值的若干种待输入指标特征。
50.在一些具体实施例中,所述企业外迁预测装置,还包括:模型训练单元,用于利用训练集对初始分类网络模型进行训练,以得到预先训练好的分类网络模型;模型验证单元,用于利用验证集对所述分类网络模型进行验证,以得到企业外迁验证结果;函数转换单元,用于将与所述验证集对应的所述企业外迁验证结果转换为第一概率密度函数,并将与所述验证集对应的企业外迁真实结果转换为第二概率密度函数;分类阈值确定单元,用于计算所述第一概率密度函数与所述第二概率密度函数之间的ks统计量,并基于所述ks统计量确定分类阈值;相应的,所述企业外迁预测模块12,包括:企业外迁预测单元,用于将所述若干种待输入指标特征输入至所述分类网络模型以基于所述分类阈值进行相应的企业外迁预测,得到企业外迁预测结果。
51.在一些具体实施例中,所述企业外迁预测装置,还包括:指标特征确定单元,用于获取若干企业的历史工商数据,并确定所述历史工商数据中的各种指标特征;影响度范围确定模块,用于确定每种所述指标特征各自对应的预设影响度范围。
52.在一些具体实施例中,所述影响度范围确定模块,包括:
影响度确定单元,用于基于所述shap模型并利用任一指标特征下各企业的历史工商数据内容确定所述任一指标特征对各企业的第二影响度;对应关系构建单元,用于统计具有相同所述第二影响度的企业的数量,并针对数值不同的所述第二影响度构建所述第二影响度与相应的企业的数量之间的对应关系;分箱区间划分单元,用于对所有所述第二影响度进行分箱划分得到若干分箱区间;分箱区间确定单元,用于从所述若干分箱区间中确定出包含与最多企业数量对应的所述第二影响度的目标分箱区间,并筛选出所述目标分箱区间中的企业数量最少的所述第二影响度;影响度范围确定单元,用于基于所述与最多企业数量对应的所述第二影响度和所述目标分箱区间中的企业数量最少的所述第二影响度确定与所述任一指标特征对应的预设影响度范围。
53.在一些具体实施例中,所述企业外迁预测装置,还包括:第一显示单元,用于若所述若干种目标指标特征的数量为一种,则直接对与所述目标指标特征匹配的目标解释词条进行可视化显示;排序分值确定单元,用于若所述若干种目标指标特征的数量为多种,则基于与各种所述目标指标特征分别对应的第一影响度和预设指标权重以及与各种所述目标指标特征分别匹配的目标解释词条的预设词条权重确定出与各种所述目标指标特征分别对应的排序分值;第二显示单元,用于基于所述排序分值由大到小的顺序对与各种所述目标指标特征分别匹配的目标解释词条进行可视化显示。
54.进一步的,本技术实施例还公开了一种电子设备,图7是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
55.图7为本技术实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的企业外迁预测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
56.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵 循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进 行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
57.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、 磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222 等,存储方式可以是短暂存储或者永久存储。
58.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算 机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的企业外迁预测方法的计算机程序之外,还
可以进一步包括能够用于完成其他特定工作的计算机程序。
59.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的企业外迁预测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
60.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
61.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
62.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
63.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
64.以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种企业外迁预测方法,其特征在于,包括:基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征;将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果;基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征;基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。2.根据权利要求1所述的企业外迁预测方法,其特征在于,所述基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征之前,还包括:利用数据分析方法对存在数据缺失的所述若干种初始指标特征进行数据填充;和/或,利用箱型图对所述若干种初始指标特征进行异常检测,并利用所述数据分析方法对存在异常数据的所述若干种初始指标特征进行数据填充。3.根据权利要求1所述的企业外迁预测方法,其特征在于,所述基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征,包括:确定各种所述初始指标特征分别对应的证据权重,并基于各种所述初始指标特征分别对应的证据权重确定出各种所述初始指标特征分别对应的信息价值;从所述若干种初始指标特征中筛选出信息价值大于预设阈值的若干种待输入指标特征。4.根据权利要求1所述的企业外迁预测方法,其特征在于,所述将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测之前,还包括:利用训练集对初始分类网络模型进行训练,以得到预先训练好的分类网络模型;利用验证集对所述分类网络模型进行验证,以得到企业外迁验证结果;将与所述验证集对应的所述企业外迁验证结果转换为第一概率密度函数,并将与所述验证集对应的企业外迁真实结果转换为第二概率密度函数;计算所述第一概率密度函数与所述第二概率密度函数之间的ks统计量,并基于所述ks统计量确定分类阈值;相应的,所述将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果,包括:将所述若干种待输入指标特征输入至所述分类网络模型以基于所述分类阈值进行相应的企业外迁预测,得到企业外迁预测结果。5.根据权利要求1所述的企业外迁预测方法,其特征在于,所述从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征之前,还包括:获取若干企业的历史工商数据,并确定所述历史工商数据中的各种指标特征;
确定每种所述指标特征各自对应的预设影响度范围。6.根据权利要求5所述的企业外迁预测方法,其特征在于,确定任一指标特征对应的预设影响度范围,包括:基于所述shap模型并利用任一指标特征下各企业的历史工商数据内容确定所述任一指标特征对各企业的第二影响度;统计具有相同所述第二影响度的企业的数量,并针对数值不同的所述第二影响度构建所述第二影响度与相应的企业的数量之间的对应关系;对所有所述第二影响度进行分箱划分得到若干分箱区间;从所述若干分箱区间中确定出包含与最多企业数量对应的所述第二影响度的目标分箱区间,并筛选出所述目标分箱区间中的企业数量最少的所述第二影响度;基于所述与最多企业数量对应的所述第二影响度和所述目标分箱区间中的企业数量最少的所述第二影响度确定与所述任一指标特征对应的预设影响度范围。7.根据权利要求1至6任一项所述的企业外迁预测方法,其特征在于,所述基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条之后,还包括:若所述若干种目标指标特征的数量为一种,则直接对与所述目标指标特征匹配的目标解释词条进行可视化显示;若所述若干种目标指标特征的数量为多种,则基于与各种所述目标指标特征分别对应的第一影响度和预设指标权重以及与各种所述目标指标特征分别匹配的目标解释词条的预设词条权重确定出与各种所述目标指标特征分别对应的排序分值;基于所述排序分值由大到小的顺序对与各种所述目标指标特征分别匹配的目标解释词条进行可视化显示。8.一种企业外迁预测装置,其特征在于,包括:指标特征筛选模块,用于基于待检测企业的工商数据确定对应的若干种初始指标特征,并基于各种所述初始指标特征分别对应的证据权重从所述若干种初始指标特征中筛选若干种待输入指标特征;企业外迁预测模块,用于将所述若干种待输入指标特征输入至分类网络模型以进行相应的企业外迁预测,得到企业外迁预测结果;影响度确定模块,用于基于shap模型确定各种所述待输入指标特征分别对所述企业外迁预测结果的第一影响度,并从所述若干种待输入指标特征中筛选出所述第一影响度满足对应的预设影响度范围的若干种目标指标特征;解释词条匹配模块,用于基于与企业外迁行为相关的预设解释词条库确定与各种所述目标指标特征分别匹配的目标解释词条。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的企业外迁预测方法。10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的企业外迁预测方法。
技术总结
本申请公开了一种企业外迁预测方法、装置、设备及存储介质,涉及企业外迁领域,包括:基于待检测企业的工商数据确定若干种初始指标特征,基于各种初始指标特征分别对应的证据权重筛选若干种待输入指标特征;利用分类网络模型对若干种待输入指标特征进行企业外迁预测得到预测结果;基于SHAP模型确定各种待输入指标特征分别对预测结果的影响度,从若干种待输入指标特征中筛选出影响度满足预设影响度范围的若干种目标指标特征,基于与企业外迁行为相关的预设解释词条库确定出与目标指标特征匹配的解释词条。本申请通过将企业的工商数据加工成指标特征,并对指标特征进行预测得到预测结果,将预测结果映射至解释词条,使得预测结果具有可解释性。测结果具有可解释性。测结果具有可解释性。
技术研发人员:王启宁 张明博 熊泽华
受保护的技术使用者:浙江同信企业征信服务有限公司
技术研发日:2023.08.15
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
