基于运营商数据分析模型的收入风险识别方法与流程
未命名
07-27
阅读:118
评论:0
1.本发明涉及数据分析技术领域,特别涉及一种基于运营商数据分析模型的收入风险识别方法。
背景技术:
2.为了帮助低收入人群真正全面稳定摆脱低收入状态,保证其经济状态更加稳固并更可持续,要加快建立的低收入风险人群识别机制,就需要对摆脱低收入的人群加强监测,对摆脱低收入的人群数据进行更深入的研究分析。对于部分已摆脱低收入状态,但质量不高、不稳的人群,构建和完善科学合理的预警与监测机制,衔接推进和进一步巩固其经济条件和生活状态尤为重要。
3.目前初步形成了先创建低收入风险人群识别制度,在其陷入低收入状态前就做到筛查与识别,利用大数据技术手段,分析摆脱低收入的人群再次陷入低收入状态的概率、及时发出预警。但是,当前低收入风险人群识别监测系统存在数据收集不连续、覆盖不全面等问题。
4.基于上述情况,本发明提出了一种基于运营商数据分析模型的收入风险识别方法。
技术实现要素:
5.本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于运营商数据分析模型的收入风险识别方法。
6.本发明是通过如下技术方案实现的:
7.一种基于运营商数据分析模型的收入风险识别方法,其特征在于:其特征在于:包括以下步骤:
8.步骤s1、采集用于建立低收入风险人群监测评估模型所需的数据;
9.步骤s2、对步骤s1中采集的数据进行分析和处理,并根据建立低收入风险人群监测评估模型需求挑选特征项;
10.步骤s3、基于步骤s2中输出的特征项数据进行模型训练、评估和调优,输出低收入风险人群监测评估模型;
11.步骤s4、将步骤s3中获取的低收入风险人群监测评估模型转换为标准评分卡,并依据标准评分卡评定人群的低收入风险等级。
12.所述步骤s1中,采集的数据包括对但不限于运营商数据和摆脱低收入的人口信息数据;
13.所述运营商数据包括但不限于运营商的画像特征类数据和行为特征类数据;
14.以所述摆脱低收入的人口信息数据为核心建档立卡,收集摆脱低收入的人群收入监测数据,将相关行业数据通过身份证号和/或行政区划代码与摆脱低收入的人口信息数据进行联接,从而形成监测对象及其家庭的数字画像。
15.所述画像特征类数据是指易陷入低收入的人群画像特征,包括但不限于手机终端、用户身份标签、通信消费的级别与活跃度维度;
16.所述行为特征类数据是指易陷入低收入的人群行为特征,包括但不限于贷款需求洞察和每月出入医院次数。
17.所述步骤s2中,涉及低收入风险人群识别监测系统数据应用分析主题场景,结合需求分析结构,借助统计分析和数据挖掘方法构建维度模型和指标模型,对业务需求进行抽象化表达,构建适用于该分析主题的算法模型,利用摆脱低收入的人群数据建立低收入风险人群监测评估模型,选择模型目标和特征项。
18.所述步骤s2中,基于运营商数据、电网数据和人口信息构建防止再次陷入低收入的人群数据信息比对低收入相似度算法模型,开展低收入人群画像识别,常态化开展,选择模型目标;
19.以运营商大数据提供全量人口概要分析,通过分析当前易陷入低收入风险的人口的年龄、性别、家庭状况与职业特征数据,满足对区域内模型目标的长期趋势研究需要,宏观掌握重点关注区域人口整体情况及变化趋势。
20.所述步骤s2中通过运营商数据融合电力数据与医疗数据,实现家庭信用评分;
21.所述特征项包括但不限于包括家庭基本信息、家庭金融特征和家庭风险特征;
22.所述家庭基本信息包括但不限于家庭人数、儿童年龄、教育层次、养老需求和房产汽车固定资产;
23.所述家庭金融特征包括但不限于家庭消费水平,家庭收入水平,收入稳定度、经济来源结构,房车支出需求和借债情况;
24.所述家庭风险特征包括但不限于家庭稳定度、家庭健康状况、是否有违约成员以及是否有突发状况。
25.所述步骤s3中,建立低收入风险人群监测评估模型,包括以下步骤:
26.步骤s31、变量分箱;
27.对原始数据中的连续变量进行分段离散化,并将多状态的离散变量进行合并,减少离散变量的状态数;
28.步骤s32、证据权重变换;
29.所述证据权重用于表示当前分箱中高风险人群和低风险人群的比值与所有样本中该比值的差异;证据权重越大,差异越大,当前分组里出现坏样本的概率就越大,反之,当前分组里出现坏样本的概率就越小;
30.步骤s33、变量筛选;
31.基于信息价值(information value,iv)挑选单变量,单变量iv值越大,表示自变量的预测能力越强;
32.步骤s34、构建逻辑回归模型;
33.在预处理数据的基础上,利用网格搜索和交叉验证获取最优模型;
34.步骤s35、模型评价;
35.选择表示模型对任意坏样本的输出结果为大于模型对任意好样本的输出结果的概率的auc(area under curve)、表示了模型区分好坏样本能力的ks值(kolmogorov-smirnov)以及能够代表模型稳定度的psi值(population stability index),对逻辑回归
模型进行评价。
36.所述步骤s31中,基于cart算法对连续变量进行最优分箱,处理特征变量中的缺失值和异常值,简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力。
37.所述步骤s32中,证据权重woe计算公式为:
[0038][0039]
其中,badi为第i个分箱的坏样本数量,bad
t
为总的坏样本数量,goodi为第i个分箱的好样本数量,good
t
为总的好样本数量,坏样本代表原本低收入重点监测人群特征数据。
[0040]
所述步骤s33中,单变量iv值计算公式如下
[0041][0042]
其中,n代表变量分箱数量。
[0043]
所述步骤s33中,基于方差膨胀系数vif衡量所选变量的多重线性严重程度,当某个变量的方差膨胀系数vif大于自定义阈值时,逐一剔除解释变量。
[0044]
所述步骤s3中,基于业务需求,依据所述标准评分卡评定,评定出红、黄与蓝三级预警数据,红色为最严重等级,黄色次之,蓝色则代表需引起关注;通过数据中台与政务专线通道,将预警数据脱敏后推送给当地政务云平台,为再次陷入低收入的人群监测提供持续且稳定的数据支撑;
[0045]
再次陷入低收入的风险的相对概率odds表示为:
[0046][0047]
其中,p为坏样本概率,好样本的概率为1-p;
[0048]
评分卡的分值score定义为比率对数的线性表达式为:
[0049]
score=a-b
×
log(odds)=a-b(wo+w1x1+
…
+wnxn)
[0050]
其中,a与b是常数,wj(j=0,1,2,...,n)为学习参数,xi(i=1,2,...,n)为待监测摆脱低收入的人群特征项数据;b前面的负号代表陷入低收入的风险越低,得分越高,高分值代表低风险,低分值代表高风险。
[0051]
一种基于运营商数据分析模型的收入风险识别设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述的方法步骤。
[0052]
一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
[0053]
本发明的有益效果是:该基于运营商数据分析模型的收入风险识别方法,无线增加额外辅助设备,基于评分卡模型和运营商数据构建算法模型,开展低收入人群画像识别风险评估,筛选疑似再次陷入低收入人群的用户信息,制作评分卡并评估监测对象再次陷入低收入的风险高低,为摆脱低收入的人群再次陷入低收入进行风险监测提供了决策依据。
附图说明
[0054]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0055]
附图1为本发明基于运营商数据分析模型的收入风险识别方法示意图。
具体实施方式
[0056]
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0057]
运营商数据具有连续性好、实时性强、覆盖面广等特点,恰恰可以弥补当前低收入风险人群识别监测系统存在的数据收集不连续、覆盖不全面的问题。
[0058]
该基于运营商数据分析模型的收入风险识别方法,包括以下步骤:
[0059]
步骤s1、采集用于建立低收入风险人群监测评估模型所需的数据;
[0060]
步骤s2、对步骤s1中采集的数据进行分析和处理,并根据建立低收入风险人群监测评估模型需求挑选特征项;
[0061]
步骤s3、基于步骤s2中输出的特征项数据进行模型训练、评估和调优,输出低收入风险人群监测评估模型;
[0062]
步骤s4、将步骤s3中获取的低收入风险人群监测评估模型转换为标准评分卡,并依据标准评分卡评定人群的低收入风险等级。
[0063]
所述步骤s1中,采集的数据包括对但不限于运营商数据和摆脱低收入的人口信息数据;
[0064]
所述运营商数据包括但不限于运营商的画像特征类数据和行为特征类数据;
[0065]
以所述摆脱低收入的人口信息数据为核心建档立卡,收集摆脱低收入的人群收入监测数据,将相关行业数据通过身份证号和/或行政区划代码与摆脱低收入的人口信息数据进行联接,从而形成监测对象及其家庭的数字画像。例如监测对象的医保和民政数据的联接。
[0066]
所述画像特征类数据是指易陷入低收入的人群画像特征,包括但不限于手机终端、用户身份标签、通信消费的级别与活跃度维度;
[0067]
所述行为特征类数据是指易陷入低收入的人群行为特征,包括但不限于贷款需求洞察和每月出入医院次数(场所出入频次)。
[0068]
所述步骤s2中,涉及低收入风险人群识别监测系统数据应用分析主题场景,结合需求分析结构,借助统计分析和数据挖掘方法构建维度模型和指标模型,对业务需求进行抽象化表达,构建适用于该分析主题的算法模型,利用摆脱低收入的人群数据建立低收入风险人群监测评估模型,选择模型目标和特征项。
[0069]
所述步骤s2中,基于运营商数据、电网数据和人口信息构建防止再次陷入低收入的人群数据信息比对低收入相似度算法模型,开展低收入人群画像识别,常态化开展,选择
模型目标;
[0070]
以运营商大数据提供全量人口概要分析,通过分析当前易陷入低收入风险的人口的年龄、性别、家庭状况与职业特征数据,满足对区域内模型目标的长期趋势研究需要,宏观掌握重点关注区域人口整体情况及变化趋势。
[0071]
所述步骤s2中通过运营商数据融合电力数据与医疗数据,实现家庭信用评分;
[0072]
所述特征项包括但不限于包括家庭基本信息、家庭金融特征和家庭风险特征;
[0073]
所述家庭基本信息包括但不限于家庭人数、儿童年龄、教育层次、养老需求和房产汽车固定资产;
[0074]
所述家庭金融特征包括但不限于家庭消费水平,家庭收入水平,收入稳定度、经济来源结构,房车支出需求和借债情况;
[0075]
所述家庭风险特征包括但不限于家庭稳定度、家庭健康状况、是否有违约成员以及是否有突发状况(离异、去世、大病等)。
[0076]
所述步骤s3中,建立低收入风险人群监测评估模型,包括以下步骤:
[0077]
步骤s31、变量分箱;
[0078]
对原始数据中的连续变量进行分段离散化,并将多状态的离散变量进行合并,减少离散变量的状态数;
[0079]
步骤s32、证据权重(weight ofevidence,woe)变换;
[0080]
所述证据权重用于表示当前分箱中高风险人群和低风险人群的比值与所有样本(随机挑选)中该比值的差异;证据权重越大,差异越大,当前分组里出现坏样本的概率就越大,反之,当前分组里出现坏样本的概率就越小;
[0081]
步骤s33、变量筛选;
[0082]
基于信息价值(information value,iv)挑选单变量,单变量iv值越大,表示自变量的预测能力越强;
[0083]
步骤s34、构建逻辑回归模型;
[0084]
在预处理数据的基础上,利用网格搜索和交叉验证获取最优模型;
[0085]
步骤s35、模型评价;
[0086]
选择表示模型对任意坏样本的输出结果为大于模型对任意好样本的输出结果的概率的auc(area under curve)、表示了模型区分好坏样本能力的ks值(kolmogorov-smirnov)以及能够代表模型稳定度的psi值(population stability index),对逻辑回归模型进行评价。
[0087]
所述步骤s31中,基于cart(分类与回归树)算法对连续变量进行最优分箱,处理特征变量中的缺失值和异常值,简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力。
[0088]
所述步骤s32中,证据权重woe计算公式为:
[0089][0090]
其中,badi为第i个分箱的坏样本数量,bad
t
为总的坏样本数量,goodi为第i个分箱的好样本数量,good
t
为总的好样本数量,坏样本代表原本低收入重点监测人群特征数据。
[0091]
初步挑选的变量可能与目标变量相关性较低,为了保障建模效果,完成woe编码之
后,需要进行s33变量挑选。
[0092]
所述步骤s33中,单变量iv值计算公式如下
[0093][0094]
其中,n代表变量分箱数量。
[0095]
除了单变量筛选之外,为了保障逻辑回归模型转化为标准评分的时候变量的可解释性,所述步骤s32中,基于方差膨胀系数(variance inflation factor,vif)衡量所选变量的多重线性严重程度,当某个变量的方差膨胀系数vif大于自定义阈值时,逐一剔除解释变量。
[0096]
所述步骤s3中,基于业务需求,依据所述标准评分卡评定,评定出红、黄与蓝三级预警数据,红色为最严重等级,黄色次之,蓝色则代表需引起关注;通过数据中台与政务专线通道,将预警数据脱敏后推送给当地政务云平台,为再次陷入低收入的人群监测提供持续且稳定的数据支撑;
[0097]
再次陷入低收入的风险的相对概率odds表示为:
[0098][0099]
其中,p为坏样本概率,好样本的概率为1-p;
[0100]
评分卡的分值score定义为比率对数的线性表达式为:
[0101]
score=a-b
×
log(odds)=a-b(wo+w1x1+
…
wnxn[0102]
其中,a与b是常数,wj(j=0,1,2,...,n)为学习参数,在步骤s3中进行模型训练后得到;xi(i=1,2,...,n)为待监测摆脱低收入的人群特征项数据;b前面的负号代表陷入低收入的风险越低,得分越高,高分值代表低风险,低分值代表高风险。
[0103]
最终得到的格式如下表所示:
[0104]
[0105][0106]
当评分卡建立完成后,评分越高,风险越低,反之风险越高。
[0107]
该基于运营商数据分析模型的收入风险识别设备,包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现上述的方法步骤。
[0108]
该可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
[0109]
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
技术特征:
1.一种基于运营商数据分析模型的收入风险识别方法,其特征在于:包括以下步骤:步骤s1、采集用于建立低收入风险人群监测评估模型所需的数据;步骤s2、对步骤s1中采集的数据进行分析和处理,并根据建立低收入风险人群监测评估模型需求挑选特征项;步骤s3、基于步骤s2中输出的特征项数据进行模型训练、评估和调优,输出低收入风险人群监测评估模型;步骤s4、将步骤s3中获取的低收入风险人群监测评估模型转换为标准评分卡,并依据标准评分卡评定人群的低收入风险等级。2.根据权利要求1所述的基于运营商数据分析模型的收入风险识别方法,其特征在于:所述步骤s1中,采集的数据包括对但不限于运营商数据和摆脱低收入的人口信息数据;所述运营商数据包括但不限于运营商的画像特征类数据和行为特征类数据;所述画像特征类数据是指易陷入低收入的人群画像特征,包括但不限于手机终端、用户身份标签、通信消费的级别与活跃度维度;所述行为特征类数据是指易陷入低收入的人群行为特征,包括但不限于贷款需求洞察和每月出入医院次数;以所述摆脱低收入的人口信息数据为核心建档立卡,收集摆脱低收入的人群收入监测数据,将相关行业数据通过身份证号和/或行政区划代码与摆脱低收入的人口信息数据进行联接,从而形成监测对象及其家庭的数字画像。3.根据权利要求2所述的基于运营商数据分析模型的收入风险识别方法,其特征在于:所述步骤s2中,涉及低收入风险人群识别监测系统数据应用分析主题场景,结合需求分析结构,借助统计分析和数据挖掘方法构建维度模型和指标模型,对业务需求进行抽象化表达,构建适用于该分析主题的算法模型,利用摆脱低收入的人群数据建立低收入风险人群监测评估模型,选择模型目标和特征项;所述步骤s2中,基于运营商数据、电网数据和人口信息构建防止再次陷入低收入的人群数据信息比对低收入相似度算法模型,开展低收入人群画像识别,常态化开展,选择模型目标;以运营商大数据提供全量人口概要分析,通过分析当前易陷入低收入风险的人口的年龄、性别、家庭状况与职业特征数据,满足对区域内模型目标的长期趋势研究需要,宏观掌握重点关注区域人口整体情况及变化趋势;所述步骤s2中通过运营商数据融合电力数据与医疗数据,实现家庭信用评分;所述特征项包括但不限于包括家庭基本信息、家庭金融特征和家庭风险特征;所述家庭基本信息包括但不限于家庭人数、儿童年龄、教育层次、养老需求和房产汽车固定资产;所述家庭金融特征包括但不限于家庭消费水平,家庭收入水平,收入稳定度、经济来源结构,房车支出需求和借债情况;所述家庭风险特征包括但不限于家庭稳定度、家庭健康状况、是否有违约成员以及是否有突发状况。4.根据权利要求1所述的基于运营商数据分析模型的收入风险识别方法,其特征在于:
所述步骤s3中,建立低收入风险人群监测评估模型,包括以下步骤:步骤s31、变量分箱;对原始数据中的连续变量进行分段离散化,并将多状态的离散变量进行合并,减少离散变量的状态数;步骤s32、证据权重变换;所述证据权重用于表示当前分箱中高风险人群和低风险人群的比值与所有样本中该比值的差异;证据权重越大,差异越大,当前分组里出现坏样本的概率就越大,反之,当前分组里出现坏样本的概率就越小;步骤s33、变量筛选;基于信息价值iv挑选单变量,单变量iv值越大,表示自变量的预测能力越强;步骤s34、构建逻辑回归模型;在预处理数据的基础上,利用网格搜索和交叉验证获取最优模型;步骤s35、模型评价;选择表示模型对任意坏样本的输出结果为大于模型对任意好样本的输出结果的概率的auc、表示了模型区分好坏样本能力的ks值以及能够代表模型稳定度的psi值,对逻辑回归模型进行评价。5.根据权利要求4所述的基于运营商数据分析模型的收入风险识别方法,其特征在于:所述步骤s31中,基于cart算法对连续变量进行最优分箱,处理特征变量中的缺失值和异常值,简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力。6.根据权利要求4所述的基于运营商数据分析模型的收入风险识别方法,其特征在于:所述步骤s32中,证据权重woe计算公式为:其中,bad
i
为第i个分箱的坏样本数量,bad
t
为总的坏样本数量,good
i
为第i个分箱的好样本数量,good
t
为总的好样本数量,坏样本代表原本低收入重点监测人群特征数据;所述步骤s33中,单变量iv值计算公式如下其中,n代表变量分箱数量;所述步骤s33中,基于方差膨胀系数vif衡量所选变量的多重线性严重程度,当某个变量的方差膨胀系数vif大于自定义阈值时,逐一剔除解释变量。7.根据权利要求4所述的基于运营商数据分析模型的收入风险识别方法,其特征在于:所述步骤s3中,基于业务需求,依据所述标准评分卡评定,评定出红、黄与蓝三级预警数据,红色为最严重等级,黄色次之,蓝色则代表需引起关注;通过数据中台与政务专线通道,将预警数据脱敏后推送给当地政务云平台,为再次陷入低收入的人群监测提供持续且稳定的数据支撑;再次陷入低收入的风险的相对概率odds表示为:
其中,p为坏样本概率,好样本的概率为1-p;评分卡的分值score定义为比率对数的线性表达式为:score=a-b
×
log(odds)=a-b(w0+w1x1+
…
+w
n
x
n
)其中,a与b是常数;w
j
为学习参数,j=0,1,2,...,n;x
i
为待监测摆脱低收入的人群特征项数据,i=1,2,...,n;b前面的负号代表陷入低收入的风险越低,得分越高,高分值代表低风险,低分值代表高风险。8.一种基于运营商数据分析模型的收入风险识别设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至7任意一项所述的方法步骤。9.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法步骤。
技术总结
本发明特别涉及一种基于运营商数据分析模型的收入风险识别方法。该基于运营商数据分析模型的收入风险识别方法,采集用于建立低收入风险人群监测评估模型所需的数据,进行分析和处理,并根据建立模型需求挑选特征项;基于特征项数据进行模型训练、评估和调优,输出低收入风险人群监测评估模型;将获取的评分模型转换为标准评分卡,并依据标准评分卡评定人群的低收入风险等级。该基于运营商数据分析模型的收入风险识别方法,无线增加额外辅助设备,基于评分卡模型和运营商数据构建算法模型,开展低收入人群画像识别风险评估,筛选疑似再次陷入低收入人群的用户信息,从而避免摆脱低收入的人群再次陷入低收入状态。入的人群再次陷入低收入状态。入的人群再次陷入低收入状态。
技术研发人员:娄焕兴 许德敏 李占述
受保护的技术使用者:浪潮通信信息系统有限公司
技术研发日:2022.12.27
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
