基于用户行为数据的信用数据分析方法及系统
未命名
08-14
阅读:220
评论:0
1.本发明涉及数据处理技术领域,尤其涉及一种基于用户行为数据的信用数据分析方法及系统。
背景技术:
2.近年来,互联网金融的快速发展使用户信用数据分析变得愈发重要。仅凭基本信息对用户进行信用评定很难有效判断用户违约的风险,除此之外,与用户强相关的金融属性的数据很难获取,且获取成本很高,导致获取到的有效数据十分有限,这对构建高准确率的信用数据分析系统造成了很大的困难。并且随着互联网金融的迅速发展,数据维度呈现爆炸性增长,导致数据具有高维稀疏的特点。此外,在风控建模当中,结构化数据清洗加工繁重、数据变换存在矩阵稀疏导致损失信息过多,特征提取困难,同时较高维度的数据已超出传统评分卡模型所能处理的数据范围。
3.但是,机器学习模型对于具有上述特点的数据建模具有明显优势。一方面机器学习模型可以帮助筛选数据中影响建模效果的无关的和冗余的特征数据。通过特征选择可有效对数据进行维度缩减,降低模型的计算复杂度,提高模型的运算速度和精度。另一方面机器学习模型还可以在高维稀疏数据中发现规律和模式,具有较强的泛化能力。通过机器学习建模可以有效提高模型的预测和分类性能,同时防止模型出现过拟合的情况。
4.与此同时,数据漂移问题对近年来机器学习模型的实际投产产生了极大的困难。数据漂移是指数据的分布随着时间或空间推移逐渐发生变化,需要预测或验证的数据和用于训练的数据分布表现出明显的偏移,这会明显降低系统模型的预测性能。因此,在基于用户行为数据进行信用数据分析时准确率较低。
技术实现要素:
5.有鉴于此,本发明实施例提供了一种基于用户行为数据的信用数据分析方法及系统,解决了基于用户行为数据进行信用数据分析时准确率较低的技术问题。
6.本发明提供了一种基于用户行为数据的信用数据分析方法,包括:采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据;对所述多个用户行为数据以及每个所述用户行为数据对应的标签数据进行数据整合,得到用户数据集合;对所述用户数据集合进行数据预处理,得到待分析数据集合;通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合;通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合;对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端。
7.在本发明中,所述采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据步骤,包括:采集多个用户行为数据,并
对每个所述用户行为数据进行时间数据提取,确定每个所述用户行为数据对应的时间数据;基于每个所述用户行为数据对应的时间数据,对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据。
8.在本发明中,所述对所述用户数据集合进行数据预处理,得到待分析数据集合步骤,包括:对所述用户数据集合进行异常值分析,确定目标异常值,并通过所述异常值对所述用户数据集合进行缺失值分析,确定目标缺失值;基于所述目标缺失值,对所述用户数据集合进行数据填充处理,得到待分析数据集合。
9.在本发明中,所述通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合步骤,包括:通过所述过滤式特征提取算法对所述待分析数据集合进行冗余特征剔除,得到待处理特征集合;对所述待处理特征集合进行特征相关性分析,得到特征相关性分析结果;通过所述特征相关性分析结果对所述待处理特征集合进行特征提取,得到第一候选特征集合。
10.在本发明中,所述通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合步骤,包括:通过包裹式特征提取算法对所述第一候选特征集合中每个第一候选特征进行重要度分析,确定每个第一候选特征的重要度数据;基于每个第一候选特征的重要度数据对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合。
11.在本发明中,所述对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合步骤,包括:通过预置的对抗分类器对所述第二候选特征集合进行数据漂移检测,生成数据漂移检测结果;通过所述数据漂移检测结果对所述第二候选特征集合进行特征筛选处理,得到目标特征集合。
12.在本发明中,在所述对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合步骤之后,在所述通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端步骤之前,包括:对初始信用数据分析模型进行初始超参数分析,确定初始超参数组合;对所述初始超参数组合进行先验概率分布分析,确定先验概率分布数据;通过所述第二候选特征集合对所述初始信用数据分析模型进行模型训练,生成训练集以及测试集;通过所述训练集以及所述测试集对所述初始超参数组合进行后验概率分布分析,确定后验概率分布数据;基于所述后验概率分布数据对所述初始超参数组合进行迭代分析,确定最优超参数组合;基于所述最优超参数组合对所述初始信用数据分析模型进行参数配置,得到所述目标信用数据分析模型。
13.本发明还提供了一种基于用户行为数据的信用数据分析系统,包括:数据采集模块,用于采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据;数据整合模块,用于对所述多个用户行为数据以及每个所述用户行为数据对应的标签数据进行数据整合,得到用户数据集合;数据处理模块,用于对所述用户数据集合进行数据预处理,得到待分析数据集合;第一提取模块,用于通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合;
第二提取模块,用于通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合;特征筛选模块,用于对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;信用分析模块,用于通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端。
14.本发明提供的技术方案中,采集多个用户行为数据并进行标签匹配,确定对应的标签数据;对多个用户行为数据及标签数据进行数据整合,得到用户数据集合;对用户数据集合进行数据预处理,得到待分析数据集合;通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理得到第一候选特征集合;通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理得到第二候选特征集合;对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;对目标特征集合进行信用数据分析,得到信用数据分析结果并将信用数据分析结果传输至预置的数据处理终端,在本发明实施例中,更关注用户行为数据对其信用情况的影响,在不需要获取高成本且不易获取的与用户强相关的金融属性的数据的情况下,建立了具有较高准确率的基于用户行为数据的信用数据分析系统,一方面,在本发明实施例中,直接将类别型特征转化为数值型特征,不需要对类别型特征进行独热编码等操作避免增加数据维度,快速高效。另一方面本发明通过对梯度的无偏估计,相比传统的梯度估计方法降低了估计偏差的影响,解决了梯度偏差和预测偏移的问题,从而有效提高了系统模型的泛化能力。因此本发明可以以较快的训练速度对用户的信用情况进行预测,并具有更准确的预测能力以及更优的泛化性能,以进一步提升基于用户行为数据对信用数据分析时的准确率。
附图说明
15.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1为本发明实施例中基于用户行为数据的信用数据分析方法的流程图。
17.图2为本发明实施例中冗余特征的十分位分布图。
18.图3为本发明实施例中非冗余特征的十分位分布图。
19.图4为本发明实施例中通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理的流程图。
20.图5为本发明实施例中过滤式特征选择剩余特征的重要性分布图。
21.图6为本发明实施例中基于用户行为数据的信用数据分析系统的示意图。
22.附图标记:3001、数据采集模块;3002、数据整合模块;3003、数据处理模块;3004、第一提取模块;3005、第二提取模块;3006、特征筛选模块;3007、信用分析模块;3008、参数分析模块;3009、分布分析模块;3010、模型训练模块;3011、概率分析模块;3012、迭代分析模块;3013、
参数配置模块。
具体实施方式
23.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.在本发明的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
25.请参阅图1,图1是本发明实施例的基于用户行为数据的信用数据分析方法的流程图,如图1所示,包括以下步骤:s101、采集多个用户行为数据,并对多个用户行为数据进行标签匹配,确定每个用户行为数据对应的标签数据;需要说明的是,用户行为数据包括用户使用的app信息、用户使用的设备信息以及用户近期位置移动信息,进一步的,对多个用户行为数据进行标签匹配,确定每个用户行为数据对应的标签数据,需要说明的是,在本发明实施例中,用户行为数据主要包括用户在采集时间段内使用的app列表以及对应app所属分类,后续参考app分类信息以及相关业务合作对app进行重新分类。分类之前因为实际采集的app数据存在乱码现象且真实性有待验证,首先针对乱码现象,删除字符长度大于20的app数据,之后使用常用汉字进行app名称匹配,保留匹配度较高的app数据,经过上述操作完成乱码处理。表1-每个分类部分特征的具体含义
26.其次本发明参考国内专业的移动推广数据分析平台七麦数据下载真实的app数据以验证本发明采集app数据的真实性。最后统计当前所有用户单个app的使用频率,319,071个app中几乎83%的app使用频率只有1次,因此本发明保留使用频率较高的前5万的app数据。用户所使用的设备信息,具体包括设备的上市价格、年份、上市距今年限、设备最新活跃时间、设备在收集数据时间段内的活跃天数等数据。用户在采集时间段内的位置移动信息,
粗略定位为用户所属的省区县,精确可获取用户位置的经纬度信息。根据真实收集的三部分行为数据,基于一定的加工逻辑对用户行为数据进行加工。数据收集和加工工作耗费了大量的时间和人力,但数据的可信度、真实有效性以及通用性都具有十分显著的优势。真实准确的数据来源是建模的关键之处,也是系统模型得以长期适用的基础。
27.需要说明的是,待分析数据集合中的行为数据特征包括三个部分:1)用户使用的app信息,包括金融app使用偏好、其他app使用偏好、金融标签以及其他标签四个大类。具体来说,app使用偏好类特征指用户设备近7天、15天、30天或90天内各类app的安装、新增、卸载款数以及各类app的活跃天数。标签类特征是指某类特征用户打开次数;2)用户使用的设备信息,包括用户使用设备的上市价格、年份、上市距今年限以及近30天内设备所对应的mac地址的个数;3)用户近期位置移动信息,包括用户在便利店近期出现次数。用户行为数据包含六个分类共94个特征,如表1所示,详细展示了每个分类部分特征的具体含义。s102、对多个用户行为数据以及每个用户行为数据对应的标签数据进行数据整合,得到用户数据集合;
28.具体的,对多个用户行为数据以及每个用户行为数据对应的标签数据进行数据合并处理,得到用户数据集合,其中,本发明还获取了同一批用户的信用记录数据,将用户表现期定义为三个月,若在表现期内用户的信用记录数据中的时间数据超过预设的第一阈值时则定义为正样本,若用户的信用记录数据中的时间数据未超过预设的第二阈值时则定义为负样本,建模数据只需要获取明确定义为正样本和负样本的数据即可。该数据集的时间范围为2021年9月1日至2021年12月31日,包括142,793条数据。数据集整合划分的结果具体如表2所示。表2-数据集划分结果
29.需要说明的是,表2中oot为跨时间验证集,跨时间验证集为建模样本时间切片的最后一段样本。s103、对用户数据集合进行数据预处理,得到待分析数据集合;
30.需要说明的是,在对用户数据集合进行预处理时,首先将用户行为数据和是否违约的标签数据进行整合形成最终的数据集,同时完成数据集的划分,之后进行异常值处理和缺失值处理,并根据模型效果确定缺失值的填充方法。
31.具体的,在对用户数据集合进行数据预处理时,对用户数据集合进行异常值分析,确定目标异常值,并通过异常值对用户数据集合进行缺失值分析,确定目标缺失值,基于目标缺失值,对用户数据集合进行数据填充处理,得到待分析数据集合。
32.需要说明的是,由于缺失度较高的特征数据会影响建模效果,所以对于列特征缺失度高于80%的特征列采用直接删除的策略,其次采用箱型图并结合专家经验进行异常值的检测和确定,确定为异常值的数据当作缺失值处理,最后采用固定值填充、均值填充、上一个数据、插值法填充等多种方法进行缺失值填充,根据系统模型效果决定对于每一列的
缺失值,采用当列均值进行填充。s104、通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理,得到第一候选特征集合;s105、通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理,得到第二候选特征集合;
33.在本发明实施例中,特征选择的方法采用过滤式和包裹式两种方法。其中,通过滤式特征提取算法进行处理时,包括通过十分位分布、秩和检验、和标准分三种统计学的方法筛掉冗余特征,其中,为了挑选对建模有关的特征,首先采用十分位分布、秩和检验、和标准分三种统计学的方法筛掉冗余特征;之后从特征的线性和非线性的角度出发,采用皮尔逊相关系统法和最大信息系数法更新特征集合,最终完成对待分析数据集合的第一特征提取处理,得到第一候选特征集合。
34.进一步的,通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理,得到第二候选特征集合,其中,服务器在通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理时,结合分类树模型特征重要性打分的方法确定较优候选特征集合,最终将该较优候选特征集合作为该第二候选特征集合。s106、对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;
35.具体的,在本发明实施例中,利用hypergbm对该用户数据进行数据漂移的检测和处理,需要说明的是,hypergbm是一款全pipeline自动机器学习工具,可以端到端的完整覆盖从数据清洗、预处理、特征加工和筛选以及模型选择和超参数优化的全过程,同时进行特征筛选处理,得到目标特征集合。
36.s107、通过预置的目标信用数据分析模型对目标特征集合进行信用数据分析,得到信用数据分析结果,并将信用数据分析结果传输至预置的数据处理终端。
37.通过执行上述步骤,采集多个用户行为数据并进行标签匹配,确定对应的标签数据;对多个用户行为数据及标签数据进行数据整合,得到用户数据集合;对用户数据集合进行数据预处理,得到待分析数据集合;通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理得到第一候选特征集合;通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理得到第二候选特征集合;对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;对目标特征集合进行信用数据分析,得到信用数据分析结果并将信用数据分析结果传输至预置的数据处理终端。
38.在本发明实施例中,更关注用户行为数据对其信用情况的影响,在不需要获取高成本且不易获取的与用户强相关的金融属性的数据的情况下,建立了具有较高准确率的基于用户行为数据的信用数据分析系统。一方面,在本发明实施例中,直接将类别型特征转化为数值型特征,不需要对类别型特征进行独热编码等操作避免增加数据维度,快速高效。另一方面本发明通过对梯度的无偏估计,相比传统的梯度估计方法降低了估计偏差的影响,解决了梯度偏差和预测偏移的问题,从而有效提高了系统模型的泛化能力。因此本发明可以以较快的训练速度对用户的信用情况进行预测,并具有更准确的预测能力以及更优的泛化性能,以进一步提升基于用户行为数据对信用数据分析时的准确率。
39.在一具体实施例中,执行步骤s101的过程可以具体包括如下步骤:
(1)采集多个用户行为数据,并对每个用户行为数据进行时间数据提取,确定每个用户行为数据对应的时间数据;(2)基于每个用户行为数据对应的时间数据,对多个用户行为数据进行标签匹配,确定每个用户行为数据对应的标签数据。
40.需要说明的是,用户行为数据包括用户使用的app信息、用户使用的设备信息以及用户近期位置移动信息。进一步的,对多个用户行为数据进行标签匹配,确定每个用户行为数据对应的标签数据。在本发明实施例中,将用户表现期定义为三个月,若在表现期内用户的信用记录数据中的时间数据超过预设的第一阈值时则定义为正样本,若用户的信用记录数据中的时间数据未超过预设的第二阈值时则定义为负样本。
41.在一具体实施例中,执行步骤s103的过程可以具体包括如下步骤:(1)对用户数据集合进行异常值分析,确定目标异常值,并通过异常值对用户数据集合进行缺失值分析,确定目标缺失值;(2)基于目标缺失值,对用户数据集合进行数据填充处理,得到待分析数据集合。
42.在本步骤中,需要说明的是,数据的质量可以直接决定系统的预测和泛化能力,而数据预处理是保证数据质量的前提,因此数据预处理对于建模工作至关重要。实际收集的数据由于数据收集时间跨度大且收集方式复杂,不可避免会存在数据缺失度高的问题,本发明认为缺失度极高的特征数据会影响建模效果,所以对于列特征缺失度高于80%的特征列采用直接删除的策略。经过上述操作,共删除18个缺失度极高的特征列,得到包含76个特征的数据集,对于其余数据,因数据都属于数值型,因此首先画出箱型图进行异常值的检测,之后结合专家经验进行异常值的确定。因为用户和用户之间是不存在关联性的,很有可能出现用户某个时间段内卸载安装某类app的款数极多或极少,因此对于箱型图检测出来的异常值需要根据专家经验进行异常值的确定。若数据被确定为异常值,则当作缺失值处理,缺失值填充本发明采用固定值填充、均值填充、中位数填充、众数填充、插值法填充、上一个数据填充、下一个数据填充7种方法。根据模型效果,固定值填充、均值填充、中位数填充、众数填充四种方法的填充效果明显优于插值法填充、上一个数据填充、下一个数据填充三种方法约5%至10%,这是因为本发明的用户数据之间几乎不存在关联性,当前用户数据的缺失借助上一个用户或下一下用户数据进行补全的做法并不合适。填充效果较好的四种方法中均值填充的模型效果优于其他三种方法约1%至2%。因此本发明缺失值填充方法选择列均值填充。
43.最终完成对用户数据集合进行异常值分析,确定目标异常值,并通过异常值对用户数据集合进行缺失值分析,确定目标缺失值,基于目标缺失值,对用户数据集合进行数据填充处理,得到待分析数据集合。
44.在一具体实施例中,执行步骤s104的过程可以具体包括如下步骤:(1)通过过滤式特征提取算法对待分析数据集合进行冗余特征剔除,得到待处理特征集合;(2)对待处理特征集合进行特征相关性分析,得到特征相关性分析结果;(3)通过特征相关性分析结果对待处理特征集合进行特征提取,得到第一候选特征集合。
45.需要说明的是,特征提取是为了挑选对建模有帮助的特征,本发明采用过滤式和
包裹式两种方法筛选与建模无关的特征。其中,冗余特征会增加模型的计算量,减慢训练速度,甚至有产生过拟合的可能。对这部分特征进行筛选,可以减少不必要的资源消耗,提升系统模型的预测性能。十分位分布、秩和检验及和标准分三种基于统计学的特征选择方法的目标是为了筛选掉冗余特征,除此之外,两个变量之间的相关程度也可作为特征筛选的依据,变量之间的相关性越强,两个变量互相包含的信息量越大,则选择相关性强的特征中的一个即可,因此本发明从特征的线性和非线性的角度出发,采用皮尔逊相关系数法和最大信息系数法更新特征集合。如表3所示,为相关系数的取值与特征之间相关性的强弱关系。在本发明中,通过过滤式特征提取算法对待分析数据集合进行冗余特征剔除,得到待处理特征集合,对待处理特征集合进行特征相关性分析,得到特征相关性分析结果,通过特征相关性分析结果对待处理特征集合进行特征提取,得到第一候选特征集合。表3-相关系数的取值与特征之间相关性的强弱关系
46.其中,十分位分布是基于十分位数的一种特征选择方法,可以直观地反映每个特征对负样本和正样本的区分作用。图2和图3表示冗余特征和非冗余特征两个特征的十分位分布图,其中,图2中naw表示近7天内快递物流或其他快递物流类app安装款数,图2中deciles表示冗余特征的十分位数;图3中eca08表示近7天内电商行业或电商行业线上行为或垂直电商-数码3c类app用户打开次数,图3中deciles表示非冗余特征的十分位数。从图中可以观察到,冗余特征的负样本和正样本累计分布相同,则该特征对于区分负样本和正样本没有作用,表明该特征是冗余特征;相反非冗余特征的负样本和正样本累计分布不一致,则该特征可以区分负样本和正样本,表明该特征不是冗余特征,特征保留。秩和检验与和标准分两种统计学的方法与十分位分布都属于无参统计方法,可以直观反映每个特征对于负样本和正样本的区分作用。综合三种统计学方法,剔除冗余特征29个,得到47个特征组成的候选特征集合。皮尔逊相关系数是通过两个特征变量的协方差和标准差来衡量不同特征之间的线性相关性。本发明将皮尔逊相关系数取值范围定义为[0,1],相关系数的取值与特征之间相关性的强弱关系如表3所示。通过统计极强相关的特征对发现多个极强相关的特征对可以构建极强相关特征集合,即此特征集合中任意两个特征都满足极强相关。有些特征集合中虽然个别特征对相关系数小于0.8,但是高于0.7,因此这种特殊的特征集合本发明也认为其满足极强相关特征集合。进一步的,计算待分析数据中各特征之间的相关系数,最大信息系数是通过计算两个变量的之间的互信息以及联合概率mic来衡量不同特征之间的非线性相关性,mic值的取值范围定义为[0,1],mic的取值与特征之间相关性的强弱与皮尔逊相关系数法类似。皮尔逊相关系数法和最大信息系数法中极强线性和非线性相关
特征对和特征集合统计结果如表4所示。之后结合十分位分布法最终确定极强相关特征对和特征集合中选取的特征,需要说明的是,特征选取结果在表4中加粗标出,最终,从特征的线性和非线性的角度出发,采用皮尔逊相关系数法和最大信息系数法剔除22个相关性极强的特征,更新特征集合个数为25个。表4-极强线性和非线性相关特征对和特征集合统计结果
[0047]
在一具体实施例中,如图4所示,执行步骤s105的过程可以具体包括如下步骤:s201、通过包裹式特征提取算法对第一候选特征集合中每个第一候选特征进行重要度分析,确定每个第一候选特征的重要度数据;s202、基于每个第一候选特征的重要度数据对第一候选特征集合进行第二特征提取处理,得到第二候选特征集合。
[0048]
具体的,分类树模型特征重要性通过计算所有树中划分属性的次数,可以直观反映出影响系统决策的各特征的重要程度。如图5所示,为过滤式特征选择剩余特征的重要性分布图,其中,图中feature importance表示分类树模型的特征重要性数值,根据catboost模型效果,最终选取特征重要性较高的前20个特征作为较优特征集合。最终,基于每个第一候选特征的重要度数据对第一候选特征集合进行第二特征提取处理,得到第二候选特征集合,如表5所示,为该第二候选特征集合中每个特征的描述列表。
表5-第二候选特征集合中每个特征的描述列表
[0049]
需要说明的是,第二候选特征以及特征所属分类及其具体含义如表5所示,特征顺序按照分类树模型重要性由高到低进行描述。首先可以从表5中观察得到用户使用设备的上市价格对预测该用户是否具有良好信用比较重要。
[0050]
统计数据可以得出,当使用设备价格高于2500元时约73%的用户具有良好的信用,若使用设备价格低于2500元时只有21%的用户具有良好的信用。同时,从统计数据可以得出,当用户近期在便利店类购物场所出现次数超过10次时约67%的用户具有良好的信用,若用户近期在便利店类购物场所出现次数小于10次时约26%的用户具有良好的信用。综上所述,在评估用户是否具有良好信用时,可考虑用户使用的设备价格或者用户近期在便利店类购物场所出现的次数进行综合评价。
[0051]
在一具体实施例中,执行步骤s106的过程可以具体包括如下步骤:(1)通过预置的对抗分类器对第二候选特征集合进行数据漂移检测,生成数据漂移检测结果;(2)通过数据漂移检测结果对第二候选特征集合进行特征筛选处理,得到目标特征集合。
[0052]
在一具体实施例中,在执行步骤s106之后,在执行步骤s107之前,还包括如下步骤:(1)对初始信用数据分析模型进行初始超参数分析,确定初始超参数组合;(2)对初始超参数组合进行先验概率分布分析,确定先验概率分布数据;
(3)通过第二候选特征集合对初始信用数据分析模型进行模型训练,生成训练集以及测试集;(4)通过训练集以及测试集对初始超参数组合进行后验概率分布分析,确定后验概率分布数据;(5)基于后验概率分布数据对初始超参数组合进行迭代分析,确定最优超参数组合;(6)基于最优超参数组合对初始信用数据分析模型进行参数配置,得到目标信用数据分析模型。
[0053]
具体的,在本步骤中,调参方式采用贝叶斯优化,基于数据使用贝叶斯定理估计目标函数的后验分布,然后再根据分布选择下一个采样的超参数组合。基于对前一个采样点信息的充分利用,它可更好调整当前参数快速找到使目标函数全局最大的参数。相比网格搜索,贝叶斯优化迭代次数少,运行速度更快。给定参数具体范围之后可一次调整多个参数,因此贝叶斯优化在参数过多时也不会导致维度爆炸。
[0054]
在本发明实施例中,对初始信用数据分析模型进行初始超参数分析,确定初始超参数组合;对初始超参数组合进行先验概率分布分析,确定先验概率分布数据;通过第二候选特征集合对初始信用数据分析模型进行模型训练,生成训练集以及测试集,通过训练集以及测试集对初始超参数组合进行后验概率分布分析,确定后验概率分布数据;基于后验概率分布数据对初始超参数组合进行迭代分析,确定最优超参数组合;基于最优超参数组合对初始信用数据分析模型进行参数配置,得到目标信用数据分析模型。本模型对学习率,树的深度、样本采样比率、列采样比率等重要参数进行调参,参数设置范围以及最终调参结果如表6所示。表6-贝叶斯优化调参范围及调参结果
[0055]
进一步的,如表7所示,系统模型初始效果训练集ks为0.1925,测试集为0.1523。采用贝叶斯优化调参之后,系统性能达到训练集ks为0.1728,测试集为0.1638。参数调优有效降低了系统过拟合现象,测试集效果相比初始系统模型ks提升了约7%。
表7-调参前后信用数据分析模型效果对比
[0056]
需要说明的是,系统评价指标为ks(kolmogorov-smirnov),ks为每个分箱区间累计正样本与累计负样本占比差的绝对值的最大值。在风控系统中,ks值的大小代表系统的区分度,ks值越大,也就说明系统的风险排序能力越强。系统预测能力是指系统的预测准确率,系统的预测能力越好则系统的区分能力越强;系统的泛化能力是指在具有同样规律的新数据集上的系统预测能力;系统的稳定性是指系统在不同随机抽样结果下的预测结果波动情况。
[0057]
在本发明实施例中,还包括在用户行为数据集上对比五种算法的预测性能,如表8所示,为不同机器学习模型性能对比。
[0058]
首先可以发现集成模型的性能明显优于单一系统。这是因为集成模型是以降低系统预测偏差或方差为目标,将若干个模型按照一定策略组合起来提升系统预测性能。其次,集成模型中采用boosting思想的catboost和lightgbm模型ks值明显高于采用bagging思想的randomforest。这是因为一方面gbdt算法能结合多个基学习器有效提高系统模型泛化性和鲁棒性,更致力于提升模型的预测精度,而random forest只专注于提高模型的泛化性和鲁棒性。另一方面,bagging基于并行的思想构建不同的模型,而boosting基于串行的思想,以提高精度为目标,后一个系统充分考虑了上一个模型的训练结果。最后,catboost模型在训练和测试阶段相比lightgbm都表现出了明显的优势,且在oot上泛化性能较好。这是因为catboost算法相比lightgbm能够快速高效处理类别型特征,且采用了ordered boosting方法得到了梯度的无偏估计,解决了梯度偏差和预测偏移的问题,从而有效提高了系统模型的预测性能和泛化能力。在训练时间方面,表8展示的五个模型通过50次训练得到的平均训练时间。首先可从表8中观察到randomforest模型训练最长,catboost次之。因为randomforest树在每次分裂时考虑所有特征,导致需要较长的训练时间。catboost优势体现在快速处理分类特征,若数据中存在较多的类别特征,catboost的训练时间将会大大缩小。其次对于预测性能较好的lightgbm和catboost模型,虽然catboost模型训练时间约为lightgbm模型的10倍左右,但是catboost模型测试集的预测性能相比lightgbm提升了36.98%,oot性能也优于lightgbm。最后,经与专家讨论,catboost模型7s左右的训练时间在实际生产环境中是可以接受的。
[0059]
测试时间方面,表8展示的五个模型通过50次测试得到的平均测试时间。从表8中可以观察到catboost、lightgbm、gaussiannaive bayes和gaussian mixture model四个模型的测试时间相比random forest体现出数量级的优势,其中catboost模型的训练时间优势也比较明显。
[0060]
综上所述,通过不同算法的模型效果对比,本发明采用catboost建立基于用户行为数据的信用数据分析系统,不仅表现出出色的预测能力,且系统拥有较好泛化能力和显著的稳定性。如表8所示,测试集的ks达到0.1638,泛化能力较好。系统的稳定性是指系统在不同随机抽样结果下的预测结果波动情况。因为本发明在catboost模型中设置了样本和特征的采样比率两个参数,训练过程中每次迭代的训练对象均有所不同。出现此现象的原因是设置了不同的随机种子。因此系统的稳定性可以观察系统在不同的随机种子下ks的变化情况。
表8-不同机器学习模型性能对比
[0061]
以上对本发明的技术方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
[0062]
本发明实施例还提供了一种基于用户行为数据的信用数据分析系统,如图6所示,该基于用户行为数据的信用数据分析系统具体包括:数据采集模块3001,用于采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据;数据整合模块3002,用于对所述多个用户行为数据以及每个所述用户行为数据对应的标签数据进行数据整合,得到用户数据集合;数据处理模块3003,用于对所述用户数据集合进行数据预处理,得到待分析数据集合;第一提取模块3004,用于通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合;第二提取模块3005,用于通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合;特征筛选模块3006,用于对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;信用分析模块3007,用于通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端。
[0063]
可选的,所述数据采集模块3001具体用于:采集多个用户行为数据,并对每个所述用户行为数据进行时间数据提取,确定每个所述用户行为数据对应的时间数据;基于每个所述用户行为数据对应的时间数据,对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据。
[0064]
可选的,所述数据处理模块3003具体用于:对所述用户数据集合进行异常值分析,确定目标异常值,并通过所述异常值对所述用户数据集合进行缺失值分析,确定目标缺失值;基于所述目标缺失值,对所述用户数据集合进行数据填充处理,得到待分析数据集合。
[0065]
可选的,所述第一提取模块3004具体用于:通过所述过滤式特征提取算法对所述待分析数据集合进行冗余特征剔除,得到待处理特征集合;对所述待处理特征集合进行特征相关性分析,得到特征相关性分析结果;通过所述特征相关性分析结果对所述待处理特
征集合进行特征提取,得到第一候选特征集合。
[0066]
可选的,所述第二提取模块3005具体用于:通过包裹式特征提取算法对所述第一候选特征集合中每个第一候选特征进行重要度分析,确定每个第一候选特征的重要度数据;基于每个第一候选特征的重要度数据对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合。
[0067]
可选的,所述特征筛选模块3006具体用于:通过预置的对抗分类器对所述第二候选特征集合进行数据漂移检测,生成数据漂移检测结果;通过所述数据漂移检测结果对所述第二候选特征集合进行特征筛选处理,得到目标特征集合。
[0068]
可选的,所述基于用户行为数据的信用数据分析系统还包括:参数分析模块3008,用于对初始信用数据分析模型进行初始超参数分析,确定初始超参数组合;分布分析模块3009,用于对所述初始超参数组合进行先验概率分布分析,确定先验概率分布数据;模型训练模块3010,用于通过所述第二候选特征集合对所述初始信用数据分析模型进行模型训练,生成训练集以及测试集;概率分析模块3011,用于通过所述训练集以及所述测试集对所述初始超参数组合进行后验概率分布分析,确定后验概率分布数据;迭代分析模块3012,用于基于所述后验概率分布数据对所述初始超参数组合进行迭代分析,确定最优超参数组合;参数配置模块3013,用于基于所述最优超参数组合对所述初始信用数据分析模型进行参数配置,得到所述目标信用数据分析模型。
[0069]
通过上述各个模块的协同合作,采集多个用户行为数据并进行标签匹配,确定对应的标签数据;对多个用户行为数据及标签数据进行数据整合,得到用户数据集合;对用户数据集合进行数据预处理,得到待分析数据集合;通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理得到第一候选特征集合;通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理得到第二候选特征集合;对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;对目标特征集合进行信用数据分析,得到信用数据分析结果并将信用数据分析结果传输至预置的数据处理终端。在本发明实施例中,更关注用户行为数据对其信用情况的影响,在不需要获取高成本且不易获取的与用户强相关的金融属性的数据的情况下,建立了具有较高准确率的基于用户行为数据的信用数据分析系统。一方面,在本发明实施例中,直接将类别型特征转化为数值型特征,不需要对类别型特征进行独热编码等操作避免增加数据维度,快速高效。另一方面本发明通过对梯度的无偏估计,相比传统的梯度估计方法降低了估计偏差的影响,解决了梯度偏差和预测偏移的问题,从而有效提高了系统模型的泛化能力。因此本发明可以以较快的训练速度对用户的信用情况进行预测,并具有更准确的预测能力以及更优的泛化性能,以进一步提升基于用户行为数据对信用数据分析时的准确率。
[0070]
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均
应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种基于用户行为数据的信用数据分析方法,其特征在于,包括:采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据;对所述多个用户行为数据以及每个所述用户行为数据对应的标签数据进行数据整合,得到用户数据集合;对所述用户数据集合进行数据预处理,得到待分析数据集合;通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合;通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合;对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端。2.根据权利要求1所述的基于用户行为数据的信用数据分析方法,其特征在于,所述采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据步骤,包括:采集多个用户行为数据,并对每个所述用户行为数据进行时间数据提取,确定每个所述用户行为数据对应的时间数据;基于每个所述用户行为数据对应的时间数据,对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据。3.根据权利要求1所述的基于用户行为数据的信用数据分析方法,其特征在于,所述对所述用户数据集合进行数据预处理,得到待分析数据集合步骤,包括:对所述用户数据集合进行异常值分析,确定目标异常值,并通过所述异常值对所述用户数据集合进行缺失值分析,确定目标缺失值;基于所述目标缺失值,对所述用户数据集合进行数据填充处理,得到待分析数据集合。4.根据权利要求1所述的基于用户行为数据的信用数据分析方法,其特征在于,所述通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合步骤,包括:通过所述过滤式特征提取算法对所述待分析数据集合进行冗余特征剔除,得到待处理特征集合;对所述待处理特征集合进行特征相关性分析,得到特征相关性分析结果;通过所述特征相关性分析结果对所述待处理特征集合进行特征提取,得到第一候选特征集合。5.根据权利要求1所述的基于用户行为数据的信用数据分析方法,其特征在于,所述通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合步骤,包括:通过包裹式特征提取算法对所述第一候选特征集合中每个第一候选特征进行重要度分析,确定每个第一候选特征的重要度数据;基于每个第一候选特征的重要度数据对所述第一候选特征集合进行第二特征提取处
理,得到第二候选特征集合。6.根据权利要求1所述的基于用户行为数据的信用数据分析方法,其特征在于,所述对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合步骤,包括:通过预置的对抗分类器对所述第二候选特征集合进行数据漂移检测,生成数据漂移检测结果;通过所述数据漂移检测结果对所述第二候选特征集合进行特征筛选处理,得到目标特征集合。7.根据权利要求1所述的基于用户行为数据的信用数据分析方法,其特征在于,在所述对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合步骤之后,在所述通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端步骤之前,包括:对初始信用数据分析模型进行初始超参数分析,确定初始超参数组合;对所述初始超参数组合进行先验概率分布分析,确定先验概率分布数据;通过所述第二候选特征集合对所述初始信用数据分析模型进行模型训练,生成训练集以及测试集;通过所述训练集以及所述测试集对所述初始超参数组合进行后验概率分布分析,确定后验概率分布数据;基于所述后验概率分布数据对所述初始超参数组合进行迭代分析,确定最优超参数组合;基于所述最优超参数组合对所述初始信用数据分析模型进行参数配置,得到所述目标信用数据分析模型。8.一种基于用户行为数据的信用数据分析系统,用以执行如权利要求1至7任一项所述的基于用户行为数据的信用数据分析方法,其特征在于,包括:数据采集模块,用于采集多个用户行为数据,并对多个所述用户行为数据进行标签匹配,确定每个所述用户行为数据对应的标签数据;数据整合模块,用于对所述多个用户行为数据以及每个所述用户行为数据对应的标签数据进行数据整合,得到用户数据集合;数据处理模块,用于对所述用户数据集合进行数据预处理,得到待分析数据集合;第一提取模块,用于通过过滤式特征提取算法对所述待分析数据集合进行第一特征提取处理,得到第一候选特征集合;第二提取模块,用于通过包裹式特征提取算法对所述第一候选特征集合进行第二特征提取处理,得到第二候选特征集合;特征筛选模块,用于对所述第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;信用分析模块,用于通过预置的目标信用数据分析模型对所述目标特征集合进行信用数据分析,得到信用数据分析结果,并将所述信用数据分析结果传输至预置的数据处理终端。
技术总结
本发明涉及数据处理技术领域,公开了一种基于用户行为数据的信用数据分析方法及系统,用于提高信用数据分析时的准确率。包括:采集多个用户行为数据并进行标签匹配,确定标签数据;对多个用户行为数据及标签数据进行数据整合,得到用户数据集合;对用户数据集合进行数据处理,得到待分析数据集合;通过过滤式特征提取算法对待分析数据集合进行第一特征提取处理得到第一候选特征集合;通过包裹式特征提取算法对第一候选特征集合进行第二特征提取处理得到第二候选特征集合;对第二候选特征集合进行数据漂移检测及特征筛选处理,得到目标特征集合;对目标特征集合进行信用数据分析,得到信用数据分析结果并将信用数据分析结果传输至预置的数据处理终端。传输至预置的数据处理终端。传输至预置的数据处理终端。
技术研发人员:刘晓光 王潇霏 王刚 陈静怡 王文蕊 赵思浓
受保护的技术使用者:南开大学
技术研发日:2023.07.13
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
