一种基于机器学习的征信数据处理方法及系统与流程

未命名 07-15 阅读:143 评论:0


1.本发明涉及数据处理技术领域,特别涉及一种基于机器学习的征信数据处理方法及系统。


背景技术:

2.传统的个人征信数据通常包括个人基本信息、信用交易信息等信息,较为常见的征信数据应用通常是基于个人的职业教育信息、个人的资产信息以及个人的信用交易信息中的违约信息等即定事实来评价个人的征信等级。随着市场经济的发展,人们的消费习惯也开始逐渐向先消费后付款的模式转变,预支未来资产的消费方式带来了负面影响就是违约行为越来越多,导致信贷机构越来越重视客户的信用等级评价以及信用风险分析,传统的采用即定的违约事实来评价个人征信等级的方式已经无法满足信贷机构的信贷业务开展需求。为了避免出现大量的潜在违约客户,人们研究出了使用大数据技术拓展征信数据类型的征信数据来源的方案,即通过大数据平台采集包括信贷机构、司法机关、行政机关、公开事业单位以及民营企业等公开发布的信息来收集海量的信用交易/非信用交易信息、行政/民事/刑事案件判决信息、行政处理事件通知公告信息等海量信息,从中提取个人信息进行分析以预测个人的信用风险,为信贷机构提供更进一步的信贷业务开展依据。然而由于大数据平台采集的数据来源众多且数据量庞大、不同个体的数据分布不均匀,无法使用传统的机器学习模型来量化这些信息所代表的信用风险。


技术实现要素:

3.本发明正是基于上述问题,提出了一种基于机器学习的征信数据处理方法及系统,能够为征信风险识别模型提供更为准确有效的征信数据。
4.有鉴于此,本发明的第一方面提出了一种基于机器学习的征信数据处理方法,包括:
5.顺序从数据库中读取每个征信个体的历史征信数据;
6.生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
7.基于所述结构化数据生成征信数据预测模型的样本数据;
8.使用所述样本数据训练所述征信数据预测模型;
9.基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
10.根据征信数据分布对征信个体进行分类得到多个征信个体类别;
11.基于预设规则从数据库中识别征信不良个体;
12.确定所述征信不良个体所属的目标征信个体类别;
13.将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间
内的的结构化数据;
14.合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
15.进一步的,在上述的基于机器学习的征信数据处理方法中,在生成每个征信个体的结构化数据的步骤之后,还包括:
16.接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
17.从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
18.返回所述目标结构化数据记录的征信内容。
19.进一步的,在上述的基于机器学习的征信数据处理方法中,使用所述样本数据训练所述征信数据预测模型的步骤具体包括:
20.抽取部分所述结构化数据执行数据处理以生成样本数据;
21.将所述样本数据划分为训练集、验证集和测试集;
22.配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
23.将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型;
24.使用所述验证集评估所述征信数据预测模型的验证指标;
25.当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
26.当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
27.当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
28.进一步的,在上述的基于机器学习的征信数据处理方法中,基于所述结构化数据生成每个征信个体的征信数据分布的步骤具体包括:
29.获取预先配置的每个征信数据维度的数据有效期限;
30.按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
31.顺序读取征信个体的每一条结构化数据记录;
32.将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
33.每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
34.判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
35.将当前结构化数据记录中的时间确定为当前分布时间段的上界;
36.在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
37.进一步的,在上述的基于机器学习的征信数据处理方法中,根据征信数据分布对征信个体进行分类得到多个征信个体类别的步骤具体包括:
38.获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
39.将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
40.计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
41.根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
42.将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
43.进一步的,在上述的基于机器学习的征信数据处理方法中,计算所述征信个体的有用征信数据维度的时间分布的综合离散度的步骤具体包括:
44.分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,

,n),n为所述征信个体的有用征信数据维度的数量;
45.根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
[0046][0047]
进一步的,在上述的基于机器学习的征信数据处理方法中,分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度的步骤具体包括:
[0048]
获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
,其中j=(1,2,

,m);
[0049]
根据分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
计算每一个有用征信数据维度的时间分布的离散度:
[0050][0051]
其中α为时间片段密度系数,β为时间片段长度系数。
[0052]
进一步的,在上述的基于机器学习的征信数据处理方法中,根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类的步骤具体包括:
[0053]
获取预先配置的离散度范围与每一个二级分类的对应关系;
[0054]
根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
[0055]
进一步的,在上述的基于机器学习的征信数据处理方法中,基于预设规则从数据
库中识别征信不良个体的步骤具体包括:
[0056]
从所述结构化数据中识别每个征信个体的违约记录;
[0057]
记录每个征信个体的违约记录数量;
[0058]
将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
[0059]
本发明的第二方面提出了一种基于机器学习的征信数据处理系统,包括:
[0060]
历史征信数据读取模块,用于顺序从数据库中读取每个征信个体的历史征信数据;
[0061]
结构化数据生成模块,用于生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
[0062]
样本数据生成模块,用于基于所述结构化数据生成征信数据预测模型的样本数据;
[0063]
预测模型训练模块,用于使用所述样本数据训练所述征信数据预测模型;
[0064]
分布数据生成模块,用于基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
[0065]
征信个体分类模块,用于根据征信数据分布对征信个体进行分类得到多个征信个体类别;
[0066]
不良个体识别模块,用于基于预设规则从数据库中识别征信不良个体;
[0067]
分类确定模块,用于确定所述征信不良个体所属的目标征信个体类别;
[0068]
征信数据预测模块,用于将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
[0069]
征信数据合并模块,用于合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
[0070]
进一步的,在上述的基于机器学习的征信数据处理系统中,还包括:
[0071]
访问请求接收模块,用于接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
[0072]
目标记录确定模块,用于从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
[0073]
征信内容输出模块,用于返回所述目标结构化数据记录的征信内容。
[0074]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述预测模型训练模块包括:
[0075]
数据记录抽取模块,用于抽取部分所述结构化数据执行数据处理以生成样本数据;
[0076]
样本数据分类模块,用于将所述样本数据划分为训练集、验证集和测试集;
[0077]
训练参数配置模块,用于配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
[0078]
训练数据输入模块,用于将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型;
[0079]
预测模型验证模块,用于使用所述验证集评估所述征信数据预测模型的验证指标;
[0080]
训练参数调整模块,用于当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
[0081]
预测模型测试模块,用于当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
[0082]
循环执行模块,用于当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
[0083]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述分布数据生成模块包括:
[0084]
有效期限获取模块,用于获取预先配置的每个征信数据维度的数据有效期限;
[0085]
数据记录排序模块,用于按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
[0086]
数据记录读取模块,用于顺序读取征信个体的每一条结构化数据记录;
[0087]
有用维度确定模块,用于将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
[0088]
时间连续性判断模块,用于在每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
[0089]
分布时间段下界确定模块,用于在判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
[0090]
分布时间段上界确定模块,用于将当前结构化数据记录中的时间确定为当前分布时间段的上界;
[0091]
有效维度确定模块,用于在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
[0092]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述征信个体分类模块包括:
[0093]
分类标准获取模块,用于获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
[0094]
一级分类确定模块,用于将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
[0095]
综合离散度计算模块,用于计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
[0096]
二级分类确定模块,用于根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
[0097]
所述征信个体分类模块具体用于将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
[0098]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述综合离散度计算模块包括:
[0099]
单一离散度计算模块,用于分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,

,n),n为所述征信个体的有用征信数据维度的数量;
[0100]
所述综合离散度计算模块具体用于根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
[0101][0102]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述单一离散度计算模块包括:
[0103]
时间段数据获取模块,用于获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
,其中j=(1,2,

,m);
[0104]
所述所述单一离散度计算模块具体用于根据分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
计算每一个有用征信数据维度的时间分布的离散度:
[0105][0106]
其中α为时间片段密度系数,β为时间片段长度系数。
[0107]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述二级分类确定模块包括:
[0108]
对应关系获取模块,用于获取预先配置的离散度范围与每一个二级分类的对应关系;
[0109]
所述二级分类确定模块具体用于根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
[0110]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述不良个体识别模块包括:
[0111]
违约记录识别模块,用于从所述结构化数据中识别每个征信个体的违约记录;
[0112]
违约记录数量记录模块,用于记录每个征信个体的违约记录数量;
[0113]
不良个体确定模块,用于将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
[0114]
本发明提出了一种基于机器学习的征信数据处理方法及系统,通过使用每个征信个体的历史征信数据生成结构化数据和征信数据预测模型的样本数据,基于所述结构化数据生成每个征信个体的征信数据分布,根据征信数据分布对征信个体进行分类得到多个征信个体类别,基于预设规则从数据库中识别征信不良个体,确定所述征信不良个体所属的
目标征信个体类别,将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据,能够为征信风险识别模型提供更为准确有效的征信数据。
附图说明
[0115]
图1是本发明一个实施例提供的一种基于机器学习的征信数据处理方法的流程图;
[0116]
图2是本发明一个实施例提供的一种基于机器学习的征信数据处理系统的示意框图。
具体实施方式
[0117]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0118]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0119]
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0120]
在本说明书的描述中,术语“一个实施例”、“一些实施方式”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0121]
下面参照附图来描述根据本发明一些实施方式提供的一种基于机器学习的征信数据处理方法及系统。
[0122]
如图1所示,本发明的第一方面提出了一种基于机器学习的征信数据处理方法,包括:
[0123]
顺序从数据库中读取每个征信个体的历史征信数据;
[0124]
生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信
数据维度以及征信内容组成;
[0125]
基于所述结构化数据生成征信数据预测模型的样本数据;
[0126]
使用所述样本数据训练所述征信数据预测模型;
[0127]
基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
[0128]
根据征信数据分布对征信个体进行分类得到多个征信个体类别;
[0129]
基于预设规则从数据库中识别征信不良个体;
[0130]
确定所述征信不良个体所属的目标征信个体类别;
[0131]
将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
[0132]
合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
[0133]
具体的,所述结构化数据由大量的结构化数据记录组成,每条结构化数据记录的内容格式为“[时间,征信数据维度,征信内容]”,例如,{2020/3/19,职业,教师}、{2020/3/19,负债总金额,¥500000元}。
[0134]
所述有用征信数据维度为在所述征信个体的结构化数据中存在一条或一条以上结构化数据记录的征信数据维度,所述有用征信数据维度的时间分布为一个连续的时间段或者多个间隔的分布时间段的组合,所述有效征信数据维度为时间分布延续至今的征信数据维度。例如,当某个征信个体缺失职业信息时,则在其结构化数据中没有职业数据记录,则职业维度为该征信个体的无用征信数据维度;反之,当该征信个体在其结构化数据中存在一条或一条以上的职业数据记录时,则职业维度为该征信个体的有用征信数据维度。
[0135]
以下是失效征信数据维度为“职业”和“总账户余额”的时间分布示例:
[0136]
职业:[2020/3/19,2022/5/20];
[0137]
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26]。
[0138]
以下是有效征信数据维度为“总账户余额”的两种类型的时间分布示例:
[0139]
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26],[2019/4/7至今];
[0140]
总账户余额:[2001/1/1至今]。
[0141]
进一步的,在上述的基于机器学习的征信数据处理方法中,在生成每个征信个体的结构化数据的步骤之后,还包括:
[0142]
接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
[0143]
从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
[0144]
返回所述目标结构化数据记录的征信内容。
[0145]
进一步的,在上述的基于机器学习的征信数据处理方法中,使用所述样本数据训练所述征信数据预测模型的步骤具体包括:
[0146]
抽取部分所述结构化数据执行数据处理以生成样本数据,具体的,对所述结构化数据执行数据处理具体包括数据清洗、缺失值处理以及异常值处理等步骤;
[0147]
将所述样本数据划分为训练集、验证集和测试集,示例性的,可以按照80:15:15的比例将所述样本数据分成训练集、验证集和测试集;
[0148]
配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
[0149]
将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型,所述预设的神经网络模型可以为多层感知机(mlp)、循环神经网络(rnn)和长短期记忆网络(lstm)等;
[0150]
使用所述验证集评估所述征信数据预测模型的验证指标,所述验证指标包括均方根误差(rmse)、平均绝对误差(mae)和平均绝对百分比误差(mape)等;
[0151]
当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
[0152]
当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
[0153]
当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
[0154]
进一步的,在上述的基于机器学习的征信数据处理方法中,基于所述结构化数据生成每个征信个体的征信数据分布的步骤具体包括:
[0155]
获取预先配置的每个征信数据维度的数据有效期限;
[0156]
按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
[0157]
顺序读取征信个体的每一条结构化数据记录;
[0158]
将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
[0159]
每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
[0160]
判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
[0161]
将当前结构化数据记录中的时间确定为当前分布时间段的上界;
[0162]
在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
[0163]
具体的,不同的征信数据维度的数据有效期限有所不同,不考虑个体差异或其它复杂因素对各个征信数据维度的数据有效期限的影响,为每个征信数据维度配置一个合理时长作为其数据有效期限用于排除部分容易失效数据对征信数据预测的不利影响。在采集到新的征信数据后,根据预设的数据处理周期定期或定量将所集集到的新的征信数据转换为对应的结构化数据,并基于这些新的结构化数据更新所述征信数据分布。
[0164]
进一步的,在上述的基于机器学习的征信数据处理方法中,根据征信数据分布对征信个体进行分类得到多个征信个体类别的步骤具体包括:
[0165]
获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
[0166]
将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
[0167]
计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
[0168]
根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
[0169]
将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
[0170]
具体的,征信个体的有用征信数据维度覆盖某个一级分类的最小有用征信数据维度序列是指征信个体的有用征信数据维度为该一级分类的最小有用征信数据维度序列的父集,同样的,征信个体的有效征信数据维度覆盖某个一级分类的最小有效征信数据维度序列是指征信个体的有效征信数据维度为该一级分类的最小有效征信数据维度序列的父集。
[0171]
进一步的,在上述的基于机器学习的征信数据处理方法中,计算所述征信个体的有用征信数据维度的时间分布的综合离散度的步骤具体包括:
[0172]
分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度si,其中i=(1,2,

,n),n为所述征信个体的有用征信数据维度的数量;
[0173]
根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
[0174][0175]
进一步的,在上述的基于机器学习的征信数据处理方法中,分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度的步骤具体包括:
[0176]
获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
,其中j=(1,2,

,m);
[0177]
根据分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
计算每一个有用征信数据维度的时间分布的离散度:
[0178][0179]
其中α为时间片段密度系数,β为时间片段长度系数。
[0180]
进一步的,在上述的基于机器学习的征信数据处理方法中,根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类的步骤具体包括:
[0181]
获取预先配置的离散度范围与每一个二级分类的对应关系;
[0182]
根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
[0183]
进一步的,在上述的基于机器学习的征信数据处理方法中,基于预设规则从数据
库中识别征信不良个体的步骤具体包括:
[0184]
从所述结构化数据中识别每个征信个体的违约记录;
[0185]
记录每个征信个体的违约记录数量;
[0186]
将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
[0187]
如图2所示,本发明的第二方面提出了一种基于机器学习的征信数据处理系统,包括:
[0188]
历史征信数据读取模块,用于顺序从数据库中读取每个征信个体的历史征信数据;
[0189]
结构化数据生成模块,用于生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;
[0190]
样本数据生成模块,用于基于所述结构化数据生成征信数据预测模型的样本数据;
[0191]
预测模型训练模块,用于使用所述样本数据训练所述征信数据预测模型;
[0192]
分布数据生成模块,用于基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;
[0193]
征信个体分类模块,用于根据征信数据分布对征信个体进行分类得到多个征信个体类别;
[0194]
不良个体识别模块,用于基于预设规则从数据库中识别征信不良个体;
[0195]
分类确定模块,用于确定所述征信不良个体所属的目标征信个体类别;
[0196]
征信数据预测模块,用于将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;
[0197]
征信数据合并模块,用于合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。
[0198]
具体的,所述结构化数据由大量的结构化数据记录组成,每条结构化数据记录的内容格式为“[时间,征信数据维度,征信内容]”,例如,{2020/3/19,职业,教师}、{2020/3/19,负债总金额,¥500000元}。
[0199]
所述有用征信数据维度为在所述征信个体的结构化数据中存在一条或一条以上结构化数据记录的征信数据维度,所述有用征信数据维度的时间分布为一个连续的时间段或者多个间隔的分布时间段的组合,所述有效征信数据维度为时间分布延续至今的征信数据维度。例如,当某个征信个体缺失职业信息时,则在其结构化数据中没有职业数据记录,则职业维度为该征信个体的无用征信数据维度;反之,当该征信个体在其结构化数据中存在一条或一条以上的职业数据记录时,则职业维度为该征信个体的有用征信数据维度。
[0200]
以下是失效征信数据维度为“职业”和“总账户余额”的时间分布示例:
[0201]
职业:[2020/3/19,2022/5/20];
[0202]
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26]。
[0203]
以下是有效征信数据维度为“总账户余额”的两种类型的时间分布示例:
[0204]
总账户余额:[2001/1/1,2002/8/6],[2005/3/12,2007/10/26],[2019/4/7至今];
[0205]
总账户余额:[2001/1/1至今]。
[0206]
进一步的,在上述的基于机器学习的征信数据处理系统中,还包括:
[0207]
访问请求接收模块,用于接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;
[0208]
目标记录确定模块,用于从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;
[0209]
征信内容输出模块,用于返回所述目标结构化数据记录的征信内容。
[0210]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述预测模型训练模块包括:
[0211]
数据记录抽取模块,用于抽取部分所述结构化数据执行数据处理以生成样本数据,具体的,对所述结构化数据执行数据处理具体包括数据清洗、缺失值处理以及异常值处理等步骤;
[0212]
样本数据分类模块,用于将所述样本数据划分为训练集、验证集和测试集,示例性的,可以按照80:15:15的比例将所述样本数据分成训练集、验证集和测试集;
[0213]
训练参数配置模块,用于配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;
[0214]
训练数据输入模块,用于将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型,所述预设的神经网络模型可以为多层感知机(mlp)、循环神经网络(rnn)和长短期记忆网络(lstm)等;
[0215]
预测模型验证模块,用于使用所述验证集评估所述征信数据预测模型的验证指标,所述验证指标包括均方根误差(rmse)、平均绝对误差(mae)和平均绝对百分比误差(mape)等;
[0216]
训练参数调整模块,用于当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;
[0217]
预测模型测试模块,用于当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;
[0218]
循环执行模块,用于当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。
[0219]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述分布数据生成模块包括:
[0220]
有效期限获取模块,用于获取预先配置的每个征信数据维度的数据有效期限;
[0221]
数据记录排序模块,用于按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;
[0222]
数据记录读取模块,用于顺序读取征信个体的每一条结构化数据记录;
[0223]
有用维度确定模块,用于将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;
[0224]
时间连续性判断模块,用于在每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;
[0225]
分布时间段下界确定模块,用于在判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;
[0226]
分布时间段上界确定模块,用于将当前结构化数据记录中的时间确定为当前分布时间段的上界;
[0227]
有效维度确定模块,用于在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。
[0228]
具体的,不同的征信数据维度的数据有效期限有所不同,不考虑个体差异或其它复杂因素对各个征信数据维度的数据有效期限的影响,为每个征信数据维度配置一个合理时长作为其数据有效期限用于排除部分容易失效数据对征信数据预测的不利影响。在采集到新的征信数据后,根据预设的数据处理周期定期或定量将所集集到的新的征信数据转换为对应的结构化数据,并基于这些新的结构化数据更新所述征信数据分布。
[0229]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述征信个体分类模块包括:
[0230]
分类标准获取模块,用于获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;
[0231]
一级分类确定模块,用于将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;
[0232]
综合离散度计算模块,用于计算所述征信个体的有用征信数据维度的时间分布的综合离散度;
[0233]
二级分类确定模块,用于根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;
[0234]
所述征信个体分类模块具体用于将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。
[0235]
具体的,征信个体的有用征信数据维度覆盖某个一级分类的最小有用征信数据维度序列是指征信个体的有用征信数据维度为该一级分类的最小有用征信数据维度序列的父集,同样的,征信个体的有效征信数据维度覆盖某个一级分类的最小有效征信数据维度序列是指征信个体的有效征信数据维度为该一级分类的最小有效征信数据维度序列的父集。
[0236]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述综合离散度计算模块包括:
[0237]
单一离散度计算模块,用于分别计算所述征信个体的每一个有用征信数据维度的
时间分布的离散度si,其中i=(1,2,

,n),n为所述征信个体的有用征信数据维度的数量;
[0238]
所述综合离散度计算模块具体用于根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:
[0239][0240]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述单一离散度计算模块包括:
[0241]
时间段数据获取模块,用于获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
,其中j=(1,2,

,m);
[0242]
所述所述单一离散度计算模块具体用于根据分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
计算每一个有用征信数据维度的时间分布的离散度:
[0243][0244]
其中α为时间片段密度系数,β为时间片段长度系数。
[0245]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述二级分类确定模块包括:
[0246]
对应关系获取模块,用于获取预先配置的离散度范围与每一个二级分类的对应关系;
[0247]
所述二级分类确定模块具体用于根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。
[0248]
进一步的,在上述的基于机器学习的征信数据处理系统中,所述不良个体识别模块包括:
[0249]
违约记录识别模块,用于从所述结构化数据中识别每个征信个体的违约记录;
[0250]
违约记录数量记录模块,用于记录每个征信个体的违约记录数量;
[0251]
不良个体确定模块,用于将违约记录数量大于预设阈值的征信个体确定为征信不良个体。
[0252]
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0253]
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。显然,根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

技术特征:
1.一种基于机器学习的征信数据处理方法,其特征在于,包括:顺序从数据库中读取每个征信个体的历史征信数据;生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;基于所述结构化数据生成征信数据预测模型的样本数据;使用所述样本数据训练所述征信数据预测模型;基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;根据征信数据分布对征信个体进行分类得到多个征信个体类别;基于预设规则从数据库中识别征信不良个体;确定所述征信不良个体所属的目标征信个体类别;将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。2.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,在生成每个征信个体的结构化数据的步骤之后,还包括:接收结构化数据访问请求,所述结构化数据访问请求包括个体名称参数、时间参数和征信数据维度参数;从征信个体的名称与所述个体名称参数相匹配的所述结构化数据中确定目标结构化数据记录,所述目标结构化数据记录为征信数据维度与所述征信数据维度参数相同,且所述目标结构化数据记录为时间小于的所述时间参数中的多个结构化数据记录中时间最大的结构化数据记录;返回所述目标结构化数据记录的征信内容。3.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,使用所述样本数据训练所述征信数据预测模型的步骤具体包括:抽取部分所述结构化数据执行数据处理以生成样本数据;将所述样本数据划分为训练集、验证集和测试集;配置神经网络模型训练参数,所述神经网络模型训练参数包括学习率、批次大小、迭代次数和正则化系数;将所述训练集以及所述神经网络模型训练参数输入预设的神经网络模型中进行训练得到所述征信数据预测模型;使用所述验证集评估所述征信数据预测模型的验证指标;当所述征信数据预测模型的验证指标评估结果不理想时,调整所述神经网络模型训练参数对所述征信数据预测模型进行重新训练;当所述征信数据预测模型的验证指标评估结果符合要求时,使用所述测试集评估所述征信数据预测模型的预测效果;当所述征信数据预测模型的预测效果不理想时,重新执行抽取部分所述结构化数据执
行数据处理以生成样本数据到使用所述验证集评估所述征信数据预测模型的验证指标之间的步骤。4.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,基于所述结构化数据生成每个征信个体的征信数据分布的步骤具体包括:获取预先配置的每个征信数据维度的数据有效期限;按结构化数据记录的时间对每个征信个体的结构化数据记录进行排序;顺序读取征信个体的每一条结构化数据记录;将每一条结构化数据记录中的征信数据维度确定为相应征信个体的有用征信数据维度;每读取到一条结构化数据记录时,判断当前结构化数据记录中的时间是否落入上一条相同征信数据维度的时间分布范围,所述上一条相同征信数据维度的时间分布范围的上界为上一条相同征信数据维度的时间,所述上一条相同征信数据维度的时间分布范围的下界为上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限;判断为否时,将上一条相同征信数据维度的时间加上对应征信数据维度的数据有效期限确定为上一分布时间段的下界;将当前结构化数据记录中的时间确定为当前分布时间段的上界;在读完每一个征信个体的所有结构化数据记录后,将当前征信个体的时间分布涵盖当前时间的有用征信数据维度确定为当前征信个体的有效征信数据维度。5.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,根据征信数据分布对征信个体进行分类得到多个征信个体类别的步骤具体包括:获取预先配置的一级分类的征信数据维度分类标准,所述征信数据维度分类标准包括对应每个征信个体类别的最小有用征信数据维度序列和最小有效征信数据维度序列;将有用征信数据维度和有效征信数据维度分别覆盖任一个一级分类的所述最小有用征信数据维度序列和所述最小有效征信数据维度序列的征信个体确定为对应的一级分类;计算所述征信个体的有用征信数据维度的时间分布的综合离散度;根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类;将一级分类和二级分类相同的征信个体划分到同一个征信个体类别。6.根据权利要求5所述的基于机器学习的征信数据处理方法,其特征在于,计算所述征信个体的有用征信数据维度的时间分布的综合离散度的步骤具体包括:分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度s
i
,其中i=(1,2,

,n),n为所述征信个体的有用征信数据维度的数量;根据每一个有用征信数据维度的时间分布的离散度计算所述征信个体的有用征信数据维度的时间分布的综合离散度:7.根据权利要求6所述的基于机器学习的征信数据处理方法,其特征在于,分别计算所述征信个体的每一个有用征信数据维度的时间分布的离散度的步骤具体包括:获取所述征信个体的每一个有用征信数据维度的分布时间段的数量m以及每一个分布
时间段的上界t
j,t
和下界t
j,b
,其中j=(1,2,

,m);根据分布时间段的数量m以及每一个分布时间段的上界t
j,t
和下界t
j,b
计算每一个有用征信数据维度的时间分布的离散度:其中α为时间片段密度系数,β为时间片段长度系数。8.根据权利要求5所述的基于机器学习的征信数据处理方法,其特征在于,根据所述征信个体的有用征信数据维度的时间分布的离散度确定所述征信个体的二级分类的步骤具体包括:获取预先配置的离散度范围与每一个二级分类的对应关系;根据所述征信个体的有用征信数据维度的时间分布的综合离散度所落入的离散度范围确定所述征信个体的二级分类。9.根据权利要求1所述的基于机器学习的征信数据处理方法,其特征在于,基于预设规则从数据库中识别征信不良个体的步骤具体包括:从所述结构化数据中识别每个征信个体的违约记录;记录每个征信个体的违约记录数量;将违约记录数量大于预设阈值的征信个体确定为征信不良个体。10.一种基于机器学习的征信数据处理系统,其特征在于,包括:历史征信数据读取模块,用于顺序从数据库中读取每个征信个体的历史征信数据;结构化数据生成模块,用于生成每个征信个体的结构化数据,所述结构化数据中的每条记录均由时间、征信数据维度以及征信内容组成;样本数据生成模块,用于基于所述结构化数据生成征信数据预测模型的样本数据;预测模型训练模块,用于使用所述样本数据训练所述征信数据预测模型;分布数据生成模块,用于基于所述结构化数据生成每个征信个体的征信数据分布,所述征信数据分布包括有用征信数据维度、所述有用征信数据维度的时间分布以及有效征信数据维度;征信个体分类模块,用于根据征信数据分布对征信个体进行分类得到多个征信个体类别;不良个体识别模块,用于基于预设规则从数据库中识别征信不良个体;分类确定模块,用于确定所述征信不良个体所属的目标征信个体类别;征信数据预测模块,用于将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,所述预测征信数据为所述征信个体未来一段时间内的的结构化数据;征信数据合并模块,用于合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据。

技术总结
本发明提出了一种基于机器学习的征信数据处理方法及系统,通过使用每个征信个体的历史征信数据生成结构化数据和征信数据预测模型的样本数据,基于所述结构化数据生成每个征信个体的征信数据分布,根据征信数据分布对征信个体进行分类得到多个征信个体类别,基于预设规则从数据库中识别征信不良个体,确定所述征信不良个体所属的目标征信个体类别,将所述目标征信个体类别中的征信个体的结构化数据输入所述征信数据预测模型中生成所述征信个体的预测征信数据,合并所述征信个体的所述历史征信数据和所述预测征信数据生成用于识别所述征信个体的征信风险的目标征信数据,能够为征信风险识别模型提供更为准确有效的征信数据。数据。数据。


技术研发人员:张奇 钱建屹 李涛 肖云 冯汉
受保护的技术使用者:深圳征信服务有限公司
技术研发日:2023.04.04
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐