对象风险等级的确定方法和装置与流程
未命名
07-27
阅读:89
评论:0
1.本技术涉及金融科技领域,具体而言,涉及一种对象风险等级的确定方法和装置。
背景技术:
2.在相关技术中,银行客户在目标区域(新地区)申请信用卡时,会依赖已有的其他地区的风险筛查模型对银行客户进行风险筛查。然而,若目标区域依赖其他地区的风险筛查模型会导致模型更新迭代慢、问题反馈不及时以及通过率较低等问题,可能会存在目标区域进行信用卡发放的效率降低和信用卡违约率高等风险,从而存在对目标区域的银行客户进行风险筛查不准确,导致对区域的风险评估的准确率低的技术问题。
3.针对上述存在对区域的银行客户进行风险筛查不准确,导致对区域的风险评估的准确率低的技术问题,目前尚未提出有效的解决方案。
技术实现要素:
4.本技术提供一种对象风险等级的确定方法和装置,以解决对区域的风险评估的准确率低的技术问题。
5.根据本技术的一个方面,提供了一种对象风险等级的确定方法。该方法可以包括:获取目标区域中目标对象的特征数据;将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;确定预测结果所属的风险等级。
6.可选地,确定辅助区域与目标区域的域空间距离;基于域空间距离,确定辅助区域中的目标辅助区域。
7.可选地,基于域空间距离,确定辅助区域中的目标辅助区域,包括:将域空间距离小于空间距离阈值的辅助区域,确定为目标辅助区域。
8.可选地,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型。
9.可选地,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型,包括:通过子预测模型对目标区域的特征数据样本与目标辅助区域的特征训练样本进行预测,得到子预测结果;基于子预测结果调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重;通过调整过权重的目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行训练,得到预测模型。
10.可选地,基于子预测结果调整目标辅助区域的特征训练样本的第二权重和目标区
域的特征数据样本的第一权重,包括:确定子预测结果中,子预测模型在目标训练数据上的分类误差率;基于分类误差率,调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重。
11.可选地,基于分类误差率,调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重,包括:响应于子预测模型对目标辅助区域的特征训练样本的分类误差率大于误差阈值,减小第二权重;响应于子预测模型对目标区域的特征数据样本的分类误差率大于误差阈值,增大第一权重。
12.可选地,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型,包括:基于第一目标辅助区域的第一特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,得到第一预测模型;基于除第一目标辅助区域外的第二目标辅助区域的第二特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,得到第二预测模型。
13.可选地,将特征数据输入至预测模型进行预测,得到预测结果,包括:基于第一预测模型对特征数据进行预测,得到第一预测结果,且基于第二预测模型对特征数据进行预测,得到第二预测结果;确定第一预测结果和第一预测模型对应的模型权重二者之间的乘积,得到第一权重结果,且确定第二预测结果和第二预测模型对应的模型权重二者之间的乘积,得到第二权重结果;将第一权重结果和第二权重结果的和确定为预测结果。
14.可选地,确定第一目标辅助区域的域空间距离的倒数和第二目标辅助区域的域空间距离的倒数;确定第一目标辅助区域的域空间的倒数和第二目标辅助区域的域空间距离的倒数二者之间的和;将第一目标辅助区域的域空间距离的倒数与和二者之间的比值,确定为第一预测模型对应的模型权重,且将第二目标辅助区域的域空间距离的倒数与和二者之间的比值确定为第二预测模型对应的模型权重。
15.根据本技术的另一个方面,提供了一种模型的生成方法。该方法可以包括:获取目标区域的特征数据样本和目标辅助区域的特征训练样本,得到训练数据集;基于训练数据及对子预测模型进行训练,得到训练结果;基于训练结果调整训练数据集中目标区域的特征数据样本的第一权重和目标辅助区域的特征训练样本的第二权重,其中,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;基于调整权重后的训练数据集对子预测模型进行训练,得到预测模型。
16.根据本技术的一个方面,提供了一种对象风险等级的确定装置。该装置可以包括:获取单元,用于获取目标区域中目标对象的特征数据;预测单元,用于将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;确定单元,用于确定预测结果所属的风险等级。
17.根据本技术的另一个方面,提供了一种模型的生成装置。该装置可以包括:第一获取单元,用于获取目标区域的特征数据样本和目标辅助区域的特征训练样本,得到训练数
据集;第一训练单元,用于基于训练数据及对子预测模型进行训练,得到训练结果;调整单元,用于基于训练结果调整训练数据集中目标区域的特征数据样本的第一权重和目标辅助区域的特征训练样本的第二权重,其中,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;第二训练单元,用于基于调整权重后的训练数据集对子预测模型进行训练,得到预测模型。
18.根据本技术实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行对象风险等级的确定方法。
19.根据本技术实施例的另一方面,还提供了一种电子设备,包含一个或多个处理器和存储器;存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,一个或多个处理器执行对象风险等级的确定方法。
20.通过本技术,采用以下步骤:获取目标区域中目标对象的特征数据;将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;确定预测结果所属的风险等级。也即,在本技术中,可以通过目标区域的特征数据及对应的风险概率,以及与目标区域的特征数据相似度较大的辅助区域的特征数据及对应的风险概率,对模型进行训练,得到预测模型。基于该预测模型可以对目标区域中的目标对象进行风险筛查,可以将想要在目标区域中申请信用卡的目标对象的特征数据输入已经训练好的预测模型中,进行预测,确定目标对象是否存在风险以及对应的风险等级,从而避免了利用已有区域的风险筛查模型对目标区域中目标对象进行风险筛查不准确问题,进而解决了对区域的风险评估的准确率低的技术问题,实现了提高对区域的风险评估的准确率的技术效果。
附图说明
21.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
22.图1是根据本技术实施例提供的一种对象风险等级的确定方法的流程图;
23.图2是根据本技术实施例提供的一种确定风险筛查的三种子预测模型的示意图;
24.图3是根据本技术实施例提供的一种基于三种子预测模型得到预测模型的示意图;
25.图4是根据本技术实施例的一种对象风险等级的确定装置的示意图;
26.图5是根据本技术实施例的一种用于对象风险等级的确定方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
27.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相
互组合。下面将参考附图并结合实施例来详细说明本技术。
28.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
29.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.为了便于描述,以下对本技术实施例涉及的部分名词或术语进行说明:
31.最大均值差异法(maximum mean discrepancy,简称为mmd),是域适应中使用的最广泛的一种损伤函数,主要用来度量两个不同但相关的随机变量分布的距离;
32.迁移学习模型(tradaboost),对源域的样本更新权重,与目标域相似的样本增加权重,不相似的样本降低权重,该模型适用于源域和目标域特征相同的情况。
33.实施例一
34.需要说明的是,本技术中的对象风险等级的确定方法及其装置可用于信息安全领域在对服务器进行管理的情况下,也可用于除信息安全领域之外的任意领域在对服务器进行管理的情况下,本技术中对象风险等级的确定方法的应用领域不做限定。
35.下面结合优选的实施步骤对本发明进行说明。
36.为解决相关技术中存在对区域的银行客户进行风险筛查不准确,导致对区域的风险评估的准确率低的技术问题,本技术实施例,提供了一种对象风险等级的确定方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
37.图1是根据本技术实施例提供的一种对象风险等级的确定方法的流程图,如图1所示,该方法包括如下步骤:
38.步骤s102,获取目标区域中目标对象的特征数据。
39.步骤s104,将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度。
40.步骤s106,确定预测结果所属的风险等级。
41.通过上述步骤,可以将获取到的目标区域中目标对象的特征数据输入预测模型中进行风险预测,确定出预测结果,可以通过预测结果判断对应的目标对象所属的风险等级,
从而基于不同目标对象对应的风险等级,其中,目标区域可以是需要进行风险筛查的区域,比如,可以为银行首次开设信用卡的新地区。目标对象可以包括需要确定风险等级的银行客户,可以为需要在目标区域的银行办理信用卡的个人或企业。特征数据可以为目标对象的收入、支出和负债等情况,此处仅为举例说明,不对特征数据做具体限制。目标辅助区域可以为与目标区域的特征数据相似度大于相似度阈值的其他区域。相似度阈值可以为预先设置的数值或根据目标区域的实际情况自行设置的数值。特征数据样本可以为用于训练预测模型的目标区域的至少一特征数据,可以用于表征目标区域中对象的特征。特征训练样本可以为用于训练预测模型的目标辅助区域的至少一特征数据,可以用于表征目标辅助区域中对象的特征。第一权重可以用于表征对目标区域的特征数据样本的关注度,比如,第一权重可以为50%、0.6等,此处仅为举例,不对第一权重的大小和表现形式做任何限制。第二权重可以用于表征对目标辅助区域的特征训练样本的关注度,比如,第二权重可以为50%、0.4等,此处仅为举例,不对第一权重的大小和表现形式做任何限制。预测模型可以为风险筛查模型,可以用于基于输入的特征数据对该目标对象进行风险评估,预测模型可以是基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率训练得到的。预测结果可以用于表征目标对象存在的风险概率。
42.可选地,可以预先获取目标区域中对象的特征数据样本及对应的风险概率,也可以提前确定出与目标区域相似度较大的至少一个目标辅助区域,确定出每个目标辅助区域中的特征训练样本及对应的风险概率。在获取到特征数据样本与特征训练样本以及各自对应的风险概率之后,可以依据每个样本的关注度的大小,对各自分配对应的权重,比如,在模型训练过程中,可以对目标辅助区域中的特征训练样本进行预测,确定预测得到的风险概率是否准确,从而可以基于准确程度,对特征训练样本赋予对应的第二权重。可以对目标区域中特征数据样本进行预测,确定预测得到的风险概率是否准确,从而可以基于准确程度,对特征数据样本赋予对应的第一权重。可以将目标辅助区域及目标区域各自的权重及对应的样本和风险概率作为训练样本,训练得到最终的预测模型。需要说明的是,此处仅为举例说明,不对特征数据样本和特征训练样本赋予对应权重的方法和过程做具体限制。
43.可选地,在训练得到目标地区最终的预测模型之后,可以获取想要在目标区域中办理信用卡的目标对象的特征数据,将特征数据输入预测模型中进行预测,确定对该目标对象办理信用卡的风险概率,从而评估该风险概率对应的风险等级,便于对不同风险等级的目标对象进行不同程度的信用卡服务。
44.举例而言,可以预先对风险概率划分成不同的风险等级,比如,可以将风险概率70%~100%的目标对象的风险等级确定为a级,说明此时的目标对象存在风险。若经过预测模型确定出目标对象的风险概率处在70%~100%之间,则可以说明风险评估该目标对象所属的风险等级为a级,对于该等级的目标对象的办理信用卡请求,可以选择拒绝或适当设置小额度的方式处理。
45.在本技术实施例中,由于考虑到可以对目标对象的风险概率进行预测,确定对应的风险等级,可以针对不同风险等级的目标对象进行不同程度的信用卡服务,从而达到了降低银行自身被拖欠贷款的风险程度的目的,进而实现了提高信用卡服务的精准程度的技术效果。
46.在相关技术中,只能通过其他地区的已有风险筛查模型对目标区域进行风险筛查,然而,由于其他地区的风险筛查模型与目标区域的适配度低,导致对目标区域的风险筛查不准确,仍存在对目标区域的风险评估的准确率低的技术问题。在本技术实施例中,可以先从多个与目标区域相似的区域中筛选出相似度大于相似度阈值的至少一目标辅助区域,基于目标辅助区域中的特征训练样本及对应的风险概率,以及目标区域中现有的特征数据样本和对应的风险概率,进行模型训练,得到最终的预测模型,通过该预测模型可以对目标区域进行风险筛查,由于考虑到可以根据现有的目标辅助区域的数据辅助模型训练,达到了提高模型训练的效率,且由于目标辅助区域与目标区域的相似度较大,使得训练得到的预测模型与目标区域的实际情况的吻合度较高,从而实现了提高目标区域的风险评估的准确率的技术效果。
47.在本技术中,获取目标区域中目标对象的特征数据;将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;确定预测结果所属的风险等级。也即,在本技术中,可以通过目标区域的特征数据及对应的风险概率,以及与目标区域的特征数据相似度较大的辅助区域的特征数据及对应的风险概率,作为模型的样本对模型进行训练,得到预测模型。基于该预测模型可以对目标区域中的目标对象进行风险筛查,可以将想要在目标区域中申请信用卡的目标对象的特征数据输入已经训练好的预测模型中,进行预测,确定目标对象是否存在风险以及对应的风险等级,由于考虑到由于目标区域的风险筛查不完善,可以通过与目标区域相似度较大的区域进行辅助,得到目标区域的预测模型,从而避免了利用已有区域的风险筛查模型对目标区域中目标对象进行风险筛查不准确问题,进而解决了对区域的风险评估的准确率低的技术问题,实现了提高对区域的风险评估的准确率的技术效果。
48.下面结合上述各步骤对本技术实施例进行详细说明。
49.作为一种可选的实施例,该方法还包括:确定辅助区域与目标区域的域空间距离;基于域空间距离,确定辅助区域中的目标辅助区域。
50.在该实施例中,在训练出预测模型之前,还需要通过如下步骤确定出与目标区域相似度较大的目标辅助区域:可以确定与目标区域相似的辅助区域与目标区域的域空间距离,基于对应的域空间距离,可以从辅助区域中筛选出目标辅助区域,其中,域空间可以为再生希尔伯特空间(reproducing kernel hilbert space,简称为rkhs)。辅助区域可以为与目标区域相似的所有地区。域空间距离越小,则可以说明对应的辅助区域与目标区域之间的相似度更大,反之,则可以说明对应的辅助区域与目标区域之间的相似度更小。
51.若目标区域与某一辅助区域二者中特征数据的相似度较低,将辅助区域的特征数据迁移到目标区域的预测模型中进行训练的话,一方面会增加模型训练的消耗,另一方面会容易引入噪音数据,从而导致预测模型与目标区域的吻合程度较低。因此,并不是所有的辅助区域的特征数据都可以迁移到目标区域的预测模型中。在本技术实施例中,可以通过最大均值差异法对目标区域与对应的所有辅助区域在域空间中的距离进行度量,确定出每
个辅助区域与目标区域之间的域空间距离,从所有辅助区域对应的域空间距离中筛选出域空间距离较小的辅助区域作为目标辅助区域,由于考虑到对辅助区域进行筛选,达到了提高目标辅助区域与目标区域的相似度的目的,基于相似度较高的目标辅助区域的特征数据确定出的预测模型与目标区域的吻合程度也会更高,从而实现了提高预测模型与目标区域的吻合程度的技术效果。
52.可选地,可以将目标区域的特征数据样本以及所有辅助区域的特征数据的样本映射到再生希尔伯特空间中,可以确定目标区域与每个辅助区域二者的样本在再生希尔伯特空间中均值的距离,可以得到每个辅助区域的域空间距离。
53.举例而言,可以通过如下公式确定目标区域与辅助区域之间的域空间距离:
[0054][0055]
其中,mmd(x,y)可以用于表示目标区域x与辅助区域y之间的域空间距离;n1可以用于表示目标区域的特征数据样本的总数;i可以用于表示第i个特征数据样本;n2可以用于表示辅助区域中特征数据的样本的总数;j可以用于表示第j个特征数据的样本;可以用于表示将x映射到再生希尔伯特空间的函数;h可以用于表示域空间距离是由将数据映射到再生希尔伯特空间中进行度量的。
[0056]
可选地,在从辅助区域中筛选出目标辅助区域之前,可以对每个辅助区域中的特征数据的样本以及目标区域的特征数据样本进行数据预处理,比如,缺失值处理、异常值处理和归一化处理等方式。通过数据预处理,可以达到提高辅助区域中所有样本的准确率的目的,从而实现了提高筛选出的目标辅助区域的准确程度的技术效果。
[0057]
举例而言,对于辅助区域中的样本以及目标区域中的特征数据样本,对于这种样本中的数值型特征,当数值型特征的缺失率较低时,比如,缺失率小于10%,可以使用均值对对应的样本进行填充。当数值型特征的缺失率较高时,可能辅助区域本身就不存在此类数值型特征,可以直接对对应的样本使用0填充。对于这种样本的类别型特征,可以直接使用不同于其他数值的数进行填充,比如,采用-99进行填充。
[0058]
再举例而言,可以对辅助区域的样本以及目标区域中的特征数据样本使用箱线图,对其中小于q1-1.5iqr以及大于q3+1.5iqr的样本进行剔除,其中,q1可以用于表示箱线图中的第一四分位数;q3可以用于表示箱线图中的第三四分位数;iqr可以用于表示箱线图的四分位距;q1-1.5iqr和q3+1.5iqr可以用于表示两个异常值截断点。
[0059]
作为一种可选的示例,可以使用标准分数(z-score)分别将辅助区域的样本以及目标区域的特征数据样本的原始数据归一化为均值为0,方差为1的数据集。
[0060]
需要说明的是,此处仅为举例说明,不对数据预处理的方法和过程做具体限制。
[0061]
作为一种可选的实施例,基于域空间距离,确定辅助区域中的目标辅助区域,包括:将域空间距离小于空间距离阈值的辅助区域,确定为目标辅助区域。
[0062]
在该实施例中,在基于所有辅助区域的域空间距离,从辅助区域中确定出目标辅助区域的过程中,可以判断域空间距离与空间距离阈值的大小关系,将域空间距离小于空间距离阈值的辅助区域,确定为目标区域的目标辅助区域,其中,空间距离阈值可以为预先
设置的数值,也可以为根据目标区域的实际情况设置的数值。需要说明的是,此处仅为举例说明,不对空间距离阈值的大小做具体限制。
[0063]
可选地,可以从所有辅助区域的域空间距离中筛选出小于空间距离阈值的作为目标辅助区域,也可以将所有辅助区域的域空间距离按照由大到小或者由小到大的顺序进行排列,可以将域空间距离最小的几个作为目标辅助区域,比如,可以将域空间距离最小的三个作为目标辅助区域。需要说明的是,此处仅为举例说明,不对从辅助区域中筛选出目标辅助区域的方法和过程做具体限制,只要是基于与目标区域相似的区域确定预测模型的过程和方法均在本发明实施例的保护范围之内。
[0064]
作为一种可选的实施例,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型。
[0065]
在该实施例中,在从辅助区域中筛选出目标区域的目标辅助区域之后,可以基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练,得到预测模型,其中,子预测模型可以为对单个目标辅助区域与目标区域进行融合和训练得到的,可以为迁移学习模型,子预测模型的数量与目标辅助区域的数量一致。
[0066]
可选地,可以将每个目标辅助区域与目标区域进行数据融合,可以使用迁移学习模型对数据融合后的样本进行训练,得到预测模型。也即,在本技术实施例中,在筛选出目标辅助区域之后,将目标辅助区域的特征训练样本与目标区域的特征数据样本进行融合,得到训练样本,基于训练样本对子预测模型不断地进行迭代训练,得到预测模型,在模型训练的过程中,通过目标辅助区域的特征训练样本与目标区域的特征数据样本融合得到的训练样本进行迭代训练,从而实现了提高对目标区域的风险评估的准确率的技术效果。
[0067]
作为一种可选的实施例,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型,包括:通过子预测模型对目标区域的特征数据样本与目标辅助区域的特征训练样本进行预测,得到子预测结果;基于子预测结果调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重;通过调整过权重的目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行训练,得到预测模型。
[0068]
在该实施例中,在基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型的过程中,可以通过子预测模型对目标区域的特征数据样本与目标辅助区域的特征训练样本对目标区域中目标对象进行风险预测,得到子预测结果,基于子预测结果对目标辅助区域的特征训练样本的第二权重以及目标区域的特征数据样本的第一权重进行调整,并不断地基于调整过权重的目标区域的特征数据样本以及目标辅助区域的特征训练样本对子预测模型进行训练,得到预测模型。子预测结果可以用于表征特征训练样本或特征数据样本对应的风险概率。
[0069]
可选地,在基于特征数据样本以及特征训练样本进行模型训练的过程中,可以采用迁移学习模型及对特征数据样本及特征训练样本进行迭代训练,在迭代训练过程中,可以根据子预测模型对目标区域的特征数据样本与目标辅助区域的特征训练样本对目标区域中目标对象进行风险预测,确定子预测结果与特征数据样本对应的风险概率的相似程度。若相似程度较低,则可以说明预测错误,在之后的迭代训练过程中,可以降低该子预测模型对应的目标辅助区域的特征训练样本的第二权重,并适应性调整目标区域的特征数据
样本的第一权重。反之,若相似程度较高,则可以说明预测较为准确,在之后的迭代训练过程中,可以提高该子预测模型对应的目标辅助区域的特征训练样本的第二权重,并适应性调整目标区域的特征数据样本的第一权重。调整权重之后,可以继续判断子预测结果与特征数据样本的风险概率的相似程度,再继续执行上述步骤,通过不断地对权重进行调整,使得子预测结果与特征数据样本的风险概率之间的拟合度越来越好,预测模型与目标区域的吻合程度越来越高,直至迭代训练得到最终的预测模型。
[0070]
可选地,可以将每个目标辅助区域的特征训练样本分别与目标区域的特征数据样本进行融合,得到每个目标辅助区域对应的子预测模型,通过迁移学习模型对子预测模型进行迭代训练,可以确定出如下的预测模型:
[0071][0072]
其中,hf(x)可以用于表示预测结果,当hf(x)=0时,可以说明预测结果为不存在风险,当hf(x)=1时,可以说明预测结果为存在风险;n可以用于表示迭代的轮数。β
t
可以用于表示衰弱因子。
[0073]
举例而言,由于迭代训练到越后面的模型,对数据的拟合度越好,迁移学习模型是根据后[n/2]个模型进行预测,并且可以设置风险判断的阈值σ为1/2,上述两个参数可以根据具体的测试情况进行调整,其中,模型的数量可以调整为[n/k],其中k的范围为[2,n]。一般情况下,银行客户的风险筛查模型中的数据是不平衡的,通过坏样本存在风险的预测结果样本)占比不高于20%。此时若将风险判断的阈值σ设置为1/2,可能会导致很多坏样本被误判为好样本(不存在风险的预测结果样本),从而导致目标区域的风险评估的准确率降低的问题,因此,如果只需要输出风险概率,可以仅输出最终输出的预测模型可以如下公式所示:
[0074][0075]
作为一种可选的实施例,基于子预测结果调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重,包括:确定子预测结果中,子预测模型在目标训练数据上的分类误差率;基于分类误差率,调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重。
[0076]
在该实施例中,在基于子预测结果对目标区域的特征数据样本的第一权重和目标辅助区域的特征训练样本的第二权重进行调整的过程中,可以确定子预测模型在目标训练数据上的分类误差率,可以基于分类误差率,对第一权重和第二权重进行调整,其中,分类误差率可以用于表征子预测模型与目标训练数据的吻合程度,可以用于确定是否停止迭代训练,可以用ε
t
表示。
[0077]
可选地,在获取到目标辅助区域的特征训练样本之后,可以将每个目标辅助区域的特征训练样本分别与目标区域的特征数据样本进行融合,并可以对每个特征训练样本与特征数据样本融合后使用迁移学习模型进行迭代训练,得到预测模型。通过基于目标区域中的特征数据样本d
t
(样本量为m)和目标辅助区域的特征训练样本ds(样本量为n),通过计
算分类误差率来迭代地调整第一权重以及第二权重来构建分类器,得到预测结果,其中,分类器可以用于确定预测结果。
[0078]
可选地,通过迁移学习模型可以对特征数据样本以及特征训练样本合并为训练样本(d),其中,d=d
t
∪ds。将第一权重和第二权重初始化为w,并设置迁移学习模型的衰弱因子设定n为迭代的轮数。
[0079]
可选地,在迭代训练的过程中,可以设置权重并可以通过调用迁移学习模型的基学习器(learner),基于基学习器根据合并后的数据集d以及d上的权重分布p
t
和分类器h
t
,通过如下公式确定分类误差率:
[0080][0081]
其中,ε
t
可以用于表示第t次迭代的分类误差率。若分类误差率为0,则可以停止迭代训练。
[0082]
可选地,在分类误差率不为零的情况下,可以设置衰弱因子并可以基于如下公式对第一权重和第二权重进行更新:
[0083][0084]
其中,可以用于表示第t+1次迭代的权重。
[0085]
作为一种可选的实施例,基于分类误差率,调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重,包括:响应于子预测模型对目标辅助区域的特征训练样本的分类误差率大于误差阈值,减小第二权重;响应于子预测模型对目标区域的特征数据样本的分类误差率大于误差阈值,增大第一权重。
[0086]
在该实施例中,在基于分类误差率,对第一权重和第二权重进行调整的过程中,可以确定子预测模型对目标辅助区域的特征训练样本的分类误差率与误差阈值的大小关系,若特征训练样本的分类误差率大于误差阈值,则可以对该分类误差率对应的目标辅助区域的特征训练样本的第二权重进行减小。可以确定子预测模型对目标区域的特征数据样本的分类误差率与误差阈值的大小关系,若特征数据样本的分类误差率大于误差阈值,则可以对该分类误差率对应的目标区域的特征数据样本的第一权重进行增大,其中,误差阈值可以为预先设置的数值,可以为基于目标区域的实际情况自行设置的数据。需要说明的是,此处仅为举例说明,不对误差阈值做具体限制。
[0087]
可选地,基于上述公式,可以在每一轮迭代训练中降低上一轮迭代过程中目标辅助区域中被预测错误的特征训练样本的第二权重,来减少该特征训练样本对本轮模型训练的影响,可以在迭代训练中增加目标区域中被预测错误的特征数据样本的第一权重,以增大该特征数据样本在下一轮模型训练中的关注度。在经过若干次迭代后,目标辅助区域中与目标区域的吻合程度较高的特征训练样本会拥有更高的权重,反之,则会拥有较低的权重,从而得到最终的预测模型。
[0088]
作为一种可选的实施例,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型,包括:基于第一目标辅助区域的第一特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,得到第一预测模型;基于除第一目标辅助区域外的第二目标辅助区域的第二特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,得到第二预测模型。
[0089]
在该实施例中,基于目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行迭代训练可以得到预测模型可以包括:可以根据第一目标辅助区域的第一特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,确定出第一预测模型,并可以基于除第一目标辅助区域外的第二目标辅助区域的第二特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,确定出第二预测模型。其中,第一目标辅助区域可以为与目标区域相似度最大的目标辅助区域,可以用m1表示。第二目标区域可以为与目标区域相似度较高的区域,比如,可以为相似度第二高的区域或相似度第三高的区域,可以用m2、m3表示,需要说明的是,此处不对第二目标区域的数量做具体限制。
[0090]
举例而言,可以以一个第一目标辅助区域和两个第二目标辅助区域为例,基于第一目标辅助区域的第一特征训练样本和目标区域的特征数据样本的混合样本,可以对第一目标辅助区域对应的子预测模型进行迭代训练,得到第一预测模型m1。基于两个第二目标辅助区域各自的第二特征训练样本和目标区域的特征数据样本的混合样本,可以对每个第二目标辅助区域的子预测模型进行迭代训练,得到两个对应的第二预测模型m2和m3。
[0091]
作为一种可选的实施例,将特征数据输入至预测模型进行预测,得到预测结果,包括:基于第一预测模型对特征数据进行预测,得到第一预测结果,且基于第二预测模型对特征数据进行预测,得到第二预测结果;确定第一预测结果和第一预测模型对应的模型权重二者之间的乘积,得到第一权重结果,且确定第二预测结果和第二预测模型对应的模型权重二者之间的乘积,得到第二权重结果;将第一权重结果和第二权重结果的和确定为预测结果。
[0092]
在该实施例中,在将特征数据输入值预测模型中进行预测,确定预测结果可以包括,可以基于第一预测模型对特征数据进行预测,得到第一预测结果,并且可以基于第二预测结果对特征数据进行预测,得到第二预测结果,并可以将第一预测结果与第一预测模型对应的模型权重二者之间的乘积,确定为第一权重结果,可以将第二预测结果和第二预测模型对应的模型权重之间的乘积,确定为第二权重结果,并可以将第二权重结果和第一权重结果的和确定为预测结果。
[0093]
举例而言,可以以一个第一目标辅助区域和两个第二目标辅助区域为例,可以基于第一预测模型m1对特征数据进行预测,得到第一预测结果p1,可以将第一个第二目标辅助区域的第二预测模型m2对特征数据进行预测,得到第二预测结果p2,可以将第二个第二目标辅助区域的第二预测模型m3对特征数据进行预测,得到第二预测结果p3。可以将第一预测结果p1与第一预测模型m1对应的模型权重λ1的乘积,确定为第一权重结果λ1p1。可以将第一个第二预测结果p2与第二预测模型m2对应的模型权重λ2的乘积,确定为第一个第二权重结果λ2p2。可以将第二个第二预测结果p3与第三预测模型m3对应的模型权重λ3的乘积,确定为第二个第二权重结果λ3p3。可以基于第一权重结果λ1p1与第二权重结果λ2p2、λ3p3,通过如下公式确定预测结果:
[0094]
p=λ1p1+λ2p2+λ3p3。
[0095]
需要说明的是,此处不对第二目标辅助区域的数量做具体限制,可以根据实际情况选择第二目标辅助区域的数量,上述公式可以根据第二目标辅助区域的数量进行适应性调整。
[0096]
作为一种可选的实施例,确定第一目标辅助区域的域空间距离的倒数和第二目标辅助区域的域空间距离的倒数;确定第一目标辅助区域的域空间的倒数和第二目标辅助区域的域空间距离的倒数二者之间的和;将第一目标辅助区域的域空间距离的倒数与和二者之间的比值,确定为第一预测模型对应的模型权重,且将第二目标辅助区域的域空间距离的倒数与和二者之间的比值确定为第二预测模型对应的模型权重。
[0097]
在该实施例中,可以确定第一目标辅助区域的域空间距离的倒数和第二目标辅助区域的域空间距离的倒数,可以将第一目标辅助区域的域空间距离的倒数,与第一目标辅助区域的域空间的倒数和第二目标辅助区域的域空间距离的倒数二者之间的和,二者之间的比值,确定为第一预测模型对应的模型权重。并且可以将第二目标辅助区域的域空间距离的倒数与和二者之间的比值确定为第二预测模型对应的模型权重。
[0098]
举例而言,可以以一个第一目标辅助区域和两个第二目标辅助区域为例,可以确定第一目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数以及第二个第二目标辅助区域的域空间距离的倒数三者之间的和。可以基于第一目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数和第二个第二目标辅助区域的域空间距离的倒数二者之间的和的比值,通过如下公式确定第一预测模型对应的模型权重:
[0099][0100]
其中,λ1可以用于表示第一预测模型对应的模型权重;m1可以用于表示第一目标辅助区域的域空间距离;m2可以用于表示第一个第二目标辅助区域的域空间距离;m3可以用于表示第二个第二目标辅助区域的域空间距离。
[0101]
再举例而言,可以基于第一个第二目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数和第二个第二目标辅助区域的域空间距离的倒数二者之间的和的比值,通过如下公式确定第一个第二预测模型对应的模型权重:
[0102][0103]
其中,λ2可以用于表示第一个第二预测模型对应的模型权重。
[0104]
作为一种可选的实例,可以基于第二个第二目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数和第二个第二目标辅助区域的域空间距离的倒数二者之间的和的比值,通过如下公式确定第二个第二预测模型对应的模型权重:
[0105][0106]
其中,λ3可以用于表示第二个第二预测模型对应的模型权重。
[0107]
作为一种可选的实施例,一种模型的生成方法,包括:获取目标区域的特征数据样本和目标辅助区域的特征训练样本,得到训练数据集;基于训练数据及对子预测模型进行训练,得到训练结果;基于训练结果调整训练数据集中目标区域的特征数据样本的第一权重和目标辅助区域的特征训练样本的第二权重,其中,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;基于调整权重后的训练数据集对子预测模型进行训练,得到预测模型。
[0108]
在该实施例中,可以基于目标区域的特征数据样本和目标辅助区域的特征训练样本,确定出训练数据集,可以基于训练数据对子预测模型进行训练,得到训练结果,并可以基于训练结果对训练数据集中目标区域的特征数据样本的第一权重以及目标辅助区域的特征训练样本的第二权重进行调整,从而基于调整后的训练数据集对子预测模型进行训练,得到最终的预测模型,其中,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值。第一权重可以用于表征对目标区域的特征数据样本的关注度。第二权重可以用于表征对目标辅助区域的特征训练样本的关注度,其中,训练数据集也可以称为测试集数据。
[0109]
在本技术实施例中,需要对目标辅助区域的特征训练样本与目标区域的特征数据样本不断地进行迭代训练,根据关注度的高低,可以给不同的目标辅助区域的特征训练样本赋予不同的权重,比如,对关注度高的赋予较大的权重,从而使得预测模型与目标区域的吻合程度更高,进而实现了提高对目标区域的风险评估的准确率的技术效果。
[0110]
在本技术实施例中,可以通过目标区域的特征数据及对应的风险概率,以及与目标区域的特征数据相似度较大的辅助区域的特征数据及对应的风险概率,对模型进行训练,得到预测模型。基于该预测模型可以对目标区域中的目标对象进行风险筛查,可以将想要在目标区域中申请信用卡的目标对象的特征数据输入已经训练好的预测模型中,进行预测,确定目标对象是否存在风险以及对应的风险等级,从而避免了利用已有区域的风险筛查模型对目标区域中目标对象进行风险筛查不准确问题,进而解决了对区域的风险评估的准确率低的技术问题,实现了提高对区域的风险评估的准确率的技术效果。
[0111]
实施例二
[0112]
下面结合另一种可选的具体实施方式进行详细说明。
[0113]
通常银行客户申请信用卡时,会依赖现有地区的风险筛查模型对银行该银行客户进行风险筛查,但是在新地区进行信用卡营销时,依赖其他地区的风险筛查模型会存在一些问题,例如模型更新迭代慢,问题反馈不及时,自动通过率较低等,可能会导致新地区的信用卡发放率低,信用卡违约率高等问题。
[0114]
在相关技术中,公开了一种地区的营销价值智能分析方法,包括如下步骤:确定至少两个样本类型的样本地区集合,采集每个样本类型的样本地区集合对应的地区特征数据;根据所有样本类型的样本地区集合对应的地区特征数据,对待训练分析模型执行模型训练操作,得到训练后分析模型,并判断训练后分析模型是否满足模型应用条件;当判断出训练后分析模型满足模型应用条件时,将训练后分析模型确定为目标分析模型;基于目标分析模型对地区的营销价值进行分析。然而,仍存在目标区域的风险评估的准确率低的技术问题。
[0115]
为解决上述技术问题,本技术实施例提出了一种基于多源数据融合的信用卡风险筛查的实现方法,通过目标区域的特征数据及对应的风险概率,以及与目标区域的特征数据相似度较大的辅助区域的特征数据及对应的风险概率,对模型进行训练,得到预测模型。基于该预测模型可以对目标区域中的目标对象进行风险筛查,可以将想要在目标区域中申请信用卡的目标对象的特征数据输入已经训练好的预测模型中,进行预测,确定目标对象是否存在风险以及对应的风险等级,由于考虑到由于目标区域的风险筛查不完善,可以通过与目标区域相似度较大的区域进行辅助,得到目标区域的预测模型,从而避免了利用已有区域的风险筛查模型对目标区域中目标对象进行风险筛查不准确问题,进而解决了对区域的风险评估的准确率低的技术问题,实现了提高对区域的风险评估的准确率的技术效果。
[0116]
在该实施例中,可以对每个辅助区域中的特征数据的样本以及目标区域的特征数据样本进行数据预处理,比如,缺失值处理、异常值处理和归一化处理等方式。通过数据预处理,可以达到提高辅助区域中所有样本的准确率的目的,从而实现了提高筛选出的目标辅助区域的准确程度的技术效果。
[0117]
举例而言,对于辅助区域中的样本以及目标区域中的特征数据样本,对于这种样本中的数值型特征,当数值型特征的缺失率较低时,比如,缺失率小于10%,可以使用均值对对应的样本进行填充。当数值型特征的缺失率较高时,可能辅助区域本身就不存在此类数值型特征,可以直接对对应的样本使用0填充。对于这种样本的类别型特征,可以直接使用不同于其他数值的数进行填充,比如,采用-99进行填充。可以对辅助区域的样本以及目标区域中的特征数据样本使用箱线图,对其中小于q1-1.5iqr以及大于q3+1.5iqr的样本进行剔除。可以使用标准分数分别将辅助区域的样本以及目标区域的特征数据样本的原始数据归一化为均值为0,方差为1的数据集,其中,,其中,q1可以用于表示箱线图中的第一四分位数;q3可以用于表示箱线图中的第三四分位数;iqr可以用于表示箱线图的四分位距;q1-1.5iqr和q3+1.5iqr可以用于表示两个异常值截断点。需要说明的是,此处仅为举例说明,不对数据预处理的方法和过程做具体限制。
[0118]
在该实施例中,在训练出预测模型之前,还需要通过如下步骤确定出与目标区域相似度较大的目标辅助区域:可以从与目标区域相似的辅助区域与目标区域的域空间距离,基于对应的域空间距离,可以从辅助区域中筛选出目标辅助区域。
[0119]
可选地,可以将目标区域的特征数据样本以及所有辅助区域的特征数据的样本映射到再生希尔伯特空间中,可以确定目标区域与每个辅助区域二者的样本在再生希尔伯特空间中均值的距离,可以得到每个辅助区域的域空间距离。
[0120]
举例而言,可以通过如下公式确定目标区域与辅助区域之间的域空间距离:
[0121][0122]
其中,mmd(x,y)可以用于表示目标区域x与辅助区域y之间的域空间距离;n1可以用于表示目标区域的特征数据样本的总数;i可以用于表示第i个特征数据样本;n2可以用于表示辅助区域中特征数据的样本的总数;j可以用于表示第j个特征数据的样本;可
以用于表示将x映射到再生希尔伯特空间的函数;h可以用于表示域空间距离是由将数据映射到再生希尔伯特空间中进行度量的。
[0123]
可选地,可以从所有辅助区域的域空间距离中筛选出小于空间距离阈值的作为目标辅助区域,也可以将所有辅助区域的域空间距离按照由大到小或者由小到大的顺序进行排列,可以将域空间距离最小的几个作为目标辅助区域,比如,可以将域空间距离最小的三个作为目标辅助区域。
[0124]
在该实施例中,在获取到目标辅助区域的特征训练样本之后,可以将每个目标辅助区域的特征训练样本分别与目标区域的特征数据样本进行融合,并可以对每个特征训练样本与特征数据样本融合后使用迁移学习模型进行迭代训练,通过基于目标区域中的特征数据样本d
t
(样本量为m)和目标辅助区域的特征训练样本ds(样本量为n),通过计算分类误差率来迭代地调整第一权重以及第二权重来构建分类器,得到子预测结果,其中,分类器可以用于确定子预测结果。
[0125]
可选地,通过迁移学习模型可以对特征数据样本以及特征训练样本合并为训练数据d=d
t
∪ds,将第一权重和第二权重初始化为w,并设置迁移学习模型的衰弱因子设定n为迭代的轮数。
[0126]
可选地,在迭代训练的过程中,可以设置权重并可以通过调用迁移学习模型的基学习器(learner),采用基学习器根据合并后的数据集d以及d上的权重分布p
t
和分类器h
t
,可以基于如下公式确定分类误差率:
[0127][0128]
其中,ε
t
可以用于表示第t次迭代的分类误差率。若分类误差率为0,则可以停止迭代训练。
[0129]
可选地,在分类误差率不为零的情况下,可以设置衰弱因子并可以基于如下公式对第一权重和第二权重进行更新:
[0130][0131]
其中,可以用于表示第t+1次迭代的权重。
[0132]
可选地,可以确定出如下的预测模型:
[0133][0134]
其中,hf(x)可以用于表示预测模型,当hf(x)=0时,可以说明预测结果为不存在风险,当hf(x)=1时,可以说明预测结果为存在风险。
[0135]
举例而言,由于迭代训练到越后面的模型,对数据的拟合度越好,迁移学习模型是
根据后[n/2]个模型进行预测,并且可以设置风险判断的阈值σ为1/2,上述两个参数可以根据具体的测试情况进行调整,其中,模型的数量可以调整为[n/k],其中k的范围为[2,n]。一般情况下,银行客户的风险筛查模型中的数据是不平衡的,通过坏样本存在风险的预测结果样本)占比不高于20%。此时若将风险判断的阈值σ设置为1/2,可能会导致很多坏样本被误判为好样本(不存在风险的预测结果样本),从而导致目标区域的风险评估的准确率降低的问题,因此,如果只需要输出风险概率,可以仅输出最终输出的预测模型可以如下公式所示:
[0136][0137]
举例而言,图2是根据本技术实施例提供的一种确定风险筛查的三种子预测模型的示意图,如图2所示,可以根据目标区域的数据集(特征数据样本)d
t
,确定出n个辅助区域的数据集ds1,ds2...,dsn,得到每个辅助区域对应的域空间距离mmd1,mmd2,...mmdn,从所有的域空间距离中筛选出域空间距离最小的三个辅助区域作为目标辅助区域,并确定三个目标辅助区域的辅助数据(特征训练样本)分别为s1、s2和s3,其对应的权重分别为λ1、λ2和λ3,基于迁移学习模型对子预测模型进行迭代训练,可以得到三个目标辅助区域对应的三个预测模型,分别为第一预测模型m1、第二预测模型m2和第三预测模型m3。
[0138]
举例而言,可以确定第一目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数以及第二个第二目标辅助区域的域空间距离的倒数三者之间的和。可以基于第一目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数和第二个第二目标辅助区域的域空间距离的倒数二者之间的和的比值,通过如下公式确定第一预测模型对应的模型权重:
[0139][0140]
其中,λ1可以用于表示第一预测模型对应的模型权重;m1可以用于表示第一目标辅助区域的域空间距离;m2可以用于表示第一个第二目标辅助区域的域空间距离;m3可以用于表示第二个第二目标辅助区域的域空间距离。
[0141]
再举例而言,可以基于第一个第二目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数和第二个第二目标辅助区域的域空间距离的倒数二者之间的和的比值,通过如下公式确定第一个第二预测模型对应的模型权重:
[0142][0143]
其中,λ2可以用于表示第一个第二预测模型对应的模型权重。
[0144]
作为一种可选的实例,可以基于第二个第二目标辅助区域的域空间距离的倒数与第一个第二目标辅助区域的域空间距离的倒数和第二个第二目标辅助区域的域空间距离的倒数二者之间的和的比值,通过如下公式确定第二个第二预测模型对应的模型权重:
[0145][0146]
其中,λ3可以用于表示第二个第二预测模型对应的模型权重。
[0147]
举例而言,图3是根据本技术实施例提供的一种基于三种子预测模型得到预测模型的示意图,如图3所示,可以将目标区域的特征数据样本和目标辅助区域的特征训练样本,确定为测试集数据。基于测试集数据,确定出三种预测模型,分别为第一预测模型m1、第二预测模型m2和第二预测模型m3,根据三种预测模型,可以确定出对应的风险概率(预测结果),分别为第一预测结果p1、第二预测结果p2和第三预测结果p3,基于该风险概率及对应的预测模型的模型权重,可以通过如下公式确定出最终的预测结果:
[0148]
p=λ1p1+λ2p2+λ3p3
[0149]
其中,p可以用于表示预测结果。若预测结果中风险概率大于风险阈值σ,则可以说明该预测结果对应的目标对象为风险客户。反之,则可以说明该目标对象为非风险客户。
[0150]
在本技术实施例中,可以通过目标区域的特征数据及对应的风险概率,以及与目标区域的特征数据相似度较大的辅助区域的特征数据及对应的风险概率,对模型进行训练,得到预测模型。基于该预测模型可以对目标区域中的目标对象进行风险筛查,可以将想要在目标区域中申请信用卡的目标对象的特征数据输入已经训练好的预测模型中,进行预测,确定目标对象是否存在风险以及对应的风险等级,从而避免了利用已有区域的风险筛查模型对目标区域中目标对象进行风险筛查不准确问题,进而解决了对区域的风险评估的准确率低的技术问题,实现了提高对区域的风险评估的准确率的技术效果。
[0151]
实施例三
[0152]
本技术实施例还提供了一种对象风险级的确定装置,需要说明的是,本技术实施例的对象风险等级的确定装置可以用于执行图1中本技术实施例所提供的用于对象风险等级的确定方法。以下对本技术实施例提供的对象风险等级的确定装置进行介绍。
[0153]
图4是根据本技术实施例的一种对象风险等级的确定装置的示意图。如图4所示,该装置可以包括:获取单元402、预测单元404和确定单元406。
[0154]
获取单元402,用于获取目标区域中目标对象的特征数据。
[0155]
预测单元404,用于将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度。
[0156]
确定单元406,用于确定预测结果所属的风险等级。
[0157]
可选地,该装置还包括:第一确定模块,用于确定辅助区域与目标区域的域空间距离;第二确定模块,用于基于域空间距离,确定辅助区域中的目标辅助区域。
[0158]
可选地,第二确定模块可以包括:第一确定子模块,用于将域空间距离小于空间距离阈值的辅助区域,确定为目标辅助区域。
[0159]
可选地,该装置还包括:迭代训练模块,用于基于目标区域的特征数据样本与目标
辅助区域的特征训练样本对子预测模型进行迭代训练得到预测模型。
[0160]
可选地,迭代训练模块可以包括:预测子模块,用于通过子预测模型对目标区域的特征数据样本与目标辅助区域的特征训练样本进行预测,得到子预测结果;第一调整子模块,用于基于子预测结果调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重;训练子模块,用于通过调整过权重的目标区域的特征数据样本与目标辅助区域的特征训练样本对子预测模型进行训练,得到预测模型。
[0161]
可选地,迭代训练模块还包括:第二确定子模块,用于确定子预测结果中,子预测模型在目标训练数据上的分类误差率;第二调整子模块,用于基于分类误差率,调整目标辅助区域的特征训练样本的第二权重和目标区域的特征数据样本的第一权重。
[0162]
可选地,迭代训练模块还包括:第三确定子模块,用于响应于子预测模型对目标辅助区域的特征训练样本的分类误差率大于误差阈值,减小第二权重;第二确定子模块,用于响应于子预测模型对目标区域的特征数据样本的分类误差率大于误差阈值,增大第一权重。
[0163]
可选地,迭代训练模块还包括:第一迭代训练子模块,用于基于第一目标辅助区域的第一特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,得到第一预测模型;第二迭代训练子模块,用于基于除第一目标辅助区域外的第二目标辅助区域的第二特征训练样本和目标区域的特征数据样本,对子预测模型进行迭代训练,得到第二预测模型。
[0164]
可选地,预测单元404可以包括:第一处理模块,用于基于第一预测模型对特征数据进行预测,得到第一预测结果,且基于第二预测模型对特征数据进行预测,得到第二预测结果;第二处理模块,用于确定第一预测结果和第一预测模型对应的模型权重二者之间的乘积,得到第一权重结果,且确定第二预测结果和第二预测模型对应的模型权重二者之间的乘积,得到第二权重结果;第三确定模块,用于将第一权重结果和第二权重结果的和确定为预测结果。
[0165]
可选地,该装置还可以包括:第四确定模块,用于确定第一目标辅助区域的域空间距离的倒数和第二目标辅助区域的域空间距离的倒数;第五确定模块,用于确定第一目标辅助区域的域空间的倒数和第二目标辅助区域的域空间距离的倒数二者之间的和;第六确定模块,用于将第一目标辅助区域的域空间距离的倒数与和二者之间的比值,确定为第一预测模型对应的模型权重,且将第二目标辅助区域的域空间距离的倒数与和二者之间的比值确定为第二预测模型对应的模型权重。
[0166]
可选地,该装置还可以包括:获取模块,用于获取目标区域的特征数据样本和目标辅助区域的特征训练样本,得到训练数据集;第一训练模块,用于基于训练数据及对子预测模型进行训练,得到训练结果;调整模块,用于基于训练结果调整训练数据集中目标区域的特征数据样本的第一权重和目标辅助区域的特征训练样本的第二权重,其中,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;第二训练模块,用于基于调整权重后的训练数据集对子预测模型进行训练,得到预测模型。
[0167]
本技术实施例提供的对象风险等级的确定装置,通过获取单元402,获取目标区域
中目标对象的特征数据;通过预测单元404,将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度,第二权重用于表征对目标辅助区域的特征训练样本的关注度;通过确定单元,确定预测结果所属的风险等级,从而解决了相关技术中由于未考虑到通过目标区域的相关区域确定目标区域的风险等级,导致对区域的风险评估的准确率低的技术问题,进而达到了可以基于目标区域的相关区域确定目标区域的风险等级的目的,实现了提高对区域的风险评估的准确率的技术效果。
[0168]
上述数据的处理装置还可以包括处理器和存储器,上述单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0169]
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来控制相同设备类型的待停机设备进行优雅停机。
[0170]
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0171]
本技术实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的数据的处理方法。
[0172]
本技术实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的数据的处理方法。
[0173]
根据本技术实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的数据的处理方法。
[0174]
图5是根据本技术实施例的一种用于数据的处理方法的电子设备(或移动设备)的硬件结构框图。如图5所示,电子设备可以包括一个或多个(图中采用502a、502b,
……
,502n来示出)处理器502(处理器502可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器504。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
[0175]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0176]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0177]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
[0178]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0179]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0180]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0181]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0182]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0183]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0184]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0185]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0186]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,
本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种对象风险等级的确定方法,其特征在于,包括:获取目标区域中目标对象的特征数据;将所述特征数据输入至预测模型进行预测,得到预测结果,其中,所述预测结果用于表征所述目标对象存在的风险概率,所述预测模型为基于第一权重的所述目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,所述第一权重用于表征对所述目标区域的特征数据样本的关注度,所述第二权重用于表征对所述目标辅助区域的特征训练样本的关注度;确定所述预测结果所属的风险等级。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定辅助区域与所述目标区域的域空间距离;基于所述域空间距离,确定所述辅助区域中的所述目标辅助区域。3.根据权利要求2所述的方法,其特征在于,基于所述域空间距离,确定所述辅助区域中的所述目标辅助区域,包括:将所述域空间距离小于空间距离阈值的所述辅助区域,确定为所述目标辅助区域。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本对子预测模型进行迭代训练得到所述预测模型。5.根据权利要求4所述的方法,其特征在于,基于所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本对子预测模型进行迭代训练得到所述预测模型,包括:通过所述子预测模型对所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本进行预测,得到子预测结果;基于所述子预测结果调整所述目标辅助区域的特征训练样本的所述第二权重和所述目标区域的特征数据样本的所述第一权重;通过调整过权重的所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本对所述子预测模型进行训练,得到所述预测模型。6.根据权利要求5所述的方法,其特征在于,基于所述子预测结果调整所述目标辅助区域的特征训练样本的所述第二权重和所述目标区域的特征数据样本的所述第一权重,包括:确定在所述子预测结果中,所述子预测模型在目标训练数据上的分类误差率;基于所述分类误差率,调整所述目标辅助区域的特征训练样本的所述第二权重和所述目标区域的特征数据样本的所述第一权重。7.根据权利要求6所述的方法,其特征在于,基于所述分类误差率,调整所述目标辅助区域的特征训练样本的所述第二权重和所述目标区域的特征数据样本的所述第一权重,包括:响应于所述子预测模型对所述目标辅助区域的特征训练样本的所述分类误差率大于误差阈值,减小所述第二权重;响应于所述子预测模型对所述目标区域的特征数据样本的所述分类误差率大于所述误差阈值,增大所述第一权重。
8.根据权利要求4所述的方法,其特征在于,基于所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本对子预测模型进行迭代训练得到所述预测模型,包括:基于第一目标辅助区域的第一特征训练样本和所述目标区域的特征数据样本,对子预测模型进行迭代训练,得到第一预测模型;基于除所述第一目标辅助区域外的第二目标辅助区域的第二特征训练样本和所述目标区域的特征数据样本,对所述子预测模型进行迭代训练,得到第二预测模型。9.根据权利要求8所述的方法,其特征在于,将所述特征数据输入至预测模型进行预测,得到预测结果,包括:基于所述第一预测模型对所述特征数据进行预测,得到第一预测结果,且基于所述第二预测模型对所述特征数据进行预测,得到第二预测结果;确定所述第一预测结果和所述第一预测模型对应的模型权重二者之间的乘积,得到第一权重结果,且确定所述第二预测结果和所述第二预测模型对应的模型权重二者之间的乘积,得到第二权重结果;将所述第一权重结果和所述第二权重结果的和确定为所述预测结果。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:确定所述第一目标辅助区域的域空间距离的倒数和所述第二目标辅助区域的域空间距离的倒数;确定所述第一目标辅助区域的域空间距离的倒数和所述第二目标辅助区域的域空间距离的倒数二者之间的和;将所述第一目标辅助区域的域空间距离的倒数与所述和二者之间的比值,确定为所述第一预测模型对应的所述模型权重,且将所述第二目标辅助区域的域空间距离的倒数与所述和二者之间的比值确定为所述第二预测模型对应的所述模型权重。11.一种模型的生成方法,其特征在于,包括:获取目标区域的特征数据样本和目标辅助区域的特征训练样本,得到训练数据集;基于所述训练数据集对子预测模型进行训练,得到训练结果;基于训练结果调整所述训练数据集中所述目标区域的特征数据样本的第一权重和所述目标辅助区域的特征训练样本的第二权重,其中,所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,所述第一权重用于表征对所述目标区域的特征数据样本的关注度,所述第二权重用于表征对所述目标辅助区域的特征训练样本的关注度;基于调整权重后的训练数据集对所述子预测模型进行训练,得到预测模型。12.一种对象风险等级的确定装置,其特征在于,包括:获取单元,用于获取目标区域中目标对象的特征数据;预测单元,用于将所述特征数据输入至预测模型进行预测,得到预测结果,其中,所述预测结果用于表征所述目标对象存在的风险概率,所述预测模型为基于第一权重的所述目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,所述目标区域的特征数据样本与所述目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,所述第一权重用于表征对所述目标区域的特征数据样本的关注度,所述第二权重用于表征对所述目标辅助区域的特征训练样本的关注度;
确定单元,用于确定所述预测结果所属的风险等级。
技术总结
本申请公开了一种对象风险等级的确定方法和装置。涉及金融科技领域,该方法包括:获取目标区域中目标对象的特征数据;将特征数据输入至预测模型进行预测,得到预测结果,其中,预测结果用于表征目标对象存在的风险概率,预测模型为基于第一权重的目标区域的特征数据样本和对应的风险概率,以及第二权重的目标辅助区域的特征训练样本和对应的风险概率得到,目标区域的特征数据样本与目标辅助区域的特征训练样本之间特征的相似度大于相似度阈值,第一权重用于表征对目标特征区域的特征数据样本的关注度。通过本申请,解决了对区域的风险评估的准确率低的技术问题。评估的准确率低的技术问题。评估的准确率低的技术问题。
技术研发人员:汪凤君
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.04.23
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:双色大功率COB灯及其制备装置的制作方法 下一篇:一种纳米滑石粉及其制备方法与流程
