企业贷款违约概率预测方法、装置、电子设备和存储介质与流程

未命名 07-23 阅读：103 评论：0

1.本发明涉及计算机技术领域，尤其涉及一种企业贷款违约概率预测方法、装置、电子设备和存储介质。

背景技术：

2.充分利用所掌握的企业有限的数据信息，了解各家企业的经营状况，评估企业贷款违约风险，始终是银行等金融机构所追求的重要目标。
3.然而，现实中银行往往不能直接获取能够反映企业经营状况的内部真实数据。同时，银行掌握的企业方面的数据中存在大量的纵向数据，并且由于同一企业不同时间点观测数据之间存在高度相关性，因此主流的回归与时间序列等金融计量模型均无法应用于此；另一方面，对企业违约概率的研究也十分需要更加科学合理的模型创新：银行虽然掌握某些企业贷款违约发生时间这一重要数据信息，但却很难对其建立完整合理的模型进行分析推断。

技术实现要素：

4.本发明提供一种企业贷款违约概率预测方法、装置、电子设备和存储介质，用以解决现有技术中针对企业违约概率分析预测的可靠性不高的缺陷。
5.本发明提供一种企业贷款违约概率预测方法，包括：
6.获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；
7.基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；
8.所述联合模型的确定步骤包括：
9.获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；
10.确定各初始联合模型；
11.基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；
12.基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。
13.根据本发明提供的企业贷款违约概率预测方法，所述基于所述训练集，利用期望最大化算法对所述各初始联合模型进行参数拟合，得到各候选联合模型，包括：
14.基于所述训练集以及预设的参数拟合精度，利用期望最大化算法中牛顿迭代法的收敛性设计，对所述各初始联合模型进行参数拟合，得到各候选联合模型。
15.根据本发明提供的企业贷款违约概率预测方法，所述基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合
模型，包括：
16.基于参数的显著性检验、模型显著性检验、参数置信区间的获取、残差分析、aic信息准则、bic信息准则中的至少一项，对所述各候选联合模型的拟合精度进行评估以及对变量进行剔除，并基于评估结果从变量剔除后的各候选联合模型中确定出所述联合模型。
17.根据本发明提供的企业贷款违约概率预测方法，所述将所述样本业务数据划分为训练集和测试集，之前还包括：
18.在所述各样本企业的样本业务数据的数据结构不是预设数据结构的情况下，对所述样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据。
19.根据本发明提供的企业贷款违约概率预测方法，所述对所述样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据，包括：
20.以预设时长为时间跨度，将所述样本业务数据划分为各个观测期，并基于各个观测期内的样本业务数据，进行数据结构转换，得到预设数据结构的样本业务数据。
21.根据本发明提供的企业贷款违约概率预测方法，所述联合模型包括线性混合效应模块和生存分析模块；
22.所述线性混合效应模块是基于各样本业务数据中的纵向数据和经营指标数据确定的，所述生存分析模块是基于所述各样本业务数据中贷款违约数据的贷款违约事件发生时间确定的；
23.所述线性混合效应模块和生存分析模块包括相同的随机效应子模块，所述随机效应子模块反映所述纵向数据与贷款违约事件发生时间之间的相互影响关系。
24.根据本发明提供的企业贷款违约概率预测方法，所述对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测，之后还包括：
25.获取所述待预测企业在第三设定时段内的业务数据，所述第三设定时段大于所述第一设定时段；
26.基于联合模型，应用所述在第三设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行动态更新。
27.本发明还提供一种企业贷款违约概率预测装置，包括：
28.数据获取单元，用于获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；
29.概率预测单元，用于基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；
30.所述联合模型的确定步骤包括：
31.获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；
32.确定各初始联合模型；
33.基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；
34.基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。
35.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述企业贷款违约概率预测方法。
36.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述企业贷款违约概率预测方法。
37.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述企业贷款违约概率预测方法。
38.本发明提供的企业贷款违约概率预测方法、装置、电子设备和存储介质，通过将联合模型应用于银行金融数据，从银行所掌握的能充分反映企业经营状况的纵向数据出发，整合企业贷款违约时间数据信息，并将不同类型的数据纳入统一模型结构框架下，在此基础上进行合理的统计建模拟合，实现对企业贷款违约概率的预测。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1是本发明提供的企业贷款违约概率预测方法的流程示意图之一；
41.图2是本发明提供的企业贷款违约概率预测方法的流程示意图之二；
42.图3是本发明提供的企业贷款违约概率预测系统的结构示意图；
43.图4是本发明提供的企业贷款违约概率预测装置的结构示意图；
44.图5是本发明提供的电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.银行掌握的企业方面的数据中存在大量的纵向数据，由于纵向数据中，同一个体不同时间点的观测值之间存在较高的关联性，且观测次数与观测间隔均不同；另外，不同个体之间又存在其独特的性质，差异性较大，因此主流的回归模型与时间序列的方法均不适用。
47.在贷款风险违约的分析中，一般模型将企业的各项经营指标直接当作因变量纳入模型，但忽略了两者相互影响的关系：企业经营状况恶化会提高企业贷款违约的风险，但企业贷款违约的发生，很可能进一步导致企业经营状况的恶化，因此该模型不够准确。
48.因此，对两种数据的单独建模，均无法最大限度使用数据信息，且对二者的关系刻画能力较弱。
49.基于上述考虑，为了提升企业违约贷款的分析预测可靠性，本发明的发明构思在于：利用联合模型这一理论，将其应用于银行金融数据，从银行所掌握的能充分反映企业经营状况的纵向数据(如企业社保代缴纳额、企业工资代发放额等)出发，整合企业贷款违约
时间数据信息，并将不同类型的数据纳入统一模型结构框架下，在此基础上进行合理的统计建模拟合，实现对企业贷款违约概率的预测。
50.基于上述发明构思，本发明提供一种企业贷款违约概率预测方法、装置、电子设备和存储介质，应用于银行的信贷业务场景，以提高企业贷款违约概率的可靠性。
51.为了使本发明的方案更加清楚，现对其中涉及的技术术语进行解释：
52.联合模型：其目的是对项目中每个研究个体收集到的不同类型的响应变量数据进行联合分析。本方案中，联合模型通过将纵向数据与失效时间这两种不同类型的数据纳入同一模型框架中，实现对两种数据及其之间的关系的更加准确合理的量化统计推断，使得模型更加科学精确。
53.生存分析模型：广泛应用于医疗健康领域，该模型将从观测开始至某特定事件发生的间隔时间作为因变量(响应变量)，纳入合理的自变量(协变量)来探究其中的关系。
54.动态概率预测：在已有的信息以及联合模型的假定下，对研究区间内事件未来发生概率进行预测。
55.纵向数据：由多个研究个体在不同时间节点记录的观测值构成，该数据既不适合用于分析横截面数据的回归模型，也不适用于时间序列分析的方法。
56.失效时间：生存分析模型中研究个体某特定事件发生的时间。
57.线性混合效应模型：针对多个研究个体不同时间点的观测值所形成的纵向数据，引入随机效应以及各项自变量来进行建模分析。
58.下面将结合附图详细描述本发明的技术方案。图1是本发明提供的企业贷款违约概率预测方法的流程示意图之一，该方法中各步骤的执行主体可以是企业贷款违约概率预测装置，该装置可通过软件和/或硬件实现，该装置可集成在电子设备中，电子设备可以是终端设备(如智能手机、个人电脑等)，也可以是服务器(如本地服务器或云端服务器，也可以为服务器集群等)，也可以是处理器，也可以是芯片等。如图1所示，该方法可以包括如下步骤：
59.步骤110，获取待预测企业在第一设定时段内的业务数据，业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据。
60.具体地，第一设定时段可以是任意时间段，比如可以是一年，也可以是两年等。此处的业务数据可以包括纵向数据、经营指标数据和贷款违约数据。业务数据可以是从数据库中获取的，也可以是网络爬虫获取的，可以是定时获取，也可以是实时获取，本发明对此不作具体限定。
61.其中，纵向数据即同一个横截面单位，比如说，一个家庭或一个公司，在不同时期的调查数据。例如，银行在一定时期间隔内对企业社保代缴额的调查。在每一时期的调查中，同样的(或相同类型的)企业被调查，以观察自上一次调查以来，企业的经营状况是否有变化。纵向数据就是通过重复上述过程而得到的，它可对研究企业经营状况的动态化提供非常有用的信息。
62.反映企业经营状况的纵向数据可以包括企业社保代缴额、企业工资代发放额、企业的财务数据等。
63.经营指标数据可以反映企业的经营情况，比如可包括企业财务数据、企业基本信息。企业财务数据具体可包括：主营业务收入、流动比率、速动比率、现金比率、资产负债率、
负债权益比率、利息保障倍数、存货周转率、应收账款周转率、营业周期、流动资产周转率、总资产周转率、固定资产周转率、总资产报酬率、成本费用利润率、销售净利率、净资产收益率、销售毛利率、盈余现金保障倍数、现金流动负债比、营业总成本、现金流动负债比、管理费用、销售费用、财务费用、无形资产、长期借款、短期借款、净利润和营业收入；企业基本信息可包括：企业名称、数据年度、是否违约、成立日期、在职员工数、总资产和借款人组织机构代码等。
64.贷款违约数据可以包括企业首次贷款违约时间、违约额度等。
65.步骤120，基于联合模型，应用在第一设定时段内的业务数据，对待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测。
66.其中，联合模型的确定步骤包括：
67.步骤210，获取各样本企业在第一设定时段内的样本业务数据，并将样本业务数据划分为训练集和测试集；
68.步骤220，确定各初始联合模型；
69.步骤230，基于训练集，利用期望最大化算法，对各初始联合模型进行参数拟合，得到各候选联合模型；
70.步骤240，基于测试集，对各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出联合模型。
71.具体地，得到在第一设定时段内的业务数据之后，即可将该业务数据输入预先构建好的联合模型，由联合模型针对待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测，得到联合模型输出的在未来某一时刻的概率值。比如未来的第二设定时段内，第一时刻对应的违约概率预测值为1.0，第二时刻对应的违约概率预测值为0.9947，第三时刻对应的违约概率预测值为0.9650等。
72.可理解的是，为了实现贷款违约事件的可靠预测，可预先构建联合模型。将联合模型应用于银行金融数据，从银行所掌握的能充分反映企业经营状况的纵向数据出发，整合企业贷款违约时间数据信息，并将不同类型的数据纳入统一模型结构框架下，在此基础上进行合理的统计建模拟合，实现对企业贷款违约概率的预测。
73.其中，联合模型可通过步骤210-240得到。获取各样本企业在第一设定时段内的样本业务数据，并将样本业务数据划分为训练集和测试集。其中，样本业务数据与业务数据的获取方式一致，在此不再赘述。
74.确定各初始联合模型，即确定模型结构，联合模型可以包括线性混合效应模块和生存分析模块，其中线性混合效应模块可以采取不同的函数类型，可选取从简单到复杂的多个初始联合模型。并将所有的自变量全部纳入多个初始联合模型中。
75.随即，基于训练集，利用期望最大化算法，对各初始联合模型进行参数拟合，得到各候选联合模型。训练集用于联合模型的建立，包括参数估计等一系列工作。
76.在此基础上，基于测试集，对各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出联合模型，例如可选择拟合精度最好的模型作为最终的联合模型。由此构建好的联合模型可用于对企业违约概率进行动态预测。
77.基于上述实施例，联合模型可以包括线性混合效应模块和生存分析模块，线性混合效应模块是基于各样本业务数据中的纵向数据和经营指标数据确定的，生存分析模块是
基于各样本业务数据中贷款违约数据的贷款违约事件发生时间确定的；
78.线性混合效应模块和生存分析模块包括相同的随机效应子模块，随机效应子模块反映纵向数据与贷款违约事件发生时间之间的相互影响关系。
79.具体地，首先，将银行掌握较为全面、信息较为充分的企业纵向数据(例如企业社保缴纳额)作为响应变量(因变量)，综合各种自变量(如企业各种经营指标数据)，对其拟合线性混合效应模块，该模块包含随机效应部分，该部分的引入，既体现了同一个体不同时间点重复观测之间的高度相关性，也体现了不同个体之间存在的异质性。
80.其次，将企业贷款违约的时间看作生存分析理论中特定事件发生的时间(失效时间)，综合和其他自变量(如企业各种经营指标数据)，对其拟合生存分析模块，并在模块中引入相同的随机效应部分，体现纵向响应变量与贷款违约时间之间的相互影响关系。
81.之后，将纵向数据的建模方法同生存分析建模方法联合为一个模型，整合最大的信息量，克服单个模型的缺陷，建立联合模型，其纽带为两种模型共有的随机效应部分。
82.在此基础上，进行参数估计、残差估计、假设检验等工作，最后实现对未来企业贷款违约概率的动态预测。
83.本发明实施例提供的方法，通过将联合模型应用于银行金融数据，从银行所掌握的能充分反映企业经营状况的纵向数据出发，整合企业贷款违约时间数据信息，并将不同类型的数据纳入统一模型结构框架下，在此基础上进行合理的统计建模拟合，实现对企业贷款违约概率的预测。
84.基于上述实施例，步骤230具体包括：
85.基于训练集以及预设的参数拟合精度，利用期望最大化算法中牛顿迭代法的收敛性设计，对各初始联合模型进行参数拟合，得到各候选联合模型。
86.具体地，针对各初始联合模型进行参数拟合，可通过参数迭代算法程序实现。对于参数估计，根据正态性假定得出极大似然函数，然后利用期望最大化算法(expectation-maximization algorithm，em)进行求解，也就是极大化条件期望，具体可以利用牛顿迭代法来求得方程近似解，即参数估计值，具体可用r代码编写程序来实现。
87.此外，对于联合模型中的em算法程序，要根据实际的数据结构进行编写，由于目前联合模型主要应用于医学领域，因此大部分研究个体在事件(如死亡)发生后便不会再采集到新的个体纵向数据，这与企业的纵向数据观测机制不同，因此本发明实施例中的em算法程序在参数拟合迭代方面与目前联合模型的参数拟合迭代存在创新研究。
88.基于上述实施例，步骤240具体包括：
89.基于测试集，应用参数的显著性检验、模型显著性检验、参数置信区间的获取、残差分析、aic信息准则、bic信息准则中的至少一项，对各候选联合模型的拟合精度进行评估以及对变量进行剔除，并基于评估结果从变量剔除后的各候选联合模型中确定出联合模型。
90.具体地，为了进一步提高模型预测的可靠性，得到各候选联合模型之后，还可以针对该各候选联合模型进行评估，比如通过参数的显著性检验、模型显著性检验、参数置信区间的获取、残差分析、aic信息准则、bic信息准则中的至少一项，基于测试集对模型进行评估并剔除不显著的自变量，选出合适的协变量进入模型，从各候选联合模型中选出最优模型作为最终的联合模型。
91.基于上述实施例，步骤210之前还包括：
92.在各样本企业的样本业务数据的数据结构不是预设数据结构的情况下，对样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据。
93.具体地，考虑到联合模型中的em算法程序，要根据实际的数据结构进行编写，因此在获取到各样本企业的样本业务数据之后，可判断该样本业务数据的数据结构是否是预设数据结构，此处的预设数据结构比如可以是“长表”型的数据结构。
94.如果判断到不是预设数据结构，即在各样本企业的样本业务数据的数据结构不是预设数据结构的情况下，对样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据。
95.可理解的是，如果判断到是预设数据结构，则无需进行数据结构的转换。
96.基于上述实施例，对样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据，包括：
97.以预设时长为时间跨度，将样本业务数据划分为各个观测期，并基于各个观测期内的样本业务数据，进行数据结构转换，得到预设数据结构的样本业务数据。
98.具体地，针对样本业务数据的数据结构进行转换，可以通过将样本业务数据划分为各个观测期，将每个观测期内的样本业务数据进行数据结构转换，从而得到预设数据结构，即“长表”型数据结构的业务数据。
99.假设样本企业a的样本业务数据(社保额)的原始数据结构如表1所示，经判断该数据结构不是预设的“长表”型数据结构，则对其进行数据结构的转换，例如以月为时间跨度，将样本业务数据划分为各个观测期，得到“长表”型数据结构，如表2所示。
100.表1
[0101][0102]
表2
[0103][0104]
需说明的是，数据结构转换并不是简单的二维列表转置，因此可编写sas程序，利用循环input读取数据来实现逐行重新排列。
[0105]
基于上述实施例，步骤120之后还包括：
[0106]
获取待预测企业在第三设定时段内的业务数据，第三设定时段大于第一设定时段；
[0107]
基于联合模型，应用在第三设定时段内的业务数据，对待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行动态更新。
[0108]
具体地，此处的第三设定时段大于第一设定时段，是指随着时间的推移，第三设定时段是第一设定时段未来的某一个时间段。
[0109]
由于随着时间的不断推移，可以不断观测到关于个体的新的信息，因此对以上概率的估计也会随之更新，在联合模型的假定下，根据样本观测的信息，通过贝叶斯方法，对参数假定在给定观测样本下的后验分布，利用违约概率关于参数的后验均值来进行动态预测。
[0110]
基于上述任一实施例，图2是本发明提供的企业贷款违约概率预测方法的流程示意图之二，如图2所示，该方法包括：
[0111]
1)输入原始数据以及em算法精度参数。
[0112]
2)数据预处理：如果是长表结构可直接进行下一步，其他结构需要进行转换处理。
[0113]
3)将数据划分为训练集和测试集。
[0114]
4)基于训练集数据，根据精度参数来拟合联合模型。
[0115]
5)通过假设检验，残差估计，aic与bic准则等方式，基于测试集对模型进行评估并剔除不显著的自变量，选出最优模型。
[0116]
6)基于选出的最优模型，对企业贷款违约概率以及纵向数据进行动态预测。此处除了可以对企业贷款违约概率进行预测，还可以针对纵向数据进行动态预测，纵向数据预测可以对未来企业纵向数据的走势进行拟合。
[0117]
7)对于建模结果进行输出展示，可以方便用户查询。
[0118]
基于上述任一实施例，图3是本发明提供的企业贷款违约概率预测系统的结构示
意图，如图3所示，该系统包括：数据预处理模块、模型构建模块、模型评估模块、动态预测模块和结果输出模块，其中：
[0119]
数据预处理模块，将输入的原始数据整理为长表型的数据结构，并将数据分为训练集和测试集，用于之后的建模分析。
[0120]
模型构建模块，用于基于训练集数据，根据备选模型，利用em算法确定模型参数估计值。
[0121]
模型评估模块，通过参数的显著性检验、模型显著性检验、参数置信区间的获取以及残差、aic与bic分析等工作，剔除参数不显著的自变量，基于测试集来评估模型，并选出最优的模型来进行接下来的工作。
[0122]
动态预测模块，根据模型参数估计与假定，对企业未来贷款违约发生概率或企业纵向数据进行动态预测。
[0123]
结果输出模块，将算法系统得到的有价值的统计结果输出给用户，如参数估计信息、模型结构、假设检验结果、动态预测结果等。
[0124]
本发明实施例提供的系统，不同于常规的时间序列、或逻辑回归模型等，本算法系统对企业重要的纵向数据和贷款违约发生时间的数据分别建立适合的模型：线性混合效应模型满足不同企业之间的异质性以及同一企业不同时间节点观测值之间高度相关性这一前提条件，同时对于企业的违约发生时间，该算法创新性地利用生存模型，将违约发生时间看作失效时间进行分析，这就使得该算法在统计学意义上更加合理；其次，该算法系统又可以将上述两种模型联合在一起，从而体现两者内在的经济上的相互影响的关系，这也使得模型在现实经济意义上更加精确。
[0125]
下面对本发明提供的企业贷款违约概率预测装置进行描述，下文描述的企业贷款违约概率预测装置与上文描述的企业贷款违约概率预测方法可相互对应参照。
[0126]
图4是本发明提供的企业贷款违约概率预测装置的结构示意图，如图4所示，该装置包括数据获取单元410和概率预测单元420，其中：
[0127]
数据获取单元410，用于获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；
[0128]
概率预测单元420，用于基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；
[0129]
所述联合模型的确定步骤包括：
[0130]
获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；
[0131]
确定各初始联合模型；
[0132]
基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；
[0133]
基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。
[0134]
本发明实施例提供的企业贷款违约概率预测装置，通过将联合模型应用于银行金融数据，从银行所掌握的能充分反映企业经营状况的纵向数据出发，整合企业贷款违约时间数据信息，并将不同类型的数据纳入统一模型结构框架下，在此基础上进行合理的统计
建模拟合，实现对企业贷款违约概率的预测。
[0135]
基于上述任一实施例，该装置还包括模型确定单元，模型确定单元具体用于：
[0136]
基于所述训练集以及预设的参数拟合精度，利用期望最大化算法中牛顿迭代法的收敛性设计，对所述各初始联合模型进行参数拟合，得到各候选联合模型。
[0137]
基于上述任一实施例，模型确定单元具体用于：
[0138]
基于测试集，应用参数的显著性检验、模型显著性检验、参数置信区间的获取、残差分析、aic信息准则、bic信息准则中的至少一项，对所述各候选联合模型的拟合精度进行评估以及对变量进行剔除，并基于评估结果从变量剔除后的各候选联合模型中确定出所述联合模型。
[0139]
基于上述任一实施例，模型确定单元具体用于：
[0140]
在所述各样本企业的样本业务数据的数据结构不是预设数据结构的情况下，对所述样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据。
[0141]
基于上述任一实施例，模型确定单元具体用于：
[0142]
以预设时长为时间跨度，将所述样本业务数据划分为各个观测期，并基于各个观测期内的样本业务数据，进行数据结构转换，得到预设数据结构的样本业务数据。
[0143]
基于上述任一实施例，所述联合模型包括线性混合效应模块和生存分析模块；
[0144]
所述线性混合效应模块是基于各样本业务数据中的纵向数据和经营指标数据确定的，所述生存分析模块是基于所述各样本业务数据中贷款违约数据的贷款违约事件发生时间确定的；
[0145]
所述线性混合效应模块和生存分析模块包括相同的随机效应子模块，所述随机效应子模块反映所述纵向数据与贷款违约事件发生时间之间的相互影响关系。
[0146]
基于上述任一实施例，还包括概率更新单元，用于：
[0147]
获取所述待预测企业在第三设定时段内的业务数据，所述第三设定时段大于所述第一设定时段；
[0148]
基于联合模型，应用所述在第三设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行动态更新。
[0149]
图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行企业贷款违约概率预测方法，该方法包括：获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；
[0150]
基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；
[0151]
所述联合模型的确定步骤包括：
[0152]
获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；
[0153]
确定各初始联合模型；
[0154]
基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得
到各候选联合模型；
[0155]
基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。
[0156]
此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0157]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的企业贷款违约概率预测方法，该方法包括：获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；
[0158]
基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；
[0159]
所述联合模型的确定步骤包括：
[0160]
获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；
[0161]
确定各初始联合模型；
[0162]
基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；
[0163]
基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。
[0164]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的企业贷款违约概率预测方法，该方法包括：获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；
[0165]
基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；
[0166]
所述联合模型的确定步骤包括：
[0167]
获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；
[0168]
确定各初始联合模型；
[0169]
基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；
[0170]
基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果
从各候选联合模型中确定出所述联合模型。
[0171]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0172]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0173]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种企业贷款违约概率预测方法，其特征在于，包括：获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；所述联合模型的确定步骤包括：获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；确定各初始联合模型；基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。2.根据权利要求1所述的企业贷款违约概率预测方法，其特征在于，所述基于所述训练集，利用期望最大化算法对所述各初始联合模型进行参数拟合，得到各候选联合模型，包括：基于所述训练集以及预设的参数拟合精度，利用期望最大化算法中牛顿迭代法的收敛性设计，对所述各初始联合模型进行参数拟合，得到各候选联合模型。3.根据权利要求1所述的企业贷款违约概率预测方法，其特征在于，所述基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型，包括：基于测试集，应用参数的显著性检验、模型显著性检验、参数置信区间的获取、残差分析、aic信息准则、bic信息准则中的至少一项，对所述各候选联合模型的拟合精度进行评估以及对变量进行剔除，并基于评估结果从变量剔除后的各候选联合模型中确定出所述联合模型。4.根据权利要求1所述的企业贷款违约概率预测方法，其特征在于，所述将所述样本业务数据划分为训练集和测试集，之前还包括：在所述各样本企业的样本业务数据的数据结构不是预设数据结构的情况下，对所述样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据。5.根据权利要求4所述的企业贷款违约概率预测方法，其特征在于，所述对所述样本业务数据的数据结构进行转换，得到预设数据结构的样本业务数据，包括：以预设时长为时间跨度，将所述样本业务数据划分为各个观测期，并基于各个观测期内的样本业务数据，进行数据结构转换，得到预设数据结构的样本业务数据。6.根据权利要求1至5中任一项所述的企业贷款违约概率预测方法，其特征在于，所述联合模型包括线性混合效应模块和生存分析模块；所述线性混合效应模块是基于各样本业务数据中的纵向数据和经营指标数据确定的，所述生存分析模块是基于所述各样本业务数据中贷款违约数据的贷款违约事件发生时间确定的；所述线性混合效应模块和生存分析模块包括相同的随机效应子模块，所述随机效应子
模块反映所述纵向数据与贷款违约事件发生时间之间的相互影响关系。7.根据权利要求1至5中任一项所述的企业贷款违约概率预测方法，其特征在于，所述对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测，之后还包括：获取所述待预测企业在第三设定时段内的业务数据，所述第三设定时段大于所述第一设定时段；基于联合模型，应用所述在第三设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行动态更新。8.一种企业贷款违约概率预测装置，其特征在于，包括：数据获取单元，用于获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；概率预测单元，用于基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测；所述联合模型的确定步骤包括：获取各样本企业在第一设定时段内的样本业务数据，并将所述样本业务数据划分为训练集和测试集；确定各初始联合模型；基于所述训练集，利用期望最大化算法，对所述各初始联合模型进行参数拟合，得到各候选联合模型；基于所述测试集，对所述各候选联合模型的拟合精度进行评估，并基于评估结果从各候选联合模型中确定出所述联合模型。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述企业贷款违约概率预测方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述企业贷款违约概率预测方法。

技术总结
本发明涉及计算机技术领域，提供一种企业贷款违约概率预测方法、装置、电子设备和存储介质，其中方法包括：获取待预测企业在第一设定时段内的业务数据，所述业务数据包括反映企业经营状况的纵向数据、经营指标数据和贷款违约数据；基于联合模型，应用所述在第一设定时段内的业务数据，对所述待预测企业在未来的第二设定时段内发生贷款违约事件的概率进行预测。本发明提供的企业贷款违约概率预测方法、装置、电子设备和存储介质，通过将联合模型应用于银行金融数据，从银行所掌握的能充分反映企业经营状况的纵向数据出发，整合企业贷款违约时间数据信息，并将不同类型的数据纳入统一模型结构框架下，实现对企业贷款违约概率的预测。测。测。

技术研发人员：高天
受保护的技术使用者：中银金融科技有限公司
技术研发日：2023.03.20
技术公布日：2023/7/22

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：五轴装卸机器人的逆解方法、装置及可读介质 下一篇：脊椎韧带骨化图像识别方法及系统

企业贷款违约概率预测方法、装置、电子设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

企业贷款违约概率预测方法、装置、电子设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表