一种保险客户的风险评估方法及装置、存储介质、终端与流程
未命名
08-15
阅读:131
评论:0
1.本技术涉及机器学习及保险技术领域,特别是涉及一种保险客户的风险评估方法及装置、存储介质、终端。
背景技术:
2.随着人们保险意识增强,投保人数逐年递增。对于保险公司而言,对客户风险评估是企业管理与运营重要的组成部分,通过对客户精准的风险评估,可以提升企业在行业中的竞争力且为企业运营与管理提供可靠的数据基础。
3.目前,在对客户进行风险评估时,首先根据客户是否出险、客户累计赔付金额数额是否超标等,对客户进行筛选,而后再基于剩余用户的赔付场景下的数据,如出险次数、赔付金额等,基于机器学习生成预测模型并利用该模型预测客户的赔付风险,也就是说,现有的保险客户风险预测方式中,需要先区分客户再利用预测模型确定客户赔付风险,且现有预测模型的构建数据仅限于赔付方面,数据不够全面,从而使得现有客户保险风险预测性能较差。
技术实现要素:
4.有鉴于此,本发明提供一种保险客户的风险评估方法及装置、存储介质、终端,主要目的在于解决现有客户保险风险预测性能较差的问题。
5.依据本发明一个方面,提供了一种保险客户的风险评估方法,包括:
6.获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;
7.从所述历史保险数据中提取模型特征数据;
8.基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;
9.利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。
10.进一步地,所述历史保险数据中还包含有用户身份标识和时间标识,所述获取历史保险数据之后,所述方法还包括:
11.按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据,所述静态特征数据为不随时间变化的数据,所述动态特征数据为随时间变化的数据;
12.根据分类后的用户保险数据生成面板数据并将所述面板数据确定为所述模型特征数据,所述面板数据包含有n个时间观察点下分别对应的截面数据,各组所述截面数据内包含有多个所述用户身份标识以及与用户分别对应的静态特征数据和动态特征数据。
13.进一步地,所述基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型包括:
14.按照时间顺序从所述面板数据中抽取一组或多组截面数据,得到训练数据集合和
测试数据集合;
15.根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型,所述分类子模型用于计算在剩余保单周期内是否存在出险情况,所述回归子模型用于计算在所述剩余保单周期内的理赔金额;
16.根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型。
17.进一步地,所述根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型之后,所述方法还包括:
18.根据所述分类子模型和回归子模型的测试结果调整子模型参数,得到优化后的分类子模型和回归子模型;
19.所述根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型包括:
20.根据所述优化后的分类子模型和回归子模型进行融合,得到所述风险评估模型。
21.进一步地,所述按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据之后,所述方法还包括:
22.计算与所述静态特征数据和动态特征数据中各特征数据分别对应的相关系数;
23.根据所述相关系数对所述静态特征数据和所述动态特征数据进行筛选;
24.根据分类后的用户保险数据生成面板数据包括:
25.根据筛选后的静态特征数据和动态特征数据生成面板数据。
26.进一步地,所述利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数包括:
27.利用所述风险评估模型对客户在保险维度和基础健康维度分别进行标签化;
28.根据客户标签计算与所述客户对应的多个子保险风险值;
29.根据所述子保险风险值进行聚合和线性变换得到所述保险风险指数,并根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数。
30.进一步地,所述根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数包括:
31.根据所述保险风险指数从所述映射关系中提取所述客户在各个观察点的健康等级;
32.根据健康等级的波动情况和预设健康风险指数区间确定所述健康风险指数。
33.进一步地,所述获取历史保险数据之后,所述方法还包括:
34.检测所述用户保险数据是否存在缺失数据;
35.若存在且所述缺失数据为主键数据,则将所述用户保险数据删除,否则利用预置算法计算与所述缺失数据对应的填充数据,并利用所述填充数据对所述用户保险数据进行补充。
36.依据本发明另一个方面,提供了一种保险客户的风险评估装置,包括:
37.获取模块,用于获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;
38.提取模块,用于从所述历史保险数据中提取模型特征数据;
39.训练模块,用于基于所述模型特征数据对初始机器学习模型进行训练,得到风险
评估模型;
40.确定模块,用于利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。
41.进一步地,所述装置还包括:
42.分类模块,用于按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据,所述静态特征数据为不随时间变化的数据,所述动态特征数据为随时间变化的数据;
43.生成模块,用于根据分类后的用户保险数据生成面板数据并将所述面板数据确定为所述模型特征数据,所述面板数据包含有n个时间观察点下分别对应的截面数据,各组所述截面数据内包含有多个所述用户身份标识以及与用户分别对应的静态特征数据和动态特征数据。
44.进一步地,所述训练模块包括:
45.抽取单元,用于按照时间顺序从所述面板数据中抽取一组或多组截面数据,得到训练数据集合和测试数据集合;
46.训练单元,用于根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型,所述分类子模型用于计算在剩余保单周期内是否存在出险情况,所述回归子模型用于计算在所述剩余保单周期内的理赔金额;
47.融合单元,用于根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型。
48.进一步地,所述训练模块还包括:调整单元,
49.所述调整单元,用于根据所述分类子模型和回归子模型的测试结果调整子模型参数,得到优化后的分类子模型和回归子模型;
50.所述融合单元,具体用于根据所述优化后的分类子模型和回归子模型进行融合,得到所述风险评估模型。
51.进一步地,所述装置还包括:筛选模块、计算模块,
52.所述计算模块,用于计算与所述静态特征数据和动态特征数据中各特征数据分别对应的相关系数;
53.所述筛选模块,用于根据所述相关系数对所述静态特征数据和所述动态特征数据进行筛选;
54.所述生成模块,具体用于根据筛选后的静态特征数据和动态特征数据生成面板数据。
55.进一步地,所述确定模块包括:
56.标签化单元,用于利用所述风险评估模型对客户在保险维度和基础健康维度分别进行标签化;
57.计算单元,用于根据客户标签计算与所述客户对应的多个子保险风险值;
58.聚合单元,用于根据所述子保险风险值进行聚合和线性变换得到所述保险风险指数;
59.确定单元,用于根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数。
60.进一步地,所述确定单元,还用于根据所述保险风险指数从所述映射关系中提取所述客户在各个观察点的健康等级;
61.所述确定单元,还用于根据健康等级的波动情况和预设健康风险指数区间确定所述健康风险指数。
62.进一步地,所述装置还包括:
63.检测模块,用于检测所述用户保险数据是否存在缺失数据;
64.删除模块,用于若存在且所述缺失数据为主键数据,则将所述用户保险数据删除;
65.所述计算模块,还用于若利用预置算法计算与所述缺失数据对应的填充数据,并利用所述填充数据对所述用户保险数据进行补充。
66.根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述保险客户的风险评估方法对应的操作。
67.根据本发明的再一方面,提供了一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
68.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述保险客户的风险评估方法对应的操作。
69.借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
70.本发明提供了一种保险客户的风险评估方法及装置、存储介质、终端,与现有技术相比,本发明实施例通过获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;从所述历史保险数据中提取模型特征数据;基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数,基于用户保单数据、理赔数据和基础健康数据三个维度的模型数据训练保险风险预测模型,这使得基于该模型对未来一段时间的出险次数、理赔金额和健康状态的预测结果更加准确,且无需区分客户,可根据模型确定全量客户的客群标签,并根据客户的客群标签确定其保险风险指数和健康风险指数,使得可以对全量客户的保险风险和客户面临的健康风险作出评估与预判,在提升客户保险赔付风险预测准确性的同时,为企业进行客户健康管理提供数据视角的辅助。
71.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
72.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
73.图1示出了本发明实施例提供的一种保险客户的风险评估方法流程图;
74.图2示出了本发明实施例提供的另一种保险客户的风险评估方法流程图;
75.图3示出了本发明实施例提供的一种保险客户的风险评估装置组成框图;
76.图4示出了本发明实施例提供的另一种保险客户的风险评估装置组成框图;
77.图5示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
78.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
79.针对现有的保险客户风险预测方式中,需要先区分客户再利用预测模型确定客户赔付风险,且现有预测模型的构建数据仅限于赔付方面,数据不够全面,从而使得现有客户保险风险预测性能较差。本发明实施例提供了一种保险客户的风险评估方法,如图1所示,该方法包括:
80.101、获取历史保险数据。
81.其中,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据。
82.在本技术实施例中,可以按照一定的时间间隔从数据库中提取多个时间节点的数据,如按照时间间隔为1个月,从数据库中提取过去一年时间内的历史保险数据集合。具体地,获取到的保单数据可以如下所示:
83.保单数据
84.当前保单编号
85.当前保单险种代码
86.当前保单地区代码
87.当前保单保额
88.当前保单险种名称
89.当前保单险种类型
90.当前保单是否网销
91.当前保单生效天数
92.当前保单经过保费
93.当前保单累计出险次数
94.当前保单累计就诊天数
95.当前保单累计账单金额
96.当前保单累计赔付金额
97.当前保单被保人投保年龄
98.当前保单被保人性别
99.获取到的历史理赔数据为如下所示:
100.理赔数据
101.被保人编号
102.被保人投保年龄
103.被保人性别
104.被保人是否有社保
105.被保人累计保单数
106.被保人累计案件个数
107.被保人累计就诊天数
108.被保人累计就诊次数
109.被保人累计账单金额
110.被保人累计赔付金额
111.被保人首次入院距观察点天数
112.被保人最近入院距观察点天数
113.被保人保单生效距首次入院天数
114.被保人就诊次均账单金额
115.被保人就诊次均赔付金额
116.被保人案均账单金额
117.被保人案均赔付金额
118.疾病代码
119.疾病对应案件个数
120.疾病对应账单金额
121.疾病对应赔付金额
122.疾病对应保单数量
123.疾病对应案均账单金额
124.疾病对应案均赔付金额
125.医院代码
126.医院对应案件个数
127.医院对应账单金额
128.医院对应赔付金额
129.医院对应保单数量
130.医院对应案均账单金额
131.医院对应案均赔付金额
132.而用户基础健康数据则可以为来自保险公司的app应用数据,也可以为从第三方获取的数据,本技术实施例对此不做具体限定,示例性的,如用户基础健康数据为app用户数据,则可以如下所示:
133.用户基础健康数据
134.用户编号
135.用户身高
136.用户体重
137.用户等级
138.用户创建日期距观察点天数
139.用户初始化健康分数
140.用户月度健康分数
141.用户年度健康分数
142.用户健康任务(走路/跑步/测血压/测血糖)月均值
143.用户健康任务(走路/跑步/测血压/测血糖)年均值
144.用户健康任务(走路/跑步/测血压/测血糖)累计参与次数
145.用户健康任务(走路/跑步/测血压/测血糖)累计完成次数
146.需要说明的是,对于本步骤中所获取的三个维度数据,在数据产生过程中均存在对应的唯一用户身份标识如用户身份证号码,手机号等,所以在数据库中可以根据用户的身份标识将三个维度的数据匹配到一张客户历史保险数据宽表中,从而实现本步骤中的历史保险数据的获取。
147.102、从所述历史保险数据中提取模型特征数据。
148.其中,模型特征数据用来训练客户保险风险预测模型,在具体实施过程中可以首先对入模特征进行筛选,并根据筛选得到的入模特征提取与入模特征相对应的数据,而具体的入模特征筛选方式可以为通过现有技术中如计算iv值(information value,信息价值)、pearson(皮尔逊)相关系数等,本技术实施例对此不做具体限定。
149.103、基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型。
150.例如,可基于模型特征数据和机器学习算法训练得到相应的保险风险评估模型。
151.104、利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。
152.其中,所述保险风险指数用于标识所述客户在预设未来时间段内出险的次数和保险理赔金额,而客群标签可以为客户在保单维度、理赔维度、健康维度等多维度下的标签,也可以为基于各个维度下的标签生成的统计标签,本技术实施例对不做具体限定。如客群标签可以为理赔维度下的账单金额、赔付金额等,以及健康维度下的如健康任务月均值、健康任务参与程度等标签,客群标签还可以为基于多维度生成的统计标签,如在预设未来时间段内是否存在出险、是否存在理赔、是否存在健康风险等。
153.在本技术实施例,由于采集的训练数据包含有用户在投保时对应的保单数据和理赔数据,还有用户日常健康习惯数据,如按照月份、季度、年度统计的走路数据、测量血压值和测量频率等,基于这些数据训练得到的风险评估模型能够更加准确且全面的预测用户在未来一段时间内的出险情况、理赔金额以及健康状态等。
154.在一个本发明实施例中,为了完整说明本实施例的具体实施过程,提供了另一种保险客户的风险评估方法,如图2所示,该方法包括:
155.201、获取历史保险数据。
156.其中,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据。而所述保单数据、历史理赔数据和用户基础健康数据的概念解释和获取方式可以参考上述步骤101中相应描述,本技术实施例在此不再赘述。
157.为了确保训练数据的可靠性和准确性,在步骤201之后本技术实施例还包括:检测所述用户保险数据是否存在缺失数据;若存在且所述缺失数据为主键数据,则将所述用户保险数据删除;否则利用预置算法计算与所述缺失数据对应的填充数据,并利用所述填充数据对所述用户保险数据进行补充。具体地,若缺失的是保单数据、理赔数据和/或用户基础数据中的主键数据,则将这部分异常数据直接删除;而如果缺失的是其他特征数据,则采
用0或者均值填充。此外当缺失的是用户基础数据中的某些特征数据时,还可以以其他完整的用户保险数据建立模型,而后基于以用户基础数据为目标变量的回归模型对确实的特征数据进行预测,得到相应的填充数据,但不限于此。在本技术实施例中,通过检测获取到的历史保险数据是否存在缺失,并根据缺失数据位置对数据进行删除或填充,以使得用于训练保险风险预测模型的训练数据可靠且准确,从而提升了保险风险预测模型预测的准确性。
158.202、按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据。
159.其中,所述静态特征数据为不随时间变化的数据,所述动态特征数据为随时间变化的数据。进一步地,如以上述保单数据为例,静态特征数据可以为当前保单被保人投保年龄、当前保单被保人性别、当前保单地区代码、当前保单保额、当前保单险种名称、当前保单险种类型、当前保单是否网销等,这些特征数据属于投保成功后即可生成的特征,不会随着观察时间点的变化而变化。而动态特征数据,则为如当前保单生效天数、当前保单累计经过保费、当前保单累计出险次数、当前保单累计就诊天数、当前保单累计账单金额、当前保单累计赔付金额,这些特征数据随观察时间点变化而变化。
160.需要说明的是,由于对于某一个用户在历史保险数据内可能包含有多条保单数据和理赔数据,所以为了按照保单来区分,在采集到用户历史保险数据之后首先将其划分为静态特征数据和动态特征数据,以便于针对不同的保单分别进行分析与计算。由于保单数据、理赔数据和用户基础数据中均含有用户身份标识,所以在对这三个维度数据处理之后可以根据用户身份标识将其进行映射关联,得到与每个用户身份标识分别对应的用户全量数据,包括基于三个维度数据划分得到的静态特征数据和动态特征数据。
161.203、根据分类后的用户保险数据生成面板数据并将所述面板数据确定为所述模型特征数据。
162.其中,所述面板数据包含有n个时间观察点下分别对应的截面数据,各组所述截面数据内包含有多个所述用户身份标识以及与用户分别对应的静态特征数据和动态特征数据。
163.例如存在间隔单位为月的时间序列2021-01-01、2021-02-01、2021-03-01,以2021-01-01为观察点构建面板数据。首先根据2021-01-01时间点处全量用户分别对应的静态特征数据和动态特征数据生成截面数据,然后以同样的方法构建2021-02-01、2021-03-01时间点处的截面数据,将上述三组截面数据按照时间序列排列即可生成相应的面板数据。需要说明的是,对于三组截面数据中重合的客户样本,即用户身份标识相同的用户数据,其静态特征数据应该一致,动态特征数据随时间观察点的后移可能会发生变动,如对比客户a在2021-01-01的当前保单累计出险次数与2021-03-01的当前保单累计出险次数,间隔期间内若客户有新的出险,则该动态特征数据中存在增大的取值,但客户性别等静态特征数据不受影响。
164.为了提升模型特征数据的准确性,上述步骤202之后本技术实施例还包括:计算与所述静态特征数据和动态特征数据中各特征数据分别对应的相关系数;根据所述相关系数对所述静态特征数据和所述动态特征数据进行筛选。步骤203具体包括:根据筛选后的静态特征数据和动态特征数据生成面板数据。
165.根据上述内容可知,静态特征数据和动态特征数据中均包含有多种类型数据,而各个特征作为训练数据对最终训练得到的模型影响各不相同,因此可以首先对静态特征数据和动态特征数据进行特征数据筛选,如分别生成各特征对应的pearson相关系数,如相关系数绝对值越接近1则表明数据相关性越高,而若相关系数绝对值小于一定阈值,如0.3、0.5等,则表明该特征数据与保险风险预测模型相关性较低,则可以将这部分特征数据删除。
166.在本技术实施例中,根据采集到的历史时间段内用户保险数据,既包含了用户投保对应的保单数据和在保单生效期间的理赔数据,又包含了诸如标识用户健康状态的走路、跑步、血压测血糖测量频率等数据,并在对数据进行剔除异常数据、填补缺失数值等数据优化操作之后,再生成面板数据以便于利用得到的面板数据生成风险预测模型,提升了数据的全面性和准确性,进而提高了客户保险风险预测的准确性。
167.204、按照时间顺序从所述面板数据中抽取一组或多组截面数据,得到训练数据集合和测试数据集合。
168.在多组不同时间序列下的截面数据中,对于具有相同用户身份标识的,其静态特征数据是不变的,但是动态特征数据是可能变化的,所以可以将时间点t下的截面数据作为训练数据集,而将时间点t+1下的截面数据作为测试数据集,以便根据训练数据集和测试数据集进行训练得到保险风险评估模型。
169.205、根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型。
170.其中,所述分类子模型用于计算在剩余保单周期内是否存在出险情况,所述回归子模型用于计算在所述剩余保单周期内的理赔金额。分类子模型用来判断从当前时间观察点至保单失效期间,用户是否存在出险,以此标识客户是否存在健康问题;回归子模型用来计算从当前时间观察点至保单失效期间,用户出险的累计理赔金额,以此反映客户健康问题的严重程度。
171.示例性的,如上述面板数据中观察点2021-01-01、2021-02-01、2021-03-01的截面数据为例,取观察点为2021-01-01的一个截面数据作为训练集1,取观察点为2021-02-01的一个截面数据作为测试集1,结合分类目标变量训练得到子模型1-1,结合回归目标变量训练得到子模型1-2;取观察点为2021-01-01、2021-02-01的两个截面数据作为训练集2,取观察点为2021-03-01的一个截面数据作为测试集2,结合分类目标变量训练得到子模型2-1,结合回归目标变量训练得到子模型2-2。
172.206、根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型。
173.为了优化风险评估模型,在步骤205之后本技术实施例还包括:根据所述分类子模型和回归子模型的测试结果调整子模型参数,得到优化后的分类子模型和回归子模型。步骤206具体可以为:根据所述优化后的分类子模型和回归子模型进行融合,得到所述风险评估模型。
174.如上述步骤205中示例,根据子模型1-1、子模型1-2在测试集1上的表现以及根据子模型2-1、子模型2-2在测试集2上的表现进行参数调整使目标函数拟合最优,对于模型结果中重要性较低的特征予以剔除。
175.具体地,测试结果可以通过如下目标函数获得:
[0176][0177]
其中损失函数衡量样本i的真实值yi与预测值yi′
差异,反映了模型的偏差;正则项衡量一系列预测器fk的复杂度,反映了模型的方差。
[0178]
对比调优后的分类子模型(分类子模型1-1、分类子模型2-1),选择拟合较好的子模型2-1;对比调优后的回归子模型(回归子模型1-2、回归子模型2-2),选择拟合较好的子模型2-2;查看子模型2-1、子模型2-2在更多测试集上的结果,评估模型稳定性,模型表现稳定的情况下将子模型2-1与子模型2-2的结果进行融合。示例性的,分类子模型和回归子模型之间的融合可以为按照如下步骤:假设子模型2-1的结果为y1,子模型2-2的结果y2,先将小于1的y2赋值为1,模型融合的结果y=y1*ln(y2),但不限于此。
[0179]
207、利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。
[0180]
其中,所述保险风险指数用于标识所述客户在预设未来时间段内出险的次数和保险理赔金额。
[0181]
在本技术实施例中,步骤207具体包括:利用所述风险评估模型对客户在保险维度和基础健康维度分别进行标签化;根据客户标签计算与所述客户对应的多个子保险风险值;根据所述子保险风险值进行聚合和线性变换得到所述保险风险指数,并根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数。其中,步骤根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数包括:根据所述保险风险指数从所述映射关系中提取所述客户在各个观察点的健康等级;根据健康等级的波动情况和预设健康风险指数区间确定所述健康风险指数。
[0182]
根据步骤202中可知模型特征数据是根据统计得到静态特征数据和动态特征数据并生成面板数据,从而提取面板数据中的截面作为模型特征数据进行模型训练的,而统计生成的各截面数据能够标识用户的客群标签,即诸如当前保单累计出险次数、当前保单累计就诊天数、被保人累计保单数、被保人累计案件个数、被保人累计确诊天数、被保人累计账单金额、被保人累计赔付金额、疾病对应案件个数、疾病对应账单金额、疾病对应案均账单金额、医院对应案件个数、医院对应账单金额、医院对应赔付金额、用户健康任务月均值、用户健康任务累计参与次数、用户健康任务累计完成任务等,通过生成每个用户分别对用的多维度、多属性的客群标签,并基于具有客群标签的模型特征数据进行模型训练,从而使得得到的风险评估模型能够确定客户的客群标签,并根据客群标签确定客户的保险风险指数和健康风险指数。
[0183]
在本技术实施例中,对模型融合后输出的子保险风险值进行聚合和线性变换处理,能够得到客户在当前观察点的保险风险数值,并根据该保险风险数值与健康等级之间的映射关系,确定当前观察点下用户对应的健康等级状况并利用标签对其进行标记。按照此种方式确定客户在多个观察点下的保险风险数值和对应的健康等级,便可观察到客户在多个观察点下的健康等级标签波动情况,并根据波动方向、波动幅度在健康风险指数区间的映射结果,确定标识客户在未来一段时间的健康风险的健康风险指数。
[0184]
通过利用风险评估模型确定客户的客群标签,可以使得无需按照用户是否出险、赔付金额是否超出标准等粗糙的客群划分策略对客户进行区分,便可对全量客户进行风险
评估,且通过客群标签将用户评估指标划分为多个细小的评估粒度,并根据各粒度下的标签进行拟合得到用户的综合评价指标,而由于细小的评估粒度包含有出险情况、理赔次数和金额、医院理赔、基础健康等多维度、多属性数据,从而使得得到的风险评估更加全面且准确。
[0185]
本发明提供了一种保险客户的风险评估方法及装置、存储介质、终端,与现有技术相比,本发明实施例通过获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;从所述历史保险数据中提取模型特征数据;基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数,基于用户保单数据、理赔数据和基础健康数据三个维度的模型数据训练保险风险预测模型,这使得基于该模型对未来一段时间的出险次数、理赔金额和健康状态的预测结果更加准确,且无需区分客户,可根据模型确定全量客户的客群标签,并根据客户的客群标签确定其保险风险指数和健康风险指数,使得可以对全量客户的保险风险和客户面临的健康风险作出评估与预判,在提升客户保险赔付风险预测准确性的同时,为企业进行客户健康管理提供数据视角的辅助。
[0186]
进一步的,作为对上述图1所示方法的实现,本技术实施例提供了一种保险客户的风险评估装置,如图3所示,该装置包括:获取模块31、提取模块32、训练模块33、确定模块34。
[0187]
获取模块31,用于获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;
[0188]
提取模块32,用于从所述历史保险数据中提取模型特征数据;
[0189]
训练模块33,用于用于基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;
[0190]
确定模块34,用于利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。
[0191]
进一步地,如图4所示,所述装置还包括:
[0192]
分类模块35,用于按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据,所述静态特征数据为不随时间变化的数据,所述动态特征数据为随时间变化的数据;
[0193]
生成模块36,用于根据分类后的用户保险数据生成面板数据并将所述面板数据确定为所述模型特征数据,所述面板数据包含有n个时间观察点下分别对应的截面数据,各组所述截面数据内包含有多个所述用户身份标识以及与用户分别对应的静态特征数据和动态特征数据。
[0194]
进一步地,如图4所示,所述训练模块33包括:
[0195]
抽取单元331,用于按照时间顺序从所述面板数据中抽取一组或多组截面数据,得到训练数据集合和测试数据集合;
[0196]
训练单元332,用于根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型,所述分类子模型用于计算在剩余保单周期内是否存在出险情况,所述回归子模
型用于计算在所述剩余保单周期内的理赔金额;
[0197]
融合单元333,用于根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型。
[0198]
进一步地,如图4所示,所述训练模块33还包括:调整单元334,
[0199]
所述调整单元334,用于根据所述分类子模型和回归子模型的测试结果调整子模型参数,得到优化后的分类子模型和回归子模型;
[0200]
所述融合单元333,具体用于根据所述优化后的分类子模型和回归子模型进行融合,得到所述风险评估模型。
[0201]
进一步地,如图4所示,所述装置还包括:计算模型37、筛选模块38,
[0202]
所述计算模块37,用于计算与所述静态特征数据和动态特征数据中各特征数据分别对应的相关系数;
[0203]
所述筛选模块38,用于根据所述相关系数对所述静态特征数据和所述动态特征数据进行筛选;
[0204]
所述生成模块36,具体用于根据筛选后的静态特征数据和动态特征数据生成面板数据。
[0205]
进一步地,如图4所示,所述确定模块34包括:
[0206]
标签化单元341,用于利用所述风险评估模型对客户在保险维度和基础健康维度分别进行标签化;
[0207]
计算单元342,用于根据客户标签计算与所述客户对应的多个子保险风险值;
[0208]
聚合单元343,用于根据所述子保险风险值进行聚合和线性变换得到所述保险风险指数;
[0209]
确定单元344,用于根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数。
[0210]
进一步地,如图4所示,
[0211]
所述确定单元343,还用于根据所述保险风险指数从所述映射关系中提取所述客户在各个观察点的健康等级;
[0212]
所述确定单元343,还用于根据健康等级的波动情况和预设健康风险指数区间确定所述健康风险指数。
[0213]
进一步地,如图4所示,所述装置还包括:
[0214]
检测模块39,用于检测所述用户保险数据是否存在缺失数据;
[0215]
删除模块310,用于若存在且所述缺失数据为主键数据,则将所述用户保险数据删除;
[0216]
所述计算模块37,还用于若利用预置算法计算与所述缺失数据对应的填充数据,并利用所述填充数据对所述用户保险数据进行补充。
[0217]
本发明实施例提供了一种保险客户的风险评估装置,本发明实施例通过获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;从所述历史保险数据中提取模型特征数据;基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健
康风险指数,基于用户保单数据、理赔数据和基础健康数据三个维度的模型数据训练保险风险预测模型,这使得基于该模型对未来一段时间的出险次数、理赔金额和健康状态的预测结果更加准确,且无需区分客户,可根据模型确定全量客户的客群标签,并根据客户的客群标签确定其保险风险指数和健康风险指数,使得可以对全量客户的保险风险和客户面临的健康风险作出评估与预判,在提升客户保险赔付风险预测准确性的同时,为企业进行客户健康管理提供数据视角的辅助。
[0218]
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的保险客户的风险评估方法。
[0219]
图5示出了根据本发明一个实施例提供的一种终端的结构示意图,本发明具体实施例并不对终端的具体实现做限定。
[0220]
如图5所示,该终端可以包括:处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
[0221]
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
[0222]
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
[0223]
处理器402,用于执行程序410,具体可以执行上述保险客户的风险评估方法实施例中的相关步骤。
[0224]
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
[0225]
处理器402可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0226]
存储器406,用于存放程序410。存储器406可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0227]
程序410具体可以用于使得处理器402执行以下操作:
[0228]
获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;
[0229]
从所述历史保险数据中提取模型特征数据;
[0230]
基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;
[0231]
利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。
[0232]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0233]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包括在本发明的保护范围之内。
技术特征:
1.一种保险客户的风险评估方法,其特征在于,包括:获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;从所述历史保险数据中提取模型特征数据;基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。2.根据权利要求1所述的方法,其特征在于,所述历史保险数据中还包含有用户身份标识和时间标识,所述获取历史保险数据之后,所述方法还包括:按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据,所述静态特征数据为不随时间变化的数据,所述动态特征数据为随时间变化的数据;根据分类后的用户保险数据生成面板数据并将所述面板数据确定为所述模型特征数据,所述面板数据包含有n个时间观察点下分别对应的截面数据,各组所述截面数据内包含有多个所述用户身份标识以及与用户分别对应的静态特征数据和动态特征数据。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型包括:按照时间顺序从所述面板数据中抽取一组或多组截面数据,得到训练数据集合和测试数据集合;根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型,所述分类子模型用于计算在剩余保单周期内是否存在出险情况,所述回归子模型用于计算在所述剩余保单周期内的理赔金额;根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述训练数据集合和测试集合分别训练分类子模型和回归子模型之后,所述方法还包括:根据所述分类子模型和回归子模型的测试结果调整子模型参数,得到优化后的分类子模型和回归子模型;所述根据所述分类子模型和回归子模型进行融合,得到所述风险评估模型包括:根据所述优化后的分类子模型和回归子模型进行融合,得到所述风险评估模型。5.根据权利要求2所述的方法,其特征在于,所述按照所述时间标识和所述用户身份标识对所述历史保险数据分类,得到每个用户在不同时间观察点下分别对应的静态特征数据和动态特征数据之后,所述方法还包括:计算与所述静态特征数据和动态特征数据中各特征数据分别对应的相关系数;根据所述相关系数对所述静态特征数据和所述动态特征数据进行筛选;根据分类后的用户保险数据生成面板数据包括:根据筛选后的静态特征数据和动态特征数据生成面板数据。6.根据权利要求1所述的方法,其特征在于,所述利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数包括:利用所述风险评估模型对客户在保险维度和基础健康维度分别进行标签化;
根据客户标签计算与所述客户对应的多个子保险风险值;根据所述子保险风险值进行聚合和线性变换得到所述保险风险指数,并根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数。7.根据权利要求6所述的方法,其特征在于,所述根据所述保险风险指数和预设保险风险和健康等级之间的映射关系确定所述健康风险指数包括:根据所述保险风险指数从所述映射关系中提取所述客户在各个观察点的健康等级;根据健康等级的波动情况和预设健康风险指数区间确定所述健康风险指数。8.根据权利要求1所述的方法,其特征在于,所述获取历史保险数据之后,所述方法还包括:检测所述用户保险数据是否存在缺失数据;若存在且所述缺失数据为主键数据,则将所述用户保险数据删除,否则利用预置算法计算与所述缺失数据对应的填充数据,并利用所述填充数据对所述用户保险数据进行补充。9.一种保险客户的风险评估装置,其特征在于,包括:获取模块,用于获取历史保险数据,所述历史保险数据中包含有多个用户的用户保险数据,而所述用户保险数据至少包含有保单数据、历史理赔数据和用户基础健康数据;提取模块,用于从所述历史保险数据中提取模型特征数据;训练模块,用于基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;确定模块,用于利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和健康风险指数。10.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-8中任一项所述的保险客户的风险评估方法对应的操作。11.一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的保险客户的风险评估方法对应的操作。
技术总结
本发明公开了一种保险客户的风险评估方法及装置、存储介质、终端,涉及机器学习和保险技术领域,主要目的在于解决现有的保险风险预测性能较差的问题。包括:获取历史保险数据;从所述历史保险数据中提取模型特征数据;基于所述模型特征数据对初始机器学习模型进行训练,得到风险评估模型;利用所述风险评估模型确定客户的客群标签,并根据所述客群标签确定客户的保险风险指数和计算客户的健康风险指数。主要用于保险客户的风险评估。要用于保险客户的风险评估。要用于保险客户的风险评估。
技术研发人员:王美
受保护的技术使用者:平安健康保险股份有限公司
技术研发日:2022.03.22
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
