保险案件的重要性确认方法、装置、服务器及存储介质与流程
未命名
10-09
阅读:168
评论:0
1.本技术涉及机器学习技术领域,尤其涉及一种保险案件的重要性确认方法、装置、服务器及存储介质。
背景技术:
2.现有的金融保险理赔领域中,以车险为例,大案(定损金额大于或等于一万元)的案件总体金额占比高,其具有损失金额大、出险频次低等特点。而当下对于大案事故和非大案事故主要采取无差异化服务,需要理赔员对报案端客户的险情描述及出险特征进行分析,给出案件是否大案的判断结果。从出险到确认需要较长的处理周期,响应时效慢,大大降低了用户的服务体验。而对于保险公司而言,对大案的处理周期的加快可以增加保费置换,促进成本精细化管控。
技术实现要素:
3.本技术公开的一种保险案件的重要性确认方法、装置、服务器及存储介质,解决现有保险案件从出险到确认案件的重要性需要较长的处理周期,响应时效慢的问题。
4.第一方面,本技术提供了一种保险案件的重要性确认方法,包括:
5.从金融数据库中获取多个已赔付的保险案件作为训练样本,所述训练样本包括所述保险案件的预设案件系数、保单信息以及出险信息;
6.基于所述保单信息与所述出险信息获得所述保险案件的静态特征信息以及动态特征信息;
7.将所述静态特征信息与动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据;
8.基于所述第一数据、第二数据以及所述预设案件系数对待训练的决策树分类器进行训练,获取训练完成的所述决策树分类器;其中,所述决策树分类器用于确认所述保险案件的重要性。
9.第二方面,本技术提供了一种保险案件的重要性确认装置,包括:
10.样本获取模块,用于从金融数据库中获取多个已赔付的保险案件作为训练样本,所述训练样本包括所述保险案件的预设案件系数、保单信息以及出险信息;
11.特征获取模块,用于基于所述保单信息与所述出险信息获得所述保险案件的静态特征信息以及动态特征信息;
12.特征抽取模块,用于将所述静态特征信息与动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据;
13.案件确认模块,用于基于所述第一数据、第二数据以及所述预设案件系数对待训练的决策树分类器进行训练,获取训练完成的所述决策树分类器;其中,所述决策树分类器用于确认所述保险案件的重要性。
14.第三方面,本技术提供了一种服务器,所述服务器包括处理器、存储器、以及存储
在所述存储器上并可被所述处理器执行的计算机程序,所述存储器存储有策略模型,其中所述计算机程序被所述处理器执行时,实现如本技术任一项实施例所提供的保险案件的重要性确认方法。
15.第四方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本技术任一项实施例所提供的保险案件的重要性确认方法。
16.本技术实施例提供了一种保险案件的重要性确认方法、装置、服务器及存储介质,通过从金融数据库中获取多个已赔付的保险案件作为训练样本,训练样本包括保险案件的预设案件系数、保单信息以及出险信息;基于保单信息与出险信息获得保险案件的静态特征信息与动态特征信息;将静态特征信息和动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据以完成对决策树分类器的训练,训练完成的决策树分类器用于确认保险案件的重要性。采用所提供的保险案件的重要性确认方法,通过对保单信息以及出险信息提取出静态信息以及动态信息,完成对决策树分类器的训练,经过特征工程抽取、数据挖掘建模、机器学习预测等步骤,对保险案件的重要性能进行精准前置识别,能够成功召回接近全量的大案案件,服务于后续理赔的推修流程,最终提升理赔大案资源的掌控力度,降低赔付成本,增加前置保费置换,促进理赔端的降本增效。
17.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术一实施例提供的保险案件的重要性确认方法的步骤示意流程图;
20.图2是本技术实施例提供的另一种保险案件的重要性确认方法的步骤示意流程图;
21.图3是本技术实施例所提供的一种轻量级梯度提升决策树分类器的训练方法的步骤示意流程图;
22.图4是本技术实施例所提供的一种轻量级梯度提升决策树分类器的更新的步骤示意流程图;
23.图5是本技术实施例提供的一种保险案件的重要性确认装置的结构示意图;
24.图6是本技术的实施例提供的一种计算机设备的结构示意性框图。
25.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本申
请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
28.应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
29.应当理解,为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一数据和第二数据仅仅是为了区分不同的数据,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
30.还应当进理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
31.为便于理解本技术实施例,下面对本技术实施例中涉及到的一些词汇作简单说明。
32.1.梯度提升决策树分类器(gradient boosting decision tree,gbdt):在传统机器学习算法里面gbdt是对真实分布拟合的最好的几种算法之一,该模型具有训练效果好、不易过拟合等优点。gbdt在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。gbdt也是各种数据挖掘竞赛的致命武器,在分类与回归比赛中深受用户喜爱。
33.gbdt主要思想是以减小残差为目标函数,迭代训练弱分类器,最终将弱分类器经过加法模型进行线性组合来进行数据分类或回归的算法。gbdt所采用的弱分类器主要就是决策树,由于要求弱分类器低方差、高偏差,所以决策树的深度要求不要太深,而最终的分类器是将每轮训练得到的弱分类器加权求和得到的。在回归分析中,通常用残差分析来判断回归模型的拟合效果。残差分析的常用方法为通过一般指数判断。一般指数平方越大,残差平方和越小,从而回归模型的拟合效果越好。
34.2.轻量级梯度提升决策树分类器:梯度提升机(light gradient boosting machine,lightgbm)是微软开源的一个实现gbdt算法的框架,支持高效率的并行训练。它具有训练速度快,内存使用少,处理了类别特征,大大加快了训练速度,也有更好的模型精度。
35.lightgbm采用的是生长方法是leaf-wise的决策树生长策略,减少了计算量,当然这样的算下也需要控制树的深度和每个叶节点的最小的数据量,从而减少分裂点。而lightgbm采取的是直方图算法,这样带来了存储代价和计算代价等方面的缩小,从而得到更好的性能。
36.另外,数据结构的变化也使得细节处理方面效率有所不同,比如对缓存的利用,lightgbm更加高效。从而使得其具有很好的加速性能,特别是类别特征处理,也使得lightgbm在特定的数据集上有非常大的提升。
37.3.f1分数(f1-score):f1-score是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将f1-score作为最终测评的方法。它是精确率和召回率的调和平均数,
最大为1,最小为0。
38.4.保险案件的大案确认:在车险理赔领域,大案(定损金额大于等于一万元)案件总体金额占比高,具有损失金额大、出险频次低等特点,对大案的精准推修可以增加保费置换,优化推修资源配置,促进成本精细化管控。目前,对大案的识别存在信息滞后,无法前置介入管理、精准匹配服务和成本管控策略。
39.在服务方面,大案事故相对非大案事故无差异化服务,响应时效慢;在经营方面,大案资源分配不精准,产值不均衡;在成本方面,大案案件已到店,赔付方案协商困难。对大案的前置精准识别是后续理赔流程最核心的环节。
40.目前,大案前置识别现有的技术方法有以下两种:
41.(1)人工判断。通过理赔员的专业知识及业务经验对报案端客户的险情描述及出险标的静态特征进行分析,给出案件是否大案的判断结果。该方法具有一定的通用性,但缺点也非常明显,主要有三点:第一,基于人工的大案判别响应时效慢,案均判别二十至三十秒,难以做到线上化自动管理;第二,人工判断只能关注少数几个指标,缺乏全量特征的全局感受野,对于具有隐蔽大案特征的案件难以识别;第三,人工判断存在一定的误差和疏漏,且与理赔员的个人经验高度相关,具有一定的主观性。
42.(2)规则判断。通过人工筛选出相关的特征,并设定一定的规则,定期统计出不同规则的阈值,通过层层if-else逻辑对出险案件进行大案判别。该方法相对人工方法对大案精准识别有所提升,但也有很多局限。第一,规则难以迭代和优化,对于不同的场景和不同的风险情况,需要设立不同的规则,规则的优化和更新需要大量的时间去维护;第二,规则对于大案的判别较为浅层,if-else逻辑只能对较为显著特征进行线性判断,难以挖掘出复杂大案的隐蔽模式。
43.5.特征抽取引擎:特征工程是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。特征工程直接影响预测结果。特征工程包括数据的特征抽取、数据的特征与处理和数据的降维。特征抽取的目的是对文本进行特征值化(为了让计算机更好地理解数据),完成特征抽取的部分称为特征抽取引擎。
44.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
45.在现有的金融保险理赔领域中,以车险为例,对于大案(定损金额大于或等于一万元)需要理赔员对报案端客户的险情描述及出险特征进行分析,给出案件是否大案的判断结果。由于从出险到确认需要较长的处理周期,响应时效慢,大大降低了用户的服务体验。而对于保险公司而言,对大案的处理周期的加快可以增加保费置换,促进成本精细化管控。
46.目前,对大案的识别存在信息滞后,无法前置介入管理、精准匹配服务和成本管控策略。对大案的前置精准识别是后续理赔流程最核心的环节。
47.为解决上述问题,本技术实施例提出了一种保险案件的重要性确认方法方法。请参阅图1,图1是本技术一实施例提供的保险案件的重要性确认方法的步骤示意流程图。
48.如图1所示,该保险案件的重要性确认方法具体包括步骤s101至步骤s104。
49.s101、从金融数据库中获取多个已赔付的保险案件作为训练样本,训练样本包括所述保险案件的预设案件系数、保单信息以及出险信息。
50.具体地,金融数据库中存储有多个已赔付的保险案件,以车险为例,赔付案件信息
中包括该保险案件的保单信息,用于描述保险案件的自身信息,包括例如车型名称、车龄、车辆种类、车架号(前11位)、新车购置价、车损险保额、标的座位数。赔付案件信息中还包括保险案件的出险信息,用于描述保险案件的动态信息,包括例如受损位置、气囊是否受损、出险原因等,以捕捉标的损失信息。以及预设案件系数,用于描述保险案件的重要性,例如所获取的保险案件的预设案件系数为0.8,且大于0.7的保险案件为大案。根据金融数据库中所提取的赔付案件作为训练样本使得本技术所提供的保险等级生成方法能聚焦于保险理赔端的报案阶段,最终能提升理赔全损案件资源的掌控力度。
51.在一些实施例中,从金融数据库中获取多个已赔付的保险案件作为训练样本,包括:从金融数据库中获取赔付金额大于预设金额的保险案件作为所述训练样本。
52.通过在金融数据库中将赔付金额大于预设金额的重要性较大的保险案件进行提取,能够确保最终训练的模型能学习到全量大案特征的知识,挖掘出复杂隐蔽的大案模式,提高了模型对具有隐蔽大案特征的案件的精准率和召回率。
53.s102、基于保单信息与出险信息获得保险案件的静态特征信息以及动态特征信息。
54.具体地,为将保险案件中关于理赔端报案阶段的特征信息应用到模型的训练过程中,需要先从保单信息中获取描述保险案件的自身信息的静态特征信息,并将其记为静态数据d
static
,静态特征信息包括例如车型名称、车龄、车辆种类、车架号(前11位)、新车购置价、车损险保额、标的座位数的一项或多项。以及从出险信息中获取描述保险案件的动态特征信息,并将其记为动态数据d
dyna
,动态特征信息包括例如受损位置、气囊是否受损、出险原因等,以捕捉标的损失信息的一项或多项。从而为将报案端获取的数据应用到模型的训练过程中做好前置工作。
55.s103、将所述静态特征信息和动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据。
56.具体地,为了将保单信息以及出险信息转化为可供模型训练的特征集,需要进行特征抽取处理。需要将静态特征信息和动态特征信息转换为特征向量,包括连续的第一数据(例如车辆新车购置价和座位数)和离散的第二数据(例如车辆品牌和车型名称)。从而能将报案端获取的数据应用到模型的训练过程中,以实现对案件是否大案标签进行精准前置识别。
57.示例性的,通过定义特征抽取引擎能将静态特征信息和动态特征信息通过特征工程转换为特征向量,所定义的特征抽取引擎进行特征抽取的表达式如下:
58.f={feature_extraction(di)},i=1,2,3,4,...n
59.式中,f为特征抽取引擎进行特征抽取输出的特征向量,feature_extraction()为特征抽取函数,di为静态特征信息和动态特征信息,通过对总计n个特征信息进行特征抽取,能获取n个特征向量应用到模型的训练过程中。
60.s104、基于第一数据、第二数据以及预设案件系数对待训练的决策树分类器进行训练,获取训练完成的决策树分类器。其中,决策树分类器用于确认保险案件的重要性。
61.具体地,通过第一数据、第二数据以及预设案件系数完成对待训练的决策树分类器进行训练,进而能使用训练完成的决策树分类器对保险案件是否大案标签进行精准前置识别,能够成功召回接近全量的大案案件,服务于后续理赔的推修流程,最终提升理赔大案
资源的掌控力度,降低赔付成本,增加前置保费置换,促进理赔端的降本增效。
62.示例性的,请参阅图2,图2是本技术实施例提供的另一种保险案件的重要性确认方法的步骤示意流程图。与图1所示的方法不同在于,图2所示的方法还包括步骤s201和s202。
63.s201、对连续的第一数据和离散的第二数据进行处理,获取离散的第一特征信息和第二特征信息。
64.通过对第一数据和第二数据进行处理,将连续的第一数据转换为离散的第一特征信息,并对离散的第二数据进行处理,能够获得离散的第一特征信息和第二特征信息作为决策树分类器训练的入参,用于对决策树分类器进行训练。
65.需要说明的是,在一些实施例中,对连续的第一数据和离散的第二数据进行特征工程处理,获取离散的第一特征信息和第二特征信息,包括:对连续的第一数据进行离散化处理,获得第一特征信息;对离散的第二数据进行编码,获取第二特征信息。
66.通过将连续的第一数据记为连续特征f
cont
,以及离散的第二数据记为离散特征f
disc
,通过f
cont
和f
disc
组成特征集,对f
cont
和f
disc
按照下式进行特征工程处理,能够得到决策树分类器训练的入参p:
[0067][0068]
label_encoder(x)=[index(fi)],fi∈f
disc
[0069][0070]
式中f
cont
为连续特征,f
disc
为离散特征,fi为离散特征f
disc
中的一个特征向量,fj为连续特征f
cont
中的一个特征向量,convert_numeric(fj)为对连续的第一数据进行离散化处理获得第一特征信息,lable_encoder(x)为对离散的第二数据进行编码后获取的第二特征信息。
[0071]
需要说明的是,在一些实施例中,通过lableencoder对离散数据进行编码,首先根据类别名称的字典对所有类别进行排序,然后为每个类别分配一个唯一的整数编码。接着,lableencoder将数据集中的每个类别都用其对应的整数编码来替换。当存在新的数据进行编码时,lableencoder会根据之前建立的类别名称和整数编码的映射关系,将新的类别名称转换为整数编码。例如,当第二数据为车型名称时,其编码表达式如下:
[0072][0073]
式中x
modle_name
为车型名称,为lableencoder(x
modle_name
)为对车型名称进行编码后的第二特征信息,a500、a600与a700则分别为a品牌不同型号的汽车,采用所提供的编码方法,当生产数据遇见了新出现的a800车型时,那么该车型字段将被映射为3,可以很好得解决生产端出现了本地训练集未出现字段的问题。
[0074]
需要说明的是,在一些实施例中,对连续的第一数据采用截断型对数取整式离散化处理,获得第一特征信息,例如对连续型特征-新车购置价,180000元和150000元的车其实价格处于同一维度,但是在数值上相差过高,那么后续模型识别会对该特征过度偏倚,造
成决策树分类器训练的过拟合。因此采用如下式进行离散化处理:
[0075][0076]
式中f
new-purchase
为新车购置价,通过对各个第一数据根据相应的规则进行离散化,两者的数值差距有所减小,降低了模型对新车购置价字段的偏倚,使得后续决策树分类器训练的过程中,能够平衡来自各个连续特征的影响。
[0077]
s202、将第一特征信息以及第二特征信息,输入至待训练的决策树分类器进行训练,获取训练完成的决策树分类器。其中,决策树分类器用于确认保险案件的重要性。
[0078]
通过将特征工程处理后的第一特征信息以及第二特征信息对决策树分类器进行训练,能够对报案端获取的数据应用到对保险案件的重要性的确认,使得最终获取的决策树分类器能对大案标签进行精准前置识别。
[0079]
在一些实施例中,待训练的决策树分类器为轻量级梯度提升决策树分类器。请参照图3,图3是本技术实施例所提供的一种轻量级梯度提升决策树分类器的训练方法的步骤示意流程图。
[0080]
如图3所示,所提供的训练方法包括步骤s104a和s104b。
[0081]
s104a、将第一数据和第二数据输入至待训练的轻量级梯度提升决策树分类器,待训练的轻量级梯度提升决策树分类器生成预测案件系数,计算预设案件系数与预测案件系数的差值,根据差值更新轻量级梯度提升决策树分类器,对轻量级梯度提升决策树分类器进行迭代训练。
[0082]
s104b、在迭代训练的次数等于预设迭代次数时,完成轻量级梯度提升决策树分类器的训练。
[0083]
通过将连续的第一数据和离散的第二数据输入至待训练的轻量级梯度提升决策树分类器,由待训练的轻量级梯度提升决策树分类器基于报案端获取的第一数据和第二数据进行二分类训练,生成所对应的保险案件的预测案件系数。并计算所生成的预测案件系数与该保险案件的预设案件系数差值,根据差值更新轻量级梯度提升决策树分类器,对决策树分类器进行迭代训练,例如当预设迭代次数为200次时,则会生成200颗决策树,此时轻量级梯度提升决策树分类器的泛化性能最佳,最终训练完成的轻量级梯度提升决策树分类器能对保险案件的大案标签进行精准前置识别,通过对于具有明显大案特征的案件通过对强相关特征的学习进行精准的识别,而对于具有复杂大案模式的保险案件的识别,轻量级梯度提升决策树分类器能基于历史的出险次数进行频率统计,借助历史相似度,给出置信度最高的判断。
[0084]
在一些实施例中,轻量级梯度提升决策树分类器至少包括第一决策树,预测案件系数为所述第一数据和第二数据输入至所述第一决策树生成的。请参照图4,图4是本技术实施例所提供的一种轻量级梯度提升决策树分类器的更新的步骤示意流程图。
[0085]
如图4所示,所提供的更新方法包括步骤s104a1和s104a2。
[0086]
s104a1、基于第一决策树与预设案件系数的差值生成第二决策树。
[0087]
s104a2、计算预设赔付系数与预测赔付系数的均方根误差,基于均方根误差更新第二决策树分类器的预设参数,完成轻量级梯度提升决策树分类器的更新。其中,决策树分类器的更新如下式:
[0088]rmi
=y
i-g
m-1
(x)
[0089]
tm(x)=r
mi
+t
m-1
(x)
[0090]gm
(x)=g
m-1
(x)+tm(x)
[0091]
式中,r
mi
为预测案件系数与该保险案件的预设案件系数的差值,yi为该保险案件的预设案件系数,g
m-1
(x)为第一决策树t
m-1
(x)输出的预测案件系数,tm(x)为根据r
mi
更新的第二决策树,gm(x)为第二决策树tm(x)输出的预测案件系数。
[0092]
通过在迭代训练的次数等于预设迭代次数时,例如200次,此时轻量级梯度提升决策树分类器的泛化性能最佳,得到训练完成的轻量级梯度提升决策树分类器如下式:
[0093][0094]
式中gm(x)为训练完成的轻量级梯度提升决策树分类器的输出,m为预设迭代的次数,通过m次迭代更新m颗决策树,每颗决策树均为弥补上一颗决策树的差值rmi进行设置,使得最终训练完成的轻量级梯度提升决策树分类器能对保险案件的大案标签进行精准前置识别。
[0095]
其中,在每次生成新的决策树时,还需要计算该决策树的均方根误差(mean squared error,mse),其表达式如下:
[0096][0097]
式中,yi为该保险案件的预设案件系数,gm(x)为新生成的决策树tm(x)输出的预测案件系数,通过获取mse值对新生成的决策树tm(x)的内置参数,例如决策树内各节点的参数进行调整,使得最终决策树tm(x)的mse值最小,完成对决策树tm(x)的优化。通过采用集成学习的方法对轻量级梯度提升决策树分类器进行训练,可以让模型学习到全量保险案件中大案特征的知识,挖掘出复杂隐蔽的大案模式,提高了训练后的轻量级梯度提升决策树分类器对具有隐蔽大案特征的案件的精准率和召回率。
[0098]
在一些实施例中,多个保险案件包括第一预设数量的保险案件和第二预设数量的保险案件,第一预设数量的保险案件的重要性为第一等级,第二预设数量的保险案件的重要性为第二等级,第一等级的重要性大于第二等级。在获取训练完成的决策树分类器之后,所提供的方法还包括:按照预设步长在0至1的范围内选取预设阈值。其中,案件系数大于或等于预设阈值的保险案件的重要性确认为第一等级,案件系数小于预设阈值的保险案件的重要性确认为第二等级。基于决策树分类器输出的多个案件系数与预设阈值确定第一等级的保险案件的数量为第一数量以及第二等级的保险案件的数量为第二数量。基于第一预设数量、第二预设数量、第一数量以及第二数量计算每个预设阈值的f1分数,将f1分数的最大值对应的预设阈值作为目标预设阈值。
[0099]
其中,f1分数计算的表达式如下:
[0100][0101][0102]
[0103]
式中,p为决策树分类器的精确率(precision),r为决策树分类器的召回率(recall),k为决策树分类器预测正确的重要性为第一等级(大案)的保险案件的数量,n为训练样本中总的保险案件的数量,n为训练样本中总的重要性为第一等级(大案)的保险案件的数量,f1分数是评估模型精确率和召回率的调和平均数,其最大值为1,最小值为0。
[0104]
通过在0-1中按照预设步长,例如预设步长为0.05,计算训练完成的决策树分类器的最优目标预设阈值,该目标预设阈值能使得训练完成的决策树分类器的f1分数最高,即使得训练完成的决策树分类器的表现最好。
[0105]
此时能得到最终的保险案件的重要性确认公式:
[0106][0107]
式中flag为最终确认的保险案件的重要性,gm(x)为新生成的决策树分类器输出的预测案件系数,pv为目标预设阈值,当gm(x)大于等于pv确认该保险案件的重要性为第一等级,即该保险案件为大案,进而实现对案件是否大案标签进行精准前置识别。
[0108]
本技术实施例提供了一种保险案件的重要性确认方法,采用所提供的保险案件的重要性确认方法,通过对保单信息以及出险信息提取出静态信息以及动态信息,完成对决策树分类器的训练,经过特征工程抽取、数据挖掘建模、机器学习预测等步骤,对保险案件的重要性能进行精准前置识别,能够成功召回接近全量的大案案件,服务于后续理赔的推修流程,最终提升理赔大案资源的掌控力度,降低赔付成本,增加前置保费置换,促进理赔端的降本增效。
[0109]
如图5所示,图5是本技术实施例提供的一种保险案件的重要性确认装置的结构示意图,该保险案件的重要性确认装置用于执行前述的保险案件的重要性确认方法。其中,该保险案件的重要性确认装置可以配置于终端或服务器。
[0110]
如图5所示,该保险案件的重要性确认装置100,包括样本获取模块101、特征获取模块102、特征抽取模块103和案件确认模块104。
[0111]
样本获取模块101,用于从金融数据库中获取多个已赔付的保险案件作为训练样本,训练样本包括保险案件的预设案件系数、保单信息以及出险信息。
[0112]
特征获取模块102,用于基于保单信息与出险信息获得保险案件的静态特征信息以及动态特征信息。
[0113]
特征抽取模块103,用于将静态特征信息与动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据。
[0114]
案件确认模块104,用于基于第一数据、第二数据以及预设案件系数对待训练的决策树分类器进行训练,获取训练完成的决策树分类器;其中,决策树分类器用于确认保险案件的重要性。
[0115]
在一些实施例中,该保险案件的重要性确认装置100还可以包括:特征输入模块105、特征处理模块106、决策训练模块107、决策更新模块108、阈值确认模块109以及样本确认模块101a。
[0116]
特征输入模块105,用于对连续的第一数据和离散的第二数据进行特征工程处理,获取离散的第一特征信息和第二特征信息,并将第一特征信息以及第二特征信息,输入至待训练的决策树分类器。
[0117]
特征处理模块106,用于对连续的第一数据进行离散化处理,获得第一特征信息。对离散的第二数据进行编码,获取第二特征信息。
[0118]
决策训练模块107,用于将第一数据和第二数据输入至待训练的轻量级梯度提升决策树分类器,待训练的轻量级梯度提升决策树分类器生成预测案件系数,计算预设案件系数与预测案件系数的差值,根据差值更新轻量级梯度提升决策树分类器,对轻量级梯度提升决策树分类器进行迭代训练。在迭代训练的次数等于预设迭代次数时,完成轻量级梯度提升决策树分类器的训练。
[0119]
决策更新模块108,用于基于第一决策树与预设案件系数的差值生成第二决策树。计算预设赔付系数与预测赔付系数的均方根误差,基于均方根误差更新第二决策树分类器的预设参数,完成轻量级梯度提升决策树分类器的更新。
[0120]
阈值确认模块109,用于按照预设步长在0至1的范围内选取预设阈值;其中,案件系数大于或等于预设阈值的保险案件的重要性确认为第一等级,案件系数小于预设阈值的保险案件的重要性确认为第二等级。基于决策树分类器输出的多个案件系数与预设阈值确定第一等级的保险案件的数量为第一数量以及第二等级的保险案件的数量为第二数量。基于第一预设数量、第二预设数量、第一数量以及第二数量计算每个预设阈值的f1分数,将f1分数的最大值对应的预设阈值作为目标预设阈值。
[0121]
样本确认模块101a,用于从金融数据库中获取赔付金额大于预设金额的保险案件作为训练样本。
[0122]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0123]
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
[0124]
请参阅图6,图6是本技术的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
[0125]
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种保险案件的重要性确认方法。
[0126]
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
[0127]
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种保险案件的重要性确认方法。
[0128]
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0129]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻
辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0130]
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
[0131]
从金融数据库中获取多个已赔付的保险案件作为训练样本,所述训练样本包括所述保险案件的预设案件系数、保单信息以及出险信息。
[0132]
基于所述保单信息与所述出险信息获得所述保险案件的静态特征信息以及动态特征信息。
[0133]
将所述静态特征信息与动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据。
[0134]
基于所述第一数据、第二数据以及所述预设案件系数对待训练的决策树分类器进行训练,获取训练完成的所述决策树分类器;其中,所述决策树分类器用于确认所述保险案件的重要性。
[0135]
在一些实施例中,在所述将所述第一数据和第二数据输入至待训练的决策树分类器之前,处理器还用于实现:对所述连续的第一数据和所述离散的第二数据进行特征工程处理,获取离散的第一特征信息和第二特征信息。
[0136]
在一些实施例中,处理器还用于实现:将所述第一特征信息以及第二特征信息,输入至待训练的所述决策树分类器。
[0137]
在一些实施例中,处理器还用于实现:对连续的所述第一数据进行离散化处理,获得所述第一特征信息。对离散的所述第二数据进行编码,获取所述第二特征信息。
[0138]
在一些实施例中,待训练的所述决策树分类器为轻量级梯度提升决策树分类器,处理器还用于实现:将所述第一数据和第二数据输入至待训练的轻量级梯度提升决策树分类器,待训练的所述轻量级梯度提升决策树分类器生成预测案件系数,计算所述预设案件系数与所述预测案件系数的差值,根据所述差值更新所述轻量级梯度提升决策树分类器,对所述轻量级梯度提升决策树分类器进行迭代训练。在所述迭代训练的次数等于预设迭代次数时,完成所述轻量级梯度提升决策树分类器的训练。
[0139]
在一些实施例中,所述轻量级梯度提升决策树分类器至少包括第一决策树,所述预测案件系数为所述第一数据和第二数据输入至所述第一决策树生成的,处理器还用于实现:基于所述第一决策树与所述预设案件系数的差值生成第二决策树。计算所述预设赔付系数与所述预测赔付系数的均方根误差,基于所述均方根误差更新所述第二决策树分类器的预设参数,完成所述轻量级梯度提升决策树分类器的更新。
[0140]
在一些实施例中,多个所述保险案件包括第一预设数量的保险案件和第二预设数量的保险案件,所述第一预设数量的保险案件的重要性为第一等级,所述第二预设数量的保险案件的重要性为第二等级,所述第一等级的所述重要性大于所述第二等级,处理器还用于实现:按照预设步长在0至1的范围内选取预设阈值。其中,所述案件系数大于或等于所述预设阈值的所述保险案件的重要性确认为所述第一等级,所述案件系数小于所述预设阈值的所述保险案件的重要性确认为所述第二等级。基于所述决策树分类器输出的多个所述案件系数与所述预设阈值确定所述第一等级的保险案件的数量为第一数量以及所述第二等级的保险案件的数量为第二数量。基于所述第一预设数量、第二预设数量、第一数量以及
第二数量计算每个所述预设阈值的f1分数,将所述f1分数的最大值对应的所述预设阈值作为目标预设阈值。
[0141]
在一些实施例中,处理器还用于实现:从所述金融数据库中获取赔付金额大于预设金额的保险案件作为所述训练样本。
[0142]
本技术的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本技术实施例提供的任一项保险案件的重要性确认方法。
[0143]
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0144]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种保险案件的重要性确认方法,其特征在于,包括:从金融数据库中获取多个已赔付的保险案件作为训练样本,所述训练样本包括所述保险案件的预设案件系数、保单信息以及出险信息;基于所述保单信息与所述出险信息获得所述保险案件的静态特征信息以及动态特征信息;将所述静态特征信息与动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据;基于所述第一数据、第二数据以及所述预设案件系数对待训练的决策树分类器进行训练,获取训练完成的所述决策树分类器;其中,所述决策树分类器用于确认所述保险案件的重要性。2.根据权利要求1所述的方法,其特征在于,在所述将所述第一数据和第二数据输入至待训练的决策树分类器之前,所述方法还包括:对所述连续的第一数据和所述离散的第二数据进行处理,获取离散的第一特征信息和第二特征信息;所述将所述第一数据和第二数据输入至待训练的决策树分类器,包括:将所述第一特征信息以及第二特征信息,输入至待训练的所述决策树分类器。3.根据权利要求2所述的方法,其特征在于,所述对所述连续的第一数据和所述离散的第二数据进行特征工程处理,获取离散的第一特征信息和第二特征信息,包括:对连续的所述第一数据进行离散化处理,获得所述第一特征信息;对离散的所述第二数据进行编码,获取所述第二特征信息。4.根据权利要求1所述的方法,其特征在于,待训练的所述决策树分类器为轻量级梯度提升决策树分类器;所述基于所述第一数据、第二数据以及所述预设案件系数对待训练的决策树分类器进行训练,获取训练完成的所述决策树分类器,包括:将所述第一数据和第二数据输入至待训练的轻量级梯度提升决策树分类器,待训练的所述轻量级梯度提升决策树分类器生成预测案件系数,计算所述预设案件系数与所述预测案件系数的差值,根据所述差值更新所述轻量级梯度提升决策树分类器,对所述轻量级梯度提升决策树分类器进行迭代训练;在所述迭代训练的次数等于预设迭代次数时,完成所述轻量级梯度提升决策树分类器的训练。5.根据权利要求4所述的方法,其特征在于,所述轻量级梯度提升决策树分类器至少包括第一决策树,所述预测案件系数为所述第一数据和第二数据输入至所述第一决策树生成的;所述根据所述差值更新所述轻量级梯度提升决策树分类器,包括:基于所述第一决策树与所述预设案件系数的差值生成第二决策树;计算所述预设赔付系数与所述预测赔付系数的均方根误差,基于所述均方根误差更新所述第二决策树分类器的预设参数,完成所述轻量级梯度提升决策树分类器的更新。6.根据权利要求1所述的方法,其特征在于,多个所述保险案件包括第一预设数量的保险案件和第二预设数量的保险案件,所述第一预设数量的保险案件的重要性为第一等级,所述第二预设数量的保险案件的重要性为第二等级,所述第一等级的所述重要性大于所述第二等级;在所述获取训练完成的所述决策树分类器之后,所述方法还包括:
按照预设步长在0至1的范围内选取预设阈值;其中,所述案件系数大于或等于所述预设阈值的所述保险案件的重要性确认为所述第一等级,所述案件系数小于所述预设阈值的所述保险案件的重要性确认为所述第二等级;基于所述决策树分类器输出的多个所述案件系数与所述预设阈值确定所述第一等级的保险案件的数量为第一数量以及所述第二等级的保险案件的数量为第二数量;基于所述第一预设数量、第二预设数量、第一数量以及第二数量计算每个所述预设阈值的f1分数,将所述f1分数的最大值对应的所述预设阈值作为目标预设阈值。7.根据权利要求1所述的方法,其特征在于,所述从金融数据库中获取多个已赔付的保险案件作为训练样本,包括:从所述金融数据库中获取赔付金额大于预设金额的保险案件作为所述训练样本。8.一种保险案件的重要性确认装置,其特征在于,包括:样本获取模块,用于从金融数据库中获取多个已赔付的保险案件作为训练样本,所述训练样本包括所述保险案件的预设案件系数、保单信息以及出险信息;特征获取模块,用于基于所述保单信息与所述出险信息获得所述保险案件的静态特征信息以及动态特征信息;特征抽取模块,用于将所述静态特征信息与动态特征信息输入至特征抽取引擎,获取连续的第一数据和离散的第二数据;案件确认模块,用于基于所述第一数据、第二数据以及所述预设案件系数对待训练的决策树分类器进行训练,获取训练完成的所述决策树分类器;其中,所述决策树分类器用于确认所述保险案件的重要性。9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,所述存储器存储有策略模型,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的保险案件的重要性确认方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的保险案件的重要性确认方法。
技术总结
本申请公开了一种保险案件的重要性确认方法、装置、服务器及存储介质,用于解决现有保险案件从出险到确认案件的重要性需要较长的处理周期,响应时效慢的问题。方法包括:从金融数据库中获取多个已赔付的保险案件作为训练样本,基于训练样本中保险案件的保单信息与出险信息获得静态特征信息以及动态特征信息,用于输入至特征抽取引擎,获取连续的第一数据和离散的第二数据。基于第一数据、第二数据以及预设案件系数对待训练的决策树分类器进行训练,训练完成后获取用于确认保险案件的重要性的决策树分类器。能对保险案件的重要性进行精准前置识别,提升理赔大案资源的掌控力度,降低赔付成本,增加前置保费置换,促进理赔端的降本增效。降本增效。降本增效。
技术研发人员:邱谱
受保护的技术使用者:中国平安财产保险股份有限公司
技术研发日:2023.06.29
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
