客户流失预警归因方法、装置、计算机设备及存储介质与流程
未命名
07-18
阅读:168
评论:0
1.本发明实施例涉及信息技术领域,尤其涉及一种客户流失预警归因方法、装置、计算机设备及存储介质。
背景技术:
2.随着科技的不断发展,同行业之间的竞争压力越来越大,每个运营商都在面对客户流失的问题,大量的客户流失不仅会影响每个运营商的盈亏,让运营商蒙受巨大损失,也关系着整个行业的发展。因此,存量客户的维系与保持逐渐成为国内主流移动运营商关注的焦点。
3.如何精准实现客户流失预警、分析客户流失原因成为亟待解决的问题。
技术实现要素:
4.鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种客户流失预警归因方法、装置、计算机设备及存储介质。
5.第一方面,本发明实施例提供一种客户流失预警归因方法,包括:
6.获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;
7.对所述多个样本数据集进行特征工程处理;
8.利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;
9.基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。
10.在一个可能的实施方式中,所述方法还包括:
11.所述获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集,包括:
12.检测所述全部客户的通信数据中的异常数据,对所述异常数据进行数据清洗,得到符合算法要求的正常数据;
13.将所述已流失的客户对应的通信数据作为正样本数据集;
14.将所述未流失的客户对应的通信数据分为负样本数据集和预测样本数据集。
15.在一个可能的实施方式中,所述方法还包括:
16.获取多个样本数据集的分类变量,将所述分类变量采用独热编码表示;
17.通过第一公式对所述独热编码表示的分类变量进行归一化处理,所述第一公式为:
18.其中,x
′
为归一化后的值,x为归一化前的值,max(x)为该字段下的最大值,min(x)为该字段下的最小值;
19.采用皮尔逊相关系数对归一化处理后的分类变量进行特征关联性计算,计算公式
为第二公式:p
x,y
=cov(x,y)/(σ
x
σy);
20.其中,两个变量之间的皮尔逊相关系数为p
x,y
,cov(x,y)为两个变量的协方差,(σ
x
σy)为标准差;
21.基于所述皮尔逊相关系数对分类变量进行特征压缩。
22.在一个可能的实施方式中,所述方法还包括:
23.在正样本数据集和负样本数据集的集合中选取部分数据作为模型训练样本,其余部分作为模型测试样本;
24.基于所述模型训练样本和所述模型测试样本对xgboost模型进行训练,直至xgboost模型的输出结果满足预设条件,确定xgboost模型训练完成。
25.在一个可能的实施方式中,所述方法还包括:
26.通过训练完成的xgboost模型对所述模型测试样本进行预测,通过预测结果为流失的客户数据集训练shap模型;
27.通过所述shap模型对每个模型测试样本计算对应的预测值,得到shap矩阵;
28.基于所述shap矩阵确定预测结果为流失的客户的多个影响因素,并对多个影响因素进行woe编码;
29.基于每个影响因素对应的woe编码值量化客户流失原因特征区间。
30.在一个可能的实施方式中,所述方法还包括:
31.将所述预测样本数据集输入至训练完成的xgboost模型中,以使所述xgboost模型对所述预测样本数据集进行打标,其中,预测未流失客户标记为0,预测流失客户标记为1;
32.将标记为1的预测样本数据集利用shap模型筛选出预测为流失客户的多个重要特征;
33.对所述多个重要特征进行woe编码;
34.基于所述woe编码以及客户流失原因特征区间,确定客户流失原因。
35.在一个可能的实施方式中,所述方法还包括:
36.基于所述客户流失原因,对预测为流失的客户进行客户维系与挽留处理。
37.第二方面,本发明实施例提供一种客户流失预警归因装置,包括:
38.获取模块,用于获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;
39.处理模块,用于对所述多个样本数据集进行特征工程处理;
40.训练模块,用于利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;
41.预测模块,用于基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。
42.第三方面,本发明实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的客户流失预警归因程序,以实现上述第一方面中所述的客户流失预警归因方法。
43.第四方面,本发明实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中所述的客户流失预警归因方法。
44.本发明实施例提供的客户流失预警归因方案,通过获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;对所述多个样本数据集进行特征工程处理;利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。相比于现有技术中还没有精准实现客户流失预警、分析客户流失原因的技术,由本方案,引入人工智能中的xgboost算法,挖掘客户流失潜在倾向,提升数据预测准确性,引入shap模型结合woe编码方法,完成客户流失原因识别,从而为企业有针对性地开展客户维系与挽留工作提供科学的参考和依据。
附图说明
45.图1为本发明实施例提供的一种客户流失预警归因方法的流程示意图;
46.图2为本发明实施例提供的另一种客户流失预警归因方法的流程示意图;
47.图3为本发明实施例提供的一种模型预测中重要特征影响力解释图;
48.图4为本发明实施例提供的一种模型预测中单个预测生成解释图;
49.图5为本发明实施例提供的一种客户流失预警归因装置的结构示意图;
50.图6为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
51.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
52.为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
53.图1为本发明实施例提供的一种客户流失预警归因方法的流程示意图,如图1所示,该方法具体包括:
54.s11、获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集。
55.本发明实施例优先适用于运营商行业,根据运营商数据仓库存储的数据,输出内容包括客户流失的显著指标及流失原因,显著指标包括但不限于:上月是否出账、上月是否活跃、近一月的语音总量、近一月的流量总量、近一月的语音量使用量波动、近一月的流量使用量波动、过去3周语音使用量环比、过去3周流量使用量环比、近三个月计费收入、现金预存款余额、入网时长、所属基站等指标,以及通过已训练的客户流失预警模型计算客户流失概率,若预测概率大于设定阈值,则设定该客户为流失客户,再通过shap模型筛选影响每个客户流失的重要特征,最后通过对原始数据利用woe分箱量化特征的不同取值对流失的影响,并进行业务解读。
56.首先,进行业务理解与建模思路梳理,本建模是一个二分类分类器的训练过程,目的是为了区分客户是否为流失客户,并通过shap模型和woe分箱对预测的流失客户进行流失归因。本建模主要从客户的通信数据出发,利用xgboost与shap模型对数据进行训练得到
客户流失预警归因模型并对预测的流失用户进行归因分析。
57.进一步的,获取全部客户的通信数据,全部客户包括已流失的客户和未流失的客户,在进行建模前必须对数据质量进行全面的稽核,对异常值、离群值、缺失值进行纠正、填充,保证建模数据的纯度。异常值定义为含有不符合该字段下同一量纲或同一类型的值(例如,具体流量中出现汉字等情况),离群值定义为字段下出现极大或极小且影响数据正态分布为严重偏态的值,缺失值为采集失败或数据录入失败等问题造成的数据空值。异常值处理:使用众数替换。离群值处理:连续变量,利用盖帽法去除高于85%分位数值的极端值。缺失值处理:类别变量用众数填充,连续型变量用0、均值、中位数填充。进而得到三类数据,包括正样本数据集、负样本数据集、预测样本数据集。其中,正样本数据集具体口径定义为已流失的客户,负样本数据集具体口径定义为未流失的客户,预测样本数据集具体口径为未有明确定义,需要模型预测给出结果的目标客户。
58.s12、对所述多个样本数据集进行特征工程处理。
59.本发明实施例中,需要对大量特征进行归一化处理,衍生变量加工,同类项特征剔除,无影响特征剔除等操作。
60.具体的,获取多个样本数据集的分类变量,将分类变量采用独热编码表示,独热编码是分类变量作为二进制向量的表示。首先要求将分类值映射到整数值;然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
61.归一化处理实现特征去量纲,衍生变量加工实现潜在特征挖掘,同类项特征剔除实现高相似性特征删减,无影响特征剔除实现无用特征不入模。
62.进一步的,通过第一公式对独热编码表示的分类变量进行归一化处理,第一公式为:
[0063][0064]
其中,x
′
为归一化后的值,x为归一化前的值,max(x)为该字段下的最大值,min(x)为该字段下的最小值。
[0065]
进一步的,相关性分析采用皮尔逊相关系数实现特征关联性计算,识别出具有高相关的特征,特征工程中使用高相关性特征组只保留一项实现特征压缩。采用皮尔逊相关系数对归一化处理后的分类变量进行特征关联性计算,计算公式为第二公式:
[0066]
p
x,y
=cov(x,y)/(σ
x
σy)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0067]
其中,两个变量之间的皮尔逊相关系数为p
x,y
,cov(x,y)为两个变量的协方差,(σ
x
σy)为标准差;基于皮尔逊相关系数对分类变量进行特征压缩。
[0068]
s13、利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型。
[0069]
基于特征工程处理后的多个样本数据集构建xgboost模型,并通过训练确定最终参数。
[0070]
具体的,学习样本为正样本数据集和负样本数据集的集合,并从集合中可以随机选取80%数据作为模型训练样本,剩余20%作为模型测试样本,设x为客户特征集合(包括:上月是否出账、上月是否活跃、近一月的语音总量、近一月的流量总量等信息),y为是否流失,给定训练数据集为d={(x1,y1),(x2,y2),
…
,(xs,ys)},其中xi=(x
i(1)
,x
i(2)
,
…
,x
i(p)
)为
输入实例,p为特征个数,i=1,2,
…
,s,s为样本个数。
[0071]
将样本输入到xgboost模型中进行计算。xgboost模型训练过程中的核心在于不断地添加树,其中每次添加一棵树,本质是学习一个新函数,来拟合上次预测的残差。它是gbdt算法上的改进,可自动调用cpu进行多线程并行计算,并且能够达到更高的精度。传统的gbdt方法只利用了一阶导数,xgboost则是对损失函数做了二阶的泰勒展开,为权衡目标函数的下降和模型的复杂程度,在目标函数之外加入了正则项,整体求最优解,避免过拟合。其步骤如下:
[0072]
(1)给定s个样本,p个特征的数据集d={(xi,yi)}(|d|=s,xi∈r,yi∈r),提升树模型采用k次迭代的结果作为输出结果。对于第i个样本xi的输出为表达式为:
[0073][0074]
(2)目标函数定义如下:
[0075][0076][0077]
式(5)中,代表损失函数,代表正则化项。其中,yi为真实值,为预测输出,t为树叶子节点数,θj为叶子权重值,γ为叶子树惩罚正则项,具有剪枝作用,λ为子权重惩罚正则项。
[0078]
(3)xgboost采用梯度提升策略,保留已经有的模型,一次添加一个新的回归树到模型中,假设第i个样本在第t轮迭代的预测结果为f
t
(xi)为加入的新的回归树,可得如下推导过程:
[0079][0080][0081][0082][0083][0084]
(4)将式(k=1)(6)结果代入式(4)得到:
[0085][0086]
(5)将目标(i=1)函数做二阶泰勒展开,且引入正则项:
[0087][0088]
特别在式(8)中:定义代入式(8),则式(8)简化为:
[0089][0090]
在式(9)中,叶子节点θj是一个不确定的值。故目标函数obj
(t)
对θj求一阶导数,解出叶子节点j的最优值
[0091][0092]
将代回目标函数,obj
(t)
取得最小值:
[0093][0094]
通过以上方式,不断迭代出最优参数,并将最优参数带入到后续的模型测试中。
[0095]
建模所用编程语言为python,所用到的库有pandas、numpy、sklearn等。在训练样本上构建模型,在测试样本上通过准确率、召回率、精确率、f1值等模型评估指标对模型的准确性和有效性进行评估,择优保存。最后利用保存的最优模型对需预测数据进行预测输出。
[0096]
进一步的,对测试集中预测为流失的客户数据集上构建shap模型。所有的特征都视为“贡献者”,对于每个预测样本,模型都产生一个预测值,shap value就是该样本中每个特征所分配到的数值。
[0097]
假设第i个样本为xi,第i个样本的第j个特征为x
ij
,模型对该样本的预测值为yi,整个模型的基线(通常是所有样本的目标变量的均值)为y
base
,那么shap value服从以下等式:
[0098]
yi=y
base
+f(x
i1
)+f(x
i2
)+...+f(x
ik
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0099]
其中,f(x
ij
)为x
ij
的shap值。直观上看,f(x
i1
)就是第i个样本中第1个特征对最终预测值yi的贡献值,当f(x
i1
)>0,说明该特征提升了预测值,起到了正向作用;反之,说明该特征使得预测值降低,有反作用。
[0100]
通过以上方式,可计算出每个样本下的每个特征的shap值,构建出shap矩阵。通过shap矩阵可得到每个流失客户被预测为流失时影响最大的前三个因素,增强模型的可解释性。其中,每个流失客户的第i个特征shap值占比如公式(13)所示,shap value ratei为第i
个特征在整体shap中的比值。
[0101][0102]
使用woe分析每个因素的不同取值对预测结果的影响程度,进一步完成流失归因。对每个流失客户导致其发生流失最重要的前三个因素进行woe编码,某个特征经woe编码后,某区间内的woe值越大,表示该特征取值落在该区间内越可能导致流失。由此可以分析出哪些重要特征的取值达到哪些范围有可能导致流失,从而量化流失原因。woe编码是信用评分模型常用的一种编码方法,其基本原理为:对于某个重要特征(连续特征先分箱,推荐使用卡方分箱或者基于决策树的分箱),如公式(14)所示。
[0103][0104]
其中i表示变量的第i个分箱(也即第i个取值),即一个变量的每个分箱都有一个woe值,bi是第i箱中没有坐落在该区域的数量,gi是第i箱中坐落在该区域的数量,b
t
是总共没有坐落在该区域的数量,g
t
是总共坐落在该区域的数量。
[0105]
s14、基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。
[0106]
根据xgboost模型的预测结果对测试集数据进行打标,未流失客户标记为0,流失客户标记为1;再利用shap矩阵筛选出预测为流失客户的前三个重要特征与woe编码后的特征区间量化结果结合对流失客户归因。基于客户流失原因,对预测为流失的客户进行客户维系与挽留处理。
[0107]
本发明实施例支持企业数据仓库数据,实现数据处理及特征工程,xgboost预测模型,shap矩阵筛选特征并结合woe编码对流失客户进行归因分析,支撑及时发现流失客户并及时派单工作开展。
[0108]
本发明实施例提供的客户流失预警归因方法,通过获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;对所述多个样本数据集进行特征工程处理;利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。相比于现有技术中还没有精准实现客户流失预警、分析客户流失原因的技术,由本方法,引入人工智能中的xgboost算法,挖掘客户流失潜在倾向,提升数据预测准确性,引入shap模型结合woe编码方法,完成客户流失原因识别,从而为企业有针对性地开展客户维系与挽留工作提供科学的参考和依据。
[0109]
图5示出了本发明实施例的一种客户流失预警归因装置的结构示意图。如图5所示,该装置包括:
[0110]
获取模块501,用于获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
[0111]
处理模块502,用于对所述多个样本数据集进行特征工程处理。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
[0112]
训练模块503,用于利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型。详细说明参见上述方法实施例对应的相关描述,此处
不再赘述。
[0113]
预测模块504,用于基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
[0114]
本发明实施例提供的客户流失预警归因装置,用于执行上述实施例提供的客户流失预警归因方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
[0115]
图6示出了本发明实施例的一种计算机设备,如图6所示,该计算机设备可以包括处理器601和存储器602,其中处理器601和存储器602可以通过总线或者其他方式连接,图6中以通过总线连接为例。
[0116]
处理器601可以为中央处理器(central processing unit,cpu)。处理器601还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0117]
存储器602作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中所提供方法所对应的程序指令/模块。处理器601通过运行存储在存储器602中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
[0118]
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器601所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至处理器601。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0119]
一个或者多个模块存储在存储器602中,当被处理器601执行时,执行上述方法实施例中的方法。
[0120]
上述计算机设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
[0121]
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
[0122]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
技术特征:
1.一种客户流失预警归因方法,其特征在于,包括:获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;对所述多个样本数据集进行特征工程处理;利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。2.根据权利要求1所述的方法,其特征在于,所述全部客户包括:已流失的客户和未流失的客户;所述获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集,包括:检测所述全部客户的通信数据中的异常数据,对所述异常数据进行数据清洗,得到符合算法要求的正常数据;将所述已流失的客户对应的通信数据作为正样本数据集;将所述未流失的客户对应的通信数据分为负样本数据集和预测样本数据集。3.根据权利要求2所述的方法,其特征在于,所述对所述多个样本数据集进行特征工程处理,包括:获取多个样本数据集的分类变量,将所述分类变量采用独热编码表示;通过第一公式对所述独热编码表示的分类变量进行归一化处理,所述第一公式为:其中,x
′
为归一化后的值,x为归一化前的值,max(x)为该字段下的最大值,min(x)为该字段下的最小值;采用皮尔逊相关系数对归一化处理后的分类变量进行特征关联性计算,计算公式为第二公式:p
x,y
=cov(x,y)/(σ
x
σ
y
);其中,两个变量之间的皮尔逊相关系数为p
x,y
,cov(x,y)为两个变量的协方差,(σ
x
σ
y
)为标准差;基于所述皮尔逊相关系数对分类变量进行特征压缩。4.根据权利要求3所述的方法,其特征在于,所述利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型,包括:在正样本数据集和负样本数据集的集合中选取部分数据作为模型训练样本,其余部分作为模型测试样本;基于所述模型训练样本和所述模型测试样本对xgboost模型进行训练,直至xgboost模型的输出结果满足预设条件,确定xgboost模型训练完成。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:通过训练完成的xgboost模型对所述模型测试样本进行预测,通过预测结果为流失的客户数据集训练shap模型;通过所述shap模型对每个模型测试样本计算对应的预测值,得到shap矩阵;基于所述shap矩阵确定预测结果为流失的客户的多个影响因素,并对多个影响因素进行woe编码;
基于每个影响因素对应的woe编码值量化客户流失原因特征区间。6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因,包括:将所述预测样本数据集输入至训练完成的xgboost模型中,以使所述xgboost模型对所述预测样本数据集进行打标,其中,预测未流失客户标记为0,预测流失客户标记为1;将标记为1的预测样本数据集利用shap模型筛选出预测为流失客户的多个重要特征;对所述多个重要特征进行woe编码;基于所述woe编码以及客户流失原因特征区间,确定客户流失原因。7.根据权利要去6所述的方法,其特征在于,所述方法还包括:基于所述客户流失原因,对预测为流失的客户进行客户维系与挽留处理。8.一种客户流失预警归因装置,其特征在于,包括:获取模块,用于获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;处理模块,用于对所述多个样本数据集进行特征工程处理;训练模块,用于利用xgboost模型与shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;预测模块,用于基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。9.一种计算机设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的客户流失预警归因程序,以实现权利要求1~7中任一项所述的客户流失预警归因方法。10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的客户流失预警归因方法。
技术总结
本发明实施例涉及一种客户流失预警归因方法、装置、计算机设备及存储介质,包括:获取全部客户的通信数据,并对所述通信数据进行数据清洗,得到多个样本数据集;对所述多个样本数据集进行特征工程处理;利用XGBoost模型与Shap模型基于特征工程处理后的多个样本数据集训练客户流失预警归因模型;基于训练好的客户流失预警归因模型对待测客户进行流失预警并预测流失原因。由此,引入人工智能中的XGBoost算法,挖掘客户流失潜在倾向,提升数据预测准确性,引入Shap模型结合woe编码方法,完成客户流失原因识别,从而为企业有针对性地开展客户维系与挽留工作提供科学的参考和依据。展客户维系与挽留工作提供科学的参考和依据。展客户维系与挽留工作提供科学的参考和依据。
技术研发人员:苟昱辰 周钰 张菁菁 王孝天 王燕 刘文涛 孔宁江
受保护的技术使用者:中通服公众信息产业股份有限公司
技术研发日:2023.03.21
技术公布日:2023/7/17
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种消火栓的制作方法 下一篇:待填充的冰棒的制作方法
