用户聚类方法、装置、计算机设备和存储介质与流程

未命名 08-14 阅读:85 评论:0


1.本技术涉及大数据技术领域,特别是涉及一种用户聚类方法、装置、计算机设备和存储介质。


背景技术:

2.随着人们的生活水平不断提高,人们对金融产品、理财产品、养老产品和债券产品等产品的需求越来越高,在将这些产品推广给用户的过程中,需要先对用户进行聚类,按照用户所属客群的类别将相应的产品推广给该用户。其中,通常使用聚类算法对用户进行聚类,以得到用户所属客群的结果。
3.聚类算法作为大数据技术领域的重要分支,在许多领域都得到了广泛应用。然而,现有的聚类算法在选取初始聚类中心时都是随机选择的,难以准确获取聚类中心,进而会直接影响最终的聚类结果的准确性。
4.基于此,如何提高聚类结果的准确性成为了亟需解决的技术问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高聚类结果准确性的用户聚类方法、装置、计算机设备和存储介质。
6.第一方面,本技术提供了一种用户聚类方法。所述方法包括:
7.基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;
8.若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;
9.根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;
10.将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类的操作,直至各初始聚类中心的特征值满足所述迭代结束条件,输出对所述用户集的聚类结果。
11.在其中一个实施例中,所述根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心,包括:
12.从各初始聚类中心中选取至少两个备用聚类中心;
13.对各备用聚类中心进行两两组合,得到聚类组;
14.根据所述聚类组中两个备用聚类中心的特征值之间的比较结果,确定所述聚类组中需要移动的备用聚类中心;
15.将所述聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类
中心中除所述目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
16.在其中一个实施例中,所述根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心,包括:
17.根据吸引参数值,以及所述目标聚类中心与关联聚类中心之间的距离,确定所述目标聚类中心与所述关联聚类中心之间的目标吸引值;其中,所述关联聚类中心为所述其他聚类中心中与所述目标聚类中心属于同一聚类组内的聚类中心;
18.根据所述目标吸引值、扰动算子,以及所述目标聚类中心与所述关联聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心。
19.在其中一个实施例中,所述基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值,包括:
20.基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,得到各初始聚类中心对应的聚类结果;
21.根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
22.在其中一个实施例中,所述基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,得到各初始聚类中心对应的聚类结果,包括:
23.获取用户集中每一用户的用户特征对应的特征权重向量;其中,所述用户集中每一用户的用户特征均包括身份维度特征和/或资产维度特征;
24.根据所述特征权重向量,所述用户集中每一用户的用户特征,以及各初始聚类中心,确定各初始聚类中心与每一用户之间的距离;
25.根据各初始聚类中心与每一用户之间的距离,对所述用户集进行聚类,得到各初始聚类中心对应的聚类结果。
26.在其中一个实施例中,所述基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对待聚类的用户集进行聚类,得到各初始聚类中心对应的聚类结果之前,所述方法还包括:
27.对待聚类的用户集中每一用户的用户特征进行检测,确定存在特殊值的用户特征;其中,所述特殊值包括缺失值、异常值和重复值中的至少一种;
28.对存在特殊值的用户特征进行数据清洗。
29.在其中一个实施例中,所述迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值。
30.在其中一个实施例中,所述方法还包括:
31.确定所述当前迭代次数和所述最大迭代次数之间的差值;
32.以常量e为底数,以所述差值与所述最大迭代次数之间的比值为指数,确定所述扰动算子。
33.第二方面,本技术还提供了一种用户聚类装置。所述装置包括:
34.聚类模块,用于基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;
35.判断模块,用于判断各初始聚类中心的特征值是否满足迭代结束条件;
36.迭代模块,用于若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;
37.所述迭代模块,还用于根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;
38.所述迭代模块,还用于将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,并返回运行所述聚类模块;
39.结果输出模块,用于若各初始聚类中心的特征值满足所述迭代结束条件的情况下,则输出对所述用户集的聚类结果。
40.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
41.基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;
42.若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;
43.根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;
44.将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类的操作,直至各初始聚类中心的特征值满足所述迭代结束条件,输出对所述用户集的聚类结果。
45.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
46.基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;
47.若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;
48.根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,更新所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;
49.将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类的操作,直至各初始聚类中心的特征值满足所述迭代结束条件,输出对所述用户集的聚类结果。
50.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
51.基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;
52.若各初始聚类中心的特征值,不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;
53.根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;
54.将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类的操作,直至各初始聚类中心的特征值满足所述迭代结束条件,输出对所述用户集的聚类结果。
55.上述用户聚类方法、装置、计算机设备和存储介质,通过设定迭代结束条件,在各初始聚类中心的特征值不满足迭代结束条件的情况下,对初始聚类中心的位置进行迭代优化,即根据初始聚类中心的特征值之间的关系确定需要移动的初始聚类中心,再根据吸引参数值、扰动算子、目标聚类中心的当前位置,以及目标聚类中心与其他聚类中心之间的距离,确定目标聚类中心对应的下一聚类中心,将下一聚类中心和其他聚类中心作为新的初始聚类中心,继续对用户集进行聚类,进而得到对用户集多次聚类后的最佳聚类结果。相较于现有技术利用随机选取的固定不变的聚类中心对用户进行聚类的方式,上述方案考虑到聚类中心选取对聚类结果的影响,通过不断迭代优化聚类中心,确定最佳聚类中心,进而提高聚类结果的准确性。
附图说明
56.图1为一个实施例中用户聚类方法的应用环境图;
57.图2为一个实施例中用户聚类方法的流程示意图;
58.图3为一个实施例中确定需要移动的聚类中心的流程示意图;
59.图4为一个实施例中更新目标聚类中心的流程示意图;
60.图5为一个实施例中对用户集进行聚类的流程示意图;
61.图6为一个实施例中对用户特征进行数据清洗的流程示意图;
62.图7为另一个实施例中用户聚类方法的流程示意图;
63.图8为一个实施例中用户聚类装置的结构框图;
64.图9为另一个实施例中用户聚类装置的结构框图;
65.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
66.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
67.本技术实施例提供的用户聚类方法,可以应用于需要对用户进行聚类,以根据用户的聚类结果,向用户推送各种产品的情形,例如根据用户的聚类结果,向用户推送养老金
产品的情形。本技术可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。例如,服务器104基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值;若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心;其中,扰动算子根据当前迭代次数和最大迭代次数确定;将下一聚类中心和其他聚类中心作为新的初始聚类中心,返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类的操作,直至各初始聚类中心的特征值满足迭代结束条件,向终端102输出对用户集的聚类结果。数据存储系统可以存储服务器104需要处理的数据,比如,待聚类的用户集、吸引参数值和扰动算子等数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
68.在一个实施例中,如图2所示,提供了一种用户聚类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
69.s202,基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值。
70.其中,初始聚类中心为用于表示某一客群位置中心的点,初始聚类中心可以通过随机选取得到。可选的,每一初始聚类中心均可以采用设定维度的向量来表示;进一步的,初始聚类中心和用户集中每一用户的用户特征属于同一维度的向量。
71.用户特征可以包括用户的多个维度特征,维度特征可以是身份维度特征和/或资产维度特征,身份维度特征用于描述用户的身份信息,资产维度特征用于描述用户的资产的持有或交易信息。
72.可选的,身份维度特征可以是性别代码、年龄分段、教育程度代码、行龄、婚姻状况代码、职业代码、所属单位种类代码、归属地区和单位名称等特征。资产维度特征可以是时点资产、基金持有标志、债券持有标志、存款余额、保险余额、定期存款余额、活期存款余额、跨行转账流入金额、行内融资流入金额、三方支付流入金额、其他流入金额、银证银期银商流出金额、现金存取流出金额、总交易笔数和总交易金额等特征。
73.示例性的,在本实施例中,对于每一用户,按照预设编码方式,对该用户的身份信息或资产信息进行编码,得到用户的多维度特征;进一步的,可以按照设定顺序,对该用户的多维度特征进行拼接,构建一个特征向量;即每一用户的用户特征均可以采用一个特征向量来表示。
74.具体地,基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值,包括:基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果;根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各
初始聚类中心的特征值。例如,可以随机选取至少两个初始聚类中心,基于待聚类的用户集中每一用户的用户特征与各初始聚类中心之间的距离,将用户集中每一用户划分至相关联初始聚类中心对应的客群中,即得到各个初始聚类中心对应的聚类结果。进一步地,根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
75.其中,用户对应的初始聚类中心即用户所属聚类结果对应的初始聚类中心。
76.具体地,根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值可以是,针对每一初始聚类中心,可以计算该初始聚类中心对应的聚类结果中每一用户与该初始聚类中心之间的距离;进一步的,将该初始聚类中心对应的聚类结果中每一用户与该初始聚类中心之间的距离之和,与该初始聚类中心对应的聚类结果中用户数量的比值,作为该初始聚类中心的特征值。即可以通过如下公式(1)来确定该初始聚类中心的特征值:
[0077][0078]
其中,cj为第j个初始聚类中心yj的聚类结果,l(yj)为初始聚类中心yj的特征值,d(xi,yj)为cj中用户xi与聚类中心yj之间的距离,nj为聚类结果cj中用户数量。
[0079]
s204,判断各初始聚类中心的特征值是否满足迭代结束条件,若是,执行s212;若否,则执行s206。
[0080]
其中,迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值。也即,若某个初始聚类中心的特征值小于预设阈值,则执行迭代步骤,迭代步骤为s206至s210。可选的,在本实施例中最大迭代次数和预设阈值的数值均可以任意设置,本技术对此不做具体限定。
[0081]
s206,根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心。
[0082]
可选的,可以通过比较各初始聚类中心的特征值之间的数值大小,从各初始聚类中心中确定需要移动的目标聚类中心和其他聚类中心。
[0083]
s208,根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0084]
其中,吸引参数值可以由最大吸引值和吸收因子决定,最大吸引值和吸收因子为可以自由设定的常数值。
[0085]
可选的,可以通过吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间距离,确定目标聚类中心需要移动的距离,再根据目标聚类中心的当前位置和目标聚类中心需要移动的距离,确定目标聚类中心对应的下一聚类中心。
[0086]
需要说明的是,上述扰动算子是一个动态值,可以根据当前迭代次数和最大迭代次数确定,随着当前迭代次数的不断增大,扰动算子的值也不断减小,进而,能有效解决由于目标聚类中心的随机移动,导致的目标聚类中心在局部最优值或全局最优质附近反复震荡、收敛速度较慢、优化精度降低的问题。进而实现全局最优化,提高聚类精度和结果稳定性。
[0087]
s210,将下一聚类中心和其他聚类中心作为新的初始聚类中心,执行s202。
[0088]
具体地,以下一聚类中心和其他聚类中心作为新的初始聚类中心,基于新的初始聚类中心,继续执行根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类的操作。
[0089]
s212,输出对用户集的聚类结果。
[0090]
其中,输出对用户集的聚类结果,即为待聚类的用户集的最终聚类结果。
[0091]
上述用户聚类方法中,通过设定迭代结束条件,在当前迭代次数和各初始聚类中心的特征值不满足迭代结束条件的情况下,对初始聚类中心的位置进行迭代优化,即根据初始聚类中心的特征值之间的关系确定需要移动的初始聚类中心,再根据吸引参数值、扰动算子、目标聚类中心的当前位置,以及目标聚类中心与其他聚类中心之间的距离,确定目标聚类中心对应的下一聚类中心,将下一聚类中心和其他聚类中心作为新的初始聚类中心,继续对用户集进行聚类,进而得到对用户集多次聚类后的最佳聚类结果。考虑到聚类中心选取对聚类结果的影响,本技术通过不断迭代优化聚类中心,确定最佳聚类中心,进而提高了聚类结果的准确性。
[0092]
需要说明的是,在更新聚类中心的过程中,确定需要移动的聚类中心为必要手段,确定需要移动的聚类中心的方式有很多种,本实施例提供了其中一种确定需要移动的聚类中心的可选方式,可以根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心。如图3所示,实现过程包括以下步骤:
[0093]
s302,从各初始聚类中心中选取至少两个备用聚类中心。
[0094]
具体地,可以从所有初始聚类中心中随机选取至少两个备用聚类中心,例如,总共有5个初始聚类中心,分别为第一初始聚类中心、第二初始聚类中心、第三初始聚类中心、第四初始聚类中心和第五初始聚类中心,随机从所有初始聚类中心中选取3个初始聚类中心,分别是第一初始聚类中心、第三初始聚类中心和第五初始聚类中心,将第一初始聚类中心、第三初始聚类中心和第五初始聚类中心作为备用聚类中心。
[0095]
s304,对各备用聚类中心进行两两组合,得到聚类组。
[0096]
具体地,以第一初始聚类中心、第三初始聚类中心和第五初始聚类中心作为备用聚类中心为例,对备用聚类中心进行两两组合,可以包括将第一初始聚类中心与第五初始聚类中心组合,将第一初始聚类中心与第三初始聚类中心进行组合,以及第三初始聚类中心与第五初始聚类中心进行组合,进而得到三个聚类组。
[0097]
s306,根据聚类组中两个备用聚类中心的特征值之间的比较结果,确定聚类组中需要移动的备用聚类中心。
[0098]
具体地,以第一初始聚类中心和第五初始聚类中心组成的聚类组为例,比较第一初始聚类中心和第五初始聚类中心之间的特征值的大小,移动规则可以是特征值小的需要移动,在第一初始聚类中心的特征值小于第五初始聚类中心的特征值的情况下,确定第一初始聚类中心为需要移动的备用聚类中心,确定第五初始聚类中心为不需要移动的备用聚类中心。
[0099]
s308,将聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
[0100]
具体地,以第一初始聚类中心为需要移动的备用聚类中心,第五初始聚类中心为不需要移动的备用聚类中心为例,将第一初始聚类中心作为目标聚类中心,第五初始聚类
中心作为其他聚类中心。
[0101]
需要说明的是,本实施例通过比较初始聚类中心的特征值之间的关系,确定需要移动的初始聚类中心,便于后续更新聚类中心,提高聚类中心的迭代效率。
[0102]
需要说明的是,聚类中心的选取直接影响到聚类结果的准确性,为了得到准确性更高的聚类结果,需要精准确定最佳聚类中心。可选地,更新聚类中心的方式有多种,本实施提供了其中一种更新聚类中心的方式,具体描述可以参见下述实施例。
[0103]
在上述实施例的基础上,本实施例提供了一种更新目标聚类中心的可选方式,即进一步对s208进行详细解释说明。如图4所示,实现过程包括以下步骤:
[0104]
s402,根据吸引参数值,以及目标聚类中心与关联聚类中心之间的距离,确定目标聚类中心与关联聚类中心之间的目标吸引值。
[0105]
其中,关联聚类中心为其他聚类中心中与目标聚类中心属于同一聚类组内的聚类中心,关联聚类中心即为调整目标聚类中心过程中所需借助的聚类中心,用于指示对目标聚类中心进行调整过程中的调整方向。
[0106]
可选的,吸引参数值可以包括最大吸引值和吸收因子;可以通过以下公式(2)计算目标聚类中心与关联聚类中心之间的目标吸引值目标吸引值:
[0107][0108]
其中,γ吸收因子,β(0)为最大吸引值,β(r)为目标吸引值,r
jl
为目标聚类中心与关联聚类中心之间的距离。
[0109]
进一步的,可以通过以下公式(3)计算目标聚类中心与关联聚类中心之间的距离:
[0110][0111]
其中,yj为目标聚类中心,y
l
为关联聚类中心,y
jm
为目标聚类中心yj的第m个特征,d为用户特征中特征的数量,y
lm
为关联聚类中心y
l
的第m个特征。
[0112]
s404,根据目标吸引值、扰动算子,以及目标聚类中心与关联聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0113]
可选的,确定当前迭代次数和最大迭代次数之间的差值;以常量e为底数,以差值与最大迭代次数之间的比值为指数,确定扰动算子。
[0114]
本实施例中的扰动算子随着当前迭代次数的增大逐步缩小;进一步的,可以通过以下公式(4)计算扰动算子:
[0115][0116]
其中,f为扰动算子,g为当前迭代次数,g
max
为最大迭代次数。
[0117]
进一步的,可以通过以下公式(5)计算目标聚类中心的对应的下一聚类中心:
[0118]yj+1
=yj+f
×
β(r)
×
rand(y
j-y
l
)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0119]
其中,y
j+1
为目标聚类中心对应的下一聚类中心。
[0120]
可以理解的是,本实施例中引入的扰动算子随着当前迭代次数的增大逐步缩小,可以满足计算进行最初期的全局寻找要求,并实现后期的局部搜索要求,从而进一步优化对收敛速度的要求,同时,避免了进入局部总体优化的情况。进而,可以从全局寻找最佳聚
类中心,提高聚类的准确度。
[0121]
示例性的,基于上述公开的实施例,本实施例提供了一种对用户集聚类的可选方式,可以基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。如图5所示,具体实现过程包括以下步骤:
[0122]
s502,获取用户集中每一用户的用户特征对应的特征权重向量。
[0123]
其中,用户集中每一用户的用户特征均包括身份维度特征和/或资产维度特征,特征权重向量中包括用户特征中每个特征对应的权重。特征权重向量、初始聚类中心和用户特征均属于同一维度的向量。
[0124]
s504,根据特征权重向量,用户集中每一用户的用户特征,以及各初始聚类中心确定各初始聚类中心与每一用户之间的距离。
[0125]
具体地,可以通过以下公式(6)计算初始聚类中心与用户之间的距离:
[0126][0127]
其中,w
im
为第i个权重向量wi的第m个元素值,d(xi,yj)为第i个用户xi与第j个初始聚类中心yj之间的距离,x
im
为用户xi的第m个特征,y
jm
为初始聚类中心yj的第m个特征。
[0128]
s506,根据各初始聚类中心与每一用户之间的距离,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。
[0129]
具体地,可以将各个用户划分至与该用户距离最近的初始聚类中心对应的客群中,得到个初始聚类中心对应的聚类结果。
[0130]
需要说明的是,考虑到不同特征对聚类结果的影响,本实施例通过引入特征权重向量,以加强数据属性之间的区分度并减少异常点的影响,进而提高后续聚类的效果。
[0131]
示例性的,基于上述公开的实施例,本实施例提供了一种数据清洗的可选方式,可以在基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对待聚类的用户集进行聚类,得到各初始聚类中心对应的聚类结果之前,对待聚类的用户集进行数据清洗。如图6所示,具体实现过程包括以下步骤:
[0132]
s602,对待聚类的用户集中每一用户的用户特征进行检测,确定存在特殊值的用户特征。
[0133]
其中,特殊值包括缺失值、异常值和重复值中的至少一种。
[0134]
具体地,针对每一个用户的用户特征,可以依次检测用户特征中特征的值是否存在特殊值,并用户特征中为特殊值的特征进行标记,以确定存在特殊值的用户特征。
[0135]
s604,对存在特殊值的用户特征进行数据清洗。
[0136]
具体地,可以对用户特征中的缺失值进行填补处理,可以根据不同类型的特征分别做不同的填补处理,例如,对于标志类特征填补
“‑
1”,以标记为缺失类别;对于交易类特征填补“0”,代表没有交易;对于资产类或贡献类特征填补“0”,代表没有资产记录或没有资产。对用户特征中的异常值进行替换或删除处理;对用户特征中同一个特征的重复值进行删除处理。
[0137]
可以理解的是,本实施例通过对用户特征中的缺失值进行数据清洗处理,以确保用户特征的真实性,进而,保证聚类过程的顺利进行。
[0138]
示例性的,本实施例在上述实施例的基础上,提供了一种可选的实施过程,参见图7所示的另一种用户聚类方法的流程示意图,该过程具体包括以下步骤:
[0139]
s702,基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。
[0140]
s704,根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
[0141]
s706,判断各初始聚类中心的特征值是否满足迭代结束条件;若是,执行s718;若否,则执行s708。
[0142]
s708,从各初始聚类中心中选取至少两个备用聚类中心,对各备用聚类中心进行两两组合,得到聚类组;根据聚类组中两个备用聚类中心的特征值之间的比较结果,确定聚类组中需要移动的备用聚类中心。
[0143]
s710,将聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
[0144]
s712,根据吸引参数值,以及目标聚类中心与关联聚类中心之间的距离,确定目标聚类中心与关联聚类中心之间的目标吸引值;其中,关联聚类中心为其他聚类中心中与目标聚类中心属于同一聚类组内的聚类中心。
[0145]
s714,根据目标吸引值、扰动算子,以及目标聚类中心与关联聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0146]
s716,将下一聚类中心和其他聚类中心作为新的初始聚类中心,返回执行s702。
[0147]
s718,输出对用户集的聚类结果。
[0148]
上述s702-s718的具体过程可以参见上述方法实施例的描述,其实现原理和技术效果类似,在此不再赘述。
[0149]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0150]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的用户聚类方法的用户聚类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户聚类装置实施例中的具体限定可以参见上文中对于用户聚类方法的限定,在此不再赘述。
[0151]
在一个实施例中,如图8所示,提供了一种用户聚类装置,该用户聚类装置800包括:
[0152]
聚类模块810,用于基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值。
[0153]
判断模块820,用于判断各初始聚类中心的特征值是否满足迭代结束条件;其中,迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值。
[0154]
迭代模块830,用于若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心。
[0155]
迭代模块830,还用于根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心;其中,扰动算子根据当前迭代次数和最大迭代次数确定。
[0156]
迭代模块830,还用于将下一聚类中心和其他聚类中心作为新的初始聚类中心,并返回运行聚类模块810。
[0157]
结果输出模块840,用于若各初始聚类中心的特征值满足迭代结束条件的情况下,则输出对用户集的聚类结果。
[0158]
上述用户聚类装置中,通过设定迭代结束条件,在各初始聚类中心的特征值是否满足迭代结束条件的情况下,对初始聚类中心的位置进行迭代优化,根据初始聚类中心的特征值之间的关系确定需要移动的初始聚类中心,再根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心,将下一聚类中心和其他聚类中心作为新的初始聚类中心,继续对用户集进行聚类,得到对用户集多次聚类后的最佳聚类结果。考虑到聚类中心位置选取对聚类结果的影响,本技术通过不断迭代优化聚类中心,得到最佳的聚类中心,进而,利用最佳的聚类中心对用户集中的用户进行聚类,提高聚类结果的准确性。
[0159]
在其中的一个实施例中,迭代模块830包括:第一确定单元831、第二确定单元832和第三确定单元833;
[0160]
其中,第一确定单元831,用于从各初始聚类中心中选取至少两个备用聚类中心;对各备用聚类中心进行两两组合,得到聚类组;根据聚类组中两个备用聚类中心的特征值之间的比较结果,确定聚类组中需要移动的备用聚类中心;将聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
[0161]
第二确定单元832,用于根据吸引参数值,以及目标聚类中心与关联聚类中心之间的距离,确定目标聚类中心与关联聚类中心之间的目标吸引值;其中,关联聚类中心为其他聚类中心中与目标聚类中心属于同一聚类组内的聚类中心;根据目标吸引值、扰动算子,以及目标聚类中心与关联聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0162]
第三确定单元833,用于将下一聚类中心和其他聚类中心作为新的初始聚类中心,并返回运行聚类模块810。
[0163]
在其中的一个实施例中,聚类模块810包括:
[0164]
聚类单元,用于基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果;
[0165]
特征值确定单元,用于根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
[0166]
在其中的一个实施例中,聚类单元,还用于获取用户集中每一用户的用户特征对应的特征权重向量;其中,用户集中每一用户的用户特征均包括身份维度特征和/或资产维度特征;根据特征权重向量,用户集中每一用户的用户特征,以及各初始聚类中心,确定各初始聚类中心与每一用户之间的距离;根据各初始聚类中心与每一用户之间的距离,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。
[0167]
在其中的一个实施例中,用户聚类装置800还包括数据清洗模块,该数据清洗模块用于对待聚类的用户集中每一用户的用户特征进行检测,确定存在特殊值的用户特征;其中,特殊值包括缺失值、异常值和重复值中的至少一种;对存在特殊值的用户特征进行数据清洗。
[0168]
在其中的一个实施例中,用户聚类装置800还包括扰动算子确定模块,该扰动算子确定模块用于确定当前迭代次数和最大迭代次数之间的差值;以常量e为底数,以差值与最大迭代次数之间的比值为指数,确定扰动算子。
[0169]
上述用户聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0170]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待聚类的用户集、迭代条件、吸引参数值、最大迭代次数和扰动算子等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户聚类方法。
[0171]
本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0172]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0173]
基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,确定各初始聚类中心的特征值;
[0174]
若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;其中,迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值;
[0175]
根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心;其中,扰动算子根据当前迭代次数和最大迭代次数确定;
[0176]
将下一聚类中心和其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类的操作,直至各初始聚类中心的特征值满足迭代结束条件,输出对用户集的聚类结果。
[0177]
在一个实施例中,处理器执行计算机程序中根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心的处理逻辑时,还实现以下步骤:从各初始聚类中心中选取至少两个备用聚类中心;对各备用聚类中心进行两两组合,得到聚类组;根据聚类组中两个备用聚类中心的特征值之间的比较结果,确定聚类组中需要移动的备用聚类中心;将聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
[0178]
在一个实施例中,处理器执行计算机程序中根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心的处理逻辑时,还实现以下步骤:根据吸引参数值,以及目标聚类中心与关联聚类中心之间的距离,确定目标聚类中心与关联聚类中心之间的目标吸引值;其中,关联聚类中心为其他聚类中心中与目标聚类中心属于同一聚类组内的聚类中心;根据目标吸引值、扰动算子,以及目标聚类中心与关联聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0179]
在一个实施例中,处理器执行计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值的处理逻辑时,还实现以下步骤:基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果;根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
[0180]
在一个实施例中,处理器执行计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果的处理逻辑时,还实现以下步骤:获取用户集中每一用户的用户特征对应的特征权重向量;其中,用户集中每一用户的用户特征均包括身份维度特征和/或资产维度特征;根据特征权重向量,用户集中每一用户的用户特征,以及各初始聚类中心,确定各初始聚类中心与每一用户之间的距离;根据各初始聚类中心与每一用户之间的距离,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。
[0181]
在一个实施例中,处理器执行计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对待聚类的用户集进行聚类,得到各初始聚类中心对应的聚类结果之前的处理逻辑时,还实现以下步骤:对待聚类的用户集中每一用户的用户特征进行检测,确定存在特殊值的用户特征;其中,特殊值包括缺失值、异常值和重复值中的至少一种;对存在特殊值的用户特征进行数据清洗。
[0182]
在一个实施例中,处理器执行计算机程序中的处理逻辑时,还实现以下步骤:迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值。
[0183]
在一个实施例中,处理器执行计算机程序中的处理逻辑时,还实现以下步骤:确定当前迭代次数和最大迭代次数之间的差值;以常量e为底数,以差值与最大迭代次数之间的比值为指数,确定扰动算子。
[0184]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0185]
基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用
户集进行聚类,并确定各初始聚类中心的特征值;
[0186]
若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;其中,迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值;
[0187]
根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心;其中,扰动算子根据当前迭代次数和最大迭代次数确定;
[0188]
将下一聚类中心和其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类的操作,直至各初始聚类中心的特征值满足迭代结束条件,输出对用户集的聚类结果。
[0189]
在一个实施例中,计算机程序中根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心的处理逻辑被处理器执行时,还实现以下步骤:从各初始聚类中心中选取至少两个备用聚类中心;对各备用聚类中心进行两两组合,得到聚类组;根据聚类组中两个备用聚类中心的特征值之间的比较结果,确定聚类组中需要移动的备用聚类中心;将聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
[0190]
在一个实施例中,计算机程序中根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心的处理逻辑被处理器执行时,还实现以下步骤:根据吸引参数值,以及目标聚类中心与关联聚类中心之间的距离,确定目标聚类中心与关联聚类中心之间的目标吸引值;其中,关联聚类中心为其他聚类中心中与目标聚类中心属于同一聚类组内的聚类中心;根据目标吸引值、扰动算子,以及目标聚类中心与关联聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0191]
在一个实施例中,计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值的处理逻辑被处理器执行时,还实现以下步骤:基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果;根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
[0192]
在一个实施例中,计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果的处理逻辑被处理器执行时,还实现以下步骤:获取用户集中每一用户的用户特征对应的特征权重向量;其中,用户集中每一用户的用户特征均包括身份维度特征和/或资产维度特征;根据特征权重向量,用户集中每一用户的用户特征,以及各初始聚类中心,确定各初始聚类中心与每一用户之间的距离;根据各初始聚类中心与每一用户之间的距离,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。
[0193]
在一个实施例中,计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对待聚类的用户集进行聚类,得到各初始聚类中心对应的聚类结果之前的处理逻辑被处理器执行时,还实现以下步骤:对待聚类的用户集中每一用户的
用户特征进行检测,确定存在特殊值的用户特征;其中,特殊值包括缺失值、异常值和重复值中的至少一种;对存在特殊值的用户特征进行数据清洗。
[0194]
在一个实施例中,计算机程序中的处理逻辑被处理器执行时,还实现以下步骤:确定当前迭代次数和最大迭代次数之间的差值;以常量e为底数,以差值与最大迭代次数之间的比值为指数,确定扰动算子。
[0195]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0196]
基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值;
[0197]
若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;其中,迭代结束条件包括各初始聚类中心的特征值均小于或等于预设阈值;
[0198]
根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心;其中,扰动算子根据当前迭代次数和最大迭代次数确定;
[0199]
将下一聚类中心和其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类的操作,直至各初始聚类中心的特征值满足迭代结束条件,输出对用户集的聚类结果。
[0200]
在一个实施例中,计算机程序中根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心的处理逻辑被处理器执行时,还实现以下步骤:从各初始聚类中心中选取至少两个备用聚类中心;对各备用聚类中心进行两两组合,得到聚类组;根据聚类组中两个备用聚类中心的特征值之间的比较结果,确定聚类组中需要移动的备用聚类中心;将聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。
[0201]
在一个实施例中,计算机程序中根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心的处理逻辑被处理器执行时,还实现以下步骤:根据吸引参数值,以及目标聚类中心与关联聚类中心之间的距离,确定目标聚类中心与关联聚类中心之间的目标吸引值;其中,关联聚类中心为其他聚类中心中与目标聚类中心属于同一聚类组内的聚类中心;根据目标吸引值、扰动算子,以及目标聚类中心与关联聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心。
[0202]
在一个实施例中,计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,并确定各初始聚类中心的特征值的处理逻辑被处理器执行时,还实现以下步骤:基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果;根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。
[0203]
在一个实施例中,计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对用户集进行聚类,得到各初始聚类中心对应的聚类结果的处
理逻辑被处理器执行时,还实现以下步骤:获取用户集中每一用户的用户特征对应的特征权重向量;其中,用户集中每一用户的用户特征均包括身份维度特征和/或资产维度特征;根据特征权重向量,用户集中每一用户的用户特征,以及各初始聚类中心,确定各初始聚类中心与每一用户之间的距离;根据各初始聚类中心与每一用户之间的距离,对用户集进行聚类,得到各初始聚类中心对应的聚类结果。
[0204]
在一个实施例中,计算机程序中基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对待聚类的用户集进行聚类,得到各初始聚类中心对应的聚类结果之前的处理逻辑被处理器执行时,还实现以下步骤:对待聚类的用户集中每一用户的用户特征进行检测,确定存在特殊值的用户特征;其中,特殊值包括缺失值、异常值和重复值中的至少一种;对存在特殊值的用户特征进行数据清洗。
[0205]
在一个实施例中,计算机程序中的处理逻辑被处理器执行时,还实现以下步骤:确定当前迭代次数和最大迭代次数之间的差值;以常量e为底数,以差值与最大迭代次数之间的比值为指数,确定扰动算子。
[0206]
需要说明的是,本技术所涉及的用户信息(包括但不限于待聚类的用户集、用户特征等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0207]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0208]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0209]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种用户聚类方法,其特征在于,所述方法包括:基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,并返回执行基于各初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类的操作,直至各初始聚类中心的特征值满足所述迭代结束条件,输出对所述用户集的聚类结果。2.根据权利要求1所述的方法,其特征在于,所述根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心,包括:从各初始聚类中心中选取至少两个备用聚类中心;对各备用聚类中心进行两两组合,得到聚类组;根据所述聚类组中两个备用聚类中心的特征值之间的比较结果,确定所述聚类组中需要移动的备用聚类中心;将所述聚类组中需要移动的备用聚类中心作为目标聚类中心,以及将各初始聚类中心中除所述目标聚类中心之外的聚类中心作为不需要移动的其他聚类中心。3.根据权利要求2所述的方法,其特征在于,所述根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心,包括:根据吸引参数值,以及所述目标聚类中心与关联聚类中心之间的距离,确定所述目标聚类中心与所述关联聚类中心之间的目标吸引值;其中,所述关联聚类中心为所述其他聚类中心中与所述目标聚类中心属于同一聚类组内的聚类中心;根据所述目标吸引值、扰动算子,以及所述目标聚类中心与所述关联聚类中心之间的距离,调整所述目标聚类中心,得到所述目标聚类中心对应的下一聚类中心。4.根据权利要求1所述的方法,其特征在于,所述基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值,包括:基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,得到各初始聚类中心对应的聚类结果;根据各聚类结果中每一用户与对应的初始聚类中心之间的距离,确定各初始聚类中心的特征值。5.根据权利要求4所述的方法,其特征在于,所述基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,得到各初始聚类中心对应的聚类结果,包括:获取用户集中每一用户的用户特征对应的特征权重向量;其中,所述用户特征均包括身份维度特征和/或资产维度特征;
根据所述特征权重向量,所述用户集中每一用户的用户特征,以及各初始聚类中心,确定各初始聚类中心与每一用户之间的距离;根据各初始聚类中心与每一用户之间的距离,对所述用户集进行聚类,得到各初始聚类中心对应的聚类结果。6.根据权利要求1所述的方法,其特征在于,所述基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对待聚类的用户集进行聚类之前,所述方法还包括:对待聚类的用户集中每一用户的用户特征进行检测,确定存在特殊值的用户特征;其中,所述特殊值包括缺失值、异常值和重复值中的至少一种;对存在特殊值的用户特征进行数据清洗。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述当前迭代次数和所述最大迭代次数之间的差值;以常量e为底数,以所述差值与所述最大迭代次数之间的比值为指数,确定所述扰动算子。8.一种用户聚类装置,其特征在于,所述装置包括:聚类模块,用于基于至少两个初始聚类中心,根据待聚类的用户集中每一用户的用户特征,对所述用户集进行聚类,并确定各初始聚类中心的特征值;判断模块,用于判断各初始聚类中心的特征值是否满足迭代结束条件;迭代模块,用于若各初始聚类中心的特征值不满足迭代结束条件,则根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;所述迭代模块,还用于根据吸引参数值、扰动算子,以及所述目标聚类中心与所述其他聚类中心之间的距离,调整目标聚类中心,得到所述目标聚类中心对应的下一聚类中心;其中,所述扰动算子根据当前迭代次数和最大迭代次数确定;所述迭代模块,还用于将所述下一聚类中心和所述其他聚类中心作为新的初始聚类中心,并返回运行所述聚类模块;结果输出模块,用于各初始聚类中心的特征值满足所述迭代结束条件的情况下,则输出对所述用户集的聚类结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种用户聚类方法、装置、计算机设备和存储介质,涉及大数据技术领域。方法包括:在不满足迭代结束条件的情况下,根据各初始聚类中心的特征值,从各初始聚类中心中确定需要移动的目标聚类中心和不需要移动的其他聚类中心;根据吸引参数值、扰动算子,以及目标聚类中心与其他聚类中心之间的距离,调整目标聚类中心,得到目标聚类中心对应的下一聚类中心;将下一聚类中心和其他聚类中心作为新的初始聚类中心,返回执行基于各初始聚类中心,对待聚类的用户集进行聚类的操作,直至满足迭代结束条件,输出对用户集的聚类结果。本申请提高了聚类的稳定性,以及聚类结果的准确性。以及聚类结果的准确性。以及聚类结果的准确性。


技术研发人员:任恺琦 胡思远 刘亚如 叶裕洋
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.04.28
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐