一种聚类方法、装置、设备及存储介质与流程
未命名
07-15
阅读:86
评论:0
1.本发明涉及数据分析技术领域,特别涉及一种聚类方法、装置、设备及存储介质。
背景技术:
2.聚类方法是按照某种特定标准将数据分割成不同的簇,使得簇内的数据相似性高,且簇间的数据相似性低,常用聚类方法有系统聚类、层次聚类k-means等。聚类过程通常首先是数据准备,即数据预处理及特征标准化等;然后是特征选择,包括方差过率、相关性过滤等;然后是特征工程,即特征创造等;最后基于距离相似度度量构建簇,以得到聚类结果。通常依据经验进行特征转换生成新特征,再投入聚类,该处理方式没有考虑特征间的非线性关系,无法发挥特征间的混合作用,降低了聚类效果。
技术实现要素:
3.有鉴于此,本发明的目的在于提供一种聚类方法、装置、设备及介质,能够充分考虑特征间的非线性关系,提高聚类效果。其具体方案如下:
4.第一方面,本技术公开了一种聚类方法,包括:
5.利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;
6.将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;
7.将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。
8.可选的,所述利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型,包括:
9.基于梯度提升树模型和编码器构建初始模型;所述编码器用于将所述梯度提升树模型中样本落在决策树上目标叶子节点的位置信息转换为0-1编码量级的编码信息;
10.利用带分类标签的样本数据对所述初始模型进行训练,以得到梯度提升树编码模型;所述梯度提升树编码模型的输出为0-1编码量级的编码数据。
11.可选的,所述目标距离计算公式为基于梯度提升树编码模型中决策树的权重系数、交叉特征对应的叶子节点和示性函数构建的距离计算公式。
12.可选的,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类,包括:
13.根据待分类数据和初始聚类中心分别对应的交叉特征,利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离;
14.选择最短距离对应的初始聚类中心作为所述带分类数据的聚类中心。
15.可选的,所述利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离,包括:
16.利用示性函数确定所述待分类数据对应的交叉特征与初始聚类中心的交叉特征之间不同的叶子节点个数;
17.将所述不同的叶子节点个数与所述梯度提升树编码模型中决策树的权重系数的乘积,作为所述待分类数据与初始聚类中心之间的距离。
18.可选的,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类的过程中,还包括:
19.利用所述目标距离计算公式分别计算每个聚类内不同样本之间的距离,并根据计算得到的距离判断是否存在符合聚类中心重选条件的目标分类;
20.若存在符合聚类中心重选条件的目标分类,则根据计算得到的距离为所述目标分类重新选择聚类中心。
21.可选的,所述根据计算出的距离对所述待分类数据进行聚类之后,还包括:
22.通过比对所述带分类标签的样本数据和所述待分类数据的聚类结果,为所述待分类数据的每个聚类添加对应的分类标签;所述待分类数据的数据量远大于所述带分类标签的样本数据的数据量。
23.第二方面,本技术公开了一种聚类装置,包括:
24.模型训练模块,用于利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;
25.特征提取模块,用于将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;
26.距离计算模块,用于将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。
27.第三方面,本技术公开了一种电子设备,包括:
28.存储器,用于保存计算机程序;
29.处理器,用于执行所述计算机程序,以实现前述的聚类方法。
30.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现前述的聚类方法。
31.本技术中,利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。可见,基于梯度提升树编码模型进行特征融合编码,自动地处理数据间的非线性关系,构造得到交叉特征输入聚类模型,在利用目标距离计算公式计算不同交叉特征之间的距离,最后根据计算出的距离对待分类数据进行聚类,能够充分考虑特征间的非线性关系,提高聚类效果。
附图说明
32.为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图获得其他的附图。
33.图1为本技术提供的一种聚类方法流程图;
34.图2为本技术提供的一种具体的不同样本编码对比示意图;
35.图3为本技术提供的一种聚类装置结构示意图;
36.图4为本技术提供的一种电子设备结构图。
具体实施方式
37.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.相关技术中,聚类过程通常首先为数据准备,即数据预处理及特征标准化等;然后为特征选择,包括方差过率、相关性过滤等;然后为特征工程,即特征创造等;最后基于距离相似度度量构建簇,以得到聚类结果。通常依据经验进行特征转换生成新特征,再投入聚类,该处理方式没有考虑特征间的非线性关系,无法发挥特征间的混合作用,降低了聚类效果。为克服上述技术问题,本技术提出一种聚类方法,能够充分考虑特征间的非线性关系,提高聚类效果。
39.本技术实施例公开了一种聚类方法,参见图1所示,该方法可以包括以下步骤:
40.步骤s11:利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型。
41.本实施例中,首先获取带分类标签的样本数据,即已经分过类的且添加了对应的类别标签的样本数据,然后利用这些带分类标签的样本数据对基于梯度提升树(gbdt,gradient boosting decision tree)模型和编码器构建的初始模型进行训练,训练得到梯度提升树编码模型。
42.可以理解的是,梯度提升树理解为梯度提升加决策树,梯度提升树算法的核心在于每一棵树学习之前所有树结论的残差,残差其实就是真实值和预测值之间的差值,在学习的过程中,首先学习一颗回归树,然后根据真实值与预测值得到残差,再把残差作为一个学习目标,学习下一棵回归树,依次类推,直到残差小于某个接近0的阀值或回归树数目达到某一阀值,单一的梯度提升树模型输出的是k分类概率;本实施例中通过利用编码器根据梯度提升树模型内数据在决策树上的位置,将数据在决策树上的位置的特征转换为编码,得到以数据为输入以编码形式的特征为输出的梯度提升树编码模型。其中,所述梯度提升树编码模型的输出可以为0-1编码量级的编码数据,即通过定义梯度提升树编码模型的输出为one-hot编码,简化特征为0-1量级,针对削减聚类过程的计算量,提高后续计算的简便程度,进而提高聚类的效率。
43.本实施例中,所述利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型,可以包括:基于梯度提升树模型和编码器构建初始模型;所述编码器用于将所述梯度提升树模型中样本落在决策树上目标叶子节点的位置信息转换为0-1编码量级的编码信息;利用带分类标签的样本数据对所述初始模型进行训练,以得到梯度提升树编码模型。即具体根据梯度提升树模型中样本数据落在
决策树上目标叶子节点的位置,构造样本数据对应的0-1编码量级的样本编码。
44.例如,设获得数据集其中,xi表征样本数据,yi表征对应的类别标签,记少量带分类标签的样本数据为d
l
,数据d
l
作为训练数据,利用该训练数据和损失函数对梯度提升树模型进行训练:
[0045][0046]
其中,f为梯度提升树模型,l为损失函数。
[0047]
当梯度提升树模型训练好后,迁移知识转化模型f
→
g,g为梯度提升树编码模型,梯度提升树编码模型输出的并非最终的k分类概率,而是根据梯度提升树模型内每棵树所预测样本落在叶子节点的位置,构造的0-1量级样本数据。例如,假设g有t棵树,每棵树有p个叶子节点,第i棵树第j个节点记为l
i,j
,则任意样本能够表示为长度为t
×
p的0-1向量;具体的,可以在叶子节点贮存样本时,将该叶子节点标记为1,否则,标记为0;或者,在叶子节点贮存样本时,将该叶子节点标记为0,否则,标记为1。
[0048]
以g有5棵树,每棵树有4个叶子节点,且在叶子节点贮存样本时将该叶子节点标记为1,否则标记为0的情况为例。此时任意样本为长度为20的0-1向量,若某样本分别落在叶子节点l
1,2
,l
2,1
,l
3,4
,l
4,1
,l
5,2
,则样本编码为:(0,1,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,1,0,0),即l
1,2
表示为(0,1,0,0),l
2,1
表示为(1,0,0,0),l
3,4
表示为(0,0,0,1),l
4,1
表示为(1,0,0,0,0),l
5,2
表示为(0,1,0,0)。由此,利用编码根据每棵树所预测样本落在叶子节点的位置,得到样本编码;并且,采用0-1编码量级,简化新特征。
[0049]
步骤s12:将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征。
[0050]
本实施例中,得到梯度提升树编码模型后,将无分类标签的待分类数据输入至梯度提升树编码模型,以得到待分类数据对应的0-1编码形式的交叉特征,即样本编码。可以理解的是,上述无分类标签的待分类数据与上述带分类标签的样本数据属于同源独立同分布数据,且实际使用中利用少量的带分类标签的样本数据进行模型训练,在利用训练得到的梯度提升树编码模型对大量的待分类数据进行预测,记待分类数据为du,使用模型g转化待分类数据du,得到0-1量级的交叉特征dg,dg=g(du),即非线性组合。
[0051]
步骤s13:将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。
[0052]
本实施例中,将得到的交叉特征输入至聚类模型,聚类模型通过预设的目标距离计算公式计算不同交叉特征之间的距离,上述目标距离计算公式为根据所述交叉特征的特点构建的距离计算公式,最后根据计算出的距离对待分类数据进行聚类。可见针对相关技术中没有考虑特征间的非线性关系及处理不充分,本实施例中主要基于gbdt有监督学习获取数据经验,迁移知识并建立梯度提升树编码模型,构造具有特征交叉、0-1量级的新特征,输入聚类模型。聚类模型中包含根据0-1编码量级和梯度提升树模型理论搭建的,用于计算样本间距离的目标距离计算公式。
[0053]
本实施例中,所述目标距离计算公式可以为基于梯度提升树编码模型中决策树的权重系数、交叉特征对应的叶子节点和示性函数构建的距离计算公式。定义距离度量,上述目标距离计算公式为:
[0054][0055]
即对任意两个样本s和t,样本间的距离为h(s,t),其中,l
i,j
(s)表征样本s的样本编码,l
i,j
(t)表征样本t的样本编码,τ为示性函数。例如取
[0056]
因梯度提升树以拟合残差的形式构建模型,前方树的系数权重较高,设置树的系数权重系数w1,w2,...,w
t
,则w1>w2>...>w
t
,例如取w1=1.8,w2=1.5,w3=1.0,w4=0.7,w5=0.4,τ(l
i,j
(s),l
i,j
(t))表示两个样本的之间叶子不同的个数,如图2所示,两个样本a和b之间叶子不同的个数为2,样本距离即为两个叶子之间不同的个数与树的系数权重的积。
[0057]
本实施例中,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类,可以包括:选取预设数目个初始中心,并基于所述初始中心和所述目标距离计算公式定义损失函数;通过目标距离计算公式计算不同所述交叉特征之间的距离,并反复迭代直至所述损失函数收敛时得到所述待分类数据的聚类结果。例如,选取k个初始中心:定义损失函数:
[0058][0059]
重复迭代,直到损失函数j收敛或主动停止。
[0060]
本实施例中,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类,可以包括:根据待分类数据和初始聚类中心分别对应的交叉特征,利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离;选择最短距离对应的初始聚类中心作为所述带分类数据的聚类中心。即对于每一个样本xi,将其分配到距离最近的中心,待分类数据与初始聚类中心之间的距离为:
[0061][0062]
即通过计算待分类数据与每个初始聚类中心之间的距离,将待分类数据分配到距离最近的聚类中心。
[0063]
本实施例中,所述利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离,可以包括:利用示性函数确定所述待分类数据对应的交叉特征与初始聚类中心的交叉特征之间不同的叶子节点个数;将所述不同的叶子节点个数与所述梯度提升树编码模型中决策树的权重系数的乘积,作为所述待分类数据与初始聚类中心之间的距离。即首先通过目标距离计算公式中τ(l
i,j
(s),l
i,j
(t))确定待分类数据对应的交叉特征与初始聚类中心的交叉特征之间不同的叶子节点个数,然后计算不同的叶子节点个数与梯度提升树编码模型中决策树的权重系数的乘积,以得到待分类数据与初始聚类中心之间的距离。
[0064]
本实施例中,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类的过程中,还可以包括:利用所述目标距离计算公式分别计算每个聚类内不同样本之间的距离,并根据计算得到的距离判断是否存在符合聚类中心重选条件的目标分类;若存在符合聚类中心重选条件的目标分类,则根据计算得到的距离为所述目标分类重新选择聚类中心。即对于每一个聚类中心k,重新计算该类的中心,具体通过利用目标距离计算公式分别计算每个聚类内每个样本与原聚类中心之间
的距离,并根据计算得到的距离判断是否存在符合聚类中心重选条件的目标分类,若存在,则根据计算得到的距离为目标分类重新选择聚类中心,聚类内每个样本与原聚类中心之间的距离表示为:
[0065][0066]
由此,通过在聚类内数据不断丰富的过程中不断更新的聚类中心,保证聚类中心的准确性。
[0067]
本实施例中,所述根据计算出的距离对所述待分类数据进行聚类之后,还可以包括:通过比对所述带分类标签的样本数据和所述待分类数据的聚类结果,为所述待分类数据的每个聚类添加对应的分类标签;所述待分类数据的数据量远大于所述带分类标签的样本数据的数据量。即依据聚类结果,使用带分类标签的样本数据评估待分类数据并标记,可以理解的是,利用同源的少量的待标签数据确定聚类得到的每类的标签,然后直接将标签赋予对应的类即可。
[0068]
由上可见,本实施例中利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。可见,基于梯度提升树编码模型进行特征融合编码,自动地处理数据间的非线性关系,构造得到交叉特征输入聚类模型,在利用目标距离计算公式计算不同交叉特征之间的距离,最后根据计算出的距离对待分类数据进行聚类,充分考虑了特征间的非线性关系,进而提高了聚类效果。
[0069]
相应的,本技术实施例还公开了一种聚类装置,参见图3所示,该装置包括:
[0070]
模型训练模块11,用于利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;特征提取模块12,用于将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;
[0071]
距离计算模块13,用于将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。
[0072]
由上可见,本实施例中利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。可见,基于梯度提升树编码模型进行特征融合编码,自动地处理数据间的非线性关系,构造得到交叉特征输入聚类模型,在利用目标距离计算公式计算不同交叉特征之间的距离,最后根据计算出的距离对待分类数据进行聚类,充分考虑了特征间的非线性关系,进而提高了聚类效果。
[0073]
在一些具体实施例中,所述模型训练模块11具体可以包括:
[0074]
模型构建单元,用于基于梯度提升树模型和编码器构建初始模型;所述编码器用于将所述梯度提升树模型中样本落在决策树上目标叶子节点的位置信息转换为0-1编码量级的编码信息;
[0075]
模型训练单元,用于利用带分类标签的样本数据对所述初始模型进行训练,以得到梯度提升树编码模型;所述梯度提升树编码模型的输出为0-1编码量级的编码数据。
[0076]
即本实施例中通过利用编码器根据梯度提升树模型内数据在决策树上的位置,将数据在决策树上的位置的特征转换为编码,得到以数据为输入以编码形式的特征为输出的梯度提升树编码模型。梯度提升树编码模型的输出可以为0-1编码量级的编码数据,即通过定义梯度提升树编码模型的输出为0-1编码,由此简化特征为0-1量级,针对削减聚类过程的计算量,提高后续计算的简便程度,进而提高聚类的效率。
[0077]
在一些具体实施例中,所述目标距离计算公式可以为基于梯度提升树编码模型中决策树的权重系数、交叉特征对应的叶子节点和示性函数构建的距离计算公式。
[0078]
在一些具体实施例中,所述距离计算模块13具体可以用于选取预设数目个初始中心,并基于所述初始中心和所述目标距离计算公式定义损失函数;通过目标距离计算公式计算不同所述交叉特征之间的距离,并反复迭代直至所述损失函数收敛时得到所述待分类数据的聚类结果。
[0079]
在一些具体实施例中,所述距离计算模块13具体可以包括:
[0080]
距离计算单元,用于根据待分类数据和初始聚类中心分别对应的交叉特征,利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离;
[0081]
聚类中心确定单元,用于选择最短距离对应的初始聚类中心作为所述带分类数据的聚类中心。
[0082]
在一些具体实施例中,所述距离计算单元具体可以包括:
[0083]
节点个数确定单元,用于利用示性函数确定所述待分类数据对应的交叉特征与初始聚类中心的交叉特征之间不同的叶子节点个数;
[0084]
距离确定单元,用于将所述不同的叶子节点个数与所述梯度提升树编码模型中决策树的权重系数的乘积,作为所述待分类数据与初始聚类中心之间的距离。
[0085]
即首先通过目标距离计算公式确定待分类数据对应的交叉特征与初始聚类中心的交叉特征之间不同的叶子节点个数,然后计算不同的叶子节点个数与梯度提升树编码模型中决策树的权重系数的乘积,以得到待分类数据与初始聚类中心之间的距离。
[0086]
在一些具体实施例中,所述距离计算模块13具体可以包括:
[0087]
判断单元,用于利用所述目标距离计算公式分别计算每个聚类内不同样本之间的距离,并根据计算得到的距离判断是否存在符合聚类中心重选条件的目标分类;
[0088]
聚类中心重选单元,用于若存在符合聚类中心重选条件的目标分类,则根据计算得到的距离为所述目标分类重新选择聚类中心。
[0089]
即对于每一个聚类中心,重新计算该类的中心,具体通过利用目标距离计算公式分别计算每个聚类内每个样本与原聚类中心之间的距离,并根据计算得到的距离判断是否存在符合聚类中心重选条件的目标分类,若存在,则根据计算得到的距离为目标分类重新选择聚类中心,由此,通过在聚类内数据不断丰富的过程中不断更新新的聚类中心,保证聚
类中心的准确性。
[0090]
在一些具体实施例中,所述聚类装置具体还可以包括:
[0091]
标签添加单元,用于通过比对所述带分类标签的样本数据和所述待分类数据的聚类结果,为所述待分类数据的每个聚类添加对应的分类标签;所述待分类数据的数据量远大于所述带分类标签的样本数据的数据量。
[0092]
进一步的,本技术实施例还公开了一种电子设备,参见图4所示,图中的内容不能被认为是对本技术的使用范围的任何限制。
[0093]
图4为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行。所述处理器21执行所述存储器22中保存的计算机子程序时,可以具体实现以下步骤:利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。以及前述任一实施例公开的聚类方法步骤。由此,基于梯度提升树编码模型进行特征融合编码,自动地处理数据间的非线性关系,构造得到交叉特征输入聚类模型,在利用目标距离计算公式计算不同交叉特征之间的距离,最后根据计算出的距离对待分类数据进行聚类,能够充分考虑特征间的非线性关系,提高聚类效果。
[0094]
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
[0095]
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及包括交叉特征在内的数据223等,存储方式可以是短暂存储或者永久存储。
[0096]
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的聚类方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
[0097]
进一步的,本技术实施例还公开了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,具体实现以下步骤:利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。可以具体实现以下步骤:由此,基于梯度提升树编码模型进行特征融合编码,自动地处理数据间
的非线性关系,构造得到交叉特征输入聚类模型,在利用目标距离计算公式计算不同交叉特征之间的距离,最后根据计算出的距离对待分类数据进行聚类,能够充分考虑特征间的非线性关系,提高聚类效果。
[0098]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0099]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0100]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0101]
以上对本发明所提供的一种聚类方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种聚类方法,其特征在于,包括:利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。2.根据权利要求1所述的聚类方法,其特征在于,所述利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型,包括:基于梯度提升树模型和编码器构建初始模型;所述编码器用于将所述梯度提升树模型中样本落在决策树上目标叶子节点的位置信息转换为0-1编码量级的编码信息;利用带分类标签的样本数据对所述初始模型进行训练,以得到梯度提升树编码模型;所述梯度提升树编码模型的输出为0-1编码量级的编码数据。3.根据权利要求1所述的聚类方法,其特征在于,所述目标距离计算公式为基于梯度提升树编码模型中决策树的权重系数、交叉特征对应的叶子节点和示性函数构建的距离计算公式。4.根据权利要求3所述的聚类方法,其特征在于,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类,包括:根据待分类数据和初始聚类中心分别对应的交叉特征,利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离;选择最短距离对应的初始聚类中心作为所述带分类数据的聚类中心。5.根据权利要求4所述的聚类方法,其特征在于,所述利用所述目标距离计算公式计算待分类数据与每个初始聚类中心之间的距离,包括:利用示性函数确定所述待分类数据对应的交叉特征与初始聚类中心的交叉特征之间不同的叶子节点个数;将所述不同的叶子节点个数与所述梯度提升树编码模型中决策树的权重系数的乘积,作为所述待分类数据与初始聚类中心之间的距离。6.根据权利要求1所述的聚类方法,其特征在于,所述通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类的过程中,还包括:利用所述目标距离计算公式分别计算每个聚类内不同样本之间的距离,并根据计算得到的距离判断是否存在符合聚类中心重选条件的目标分类;若存在符合聚类中心重选条件的目标分类,则根据计算得到的距离为所述目标分类重新选择聚类中心。7.根据权利要求1至6任一项所述的聚类方法,其特征在于,所述根据计算出的距离对所述待分类数据进行聚类之后,还包括:通过比对所述带分类标签的样本数据和所述待分类数据的聚类结果,为所述待分类数据的每个聚类添加对应的分类标签;所述待分类数据的数据量远大于所述带分类标签的样本数据的数据量。
8.一种聚类装置,其特征在于,包括:模型训练模块,用于利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;特征提取模块,用于将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;距离计算模块,用于将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的聚类方法。10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的聚类方法。
技术总结
本申请公开了一种聚类方法、装置、设备及存储介质,涉及数据分析技术领域。该方法包括:利用带分类标签的样本数据对基于梯度提升树模型和编码器构建的初始模型进行训练,以得到梯度提升树编码模型;所述梯度提升树编码模型的输出为0-1编码量级的编码数据;将待分类数据输入至所述梯度提升树编码模型,得到所述待分类数据对应的交叉特征;将所述交叉特征输入至聚类模型,通过目标距离计算公式计算不同所述交叉特征之间的距离,并根据计算出的距离对所述待分类数据进行聚类。基于梯度提升树编码模型进行特征融合编码,自动地处理数据间的非线性关系,构造得到交叉特征输入聚类模型,能够充分考虑特征间的非线性关系,提高聚类效果。果。果。
技术研发人员:邹德强 满宏涛
受保护的技术使用者:山东云海国创云计算装备产业创新中心有限公司
技术研发日:2023.04.21
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
