样本标签分类方法、系统及电子设备与流程

未命名 08-15 阅读:68 评论:0


1.本发明涉及数据分类技术领域,尤其是涉及一种样本标签分类方法、系统及电子设备。


背景技术:

2.随着人工智能的发展,相关的卷积神经网络模型在工业缺陷识别的场景中也得到广泛普及。将工业场景中获取的待识别图像输入至相关模型中,通过模型的识别即可得到该场景中包含的缺陷数据。模型的识别精度依赖于样本数据的训练效果,训练时主要针对的是缺陷数据。具体实施过程中需要将训练用的缺陷数据按照标签进行分类,同时对其缺陷进行精准定义,以此来保证训练精度。
3.实际场景中,根据缺陷在图像中的呈现颜色、形态、位置进行标签的分类与缺陷定义,当缺陷数据的形态颜色相似时就无法准确区分。具体的,在模型训练时不同标签形态相似的缺陷之间存在混检,缺陷与缺陷之间、缺陷与非缺陷之间都存在易混淆、特征差距不明显的情况。对于基于深度学习的缺陷检测方式而言,如果同类标签中的数据差别比较大,会导致以下问题。
4.训练困难:同一类别的缺陷数据差别过大,会导致缺陷检测模型难以捕捉到缺陷的共性特征。这可能会使模型训练困难,导致模型的准确性较低;过拟合:如果同一类别的缺陷数据差别过大,模型可能会过度拟合部分数据,而无法准确地泛化到其他数据。这可能会导致模型在训练集上表现很好,但在测试集上表现很差;特征学习不充分:同一类别的缺陷数据差别过大,可能会导致模型无法充分学习该类别的特征,从而影响缺陷检测的准确性。
5.对于此类基于深度学习的缺陷检测来说,如果同一类别的缺陷数据尽量的做到相似,那么模型的训练效果和检测准确性就会得到提升,但现有技术对模型训练所用的样本标签分类过程中还存在着分类效果差的问题。


技术实现要素:

6.有鉴于此,本发明的目的在于提供一种样本标签分类方法、系统及电子设备,该方法将缺陷图像进行特征提取后通过聚类的方式进行数据样本标签的划分,并通过注意力层计算每个块与其他块之间的注意力权重以捕获图像中的全局信息,特征向量根据注意力权重加权以聚合图像中的信息。该方法对数据进行特征提取并对提取后的特征向量进行概率分布聚类,从特征提取聚类的角度进行缺陷数据集的标签分类与定义,将特征表现相似的数据集合并成为一个标签,达到同一个缺陷类别的特征相似,从而提高标签的分类效果。
7.本发明实施例带来了至少以下有益效果:本发明提供了一种样本标签分类方法、系统及电子设备,该方法首先执行初始化步骤:获取待分类的样本标签图像,并按照预设的分块策略对样本标签图像进行分块处理,
得到样本标签图像的块图;然后执行特征向量获取步骤:对块图进行向量化处理得到样本标签图像的特征向量;随后聚类结果生成步骤:基于特征向量的概率分布结果对特征向量进行聚类处理,得到特征向量的聚类结果;最后执行分类执行步骤:根据特征向量的聚类结果确定样本标签图像的聚类标签,并利用聚类标签对样本标签图像进行分类,得到样本标签图像的分类结果。该方法将缺陷图像进行特征提取后通过聚类的方式进行数据样本标签的划分,并通过注意力层计算每个块与其他块之间的注意力权重以捕获图像中的全局信息,特征向量根据注意力权重加权以聚合图像中的信息,因此该方法对数据进行特征提取并对提取后的特征向量进行概率分布聚类,从特征提取聚类的角度进行缺陷数据集的标签分类与定义,将特征表现相似的数据集合并成为一个标签,达到同一个缺陷类别的特征相似,从而提高标签的分类效果。
附图说明
8.图1为本发明实施例提供的一种样本标签分类方法的流程图;图2为本发明实施例提供的一种样本标签分类方法中初始化步骤的流程图;图3为本发明实施例提供的一种样本标签分类方法中特征向量获取步骤的流程图;图4为本发明实施例提供的一种样本标签分类方法中聚类结果生成步骤的流程图;图5为本发明实施例提供的一种样本标签分类方法中利用极值关系确定特征向量的聚类结果的流程图;图6为本发明实施例提供的一种样本标签分类方法中分类执行步骤的流程图;图7为本发明实施例提供的一种样本标签分类系统的结构示意图;图8为本发明实施例提供的一种电子设备的结构示意图。
9.图标:710-初始化单元;720-特征向量获取单元;730-聚类结果生成单元;740-分类执行单元;101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
10.为便于对本实施例进行理解,首先对本发明实施例所公开的一种样本标签分类方法进行详细介绍,如图1所示,该方法包括以下步骤:初始化步骤:获取待分类的样本标签图像,并按照预设的分块策略对样本标签图像进行分块处理,得到样本标签图像的块图;初始化步骤s101:获取待分类的样本标签图像,并按照预设的分块策略对样本标签图像进行分块处理,得到样本标签图像的块图。
11.样本标签图像为工业场景中获取的待识别图像,可从产线部署的相机中获取,也可通过相关数据库、服务器中的数据调用接口对其请求获取。由于是作为模型的训练数据,因此样本标签图像的数据量通常较大。样本标签图像获取后按照预设的分块策略对样本标签图像进行分块处理,提取样本标签图像的潜在特征表示,得到样本标签图像中包含的所
有块图。具体的,可将缺陷图像分解为一系列的16 x 16像素的块,对这些块进行缩放以及归一化的预处理操作,再将这些块通过一个全连接层来进行嵌入。
12.特征向量获取步骤s102:对块图进行向量化处理得到样本标签图像的特征向量。
13.将包含缺陷的样本标签图像分解为一系列的块图后,对这些块图进行缩放以及归一化等操作,进而对其进行向量化处理,得到聚合全局信息的特征向量。
14.聚类结果生成步骤s103:基于特征向量的概率分布结果对特征向量进行聚类处理,得到特征向量的聚类结果。
15.将提取到的样本标签图像特征向量进行进一步的聚类,具体可使用基于概率分布的聚类方法对特征向量进行聚类分析。该聚类方法可以将样本标签图像分配到多个聚类中心,同时考虑每个样本标签图像属于每个聚类的概率。同时,将每个样本标签图像表示为一个向量,并将每个向量映射到一个概率分布上。这个概率分布代表着样本标签图像属于每个聚类的概率。
16.分类执行步骤s104:根据特征向量的聚类结果确定样本标签图像的聚类标签,并利用聚类标签对样本标签图像进行分类,得到样本标签图像的分类结果。
17.根据聚类的结果对样本标签图像进行分类,将聚类在一起的样本标签图像定义为同一个标签,保证了同一类别的样本标签图像具有类似的特征分布特点,不同缺陷类别的数据具有一定的差异,避免了人工进行数据缺陷分类时对于相似的数据区分模糊,导致模型检测精度低。
18.在一些实施方式中,初始化步骤s101,如图2所示,包括:步骤s201,对样本标签图像进行特征提取,得到样本标签图像对应的特征提取数据。
19.特征提取数据中包含了样本标签图像的特征表示,主要为样本标签图像的颜色、形态、位置等。
20.步骤s202,根据特征提取数据确定样本标签图像对应的特征维度数据,利用分块策略对特征维度数据进行分块计算,得到样本标签图像对应的块图。
21.特征维度数据主要针对样本标签图像的维度结果,一般来说使用神经网络获取缺陷数据的低维特征表示即通过神经网络模型来提取图像的潜在特征表示。样本标签图像获取后,利用相应的分块策略对其进行分块处理,具体可使用神经网络获取缺陷数据的低维特征表示,即通过神经网络模型来提取图像的潜在特征表示,从而得到特征提取数据,然后根据特征提取数据确定样本标签图像对应的特征维度数据,利用分块策略对特征维度数据进行分块计算,将标注过但未进行标签分类的块图数据集作为输入数据;即先对缺陷图像数据进行特征提取,将提取后的数据特征送入聚类网络进行聚类,使得低维信息表示完全,提升聚类性能。
22.在一些实施方式中,特征向量获取步骤s102,如图3所示,包括:步骤s301,将块图按照预设比例缩放后进行归一化处理,生成预处理块图;步骤s302,将预处理块图进行全连接嵌入计算,生成块图对应的多维向量;步骤s303,对多维向量进行位置编码运算,并利用已完成位置编码的多维向量计算块图之间的相似性得分,并利用相似性得分计算块图之间的注意力权重值;步骤s304,利用多维向量及其对应的注意力权重值,生成样本标签图像的特征向
量。
23.将包含缺陷的样本标签图像分解为一系列的块图后,将这些块图进行缩放以及归一化的预处理操作,然后将这些块图通过一个全连接层来进行嵌入,生成一个包含d维向量的特征表示,其中d是一个超参数,设置为1024。通过加入位置编码来将每个块图与其位置相关联,将进行了位置编码的块图嵌入向量,输入到由多头自注意力层和全连接层组成的编码器中,自注意力层用于计算每个块图与其它块图之间的注意力权重。然后将每个块图视为一个向量,并计算所有块图之间的相似性得分,并使用这些得分来计算每个块图与其它块图的注意力权重,这些权重用于加权块图的特征向量,以便聚合全局信息并生成表示整个样本标签图像的特征向量。需要说明的是,本方案中的相似性得分表征块图之间的相似性程度,得分越高,其相似程度就越高;得分越低,其相似性程度就越低。
24.在一些实施方式中,聚类结果生成步骤s103,如图4所示,包括:步骤s401,根据特征向量的类型,初始化多个聚类中心向量;步骤s402,计算特征向量与聚类中心向量之间的分布距离;步骤s403,利用softmax函数计算分布距离对应的概率分布,得到特征向量的概率分布结果;步骤s404,根据概率分布结果确定特征向量与聚类中心向量的极值关系,并利用极值关系确定特征向量的聚类结果;极值关系至少包括:特征向量属于聚类中心向量的最大概率值、特征向量属于聚类中心向量的最小分布距离。将提取到的样本标签图像的特征向量表示进行进一步的聚类,使用基于概率分布的聚类方法对特征向量进行聚类分析,基于概率分布的聚类方法可以将样本标签图像分配到多个聚类中心,同时考虑每个样本属于每个聚类的概率。将每个样本标签图像表示为一个向量,并将每个向量映射到一个概率分布上。这个概率分布代表着样本标签图像属于每个聚类的概率。具体地,对于每个样本标签图像,都会使用softmax函数将其映射到一个概率分布上,目标为:最大化每个样本标签图像属于其真实聚类中心的概率,同时最小化所有样本标签图像与所有聚类中心之间的距离。
25.在一些实施方式中,根据概率分布结果确定特征向量与聚类中心向量的极值关系,通过最小化目标函数来实现;最小化目标函数为:;其中,为分布距离对应的计算集;为聚类中心向量对应的计算集;为特征向量的个数;为特征向量的索引;为聚类中心向量的索引;为聚类中心向量的个数;为真实聚类中心向量;为概率分布结果;为权重值;为特征向量的维度;为特征向量;为聚类中心向量。
26.目标函数由两部分组成,第一部分是交叉熵损失,用于最大化每个样本标签图像样本属于其真实聚类中心的概率,第二部分是平方误差损失,用于最小化所有样本标签图像样本与所有聚类中心之间的距离。因此通过最小化的目标函数,可以同时实现聚类和分类的目标。
27.在一些实施方式中,利用极值关系确定特征向量的聚类结果,如图5所示,包括:步骤s501,获取极值关系中包含的最大概率值以及最小分布距离;
步骤s502,对最小化目标函数进行梯度下降计算,更新最大概率值以及最小分布距离;步骤s503,当梯度下降计算过程达到收敛状态时,停止最大概率值以及最小分布距离的更新过程;步骤s504,根据已更新的最大概率值以及最小分布距离确定聚类中心向量的分配概率,并利用分配概率确定特征向量的聚类结果。
28.通过最小化目标函数同时实现聚类和分类的目标的过程,具体方式为:首先利用生成的特征向量作为聚类的输入,随机初始化个聚类中心,其中是预先指定的聚类数量,每个聚类中心也表示为一个向量。
29.对于每个样本标签图像样本,计算其与每个聚类中心之间的距离。通常使用欧几里得距离或余弦相似度等度量方式。
30.对于每个样本,使用softmax函数将其映射到一个概率分布上,表示样本属于每个聚类的概率。具体地,对于每个样本,softmax函数的计算方式为:;其中,为特征向量与聚类中心向量之间的距离;为特征向量与聚类中心向量之间的概率分布;为聚类中心向量的索引值;为聚类中心向量的个数;每个特征向量分配至每个聚类中心向量的概率之和等于1。softmax函数将每个样本的距离映射为一个概率分布,使得每个样本被分配到每个聚类的概率之和等于1。
31.对于每个样本,使用交叉熵损失函数计算其真实类别的损失,即最大化样本属于其真实聚类的概率。同时,使用平方误差损失函数最小化所有样本与所有聚类中心之间的距离,即最小化样本与聚类中心之间的距离。
32.使用梯度下降等优化方法最小化目标函数,更新每个样本与每个聚类中心的距离以及每个样本属于每个聚类的概率。重复此过程直到收敛,即样本不再改变聚类分配。最终,每个样本将被分配到一个或多个聚类中心。
33.在一些实施方式中,分类执行步骤s104,如图6所示,包括:步骤s601,获取聚类结果中的分配概率,根据分配概率与预设的概率区间的数值关系确定样本标签图像的聚类标签;步骤s602,根据聚类标签对已聚类的样本标签图像进行分类,得到样本标签图像的分类结果。
34.每个样本将被分配到一个或多个聚类中心以后,根据分配概率与预设的概率区间的数值关系确定样本标签图像的聚类标签,具体可将分配概率最高的聚类中心被认为是其主要聚类,其他分配概率较高的聚类中心也可以被认为是其次要聚类;然后根据聚类标签对已聚类的样本标签图像进行分类,得到样本标签图像的分类结果。值得一提的是,上述过程通过基于概率分布的聚类方法对特征向量进行聚类分析,通过基于概率分布的聚类方法将样本分配到多个聚类中心,这个过程中需要同时考虑每个样本属于每个聚类的概率,从
而对分类结果进行调整,并最终得到样本标签图像的分类结果。
35.该实施例中的样本标签分类方法从特征提取聚类的角度进行缺陷数据集的标签分类与定义,将特征表现相似的数据集合并成为一个标签,达到同一个缺陷类别的特征相似,不同缺陷类别的数据具有一定的差异,避免了人工进行数据缺陷分类时对于相似的数据区分模糊,导致模型检测精度低的情况。
36.通过上述实施例中提到的样本标签分类方法可知,该方法将缺陷图像进行特征提取后通过聚类的方式进行数据样本标签的划分,并通过注意力层计算每个块与其他块之间的注意力权重以捕获图像中的全局信息,特征向量根据注意力权重加权以聚合图像中的信息。该方法对数据进行特征提取并对提取后的特征向量进行概率分布聚类,从特征提取聚类的角度进行缺陷数据集的标签分类与定义,将特征表现相似的数据集合并成为一个标签,达到同一个缺陷类别的特征相似,从而提高标签的分类效果。
37.对应于上述方法实施例,本发明实施例提供了一种样本标签分类系统;如图7所示,该系统包括以下单元:初始化单元710:用于获取待分类的样本标签图像,并按照预设的分块策略对样本标签图像进行分块处理,得到样本标签图像的块图;特征向量获取单元720:用于对块图进行向量化处理得到样本标签图像的特征向量;聚类结果生成单元730:用于基于特征向量的概率分布结果对特征向量进行聚类处理,得到特征向量的聚类结果;分类执行单元740:用于根据特征向量的聚类结果确定样本标签图像的聚类标签,并利用聚类标签对样本标签图像进行分类,得到样本标签图像的分类结果。
38.在一些实施方式中,初始化单元710,用于:对样本标签图像进行特征提取,得到样本标签图像对应的特征提取数据;根据特征提取数据确定样本标签图像对应的特征维度数据,利用分块策略对特征维度数据进行分块计算,得到样本标签图像对应的块图。
39.在一些实施方式中,特征向量获取单元720,用于:将块图按照预设比例缩放后进行归一化处理,生成预处理块图;将预处理块图进行全连接嵌入计算,生成块图对应的多维向量;对多维向量进行位置编码运算,并利用已完成位置编码的多维向量计算块图之间的相似性得分,并利用相似性得分计算块图之间的注意力权重值;利用多维向量及其对应的注意力权重值,生成样本标签图像的特征向量。
40.在一些实施方式中,聚类结果生成单元730,用于:根据特征向量的类型,初始化多个聚类中心向量;计算特征向量与聚类中心向量之间的分布距离;利用softmax函数计算分布距离对应的概率分布,得到特征向量的概率分布结果;根据概率分布结果确定特征向量与聚类中心向量的极值关系,并利用极值关系确定特征向量的聚类结果;其中,极值关系至少包括:特征向量属于聚类中心向量的最大概率值、特征向量属于聚类中心向量的最小分布距离。
41.在一些实施方式中,根据概率分布结果确定特征向量与聚类中心向量的极值关系,通过最小化目标函数来实现;最小化目标函数为:;其中,为分布距
离对应的计算集;为聚类中心向量对应的计算集;为特征向量的个数;为特征向量的索引;为聚类中心向量的索引;为聚类中心向量的个数;为真实聚类中心向量;为概率分布结果;为权重值;为特征向量的维度;为特征向量;为聚类中心向量。
42.在一些实施方式中,利用softmax函数计算分布距离对应的概率分布,通过以下算式实现:;其中,为特征向量与聚类中心向量之间的距离;为特征向量与聚类中心向量之间的概率分布;为聚类中心向量的索引值;为聚类中心向量的个数;每个特征向量分配至每个聚类中心向量的概率之和等于1。
43.在一些实施方式中,在一些实施方式中,聚类结果生成单元730在利用极值关系确定特征向量的聚类结果的过程中,还用于:获取极值关系中包含的最大概率值以及最小分布距离;对最小化目标函数进行梯度下降计算,更新最大概率值以及最小分布距离;当梯度下降计算过程达到收敛状态时,停止最大概率值以及最小分布距离的更新过程;根据已更新的最大概率值以及最小分布距离确定聚类中心向量的分配概率,并利用分配概率确定特征向量的聚类结果。
44.在一些实施方式中,分类执行单元740,用于:获取聚类结果中的分配概率,根据分配概率与预设的概率区间的数值关系确定样本标签图像的聚类标签;根据聚类标签对已聚类的样本标签图像进行分类,得到样本标签图像的分类结果。
45.通过上述实施例中提到的样本标签分类系统可知,该系统将缺陷图像进行特征提取后通过聚类的方式进行数据样本标签的划分,并通过注意力层计算每个块与其他块之间的注意力权重以捕获图像中的全局信息,特征向量根据注意力权重加权以聚合图像中的信息。该系统对数据进行特征提取并对提取后的特征向量进行概率分布聚类,从特征提取聚类的角度进行缺陷数据集的标签分类与定义,将特征表现相似的数据集合并成为一个标签,达到同一个缺陷类别的特征相似,从而提高标签的分类效果。
46.本实施例提供的样本标签分类系统,与上述实施例提供的样本标签分类方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。为简要描述,实施例部分未提及之处,可参考前述样本标签分类方法实施例中相应内容。
47.本实施例还提供一种电子设备,该电子设备的结构示意图如图8所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述样本标签分类方法。
48.图8所示的电子设备还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
49.其中,存储器102可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的
总线。
50.通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的ipv4报文或ipv4报文通过网络接口发送至用户终端。
51.处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
52.本发明实施例还提供了一种可读存储介质,该可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的样本标签分类方法的步骤。
53.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
54.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
55.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
56.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
57.最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明
的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种样本标签分类方法,其特征在于,所述方法包括以下步骤:初始化步骤:获取待分类的样本标签图像,并按照预设的分块策略对所述样本标签图像进行分块处理,得到所述样本标签图像的块图;特征向量获取步骤:对所述块图进行向量化处理得到所述样本标签图像的特征向量;聚类结果生成步骤:基于所述特征向量的概率分布结果对所述特征向量进行聚类处理,得到所述特征向量的聚类结果;分类执行步骤:根据所述特征向量的聚类结果确定所述样本标签图像的聚类标签,并利用所述聚类标签对所述样本标签图像进行分类,得到所述样本标签图像的分类结果。2.根据权利要求1所述的样本标签分类方法,其特征在于,所述初始化步骤,包括:对所述样本标签图像进行特征提取,得到所述样本标签图像对应的特征提取数据;根据所述特征提取数据确定所述样本标签图像对应的特征维度数据,利用所述分块策略对所述特征维度数据进行分块计算,得到所述样本标签图像对应的所述块图。3.根据权利要求1所述的样本标签分类方法,其特征在于,所述特征向量获取步骤,包括:将所述块图按照预设比例缩放后进行归一化处理,生成预处理块图;将所述预处理块图进行全连接嵌入计算,生成所述块图对应的多维向量;对所述多维向量进行位置编码运算,并利用已完成位置编码的所述多维向量计算所述块图之间的相似性得分,并利用所述相似性得分计算所述块图之间的注意力权重值;利用所述多维向量及其对应的所述注意力权重值,生成所述样本标签图像的特征向量。4.根据权利要求1所述的样本标签分类方法,其特征在于,所述聚类结果生成步骤,包括:根据所述特征向量的类型,初始化多个聚类中心向量;计算所述特征向量与所述聚类中心向量之间的分布距离;利用softmax函数计算所述分布距离对应的概率分布,得到所述特征向量的所述概率分布结果;根据所述概率分布结果确定所述特征向量与所述聚类中心向量的极值关系,并利用所述极值关系确定所述特征向量的聚类结果;其中,所述极值关系至少包括:所述特征向量属于所述聚类中心向量的最大概率值、所述特征向量属于所述聚类中心向量的最小分布距离。5.根据权利要求4所述的样本标签分类方法,其特征在于,根据所述概率分布结果确定所述特征向量与所述聚类中心向量的极值关系,通过最小化目标函数来实现;所述最小化目标函数为:;其中,为所述分布距离对应的计算集;为所述聚类中心向量对应的计算集;为所述特征向量的个数;为所述特征向量的索引;为所述聚类中心向量的索引;为所述聚类中心向量的个数;为真实聚类中心向量;为所述概率分布结果;为权重值;为所述特征向量的维度;为所述特征向量;为所述聚类中心向量。
6.根据权利要求4所述的样本标签分类方法,其特征在于,利用softmax函数计算所述分布距离对应的概率分布,通过以下算式实现:;其中,为所述特征向量与所述聚类中心向量之间的距离;为所述特征向量与所述聚类中心向量之间的所述概率分布;为所述聚类中心向量的索引值;为所述聚类中心向量的个数;每个特征向量分配至每个所述聚类中心向量的概率之和等于1。7.根据权利要求5所述的样本标签分类方法,其特征在于,利用所述极值关系确定所述特征向量的聚类结果,包括:获取所述极值关系中包含的最大概率值以及最小分布距离;对所述最小化目标函数进行梯度下降计算,更新所述最大概率值以及所述最小分布距离;当梯度下降计算过程达到收敛状态时,停止所述最大概率值以及所述最小分布距离的更新过程;根据已更新的所述最大概率值以及所述最小分布距离确定所述聚类中心向量的分配概率,并利用所述分配概率确定所述特征向量的聚类结果。8.根据权利要求7所述的样本标签分类方法,其特征在于,所述分类执行步骤,包括:获取所述聚类结果中的所述分配概率,根据所述分配概率与预设的概率区间的数值关系确定所述样本标签图像的聚类标签;根据所述聚类标签对已聚类的所述样本标签图像进行分类,得到所述样本标签图像的分类结果。9.一种样本标签分类系统,其特征在于,所述系统包括以下单元:初始化单元:用于获取待分类的样本标签图像,并按照预设的分块策略对所述样本标签图像进行分块处理,得到所述样本标签图像的块图;特征向量获取单元:用于对所述块图进行向量化处理得到所述样本标签图像的特征向量;聚类结果生成单元:用于基于所述特征向量的概率分布结果对所述特征向量进行聚类处理,得到所述特征向量的聚类结果;分类执行单元:用于根据所述特征向量的聚类结果确定所述样本标签图像的聚类标签,并利用所述聚类标签对所述样本标签图像进行分类,得到所述样本标签图像的分类结果。10.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时实现上述权利要求1至8任一项所述的样本标签分类方法的步骤。

技术总结
本发明提供了一种样本标签分类方法、系统及电子设备,涉及数据分类技术领域,该方法将缺陷图像进行特征提取后通过聚类的方式进行数据样本标签的划分,并通过注意力层计算每个块与其他块之间的注意力权重以捕获图像中的全局信息,特征向量根据注意力权重加权以聚合图像中的信息。该方法对数据进行特征提取并对提取后的特征向量进行概率分布聚类,从特征提取聚类的角度进行缺陷数据集的标签分类与定义,将特征表现相似的数据集合并成为一个标签,达到同一个缺陷类别的特征相似,从而提高标签的分类效果。标签的分类效果。标签的分类效果。


技术研发人员:晏文仲 马原 田楷 陈立名 胡江洪 曹彬 黄金 陈秀睿
受保护的技术使用者:菲特(天津)检测技术有限公司
技术研发日:2023.07.12
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐