图像分类方法、装置、电子设备和存储介质与流程

未命名 08-25 阅读：98 评论：0

1.本技术涉及计算机技术领域，尤其涉及一种图像分类方法、装置、电子设备和存储介质。

背景技术：

2.随着互联网的发展以及多媒体手段的广泛应用，用户可以在互联网上浏览、传播、发布大量的信息。然而，上述信息中可能存在违规的内容(即非安全的内容)，容易对青少年的心理健康产生不良影响，例如涉及违规(比如低俗、暴力、恐怖)的图片、文字以及视频等内容；其中，涉黄信息往往是最常见的。随着近年来用户原创内容(ugc，user generated content)商业模式的发展，对涉黄信息的监管变得愈加困难，尤其是图像形式的涉黄信息。因此，如何高效识别并过滤涉黄图像，维护网络的健康环境，已经成为亟待解决的问题。
3.相关技术中，通常将对涉黄图像的识别转化为图像分类任务，即通过对图像进行分类，并基于分类结果来判断涉黄图像。然而，相关技术中的图像分类方法存在分类准确率低，容易产生错误分类(也可以理解为误杀)的问题。

技术实现要素：

4.为解决相关技术问题，本技术实施例提供了一种图像分类方法、装置、电子设备和存储介质。
5.本技术实施例的技术方案是这样实现的：
6.本技术实施例提供一种图像分类方法，包括：
7.获取第一图像；
8.利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；
9.利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。
10.上述方案中，所述利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类，包括：
11.将所述至少一个第一目标区域的分类结果进行归类，得到至少一个类别；
12.针对所述至少一个类别中的每个类别，利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，得到所述至少一个类别的第二目标特征；
13.利用所述至少一个类别的第二目标特征，对所述第一图像进行分类。
14.上述方案中，所述利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，包括：
15.利用类别对应的至少一个第一目标区域确定类别的第二目标区域；
16.利用类别对应的至少一个第一目标区域的第一目标特征，确定类别的第二目标区域的第二目标特征。
17.上述方案中，当所述至少一个第一目标区域中至少两个第一目标区域的分类结果相同时，确定所述至少两个第一目标区域中每个第一目标区域的置信度；
18.将置信度最高的第一目标区域作为类别的第二目标区域。
19.上述方案中，所述方法还包括：
20.当每个类别的第二目标特征大小不同时，对所述至少一个类别的第二目标特征进行大小对齐处理，使得每个类别的第二目标特征大小相同；
21.利用大小相同的所述至少一个类别的第二目标特征，对所述第一图像进行分类。
22.上述方案中，所述利用所述至少一个类别的第二目标特征，对所述第一图像进行分类，包括：
23.按照预设类别顺序，对所述至少一个类别的第二目标特征进行融合处理，得到融合处理后的第二目标特征；
24.利用融合处理后的第二目标特征，对所述第一图像进行分类。
25.上述方案中，所述方法还包括：
26.针对所述至少一个类别中的每个类别，确定置信度，利用类别的置信度和第二目标特征，更新类别的第二目标特征；
27.按照预设类别顺序，对所述至少一个类别更新后的第二目标特征进行融合处理，得到融合处理后的第二目标特征。
28.上述方案中，在进行融合处理时，在所述至少一个类别未包含预设类别中的至少一个类别的情况下，将未包含的至少一个类别的第二目标特征设置为预设特征。
29.上述方案中，所述利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和第一目标特征，包括：
30.利用backbone模型，对所述第一图像进行特征提取，得到对应的特征图；
31.利用所述目标检测模型和所述特征图，确定所述至少一个第一目标区域和对应的分类结果和对应的第一目标特征。
32.本技术实施例还提供一种图像分类装置，包括：
33.获取单元，用于获取第一图像；
34.处理单元，用于利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；
35.分类单元，用于利用确定的所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。
36.本技术实施例还提供一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，
37.其中，所述处理器用于运行所述计算机程序时，执行上述任一方法的步骤。
38.本技术实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。
39.本技术实施例提供的图像分类方法、装置、电子设备和存储介质，获取第一图像；利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。本技术实施例提供的技术方案，确定图像中至少一个目标区
域(即包含关键特征的区域)后，通过图像中所有目标区域的分类结果和目标特征，实现对图像的全局分类，这样能够减少图像中无关特征对分类结果的影响，进而能够提高图像的全局分类的准确率。
附图说明
40.图1为相关技术中基于深度学习的图像分类的方法流程示意图；
41.图2为相关技术中分类网络的流程示意图；
42.图3为相关技术中二阶段分类网络的流程示意图；
43.图4为本技术实施例图像分类方法的流程示意图；
44.图5为本技术应用实施例二阶段分类网络的流程示意图；
45.图6为本技术应用实施例对目标特征进行处理的流程示意图；
46.图7为本技术应用实施例采用二阶段分类网络对图像进行分类的流程示意图；
47.图8为本技术实施例图像分类装置结构示意图；
48.图9为本技术实施例电子设备结构示意图。
具体实施方式
49.下面结合附图及实施例对本技术再作进一步的描述。
50.相关技术中，图像分类技术主要分为基于传统的机器学习方法和基于深度学习的方法。
51.其中，基于传统的机器学习方法是指通过机器视觉硬件平台，例如计算机、数字信号处理器(dsp，digital signal processor)、专用集成电路(asic，application specific integrated circuit)，对网络上的图像进行处理和分析，从而实现对涉黄图像的识别。上述对图像进行处理和分析的操作主要包括以下步骤：图像预处理、图像区域分割、特征提取以及图像分类；其中，可以采用支持向量机(svm，support vector machines)、决策树等来实现图像分类的步骤。这类方法中，通常重点关注如何对图像进行特征提取，以最大程度地表征出涉黄图像和正常图像之间的差异。在识别涉黄图像的领域中，采用的特征提取方法主要包括以下三类：
52.1)基于颜色特征的方法：主要依赖于涉黄图像中人物肤色区域的特征。具体地，针对不同的肤色，得到基于肤色模型的分类框架后，利用得到的分类框架进行特征提取。
53.2)基于形状特征的方法：通过确定图像中感兴趣区域，并基于感兴趣区域的轮廓进行特征计算，从而实现特征的提取。这些特征可以描述人类姿态(可以理解为人体区域)，并且可以利用颜色变换和纹理变换对人类姿态的特征进行增强，进而对增强后的人类姿态的特征进行提取。
54.3)基于局部特征描述符的方法：局部特征描述符通过特征向量来描述图像区域，具体通过固定尺寸的向量来表示图像区域的外观。通过将图像和图像区域相比较，基于比较结果能够确定图像对应的局部特征描述符，进而实现对图像的特征提取。目前，常用的识别涉黄图像的特征描述符包括：视觉词袋模型(bovw，bag of visual word)、尺度不变特征变换(sift，scale-invariant feature transform)等。
55.基于深度学习的图像分类方法是通过神经网络自动学习图像特征和分类任务之
间的关联，来实现对图像的特征提取和分类。具体地，如图1所示，基于深度学习的图像分类方法的流程主要包括以下步骤：
56.步骤101：获取大量用于训练的样本图像，并对获取的样本图像进行预处理；
57.其中，每个样本图像都被标注了标签，所述标签表征样本图像所属的类别(例如正常图像、涉黄图像等)。
58.步骤102：搭建卷积神经网络模型；
59.实际应用时，在搭建卷积神经网络模型的过程中，还会相应设置损失函数以及优化方式，以便后续对搭建的模型进行训练。
60.步骤103：将预处理后的样本图像和对应的标签输入至搭建的卷积神经网络，得到训练后的模型；
61.步骤104：获取待预测的图像后，将待预测的图像输入至训练后的模型，得到预测的标签。
62.也就是说，针对每个输入的图像，训练后的模型会输出图像所属的标签。
63.实际应用时，在上述两种图像分类方法中，如图2所示，通常需要通过骨干(英文可以表达为backbone)网络对图像进行特征提取，得到图像对应的特征(英文可以表达为feature)。然后，采用多层感知机(mlp，multilayer perceptron)对所述对应的特征进行分类，进而确定图像对应的分类结果。然而，在特征提取的过程中存在注意力容易分散，难以确定图像中的重点特征，从而容易产生感知偏差的问题；换句话说，采用上述图像分类网络时容易受到图像中无关特征(例如背景特征等)的影响，进而导致分类的准确率降低。
64.另外，相关技术中，还提出了一种目标检测网络，来实现对图像的分类。目标检测网络通过对图像中的局部目标进行监督，并学习局部目标对应的特征类别和位置，从而能够避免图像中背景特征的干扰，提高对图像中局部目标的分类准确率和精度。然而，对于图像识别来说，主要关注图像的全局分类结果，而不是图像中局部特征所在位置和分类结果。因此，采用上述方案得到的分散的局部目标的分类结果无法提高图像的全局分类的准确率，也即存在图像的全局分类准确率不高的问题。
65.在这种情况下，相关技术中提出了一种二阶段检测网络，例如faster-rcnn，来实现对图像的分类。具体地，如图3所示，通过backbone网络对图像进行特征提取，得到图像对应的特征图后，利用区域生成网络(rpn，region proposal network)，能够确定图像对应的区域框(英文可以表达为proposals)；其中，所述区域框包括前景区域框(即包含关键特征的区域框)和背景区域框(即包含无关特征的区域框)。针对每个前景区域框，可以通过感兴趣区域(roi，region of interest)池化(英文可以表达为pooling)或roi对齐(英文可以表达为align)对前景区域框进行统一大小处理，得到大小相同的前景区域框。然后，通过将大小相同的区域框输入至检测头(英文可以表达为detection head)进行细化分类，从而得到对应的分类结果。
66.相关技术中的二阶段检测网络会在第一个阶段检测图像中的局部目标(即前景区域框)，在第二个检测阶段确定局部目标的具体类别，属于对局部目标进行类别的细化判断。在这个过程中，由于是对图像中多个局部目标进行细化分类，而不是进行图像全局类别的判断，会存在图像的全局分类准确率不高的问题。
67.基于此，在本技术的各种实施例中，采用逆向二阶段的方式对图像进行分类，即在
确定图像中的目标区域以及对应的分类结果和目标特征后，利用所有目标区域的分类结果和目标特征，实现对图像的分类。上述方案中，通过图像中所有目标区域的分类结果和目标特征，实现对图像全局类别的判断。如此，能够减少图像中无关特征对分类结果的影响，进而提高了图像的全局分类的准确率。
68.本技术实施例提供了一种图像分类方法，应用于电子设备，如图4所示，该方法包括以下步骤：
69.步骤401：获取第一图像；
70.步骤402：利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；
71.步骤403：利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。
72.其中，所述电子设备可以包括能够执行步骤401至步骤403的设备，比如服务器、笔记本电脑、平板电脑、或台式计算机等，本技术实施例对此不作限定。
73.实际应用时，所述电子设备可以通过云端获取第一图像。示例性地，所述电子设备从云端获取用户上传的图像二进制流后，将获取的图像二进制流转化为浮点图像，以获取第一图像。本技术实施例对所述电子设备获取第一图像的方式不作限定。
74.实际应用时，步骤402中，获取第一图像后，为了确定所述第一图像中的第一目标区域对应的第一目标特征，所述电子设备需要先对所述第一图像进行特征提取操作。
75.基于此，在一实施例中，步骤402的具体实现可以包括：
76.利用backbone模型，对所述第一图像进行特征提取，得到对应的特征图；
77.利用所述目标检测模型和所述特征图，确定所述至少一个第一目标区域和对应的分类结果和对应的第一目标特征。
78.其中，所述目标检测模型是指利用大量样本训练后得到的模型。实际应用时，可以通过对样本中目标区域的类别和位置进行学习得到目标检测模型后，利用所述目标检测模型能够对图像中的目标区域的位置进行预测，进而能够确定图像中的目标区域和对应的分类结果。
79.这里，所述目标检测模型可以包括单次多框检测(ssd，single shot multibox detector)网络、或yolo检测网络等。本技术实施例对此不作限定。
80.其中，实际应用时，不同的应用场景下，所述第一目标区域不同，比如当本技术实施例的方案应用于涉黄信息的图片的分类时，所述第一目标区域可以包括设定的人体的一些区域(也可以理解为人体的一些部位)，比如女性胸部、女性生殖器、男性生殖器或臀部等区域，本技术实施例对所述第一目标区域不作限定。
81.本技术实施例中，所述电子设备利用backbone网络，提取出第一图像的特征后，可以得到对应的特征图。接着，利用目标检测模型，所述电子设备能够确定第一图像中至少一个第一目标区域的位置，进而确定所述至少一个第一目标区域和对应的分类结果。同时，所述电子设备基于所述至少一个第一目标区域的位置，还能够确定所述特征图上对应的所述至少一个第一目标区域的第一目标特征。
82.实际应用时，在确定所述至少一个第一目标区域对应的分类结果和对应的第一目标特征之后，所述电子设备便可以利用确定的至少一个目标区域对应的分类结果和对应的
第一目标特征，对第一图像进行分类。
83.具体地，在一实施例中，步骤403的具体实现可以包括：
84.将所述至少一个第一目标区域的分类结果进行归类，得到至少一个类别；
85.针对所述至少一个类别中的每个类别，利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，得到所述至少一个类别的第二目标特征；
86.利用所述至少一个类别的第二目标特征，对所述第一图像进行分类。
87.实际应用时，通过对所述至少一个第一目标区域的分类结果进行归类，所述电子设备能够得到第一图像对应的至少一个类别。
88.其中，实际应用时，不同的应用场景下，所述第一图像对应的类别不同，比如当本技术实施例的方案应用于涉黄信息的图片的分类时，所述第一图像对应的类别可以包括设定的人体区域的类别，例如胸部、腿部等类别，本技术实施例对类别不作限定。
89.在一实施例中，所述利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，包括：
90.利用类别对应的至少一个第一目标区域确定类别的第二目标区域；
91.利用类别对应的至少一个第一目标区域的第一目标特征，确定类别的第二目标区域的第二目标特征。
92.这里，对于每个类别来说，所述第一图像中可能存在类别对应的多个第一目标区域和第一目标特征，也可以存在类别对应的一个第一目标区域和第一目标特征，也就是说，每个类别可以包含所述第一图像的至少一个第一目标区域中至少一个第一目标区域。在这种情况下，所述电子设备对至少一个第一目标区域的分类结果进行归类后，对于仅对应一个第一目标区域的类别，所述电子设备可以将所述第一目标区域作为类别的第二目标区域，并将所述第一目标区域的第一目标特征作为类别的第二目标区域；对于对应至少两个第一目标区域的类别，所述电子设备可以从所述至少两个第一目标区域中选择一个目标区域作为类别的第二目标区域。这是因为：针对对应至少两个第一目标区域的类别，所述至少两个第一目标区域中可能存在错误分类或者对应的分类准确率低的问题。通过选择一个目标区域作为类别的第二目标区域，能够避免第一目标区域的错误分类或者分类准确率低而导致类别的第二目标区域的不准确的情况，以保障对第一图像的分类准确率。
93.基于此，在一实施例中，当所述至少一个第一目标区域中至少两个第一目标区域的分类结果相同时，确定所述至少两个第一目标区域中每个第一目标区域的置信度；
94.将置信度最高的第一目标区域作为类别的第二目标区域。
95.其中，所述置信度可以表征第一目标区域的分类准确率。
96.这里，实际应用时，由于目标检测模型是经过大量样本训练后得到的模型，在每次训练的过程中，所述电子设备会基于每个目标区域对应的预测值和真实值，结合交叉熵损失函数对第一目标区域的置信度进行更新。因此，所述电子设备在利用训练后得到的目标检测模型来确定第一目标区域的同时，还能够确定每个第一目标区域对应的置信度。
97.当所述至少一个第一目标区域中至少两个第一目标区域的分类结果相同时，即一个类别对应至少两个第一目标区域时，所述电子设备可以将置信度最高的第一目标区域作为类别的第二目标区域。相应地，所述电子设备还可以将置信度最高的第一目标区域对应的第一目标特征作为类别的第二目标特征。
98.这里，在确定每个类别的第二目标特征后，由于每个类别的第二目标特征大小可能不同，会影响后续对第一图像的分类，在这种情况下，所述电子设备可以对大小不同的类别对应的第二目标特征进行相应处理。
99.基于此，在一实施例中，该方法还可以包括：
100.当每个类别的第二目标特征大小不同时，对所述至少一个类别的第二目标特征进行大小对齐处理，使得每个类别的第二目标特征大小相同；
101.利用大小相同的所述至少一个类别的第二目标特征，对所述第一图像进行分类。
102.实际应用时，当不同类别的第二目标特征大小不同时，所述电子设备可以利用roi pooling或roi align对至少一个类别的第二目标特征进行处理，从而得到大小相同的至少一个类别的第二目标特征，本技术实施例对所述至少一个类别的第二目标特征进行大小对齐处理的具体实现不作限定。
103.这里，实际应用时，所述电子设备对第一图像进行分类时，可以将每个类别的第二目标特征进行融合，进而通过融合后的第二目标特征实现对第一图像全局类别的判断。
104.基于此，在一实施例中，所述利用所述至少一个类别的第二目标特征，对所述第一图像进行分类，包括：
105.按照预设类别顺序，对所述至少一个类别的第二目标特征进行融合处理，得到融合处理后的第二目标特征；
106.利用融合处理后的第二目标特征，对所述第一图像进行分类。
107.这里，所述电子设备可以预先设置类别顺序，即针对预设类别由0至n，共n+1个类别，设置n+1个类别的排列顺序；其中，n的取值可以根据需要确定，n为大于1的整数。
108.实际应用时，针对所述至少一个类别中的每个类别(也可以理解为预设类别中所述电子设备能够检测到目标区域的类别)，由于类别的置信度能够反映类别对应的第二目标特征的分类准确率，因此，在融合处理的过程中，所述电子设备可以基于类别的置信度对类别的第二目标特征进行更新，并基于更新后的第二目标特征进行分类，以进一步保障对第一图像的全局分类的准确率。
109.基于此，在一实施例中，该方法还可以包括：
110.针对所述至少一个类别中的每个类别，确定置信度，利用类别的置信度和第二目标特征，更新类别的第二目标特征；
111.按照预设类别顺序，对所述至少一个类别更新后的第二目标特征进行融合处理，得到融合处理后的第二目标特征。
112.这里，针对所述至少一个类别中的每个类别，所述电子设备能够确定类别对应第二目标区域，进而确定类别对应的置信度。通过将类别对应的置信度和第二目标特征求积，所述电子设备可以实现对类别的第二目标特征的更新。
113.实际应用时，针对预设类别中所述电子设备没有检测到目标区域的类别，所述电子设备在按照预设类别顺序进行融合处理时，可以对上述无法检测到目标区域的类别对应的第二目标特征进行统一设置，以便于后续实现对第二目标特征的融合处理。
114.具体地，在一实施例中，在进行融合处理时，在所述至少一个类别未包含预设类别中的至少一个类别的情况下，将未包含的至少一个类别的第二目标特征设置为预设特征。
115.这里，对于所述至少一个类别未包含预设类别中的至少一个类别，所述电子设备
可以将未包含的至少一个类别中每个类别的第二目标特征设置为预设特征，以便后续对第二目标特征进行融合处理。其中，所述预设特征的数值可以根据需要进行设置，比如数值均设置为0，本技术实施例对预设特征的数值不作限定。
116.实际应用时，在确定预设类别中每个类别对应的第二目标特征后，所述电子设备可以按照预设类别顺序，通过将每个类别对应的第二目标特征在通道(英文可以表达为channel)维度上进行连接，便可以得到第二目标特征的融合结果。
117.示例性地，所述电子设备可以采用concat函数，按照预设类别顺序，将每个类别的第二目标特征在通道维度上进行连接，得到融合处理后的第二目标特征。
118.实际应用时，在得到融合处理后的第二目标特征后，所述电子设备通过将融合处理后的第二目标特征输入至mlp，可以实现对第一图像的分类，得到对应的分类结果；其中，所述分类结果可以包括涉黄、低俗、性感和正常等类别。
119.本技术实施例提供的图像分类方法，获取第一图像；利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。本技术实施例提供的技术方案，确定图像中至少一个目标区域(即包含关键特征的区域)后，利用图像中所有目标区域的分类结果和目标特征，实现对图像的全局分类，这样能够减少图像中无关特征对分类结果的影响，进而能够提高图像的全局分类的准确率。
120.下面结合应用实施例对本技术再作进一步详细的描述。
121.本技术应用实施例提出了一种将目标检测和分类识别相结合的二阶段分类网络，也可以称为逆向的二阶段分类网络。这是因为：相关技术中的二阶段检测网络中，例如faster-rcnn，均是在第一个阶段检测目标物体的前景类别，在第二个阶段检测目标物体的类别。而本技术应用实施例提出的二阶段分类网络，是在第一个阶段就确定目标物体的类别，然后基于所有类别对应的特征来判断图像对应的全局类别。
122.具体地，如图5所示，本技术提出的二阶段分类网络是通过backbone网络和目标检测网络，确定图像中多个目标区域的预测位置和类别。接着，基于确定的类别和目标区域的置信度，对目标区域的目标特征重新整理(英文可以表达为rearranged feature)。通过mlp对整理后的特征进行分类预测，能够得到图像对应的全局分类结果。
123.对于目标特征重新整理的过程，如图6所示，具体可以包括：针对每个类别，可以从对应的目标区域中选择出置信度最高的目标区域作为类别(英文可以表示为class)的目标区域。由于类别的目标区域的大小可能不同，因此，采用roi align对每个类别的目标特征进行处理，得到相同大小的目标特征。然后，通过对类别的目标区域的目标特征和置信度求积，得到乘积结果(可以理解为特征自信程度(英文可以表达为confidence multification))，以实现对类别的目标特征的更新。通过将不同类别的目标特征按照类别顺序在通道维度进行连接(如通过concat函数进行连接)，从而输出目标特征的融合结果。
124.实际应用时，所述电子设备采用上述二阶段分类网络对图像进行分类时，如图7所示，可以包括以下步骤：
125.步骤1：所述电子设备通过backbone网络提取图像的抽象特征，得到图像对应的特征图。
126.示例性地，如图7所示的大小为800*600*3的人物图像通过backbone网络提取出对
应的图像特征，可以得到大小为50*38*512的特征图。
127.步骤2：所述电子设备通过目标检测网络判断出图像中各个关键目标(即第一目标区域)的位置和类别，例如臀部、胸部等人体位置，再映射到特征图上，得到关键目标对应的目标特征(即第一目标特征)，例如30*20*512的臀部特征、20*18*512的胸部特征等。
128.其中，所述关键目标可以包括女性胸部、女性生殖器、男性生殖器或臀部区域等。
129.实际应用时，在确定图像中各个关键目标的类别后，所述电子设备会对各个关键目标进行归类。针对每个类别，所述电子设备会从每个类别对应的至少一个关键目标中选择置信度最高的关键目标作为类别的关键目标(即第二目标区域)。
130.步骤3：所述电子设备确定每个类别的关键目标对应的置信度，并利用类别的关键目标对应的关键特征和置信度，得到每个类别的最终目标特征；
131.这里，由于每个类别的目标特征(即第二目标特征)可能大小不同，不便于后续目标特征的融合，因此，所述电子设备需要采用roi align对类别的目标特征进行裁剪，得到大小相同的各个类别的目标特征。
132.示例性地，所述电子设备通过roi align将多个类别对应的不同大小的最终目标特征进行对齐，得到大小为7*7*512的目标特征。
133.另外，所述电子设备通过将每个类别的目标特征与对应的置信度相乘，可以得到每个类别的最终目标特征(也可以理解为对类别的目标特征的更新)。
134.实际应用时，所述电子设备可以通过roi align对目标特征进行处理，得到大小相同的目标特征后，再利用大小相同的目标特征和对应的置信度，得到类别的最终目标特征。或者，所述电子设备还可以利用目标特征和对应的置信度，得到类别的最终目标特征后，再通过roi align对最终目标特征进行处理，得到大小相同的最终目标特征。本技术应用实施例对目标特征进行大小对齐处理与对目标特征进行更新的先后顺序不作限定。
135.步骤4：按照预设类别顺序，所述电子设备将类别对应的大小相同的最终目标特征进行通道维度的拼接，输出最终目标特征的融合结果；
136.其中，所述电子设备可以预先设置类别的顺序，即对于预设类别由0到n，设置共n+1个类别的排列顺序；n的取值可以根据需要确定，n为大于1的整数。
137.这个过程中，针对预设类别中未从图像中检测到目标特征的类别，所述电子设备会将类别的最终目标特征的特征值均设置为0，然后，按照预设类别顺序，将各个类别的最终目标特征在通道维度上进行连接，得到最终目标特征的融合结果。
138.示例性地，当图像中的关键目标划分为4类，且每个类别对应的最终目标特征的大小为7*7*512，则所述电子设备输出的融合特征大小为7*7*2048。
139.步骤5：所述电子设备采用mlp以及激活层对输出的融合结果进行分类，输出整张图像的分类结果；
140.其中，所述分类结果可以包括涉黄、低俗、性感和正常等类别。
141.本技术应用实施例，采用逆向二阶段分类网络的方式，先判断出图像中所有关键目标的类别，再将每个类别的目标特征进行融合，进而实现对整张图像的分类判断。如此，能够提高整张图像的分类准确率。
142.另外，本技术应用实施例提出的端到端的分类网络，由于采用了图像中多个关键目标的特征而不是整张图像的特征进行类别的判断，能够提高对关键区域的关注度，进而
提高整张图像的分类准确率。同时，相较于仅对关键区域进行检测，再利用机器学习进行分类的方法，上述分类网络能够直接输出融合处理后的目标特征对应的分类结果，无需针对每个关键区域分别进行模型训练，还提高了整张图像的分类效率。
143.为了实现本技术实施例的图像分类方法，本技术实施例还提供一种图像分类装置，设置在电子设备上，如图8所示，该装置包括：
144.获取单元801，用于获取第一图像；
145.处理单元802，用于利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；
146.分类单元803，用于利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。
147.其中，在一实施例中，所述分类单元803，用于：
148.将所述至少一个第一目标区域的分类结果进行归类，得到至少一个类别；
149.针对所述至少一个类别中的每个类别，利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，得到所述至少一个类别的第二目标特征；
150.利用所述至少一个类别的第二目标特征，对所述第一图像进行分类。
151.在一实施例中，所述分类单元803，用于：
152.利用类别对应的至少一个第一目标区域确定类别的第二目标区域；
153.利用类别对应的至少一个第一目标区域的第一目标特征，确定类别的第二目标区域的第二目标特征。
154.在一实施例中，当所述至少一个第一目标区域中至少两个第一目标区域的分类结果相同时，确定所述至少两个第一目标区域中每个第一目标区域的置信度；
155.将置信度最高的第一目标区域作为类别的第二目标区域。
156.在一实施例中，所述分类单元803，还用于：
157.当每个类别的第二目标特征大小不同时，对所述至少一个类别的第二目标特征进行大小对齐处理，使得每个类别的第二目标特征大小相同；
158.利用大小相同的所述至少一个类别的第二目标特征，对所述第一图像进行分类。
159.在一实施例中，所述分类单元803，用于：
160.按照预设类别顺序，对所述至少一个类别的第二目标特征进行融合处理，得到融合处理后的第二目标特征；
161.利用融合处理后的第二目标特征，对所述第一图像进行分类。
162.在一实施例中，所述分类单元803，还用于：
163.针对所述至少一个类别中的每个类别，确定置信度，利用类别的置信度和第二目标特征，更新类别的第二目标特征；
164.按照预设类别顺序，对所述至少一个类别更新后的第二目标特征进行融合处理，得到融合处理后的第二目标特征。
165.在一实施例中，在进行融合处理时，在所述至少一个类别未包含预设类别中的至少一个类别的情况下，将未包含的至少一个类别的第二目标特征设置为预设特征。
166.在一实施例中，所述处理单元802，用于：
167.利用backbone模型，对所述第一图像进行特征提取，得到对应的特征图；
168.利用所述目标检测模型和所述特征图，确定至少一个第一目标区域和对应的分类结果和对应的第一目标特征。
169.实际应用时，所述获取单元801可由图像分类装置中的处理器结合通信接口实现；所述处理单元802和所述分类单元803可由图像分类装置中的处理器实现。
170.需要说明的是：上述实施例提供的图像分类装置在进行图像分类时，仅以上述各程序单元的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序单元完成，即将装置的内部结构划分成不同的程序单元，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
171.基于上述程序模块的硬件实现，且为了实现本技术实施例图像分类的方法，本技术实施例还提供了一种电子设备，如图9所示，该电子设备900包括：
172.通信接口901，能够与其他设备进行交互；
173.处理器902，与所述通信接口901连接，以实现与其他设备进行交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的方法；
174.存储器903，所述计算机程序存储在存储器903上。
175.具体地，所述处理器902，用于：
176.获取第一图像；
177.利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；
178.利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。
179.其中，实际应用时，所述处理器902可以通过所述通信接口901获取所述第一图像。
180.在一实施例中，所述处理器902，用于：
181.将所述至少一个第一目标区域的分类结果进行归类，得到至少一个类别；
182.针对所述至少一个类别中的每个类别，利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，得到所述至少一个类别的第二目标特征；
183.利用所述至少一个类别的第二目标特征，对所述第一图像进行分类。
184.在一实施例中，所述处理器902，用于：
185.利用类别对应的至少一个第一目标区域确定类别的第二目标区域；
186.利用类别对应的至少一个第一目标区域的第一目标特征，确定类别的第二目标区域的第二目标特征。
187.在一实施例中，
188.当所述至少一个第一目标区域中至少两个第一目标区域的分类结果相同时，确定所述至少两个第一目标区域中每个第一目标区域的置信度；
189.将置信度最高的第一目标区域作为类别的第二目标区域。
190.在一实施例中，所述处理器902，还用于：
191.当每个类别的第二目标特征大小不同时，对所述至少一个类别的第二目标特征进行大小对齐处理，使得每个类别的第二目标特征大小相同；
192.利用大小相同的所述至少一个类别的第二目标特征，对所述第一图像进行分类。
193.在一实施例中，所述处理器902，用于：
194.按照预设类别顺序，对所述至少一个类别的第二目标特征进行融合处理，得到融合处理后的第二目标特征；
195.利用融合处理后的第二目标特征，对所述第一图像进行分类。
196.在一实施例中，所述处理器902，还用于：
197.针对所述至少一个类别中的每个类别，确定置信度，利用类别的置信度和第二目标特征，更新类别的第二目标特征；
198.按照预设类别顺序，对所述至少一个类别更新后的第二目标特征进行融合处理，得到融合处理后的第二目标特征。
199.在一实施例中，在进行融合处理时，在所述至少一个类别未包含预设类别中的至少一个类别的情况下，将未包含的至少一个类别的第二目标特征设置为预设特征。
200.在一实施例中，所述处理器902，用于：
201.利用backbone模型，对所述第一图像进行特征提取，得到对应的特征图；
202.利用所述目标检测模型和所述特征图，确定至少一个第一目标区域和对应的分类结果和对应的第一目标特征。
203.需要说明的是：所述通信接口901和所述处理器902的具体处理过程可参照上述方法理解。
204.当然，实际应用时，电子设备900中的各个组件通过总线系统904耦合在一起。可理解，总线系统904用于实现这些组件之间的连接通信。总线系统904除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线系统904。
205.本技术实施例中的存储器903用于存储各种类型的数据以支持电子设备900的操作。这些数据的示例包括：用于在电子设备900上操作的任何计算机程序。
206.上述本技术实施例揭示的方法可以应用于所述处理器902，或者由所述处理器902实现。所述处理器902可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器902可以是通用处理器、dsp，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器902可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器903，所述处理器902读取存储器903中的信息，结合其硬件完成前述方法的步骤。
207.在示例性实施例中，电子设备900可以被一个或多个应用asic、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、现场可编程门阵列(fpga，field-programmable gate array)、通用处理器、控制器、微控制器(mcu，micro controller unit)、微处理器(microprocessor)、或者其他电子元件实现，用于执行前述方法。
208.在示例性实施例中，本技术实施例还提供了一种存储介质，即计算机存储介质，具
体为计算机可读存储介质，例如包括存储计算机程序的存储器903，上述计算机程序可由电子设备900的处理器902执行，以完成前述图像分类方法所述步骤。计算机可读存储介质可以是只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、磁性随机存取存储器(fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。
209.需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
210.另外，本技术实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。
211.以上所述，仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。

技术特征：
1.一种图像分类方法，其特征在于，包括：获取第一图像；利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。2.根据权利要求1所述的方法，其特征在于，所述利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类，包括：将所述至少一个第一目标区域的分类结果进行归类，得到至少一个类别；针对所述至少一个类别中的每个类别，利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，得到所述至少一个类别的第二目标特征；利用所述至少一个类别的第二目标特征，对所述第一图像进行分类。3.根据权利要求2所述的方法，其特征在于，所述利用类别对应的至少一个第一目标区域和对应的第一目标特征确定类别的第二目标特征，包括：利用类别对应的至少一个第一目标区域确定类别的第二目标区域；利用类别对应的至少一个第一目标区域的第一目标特征，确定类别的第二目标区域的第二目标特征。4.根据权利要求3所述的方法，其特征在于，当所述至少一个第一目标区域中至少两个第一目标区域的分类结果相同时，确定所述至少两个第一目标区域中每个第一目标区域的置信度；将置信度最高的第一目标区域作为类别的第二目标区域。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：当每个类别的第二目标特征大小不同时，对所述至少一个类别的第二目标特征进行大小对齐处理，使得每个类别的第二目标特征大小相同；利用大小相同的所述至少一个类别的第二目标特征，对所述第一图像进行分类。6.根据权利要求2所述的方法，其特征在于，所述利用所述至少一个类别的第二目标特征，对所述第一图像进行分类，包括：按照预设类别顺序，对所述至少一个类别的第二目标特征进行融合处理，得到融合处理后的第二目标特征；利用融合处理后的第二目标特征，对所述第一图像进行分类。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：针对所述至少一个类别中的每个类别，确定置信度，利用类别的置信度和第二目标特征，更新类别的第二目标特征；按照预设类别顺序，对所述至少一个类别更新后的第二目标特征进行融合处理，得到融合处理后的第二目标特征。8.根据权利要求6所述的方法，其特征在于，在进行融合处理时，在所述至少一个类别未包含预设类别中的至少一个类别的情况下，将未包含的至少一个类别的第二目标特征设置为预设特征。9.根据权利要求1至8任一项所述的方法，其特征在于，所述利用目标检测模型，确定所
述第一图像中至少一个第一目标区域和对应的分类结果和第一目标特征，包括：利用backbone模型，对所述第一图像进行特征提取，得到对应的特征图；利用所述目标检测模型和所述特征图，确定所述至少一个第一目标区域和对应的分类结果和对应的第一目标特征。10.一种图像分类装置，其特征在于，包括：获取单元，用于获取第一图像；处理单元，用于利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；分类单元，用于利用确定的所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。11.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行权利要求1至9任一项所述方法的步骤。12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。

技术总结
本申请公开了一种图像分类方法、装置、电子设备和存储介质。其中，方法包括：获取第一图像；利用目标检测模型，确定所述第一图像中至少一个第一目标区域和对应的分类结果和对应的第一目标特征；利用所述至少一个第一目标区域对应的分类结果和对应的第一目标特征，对所述第一图像进行分类。述第一图像进行分类。述第一图像进行分类。

技术研发人员：齐鹏飞
受保护的技术使用者：中国移动通信集团有限公司
技术研发日：2022.02.11
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：姿态估计方法、装置、可读存储介质和机器人与流程 下一篇：一种改善睡眠的组合物及其制备方法和用途与流程

图像分类方法、装置、电子设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

图像分类方法、装置、电子设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表