一种图像分类模型训练方法及装置与流程
未命名
07-19
阅读:155
评论:0
1.本发明涉及计算机视觉技术领域,尤其涉及一种图像分类模型训练方法及装置。
背景技术:
2.近年来人工智能的发展给人们的生活带来了极大的便利,图像分类作为其中的重点研究领域得到了极大的关注和发展,但是图像分类模型的训练往往离不开足够的标注数据,一方面,对于大量无标签数据人工进行标注十分的耗费人力物力,另外一方面,对于医疗图像和安防等领域来说,获取足量的训练数据并不是容易的事情,这些问题阻碍了少量数据条件下图像分类任务的发展。目前,亟需一种可以基于少量数据便可以训练得到分类效果较好的图像分类模型的方法。
技术实现要素:
3.有鉴于此,本发明实施例提供了一种图像分类模型训练方法、装置、计算机设备及计算机可读存储介质,以实现通过综合考虑不同类别的训练图像的全局特征和局部特征,对每张训练图像进行分类,可以提高图像分类的准确率,以及,可以降低训练图像的边缘数据对于图像分类模型的模型训练效果的影响,从而可以提高模型的训练效果,进而可以实现基于少量数据便可以训练得到分类效果较好的图像分类模型。
4.本发明实施例的第一方面,提供了一种图像分类模型训练方法,所述方法包括:
5.获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;
6.将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;
7.将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;
8.将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;
9.根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。
10.本发明实施例的第二方面,提供了一种图像分类模型训练装置,所述装置包括:
11.数据获取单元,用于获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;
12.第一确定单元,用于将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;
13.第二确定单元,用于将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;
14.第三确定单元,用于将所述训练样本图像集中每张训练图像的全局特征和局部特
征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;
15.模型调整单元,用于根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。
16.本发明实施例的第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
17.本发明实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
18.本发明实施例与现有技术相比存在的有益效果是:本实施例中先获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;然后,可以将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;接着,可以将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;紧接着,可以将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;最后,可以根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。可以理解的是,由于局部特征可以衡量训练图像中不同区域的辨别性强度,和可以反映每张训练图像中的重点特征,可以对训练图像进行更加完备的描述,优化边缘数据的特征向量;以及,全局特征可以反映每张图片整体特征的重要性,进一步给低质量的图像赋予更小的权重,以便增强特征的显著性;因此,本实施例中通过综合考虑不同类别的训练图像的全局特征和局部特征对每张训练图像进行分类,可以提高图像分类的准确率,以及,可以降低训练图像的边缘数据对于图像分类模型的模型训练效果的影响,从而可以提高模型的训练效果,进而可以实现基于少量数据便可以训练得到分类效果较好的图像分类模型。
附图说明
19.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
20.图1是本发明实施例提供的图像分类模型训练方法的的方法流程图;
21.图2是本发明实施例提供的卷积神经网络的网络结构示意图;
22.图3是本发明实施例提供的训练图像的局部特征的生成过程示意图;
23.图4是本发明实施例提供的图像分类模型训练装置的装置结构示意图;
24.图5是本发明实施例提供的计算机设备的示意图。
具体实施方式
25.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
26.下面将结合附图详细说明根据本发明实施例的一种图像分类模型训练方法和装置。
27.发明人经研究发现:近年来人工智能的发展给人们的生活带来了极大的便利,图像分类作为其中的重点研究领域得到了极大的关注和发展,但是图像分类模型的训练往往离不开足够的标注数据,一方面,对于大量无标签数据人工进行标注十分的耗费人力物力,另外一方面,对于医疗图像和安防等领域来说,获取足量的训练数据并不是容易的事情,这些问题的存在推动了少量数据条件下图像分类任务的发展。
28.小样本图像分类的目的在于希望训练得到的神经网络,在面对训练集中不存在的新的类别时,仅仅通过对少数几个样本的学习就能够获得良好的分类结果。在实际应用中,给定测试图片,以及该图片可能所处的n个类别,每个类别k张图片,判断该测试图片的种类。
29.目前的主流解决方法采用了基于任务的训练方式,即从整个训练集中随机采样生成多个小样本图像分类子任务模拟测试环境对模型进行训练,随之而来的问题是由于每个任务的数据量比较小,如果随机采样的过程中包含了边缘数据,会对分类效果带来很大的负面影响。
30.故此,本技术提供了一种图像分类模型训练方法,在该方法中先获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;然后,可以将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;接着,可以将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;紧接着,可以将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;最后,可以根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。可以理解的是,由于局部特征可以衡量训练图像中不同区域的辨别性强度,和可以反映每张训练图像中的重点特征,可以对训练图像进行更加完备的描述,优化边缘数据的特征向量;以及,全局特征可以反映每张图片整体特征的重要性,进一步给低质量的图像赋予更小的权重,以便增强特征的显著性;因此,本实施例中通过综合考虑不同类别的训练图像的全局特征和局部特征对每张训练图像进行分类,可以提高图像分类的准确率,以及,可以降低训练图像的边缘数据对于图像分类模型的模型训练效果的影响,从而可以提高模型的训练效果,进而可以实现基于少量数据便可以训练得到分类效果较好的图像分类模型。
31.图1是本发明实施例提供的一种图像分类模型训练方法的方法流程图。如图1所示,该图像分类模型训练方法包括:
32.s101:获取训练样本图像集。
33.在本实施例中,训练样本图像集可以为从预设图像数据库中随机采样得到的训练样本图像集,训练样本图像集可视为一个小样本图像分类子任务。图像分类模型训练期间,可以采样生成多个上述的子任务模拟测试环境对模型进行训练。
34.其中,所述训练样本图像集可以包括n个类别的训练图像,且每个类别均包括m张训练图像,例如训练图像可以为医疗图像、安防图像。在一种实现方式中,训练样本图像集可以包括支撑集和查询集,支撑集包括n个类别的训练图像,每个类别包括k张训练图像,查询集同样有n个类别的训练图像,每个类别包含q张训练图像。可以理解的是,支撑集和查询集均可适用于本实施例提供的方法对图像分类模型进行训练,支撑集可以用于对图像分类模型的模型参数进行初步调整,查询集可以用于对图像分类模型的模型参数进行进一步调整。
35.s102:将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征。
36.训练图像的全局特征可以理解为能够反映训练图像整体的特征。在本实施例中,可以利用图像分类模型中的卷积神经网络得到训练样本图像集中每张训练图像的全局特征。
37.在一种实现方式中,如图2所示,所述卷积神经网络包括四个卷积模块和一个最大池化层。在本实施例中,可以先将训练样本图像集中的所有训练图像输入四个卷积模块中获取到每张训练图像对应的特征图,接下来,将每张训练图像对应的特征图输入最大池化层,得到每张训练图像的全局特征。
38.其中,所述四个卷积模块为级联关系,且最后一个卷积模块与所述最大池化层连接。可以理解为,四个卷积模块依次相连,且最后一个卷积模块与所述最大池化层连接。所述四个卷积模块的卷积核大小相同,例如卷积核大小可以均为3*3,且,所述四个卷积模块的通道数互不相同,例如,四个卷积模块的通道数分别为64、160、320和640。具体地,每个卷积模块均包括第一卷积层(即图2中的卷积_1)、第二卷积层(即图2中的卷积_2)和第三卷积层(即图2中的卷积_3)和relu函数,且第一卷积层、第二卷积层和第三卷积层和relu函数依次连接。其中,第一卷积层、第二卷积层和第三卷积层均包括批归一化(batch normalization,bn)层和relu函数。
39.s103:将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征。
40.在得到所述训练样本图像集中每张训练图像的全局特征后,可以将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征。其中,训练图像的局部特征可以理解为训练图像中局部图像区域对应的特征图,需要说明的是,训练图像的局部特征可以衡量训练图像中不同区域的辨别性强度,和可以反映训练图像中的重点特征,可以对训练图像进行更加完备的描述,以便可以优化训练图像中边缘数据的特征向量。
41.作为一种示例,针对所述训练样本图像集中每张训练图像,所述局部特征生成模块可以先将所述训练图像的全局特征拆分成多个图像区域对应的图像特征,例如,可以如图3所示,将训练图像划分为9个图像区域,针对每个图像区域,根据该图像区域在训练图像中的位置,从全局特征中确定该位置对应的特征,以及将该位置对应的特征作为该图像区
域对应的图像特征。
42.然后,所述局部特征生成模块计算每个图像区域对应的图像特征分别与第一类别训练图像的全局特征之间的第一相似度,其中,所述第一类别训练图像为和所述训练图像属于同一类别的训练图像。例如,可以将图像区域对应的图像特征与第一类别训练图像的全局特征的向量内积作为图像区域对应的图像特征与第一类别训练图像的全局特征之间的第一相似度。
43.接着,所述局部特征生成模块计算每个图像区域对应的图像特征分别与第二类别训练图像的全局特征之间的第二相似度,其中,所述第二类别训练图像为和所述训练图像不属于同一类别的训练图像。例如,可以将图像区域对应的图像特征与第二类别训练图像的全局特征的向量内积作为图像区域对应的图像特征与第二类别训练图像的全局特征之间的第二相似度。
44.紧接着,所述局部特征生成模块可以根据所述第一相似度和所述第二相似度,生成每个图像区域对应的注意力值。针对每个图像区域,可以计算所有第一相似度的平均值和所有第二相似度的平均值,将所有第一相似度的平均值和所有第二相似度的平均值相结合生成图像区域对应的注意力值,例如,将两者之和或者两者分别乘以各自分别对应的预设权重后的和值作为注意力值。可以理解的是,图像区域对应的注意力值可以用来反映衡量该图像区域对应的图像特征的类内共有程度和类间独特程度。
45.最后,所述局部特征生成模块可以将注意力值为最大的图像区域对应的图像特征作为训练图像的局部特征。需要说明的是,由于图像区域对应的注意力值越高,说明该图像区域的类内共有程度越高并且类间独特程度越高,并且,类内共有程度越高并且类间独特程度越高的特征能够更好的对训练图像进行表征,因此,可以选取注意力值为最大的图像区域对应的图像特征作为训练图像的局部特征。
46.可见,本实施例通过综合考虑训练图像中不同图像区域的类内和类间相似程度(即第一相似度和第二相似度),提出了基于注意力机制的局部特征生成模块,衡量不同图像区域的辨别性强度,给每张训练图像生成重点的局部特征,对训练图像进行更加完备的描述,可以优化边缘数据的特征向量。
47.s104:将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别。
48.在本实施例中,在得到训练样本图像集中每张训练图像的全局特征和局部特征后,可以利用训练样本图像集中每张训练图像的全局特征和局部特征图像,以及,分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别。可以理解的是,由于局部特征可以衡量训练图像中不同区域的辨别性强度,和可以反映每张训练图像中的重点特征,可以对训练图像进行更加完备的描述,优化边缘数据的特征向量;以及,全局特征可以反映每张图片整体特征的重要性,进一步给低质量的图像赋予更小的权重,以便增强特征的显著性;因此,本实施例中通过综合考虑不同类别的训练图像的全局特征和局部特征对每张训练图像进行分类,可以提高图像分类的准确率,以及,可以降低训练图像的边缘数据对于图像分类模型的模型训练效果的影响,从而可以提高模型的训练效果,进而可以实现基于少量数据便可以训练得到分类效果较好的图像分类模型。
49.作为一种示例,针对所述训练样本图像集中每张训练图像,可以先根据所述训练图像的全局特征和局部特征,确定所述训练图像的表征向量;例如,可以将训练图像的全局特征和局部特征相连接,构成每张训练图像的表征向量。
50.在确定每张训练图像的表征向量后,所述类别描述生成模块可以计算所述训练图像的表征向量分别与所述第一类别训练图像的表征向量之间的第三相似度。其中,所述第一类别训练图像为和所述训练图像属于同一类别的训练图像。例如,可以将训练图像的表征向量与第一类别训练图像的表征向量的向量内积作为所述训练图像的表征向量与所述第一类别训练图像的表征向量之间的第三相似度。
51.在确定每张训练图像的表征向量后,所述类别描述生成模块可以计算所述训练图像的表征向量分别与所述第二类别训练图像的表征向量之间的第四相似度。其中,所述第二类别训练图像为和所述训练图像不属于同一类别的训练图像。例如,可以将所述训练图像的表征向量与所述第二类别训练图像的表征向量的向量内积作为所述训练图像的表征向量与所述第二类别训练图像的表征向量之间的第四相似度。
52.接着,所述类别描述生成模块可以根据所述第三相似度和所述第四相似度,生成所述训练图像对应的注意力值。针对每个图像区域,可以计算所有第三相似度的平均值和所有第四相似度的平均值,将所有第三相似度的平均值和所有第四相似度的平均值相结合生成训练图像对应的注意力值,例如,将两者之和或者两者分别乘以各自分别对应的预设权重后的和值作为训练图像对应的注意力值。可以理解的是,训练图像对应的注意力值可以用来反映衡量该图片向量整体的类内共有程度和类间独特程度。
53.紧接着,所述类别描述生成模块可以根据所述训练样本图像集中每张训练图像对应的注意力值,确定每个类别对应的类别描述向量。具体地,针对每一类别,可以将属于所述类别的训练图像对应的注意力值均输入softmax函数,得到属于所述类别的每一训练图像的权重值。需要说明的是,类内相似度越高(即第三相似度越高)并且类间相似度(即第四相似度)越低的训练图像的权重值更高,反之,类内相似度越低(即第三相似度越低)并且类间相似度(即第四相似度)越高的训练图像的权重值更高。以及,根据属于所述类别的每一训练图像的权重值和表征向量,确定所述类别对应的类别描述向量,例如,可以将属于同一类别的每一训练图像的权重值和表征向量的乘积之和作为所述类别对应的类别描述向量,即先计算一类别下每一训练图像的权重值和表征向量的乘积,接着将该类别下所有训练图像的权重值和表征向量的乘积进行求和,以及将该和值作为所述类别对应的类别描述向量。
54.最后,针对所述训练样本图像集中每张训练图像,可以根据所述训练图像的表征向量与每个类别对应的类别描述向量,确定所述训练图像的预测类别;例如,可以计算所述训练图像的表征向量分别与每个类别对应的类别描述向量之间的距离,以及,将距离最小的类别作为所述训练图像的预测类别。
55.可见,本实施例通过综合考虑不同训练图像的整体的类内和类间相似程度(即第三相似度和第四相似度),提出了基于注意力机制的类别描述生成模块,计算每张训练图像整体特征的重要性,进一步给低质量的图像赋予更小的权重,增强特征的显著性。
56.s105:根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。
57.在本实施例中,可以预先设置有所述训练样本图像集中每张训练图像的真实类别,因此,获取到所述训练样本图像集中每张训练图像的预测类别后,可以根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整。
58.作为一种示例,可以先根据所述训练样本图像集中每张训练图像的预测类别和真实类别,确定损失函数值;其中,所述图像分类模型的损失函数可以为交叉熵损失函数,即可以利用交叉熵计算损失和梯度,对模型参数进行优化。然后,可以根据所述损失函数值对所述图像分类模型的模型参数进行调整,得到调整后的图像分类模型。接着,对所述调整后的图像分类模型重新继续执行所述获取训练样本图像集的步骤,即对所述调整后的图像分类模型重新继续执行s101-s105,直至所述图像分类模型满足网络收敛条件(例如训练次数达到预设次数或者模型参数满足预设阈值)。
59.本发明实施例与现有技术相比存在的有益效果是:本实施例中先获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;然后,可以将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;接着,可以将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;紧接着,可以将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;最后,可以根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。可以理解的是,由于局部特征可以衡量训练图像中不同区域的辨别性强度,和可以反映每张训练图像中的重点特征,可以对训练图像进行更加完备的描述,优化边缘数据的特征向量;以及,全局特征可以反映每张图片整体特征的重要性,进一步给低质量的图像赋予更小的权重,以便增强特征的显著性;因此,本实施例中通过综合考虑不同类别的训练图像的全局特征和局部特征对每张训练图像进行分类,可以提高图像分类的准确率,以及,可以降低训练图像的边缘数据对于图像分类模型的模型训练效果的影响,从而可以提高模型的训练效果,进而可以实现基于少量数据便可以训练得到分类效果较好的图像分类模型。
60.上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
61.下述为本发明系统实施例,可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明方法实施例。
62.图4是本发明实施例提供的图像分类模型训练装置的装置结构示意图。所述图像分类模型训练装置包括:
63.数据获取单元401,用于获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;
64.第一确定单元402,用于将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;
65.第二确定单元403,用于将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局
部特征;
66.第三确定单元404,用于将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;
67.模型调整单元405,用于根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。
68.可选的,所述卷积神经网络包括四个卷积模块和一个最大池化层;其中,所述四个卷积模块为级联关系,且最后一个卷积模块与所述最大池化层连接;所述四个卷积模块的卷积核大小相同,且,所述四个卷积模块的通道数互不相同。
69.可选的,每个卷积模块均包括第一卷积层、第二卷积层和第三卷积层和relu函数。
70.可选的,所述第二确定单元403,用于:
71.针对所述训练样本图像集中每张训练图像,所述局部特征生成模块将所述训练图像的全局特征拆分成多个图像区域对应的图像特征;所述局部特征生成模块计算每个图像区域对应的图像特征分别与第一类别训练图像的全局特征之间的第一相似度,其中,所述第一类别训练图像为和所述训练图像属于同一类别的训练图像;所述局部特征生成模块计算每个图像区域对应的图像特征分别与第二类别训练图像的全局特征之间的第二相似度,其中,所述第二类别训练图像为和所述训练图像不属于同一类别的训练图像;所述局部特征生成模块根据所述第一相似度和所述第二相似度,生成每个图像区域对应的注意力值;所述局部特征生成模块将注意力值为最大的图像区域对应的图像特征作为训练图像的局部特征。
72.可选的,所述第三确定单元404,用于:
73.针对所述训练样本图像集中每张训练图像,根据所述训练图像的全局特征和局部特征,确定所述训练图像的表征向量;所述类别描述生成模块计算所述训练图像的表征向量分别与所述第一类别训练图像的表征向量之间的第三相似度;所述类别描述生成模块计算所述训练图像的表征向量分别与所述第二类别训练图像的表征向量之间的第四相似度;所述类别描述生成模块根据所述第三相似度和所述第四相似度,生成所述训练图像对应的注意力值;
74.所述类别描述生成模块根据所述训练样本图像集中每张训练图像对应的注意力值,确定每个类别对应的类别描述向量;
75.针对所述训练样本图像集中每张训练图像,根据所述训练图像的表征向量与每个类别对应的类别描述向量,确定所述训练图像的预测类别。
76.可选的,所述第三确定单元404,具体用于:
77.针对每一类别,将属于所述类别的训练图像对应的注意力值均输入softmax函数,得到属于所述类别的每一训练图像的权重值;根据属于所述类别的每一训练图像的权重值和表征向量,确定所述类别对应的类别描述向量。
78.可选的,所述模型调整单元405,用于:
79.根据所述训练样本图像集中每张训练图像的预测类别和真实类别,确定损失函数值;
80.根据所述损失函数值对所述图像分类模型的模型参数进行调整,得到调整后的图像分类模型;
81.对所述调整后的图像分类模型重新继续执行所述获取训练样本图像集的步骤,直至所述图像分类模型满足网络收敛条件;
82.其中,所述图像分类模型的损失函数为交叉熵损失函数。
83.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
84.图5是本发明实施例提供的计算机设备5的示意图。如图5所示,该实施例的计算机设备5包括:处理器501、存储器502以及存储在该存储器502中并且可以在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各实施例中各模块/模块的功能。
85.示例性地,计算机程序503可以被分割成一个或多个模块/模块,一个或多个模块/模块被存储在存储器502中,并由处理器501执行,以完成本发明。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序503在计算机设备5中的执行过程。
86.计算机设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是计算机设备5的示例,并不构成对计算机设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
87.处理器501可以是中央处理模块(central processing unit,cpu),也可以是其它通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
88.存储器502可以是计算机设备5的内部存储模块,例如,计算机设备5的硬盘或内存。存储器502也可以是计算机设备5的外部存储设备,例如,计算机设备5上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,存储器502还可以既包括计算机设备5的内部存储模块也包括外部存储设备。存储器502用于存储计算机程序以及计算机设备所需的其它程序和视频。存储器502还可以用于暂时地存储已经输出或者将要输出的视频。
89.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块、模块完成,即将系统的内部结构划分成不同的功能模块或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,各功能模块、模
块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中模块、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
90.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
91.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
92.在本发明所提供的实施例中,应该理解到,所揭露的系统/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/计算机设备实施例仅仅是示意性的,例如,模块或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,系统或模块的间接耦合或通讯连接,可以是电性,机械或其它的形式。
93.作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
94.另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
95.集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
96.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种图像分类模型训练方法,其特征在于,所述方法包括:获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络包括四个卷积模块和一个最大池化层;其中,所述四个卷积模块为级联关系,且最后一个卷积模块与所述最大池化层连接;所述四个卷积模块的卷积核大小相同,且,所述四个卷积模块的通道数互不相同。3.根据权利要求2所述的方法,其特征在于,每个卷积模块均包括第一卷积层、第二卷积层和第三卷积层和relu函数。4.根据权利要求1所述的方法,其特征在于,所述将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征,包括:针对所述训练样本图像集中每张训练图像,所述局部特征生成模块将所述训练图像的全局特征拆分成多个图像区域对应的图像特征;所述局部特征生成模块计算每个图像区域对应的图像特征分别与第一类别训练图像的全局特征之间的第一相似度,其中,所述第一类别训练图像为和所述训练图像属于同一类别的训练图像;所述局部特征生成模块计算每个图像区域对应的图像特征分别与第二类别训练图像的全局特征之间的第二相似度,其中,所述第二类别训练图像为和所述训练图像不属于同一类别的训练图像;所述局部特征生成模块根据所述第一相似度和所述第二相似度,生成每个图像区域对应的注意力值;所述局部特征生成模块将注意力值为最大的图像区域对应的图像特征作为训练图像的局部特征。5.根据权利要求4所述的方法,其特征在于,所述将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别,包括:针对所述训练样本图像集中每张训练图像,根据所述训练图像的全局特征和局部特征,确定所述训练图像的表征向量;所述类别描述生成模块计算所述训练图像的表征向量分别与所述第一类别训练图像的表征向量之间的第三相似度;所述类别描述生成模块计算所述训练图像的表征向量分别与所述第二类别训练图像的表征向量之间的第四相似度;所述类别描述生成模块根据所述第三相似度和所述第四相似度,生成所述训练图像对应的注意力值;所述类别描述生成模块根据所述训练样本图像集中每张训练图像对应的注意力值,确定每个类别对应的类别描述向量;针对所述训练样本图像集中每张训练图像,根据所述训练图像的表征向量与每个类别
对应的类别描述向量,确定所述训练图像的预测类别。6.根据权利要求5所述的方法,其特征在于,所述类别描述生成模块根据所述训练样本图像集中每张训练图像对应的注意力值,确定每个类别对应的类别描述向量,包括:针对每一类别,将属于所述类别的训练图像对应的注意力值均输入softmax函数,得到属于所述类别的每一训练图像的权重值;根据属于所述类别的每一训练图像的权重值和表征向量,确定所述类别对应的类别描述向量。7.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件,包括:根据所述训练样本图像集中每张训练图像的预测类别和真实类别,确定损失函数值;根据所述损失函数值对所述图像分类模型的模型参数进行调整,得到调整后的图像分类模型;对所述调整后的图像分类模型重新继续执行所述获取训练样本图像集的步骤,直至所述图像分类模型满足网络收敛条件;其中,所述图像分类模型的损失函数为交叉熵损失函数。8.一种图像分类模型训练装置,其特征在于,所述装置包括:数据获取单元,用于获取训练样本图像集,其中,所述训练样本图像集包括n个类别的训练图像;第一确定单元,用于将所述训练样本图像集输入图像分类模型中的卷积神经网络,得到所述训练样本图像集中每张训练图像的全局特征;第二确定单元,用于将所述训练样本图像集中每张训练图像的全局特征输入所述图像分类模型中的局部特征生成模块,得到所述训练样本图像集中每张训练图像的局部特征;第三确定单元,用于将所述训练样本图像集中每张训练图像的全局特征和局部特征输入所述图像分类模型中的类别描述生成模块,得到所述训练样本图像集中每张训练图像的预测类别;模型调整单元,用于根据所述训练样本图像集中每张训练图像的预测类别和真实类别,对所述图像分类模型的模型参数进行调整,直至所述图像分类模型满足网络收敛条件。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项方法的步骤。
技术总结
本发明提供了一种图像分类模型训练方法及装置。该方法通过综合考虑不同类别的训练图像的全局特征和局部特征,对每张训练图像进行分类,可以提高图像分类的准确率,以及,可以降低训练图像的边缘数据对于图像分类模型的模型训练效果的影响,从而可以提高模型的训练效果,进而可以实现基于少量数据便可以训练得到分类效果较好的图像分类模型。分类效果较好的图像分类模型。分类效果较好的图像分类模型。
技术研发人员:赵瑞静 鲍思羽 杨东明 陈艺丹 李响
受保护的技术使用者:天翼云科技有限公司
技术研发日:2023.03.09
技术公布日:2023/7/18
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
