一种图像识别不确定性知识蒸馏方法与系统

未命名 10-19 阅读:103 评论:0


1.本发明涉及计算机视觉领域,尤其是涉及一种图像识别不确定性知识蒸馏方法与系统。


背景技术:

2.知识蒸馏是神经网络模型压缩与加速技术之一,其能有效地降低基于神经网络的图像分类或者目标检测等模型在资源受限设备上的资源需求同时保持较高的识别精度。其基本原理是使用一个训练完成的图像识别精度很高的神经网络模型(第一神经网络模型)的特征表达及预测图像标签信息,指导另一个参数量及计算量更少的神经网络模型(第二神经网络模型)的训练。该方法能明显地改善第二神经网络模型的图像识别精度而所需的资源很少。然而,目前的知识蒸馏技术在从第一神经网络模型中提取及蒸馏知识表达时认为该知识表达是准确且判别性强的,忽略了第一神经网络模型中知识表达中包含的噪声信息及其他误导性信息,使得第二神经网络模型获取的知识表达表达能力较弱,阻碍了图像识别精度的进一步提升。


技术实现要素:

3.为解决现有技术的不足,在知识蒸馏时能提取更多确定性且判别性强的知识表达,实现提升第二神经网络模型图像识别精度的目的,本发明采用如下的技术方案:
4.一方面,本发明提供一种图像识别不确定性知识蒸馏方法,所述方法包括:
5.s100:收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
6.s200:选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
7.s300:选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
8.s400:使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型;
9.可选地,选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数,包括:
10.选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
11.计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
12.计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
13.根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
14.根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
15.根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
16.可选地,使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,包括:
17.使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
18.使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
19.使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
20.第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数;
21.第二方面,本发明提供一种图像识别不确定性知识蒸馏系统,包括:
22.获取模块,用于收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
23.第一更新模块:与所述获取模块连接,用于选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
24.不确定性建模模块:与所述获取模块及第一更新模块连接,用于选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
25.第二更新模块:与获取模块、第一更新模块及不确定性建模模块连接,用于使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型
26.可选地,不确定性建模模块,具体包括:
27.选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
28.计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
29.计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
30.根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
31.根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
32.根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
33.可选地,第二更新模块,具体包括:
34.使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
35.使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
36.使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
37.第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数;
38.第三方面,应用本发明提供一种图像识别不确定性知识蒸馏方法的一种图像处理方法,包括:
39.获取第二数量的待处理测试图像样本;
40.利用前述图像识别不确定性知识蒸馏方法训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
41.得到识别处理结果并输出;
42.第四方面,本发明提供一种图像处理系统,包括:
43.获取模块,用于获取第二数量的待处理测试图像样本;
44.识别处理模块,与所述获取模块连接,用于利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
45.识别输出模块,与所述识别处理模块连接,用于获取待处理图像,利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理,得到识别处理结果并输出;
46.本发明还涉及一种图像识别处理设备,包括图像采集器、存储器、一个或多个处理器和外部输出器,所述图像采集器用于采集第一及第二数量的图像样本,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种图像识别不确定性知识蒸馏方法、一种图像处理方法,所述外部输出器用于输出显示所述图像处理方法得到的图像识别处理结果。
47.本发明还涉及一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行本发明的一种图像识别不确定性知识蒸馏方法及一种图像处理方法。
48.本发明还涉及一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本发明的一种图像识别不确定性知识蒸馏方法及一种图像处理方法。
49.经由上述的技术方案可知,与现有技术相比,本发明的优势和有益效果在于:
50.本发明可以灵活地用于任意的教师-学生模型组合,可以很轻易地部署到现有的神经网络模型中对图像进行识别,相比现有的知识蒸馏的图像识别技术,能够明显地改善
第二神经网络模型的图像识别精度,且训练完成的模型计算量大幅减少,以resnet32x4作为第一神经网络模型,以vgg8作为第二神经网络模型,在cifar100数据集上使用本发明,可以将第二神经网络模型的图像分类精度由70.36%提升至75.88%。
附图说明
51.图1是本发明实施例中一种图像识别不确定性知识蒸馏方法的流程图。
52.图2是本发明实施例中一种图像识别不确定性知识蒸馏方法的得到第一损失函数流程图。
53.图3是本发明实施例中一种图像识别不确定性知识蒸馏方法的更新第二神经网络模型的参数流程图。
54.图4是本发明实施例中一种图像识别不确定性知识蒸馏系统的结构示意图。
55.图5是本发明实施例中一种图像处理方法的流程图。
56.图6是本发明实施例中一种图像处理系统的结构示意图。
57.图7是本发明实施例中一种图像识别不确定性知识蒸馏方法的图像识别设备的结构示意图。
具体实施方式
58.以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
59.实施例1
60.如图1所示,一种图像识别不确定性知识蒸馏方法,具体步骤包括:
61.s100:收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
62.本发明的实施例中,收集样本图像并处理和标注待处理图像,划分为第一数量的有标签训练图像样本,保存至数据存储设备中;标注是指根据任务需求对图像或者图像中的像素进行人工识别种类,如图像分类任务中则是标出图像中主要的物体类别、目标检测任务中则是标出图像中物体所含的像素多少及类别等。所收集的图像包含但不限于人脸图像、自然场景图像等。
63.s200:选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
64.本发明的实施例中,选定第一神经网络模型,并使用步骤s100中的第一数量的有标签训练图像样本训练,训练后的神经网络模型结构文件及参数值保存至数据存储设备中;第一神经网络模型可以采用包括但不限于现有的任意神经网络模型,如resnet、vggnet等,或者重新设计新型的卷积神经网络模型。
65.在本发明实施例中,使用第一神经网络模型对有标签训练图像样本进行处理得到中间层样本特征表达及软标签信息,具体地,得到的第一神经网络模型中间层样本特征表达形式化为(c
t
表示样本特征表达的通道数量,h
t
表示样本特征表达的高度,w
t
表示样本特征表达的宽度),得到的软标签信息形式化为:(c表示图像内目
标类别数目)。
66.s300:选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
67.本发明的实施例中,选定第二神经网络模型,第二神经网络模型可以采用包括但不限于现有的任意神经网络模型,如mobilenet、shufflenet等,或者重新设计新型的卷积神经网络模型。
68.本发明实施例中,可选地,如图2所示,步骤s300所述选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数,具体步骤包括:
69.s301:选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
70.本发明的实施例中,可选地,选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达,具体地,得到的第二神经网络模型中间层样本特征表达形式化为(cs表示样本特征表达的通道数量,hs表示样本特征表达的高度,ws表示样本特征表达的宽度)
71.s302:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
72.本发明实施例中,可选地,计算通道之间的语义相似度使用余弦距离计算,形式化地表示为:
[0073][0074][0075]
式中,表示特征维度变换函数,φ表示转换函数,使得第二神经网络模型中间层样本特征表达的通道数量与第一神经网络模型中间层样本特征表达的通道数量相同,||||2表示二元范数。
[0076]
s303:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
[0077]
本发明实施例中,可选地,计算样本特征表达的空间特征表达之间的语义相似度使用余弦距离计算,形式化地表示为:
[0078][0079]
s304:根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
[0080]
本发明实施例中,可选地,得到第一神经网络模型每个样本特征表达不确定性的均值,形式化地表示为:
[0081]
μ=diag(α
ch
)

diag(α
sp
)
ꢀꢀꢀ
(4)
[0082]
式中,diag表示取矩阵对角线值的操作,

表示可扩展的按元素相乘。
[0083]
s305:根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
[0084]
本发明实施例中,可选地,根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值,形式化地表示为:
[0085][0086][0087][0088]
式中,表示全连接层,表示卷积操作。
[0089]
s306:根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
[0090]
本发明实施例中,可选地,根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,形式化地表示为:
[0091]
ω=μ+σ
×

ꢀꢀꢀ
(8)
[0092]
式中,∈表示标准高斯分布。
[0093]
本发明实施例中,可选地,得到知识蒸馏第一损失函数,形式化地表示为:
[0094][0095]
式中,m表示第一及第二神经网络模型中间层特征表达的总的特征位置个数,λ表示损失权重。
[0096]
s400:使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型;
[0097]
本发明的实施例中,可选地,如图3所示,步骤s400所述使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,具体步骤包括:
[0098]
s401:使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
[0099]
本发明实施例中,可选地,使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息为:(c表示图像内目标类别数目)。
[0100]
s402:使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
[0101]
本发明实施例中,可选地,使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数,形式化地表示为:
[0102]
[0103]
式中,表示softmax函数。
[0104]
s403:使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
[0105]
本发明实施例中,可选地,使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数,形式化地表示为:
[0106][0107]
s404:第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数;
[0108]
本发明实施例中,可选地,第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数,形式化地表示为:
[0109][0110]
式中,t及γ表示损失函数权重值。
[0111]
实施例2
[0112]
如图4所示,本实施例提供一种用于实现实施例1所述的方法的一种图像识别不确定性知识蒸馏系统,包括:
[0113]
获取模块501,用于收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;
[0114]
第一更新模块502:与所述获取模块501连接,用于选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;
[0115]
不确定性建模模块503:与所述获取模块501及第一更新模块502连接,用于选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;
[0116]
第二更新模块504:与获取模块501、第一更新模块502及不确定性建模模块503连接,用于使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型
[0117]
本发明实施例中,可选地,不确定性建模模块503,具体用于:
[0118]
选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;
[0119]
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;
[0120]
计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;
[0121]
根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;
[0122]
根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;
[0123]
根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数;
[0124]
本发明实施例中,可选地,第二更新模块504,具体用于:
[0125]
使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;
[0126]
使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;
[0127]
使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;
[0128]
第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数。
[0129]
实施例3
[0130]
如图5所示,本发明实施例提供应用实施例1所述的一种图像识别不确定性知识蒸馏的一种图像处理方法,所述图像处理方法具体步骤包括:
[0131]
s601:获取第二数量的待处理测试图像样本;
[0132]
在本发明实施例中,待处理测试图像样本可以是自然景观图像、人脸图像等。
[0133]
s602:利用前述图像识别不确定性知识蒸馏方法训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
[0134]
s603:得到识别处理结果并输出。
[0135]
实施例4
[0136]
如图6所示,本实施例提供实现实施例3的一种图像处理方法的一种图像处理系统,所述图像处理系统包括:
[0137]
获取模块701,用于获取第二数量的待处理测试图像样本;
[0138]
识别处理模块702,与所述获取模块701连接,用于利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;
[0139]
识别输出模块703,与所述识别处理模块702连接,用于获取待处理图像,利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理,得到识别处理结果并输出。
[0140]
实施例5
[0141]
与实施例1所述的一种图像识别不确定性知识蒸馏方法的实施例相对应,本发明还提供了实现一种图像识别不确定性知识蒸馏方法的图像识别设备的实施例。
[0142]
参见图7,本发明实施例提供的实现一种图像识别不确定性知识蒸馏方法的图像识别设备,包括图像采集器、存储器、一个或多个处理器和外部输出器,图像采集器用于采集第一及第二数量的图像样本,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例1中的一种图像识别不确定性知识蒸馏方法及实施例3所述的图像处理方法,所述外部输出器用于输出显示实施例3所述图像处理方法得到的图像识别处理结果。
[0143]
本发明图像识别不确定性知识蒸馏方法及图像识别设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备
或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明图像识别不确定性知识蒸馏方法及图像识别设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0144]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0145]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0146]
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的图像识别不确定性知识蒸馏方法及图像识别方法。
[0147]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0148]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0149]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

技术特征:
1.一种图像识别不确定性知识蒸馏方法,具体步骤包括:s100:收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样本;s200:选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;s300:选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;s400:使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型。2.根据权利要求1所述一种图像识别不确定性知识蒸馏方法,其特征在于,所述选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数,具体步骤包括:s301:选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;s302:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;s303:计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;s304:根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;s305:根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;s306:根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数。3.根据权利要求1所述一种图像识别不确定性知识蒸馏方法,其特征在于,所述使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,具体步骤包括:s401:使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;s402:使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;s403:使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;s404:第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数。4.一种图像识别不确定性知识蒸馏系统,具体包括:获取模块,用于收集样本图像,并进行处理和标注,得到第一数量的有标签训练图像样
本;第一更新模块:与所述获取模块连接,用于选定第一神经网络模型,使用第一数量的训练图像样本进行训练,更新网络模型的参数值,得到训练好的第一神经网络模型,输入训练样本图像至第一神经网络模型得到模型中间层样本特征表达及图像处理输出的软标签信息;不确定性建模模块:与所述获取模块及第一更新模块连接,用于选定第二神经网络模型,对第一数量的训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型得到的中间层样本特征表达进行不确定性建模,得到第一损失函数;第二更新模块:与获取模块、第一更新模块及不确定性建模模块连接,用于使用第一神经网络模型输出的图像处理软标签信息及训练图像样本,联合第一损失函数,得到总体损失函数并更新第二神经网络模型的参数,得到训练好的第二神经网络模型。5.根据权利要求4所述一种图像识别不确定性知识蒸馏系统,其特征在于,所述不确定性建模模块,具体包括:选定第二神经网络模型中间卷积层,并输入训练图像样本,得到第二神经网络模型中间层样本特征表达;计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的通道之间的语义相似度;计算第二神经网络模型中间层样本特征表达与第一神经网络模型中间层样本特征表达的空间特征表达之间的语义相似度;根据计算得到的通道语义相似度及空间特征表达语义相似度,得到第一神经网络模型每个样本特征表达不确定性的均值;根据计算得到的通道语义相似度及空间特征表达语义相似度,使用全连接层进一步处理得到第一神经网络模型每个样本特征表达不确定性的方差值;根据计算得到的样本特征表达不确定性的均值及方差值,使用重参数化技巧得到不确定性值,以此得到知识蒸馏第一损失函数。6.根据权利要求4所述一种图像识别不确定性知识蒸馏系统,其特征在于,所述第二更新模块,具体包括:使用第二神经网络模型对训练样本图像进行处理,输出得到处理后的预测标签信息;使用第一神经网络模型输出的图像处理软标签信息与第二神经网络模型输出的预测标签信息,计算得到第二损失函数;使用第二神经网络模型输出的预测标签信息与训练图像样本的标签信息计算得到第三损失函数;第一损失函数、第二损失函数与第三损失函数相加得到总体损失函数。7.应用权利要求1所述的一种图像识别不确定性知识蒸馏方法的一种图像处理方法,包括:获取第二数量的待处理测试图像样本;利用前述图像识别不确定性知识蒸馏方法训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;得到识别处理结果并输出。8.实施权利要求7所述方法的一种图像处理系统,其特征在于,包括:
获取模块,用于获取第二数量的待处理测试图像样本;识别处理模块,与所述获取模块连接,用于利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理;识别输出模块,与所述识别处理模块连接,用于获取待处理图像,利用前述图像识别不确定性知识蒸馏系统训练完成的第二神经网络模型对所述第二数量的待处理测试图像样本进行图像识别处理,得到识别处理结果并输出。9.一种图像识别处理设备,包括图像采集器、存储器、一个或多个处理器及外部输出器,所述图像采集器用于采集第一及第二数量的图像样本,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1所述的一种图像识别不确定性知识蒸馏方法及权利要求7所述的图像处理方法,所述外部输出器用于输出显示权利要求7所述图像处理方法得到的图像识别处理结果。10.一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行权利要求1所述的一种图像识别不确定性知识蒸馏方法及权利要求7所述的一种图像处理方法。11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1所述的一种图像识别不确定性知识蒸馏方法及权利要求7所述的一种图像处理方法。

技术总结
本发明公开一种图像识别不确定性知识蒸馏方法与系统,收集有标签训练图像样本;选定第一神经网络模型,使用训练图像样本进行训练,得到训练好的第一神经网络模型,输入训练样本图像得到第一神经网络模型中间层样本特征表达及输出的软标签信息;选定第二神经网络模型,对训练图像样本进行处理,得到中间层样本特征表达,与第一神经网络模型的中间层样本特征表达进行不确定性建模,得到第一损失函数;使用第一神经网络模型输出的软标签信息及训练图像样本,联合第一损失函数,更新第二神经网络模型的参数,得到训练好的第二神经网络模型,同时利用本发明第二神经网络模型对待处理图像进行图像识别处理,提高图像识别的准确度。度。度。


技术研发人员:唐乾坤 王军 徐晓刚 冯献忠 于慧 何鹏飞 李悦 韩强 曹卫强 李萧缘
受保护的技术使用者:中国科学院东北地理与农业生态研究所
技术研发日:2023.04.24
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐