一种面向图像识别域适应的无监督评估方法

未命名 10-18 阅读：113 评论：0

1.本发明属于图像识别领域，尤其是涉及一种面向图像识别域适应的无监督评估方法。

背景技术：

2.如今，图像识别算法被广泛地应用，而其成功主要源于使用了深度神经网络。在许多实际场景中，手动标注足够的图像用于训练图像识别的深度神经网络既昂贵又耗时。为了解决这个问题同时提升图像识别的准确率，之前学者引入了无监督领域适应(uda)技术。该技术通过将在有类别标注源域上训练的图像识别模型迁移到无类别标注的目标域。近年来，已经提出了许多uda方法来解决迁移过程中的源域图像与目标域图像不相似的情况，即域偏移问题。尽管这些方法让目标域的图像识别准确率得到提高，但这种提升通常需要对目标域的有类别标注的验证集进行调参。然而，在实践中获取有标注的验证集图像可能会很昂贵，而且不同的图片数据集通常需要不同的超参数集才能达到理想的图像识别性能。
3.现有技术研究了在没有标注验证集的情况下评估目标域图像识别的准确率。如2016年jmlr期刊上收录的文章《domain-adversarial training of neural networks》中使用域分布距离作为评估指标来选择他们的训练方法的超参数。然而，这个评估指标是与训练方法紧密耦合。2019年icml会议上收录的文章《towards accurate model selection in deep unsupervised domain adaptation》首次提出了一个通用的uda评估指标，该指标使用重要性加权验证方法并加入方差控制项。后来，2021年iccv会议上收录的文章《tune it the right way:unsupervised validation of domain adaptation via soft neighborhood density》提出，一个好的迁移模型应该为每个目标特征有一个紧凑的邻域，并引入了软邻域密度指标。然而，在对uda评估指标进行更全面和详细的实验后，发现以前的评估指标在大多数情况下常常无法选择合适的模型，进而无法提升目标域的图像识别效果。这是因为他们的指标基于的假设在广泛的场景中并不总是成立。

技术实现要素：

4.本发明提供了一种面向图像识别域适应的无监督评估方法，使无监督域适应时，能够无监督地评估模型的迁移效果，从而选择出图像识别效果最好的超参数和模型，从而提高图像分类的效果。
5.一种面向图像识别域适应的无监督评估方法，其特征在于，包括以下步骤：
6.(1)根据现有的无监督域适应算法使用源域和目标域的图像训练集进行学习得到若干个分类模型，每个分类模型m将在后续步骤中被评估；
7.(2)使用源域的图像验证集经过分类模型m得到模型的预测，并与源域验证集的标签对比，得到源域的准确率as；
8.(3)源域数据经过分类模型m时保留中间特征，并且使用中间特征和对应的标签，训练一个多层全连接分类器h；
9.(4)目标域的图像验证集经过数据增强得到数据增强后的图像数据，将数据增强前后的两种数据都经过分类模型m得到对应中间特征，再经过步骤(3)的分类器h得到对应的预测，比对这两种预测得到增强一致性ac；
10.(5)将源域的准确率as和增强一致性ac结合起来，并加入分类器h的多样性项，得到最后的评估指标acm，其评估了分类模型m的迁移效果；
11.(6)根据每个模型对应的评估指标acm，选出若干个分类模型中迁移效果最好的模型，并利用该分类模型进行图像分类。
12.步骤(1)中，有标注的源域为：无标注的目标域为：无标注的目标域为：表示源域中第i个样本的图像，表示第i个样本的标签，ns表示源域样本的总数，表示目标域中第j个样本的图像，n
t
表示目标域样本的总数。
13.现有的域适应算法包含dann、cdan、mdd、mcc，图像训练集训练得到若干个分类模型，每个分类模型由特征提取器g和线性分类层f组成。
14.步骤(2)中，源域的准确率as计算公式如下：
[0015][0016]
式中，表示对源域验证集的样本求数学期望，表示源域验证集中一个样本的图像，表示这个样本对应的标签，ps表示数据经过模型m后的预测向量，其具有k个分量，而k就是类别的总数；表示ps的k个分量中最大的那个分量的位置；i[
·
]表示指示函数，如果括号中为真，那就值为1，否则值为0。
[0017]
步骤(3)中，保留了在步骤(2)时，源域数据经过模型m的中间特征其中，g是模型m的特征提取器；中间特征与标签组合成一个中间特征数据集：在这个中间特征数据集上监督训练一个分类器h，其由两层全连接层组成。
[0018]
步骤(4)中，将目标域的图像验证集数据经过数据增强得到数据增强后的数据其中，使用的数据增强包括了随机裁剪、随机翻转、随机颜色调整、随机模糊。
[0019]
步骤(4)中，得到增强一致性ac的公式为：
[0020][0021]
其中，q
t
，q
t
′
分别表示数据和经过模型m的特征提取器g和分类器h后的预测向量；就表示q
t
的分量中最大的那个分量的位置；表示q
t
′
的分量中最大的那个分量的位置；i[
·
]表示指示函数，如果括号中为真，那就值为1，否则值为0。
[0022]
步骤(5)中，计算评估指标acm的公式为：
[0023][0024]
其中，熵函数h(q)＝∑kqklogqk，q
t
表示数据经过模型m的特征提取器g和分类器h后的预测向量，k就是类别的总数。
[0025]
与现有技术相比，本发明具有以下有益效果：
[0026]
1、本发明提出的无监督评估方法能够有效地将源域标签信息考虑在内，同时考虑了类别的多样性，能够检测出模型坍缩的情况。
[0027]
2、本发明提出的无监督评估方法能够对抗刻意设计的训练方法的攻击，在多种情况下准确反映出被评估模型的迁移效果。
[0028]
3、本发明能够无需目标验证集标注的情况下，搜索出最优的超参数和最优无监督域适应算法(uda)，其图像识别的准确率能够超越之前人工调试的结果。
附图说明
[0029]
图1为本发明无监督评估方法来选择最优模型超参数的示意图；
[0030]
图2为本发明无监督评估方法的流程示意图。
具体实施方式
[0031]
下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。
[0032]
如图1和图2所示，一种面向图像识别域适应的无监督评估方法，包括：
[0033]
(a)训练数据集包括一个有标注的源域：和一个无标注的目标域：任意现成的无监督域适应算法(uda)，配上一个它的超参数搜索空间，每次训练时从空间中随机或有规律地选择一组超参数。
[0034]
(b)使用无监督域适应算法(uda)以及一组超参数，训练得到模型m1。然后再选择另一组超参数，训练得到模型m2。如此重复，可以得到l个训练模型
[0035]
(c)使用本发明提出的无监督评估方法acm依次对模型进行评估，得到这些模型对应的得分
[0036]
(d)选择得分最高的模型，就是本发明方法选择的模型，其对应的超参数，也就是搜索出的最优超参数。
[0037]
具体步骤分别阐述如下：
[0038]
(a)本发明考虑的现成无监督域适应算法(uda)包括source only，dann，cdan，mdd和mcc，但是不限于这5种uda训练算法。根据超参数空间的大小有不同选择策略，对于稀疏超参数空间，使用网格式搜索，会选择每一种超参数组合。对于密集超参数空间，将acm评估得分设置为超参数搜索的目标。本发明利用tpe参数数搜索算法进行50次搜索，并利用optuna库的中值修剪器来加速搜索。两种超参数空间的具体细节如表1所示，将在后面实验中详细解释其含义。
[0039]
(b)训练算法：本发明使用五种流行的uda方法来获得经过训练的模型。1)source only：该模型仅在源域上接受监督训练。2)dann：训练域鉴别器，特征生成器试图欺骗它。3)cdan：域鉴别器将特征和分类器的预测作为输入。4)mdd：训练了一个额外的分类器来优化最大均值差异。5)mcc：旨在减少分类器预测中的类别混淆。这些方法的实现和优化器的选择都遵循transfer-learning-library代码仓库。
[0040]
对于模型m的架构，特征生成器g包含一个imagenet数据集上预训练的resnet骨干和线性瓶颈层，分类器f是线性层。
[0041]
(c)如图2所示，对于一个需要被评估的模型m，本发明的acm评估方法从三方面对其进行评估，在最后将三种评估结果结合得到评估得分。验证集数据集是由有标注的源域验证集和无标注的目标域验证集组成。
[0042]
本发明研究了四个流行的图像识别uda数据集visda2017、domainnet、officehome和office31上的无监督评估指标表现。要评估的模型使用五种uda方法以及不同的超参数进行训练。在评估这些模型时，本文会考察指标是否符合与目标域的图像分类准确率的一致性。
[0043]
visda-2017是一个大规模的数据集，对于无监督域从模拟到真实的适应性提出了挑战。数据集包含152、397个合成图像作为源域，并包含55、388个真实图像作为目标域。这两个域共享12个对象类别。本发明评估了所有方法在visda验证集上。
[0044]
domainnet是一个大规模的域适应图像数据集，包含来自六个域的345个类别。本文为实验选择了其中四个域：剪贴画(c)、绘画(p)、真实(r)和素描(s)。本发明只研究domainnet的单源域配置。这些域之间有12个迁移任务。
[0045]
office-31是用于无监督域适应的常用数据集，其中包含从以下三个领域收集的4,652个图像和13个类别：亚马逊(a)，网络摄像头(w)和dslr(d)。本发明评估了所有方法在六个域适应任务中：a
→
w，d
→
w，w
→
d，a
→
d，d
→
a和w
→
a。
[0046]
office-home是一个比office-31更困难的领域适应数据集，其中包括来自四个不同领域的15,500张图像：艺术图像(ar)，剪贴画(cl)，产品图像(pr)和真实世界(rw)。每个域都包含办公室和家庭场景中常见的65种对象类别的图像。本发明评估了所有方法在12种域适应方案中的表现。
[0047]
本发明使用resnet50作为office31和officehome的主干，使用resnet101作为visda和domainnet的主干。本发明在office31，officehome和visda上训练每个模型3000步，在domainnet上总共训练6000步。
[0048]
超参数集：本发明发现几个超参数通常是手动调整的，本发明选择它们来检查指标的稳健性。总共本发明最多改变训练方法的六个超参数：1)早停步数：对于uda问题，最后一步的模型通常不是训练过程中的最佳模型。本发明需要定期评估模型并在训练期间选择最佳模型。2)学习率：优化器的初始学习率。3)权重衰减：优化器的权重衰减。4)权衡值：源域上的监督交叉熵损失与uda方法的目标损失之间的权衡。5)瓶颈维度：特征生成器输出的特征维度。6)与训练方法相关的超参数：本发明为mdd选择边际值γ，为mcc选择温度值t。对于dann和cdan，本发明调整域鉴别器的学习率作为超参数来平衡鉴别器和生成器的收敛性。本发明将d的学习率比例定义为判别器学习率与生成器学习率的比值。
[0049]
每次训练模型时，本发明都会从其超参数空间中采样超参数。在对比各种评估指标的研究中，本发明根据方法的默认超参数设置了一个粗略的超参数空间。正如表1所展示的，本发明使用稀疏超参数空间中的超参数来训练各种算法，然后对训练结果模型分析各个评估指标与目标准确率的一致性。本发明对每种算法的超参数空间进行网格搜索，并在搜索过程中收集模型。值得注意的是，为了获得具有不同早停步数的模型，本发明将总训练步骤分成10轮，并在每轮结束时评估模型。
[0050]
表1
[0051][0052]
对于一种评估方法，给定超参搜索时得到的训练模型评估指标得分应该和目标分类准确率一致。为了比较不同评估方法的效果。在实验中，本发明使用两种测量方法来衡量评估分数和目标准确率之间的一致性程度：
[0053]
1.皮尔逊相关系数：
[0054][0055]
其中σ是标准差。
[0056]
2.最佳模型的偏差：
[0057][0058]
其中l
*
＝argmax
lsl
表示根据评估方法的最佳模型。具有较高相关性和较低偏差的度量与目标误差更一致。
[0059]
各个评估指标与目标准确率的一致性在4个数据集上的结果分别如表2，表3，表4，表5所示：
[0060]
表2
[0061][0062]
表3
[0063][0064]
表4
[0065][0066]
表2、表3和表4分别显示了在visda2017、domainnet和office-home上五种训练方法的uda指标结果。结果显示，以前的指标很难在所有训练方法中表示目标准确性。一些指标可以在其中一个数据集的迁移任务上表现良好，但在所有三个数据集上都没有表现良好，这也表明在部分数据集上进行测试可能会导致偏见的结论。值得注意的是，本发明提出的ism与大多数训练方法的目标准确性一致。本发明的acm在对齐两个域的特征的训练方法
(例如，dann和cdan)上表现更好，因为它可以检测过度对齐问题。
[0067]
训练方法之间的比较：本发明还研究了在比较不同方法时评估指标与目标准确率的一致性。因为在实践中，本发明需要确定迁移任务的最佳uda方法。本发明收集了所有由五种方法训练的所有模型及其指标分数和目标准确性。对于每个指标，我们计算皮尔逊相关性和最佳模型的偏差，结果显示在“all”列中。如表2、表3和表4所示，当比较所有训练方法时，大多数指标保持一致性变得更加困难。值得注意的是，本发明的ism和acm在所有三个数据集上都表现良好，最佳模型的偏差(“dev”)低于2％。因此，本发明可以使用提出的无监督指标来确定数据集的最佳训练方法及其超参数。
[0068]
超参数搜索：大多数uda方法需要为不同的数据集手动调整超参数。无监督自动找到合适的超参数将是理想的。在这一部分，本发明展示了我们的acm可以用于无监督搜索超参数。我们将对四种算法进行无监督超参数搜索：dann，cdan，mcc和mdd。对于每种uda训练方法，我们首先定义其超参数搜索空间，如表1中的密集超参数空间所示。将acm设置为超参数搜索的目标。简单地使用了tpe搜索算法进行50次试验，并使用optuna的中位数剪枝器来加速搜索。对于数据集中的每个迁移任务，我们报告acm找到的最佳模型的目标准确性。我们将此与tl-lib中每种方法的默认超参数的性能进行比较。表5，表6，表7，表8分别显示了本发明的评估指标找到的模型和默认模型在visda、domainnet、office-home和office-31数据集上的目标准确性。对于所有四种训练方法，本发明找到的超参数都优于tl-lib手动调整的超参数。与以前的有监督调整不同，我们的搜索过程不需要目标域的标签信息。
[0069]
表5
[0070][0071]
表6
[0072][0073]
表7
[0074][0075]
表8
[0076][0077]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

技术特征：
1.一种面向图像识别域适应的无监督评估方法，其特征在于，包括以下步骤：(1)根据现有的无监督域适应算法使用源域和目标域的图像训练集进行学习得到若干个分类模型，每个分类模型m将在后续步骤中被评估；(2)使用源域的图像验证集经过分类模型m得到模型的预测，并与源域验证集的标签对比，得到源域的准确率a
s
；(3)源域数据经过分类模型m时保留中间特征，并且使用中间特征和对应的标签，训练一个多层全连接分类器h；(4)目标域的图像验证集经过数据增强得到数据增强后的图像数据，将这数据增强前后的两种数据都经过分类模型m得到对应中间特征，再经过步骤(3)的分类器h得到对应的预测，比对这两种预测得到增强一致性ac；(5)将源域的准确率a
s
和增强一致性ac结合起来，并加入分类器h的多样性项，得到最后的评估指标acm，其评估了分类模型m的迁移效果；(6)根据每个模型对应的评估指标acm，选出若干个分类模型中迁移效果最好的模型，并利用该分类模型进行图像分类。2.根据权利要求1所述的面向图像识别域适应的无监督评估方法，其特征在于，步骤(1)中，有标注的源域为：无标注的目标域为：无标注的目标域为：表示源域中第i个样本的图像，表示第i个样本的标签，n
s
表示源域样本的总数，表示目标域中第j个样本的图像，n
t
表示目标域样本的总数。现有的域适应算法包含dann、cdan、mdd、mcc，图像训练集训练得到若干个分类模型，每个分类模型由特征提取器g和线性分类层f组成。3.根据权利要求2所述的面向图像识别域适应的无监督评估方法，其特征在于，步骤(2)中，源域的准确率a
s
计算公式如下：式中，表示对源域验证集的样本求数学期望，表示源域验证集中一个样本的图像，表示这个样本对应的标签，p
s
表示数据经过模型m后的预测向量，其具有k个分量，而k就是类别的总数；表示p
s
的k个分量中最大的那个分量的位置；i[
·
]表示指示函数，如果括号中为真，那就值为1，否则值为0。4.根据权利要求1所述的面向图像识别域适应的无监督评估方法，其特征在于，步骤(3)中，保留了在步骤(2)时，源域数据经过模型m的中间特征其中，g是模型m的特征提取器；中间特征与标签组合成一个中间特征数据集：在这个中间特征数据集上监督训练一个分类器h，其由两层全连接层组成。5.根据权利要求1所述的面向图像识别域适应的无监督评估方法，其特征在于，步骤(4)中，将目标域的图像验证集数据经过数据增强得到数据增强后的数据
其中，使用的数据增强包括了随机裁剪、随机翻转、随机颜色调整、随机模糊。6.根据权利要求1所述的面向图像识别域适应的无监督评估方法，其特征在于，步骤(4)中，得到增强一致性ac的公式为：其中，q
t
，q
t
′
分别表示数据和经过模型m的特征提取器g和分类器h后的预测向量；就表示q
t
的分量中最大的那个分量的位置；表示q
t
′
的分量中最大的那个分量的位置；i[
·
]表示指示函数，如果括号中为真，那就值为1，否则值为0。7.根据权利要求6所述的面向图像识别域适应的无监督评估方法，其特征在于，步骤(5)中，计算评估指标acm的公式为：其中，熵函数h(q)＝∑
k
q
k
logq
k
，q
t
表示数据经过模型m的特征提取器g和分类器h后的预测向量，k就是类别的总数。

技术总结
本发明公开了一种面向图像识别域适应的无监督评估方法，包括：(1)使用源域和目标域的训练集学习得到若干分类模型；(2)使用源域经过分类模型M得到模型预测，并与源域验证集标签对比，得到源域的准确率A

技术研发人员：陈铭浩蔡登
受保护的技术使用者：浙江大学
技术研发日：2023.07.13
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种分布式光伏集群功率短期预测方法及装置与流程 下一篇：一种矿用双回路高压开关柜的制作方法

一种面向图像识别域适应的无监督评估方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种面向图像识别域适应的无监督评估方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表