基于分组感知标签的自适应记忆无监督行人重识别方法

未命名 08-11 阅读:144 评论:0


1.本发明涉及一种人工智能、计算机视觉及图像处理领域,具体地说是一种基于分组感知标签的自适应记忆无监督行人重识别方法。


背景技术:

2.行人重识别(re-id)是一种通过非重叠的摄像机对目标人物图像进行匹配的技术,由于其在监控和公共安全中的广泛应用而引起了人们的广泛关注。在过去几年中,行人重识别技术在有监督的学习场景中已经达到了令人相当满意的程度。然而,由于人工注释跨摄像头标签的代价非常费力且耗时的,而在实际城市的监控场景中,人流量和摄像头数量均相当庞大,标志这样的数据集则极其困难,因此,研究如何无监督场景下更好地实现行人重识别任务成为了当下该领域内重要研究方向。
3.现有的数据集都是在不同环境中收集的,包含不同的偏差。在源域上训练的行人重识别模型经常受到域迁移的影响,导致模型在不同目标域上的性能大幅度下降。因此,如何训练拥有良好领域泛化能力的模型是当前亟待解决的问题。要克服上述问题,无监督领域自适应(uda)是当前最流行的解决方案之一,它解决了源域和目标域之间数据分类不同的情况。然而,uda总是被用于闭集场景,即假设源域中的类与目标域中的类相同,但在无监督领域自适应行人重识别任务中,使用到的数据集通常为开集,这比传统的uda更具挑战性。
4.除uda外,对于无监督领域自适应行人重识别任务,通常有两种解决办法。一些方法侧重于将信息从已标记域迁移到未标记域来平滑域间偏差和最小化差异,同时利用生成对抗网络(gan)来保存源域的身份信息同时学习目标域的风格。这种方法受限于仍与未标签域不同的学习风格的限制,并且可能无法适应没有标签的真实场景。其次,一些方法试图利用未知域之间的关系,为未标记的样本分配伪标签,然后用有监督的方法训练re-id模型。
5.上述方法中存在以下缺点:
6.(1)当直接使用现有的聚类方法来产生伪标签时,很难保证聚类结果的准确性,若将聚类结果作为未知领域样本的伪标签,这会在后续的训练阶段造成较大的噪声。而这些噪声标签,会使训练好的re-id模型的性能受到损害。
7.(2)无监督re-id模型和有监督re-id模型在训练阶段的唯一区别是标签的准确性。在无标签的情况下,会使用聚类算法分配为标签,但是这类方法会出现大量的噪声样本。在很多方法中,只选取置信度高的样本作为训练集,置信度低的样本则会被丢弃。但是,这些被丢弃的样本往往是难辨别的样本,而且与其他样本有很大的差异性。如果丢弃它们,训练有素的re-id模型在面对测试集中的相似情况的图像时可能会出现问题。


技术实现要素:

8.本发明的目的就是提供一种基于分组感知标签的自适应记忆无监督行人重识别
方法,以解决现有技术中对于噪声标签阻碍训练过程,从而限制模型泛化能力,导致模型性能不足的问题。
9.本发明是这样实现的:一种基于分组感知标签的自适应记忆无监督行人重识别方法,包括如下步骤:
10.a、以没有标签的目标域图片数据为样本,通过设置不同的聚类条件,对样本进行了dbscan聚类算法操作,生成组感知标签,得到具有多组标签的行人数据集;
11.b、计算行人数据集的聚类中心与同一簇中样本之间的距离,同一簇中的样本具有不同的权重,构建权重字典a;
12.c、构建基于自适应记忆存储结构的师生网络,该网络包括教师网络e
t
、学生网络es和记忆存储模块,其中教师网络e
t
和学生网络es具有相同的网络结构;利用聚类后的特征初始化记忆存储模块,并利用权重字典a更新与样本对应的记忆存储结构;
13.d、在训练过程中,将三个通过设置不同聚类条件生成的具有多组标签的行人数据集(表示为和)输入到教师网络e
t
和学生网络es中进行训练,通过教师网络e
t
来存储训练过程中的学生网络es中的参数,在学生网络和教师网络中分别有3个从多种角度对同一行人图片进行描述的输出特征,并利用教师网络与学生网络的之间的对齐学习,平滑噪声的影响;
14.e、根据预设的迭代次数循环操作步骤a—步骤d、对教师网络e
t
和学生网络es进行训练,
15.f、训练完毕将测试集数据输入,进行测试。
16.进一步地,本发明可以按如下技术方案实现:
17.在所述步骤a中,采用多密度dbscan聚类算法生成多组聚类伪标签,输入目标域图片数据,设置聚类条件s={s1,s2,
…st
,},聚类过程的公式为:
18.c,l=clustering(s)
19.其中c和l分别代表聚类中心和聚类所得到的伪标签;
20.引入松弛变量γ1和γ2,当聚类条件为∈时,ε-γ1和ε+γ2为同一数据集生成聚类;当∈为群集的正常设置时,ε+γ2放松聚类标准,使每个聚类结果中包含更多样本,而ε-γ1收紧聚类标准,使每个聚类结果中包含少量的样本,由此生成具有多组标签的行人数据集。
21.在所述步骤b中,未标记的样本被聚类为n个簇,表示为c={c1,c2,...,ci},i∈[1,n];对于每个簇,其中心特征为:
[0022][0023]
其中,ci表示聚类结果中的第i个簇,k是ci中的样本数,是ci中的中心特征;对于图像g,g与ci之间的距离计算为:
[0024][0025]
其中,fg是g的特征;
[0026]
样本与其对应的记忆存储结构中原有的特征之间的距离计算为:
[0027]
[0028]
其中是ci具有的伪标签对应的记忆存储结构中的特征;图像g与簇ci中第k个样本距离为:
[0029][0030]
得到di后,对其中的元素按降序排列,并保存为dsi;通过di和dsi计算权重字典a为:
[0031][0032]
其中,是在dsi中的索引;
[0033]
前步骤的输出为对应不同组标签的权重字典a,在每次迭代中,利用该权重字典a对记忆存储结构中的特征进行更新。
[0034]
在所述步骤c中,在聚类后,利用聚类后的伪标签初始化记忆存储模块,即,
[0035]
mi←
u(xi)
[0036]
其中,u(
·
)是均匀采样函数,xi表示第i个簇中包含的所有实例特征向量;
[0037]
结合样本权重的进行更新,对于属于类别c的样本g,其对应的记忆存储特征mc更新为:
[0038][0039]
其中β∈[0,1]是更新参数,β=0表示丢弃内存字典中的原始特征,β=1表示放弃更新内存字典。
[0040]
在所述步骤d中,在训练时,首先计算g的特征与保存在记忆存储结构中的特征m之间的余弦相似度;然后利用log-softmax函数计算出相应类别的预测概率:
[0041][0042]
其中τ是超参数,若具有3组标签,则在方法中将对应3个特征存储模块;总损失计算为:
[0043][0044]
除了记忆存储结构外,通过教师网络e
t
来存储训练过程中的学生网络es的参数,将当前迭代t处的平均网络的参数表示为e
t
(
·
|w
t
),计算为
[0045]et
(t)=αe
t
(t-1)[w
t
]+(1-α)ws[0046]
其中e
t
(t-1)[w
t
]表示(t-1)次迭代中的均值网络的参数,w
t
,ws分别是e
t
和es的参数,α是在[0,1]范围内的动量参数;
[0047]
权重字典α根据训练轮数的不同进行动态更新,使教师网络e
t
存储来自学生网络es的更多不同的参数;当re-id模型能力较弱时,教师网络e
t
在早期减少大量噪声标签的影响;
[0048]
利用加权对齐损失对re-id模型进行约束,来增加目标样本与这类样本之间的距离;权重通过以下方式计算:
[0049][0050][0051]
其中p是正集,n是负集,和表示正对和负对的距离,基于权重,加权softmax三元组损失定义为:
[0052][0053]
其中θs和θ
t
是学生网络和均值网络的参数,l
bec
是二进制交叉熵损失,ti(θs)定义为:
[0054][0055]
当前步骤的输入为上述步骤生成的具有多组标签的行人数据集,计算聚类中心与同一类别中样本之间的距离,使同一簇中的样本具有不同的权重,以这种方式,构建权重字典a,并利用a更新记忆存储结构;
[0056]
在一组标签聚类之后,未标记的样本被聚类为n个簇,表示为c={c1,c2,...,ci},i∈[1,n];对于每个簇,其中心特征为:
[0057][0058]
其中,ci表示聚类结果中的第i个簇,k是ci中的样本数,是ci中的中心特征;因此,对于图像g,g与ci之间的距离计算为:
[0059][0060]
其中,fg是g的特征;样本与其对应的记忆存储结构中原有的特征之间的距离,计算为:
[0061][0062]
其中是ci具有的伪标签对应的记忆存储结构中的特征因此,图像g与簇ci中第k个样本距离为:
[0063][0064]
得到di后,对其中的元素按降序排列,并保存为dsi;通过di和dsi计算权重字典a为:
[0065][0066]
其中,是在dsi中的索引;当前步骤的输出为对应不同组标签的权重字典,在每次迭代中,利用该权重字典对记忆存储结构中的特征进行更新。
[0067]
本发明能够优化含有噪声标签的神经网络,探索多标签的行人图像具有判别性的特征,提高行人重识别模型对新场景的适应能力。本发明采用自适应记忆框架,通过记忆存储结构建立具有记忆机制的多分支结构来抵抗噪声标签,以减轻噪声伪标签和高变化性样本对准确率的影响。所构建使用的多重记忆字典以及权重字典a,能更好地优化含噪声数据的神经网络,并使用字典更新策略根据样本的置信度自适应更新神经网络的参数以及加权损失。
[0068]
本发明采用分组感知标签的自适应网络,为了挖掘未知域中样本之间的更多关系,为未知域中的一个样本生成一个组标签,通过聚类学习更多的互补性和多样性特征。结合多种类型的分组标签,为每种类型的标签构建对应的记忆结构,并根据样本的置信度自适应地更新改记忆结构,以降低噪声标签的影响。
[0069]
本发明网络由学生网络和教师网络组成,其目标是学习实时信息,并在中间阶段存储学生网络的训练参数,可以在多次迭代中削弱由噪声标签引起的误差参数。以削弱噪声标签的影响。
附图说明
[0070]
图1是本发明的流程图。
具体实施方式
[0071]
如图1所示,本发明的基于分组感知标签的自适应记忆无监督行人重识别方法包括以下步骤:
[0072]
a、以没有标签的目标域图片数据为样本,通过设置不同的聚类条件,对样本进行了dbscan聚类算法操作进行特征提取,生成组感知标签,得到具有多组标签的行人数据集。
[0073]
具体地,由于目标域中行人类别数不确定,采用多密度dbscan聚类算法生成多组聚类伪标签,输入目标域图片数据,设置聚类条件s={s1,s2,
…st
,},聚类过程的公式为:
[0074]
c,l=clustering(s)
[0075]
其中c和l分别代表聚类中心和聚类所得到的伪标签;
[0076]
在此聚类方法中,我们还引入松弛变量γ1和γ2,当聚类条件为∈时,ε-γ1和ε+γ2为同一数据集生成聚类。例如,当∈为群集的正常设置时,ε+γ2放松聚类标准,使每个聚类结果中包含更多样本,而ε-γ1收紧聚类标准,使每个聚类结果中包含少量的样本,由此生成具有多组标签的行人数据集。
[0077]
b、计算行人数据集的聚类中心与同一簇中样本之间的距离,同一簇中的样本具有不同的权重,构建权重字典a。
[0078]
以一组标签为例,在聚类之后,未标记的样本被聚类为n个簇,表示为c={c1,c2,...,ci},i∈[1,n];对于每个簇,其中心特征为:
[0079][0080]
其中,ci表示聚类结果中的第i个簇,k是ci中的样本数,是ci中的中心特征;对于图像g,g与ci之间的距离计算为:
[0081][0082]
其中,fg是g的特征;
[0083]
除中心距离外,样本与其对应的记忆存储结构中原有的特征之间的距离计算为:
[0084][0085]
其中是ci具有的伪标签对应的记忆存储结构中的特征;图像g与簇ci中第k个样本距离为:
[0086][0087]
得到di后,对其中的元素按降序排列,并保存为dsi;通过di和dsi计算权重字典a为:
[0088][0089]
其中,是在dsi中的索引;
[0090]
前步骤的输出为对应不同组标签的权重字典a,在每次迭代中,利用该权重字典a对记忆存储结构中的特征进行更新。
[0091]
c、构建基于自适应记忆存储结构的师生网络,该网络包括教师网络e
t
、学生网络es和记忆存储模块,其中教师网络e
t
和学生网络es具有相同的网络结构;利用聚类后的特征初始化记忆存储模块,并利用权重字典a更新与样本对应的记忆存储结构。
[0092]
在本方法中,经过聚类后,生成了具有多种标签的数据集。以一种标签为例,在聚类后,利用聚类后的伪标签初始化记忆存储模块,即,
[0093]
mi←
u(xi)
[0094]
其中,u(
·
)是均匀采样函数,xi表示第i个簇中包含的所有实例特征向量;
[0095]
本发明结合样本权重的进行更新,对于属于类别c的样本g,其对应的记忆存储特征mc更新为:
[0096][0097]
其中β∈[0,1]是更新参数,β=0表示丢弃内存字典中的原始特征,β=1表示放弃更新内存字典。
[0098]
d、在训练过程中,将三个通过设置不同聚类条件生成的具有多组标签的行人数据集(表示为和)输入到教师网络e
t
和学生网络es中进行训练,通过教师网络e
t
来存储训练过程中的学生网络es中的参数,在学生网络和教师网络中分别有3个从多种角度对同一行人图片进行描述的输出特征,并利用教师网络与学生网络的之间的对齐学习,平滑噪声的影响;
[0099]
在训练时,首先计算g的特征与保存在记忆存储结构中的特征m之间的余弦相似度;然后利用log-softmax函数计算出相应类别的预测概率:
[0100][0101]
其中τ是超参数,若具有3组标签,则在方法中将对应3个特征存储模块;总损失计
算为:
[0102][0103]
除了记忆存储结构外,通过教师网络e
t
来存储训练过程中的学生网络es的参数,将当前迭代t处的平均网络的参数表示为e
t
(
·
|w
t
),计算为
[0104]et
(t)=αe
t
(t-1)[w
t
]+(1-α)ws[0105]
其中e
t
(t-1)[w
t
]表示(t-1)次迭代中的均值网络的参数,w
t
,ws分别是e
t
和es的参数,α是在[0,1]范围内的动量参数;根据训练轮数的不同,α是动态更新的,这鼓励均值网络存储来自学生网络的更多不同的参数。这样,当re-id模型能力较弱时,均值网络也可以在早期减少大量噪声标签的影响。
[0106]
本发明利用加权对齐损失进行约束,该损失要求在模型训练过程中,正值样本相似度越高,权值越小。如果负样本的相似度太高,则表示它离目标样本的距离很小。因此,有必要赋予这类样本更大的权重,以便对模型进行训练,以增加目标样本与这类样本之间的距离。
[0107]
权重字典α根据训练轮数的不同进行动态更新,使教师网络e
t
存储来自学生网络es的更多不同的参数;当re-id模型能力较弱时,教师网络e
t
在早期减少大量噪声标签的影响;
[0108]
利用加权对齐损失对re-id模型进行约束,来增加目标样本与这类样本之间的距离;权重通过以下方式计算:
[0109][0110][0111]
其中p是正集,n是负集,和表示正对和负对的距离,基于权重,加权softmax三元组损失定义为:
[0112][0113]
其中θs和θ
t
是学生网络和均值网络的参数,l
bec
是二进制交叉熵损失,ti(θs)定义为:
[0114][0115]
当前步骤的输入为上述步骤生成的具有多组标签的行人数据集,计算聚类中心与同一类别中样本之间的距离,使同一簇中的样本具有不同的权重,以这种方式,构建权重字典a,并利用a更新记忆存储结构;
[0116]
在一组标签聚类之后,未标记的样本被聚类为n个簇,表示为c={c1,c2,...,ci},i∈[1,n];对于每个簇,其中心特征为:
[0117][0118]
其中,ci表示聚类结果中的第i个簇,k是ci中的样本数,是ci中的中心特征;因此,对于图像g,g与ci之间的距离计算为:
[0119][0120]
其中,fg是g的特征;样本与其对应的记忆存储结构中原有的特征之间的距离,计算为:
[0121][0122]
其中是ci具有的伪标签对应的记忆存储结构中的特征因此,图像g与簇ci中第k个样本距离为:
[0123][0124]
得到di后,对其中的元素按降序排列,并保存为dsi;通过di和dsi计算权重字典a为:
[0125][0126]
其中,是在dsi中的索引;当前步骤的输出为对应不同组标签的权重字典,在每次迭代中,利用该权重字典对记忆存储结构中的特征进行更新。
[0127]
e、根据预设的迭代次数循环操作步骤a—步骤d、对教师网络e
t
和学生网络es进行训练。步骤a—步骤d已经描述了一次迭代训练的过程,e步骤是根据设定好的聚类算法、最大训练轮数以及每一轮训练所要迭代的次数对网络进行训练。
[0128]
f、训练完毕将测试集数据输入,进行测试。

技术特征:
1.一种基于分组感知标签的自适应记忆无监督行人重识别方法,其特征是,包括如下步骤:a、以没有标签的目标域图片数据为样本,通过设置不同的聚类条件,对样本进行了dbscan聚类算法操作,生成组感知标签,得到具有多组标签的行人数据集;b、计算行人数据集的聚类中心与同一簇中样本之间的距离,同一簇中的样本具有不同的权重,构建权重字典a;c、构建基于自适应记忆存储结构的师生网络,该网络包括教师网络e
t
、学生网络e
s
和记忆存储模块,其中教师网络e
t
和学生网络e
s
具有相同的网络结构;利用聚类后的特征初始化记忆存储模块,并利用权重字典a更新与样本对应的记忆存储结构;d、在训练过程中,将三个通过设置不同聚类条件生成的具有多组标签的行人数据集(表示为和输入到教师网络e
t
和学生网络e
s
中进行训练,通过教师网络e
t
来存储训练过程中的学生网络e
s
中的参数,在学生网络和教师网络中分别有3个从多种角度对同一行人图片进行描述的输出特征,并利用教师网络与学生网络的之间的对齐学习,平滑噪声的影响;e、根据预设的迭代次数循环操作步骤a-步骤d、对教师网络e
t
和学生网络e
s
进行训练;f、训练完毕将测试集数据输入,进行测试。2.根据权利要求1所述的基于分组感知标签的自适应记忆无监督行人重识别方法,其特征是,在所述步骤a中,采用多密度dbscan聚类算法生成多组聚类伪标签,输入目标域图片数据,设置聚类条件s={s1,s2,...s
t
,},聚类过程的公式为:c,l=clustering(s)其中c和l分别代表聚类中心和聚类所得到的伪标签;引入松弛变量γ1和γ2,当聚类条件为∈时,ε-γ1和ε+γ2为同一数据集生成聚类;当∈为群集的正常设置时,ε+γ2放松聚类标准,使每个聚类结果中包含更多样本,而ε-γ1收紧聚类标准,使每个聚类结果中包含少量的样本,由此生成具有多组标签的行人数据集。3.根据权利要求1所述的基于分组感知标签的自适应记忆无监督行人重识别方法,其特征是,在所述步骤b中,未标记的样本被聚类为n个簇,表示为c={c1,c2,...,c
i
},i∈[1,n];对于每个簇,其中心特征为:其中,c
i
表示聚类结果中的第i个簇,k是c
i
中的样本数,是c
i
中的中心特征;对于图像g,g与c
i
之间的距离计算为:其中,f
g
是g的特征;样本与其对应的记忆存储结构中原有的特征之间的距离计算为:其中是c
i
具有的伪标签对应的记忆存储结构中的特征;图像g与簇c
i
中第k个样本距离为:
得到d
i
后,对其中的元素按降序排列,并保存为ds
i
;通过d
i
和ds
i
计算权重字典a为:其中,是在ds
i
中的索引;前步骤的输出为对应不同组标签的权重字典a,在每次迭代中,利用该权重字典a对记忆存储结构中的特征进行更新。4.根据权利要求1所述的基于分组感知标签的自适应记忆无监督行人重识别方法,其特征是,在所述步骤c中,在聚类后,利用聚类后的伪标签初始化记忆存储模块,即:m
i

u(x
i
)其中,u(
·
)是均匀采样函数,x
i
表示第i个簇中包含的所有实例特征向量;结合样本权重的进行更新,对于属于类别c的样本g,其对应的记忆存储特征m
c
更新为:其中β∈[0,1]是更新参数,β=0表示丢弃内存字典中的原始特征,β=1表示放弃更新内存字典。5.根据权利要求1所述的基于分组感知标签的自适应记忆无监督行人重识别方法,其特征是,在所述步骤d中,在训练时,首先计算g的特征与保存在记忆存储结构中的特征m之间的余弦相似度;然后利用log-softmax函数计算出相应类别的预测概率为:其中τ是超参数,若具有3组标签,则在方法中将对应3个特征存储模块;总损失计算为:除了记忆存储结构外,通过教师网络e
t
来存储训练过程中的学生网络e
s
的参数,将当前迭代t处的平均网络的参数表示为e
t
(
·
|w
t
),计算为e
t
(t)=αe
t
(t-1)[w
t
]+(1-α)w
s
其中e
t
(t-1)[w
t
]表示(t-1)次迭代中的均值网络的参数,w
t
,w
s
分别是e
t
和e
s
的参数,α是在[0,1]范围内的动量参数;权重字典α根据训练轮数的不同进行动态更新,使教师网络e
t
存储来自学生网络e
s
的更多不同的参数;当re-id模型能力较弱时,教师网络e
t
在早期减少大量噪声标签的影响;利用加权对齐损失对re-id模型进行约束,来增加目标样本与这类样本之间的距离;权重通过以下方式计算:重通过以下方式计算:其中p是正集,n是负集,和表示正对和负对的距离,基于权重,加权softmax三元组
损失定义为:其中θ
s
和θ
t
是学生网络和均值网络的参数,l
bec
是二进制交叉熵损失,t
i

s
)定义为:当前步骤的输入为上述步骤生成的具有多组标签的行人数据集,计算聚类中心与同一类别中样本之间的距离,使同一簇中的样本具有不同的权重,以这种方式,构建权重字典a,并利用a更新记忆存储结构;在一组标签聚类之后,未标记的样本被聚类为n个簇,表示为c={c1,c2,...,c
i
},i∈[1,n];对于每个簇,其中心特征为:其中,c
i
表示聚类结果中的第i个簇,k是c
i
中的样本数,是c
i
中的中心特征;因此,对于图像g,g与c
i
之间的距离计算为:其中,f
g
是g的特征;样本与其对应的记忆存储结构中原有的特征之间的距离,计算为:其中是c
i
具有的伪标签对应的记忆存储结构中的特征因此,图像g与簇c
i
中第k个样本距离为:得到d
i
后,对其中的元素按降序排列,并保存为ds
i
;通过d
i
和ds
i
计算权重字典a为:其中,是在ds
i
中的索引;当前步骤的输出为对应不同组标签的权重字典,在每次迭代中,利用该权重字典对记忆存储结构中的特征进行更新。

技术总结
本发明提供了一种基于分组感知标签的自适应记忆无监督行人重识别方法,包括如下步骤:A、得到具有多组标签的行人数据集;B、计算行人数据集的聚类中心与同一簇中样本之间的距离,构建权重字典;C、构建基于自适应记忆存储结构的师生网络,并利用权重字典更新与样本对应的记忆存储结构;D、在训练过程中,将三个通过设置不同聚类条件生成的具有多组标签的行人数据集平滑噪声的影响;E、根据预设的迭代次数循环操作步骤A—步骤D、对教师网络和学生网络进行训练,F、训练完毕将测试集数据输入,进行测试。本发明能够优化含有噪声标签的神经网络,探索多标签的行人图像具有判别性的特征,提高行人重识别模型对新场景的适应能力。能力。能力。


技术研发人员:彭锦佳 宋鹏鹏 王铖俊 于佳左 齐静 李凯
受保护的技术使用者:河北大学
技术研发日:2022.01.25
技术公布日:2023/8/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐