一种基于特征融合的细粒度图像生成的行人搜索方法

未命名 07-24 阅读:82 评论:0


1.本发明涉及行人搜索技术领域,具体而言,尤其涉及一种基于特征融合的细粒度图像生成的行人搜索方法。


背景技术:

2.在计算机视觉领域,行人搜索一直是一项具有挑战性的任务,其目的是从真实的摄像机中搜索特定的行人。一般来说,现有的行人搜索方法采用手工裁剪的视频,使得行人边界框干净且噪音更小,但需要对来自实际监控视频的具有大量行人的整个图像进行处理,过程复杂,导致消耗巨大,无法在真实场景中推广使用。此外,检测阶段需要检测出图片出所有的人,所以检测需要提取人的共性,才能正确检测出所有的人。重新识别阶段,就是确定检测出的人的具体身份,即解决“这个人是谁?”的问题,所以他需要每个人之间的差异性来确定人的身份。即在检测阶段需要提取特征的共性,而重新识别阶段需要提取特征之间的差异性,这进一步影响了行人搜索的性能。在大规模智能监控系统中,上述两个问题给现有的行人搜索方法完成实时目标搜索任务带来了挑战。现有用于训练的监控视频只包含了每个行人的几张照片,且其中大多数都有相同的背景和衣服,导致训练出的模型无法保证在真实场景中学习的用于行人搜索的辨别特征的精确度。


技术实现要素:

3.本发明提供一种基于特征融合的细粒度图像生成的行人搜索方法,以解决现有行人搜索方法无法在实际场景中获取高精度特征的结束问题。
4.本发明采用的技术手段如下:
5.一种基于特征融合的细粒度图像生成的行人搜索方法,包括以下步骤:
6.由街景监控视频获取行人图像,并利用残差网络对所述行人图像进行特征处理,获取行人图像特征;
7.将所述行人图像特征输入区域建议网络,基于置信度阈值对区域建议网络输出的特征候选框进行筛选;
8.对特征候选框内的内容进行感兴趣区域对齐,从而获得长度一致的身份特征图;
9.将所述身份特征图输入检测头,所述检测头用于判断是否是行人,当确认为行人时,使用边界框回归对粗略的行人框进行微调,从而获取精细的行人框;
10.获取查询目标,计算查询目标和检测结果之间的身份相似度,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,所述检测结果为具有精细的行人框的监控图像;所述身份相似度的计算公式为:
[0011][0012]
其中q是查询目标的身份特征向量,g是检测结果的身份特征向量;
[0013]
将标记过身份的裁剪图像输入到生成对抗网络的生成器中,生成器的外观信息抽
取器提取裁剪图像的人物外观信息,生成器的结构信息抽取器提取裁剪图像的人物结构信息;生成器的信息融合器将外观信息和结构信息进行两两随机融,生成新的图像;
[0014]
将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签;
[0015]
把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。
[0016]
进一步地,所述用残差网络包含五个卷积层,逐层对输入图像进行处理,最后将输入图像提取为2048维的特征向量。
[0017]
进一步地,使用边界框回归对粗略的行人框进行微调,包括使用训练后的边界框回归模型调节粗略的行人框,所述边界框回归模型使用边界框回归损失监督模型训练,所述边界框回归损失为:
[0018][0019]
其中,xi为输入样本,si为每个输入类别属于真实类别的概率,t为样本数量。
[0020]
进一步地,计算查询目标和检测结果之间的身份相似性分数,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,包括:
[0021]
将检测结果和查询目标输入训练后的身份特征引导模型,所述身份特征引导模型通过计算查询目标和检测结果之间的身份相似性分数,对检测结果中的行人进行身份标注,标注结果包括标记和未标记,其中,标记的身份为本次目标图像,未标记的身份不是本次目标图像;
[0022]
所述身份特征引导模型根据由身份特征引导损失训练训练,所述身份特征引导损失为:
[0023][0024]
其中n为样本个数,δ是控制硬负样本比率的阈值,表示第k个负样本,k为硬负样本的数量,根据以下计算获取:
[0025][0026]
进一步地,将标记过身份的裁剪图像输入生成对抗网络的生成器,所述生成器用于将输入图像的外观信息和结构信息两进行随机相互结合,生成新的图像,包括:使用像素级l1损失对重建后的图像进行监督:
[0027][0028]
[0029]
其中,e[||
·
||1]表示l1损失函数,表示图片xi的外观信息,表示图片xj的结构信息,l
app
表示外观信息抽取器的损失,l
str
表示结构信息抽取器的损失,e
app
表示外观信息抽取器,e
str
表示结构信息抽取器,d表示生成对抗网络;
[0030]
识别损失为:
[0031][0032]
其中p(yi|x
ji
)是x
ji
属于xi的真值yi的预测概率,x
ji
是合成新的图像;
[0033]
采用生成对抗网络的对抗性损失将合成图像的分布与真实数据分布相匹配,生成对抗网络的对抗性损失为:
[0034][0035]
其中表示分布函数。
[0036]
进一步地,将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签,包括:
[0037]
教师网络按照水平方向将合成图像的特征空间分成6个条带区域,再对区域进行卷积得到6个通道的张量,最后针对每个通道做softmax分类,从而为合成的图像分配软标签。
[0038]
进一步地,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,包括:
[0039]
使用kl散列来最小化鉴别器的预测概率分布p(x
ji
)和由教师网络预测的概率分配q(x
ji
),kl散列的公式为:
[0040][0041]
其中m是身份的数量,q(m|x
ji
)是最小化鉴别器预测x
ji
的身份为m的概率,p(m|x
ji
)是教师网络预测x
ji
的身份为m的概率。
[0042]
进一步地,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,还包括:
[0043]
利用身份损失,使鉴别器对教师网络输出的软标签图像进行判别特征学习,所述身份损失被定义为:
[0044][0045]
其中,p(yi|x
ji
)是教师网络预测x
ji
的身份为yi的概率。
[0046]
较现有技术相比,本发明具有以下优点:
[0047]
本发明采用生成对抗网络进行合成图像用于训练更具鲁棒性的人物搜索网络。检测部分由残差网络构建的特征提取网络在进行区域建议网络进行筛选,同时利用本文提出的身份特征引导模块进行辅助提取特征。将提取的特征馈送到本文提出的生成对抗网络合成图像模块中,进行生成对抗训练,生成器对原图像进行特征重构融合,从而生成高质量的
跨身份人物图像,再将新的图像送入鉴别器中进行特征辨别,从而降低检测阶段和重识别阶段之间的分歧,提高人物搜索的准确性。
附图说明
[0048]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1为本发明一种基于特征融合的细粒度图像生成的行人搜索方法流程图。
[0050]
图2为实施例中行人搜索方法详细执行流程。
[0051]
图3为实施例中行人检测网络模型结构图。
[0052]
图4为实施例中行人再识别网络模型结构图。
具体实施方式
[0053]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0054]
如图1所示,本发明提供了一种基于特征融合的细粒度图像生成的行人搜索方法,包括以下步骤:
[0055]
s1、由街景监控视频获取行人图像,并利用残差网络对所述行人图像进行特征处理,获取行人图像特征;
[0056]
s2、将所述行人图像特征输入区域建议网络,基于置信度阈值对区域建议网络输出的特征候选框进行筛选;
[0057]
s3、将筛选后的特征候选框输入检测头,获取粗略的行人框,使用边界框回归对粗略的行人框进行微调,从而获取精细的行人框;
[0058]
s4、计算查询目标和检测结果之间的身份相似性分数,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份;
[0059]
s5、将标记过身份的裁剪图像输入生成对抗网络的生成器,所述生成器用于将输入图像的外观信息和结构信息两进行随机相互结合,生成新的图像;
[0060]
s6、将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签;
[0061]
s7、把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。
[0062]
下面通过具体的应用实例,对本发明的方案和效果做进一步说明。
[0063]
如图2-4所示,本实施例提供了一种基于特征融合的细粒度图像生成的行人搜索方法,该方法包括以下步骤:
[0064]
步骤1、监控摄像对人群街景进行采集,通过对视频进行处理,得到多个人物图像。
本发明中对视频进行处理包括把监控中视频的每一帧解码成图片。
[0065]
步骤2、利用特征提取网络对输入的包括多个人物的图像进行处理,从而获得输入图像特征,其中特征提取网络采用残差卷积网络,包含五个卷积层,逐层对输入图像进行处理,最后将输入图像提取为2048维的特征;
[0066]
步骤3、将提取的特征向量送入区域建议网络,区域建议网络如图3中所示,提出多个包括人体的候选框,然后使用非最大值抑制来去除掉置信度低于给定阈值的候选框,以获得高质量的候选框。
[0067]
步骤4、对候选框中的内容进行感兴趣区域对齐操作,从而获得长度一致的特征向量。
[0068]
步骤5、将特征向量送入检测头,检测该特征向量是否是行人的特征向量,而后使用边界框回归对其进行微调,从而获得更加精细的行人框。本步骤中,通过检测头用来确定每个候选框框出的到底是不是一个人。
[0069]
步骤6、通过身份特征引块将检测头输出的判断结果中的身份分离为标记和未标记的。身份特征引导主要通过身份特征引导损失来进行训练,用以计算查询目标和检测结果之间的身份相似性分数。
[0070]
步骤7、身份特征引导输出比其他边界框更接近标记的身份的裁剪图像,馈送到生成对抗网络合成图像模块。生成对抗网络架构如图4所示。
[0071]
步骤8、生成对抗网络合成图像模块利用生成器模块将输入图像分为外观信息和结构信息两部分。本发明中外观信息包括衣服/鞋子的颜色、质地和风格、其他与身份证相关的线索等。结构信息包括体型、头发、携带、姿势、背景、位置、视点等。
[0072]
步骤9、生成器模块通过将两个不同人群的两部分信息进行相互结合,生成新的图像;
[0073]
步骤10、将生成的图像送入鉴别器的教师网络中,教师网络为其附加软标签;
[0074]
步骤11、把附加过软标签的图像送入鉴别器中进行判别,鉴别器利用辨别特征提取层来完成人的重新识别,然后输出结果。
[0075]
在具体实施例中,感兴趣区域对齐利用双线性内插法对大小不一致的区域特征图进行分割从而对齐特征。在获取到预测边界框之后,检测头由几种损失函数进行监督,分别是边界框回归损失、分类损失和本文所提出的身份特征引导损失,这三种损失对边界框的检测进行优化。身份特征引导模块将不同图像中的正面示例拉得更近,这样来自同一个人的图像可以获得较高的相似度分数,边界框回归由交并比来衡量即预测框与真实框的重叠程度,识别损失规定为:
[0076][0077]
其中xi为输入样本,si为每个输入类别属于真实类别的概率,t为样本数量。
[0078]
在具体实施例中,通过步骤5中身份特征引导对输入的图像特征进行处理,通过计算查询目标和检测结果之间的身份相似性分数,将检测结果中的身份分离为标记和未标记的。其中,标记的身份为本次目标图像,未标记的身份不是本次目标图像,这为重新识别阶段产生高质量的正样本。身份特征引导损失函数具体规定为:
[0079][0080]
其中n为样本个数,k为硬负样本的数量,我们充分考虑了硬负样本在提高网络辨别能力方面的积极作用,并通过以下方式设置硬负样本的数量:
[0081][0082]
其中λ是控制硬负样本比率的阈值。
[0083]
在具体实施例中,所述步骤7中生成对抗网络合成图像模块包括生成器和鉴别器两部分,其中生成器采用编码器-解码器范式。生成对抗网络合成图像模块接收到输入特征,将特征信息分解为外观信息和结构信息两部分,然后,编码器将给定的两幅图片xi和xj分别提取信息,将xi的外观信息提取为将xj的结构信息提取为在将这两部分送入生成器中的解码器模块。本发明中使用外观信息抽取器提取外观信息,使用结构信息抽取器提取结构信息。
[0084]
在具体实例中,所述步骤8中生成器中的解码器将和进行结合,从而生成新的图像,将其表示为x
ji
,j表示提供结构代码的图像,i表示提供外观代码的图像。对于重建后的图像,使用像素级l1损失进行监督:
[0085][0086]
其中e[||
·
||1]表示l1损失函数。并且利用识别损失来强制合成图像保持其身份一致性。识别损失为:
[0087][0088]
其中p(yi|x
ji
)是属于xi的基础真值类yi的x
ji
的预测概率,它在合成x
ji
时提供了外观代码。之后,采用gan对抗性损失将合成图像的分布与真实数据分布相匹配,损失为:
[0089][0090]
其中表示分布函数,分布函数为gan网络在生成图像过程中根据先验分布来拟合一个新的图像,从而生成合成图像的一个过程。是gan网络中所提出的知识,属于本领域现有技术。
[0091]
在具体实施例中,所述步骤9,在鉴别器中,构建的教师网络按照水平方向将合成图像的特征空间分成6个条带区域,再对区域进行卷积得到6个通道的张量,最后针对每个通道做softmax分类,从而为合成的图像分配软标签,以更好的指导鉴别器能够更有效的完成重新识别任务。其中教师网络模型由原始的数据集进行训练。软标签为saftmax分类后,所属类别的名称就是合成图像的软标签。
[0092]
在具体实施例中,为了更好的合成图像,进一步的使用kl散列来最小化鉴别模块
的预测概率分布p(x
ji
)和由教师预测的概率分配q(x
ji
),kl散列公式为:
[0093][0094]
其中m是身份的数量。
[0095]
在具体实施例中,利用身份损失,使鉴别器对教师网络输出的软标签图像进行判别特征学习,经过前期交换外观和结构信息的合成人物图像,使鉴别器能够挖掘更具区分性和精细的特征,并学习对身份属性的关注。其中身份损失被定义为:
[0096][0097]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,包括以下步骤:由街景监控视频获取行人图像,并利用残差网络对所述行人图像进行特征处理,获取行人图像特征;将所述行人图像特征输入区域建议网络,基于置信度阈值对区域建议网络输出的特征候选框进行筛选;对特征候选框内的内容进行感兴趣区域对齐,从而获得长度一致的身份特征图;将所述身份特征图输入检测头,所述检测头用于判断是否是行人,当确认为行人时,使用边界框回归对粗略的行人框进行微调,从而获取精细的行人框;获取查询目标,计算查询目标和检测结果之间的身份相似度,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,所述检测结果为具有精细的行人框的监控图像;所述身份相似度的计算公式为:其中q是查询目标的身份特征向量,g是检测结果的身份特征向量;将标记过身份的裁剪图像输入到生成对抗网络的生成器中,生成器的外观信息抽取器提取裁剪图像的人物外观信息,生成器的结构信息抽取器提取裁剪图像的人物结构信息;生成器的信息融合器将外观信息和结构信息进行两两随机融,生成新的图像;将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签;把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。2.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,所述用残差网络包含五个卷积层,逐层对输入图像进行处理,最后将输入图像提取为2048维的特征向量。3.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,使用边界框回归对粗略的行人框进行微调,包括使用训练后的边界框回归模型调节粗略的行人框,所述边界框回归模型使用边界框回归损失监督模型训练,所述边界框回归损失为:其中,x
i
为输入样本,s
i
为每个输入类别属于真实类别的概率,t为样本数量。4.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,计算查询目标和检测结果之间的身份相似性分数,并根据身份相似性分数将检测结果中的身份标注为标记和未标记的身份,包括:将检测结果和查询目标输入训练后的身份特征引导模型,所述身份特征引导模型通过计算查询目标和检测结果之间的身份相似性分数,对检测结果中的行人进行身份标注,标注结果包括标记和未标记,其中,标记的身份为本次目标图像,未标记的身份不是本次目标图像;所述身份特征引导模型根据由身份特征引导损失训练训练,所述身份特征引导损失
为:其中n为样本个数,δ是控制硬负样本比率的阈值,a
k-表示第k个负样本,k为硬负样本的数量,根据以下计算获取:5.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,将标记过身份的裁剪图像输入生成对抗网络的生成器,所述生成器用于将输入图像的外观信息和结构信息两进行随机相互结合,生成新的图像,包括:使用像素级l1损失对重建后的图像进行监督:重建后的图像进行监督:其中,e[||
·
||1]表示l1损失函数,表示图片x
i
的外观信息,表示图片x
j
的结构信息,l
app
表示外观信息抽取器的损失,l
str
表示结构信息抽取器的损失,e
app
表示外观信息抽取器,e
str
表示结构信息抽取器,d表示生成对抗网络;识别损失为:其中p(y
i
|x
ji
)是x
ji
属于x
i
的真值y
i
的预测概率,x
ji
是合成新的图像;采用生成对抗网络的对抗性损失将合成图像的分布与真实数据分布相匹配,生成对抗网络的对抗性损失为:其中f[]表示分布函数。6.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,将新生成的图像送入鉴别器的教师网络中利用教师网络为生成的新图像附加软标签,包括:教师网络按照水平方向将合成图像的特征空间分成6个条带区域,再对区域进行卷积得到6个通道的张量,最后针对每个通道做softmax分类,从而为合成的图像分配软标签。7.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,包括:使用kl散列来最小化鉴别器的预测概率分布p(x
ji
)和由教师网络预测的概率分配q
(x
ji
),kl散列的公式为:其中m是身份的数量,q(m|x
ji
)是最小化鉴别器预测x
ji
的身份为m的概率,p(m|x
ji
)是教师网络预测x
ji
的身份为m的概率。8.根据权利要求1所述的一种基于特征融合的细粒度图像生成的行人搜索方法,其特征在于,把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果,还包括:利用身份损失,使鉴别器对教师网络输出的软标签图像进行判别特征学习,所述身份损失被定义为:其中,p(y
i
|x
ji
)是教师网络预测x
ji
的身份为y
i
的概率。

技术总结
本发明提供一种基于特征融合的细粒度图像生成的行人搜索方法,主要包括:利用残差网络对所述行人图像进行特征处理;基于置信度阈值对区域建议网络输出的特征候选框进行筛选;将筛选后的特征候选框输入检测头,使用边界框回归获取精细的行人框;根据身份相似性分数将检测结果中的身份标注为标记和未标记;将标记过身份的裁剪图像输入生成对抗网络的生成器,将输入图像的外观信息和结构信息两进行随机相互结合;将新生成的图像送入鉴别器的教师网络中附加软标签;把附加过软标签的图像送入鉴别器中进行鉴别,鉴别器利用鉴别特征提取层来完成行人的重新识别,然后输出结果。本发明解决了现有行人搜索方法无法在实际场景中获取高精度特征的问题。高精度特征的问题。高精度特征的问题。


技术研发人员:王辉兵 蒋依民 赵鹏 崔添翔 姚铭泽
受保护的技术使用者:大连海事大学
技术研发日:2023.05.25
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐