一种基于全局和局部特征联合约束的跨模态地点识别方法

未命名 08-15 阅读：100 评论：0

1.本发明涉及计算机视觉技术领域，具体涉及一种基于全局和局部特征联合约束的跨模态地点识别方法。

背景技术：

2.视觉地点识别旨在帮助机器人或基于视觉的导航系统确定它是否位于先前访问过的地方，通过摄像机拍下图像，识别出该图像位于哪里，可以看作是图像检索问题，其过程如图1所示。在slam中，可用于重新定位、地图复用或回环修正，在移动机器人，无人汽车驾驶中有着广阔的应用前景。例如，把移动机器人放入未知环境中的未知位置，在行走时，不断获取新的特征地标，并且校正机器人系统中的地图模型，当机器人无意中走了很长一段路的时候，想知道当前路段是否曾经来过，就会将当前的地点图像进行输入，然后到地点识别系统的数据集中搜寻，找出相应的地点图像。
3.在早期的研究中，视觉地点识别应用于单模态地点识别，在整个识别过程中，地点识别任务均为彩色图像。但在现实环境中，因为彩色摄像头无法在低照度环境下捕获清晰的地点图像，例如在上段提到的移动机器人，若仅采用彩色摄像头进行拍摄，那么白天所摄的地点图像质量较好，夜间所摄的质量会较差，这样在光照环境不足的情况下，是无法获得清晰的地点图像。
4.随着技术的发展，现有的摄像装置可以同时配备彩色摄像头和红外摄像头，彩色摄像头在光照良好的环境中捕获地点图像，而红外摄像头在低照度环境下捕获地点图像。例如在上段提到的移动机器人，在夜间，机器人在行走的时候道路上的光照环境较差，可以利用其中的红外摄像头捕获地点图像。这为地点识别任务摆脱光照限制创造了有利条件，基于彩色模态和红外模态的跨模态地点识别任务应运而生，即“彩色-红外”视觉地点识别(visible infrared visual place recognition,vi-vpr)任务。例如，在本段提到的机器人，机器人身上配备的摄像装置在夜间拍摄到了可能白天经过的地点图像，想知道当前路段是否曾经来过，于是需要将该红外图像与白天捕获的彩色图像集匹配，其示例如图2所示。但是，“彩色-红外”视觉地点识别是多模态识别问题，与单模态识别问题相比具有更大的挑战。
5.图1所示的是pittsburgh 30k数据集单模态中对彩色查询图片进行地点识别，是一个图像检索的过程，将图库集中与查询图像相似的若干个图像筛选出来进行排序。左边彩色图像为拍摄的想要识别当前地点的查询集，右边彩色图像为以前经过地点所记录下来的彩色图库集，将查询图像和图库中的数据进行图像检索，和查询图像相似的筛选出来。
6.图2所示的是通过模拟仿真得来的pittsburgh 30k红外查询集和pittsburgh 30k彩色图库集进行跨模态图像匹配，查询集和图库集是一个地点所拍摄的，只是拍摄的角度不同。其中彩色模态地点图像的通道数为3，而红外模态地点图像仅包含1条通道，让彩色图像和红外图像之间的差异变大，使得“彩色-红外”视觉地点识别任务充满挑战性。左边的红外图像为在光照不足的环境下拍摄的查询集，将查询集和以前经过地点所记录下来的彩色
图库集进行图像检索，与查询图像相似的筛选出来，得到的为右边的彩色图像，其中左边的红外图像与右边的彩色图像的地点一一对应。
7.近年来，许多地点识别方法被提出，在可见光图像地点识别中具有较好的效果，但是由于红外光图像和可见光图像差异过大，用现有的地点识别方法去解决多模态识别问题效果并不是很好。于是黄泽等设计了用于视觉地点识别的事件-rgb跨模态融合网络，其具有跨模态注意力模块、自我注意力模块和池化层模块，具体的网络框架如图3所示。该网络一共分为三部分，分别为跨模态注意力模块，残差自注意力模块以及池化层，首先使用resnet50网络进行全局特征提取，其次通过跨模态注意力模块对提取的两个模态的特征进行融合，然后利用自注意力模块将重要的信息聚焦起来，最后经过池化层，减少参数的数量来加快计算速度以及防止过拟合。通过跨模态注意模块，建立双模态之间的对应关系，让两个模态的特征相互融合，虽然拥有了两个模态的特征，但降低了对原始图像特征的区分能力，其训练流程图如图4所示。该模型提取共享特征是以全局特征为基础，样本中含有较多的诸如光照、遮挡等具有干扰性质的噪声，仅使用全局特征的模型对噪声的鲁棒性差。
8.现有的视觉地点识别方法多以单模态方式进行地点识别来解决gps在山区和军区信号失灵以及slam等问题，但忽略了在夜间或恶劣的天气条件下光照不足提取特征不全的问题。

技术实现要素：

9.为了提高现有技术在光照不足、视角变化下的准确率底，本发明提出一种基于全局和局部特征联合约束的跨模态地点识别方法。
10.本发明所采用的技术方案是：一种基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，包括以下步骤：
11.步骤1、分别输入1张彩色图像和红外图像到glfc-net网络模型中；
12.步骤2、利用resnet50网络和局部分支模块，将步骤1中输入的两种模态的图像生成富含全局性和局部性的共享特征；
13.步骤3、从富含全局性的共享特征中提取对应的全局特征；
14.步骤4、从富含局部性的共享特征中提取对应的局部特征；
15.步骤5、对步骤3获得的全局特征与步骤4获得的局部特征进行全局级别和局部级别联合约束；
16.步骤6、若达到指定的训练轮数，则结束；否则继续完成训练，返回步骤1。
17.作为本发明的优选技术方案：所述步骤2包括以下步骤：
18.步骤2-1：将彩色图像和红外图像输入网络，分别通过一层卷积操作，得到彩色模态和红外模态的浅层特征和步骤2-2：将和同时输入由resnet50后四层的卷积层和局部分支模块组成的网络中，分别生成两种模态的全局共享特征和局部共享特征和局部共享特征
19.步骤2-3：输出全局共享特征和局部共享特征
20.作为本发明的优选技术方案：所述步骤2中，在resnet50的四个卷积层内的第三个卷积层后嵌入局部分支模块，全局共享特征的提取则是经过resnet50的四个卷积层操作，
组合为步骤2-2的提取全局共享特征和局部共享特征的网络；所述局部分支模块是由多个空洞卷积模块和残差自我注意力模块组成。
21.作为本发明的优选技术方案：所述步骤3包括以下步骤：
22.步骤3-1：将全局共享特征和进行全局平均池化，得到富含全局性的准全局特征和步骤3-2：将和输入bn层，生成最终的全局特征和步骤3-3：输出全局特征和
23.作为本发明的优选技术方案：所述多个空洞卷积模块执行步骤如下：
24.步骤s1：将resnet50前三层进行卷积操作所获得的全局共享特征进行全局平均池化；
25.步骤s2：将步骤s1所得到的特征进行卷积操作；
26.步骤s3：将步骤s2所得到的特征进行激活操作；
27.步骤s4：将resnet50前三层进行卷积操作所获得的全局共享特征分别进行三个空洞卷积操作；
28.步骤s5：将步骤s3，步骤s4所获得特征拼接起来；
29.步骤s6：将步骤s5所得到的特征进行卷积操作；
30.步骤s7：将步骤s6所得到的特征进行激活操作；
31.所述残差自我注意力模块执行步骤如下：
32.步骤a：将多个空洞卷积模块得到的特征f
multi-atrous
分别进行三个卷积操作得到f
query
，f
key
，f
value
；
33.步骤b：将f
query
和f
key
相乘后进行softmax操作得到特征
34.步骤c：将和f
value
相乘得到特征f；
35.步骤d：将f进行卷积操作得到特征f'；
36.步骤e：将f'输入bn层与f
multi-atrous
相加得到最后的局部共享特征和
37.作为本发明的优选技术方案：所述步骤4包括以下步骤：
38.步骤4-1：将局部共享特征和进行平均池化，得到富含局部性的准局部特征和
39.步骤4-2：将和输入bn层，生成最终的局部特征和
40.步骤4-3：输出局部特征和
41.作为本发明的优选技术方案：所述步骤5中的全局级别和局部级别联合约束由全局级别约束损失、局部级别约束损失组成；全局级别约束损失和局部级别约束损失基于vpr任务的困难三元组损失和交叉熵损失以及受到跨模态行人再识别启发的异质中心损失。
42.作为本发明的优选技术方案：所述基于vpr任务的困难三元组损失和交叉熵损失，困难三元组损失考虑两种不同模态，并增加了困难采样的过程，并且会对两种模态的困难样本进行困难采样，从中选出最难匹配的正样本对、最容易匹配的负样本对，进而计算出损失；而异质中心损失是拉近类内两个模态中心的距离，减少类内交叉模态的变化，从而提高
类内跨模态的特征相似度，进而计算出损失；采用欧式距离的方式，度量两个特征向量之间的距离，如公式(1)所示：
43.d(f1,f2)＝||f
1-f2||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
44.其中，f1和f2代表地点图像的特征向量；
45.设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像，每一个批次的训练就有2pk张地点图像；对于vi-vpr任务的困难三元组损失如公式(2)所示：
[0046][0047]
其中，f为特征向量集合，为锚点地点图像的特征向量，且是两种模态地点图像的集合，是彩色模态或红外模态的正样本地点图像的特征向量，和具有相同的地点地标，是彩色模态或红外模态的负样本地点图像的特征向量，和不具有相同的地点地标；当困难正样本对间的欧式距离与α之和小于困难负样本对之间的欧氏距离时，锚点地点图像能够与该批次中所有的地点图像正确匹配；其中，α代表人为设定的阈值参数。
[0048]
作为本发明的优选技术方案：当采用采用交叉熵损失，设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像，每一个批次的训练就有2pk张地点图像；针对vi-vpr任务的交叉熵损失如公式(3)所示：
[0049][0050]
其中，f代表特征向量集合，p(yi|fi)表示特征向量fi被模型预测为yi的概率，由softmax函数编码；
[0051]
当采用异质中心损失，设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像；针对vi-vpr任务的异质中心损失如公式(4)所示：
[0052][0053]
其中，
[0054][0055]
其中，c
i,rgb
和c
i,ir
代表第i个地点两个模态特征分布的中心，f代表特征向量集合，f
rgb
和f
ir
分别代表彩色图像特征向量集合和红外图像特征向量集合，f
i,rgb,j
和f
i,ir,j
代表第i个地点的第j张地点图像的两个模态特征向量。
[0056]
作为本发明的优选技术方案：所述全局特征约束损失是基于vi-vpr任务的困难三元组损失和交叉熵损失，约束全局特征；全局特征约束损失利用了步骤3-1的准全局特征和以及步骤3-3的全局特征和其表达式如公式(5)所示：
[0057][0058]
所述局部特征约束损失是基于vi-vpr任务的异质中心损失和交叉熵损失，约束局部特征；局部特征约束损失利用了步骤4-1的准局部特征和以及步骤4-3的局部特征和其表达式如公式(6)所示；
[0059][0060]
全局特征和局部特征联合约束，最终结合了全局级别损失、局部级别损失，如公式(7)所示；
[0061]
l
gl
＝l
global
+l
local
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0062]
其中，l
global
为全局特征约束损失，l
local
为局部特征约束损失。
[0063]
与现有技术相比，本发明的有益效果为：本发明提出了全局特征和局部特征联合约束网络，学习并区分两种模态特征的表示，增加了对光照不足、视角变化问题的鲁棒性，从而提高了地点识别的准确率。
附图说明
[0064]
图1是本发明的单模态图像地点识别示意图；
[0065]
图2是本发明的双模态图像地点识别示意图；
[0066]
图3是现有技术的跨模态特征融合网络示意图；
[0067]
图4是现有技术的跨模态融合网络训练阶段流程图；
[0068]
图5是本发明的glfc-net网络框架示意图；
[0069]
图6是本发明的的流程示意图；
[0070]
图7是本发明的局部分支模块示意图。
具体实施方式
[0071]
下面结合附图详细的描述本发明的作进一步的解释说明，以使本领域的技术人员可以更深入地理解本发明并能够实施，但下面通过参考实例仅用于解释本发明，不作为本发明的限定。
[0072]
本发明提出用于“彩色-红外”视觉地点识别任务的基于双流网络结构的全局特征和局部特征联合约束的框架glfc-net(global and local feature constraints network,glfc-net)，以减少跨模态视觉地点识别任务中的跨模态差异和模态内部差异，来提高地点识别的准确率。该网络的框架图如图5所示，网络架构分为三个部分，分别为全局特征提取模块，局部分支模块以及池化层。首先使用resnet50网络进行全局特征提取，在经过resnet50网络结构的res3阶段，利用局部分支模块进行局部特征的提取，然后，为了防止过拟合，将提取到的全局特征和局部特征进行池化操作，最后将得到的特征进行损失值的计算。
[0073]
本发明所提出的glfc-net的训练流程图如图6所示。该训练流程采用小批量训练的方式进行训练，每次将随机选取p个地点图像，对这些地点图像分别随机选择k张彩色图像和k张红外图像。接下来，将以输入一张彩色图像和一张红外图像为例，介绍训练流程，此时p为1，k为1，具体如下：
[0074]
步骤1：分别输入1张彩色图像和红外图像到glfc-net网络模型中，进入步骤2；
[0075]
步骤2：利用resnet50网络和局部分支模块，将步骤1中输入的两种模态的图像生成富含全局性和局部性的共享特征进入步骤3；
[0076]
步骤3：从富含全局性的共享特征中提取对应的全局特征，进入步骤4；；
[0077]
步骤4：从富含局部性的共享特征中提取对应的局部特征，进入步骤5；
[0078]
步骤5：对步骤3获得的全局特征与步骤4获得的局部特征进行全局级别和局部级别联合约束，进入步骤6；
[0079]
步骤6：若达到指定的训练轮数，则进行步骤7，否则继续完成训练，返回步骤1；
[0080]
步骤7：结束。
[0081]
步骤1中的彩色图像均来自视觉地点识别的标准数据集，如pittsburgh 30k,tokyo 24/7等，而红外图像是将pittsburgh 30k,tokyo 24/7等数据集模拟仿真得来的。彩色图像由红、绿、蓝三种基色构成，并含有三个通道，每种通道与基色相对应。而红外图像在本发明中以单通道的形式存在。本发明假设彩色地点图像共有n张，红外地点图像共有m张，彩色模态的样本可表示为红外模态样本可表示为其中，表示第i幅彩色地点图像，表示第j幅红外地点图像，和分别表示和对应的地标。对每个彩色图像与红外图像进行带零填充的随机水平翻转的操作，最后形成高为480，宽为640的地点图像。与上文所述一致，本发明以输入一个彩色模态样本和一个红外模态样本为例，介绍本发明在训练过程中的工作原理。
[0082]
本发明采用双流网络结构，并利用残差网络(residual network)和局部分支模块(local branch module)提取全局共享特征和局部共享特征。本发明采用resnet50网络，能够增加网络深度，提高特征表达能力。同时，本发明将局部分支模块内嵌在resnet50网络中，可以更好的提取局部共享特征，使特征信息不会因为部分特征的消失而影响其他特征的检测和匹配。局部分支模块的结构如图7所示，该模块的主要作用是提取局部特征，由多空洞卷积模块和自注意力模块组成，首先在经过resnet50前三个阶段的特征提取后，通过多空洞卷积模块来扩大感受野，捕获多尺度上下文信息，获取更多的局部特征，然后经过残差自注意力模块，将重要的信息聚集起来，最后直接输出提取的局部特征。
[0083]
本发明在训练流程的步骤2内的提取全局性和局部性的共享特征的步骤如下：
[0084]
步骤2-1：将彩色图像和红外图像输入网络，分别通过一层卷积操作，得到彩色模态和红外模态的浅层特征和
[0085]
步骤2-2：将和同时输入由resnet50后四层的卷积层和局部分支模块组成的网络中，分别生成两种模态的全局共享特征和局部共享特征和局部共享特征
[0086]
步骤2-3：输出全局共享特征和局部共享特征
[0087]
步骤2-1中，两种模态的图像经过的卷积层的结构相同，参数不同。
[0088]
步骤2-2中，两种模态的图像经过的四个卷积层的结构相同，参数也相同。
[0089]
本发明在resnet50的四个卷积层内的第三个卷积层后嵌入局部分支模块，全局共享特征的提取则是经过resnet50的四个卷积层操作，组合为步骤2-2的提取全局共享特征和局部共享特征的网络。
[0090]
本发明的局部分支模块是由多个空洞卷积模块和残差自我注意力模块组成。
[0091]
本发明在训练流程的步骤3内的提取全局特征的步骤如下：
[0092]
步骤3-1：将全局共享特征和进行全局平均池化，得到富含全局性的准全局特征和
[0093]
步骤3-2：将和输入bn(batch normalization)层，生成最终的全局特征和
[0094]
步骤3-3：输出全局特征和
[0095]
步骤3-2中，使用的bn层可使数据分布近似正态分布，避免梯度消失问题。
[0096]
本发明中多个空洞卷积模块步骤如下：
[0097]
步骤s1：将resnet50前三层进行卷积操作所获得的全局共享特征进行全局平均池化。
[0098]
步骤s2：将步骤s1所得到的特征进行卷积操作。
[0099]
步骤s3：将步骤s2所得到的特征进行激活操作。
[0100]
步骤s4：将resnet50前三层进行卷积操作所获得的全局共享特征分别进行三个空洞卷积操作。
[0101]
步骤s5：将步骤s3，步骤s4所获得特征拼接起来。
[0102]
步骤s6：将步骤s5所得到的特征进行卷积操作。
[0103]
步骤s7：将步骤s6所得到的特征进行激活操作。
[0104]
本发明中在多个空洞卷积模块步骤4进行的三个空洞卷积操作的参数各不相同，目的是为了获取三个不同感受野的特征。
[0105]
本发明中残差自我注意力模块步骤如下：
[0106]
步骤a：将多个空洞卷积模块得到的特征f
multi-atrous
分别进行三个卷积操作得到f
query
，f
key
，f
value
。
[0107]
步骤b：将f
query
和f
key
相乘后进行softmax操作得到特征
[0108]
步骤c：将和f
value
相乘得到特征f。
[0109]
步骤d：将f进行卷积操作得到特征f'。
[0110]
步骤e：将f'输入bn层与f
multi-atrous
相加得到最后的局部共享特征和
[0111]
本发明中在残差自我注意力模块步骤1进行的三个卷积操作的参数各不相同。
[0112]
本发明在训练流程的步骤4内的提取局部特征的步骤如下：
[0113]
步骤4-1：将局部共享特征和进行平均池化，得到富含局部性的准局部特征和
[0114]
步骤4-2：将和输入bn层，生成最终的局部特征和
[0115]
步骤4-3：输出局部特征和
[0116]
本发明在训练流程的步骤5中的全局级别和局部级别联合约束由全局级别约束损失、局部级别约束损失组成。
[0117]
本发明在训练流程的步骤5内的全局级别约束损失和局部级别约束损失基于vpr任务的困难三元组损失和交叉熵损失以及受到跨模态行人再识别启发的异质中心损失。
[0118]
本发明提出的基于vpr任务的困难三元组损失和交叉熵损失，困难三元组损失考虑了两种不同模态，并增加了困难采样的过程，并且会对两种模态的困难样本进行困难采样，从中选出最难匹配的正样本对、最容易匹配的负样本对，进而计算出损失。而异质中心损失是拉近类内两个模态中心的距离，减少类内交叉模态的变化，从而提高类内跨模态的特征相似度，进而计算出损失。采用欧式距离的方式，度量两个特征向量之间的距离，如公式1所示。其中，f1和f2代表地点图像的特征向量。
[0119]
d(f1,f2)＝||f
1-f2||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0120]
假设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像，那么每一个批次的训练就有2pk张地点图像。对于vi-vpr任务的困难三元组损失如公式2所示。其中，f为特征向量集合，为锚点地点图像的特征向量，且是两种模态地点图像的集合，是彩色模态或红外模态的正样本地点图像的特征向量，和具有相同的地点地标，是彩色模态或红外模态的负样本地点图像的特征向量，和不具有相同的地点地标。当困难正样本对间的欧式距离与α之和小于困难负样本对之间的欧氏距离时，锚点地点图像能够与该批次中所有的地点图像正确匹配。其中，α代表人为设定的阈值参数。
[0121][0122]
本发明采用交叉熵损失。与针对跨模态地点识别任务的困难三元组损失类似，假设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像，那么每一个批次的训练就有2pk张地点图像。针对vi-vpr任务的交叉熵损失如公式3所示。其中，f代表特征向量集合，p(yi|fi)表示特征向量fi被模型预测为yi的概率，由softmax函数编码。
[0123][0124]
本发明采用异质中心损失，通过拉近类内两个模态中心的距离，减少类内交叉模态的变化，来提高类内跨模态的特征相似度。与针对跨模态地点识别任务的困难三元组损失类似，假设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像
和k张红外地点图像。针对vi-vpr任务的异质中心损失如公式4所示。其中，c
i,rgb
和c
i,ir
代表第i个地点两个模态特征分布的中心，f代表特征向量集合，f
rgb
和f
ir
分别代表彩色图像特征向量集合和红外图像特征向量集合，f
i,rgb,j
和f
i,ir,j
代表第i个地点的第j张地点图像的两个模态特征向量。
[0125][0126]
其中，
[0127][0128]
本发明提出的全局特征约束损失是基于vi-vpr任务的困难三元组损失和交叉熵损失，约束全局特征，保证全局特征的有效性。全局特征约束损失利用了步骤3-1的准全局特征和以及步骤3-3的全局特征和其表达式如公式5所示。
[0129][0130]
本发明提出的局部特征约束全局特是基于vi-vpr任务的异质中心损失和交叉熵损失，约束局部特征，保证局部特征的有效性。局部特征约束损失利用了步骤4-1的准局部特征和以及步骤4-3的局部特征和其表达式如公式6所示。
[0131][0132]
本发明的全局特征和局部特征联合约束，最终结合了全局级别损失、局部级别损失，如公式7所示。
[0133]
l
gl
＝l
global
+l
local (7)
[0134]
本发明的测试流程为：
[0135]
步骤a：输入查询数据集和图库数据集，进入步骤b；
[0136]
步骤b：利用训练过后得到的模型，对步骤a输入的查询数据集和图库数据集的所有地点图像进行特征提取，进入步骤c；
[0137]
步骤c：将查询数据集特征和图库数据集特征进行相似度匹配，进入步骤d；
[0138]
步骤d：根据相似度的高低，得出查询数据集内的每张地点图像与图库数据集的匹配结果，进入步骤e；
[0139]
步骤e：结束。
[0140]
测试流程中的步骤a内的查询数据集表示待查询地点图像的集合，而图库数据集表示待查询集匹配的地点图像的集合。
[0141]
测试流程中的步骤b内，glfc-net模型进行全局共享特征提取和局部共享特征提取，并以全局特征和局部特征作为最终的特征表示。
[0142]
测试流程中的步骤c内的相似度计算方法是先通过最近邻搜索方法筛选出查询数
据集与图库数据集相似度接近的一些图像，再通过最优匹配算法进行相似度匹配。
[0143]
测试流程中的步骤d内，每一张查询数据集内的图像均有若干张从图库集内匹配的图像，使用rank-1，rank-5和rank-10指标评价，rank-k准确率测量前k个检索结果中出现正确跨模态地点图像的概率。
[0144]
本实施例将为本发明的模型采用小批量梯度下降的方式更新模型参数，实验中的批大小设置为4，即从训练数据集内随机选择4个不同的地点。每个批次对每个地点随机选择4张彩色图像、4张红外图像，总共包含了16张彩色图像、16张红外图像，这方便了难样本挖掘的三元组损失的约束。由于红外图像只有单通道，本实验将其扩充成了与彩色图像相同的三通道。所有的图像均采用零填充的随机水平翻转的操作，进一步加强实验的泛化能力，两种模态的图像最终被裁剪成480
×
640的大小。
[0145]
本发明的损失函数设置为发明内容中所述的全局特征和局部特征联合约束l
gl
。其中，全局特征损失和局部特征损失参数ρ设为0.3，p设为4，k设为4。在每个数据集上，本实验的初始学习率设置为0.01，采用随机梯度下降的优化算法，动量参数设置为0.9,训练60轮次。学习率learning_rate(epoch)随训练轮次epoch的变化如公式8所示。
[0146][0147]
实施例1：
[0148]
本实施例将利用pittsburgh 30k中的10000张图库彩色数据集以及将pittsburgh 30k中的6816张查询彩色数据集模拟仿真得到的查询红外数据集，完成跨模态地点识别任务，并测试模型的性能。
[0149]
pittsburgh 30k数据集是pittsburgh 250k数据集中的一个子集，是视觉地点识别领域中的一个标准数据集。手动在pittsburgh 250k数据集中选取200个不同地点，每个地点含有10张彩色图像和10张红外图像，且彩色图像对应的红外图像是不同的角度拍摄的。本实验将手动选取的200个地点中的4000张地点图像用于训练，经过处理过的pittsburgh 30k数据集用于测试。本实验评估了彩色图像检索红外图像、红外图像检索彩色图像这两种检索模式。
[0150]
本实验对上述两种数据集进行随机分割，选取训练集和测试集。在pittsburgh 30k数据集上的实验结果如表1所示。
[0151]
表1为本发明在pittsburgh 30k数据集上的性能。rank-1，rank-5，rank-10为准确率的评价标准。
[0152][0153]
由表1的实验数据可知，以红外图像来识别彩色图像的性能优于以彩色图像来识别红外图像的性能，可能的原因是彩色图像的数量多于红外图像的数量，在彩色图像检索红外图像模式中产生的误差更多。
[0154]
实施例2：
[0155]
本实施例将利用tokyo 24/7彩色数据集以及通过模拟仿真得来的tokyo 24/7红外数据集，完成跨模态地点识别任务，并测试模型的性能。
[0156]
tokyo 24/7数据集是视觉地点识别领域中的一个标准数据集，其包含了76k的数据库，查询数据集在白天、日落和晚上拍摄的。本实验用pittsburgh 250k数据集训练好的模型，对tokyo24/7数据集进行测试，由于数据库集有76k张图片过于庞大，本实验将随机选取10k图片用于数据库集。本实验评估了彩色图像检索红外图像、红外图像检索彩色图像这两种检索模式。
[0157]
本实验对上述测试集进行模型测试，在tokyo 24/7数据集上的实验结果如表2所示。
[0158]
表2为本发明在tokyo 24/7数据集上的性能。rank-1，rank-5，rank-10为准确率的评价标准。
[0159][0160]
本发明是在pittsburgh 30k仿真数据集和tokyo 24/7仿真数据集中进行模拟实验，在pittsburgh 30k仿真数据集中，以彩色图像来识别红外图像的模式下，本发明的方法的rank-1为33.5％，rank-5为48.5％，rank-10为54.6％，以红外图像来识别彩色图像的模式下，本发明的方法的rank-1为39.4％，rank-5为56.7％，rank-10为65.1％；在tokyo 24/7仿真数据集中，以彩色图像来识别红外图像的模式下，本发明的方法的rank-1为27.6％，rank-5为38.2％，rank-10为49.6％，以红外图像来识别彩色图像的模式下，本发明的方法的rank-1为32.2％，rank-5为45.1％，rank-10为61.3％。
[0161]
实施例3：
[0162]
本实施例将介绍本发明的一种适用场景。
[0163]
近日，某学校在校园内投入无人车快递，在白天测试了从起始点将快递成功送到终点，在晚上送快递的起始点与终点与白天一样，其拍摄的图片是红外图像。由于是晚上所摄，清晰度不高，色彩信息不丰富，这增加了地点识别的困难。本发明所提出的方法能够解决该问题。
[0164]
首先，将白天所走的路线视频以60帧为标准进行图像截取，并且规定5米之内视为同一地点，然后给图像取对应的名称，并将这些图像作为图库集。
[0165]
其次，与白天截取图像的标准一样并且是时刻截取晚上的图像作为查询集，将两者输入本发明所提出的模型中。
[0166]
接着，本发明所提出的模型得到一组图像序列的输出，根据图像的名称，得知地点是否一致。
[0167]
最后，通过给出的地点是否匹配，得知无人车快递在夜里是否走错了路。
[0168]
以上所述的具体实施方案，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，所应理解的是，以上所述仅为本发明的具体实施方案而已，并非用以限定本发明的范围，任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所做出的等同
变化与修改，均应属于本发明保护的范围。

技术特征：
1.一种基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，包括以下步骤：步骤1、分别输入1张彩色图像和红外图像到glfc-net网络模型中；步骤2、利用resnet50网络和局部分支模块，将步骤1中输入的两种模态的图像生成富含全局性和局部性的共享特征；步骤3、从富含全局性的共享特征中提取对应的全局特征；步骤4、从富含局部性的共享特征中提取对应的局部特征；步骤5、对步骤3获得的全局特征与步骤4获得的局部特征进行全局级别和局部级别联合约束；步骤6、若达到指定的训练轮数，则结束；否则继续完成训练，返回步骤1。2.根据权利要求1所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述步骤2包括以下步骤：步骤2-1：将彩色图像和红外图像输入网络，分别通过一层卷积操作，得到彩色模态和红外模态的浅层特征和步骤2-2：将和同时输入由resnet50后四层的卷积层和局部分支模块组成的网络中，分别生成两种模态的全局共享特征和局部共享特征和局部共享特征步骤2-3：输出全局共享特征和局部共享特征3.根据权利要求2所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述步骤2中，在resnet50的四个卷积层内的第三个卷积层后嵌入局部分支模块，全局共享特征的提取则是经过resnet50的四个卷积层操作，组合为步骤2-2的提取全局共享特征和局部共享特征的网络；所述局部分支模块是由多个空洞卷积模块和残差自我注意力模块组成。4.根据权利要求3所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述步骤3包括以下步骤：步骤3-1：将全局共享特征和进行全局平均池化，得到富含全局性的准全局特征和步骤3-2：将和输入bn层，生成最终的全局特征和步骤3-3：输出全局特征和5.根据权利要求4所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述多个空洞卷积模块执行步骤如下：步骤s1：将resnet50前三层进行卷积操作所获得的全局共享特征进行全局平均池化；步骤s2：将步骤s1所得到的特征进行卷积操作；步骤s3：将步骤s2所得到的特征进行激活操作；步骤s4：将resnet50前三层进行卷积操作所获得的全局共享特征分别进行三个空洞卷积操作；步骤s5：将步骤s3，步骤s4所获得特征拼接起来；
步骤s6：将步骤s5所得到的特征进行卷积操作；步骤s7：将步骤s6所得到的特征进行激活操作；所述残差自我注意力模块执行步骤如下：步骤a：将多个空洞卷积模块得到的特征f
multi-atrous
分别进行三个卷积操作得到f
query
，f
key
，f
value
；步骤b：将f
query
和f
key
相乘后进行softmax操作得到特征步骤c：将和f
value
相乘得到特征f；步骤d：将f进行卷积操作得到特征f'；步骤e：将f'输入bn层与f
multi-atrous
相加得到最后的局部共享特征和6.根据权利要求5所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述步骤4包括以下步骤：步骤4-1：将局部共享特征和进行平均池化，得到富含局部性的准局部特征和步骤4-2：将和输入bn层，生成最终的局部特征和步骤4-3：输出局部特征和7.根据权利要求6所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述步骤5中的全局级别和局部级别联合约束由全局级别约束损失、局部级别约束损失组成；全局级别约束损失和局部级别约束损失基于vpr任务的困难三元组损失和交叉熵损失以及受到跨模态行人再识别启发的异质中心损失。8.根据权利要求7所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述基于vpr任务的困难三元组损失和交叉熵损失，困难三元组损失考虑两种不同模态，并增加了困难采样的过程，并且会对两种模态的困难样本进行困难采样，从中选出最难匹配的正样本对、最容易匹配的负样本对，进而计算出损失；而异质中心损失是拉近类内两个模态中心的距离，减少类内交叉模态的变化，从而提高类内跨模态的特征相似度，进而计算出损失；采用欧式距离的方式，度量两个特征向量之间的距离，如公式(1)所示：d(f1,f2)＝||f
1-f2||2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，f1和f2代表地点图像的特征向量；设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像，每一个批次的训练就有2pk张地点图像；对于vi-vpr任务的困难三元组损失如公式(2)所示：其中，f为特征向量集合，为锚点地点图像的特征向量，且是两种模态地点图像的集合，是彩色模态或红外模态的正样本地点图像的特征向量，和具有相同的地点地标，
是彩色模态或红外模态的负样本地点图像的特征向量，和不具有相同的地点地标；当困难正样本对间的欧式距离与α之和小于困难负样本对之间的欧氏距离时，锚点地点图像能够与该批次中所有的地点图像正确匹配；其中，α代表人为设定的阈值参数。9.根据权利要求8所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，当采用交叉熵损失，设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像，每一个批次的训练就有2pk张地点图像；针对vi-vpr任务的交叉熵损失如公式(3)所示：其中，f代表特征向量集合，p(y
i
|f
i
)表示特征向量f
i
被模型预测为y
i
的概率，由softmax函数编码；当采用异质中心损失，设在训练集中选取p个不同的地点，从每个地点中再随机选取k张彩色地点图像和k张红外地点图像；针对vi-vpr任务的异质中心损失如公式(4)所示：其中，c
i,rgb
和c
i,ir
代表第i个地点两个模态特征分布的中心，f代表特征向量集合，f
rgb
和f
ir
分别代表彩色图像特征向量集合和红外图像特征向量集合，f
i,rgb,j
和f
i,ir,j
代表第i个地点的第j张地点图像的两个模态特征向量。10.根据权利要求9所述的基于全局和局部特征联合约束的跨模态地点识别方法，其特征在于，所述全局特征约束损失是基于vi-vpr任务的困难三元组损失和交叉熵损失，约束全局特征；全局特征约束损失利用了步骤3-1的准全局特征和以及步骤3-3的全局特征和其表达式如公式(5)所示：所述局部特征约束损失是基于vi-vpr任务的异质中心损失和交叉熵损失，约束局部特征；局部特征约束损失利用了步骤4-1的准局部特征和以及步骤4-3的局部特征和其表达式如公式(6)所示；全局特征和局部特征联合约束，最终结合了全局级别损失、局部级别损失，如公式(7)所示；
l
gl
＝l
global
+l
local (7)其中，l
global
为全局特征约束损失，l
local
为局部特征约束损失。

技术总结
本发明涉及计算机视觉技术领域，具体涉及一种基于全局和局部特征联合约束的跨模态地点识别方法。本发明包括以下步骤：步骤1、分别输入1张彩色图像和红外图像到GLFC-Net网络模型中；步骤2、利用ResNet50网络和局部分支模块，将步骤1中输入的两种模态的图像生成富含全局性和局部性的共享特征；步骤3、从富含全局性的共享特征中提取对应的全局特征；步骤4、从富含局部性的共享特征中提取对应的局部特征；步骤5、对步骤3获得的全局特征与步骤4获得的局部特征进行全局级别和局部级别联合约束；步骤6、若达到指定的训练轮数，则结束；否则继续完成训练，返回步骤1。本发明增加了对光照不足、视角变化问题的鲁棒性，从而提高了地点识别的准确率。别的准确率。别的准确率。

技术研发人员：梁瑞王进
受保护的技术使用者：南通大学
技术研发日：2023.04.13
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种美甲灯及美甲灯的收纳方法与流程 下一篇：一种基于机器学习的机器人RV减速器故障检测方法与流程

一种基于全局和局部特征联合约束的跨模态地点识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于全局和局部特征联合约束的跨模态地点识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表