一种基于注意力压缩编码特征的视觉位置识别方法、系统及装置

未命名 07-27 阅读：75 评论：0

1.本发明属于视觉定位领域，具体涉及一种基于注意力压缩编码特征的视觉位置识别方法、系统及装置。

背景技术：

2.近年来，随着微电子、自动化技术和人工智能技术的蓬勃发展，无人智能系统的研究和应用得到迅速推进。扫地机器人、无人机、无人车、无人船、轨道交通自动驾驶等无人系统在军事、科技、经济和社会生活等各方面日益发挥重要的作用，但也对无人智系统的定位、感知、规划、控制等方面的提出了更高要求。自主定位作为无人智能系统的关键技术解决的是“我在哪”的问题，是实现后续规划的必备基础和先决条件。目前大范围应用的自主定位技术大多需要依赖外部设施，如全球定位系统(global positioning system，gps)、磁钉、磁条等。但gps只能在开阔环境下提供米级定位信息，难以推广到实现大面积绿化的城镇或封闭的室内场景。而基于磁钉、磁条等的定位需要改造应用场景，且限制了机器人移动的灵活性，其维护成本也限制了大范围应用。因此，基于场景环境信息的自定位技术受到了广泛的关注和研究。按照传感器类型可分为激光雷达定位和视觉定位两大类。激光雷达可稳定感知周围环境的三维结构信息，目前激光雷达定位系统已实现多种应用场景下的高精实时定位。但激光雷达成本高、对传感器布局有要求，制约了其进一步推广应用。视觉定位技术相比于激光雷达定位虽然精度相对较低，但成本低、感知信息丰富，因此视觉传感器已经成为众多智能设备的标配，视觉定位系统也在实际中得到广泛应用。
3.视觉位置识别(visual place recognition，vpr)，作为视觉定位系统中的关键技术，旨在加快大规模场景中的定位速度。具体而言，vpr确定机器人或移动设备的当前视图是否来自过去曾经访问的地点或位置。视觉地点识别技术可以被认为是一种图像检索技术，即对目前所观测到的图像与之前到过地点观测到的图像进行匹配，并由此进行地点的识别和定位。显然，进行视觉位置识别的相关研究具有重要的意义。在上述背景下，如何改进已有的视觉位置识别方法，或者提出一种新型的更高效的视觉位置识别方法，已经成为一个需要解决的问题，受到众多学者的关注。

技术实现要素：

4.本发明提供一种基于注意力压缩编码特征的视觉位置识别方法、系统及装置，用以降低离线和在线阶段特征提取的计算开销，并提高全局召回精度，从而保障用户定位的服务质量。
5.本发明通过以下技术方案实现：
6.一种基于注意力压缩编码特征的视觉位置识别方法，其特征在于，包括
7.基于场景三维地图，建立分级数据库；
8.基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线
位置识别。
9.进一步的，所述基于场景三维地图建立分级数据库具体为，
10.步骤s1：根据待定位环境，选择坐标原点，建立平面二维直角坐标系作为二维地图；
11.步骤s2：根据待定位环境，规划路径以覆盖待定位场景；
12.步骤s3：使用相机沿轨迹拍摄待定位场景的参考图像；
13.步骤s4：对参考图像提取点局部特征，并使用增量式sfm算法建立场景三维地图；
14.步骤s5：依据轨迹调整参考图像在三维地图中的位置和在二维地图中的位置之间的映射系数，从而自动获取参考图像在二维地图中的位置，建立起来参考图像与场景位置的关联；
15.步骤s6：基于注意力机制和码本压缩编码原理，使用神经网络对参考图像提取全局特征；
16.步骤s7：将参考图像二维位置、全局特征和点局部特征存储到数据库中，完成场景数据库的建立。
17.进一步的，所述步骤s6的提取全局特征具体为，
18.步骤s6.1：使用特征提取模块提取图像的块局部特征；
19.步骤s6.2：依据块局部特征和码本词汇的相关性计算块局部特征分类到某词汇的后验概率；
20.步骤s6.3：依据后验概率计算块特征在各类中的后验均值；
21.步骤s6.4：将后验均值与先验均值对应作差，作为图像在该类的表征；
22.步骤s6.5：将各类表征归一化或归一化结合加权，拼接为向量后再归一化，作为图像的全局特征。
23.一种基于分级数据库的位置识别方法，其特征在于，所述位置识别方法利用如权利要求1-5任一所述建立分级数据库，所述位置识别方法具体包括以下步骤：
24.步骤r1：用户使用具备相机的设备在待定位场景拍摄图像并上传到云端服务器，云端服务器对该图像提取全局特征；
25.步骤r2：计算用户图像与数据库参考图像全局特征的夹角余弦值并排序，选择前n个夹角余弦值对应的参考图像作为候选结果；
26.步骤r3：提取用户图像点局部特征，与每一候选参考图像的点局部特征进行匹配，并用随机采样一致算法进行空间一致性验证，计算内点比率作为得分；
27.步骤r4：选取得分最高的候选参考图像的二维地图位置作为定位结果，返回到用户设备。
28.进一步的，所述云端服务器包括局部特征提取模块和特征聚合模块；所述云端服务器采用结合注意力机制的卷积神经网络；
29.所述局部特征提取模块对灰度图像进行卷积、池化以获取图像的点特征或块特征。其中卷积层是指使用可学习的卷积核对输入的二维图像进行空间滤波，不同的卷积核用以提取不同的局部特征。通过拼接多种局部特征以获取更好的局部表征。由于卷积神经网络常用于处理二维图像，因此在卷积操作后产生的数据量较大，不利于运算和储存，因此通常采用池化层对卷积特征进行空间下采样。池化后一方面能降低数据量，缩减模型大小，
另一方面也能防止过拟合。
30.进一步的，所述局部特征提取模块为一个非线性映射函数，设输入图像为通过特征提取模块后获得局部特征
31.对块特征，nq由特征提取网络结构以及输入图像尺寸确定；对于点特征，nq由采样的关键点个数决定。
32.进一步的，所述特征聚合模块使用注意力机制，其本质是依据输入向量在变换域上的相关性对线性变换后的输入向量取加权均值，其表达式为
[0033][0034][0035]
其中，f(
·
,
·
)为注意力函数，用来描述两特征向量之间的相似性。qi、kj、vj是输入特征通过可学习的映射矩阵后变换得到的，分别为qi＝wqxi、ki＝wkxi、vi＝wvxi；
[0036]
输出特征的数量取决于qi的数量，输出特征的维度取决于vj，因此可以调整qi实现特征数目的压缩，调整vj实现特征维度的压缩。
[0037]
进一步的，所述特征聚合模块首先依据码本词汇计算局部特征的分类后验概率，然后依据后验概率估计输入特征的各类均值；使用注意力函数估计分类后验证概率，其表达式为：
[0038][0039]
其中α为可训练的放缩系数；
[0040]
得到后验概率后可估计输入特征的类均值，作为输入特征的一阶统计量，可将其视为输入特征的在该类上的表征；
[0041][0042]
使用残差形式，得到特征在某类上的聚合表征为：
[0043]
vk＝c
′
k-ck[0044]
使用余弦相似性作为聚合表征的相似性衡量，所以需要将vk进行l2归一化，因此最终局部特征在某类上的归一化聚合表征为：
[0045][0046]
假定各类表征对相似性的贡献度相同，则两图像的归一化相似性为：
[0047]
[0048]
因此用作为图像最终的聚合表征；
[0049]
若假定各类表征对相似性的贡献度不同且组成向量a＝[a
1 a2…ak
]
t
，则加权后的归一化相似性为
[0050][0051]
则此时用作为图像的最终聚合表征。
[0052]
一种基于注意力压缩编码特征的视觉位置识别系统，包括
[0053]
分级库建立单元，基于场景三维地图，建立分级数据库；
[0054]
在线位置识别单元，基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。
[0055]
一种基于注意力压缩编码特征的视觉位置识别装置，包括
[0056]
分级库建立模块，基于场景三维地图，建立分级数据库；
[0057]
在线位置识别模块，基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。
[0058]
本发明的有益效果是：
[0059]
本发明的全局特征提取网络训练效率较高，占用的显存资源相对较少，不需要昂贵的gpu设备训练网络，从而降低应用成本。
[0060]
本发明的特征聚合模块灵活性较强，通过修改相似性度量函数和概率化函数可以适应于不同的特征分布，从而获取更为精确的码本词汇。
[0061]
本发明用efficientnet b3替换了vgg16作为骨干网，因此全局特征提取速度高于所有vgg16作为骨干网络的全局特征提取方法，从而提高了在线定位结果反馈的实时性。
[0062]
本发明的全局特征用于全局召回的精度高于大多数需要高复杂运算的一阶段全局召回方法，在满足实时性需求的情况下能提供较为准确的全局召回结果。
[0063]
本发明在场景建模的同时生成数据库图像三维运动轨迹，并通过轨迹对齐的方法实现三维地图到平面地图的映射，从而减少位置标注的工作量。
附图说明
[0064]
图1是本发明的流程示意图。
[0065]
图2是本发明的在地图上选取坐标原点并建立坐标系示意图。
[0066]
图3是本发明的参考图像拍摄轨迹示意图。
[0067]
图4是本发明的特征提取网络结构。
[0068]
图5是本发明的特征提取网络在公开数据集上的精度测试结果。
具体实施方式
[0069]
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本
发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0070]
一种基于注意力压缩编码特征的视觉位置识别方法，包括
[0071]
基于场景三维地图，建立分级数据库；
[0072]
基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。
[0073]
进一步的，所述基于场景三维地图建立分级数据库具体为，
[0074]
步骤s1：根据待定位环境，选择坐标原点，建立平面二维直角坐标系作为二维地图，如图2所示；
[0075]
步骤s2：根据待定位环境，规划路径以覆盖待定位场景，如图3所示；
[0076]
步骤s3：使用相机沿轨迹拍摄待定位场景的参考图像(可由视频解码得到)；
[0077]
步骤s4：对参考图像提取点局部特征，并使用增量式sfm算法建立场景三维地图；
[0078]
步骤s5：依据轨迹调整参考图像在三维地图中的位置和在二维地图中的位置之间的映射系数，从而自动获取参考图像在二维地图中的位置，建立起来参考图像与场景位置的关联；
[0079]
步骤s6：基于注意力机制和码本压缩编码原理，使用神经网络对参考图像提取全局特征；
[0080]
步骤s7：将参考图像二维位置、全局特征和点局部特征存储到数据库中，完成场景数据库的建立。
[0081]
进一步的，所述步骤s6的提取全局特征具体为，
[0082]
步骤s6.1：使用特征提取模块提取图像的块局部特征；
[0083]
步骤s6.2：依据块局部特征和码本词汇的相关性计算块局部特征分类到某词汇的后验概率；
[0084]
步骤s6.3：依据后验概率计算块特征在各类中的后验均值；
[0085]
步骤s6.4：将后验均值与先验均值(码本词汇)对应作差，作为图像在该类的表征；
[0086]
步骤s6.5：将各类表征归一化或归一化结合加权，拼接为向量后再归一化，作为图像的全局特征。
[0087]
一种基于分级数据库的位置识别方法，所述位置识别方法利用如所述建立分级数据库，所述位置识别方法具体包括以下步骤：
[0088]
步骤r1：用户使用具备相机的设备在待定位场景拍摄图像并上传到云端服务器，云端服务器对该图像提取全局特征；
[0089]
步骤r2：计算用户图像与数据库参考图像全局特征的夹角余弦值并排序，选择前n个夹角余弦值对应的参考图像作为候选结果；
[0090]
步骤r3：提取用户图像点局部特征，与每一候选参考图像的点局部特征进行匹配，并用随机采样一致算法进行空间一致性验证，计算内点比率作为得分；
[0091]
步骤r4：选取得分最高的候选参考图像的二维地图位置作为定位结果，返回到用户设备。
[0092]
进一步的，所述云端服务器包括局部特征提取模块和特征聚合模块；所述云端服务器采用结合注意力机制的卷积神经网络(cnn,convolutional neural network)；
[0093]
所述局部特征提取模块对灰度图像进行卷积、池化以获取图像的点特征或块特征。其中卷积层是指使用可学习的卷积核对输入的二维图像进行空间滤波，不同的卷积核用以提取不同的局部特征。通过拼接多种局部特征以获取更好的局部表征。由于卷积神经网络常用于处理二维图像，因此在卷积操作后产生的数据量较大，不利于运算和储存，因此通常采用池化层对卷积特征进行空间下采样。池化后一方面能降低数据量，缩减模型大小，另一方面也能防止过拟合。
[0094]
进一步的，所述局部特征提取模块为一个非线性映射函数，设输入图像为通过特征提取模块后获得局部特征
[0095]
对块特征，nq由特征提取网络结构以及输入图像尺寸确定；对于点特征，nq由采样的关键点个数决定。
[0096]
进一步的，所述特征聚合模块使用注意力机制，其本质是依据输入向量在变换域上的相关性对线性变换后的输入向量取加权均值，其表达式为
[0097][0098][0099]
其中，f(
·
,
·
)为注意力函数，用来描述两特征向量之间的相似性。qi、kj、vj是输入特征通过可学习的映射矩阵后变换得到的，分别为qi＝wqxi、ki＝wkxi、vi＝wvxi；
[0100]
由此表达式可知，输出特征的数量取决于qi的数量，输出特征的维度取决于vj，因此可以调整qi实现特征数目的压缩，调整vj实现特征维度的压缩。
[0101]
进一步的，得到图像的局部特征后，为方便计算和存储，需要对其进行压缩编码。基于码本压缩编码的思想，以全局聚类中心作为码本词汇。将输入特征建模为高斯混合分布，所述特征聚合模块首先依据码本词汇计算局部特征的分类后验概率，然后依据后验概率估计输入特征的各类均值；使用注意力函数估计分类后验证概率，其表达式为：
[0102][0103]
其中α为可训练的放缩系数；
[0104]
得到后验概率后可估计输入特征的类均值，作为输入特征的一阶统计量，可将其视为输入特征的在该类上的表征；
[0105][0106]
为提高压缩编码后的区分度，使用残差形式，得到特征在某类上的聚合表征为：
[0107]
vk＝c
′
k-ck[0108]
为提高运算速度，通常使用余弦相似性作为聚合表征的相似性衡量，所以需要将vk进行l2归一化，因此最终局部特征在某类上的归一化聚合表征为：
[0109][0110]
为提高准确率，考虑结合多类聚合表征。假定各类表征对相似性的贡献度相同，则两图像的归一化相似性为：
[0111][0112]
因此用作为图像最终的聚合表征；
[0113]
若假定各类表征对相似性的贡献度不同且组成向量a＝[a
1 a2…ak
]
t
，则加权后的归一化相似性为
[0114][0115]
则此时用作为图像的最终聚合表征，这些系数可作为可学习的量在网络中训练。
[0116]
一种基于注意力压缩编码特征的视觉位置识别系统，包括
[0117]
分级库建立单元，基于场景三维地图，建立分级数据库；
[0118]
在线位置识别单元，基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。
[0119]
一种基于注意力压缩编码特征的视觉位置识别装置，包括
[0120]
分级库建立模块，基于场景三维地图，建立分级数据库；
[0121]
在线位置识别模块，基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。
[0122]
依据所提出的网络计算的各类表征；
[0123]
对各类表征都进行l2归一化；
[0124]
将各类表征乘上类权重系数(可选)；
[0125]
将各类表征拼接为向量形式的描述子；
[0126]
对向量形式的描述子进行l2归一化；
[0127]
对得到的描述子进行pca降维(可选)。

技术特征：
1.一种基于注意力压缩编码特征的视觉位置识别方法，其特征在于，包括基于场景三维地图，建立分级数据库；基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别；所述基于场景三维地图建立分级数据库具体为，步骤s1：根据待定位环境，选择坐标原点，建立平面二维直角坐标系作为二维地图；步骤s2：根据待定位环境，规划路径以覆盖待定位场景；步骤s3：使用相机沿轨迹拍摄待定位场景的参考图像；步骤s4：对参考图像提取点局部特征，并使用增量式sfm算法建立场景三维地图；步骤s5：依据轨迹调整参考图像在三维地图中的位置和在二维地图中的位置之间的映射系数，从而自动获取参考图像在二维地图中的位置，建立起来参考图像与场景位置的关联；步骤s6：基于注意力机制和码本压缩编码原理，使用神经网络对参考图像提取全局特征；步骤s7：将参考图像二维位置、全局特征和点局部特征存储到数据库中，完成场景数据库的建立。2.根据权利要求1所述一种基于注意力压缩编码特征的视觉位置识别方法，其特征在于，所述步骤s6的提取全局特征具体为，步骤s6.1：使用特征提取模块提取图像的块局部特征；步骤s6.2：依据块局部特征和码本词汇的相关性计算块局部特征分类到某词汇的后验概率；步骤s6.3：依据后验概率计算块特征在各类中的后验均值；步骤s6.4：将后验均值与先验均值对应作差，作为图像在该类的表征；步骤s6.5：将各类表征归一化或归一化结合加权，拼接为向量后再归一化，作为图像的全局特征。3.一种基于分级数据库的位置识别方法，其特征在于，所述位置识别方法利用如权利要求1-2任一所述建立分级数据库，所述位置识别方法具体包括以下步骤：步骤r1：用户使用具备相机的设备在待定位场景拍摄图像并上传到云端服务器，云端服务器对该图像提取全局特征；步骤r2：计算用户图像与数据库参考图像全局特征的夹角余弦值并排序，选择前n个夹角余弦值对应的参考图像作为候选结果；步骤r3：提取用户图像点局部特征，与每一候选参考图像的点局部特征进行匹配，并用随机采样一致算法进行空间一致性验证，计算内点比率作为得分；步骤r4：选取得分最高的候选参考图像的二维地图位置作为定位结果，返回到用户设备。4.根据权利要求3所述一种基于分级数据库的位置识别方法，其特征在于，所述云端服务器包括局部特征提取模块和特征聚合模块；所述云端服务器采用结合注意力机制的卷积神经网络；所述局部特征提取模块对灰度图像进行卷积、池化以获取图像的点特征或块特征；其
中卷积层是指使用可学习的卷积核对输入的二维图像进行空间滤波，不同的卷积核用以提取不同的局部特征。通过拼接多种局部特征以获取更好的局部表征。由于卷积神经网络常用于处理二维图像，因此在卷积操作后产生的数据量较大，不利于运算和储存，因此通常采用池化层对卷积特征进行空间下采样。池化后一方面能降低数据量，缩减模型大小，另一方面也能防止过拟合。5.根据权利要求4所述一种基于分级数据库的位置识别方法，其特征在于，所述局部特征提取模块为一个非线性映射函数，设输入图像为通过特征提取模块后获得局部特征对块特征，n
q
由特征提取网络结构以及输入图像尺寸确定；对于点特征，n
q
由采样的关键点个数决定。6.根据权利要求4所述一种基于分级数据库的位置识别方法，其特征在于，所述特征聚合模块使用注意力机制，其本质是依据输入向量在变换域上的相关性对线性变换后的输入向量取加权均值，其表达式为向量取加权均值，其表达式为其中，f(
·
,
·
)为注意力函数，用来描述两特征向量之间的相似性。q
i
、k
j
、v
j
是输入特征通过可学习的映射矩阵后变换得到的，分别为q
i
＝w
q
x
i
、k
i
＝w
k
x
i
、v
i
＝w
v
x
i
；输出特征的数量取决于q
i
的数量，输出特征的维度取决于v
j
，因此可以调整q
i
实现特征数目的压缩，调整v
j
实现特征维度的压缩。7.根据权利要求6所述一种基于分级数据库的位置识别方法，其特征在于，所述特征聚合模块首先依据码本词汇计算局部特征的分类后验概率，然后依据后验概率估计输入特征的各类均值；使用注意力函数估计分类后验证概率，其表达式为：其中α为可训练的放缩系数；得到后验概率后可估计输入特征的类均值，作为输入特征的一阶统计量，可将其视为输入特征的在该类上的表征；使用残差形式，得到特征在某类上的聚合表征为：v
k
＝c
′
k-c
k
使用余弦相似性作为聚合表征的相似性衡量，所以需要将v
k
进行l2归一化，因此最终局部特征在某类上的归一化聚合表征为：
假定各类表征对相似性的贡献度相同，则两图像的归一化相似性为：因此用作为图像最终的聚合表征；若假定各类表征对相似性的贡献度不同且组成向量a＝[a
1 a2…
a
k
]
t
，则加权后的归一化相似性为：则此时用作为图像的最终聚合表征。8.一种基于注意力压缩编码特征的视觉位置识别系统，其特征在于，包括分级库建立单元，基于场景三维地图，建立分级数据库；在线位置识别单元，基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。9.一种基于注意力压缩编码特征的视觉位置识别装置，其特征在于，包括分级库建立模块，基于场景三维地图，建立分级数据库；在线位置识别模块，基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。

技术总结
本发明提供一种基于注意力压缩编码特征的视觉位置识别方法。基于场景三维地图，建立分级数据库；基于分级数据库，采用注意力机制和码本压缩编码对全局特征进行提取实现在线位置识别。本发明用以降低离线和在线阶段特征提取的计算开销，并提高全局召回精度，从而保障用户定位的服务质量。障用户定位的服务质量。障用户定位的服务质量。

技术研发人员：叶亮赵炜强马琳孟维晓
受保护的技术使用者：哈尔滨工业大学
技术研发日：2023.04.10
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于注意力压缩编码特征的视觉位置识别方法、系统及装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于注意力压缩编码特征的视觉位置识别方法、系统及装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表