基于自注意力模型和卷积神经网络的道路信息提取方法

未命名 07-23 阅读：79 评论：0

1.本发明涉及遥感图像处理技术领域，具体是基于自注意力模型和卷积神经网络的道路信息提取方法。

背景技术：

2.道路是地理信息系统的重要组成部分，获取及时而完备的道路信息在数字城市建设、公共交通运输和无人汽车驾驶等方面发挥着重要作用。近年来，随着遥感技术的快速发展，遥感影像在空间和光谱分辨率等方面都有了很大的提升，从高分辨率影像中提取道路逐渐成为研究的热点。然而,基于人工的道路提取方法不仅周期长,而且容易受到人的主观因素影响。每天产生海量卫星遥感数据，完全依靠人力进行道路提取显然是不可行的。为了快速在遥感影像中提取道路信息，人们在利用遥感影像进行道路提取方面做了大量研究,形成了诸多提取精度不一的方法。这些传统方法根据提取任务不同可分为两类。第一类是依赖专家知识、道路几何特征和形状特征,通过模板匹配、知识驱动等算法提取道路骨架。这类方法存在计算复杂度较高、自动化程度较低等缺点。第二类是利用面向对象的思想,通过图像分割、支持向量机等方法来检测遥感影像中所有的道路区域,从而获取道路信息。这类方法由于受到建筑物阴影遮挡、道路灰度变化不均匀等问题,导致存在大量道路断裂现象,加上遥感影像中道路形状复杂，尺度不一等问题，道路信息提取效果不佳。
3.为了快速、准确对道路实现分割，当下基于深度学习对道路进行提取的方法逐渐成为了一种高效、自动化的解决方案。然而，在面向卫星遥感的道路分割任务中，由于道路具有较大的跨度，并且较为细窄，通常导致最终模型整体的分割效果不佳，碎片化。

技术实现要素：

4.本发明的目的在于解决现有技术从遥感图像中提取道路信息出现分割不佳、碎片化的问题，提供了一种基于自注意力模型和卷积神经网络的道路信息提取方法，其采用自注意力模型结构提取全局信息改善道路分割的支离破碎问题，采用卷积神经网络结构提取局部信息完善对道路边缘的分割效果，并能提升道路分割的连通性。
5.本发明的目的主要通过以下技术方案实现：
6.基于自注意力模型和卷积神经网络的道路信息提取方法，包括以下步骤：
7.步骤s1、选取遥感道路数据作为原始数据，并对原始数据进行预处理；
8.步骤s2、采用道路分割模型的编码器对原始数据图像进行图像空间分辨率压缩和特征提取；其中，道路分割模型包括编码器和解码器，所述编码器包括图像划分模块、4个轻量自注意力结构及特征信息融合模块，所述图像划分模块用于输入经预处理后的原始数据图像信息，进行图像空间分辨率压缩和特征提取得到划分后的图像并输出至轻量自注意力结构；所述轻量自注意力结构引入缩放因子减少时间复杂度，引入空间缩减计算对输出维度进行压缩，所述轻量自注意力结构用于对图像划分模块输出图像进行图像特征提取，所述特征信息融合模块用于对4个轻量自注意力结构输出特征进行融合得到编码器的最终输
出结果；
9.步骤s3、基于道路分割模型的解码器生成像素连通性结构预测结果和道路分割结果；其中，所述解码器基于卷积神经网络实现并采用道路标签和像素连通性结构标签进行学习；
10.步骤s4、基于像素连通性结构预测结果反向推导得到与输入图像等分辨率的输出结果，并联合道路分割结果得到最终输出。本发明的轻量自注意力结构是在自注意力结构的基础上引入缩放因子和空间缩减计算来减少计算量，进而实现自注意力结构轻量的功能。
11.本发明应用时，道路分割模型中编码器使用4个轻量自注意力结构组成的模块用于提取输入图像的特征信息，再进行特征融合，得到编码器结构的最终输出结果，然后再生成像素连通性结构的预测结果和道路分割结果，能提升网络的高级语义信息和低级细节信息的综合表达能力。本发明使用轻量自注意力结构进行图像特征提取，能减少引入的计算量，引入缩放因子让自注意力结构整体的时间复杂度减少，同时也为整体的道路分割模型降低了大量的计算成本，并且同样可以为整体模型提供丰富的长距离依赖捕捉和全局上下文信息。本发明使用道路分割结果和像素连通性结果，分别负责对道路实现分割和连通性检测，快速实现最终的结果预测。
12.进一步的，所述图像划分模块采用步长为4，卷积核尺寸为7
×
7的卷积结构，原始数据的图像尺寸的通道数为3，图像划分模块输出图像尺寸的通道数为32，原始数据的图像尺寸b
×3×h×
w经图像划分模块转换为尺寸b
×
32
×
h/4
×
w/4的图像输出，其中，b为图像批次，h为图像的高度，w为图像的宽度。本发明的道路分割模型使用图像划分模块对图像进行一次特征提取，并保留图像不同区域之间连接信息。
13.进一步的，所述轻量自注意力结构引入缩放因子减少时间复杂度具体为：轻量自注意力结构引入缩放因子使轻量自注意力结构整体的时间复杂度从o(n2)降低到其中，r为缩放因子，o(n2)为自注意力结构的时间复杂度，为轻量化自注意力结构的时间复杂度，n＝h
×
w，h为图像的高度，w为图像的宽度；
14.所述轻量自注意力结构引入空间缩减计算对输出维度进行压缩具体为：轻量自注意力结构引入空间缩减计算对qw
jq
和kw
jw
的维度进行压缩，其中，空间缩减计算公式为：
15.sr(x)＝norm(reshape(x，r)
·
w)
16.其中，q、k和v分别对应自注意力的输入，j为索引，x为输入，分别指q、k、v，sr(x)为缩放x，attention(q，k，v)为自注意力计算，sr(q)为对q进行缩放，t为转置，，sr(k)
t
为缩放k再转置，reshape(x，r)是将x的维度从hw
×
c转换为norm表示标准化，cr2为就表示这个数值，为字矩阵的维度，第一个维度是cr^2，第二个维度是c，c为类别数量，h为图像的高度，w为图像的宽度。
17.进一步的，所述特征信息融合模块对4个轻量自注意力结构输出特征进行融合得
到道路分割模型的最终输出结果包括：
18.先对每个轻量自注意力结构的输出结果进行上采样至输入图像分辨率的接着对4个输出结果按照通道进行拼接，最后使用带有批归一化，卷积核大小为1，步幅为1的卷积神经网络对拼接结果进行一次运算，并得到道路分割模型的最终输出结果。
19.进一步的，所述步骤s3生成像素连通性结构预测结果包括：
20.步骤s31、初始化像素间隔距离d；初始化像素连通性结构标签元素值均为0，形状为：8
×h×
w，其中，8代表当前像素点的8个方位数，h为图像的高度，w为图像的宽度；
21.步骤s32、从左上角第一个像素起，按照从左到右，从上到下的原则，寻找当前像素点和距离为d的左上方位像素点，若都为道路目标像素，则当前像素点的标签记为1；
22.步骤s33、重复步骤s32，遍历完左上、上、右上、左、右、左下、下及右下8个方向，得到8
×h×
w形状的像素连通性结构标签，分别代表8个方位的连通关系；
23.其中，生成的像素连通性结构标签对应的像素点标签仅包含0和1，1表示存在连通现象，0表示不存在连通现象。
24.进一步的，所述步骤s4得到8个方位的与输入图像等分辨率的输出结果。
25.综上所述，本发明与现有技术相比具有以下有益效果：本发明结合卷积神经网络和自注意力模型各自的优势，分别用于局部信息和全局信息提取，提升整体模型结构的稳定性和鲁棒性，提出使用像素连通性结构用于预测道路的连通性情况，缓解了遥感道路数据集中存在的道路分割结果不连通的现象，提升了模型对道路提取的整体效果。
附图说明
26.此处所说明的附图用来提供对本发明实施例的进一步理解，构成本技术的一部分，并不构成对本发明实施例的限定。在附图中：
27.图1为本发明一个具体实施例的流程图；
28.图2为本发明一个具体实施例中网络架构的框架图；
29.图3为本发明一个具体实施例中采用的遥感道路数据部分图像；
30.图4为现有的自注意力结构与本发明一个具体实施例中采用空间缩减的自注意力结构示例图；
31.图5为本发明一个具体实施例中生成连通性结构标签的流程示意图；
32.图6为本发明一个具体实施例中逆向推导像素连接性结构的输出得到分割结果示意图；
33.图7为本发明一个具体实施例与现有技术的遥感影像分割结果对比示意图；
34.图8为本发明一个具体实施例中三个不同参数量版本的分割结果对比图；
35.图9为本发明一个具体实施例中未采用生成像素连通性结构标签方式与采用生成像素连通性结构标签方式的分割结果对比图；
36.图10为本发明一个具体实施例与现有技术应用时网络中间计算得到的特征图对比图。
具体实施方式
37.为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。
38.实施例：
39.如图1及图2所示，基于自注意力模型和卷积神经网络的道路信息提取方法，包括以下步骤：步骤s1、选取遥感道路数据作为原始数据，并对原始数据进行预处理；步骤s2、采用道路分割模型的编码器对原始数据图像进行图像空间分辨率压缩和特征提取；其中，道路分割模型包括编码器和解码器，所述编码器包括图像划分模块、4个轻量自注意力结构及特征信息融合模块，所述图像划分模块用于输入经预处理后的原始数据图像信息，进行图像空间分辨率压缩和特征提取得到划分后的图像并输出至轻量自注意力结构；所述轻量自注意力结构引入缩放因子减少时间复杂度，引入空间缩减计算对输出维度进行压缩，所述轻量自注意力结构用于对图像划分模块输出图像进行图像特征提取，所述特征信息融合模块用于对4个轻量自注意力结构输出特征进行融合得到编码器的最终输出结果；步骤s3、基于道路分割模型的解码器生成像素连通性结构预测结果和道路分割结果；其中，所述解码器基于卷积神经网络实现并采用道路标签和像素连通性结构标签进行学习；步骤s4、基于像素连通性结构预测结果反向推导得到与输入图像等分辨率的输出结果，并联合道路分割结果得到最终输出。
40.本实施例对原始数据进行预处理采用现有的裁剪、数据增强在内的预处理方式进行数据预处理，图像裁剪的目的是将研究之外的区域去除，降低计算的复杂度，有效地提升计算速度；数据增强的目的是增强目视效果,提高图像质量和突出所需信息,有利于分析判读或作进一步的处理，主要是从先验知识的角度丰富数据集的多样性，提升后续数据处理时模型的鲁棒性能。本实施例的道路分割模型定义为seg-road模型。
41.本实施例的图像划分模块不同于swin transformer等模型对输入图像采用图像划分模块进行切割并添加相关的位置嵌入信息，本实施例的图像划分模块采用步长为4，卷积核尺寸为7
×
7的卷积结构，原始数据的图像尺寸的通道数为3，图像划分模块输出图像尺寸的通道数为32，原始数据的图像尺寸b
×3×h×
w经图像划分模块转换为尺寸b
×
32
×
h/4
×
w/4的图像输出，其中，b为图像批次，h为图像的高度，w为图像的宽度。相比较于现有技术对图像直接切割，本实施例的seg-road模型通过图像划分模块对图像的进行一次特征提取，并在此次特征提取时保留图像不同区域之间连接信息。
42.本实施例的轻量自注意力结构引入缩放因子减少时间复杂度具体为：轻量自注意力结构引入缩放因子使轻量自注意力结构整体的时间复杂度从o(n2)降低到其中，r为缩放因子，o(n2)为自注意力结构的时间复杂度，为轻量化自注意力结构的时间复杂度，n＝h
×
w，h为图像的高度，w为图像的宽度。本实施例通过引入缩放因子让自注意力机制整体的时间复杂度降低，也为整体的seg-road模型降低了大量的计算成本，并且同样可以为整体模型提供丰富的长距离依赖捕捉和全局上下文信息。尤其是在模型的输入尺度较大时，改进后的自注意力机制的计算速度优势更加明显。
43.通常transformer-based使用vanilla transformer用于图像特征提取，使用q、k、
v作为输入，其维度都为n
×
c，其中，n＝h
×
w，dk取值为c，用于防止q和k
t
的内积过大。
[0044][0045][0046]
softmax用于对qw
jq
(kw
jw
)
t
形状为hw
×
hw进行维度归一化，用于感知两两像素之间的存在联系，为整体的模型引入了全局的感知注意力，相比较于cnn的模型具有更多的全局注意力。为了避免直接使用vanilla transformer引入大量的计算成本。本实施例的轻量自注意力结构引入空间缩减计算对输出维度进行压缩具体为：轻量自注意力结构引入空间缩减计算对qw
jq
和kw
jw
的维度进行压缩，能减少引入的计算量，其中，空间缩减计算公式为：
[0047]
sr(x)＝norm(reshape(x，r)
·
w)
[0048][0049]
其中，q、k和v分别对应自注意力的输入，j为索引，x为输入，分别指q、k、v，sr(x)为缩放x，attention(q，k，v)为自注意力计算，sr(q)为对q进行缩放，t为转置，，sr(k)
t
为缩放k再转置，reshape(x，r)是将x的维度从hw
×
c转换为norm表示标准化，cr2为就表示这个数值，为字矩阵的维度，第一个维度是cr^2，第二个维度是c，c为类别数量，h为图像的高度，w为图像的宽度。
[0050]
本实施例的道路分割模型中编码器使用4个由轻量自注意力结构组成的block用于提取输入图像的特征信息，分别记作block1、block2、block3及block4。由于语义分割不仅仅要实现对像素点类别的预测，同时需要确定像素目标的像素点位置，因此为了准确的对遥感影像中的道路进行分割，道路分割模型分别使用编码器中4个block的输出结果进行特征融合，提升网络的高级语义信息和低级细节信息的综合表达能力。
[0051]
如图4所示，为了进一步简化模型的计算成本，本实施例的特征信息融合模块对4个轻量自注意力结构输出特征进行融合得到道路分割模型的最终输出结果包括：先对每个轻量自注意力结构的输出结果进行上采样至输入图像分辨率的接着对4个输出结果按照通道进行拼接，最后使用带有批归一化，卷积核大小为1，步幅为1的卷积神经网络对拼接结果进行一次运算，并得到道路分割模型的最终输出结果。
[0052]
通常在语义分割任务中，由于缺乏丰富的对象信息和边缘区域难以圈定等原因，导致边缘像素准确分类的难度较大。而在道路分割任务中，因为道路的形状通常是较为细窄，并且跨度较大，类似于存在大量的边缘分割问题，因此导致预测结果间断等现象发生。虽然道路分割任务存在较多的困难，但是其具有较好的连通性。因此为了提升对道路分割的准确率，本实施例提出使用像素连通性结构，用于改善道路分割的破碎问题。如图5所示，本实施例的步骤s3生成像素连通性结构预测结果包括：步骤s31、初始化像素间隔距离d；初始化像素连通性结构标签元素值均为0，形状为：8
×h×
w，其中，8代表当前像素点的8个方
位数，h为图像的高度，w为图像的宽度；步骤s32、从左上角第一个像素起，按照从左到右，从上到下的原则，寻找当前像素点和距离为d的左上方位像素点，若都为道路目标像素，则当前像素点的标签记为1；步骤s33、重复步骤s32，遍历完左上、上、右上、左、右、左下、下及右下8个方向，得到8
×h×
w形状的像素连通性结构标签，分别代表8个方位的连通关系，用于改善遥感影像中道路分割的破碎问题。其中，生成的像素连通性结构标签对应的像素点标签仅包含0和1，1表示存在连通现象，0表示不存在连通现象。本实施例步骤s32中按照从左到右，从上到下具体为遥感影像的道路标签图像的左到右，上到下，本实施例的像素连通性结构使用像素连通性结构标签训练。
[0053]
在本实施例中，通过使用像素连通性结构为模型提供一定的连通信息，在实际道路分割模型中使用像素间隔距离为r＝2辅助遥感影像中的道路分割。在像素连通性结构的训练阶段时，因为对应的标签元素只包含0和1，1代表存在连通关系，所以使用bce损失作为损失函数，如下公式所示，其中yi表示连通性标签，pi表示预测结果，c表示h
×
w个像素点数目。
[0054][0055]
在像素连通性结构中分割分支的训练中没有引入如类别平衡损失focal loss等，而是同样采用了binary cross entropy损失函数，实现最终的逐像素点分类任务。在道路分割模型中像素连通性结构的训练中采用bce损失，为了保证分割分支的优化优先性，因此整体的损失函数如下所展示，其中α在实际训练中取值为0.2；其中，loss＝l
seg
+αl
con
。
[0056]
如图6所示，本实施例的步骤s4使用像素连通性结构标签的预测结果进行反向推导生成最终的预测结果，其为像素连通性结构生成标签的逆向过程，预测得到8个通道(方位)的与输入图像等分辨率的输出结果。本实施例的道路分割模型中主要由两个分割分支所组成，常规语义分割分支和像素连通性结构，分别负责对道路实现分割和连通性检测。其中像素连通性结构主要是参与多任务训练，为模型提供连通性信息。但是为了充分利用像素连通性结构预测结果的信息，提出使用像素连通性结构的预测结果进行反向推导生成最终的预测结果。本实施例的道路分割模型通过像素连通性结构预测得到8个通道(方位)的与输入图像等分辨率的输出结果，以表示左上角方位输出结果为例，如图6左侧图所示，其反向映射得到的路面分割结果如图6右侧图所展示。通过对8个方位的输出结果进行反向映射并取并集，作为模型的连通性输出结果。
[0057]
为了验证本实施例提出的道路分割模型对遥感影像中道路的分割有效性，本实施例使用deepglobe遥感影像数据集进行测试，deepglobe道路数据集是2018年deepglobe道路提取挑战赛提出的一套高分辨率遥感影像道路数据集，其中带有标签数据的影像有6226张。影像场景为泰国、印度、印度尼西亚3个国家的城市、乡村、荒郊、海滨、热带雨林等场景，数据集中部分图像如图3所示。本实施例同时采用现有的deeproadmapper、linknet34、d-linknet、pspnet、roadcnn、coanet及coanet-ub模型进行对比。其中，本实施例提出的seg-road包含三个不同参数量的版本，三个不同参数量版本的参数量(parameters)和检测速度(frames per second，fps)如表1所示，其中，seg-road-s——参数量最少，计算速度最快；seg-road-m参数量较少，计算速度较快，seg-road-l参数量较多，计算速度较慢。
[0058]
表1本实施例三个不同参数量版本的参数量和检测速度对比表
[0059] seg-road-sseg-road-mseg-road-lparameters(mb)4.1814.1228.67fps988142
[0060]
具体的，相关评价指标解释如下，本实施例选取了均交并比(miou)、精准率(precision)、召回率(recall)及f1作为主要评价指标。其中，精准率是指被正确预测为道路的像素点数量占预测结果是道路的像素点数量的比例，计算公式如公式(1)所示。召回率是指被正确预测为道路的像素点数量占真实为道路标签的像素点数量的比例，计算公式如公式(2)所示。f1是对精准率和召回率的综合评价，计算公式如公式(3)所示。其中tp指正确预测为正例，fp指错误预测为正例，fn指错误预测为负例。
[0061][0062][0063][0064]
miou是语义分割经典、权威的衡量指标，其计算方法如公式(4)所示，其中k代表类别数，pij可以理解为类别i的目标预测为类别j目标的数量。
[0065][0066]
详细的评价指标结果如表2所示：
[0067]
表2本实施例seg-road模型与现有模型对遥感影像中道路的分割有效性对比
[0068][0069]
[0070]
可以从以上表格中清晰的观察到，相比较于deeproadmapper、linknet34、d-linknet、pspnet、roadcnn、coanet及coanet-ub模型，seg-road-s、seg-road-m及seg-road-l都取得了较大的提升。在coanet-ub中也获得优秀的道路分割效果，而本实施例提出的seg-road-m和seg-road-l都在较少的参数量前提下，获得了比coanet-ub更好的分割效果。
[0071]
其次，本实施例在测试集中随机选取了四张遥感图像，分别使用pspnet，linknet32，coanet-ub和seg-road对结果进行预测，结果如图7所展示。图7中(a)是输入遥感影像，(b)是数据集真实值,(c)是pspnet的计算结果,(d)是linknet32的计算结果,(e)是coanet-ub的计算结果,(f)是seg-road-l的计算结果。可以清晰的观察到，相比较于coanet-ub和seg-road而言，无连通性分支的pspnet和linknet32检测结果存在大量破碎现象，并且在道路边缘处的分割效果不佳。coanet-ub整体的分割结果联通较好，但是相比较于seg-road而言，存在较多的fp，因此整体的评价指标低于seg-road。值得一提的是seg-road对遥感影像中道路分割连通更好，并且存在更少的fp，准确率最高
[0072]
另外，seg-road包含三个不同参数量的版本模型seg-road-s，seg-road-m和seg-road-l。其模型的整体结构大致相同，仅在中间计算过程中的通道数量和每个模块使用的空间缩减变换数量不同。相比较于seg-road-m和seg-road-l，seg-road-s有着更快的计算速度，可以满足实时性要求较高的使用场景。而本实施例提出的seg-road-s同样有着较快的分割速度以及更好的分割效果，更适合对实时性要求较低的分割场景。为了更清晰的展示三个版本模型的分割效果差异，从验证集合中随机选取了一张遥感影像进行分割，效果如图8所展示。图8从左至右，第一张图是seg-road-s的分割结果，第二张图是seg-road-m的分割结果，第三张图是seg-road-l的分割结果，可以观察到三个不同参数量的seg-road都有着较好的连通性能，seg-road-l对道路的细节特征检测的更好，相对而言fp也更少。
[0073]
在seg-road中使用像素连通性结构提升网络对遥感影像中道路像素点之间的联通性感知，相反在linknet34等分割模型中都没有连通预测，因此在很大程度上推测是因为连通性结构为模型整体提供了更精准的分割效果。为了验证这个猜想，以seg-road-s为例，取消使用连通性结构，仅仅采用分割分支在相同的超参数前提下，对deepglobe数据进行重新训练和测试，得到的评价指标为：72.46％miou。因此较为充分的验证了这个推测，本实施例提出的连通性结构对遥感影像中道路的分割，甚至是对类似风格待分割的目标，都有会带来优异的分割表现。图9展示的是seg-road和无连通性结构的seg-road分割结果，其中，左图是没有连通性结构的seg-road的分割结果，右图是有连通性结构的seg-road的分割结果，可以观察到无连通性结构的seg-road对遥感影像中道路的分割结果存在较多的破碎的现象，而seg-road整体的连通性更强，对道路细节处分割效果更好。
[0074]
卷积神经网络通常被理解为有较好的局部信息提取能力，而基于自注意力模型的网络通常被理解为有较好的全局信息提取能力。本实施例提出的seg-road在编码器中使用空间缩减变换进行输入图像的特征提取，在编码器中使用卷积神经网络用于多尺度特征的融合以及最终结果的预测。相比之下现在很多语义分割模型单一使用卷积神经网络和自注意力模型导致全局信息和局部信息存在较大的偏差，影像整体模型的分割效果。为了展现联合自注意力模型和卷积神经网络的优势，本实施例对中间计算图像的特征图进行可视化，如图10所示，其中图10中从左至右第一张图是输入的遥感影像，第二张图是pspnet中间计算得到的特征图，第三张图是coanet中间计算得到的特征图，第四张图是seg-road中间
计算得到的特征图。可以清晰的观察到，中间特征图的全局连通信息和局部的细节信息都有被较好的利用，相比较于pspnet和coanet-ub对道路提取的特征更加准确和清晰。因此相比之下，本实施例提出的seg-road在deepglobe数据集上获得了较好的分割效果，同时相信其可以在类似的任务中取得更好的预测结果。
[0075]
综上所述，为了解决遥感影像中道路分割结果通常存在不连续的情况，本实施例基于自注意力模型和卷积神经网络提出了一个新的语义分割模型seg-road。并且seg-road提出了使用像素连通性结构提升网络对道路像素的连接信息感知，在一定程度上优化了当下语义分割模型对遥感影像中道路分割存在破碎现象的问题。通过使用deepglobe数据集进行验证，结果表明seg-road取得了当前最高水平的结果，miou 82.06％,f1 91.43％,精准率90.05％,召回率92.85％，超越了linknet，d-linknet，pspnet和coanet等分割模型。在此之外，本实施例提出了seg-road三个不同参数量的版本模型，分别是seg-road-s，seg-road-m和seg-road-l，且都取得了较好的分割效果，可以根据不同应用场景对实时性分割的要求进行选择。最后，相比较于当下已有的语义分割模型，本实施例提出的seg-road对遥感影像中的道路分割具有更高的实际应用价值。
[0076]
以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.基于自注意力模型和卷积神经网络的道路信息提取方法，其特征在于，包括以下步骤：步骤s1、选取遥感道路数据作为原始数据，并对原始数据进行预处理；步骤s2、采用道路分割模型的编码器对原始数据图像进行图像空间分辨率压缩和特征提取；其中，道路分割模型包括编码器和解码器，所述编码器包括图像划分模块、4个轻量自注意力结构及特征信息融合模块，所述图像划分模块用于输入经预处理后的原始数据图像信息，进行图像空间分辨率压缩和特征提取得到划分后的图像并输出至轻量自注意力结构；所述轻量自注意力结构引入缩放因子减少时间复杂度，引入空间缩减计算对输出维度进行压缩，所述轻量自注意力结构用于对图像划分模块输出图像进行图像特征提取，所述特征信息融合模块用于对4个轻量自注意力结构输出特征进行融合得到编码器的最终输出结果；步骤s3、基于道路分割模型的解码器生成像素连通性结构预测结果和道路分割结果；其中，所述解码器基于卷积神经网络实现并采用道路标签和像素连通性结构标签进行学习；步骤s4、基于像素连通性结构预测结果反向推导得到与输入图像等分辨率的输出结果，并联合道路分割结果得到最终输出。2.根据权利要求1所述的基于自注意力模型和卷积神经网络的道路信息提取方法，其特征在于，所述图像划分模块采用步长为4，卷积核尺寸为7
×
7的卷积结构，原始数据的图像尺寸的通道数为3，图像划分模块输出图像尺寸的通道数为32，原始数据的图像尺寸b
×3×
h
×
w经图像划分模块转换为尺寸b
×
32
×
h/4
×
w/4的图像输出，其中，b为图像批次，h为图像的高度，w为图像的宽度。3.根据权利要求1所述的基于自注意力模型和卷积神经网络的道路信息提取方法，其特征在于，所述轻量自注意力结构引入缩放因子减少时间复杂度具体为：轻量自注意力结构引入缩放因子使轻量自注意力结构整体的时间复杂度从o(n2)降低到其中，r为缩放因子，o(n2)为自注意力结构的时间复杂度，为轻量化自注意力结构的时间复杂度，n＝h
×
w，h为图像的高度，w为图像的宽度；所述轻量自注意力结构引入空间缩减计算对输出维度进行压缩具体为：轻量自注意力结构引入空间缩减计算对qw
jq
和kw
jw
的维度进行压缩，其中，空间缩减计算公式为：sr(x)＝norm(reshape(x，r)
·
w)其中，q、k和v分别对应自注意力的输入，j为索引，x为输入，分别指q、k、v，sr(x)为缩放x，attention(q，k，v)为自注意力计算，sr(q)为对q进行缩放，t为转置，，sr(k)
t
为缩放k再转置，reshape(x，r)是将x的维度从hw
×
c转换为c转换为norm表示标准化，cr2为就表示这个数值，为字矩阵的维度，第一个维度是cr^2，第二个维度是c，c为类别数量，h为图像的高度，w为图像的宽度。4.根据权利要求1所述的基于自注意力模型和卷积神经网络的道路信息提取方法，其
特征在于，所述特征信息融合模块对4个轻量自注意力结构输出特征进行融合得到道路分割模型的最终输出结果包括：先对每个轻量自注意力结构的输出结果进行上采样至输入图像分辨率的接着对4个输出结果按照通道进行拼接，最后使用带有批归一化，卷积核大小为1，步幅为1的卷积神经网络对拼接结果进行一次运算，并得到道路分割模型的最终输出结果。5.根据权利要求1～4中任意一项所述的基于自注意力模型和卷积神经网络的道路信息提取方法，其特征在于，所述步骤s3生成像素连通性结构预测结果包括：步骤s31、初始化像素间隔距离d；初始化像素连通性结构标签元素值均为0，形状为：8
×
h
×
w，其中，8代表当前像素点的8个方位数，h为图像的高度，w为图像的宽度；步骤s32、从左上角第一个像素起，按照从左到右，从上到下的原则，寻找当前像素点和距离为d的左上方位像素点，若都为道路目标像素，则当前像素点的标签记为1；步骤s33、重复步骤s32，遍历完左上、上、右上、左、右、左下、下及右下8个方向，得到8
×
h
×
w形状的像素连通性结构标签，分别代表8个方位的连通关系；其中，生成的像素连通性结构标签对应的像素点标签仅包含0和1，1表示存在连通现象，0表示不存在连通现象。6.根据权利要求5所述的基于自注意力模型和卷积神经网络的道路信息提取方法，其特征在于，所述步骤s4得到8个方位的与输入图像等分辨率的输出结果。

技术总结
本发明公开了一种基于自注意力模型和卷积神经网络的道路信息提取方法，包括以下步骤：步骤S1、选取遥感道路数据作为原始数据，并对原始数据进行预处理；步骤S2、采用道路分割模型的编码器对原始数据图像进行图像空间分辨率压缩和特征提取；步骤S3、基于道路分割模型的解码器生成像素连通性结构预测结果和道路分割结果；步骤S4、基于像素连通性结构预测结果反向推导得到与输入图像等分辨率的输出结果，并联合道路分割结果得到最终输出。本发明采用自注意力模型结构提取全局信息改善道路分割的支离破碎问题，采用卷积神经网络结构提取局部信息完善对道路边缘的分割效果，并能提升道路分割的连通性。提升道路分割的连通性。提升道路分割的连通性。

技术研发人员：陈喆周仲礼余正波季青云徐可柳炳利常睿春魏友华雷湘琦何子琼邢舒雯
受保护的技术使用者：成都理工大学
技术研发日：2023.03.14
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种情景信息的应用方法及系统与流程 下一篇：阻尼器、电动尾门撑杆及车辆的制作方法

基于自注意力模型和卷积神经网络的道路信息提取方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于自注意力模型和卷积神经网络的道路信息提取方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表