一种面向保护目标的无人机备降区域识别方法与流程
未命名
07-14
阅读:163
评论:0
1.本发明涉及计算机视觉中语义分割技术领域,特别涉及一种面向保护目标的无人机备降区域识别方法。
背景技术:
2.无人机航拍图像语义分割是在无人机航拍图像的技术上运用语义分割技术使无人机获得场景目标智能感知能力。针对无人机航拍图像语义分割,面向的对象是非常复杂的航拍场景图,需要识别的备降区域包括水平楼顶、水平地面、水平草地等,还要对各个备降区域的行人、车辆进行检测,若场景中没有出现行人和车辆,才能判定为可备降区域。
技术实现要素:
3.本发明的目的在于通过计算机视觉中语义分割技术对备降区域中的行人和车辆进行检测,以保证无人机能安全降落至备降区域,提供一种面向保护目标的无人机备降区域识别方法。
4.为了实现上述发明目的,本发明实施例提供了以下技术方案:
5.一种面向保护目标的无人机备降区域识别方法,包括以下步骤:
6.步骤1,收集无人机的历史航拍图像数据,并对历史航拍图像数据进行筛选和逐像素点标注,构成航拍数据集;
7.步骤2,将航拍数据集输入目标识别网络,得到上下文特征;所述目标识别网络包括多层的语义分割模型、与语义分割模型连接的统一注意力融合模块,将航拍数据集输入语义分割模型后,得到的部分层的全局特征图输入统一注意力融合模块,得到上下文特征图;
8.步骤3,将上下文特征图分别输入语义分割头和目标检测头,语义分割头和目标检测头的输出结果融合为识别结果。
9.与现有技术相比,本发明的有益效果:
10.本发明利用语义分割技术对无人机预备降区域进行分割识别,由于语义分割是像素级别的图像理解方法,所以会使备降区域识别更为精准更为高效,且stdc-bisenet网络模型在当前实时语义分割领域处于领先技术,体现了方法的科学性和可推广性。
11.本发明对预备降区域中的行人和车辆进行识别,且识别有良好的效果,从而保障地面行人的生命财产安全。
12.本发明将语义分割和目标检测共用stdc-bisenet的主干网络,减少了整个任务模型的参加量,使整个模型得以轻量化,从而便于模型的快速部署。
附图说明
13.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
14.图1为本发明方法流程图;
15.图2为本发明实施例特征注意力权重模块的结构示意图;
16.图3为本发明实施例全卷积模块的结构示意图;
17.图4为本发明实施例统一注意力融合模块处理流程图。
具体实施方式
18.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。另外,术语“相连”、“连接”等可以是元件之间直接相连,也可以是经由其他元件的间接相连。
20.实施例1:
21.本发明通过下述技术方案实现,如图1所示,一种面向保护目标的无人机备降区域识别方法,包括以下步骤:
22.步骤1,收集无人机的历史航拍图像数据,并对历史航拍图像数据进行筛选和逐像素点标注,构成航拍数据集。
23.为了使无人机在执行目标识别任务时能够体现出较好的泛化能力,本实施例在不同场景、不同时段、不同区域采集了大量的历史航拍图像数据,或者视频数据,并对这些数据进行筛选和逐像素点标注,标注时使用labeme图像标注工具,并将标注好的数据制作成voc数据集格式,构成航拍数据集。
24.步骤2,将航拍数据集输入目标识别网络,得到上下文特征;所述目标识别网络包括多层的语义分割模型、与语义分割模型连接的统一注意力融合模块,将航拍数据集输入语义分割模型后,得到的部分层的全局特征图输入统一注意力融合模块,得到上下文特征图。
25.当前主流的语义分割模型大多是encoder-decoder(编码器-解码器)结构,在编码器部分用于特征提取,在逐渐降低特征图分辨率的同时使得特征图富含语义信息,在解码器部分利用编码器编码的特征作为输入,解码出最后的分割预测结果。作为最基础的框架仍存在许多的问题,在语义分割任务中除了语义信息外还需要细节信息,模型在不断的卷积、池化过程中往往会丢失大量的细节信息,且这个过程往往会导致模型参数量变得很大。
26.为了实现语义分割任务中的实时效果,本方案采用语义分割模型(stdc-bisenet),该模型不仅网络简单,参数量比较少,整体模型非常轻量化,并且还有很好的分
割性能。将其搭建在无人机平台上,能够很好的实现备降区域和迫降区域,以及保护目标的识别。
27.请参见图1,所述语义分割模型包括5层,分别为依次连接的第一全卷积模块、第二全卷积模块、第一特征注意力权重模块、第二特征注意力权重模块、第三特征注意力权重模块。
28.尺度为224*224*3的航拍数据集输入第一全卷积模块,经第一全卷积模块处理后向第二全卷积模块输出尺度为112*112*32的第一特征图;经第二全卷积模块处理后向第一特征注意力权重模块输出尺度为56*56*64的第二特征图。
29.经第一特征注意力权重模块处理后向第二特征注意力权重模块输出尺度为28*28*256的第一全局特征图f
low1
;经第二特征注意力权重模块处理后向第三特征注意力权重模块输出尺度为14*14*512的第二全局特征图f
low2
;经第三特征注意力权重模块处理后向全局池化层输出尺度为7*7*1024的第三全局特征图f
low3
。
30.语义分割模型的第一特征注意力权重模块、第二特征注意力权重模块、第三特征注意力权重模块分别向统一注意力融合模块输出第一全局特征图f
low1
、第二全局特征图f
low2
、第三全局特征图f
low3
。
31.其中,第一全卷积模块与第二全卷积模块的结构完全相同,请参见图3,第一全卷积模块、第二全卷积模块均包括依次连接的卷积层、归一化层、激活层。
32.第一特征注意力权重模块、第二特征注意力权重模块与第三特征注意力权重模块的结构完全相同,请参见图2,第一特征注意力权重模块、第二特征注意力权重模块、第三特征注意力权重模块均包括全局池化层,以及依次连接的第一注意力卷积层、第二注意力卷积层、第三注意力卷积层、第四注意力卷积层、concat层。第一注意力卷积层的卷积核大小为1*1,第二注意力卷积层的卷积核大小为3*3,第三注意力卷积层的卷积核大小为3*3,第四注意力卷积层的卷积核大小为3*3。
33.请继续参见图2,航拍数据集经过第一全卷积模块、第二全卷积模块后,得到低层特征图f0,低层特征图f0经过第一注意力卷积层,得到第一全局特征子图f1;第一全局特征子图f1经过第二注意力卷积层,得到第二全局特征子图f2;第二全局特征子图f2经过第三注意力卷积层,得到第三全局特征子图f3;第三全局特征子图f3经过第四注意力卷积层,得到第四全局特征子图f4;第一全局特征子图f1经过核大小为3*3的全局池化层后与第二全局特征子图f2、第三全局特征子图f3、四全局特征子图f4经过concat层融合为全局特征图f
low
。
34.容易理解的,第一特征注意力权重模块输出第一全局特征图f
low1
,第二特征注意力权重模块输出第二全局特征图f
low2
,第三特征注意力权重模块输出第三全局特征图f
low3
。
35.请继续参见图1,所述统一注意力融合模块还连接有金字塔池化模块,使用金字塔池化模块增大提取上下文特征图时的感受野。
36.所述金字塔池化模块对第三特征注意力权重模块输出的第三全局特征图f
low3
进行处理,得到第三高级全局特征图f
high3
;将第三全局特征图f
low3
和第三高级全局特征图f
high3
共同输入统一注意力融合模块,得到第三上下文特征图f
out3
。
37.将第三上下文特征图f
out3
作为第二高级全局特征图f
high2
,与第二特征注意力权重模块输出的第二全局特征图f
low2
共同输入统一注意力融合模块,得到第二上下文特征图f
out2
。
38.将第二上下文特征图f
out2
作为第一高级全局特征图f
high1
,与第一特征注意力权重模块输出的第一全局特征图f
low1
共同输入统一注意力融合模块,得到第一上下文特征图f
out1
。
39.请参见图4,以统一注意力融合模块对第三全局特征图f
low3
和第三高级全局特征图f
high3
进行处理为例进行说明,首先金字塔池化模块对第三全局特征图f
low3
进行处理得到第三高级全局特征图f
high3
,将第三全局特征图f
low3
和第三高级全局特征图f
high3
共同输入统一注意力融合模块,得到第三上下文特征图f
out3
:
40.对第三高级全局特征图f
high3
进行上采样形成f
up3
:
41.f
up3
=upsample(f
high3
)
42.将f
up3
与第三全局特征图f
low3
共同输入注意力机制的通道,产生权重a、1-a:
43.(a,1-a)=attention(f
up3
,f
high3
)
44.其中a为f
up3
的权重,1-a为f
low3
的权重;
45.再将f
up3
、f
high3
与各自权重相乘后得到第三上下文特征图f
out3
:
46.f
out3
=f
up3
*a+f
low3
*(1-a)。
47.容易理解的,得到第二上下文特征图f
out2
与第一上下文特征图f
out1
的方式相同,故不再赘述。
48.另一方面,图2中输入第一注意力卷积层的低层特征图f0的通道数为m,经过第一注意力卷积层后得到的第一全局特征子图f1的通道数为m/2,再向下卷积处理经过第二注意力卷积层后得到的第二全局特征子图f2的通道数为m/4,接着,第三注意力卷积层、第四注意力卷积层的通道数为m/8,然后第一全局特征子图f1、第二全局特征子图f2、第三全局特征子图f3、第四全局特征子图f4进行跳连拼接融合。金字塔池化模块输出至统一注意力融合模块的特征图需要进行上采样,通道数不断增加,特征空间不断减少,从而平衡了计算成本。
49.为了加强目标识别网络的特征提取,使目标识别网络具有上下文多尺度能力,因此本方案引入统一注意力融合模块,将第一特征注意力权重模块、第二特征注意力权重模块、第三注意力权重模块输出的全局特征图传入统一注意力融合模块进行统一的融合,充分利用了输入特征的空间之间以及通道之间的关系,这是提高分割精度的关键因素。
50.综上,所述语义分割模块、统一注意力融合模块、金字塔池化模块连接的目标识别网络在传统bisenet模型的基础上减少了网络计算量的同时,还提高了模型的计算效率。整体采用跳层连接的结果,引入统一注意力融合模块和金字塔池化模块,扩大了目标识别网络的感受野,并且融合了上下文特征。
51.步骤3,将上下文特征图分别输入语义分割头和目标检测头,语义分割头和目标检测头的输出结果融合为识别结果。
52.将第一上下文特征图f
out1
作为目标识别网络最终输出的上下文特征,输入预测部分,预测部分包括语义分割头和目标检测头两个并行部分,上下文特征经语义分割头和目标检测头后将内容呈现在一张图上,输出结果融合为识别结果。
53.目前大多数的语义分割方法广泛使用的损失函数是dice loss函数和交叉熵函数,对于单个像素点而言,dice loss函数源于dice系数,是用于度量集合相似度的度量函数,通常用于计算两个样本之间的相似度,dice loss函数公式如下:
[0054][0055]
其中,p为像素点真实值,取值为0和1;y为像素点预测值,是经过sigmoid或softmax的值,取值在(0,1)之间;ε为平滑系数,其作用是为了防止分母预测为0,另外还可以起到平滑损失和梯度的作用,这里的ε=1。
[0056]
对于多像素点而言,dice loss函数公式如下:
[0057][0058]
但本方案在模型训练过程中发现存在负类样本过多的现象,导致了训练和测试时结果不一致的问题,模型训练时收敛效果也比较差。因此本方案通过实验将dice loss函数分母改进为平方和的形式,可以实现更好的收敛,改进后的dice loss函数为:
[0059][0060]
但在语义分割模型训练任务中,还存在简单负类样本过多的现象,由于简单样本过多,导致模型不能如何区分正类样本和困难的负类样本。为了解决这个问题,本方案在训练模型的过程中不断调整每个样本的权重,使用(1-yi)作为每个样本的权重。对于简单样本而言,因为模型可以很容易将yi推向1,所以其权重在训练过程会逐渐变小,结合上述dice loss函数,最终改进的dice loss函数为:
[0061][0062]
其中,n表示航拍数据集的样本总数,i表示航拍数据集中第i张样本;pi表示i张样本的像素点真实值,取值为0或1;yi表示第i张样本的像素点预测值,取值在(0,1)之间;ε表示平滑系。
[0063]
交叉熵函数主要用于度量同一个随机变量x的预测分布y与真实分布p之间的差距,交叉熵函数公式为:
[0064][0065]
为了解决类别不平衡的问题,通过给每个类别添加一个权重系数,同样的使用(1-yi)作为每个样本的权重,改进后的交叉熵函数公式为:
[0066][0067]
由于本发明是对高空面向地面进行小目标语义分割和目标识别,在模型训练过程中可能会出现极端情况导致梯度饱和现象,因此将上述改进后的dice loss函数和交叉熵函数进行结合,结合后的总损失函数为:
[0068]
l=l
dice
`+l
ce
`
[0069]
综上所述,语义分割和目标检测技术在语义分割模型中实现,所使用的主干网络为stdc-bisenet,极大的优化了总模型的参数量,使用同一主干网络会使模型更具有轻量化优势,更有利于模型的快速部署。将模型部署到tx2中进行测试,语义分割mpa(平均像素精度)达到了90%,目标检测map(平均精度)达到了96.8%,fps达到了59,说明该模型在本发明中建立的无人机航拍数据集中有着高效的分割性能和实时性能。
[0070]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
技术特征:
1.一种面向保护目标的无人机备降区域识别方法,其特征在于:包括以下步骤:步骤1,收集无人机的历史航拍图像数据,并对历史航拍图像数据进行筛选和逐像素点标注,构成航拍数据集;步骤2,将航拍数据集输入目标识别网络,得到上下文特征;所述目标识别网络包括多层的语义分割模型、与语义分割模型连接的统一注意力融合模块,将航拍数据集输入语义分割模型后,得到的部分层的全局特征图输入统一注意力融合模块,得到上下文特征图;步骤3,将上下文特征图分别输入语义分割头和目标检测头,语义分割头和目标检测头的输出结果融合为识别结果。2.根据权利要求1所述的一种面向保护目标的无人机备降区域识别方法,其特征在于:每层的所述语义分割模型包括依次连接的第一全卷积模块、第二全卷积模块、第一特征注意力权重模块、第二特征注意力权重模块、第三特征注意力权重模块;尺度为224*224*3的航拍数据集输入第一全卷积模块,经第一全卷积模块处理后向第二全卷积模块输出尺度为112*112*32的第一特征图;经第二全卷积模块处理后向第一特征注意力权重模块输出尺度为56*56*64的第二特征图;经第一特征注意力权重模块处理后向第二特征注意力权重模块输出尺度为28*28*256的第一全局特征图f
low1
;经第二特征注意力权重模块处理后向第三特征注意力权重模块输出尺度为14*14*512的第二全局特征图f
low2
;经第三特征注意力权重模块处理后向全局池化层输出尺度为7*7*1024的第三全局特征图f
low3
;语义分割模型的第一特征注意力权重模块、第二特征注意力权重模块、第三特征注意力权重模块分别向统一注意力融合模块输出第一全局特征图f
low1
、第二全局特征图f
low2
、第三全局特征图f
low3
。3.根据权利要求2所述的一种面向保护目标的无人机备降区域识别方法,其特征在于:所述第一全卷积模块、第二全卷积模块均包括依次连接的卷积层、归一化层、激活层。4.根据权利要求2所述的一种面向保护目标的无人机备降区域识别方法,其特征在于:所述第一特征注意力权重模块、第二特征注意力权重模块、第三特征注意力权重模块均包括全局池化层,以及依次连接的第一注意力卷积层、第二注意力卷积层、第三注意力卷积层、第四注意力卷积层、concat层;其中,第一注意力卷积层的卷积核大小为1*1,第二注意力卷积层的卷积核大小为3*3,第三注意力卷积层的卷积核大小为3*3,第四注意力卷积层的卷积核大小为3*3;输入第一注意力卷积层的为低层特征图f0,低层特征图f0经过第一注意力卷积层,得到第一全局特征子图f1;第一全局特征子图f1经过第二注意力卷积层,得到第二全局特征子图f2;第二全局特征子图f2经过第三注意力卷积层,得到第三全局特征子图f3;第三全局特征子图f3经过第四注意力卷积层,得到第四全局特征子图f4;第一全局特征子图f1经过核大小为3*3的全局池化层后与第二全局特征子图f2、第三全局特征子图f3、四全局特征子图f4经过concat层融合为全局特征图f
low
。5.根据权利要求2所述的一种面向保护目标的无人机备降区域识别方法,其特征在于:所述统一注意力融合模块还连接有金字塔池化模块,使用金字塔池化模块增大提取上下文特征图时的感受野;所述金字塔池化模块对第三特征注意力权重模块输出的第三全局特征图f
low3
进行处
理,得到第三高级全局特征图f
high3
;将第三全局特征图f
low3
和第三高级全局特征图f
high3
共同输入统一注意力融合模块,得到第三上下文特征图f
out3
;将第三上下文特征图f
out3
作为第二高级全局特征图f
high2
,与第二特征注意力权重模块输出的第二全局特征图f
low2
共同输入统一注意力融合模块,得到第二上下文特征图f
out2
;将第二上下文特征图f
out2
作为第一高级全局特征图f
high1
,与第一特征注意力权重模块输出的第一全局特征图f
low1
共同输入统一注意力融合模块,得到第一上下文特征图f
out1
。6.根据权利要求5所述的一种面向保护目标的无人机备降区域识别方法,其特征在于:全局特征图f
low
和高级全局特征图f
high
共同输入统一注意力融合模块,得到上下文特征图f
out
的步骤,包括:对高级全局特征图f
high
进行上采样形成f
up
:f
up
=upsample(f
high
)将f
up
与全局特征图f
low
共同输入注意力机制的通道,产生权重a、1-a:(a,1-a)=attention(f
up
,f
high
)其中a为f
up
的权重,1-a为f
low
的权重;再将f
up
、f
high
与各自权重相乘后得到上下文特征图f
out
:f
out
=f
up
*a+f
low
*(1-a)。7.根据权利要求1所述的一种面向保护目标的无人机备降区域识别方法,其特征在于:所述目标识别网络的损失函数为:dice loss函数:交叉熵函数:其中,n表示航拍数据集的样本总数,i表示航拍数据集中第i张样本;p
i
表示i张样本的像素点真实值,取值为0或1;y
i
表示第i张样本的像素点预测值,取值在(0,1)之间;ε表示平滑系数;目标识别网络的总损失函数为:l=l
dice
`+l
ce
`。
技术总结
本发明涉及一种面向保护目标的无人机备降区域识别方法,包括步骤:收集无人机的历史航拍图像数据,并对历史航拍图像数据进行筛选和逐像素点标注,构成航拍数据集;将航拍数据集输入目标识别网络,得到上下文特征;所述目标识别网络包括多层的语义分割模型、与语义分割模型连接的统一注意力融合模块,将航拍数据集输入语义分割模型后,得到的部分层的全局特征图输入统一注意力融合模块,得到上下文特征图;将上下文特征图分别输入语义分割头和目标检测头,语义分割头和目标检测头的输出结果融合为识别结果。本发明通过计算机视觉中语义分割技术对备降区域中的行人和车辆进行检测,以保证无人机能安全降落至备降区域。保证无人机能安全降落至备降区域。保证无人机能安全降落至备降区域。
技术研发人员:屈若锟 刘晔璐 陈忠辉 谭锦涛 李诚龙 江波 黄龙杨
受保护的技术使用者:杭州迅蚁网络科技有限公司
技术研发日:2023.02.21
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
