一种轻量级多尺度注意力特征金字塔的设计方法

未命名 07-23 阅读:129 评论:0


1.本发明属于深度学习中的计算机视觉领域,尤其涉及一种轻量级多尺度注意力特征金字塔的设计方法。


背景技术:

2.随着卷积神经网络和深度学习的发展,基于卷积神经网络的计算机视觉技术已经成为了计算机视觉任务的主要方法,如图像分类、目标检测和语义分割任务。在这些任务中,为了保证结果对图片中不同尺度的物体的一致性,通常使用卷积神经网络从图片中提取多尺度特征图,并使用特征金字塔结构来融合不同尺度的特征图。高效融合多尺度特征图中的特征信息有利于提高网络的准确度。然而现有的特征金字塔相关研究都通过增加特征通路或重复堆叠使用特征金字塔的方式来增强多尺度特征之间的融合,显著地增加了网络的参数量,降低了网络的运行速度。因此研究如何以更少的参数有效地融合多尺度特征图,即研究轻量级的特征金字塔具有重要的现实意义。


技术实现要素:

3.本发明的目的是提供一种轻量级多尺度注意力特征金字塔的设计方法,该方法的关键为利用全部尺度的输入特征图来逐个生成单个尺度的输出特征图。对于某一尺度的输出特征图,生成方式如下:通过压缩输入多尺度特征图的特征通道,提取各个尺度特征图中关键的特征信息;使用全连接网络联合各尺度特征图的特征信息自动学习融合权重;最终根据网络学习到的权重动态融合多尺度特征图,得到输出特征图。通过网络自动学习融合权重,可以充分利用各尺度特征图中的语义信息,提高多尺度特征的融合效率。
4.本发明是通过下述技术方案实现的。
5.本发明公开的一种轻量级多尺度注意力特征金字塔的设计方法,包括如下步骤:
6.步骤1:输入图片至由多层卷积神经网络组成的骨干网络,在骨干网络的不同阶段输出特征图,得到多尺度特征图;
7.步骤2:对特征金字塔的5个输出尺度逐个执行步骤3-7的特征融合操作;
8.步骤3:选定输出特征图尺度k,分别以相同的方式压缩各输入多尺度特征图,得到压缩后的多尺度特征图;
9.步骤4:使用无参方式提取压缩后的多尺度特征图中的特征向量;
10.步骤5:拼接各尺度特征图的特征向量,并使用多层全连接层学习融合权重;
11.步骤6:将输入的各尺度特征图缩放至输出尺度k;
12.步骤7:使用融合权重加权融合缩放至同一尺度的特征图,得到融合之后的尺度为k的输出特征图。
13.步骤1的实现方法为:
14.将输入图片标准化并输入骨干网络,在骨干网络多个输出阶段提取多尺度特征图{c3,c4,c5,c6,c7}。
15.进一步地,步骤2的实现方法为:
16.对于特征金字塔的5个输出尺度{3,4,5,6,7},分别执行下述步骤3至步骤7的多尺度特征图融合操作。其中输出尺度k表示输出特征图的分辨率为输入图片分辨率的1/2k。
17.进一步地,步骤3的实现方法为:
18.步骤3.1:选定输出特征图尺度k和特征图压缩比例r;
19.步骤3.2:为每个尺度的输入特征图构建一层卷积核为1
×
1的普通卷积,卷积层的输入通道数为特征图的通道数,输出通道数为输入通道数的1/r倍;
20.步骤3.3:将各个尺度的特征图输入至对应的1
×
1卷积层,得到通道压缩后的多尺度特征图{f3,f4,f5,f6,f7}。
21.进一步地,步骤4的实现方法为:
22.对于通道压缩后的各个尺度的特征图{f3,f4,f5,f6,f7},分别在特征图宽度和高度所在的维度求均值:
[0023][0024]
其中,h为特征图的高度,w为特征图的宽度,fi(h,w)为特征图fi在(h,w)位置的特征向量,从而得到各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}。
[0025]
进一步地,步骤5的实现方法为:
[0026]
步骤5.1:拼接各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}为f;
[0027]
步骤5.2:使用两层全连接层对f降维,得到降维后的特征向量f':
[0028]f′
=fc(relu(fc(f)))
[0029]
其中fc为全连接层,relu为激活函数。
[0030]
步骤5.3:将特征向量f'输入softmax函数,得到各个尺度的特征图的融合权重{ω3,ω4,ω5,ω6,ω7}。
[0031]
进一步地,步骤6的实现方法为:
[0032]
步骤6.1:根据输出特征图的尺度k确定输出特征图的分辨率大小;
[0033]
步骤6.2:使用最近邻插值算法将输入的多尺度特征图{c3,c4,c5,c6,c7}缩放至输出特征图的分辨率,得到统一尺度的特征图{c'3,c'4,c'5,c'6,c'7}。
[0034]
进一步地,步骤7的实现方法为:
[0035]
使用融合权重{ω3,ω4,ω5,ω6,ω7}将统一尺度之后的特征图{c'3,c'4,c'5,c'6,c'7}加权融合,得到尺度为k的输出特征图pk:
[0036][0037]
本发明取得的技术效果有:
[0038]
1.本发明公开的一种轻量级多尺度注意力特征金字塔的设计方法,精简了特征金字塔参数并增强了特征金字塔的特征融合能力,可用于增强图像分类、目标检测和语义分割网络的多尺度特征图,并提升网络速度。
[0039]
2.本发明公开的一种轻量级多尺度注意力特征金字塔的设计方法,通过轻量级多特征融合模块融合多尺度特征图,可以接受任意数量、任意尺度的特征图作为输入,根据特征图压缩之后的特征向量自动学习融合权重并动态融合多尺度特征图,从而提高多尺度特
征图的融合效率。
附图说明
[0040]
下面结合附图与实施例对本发明进一步说明,附图中:
[0041]
图1是本发明的轻量级多尺度注意力特征金字塔结构示意图。图中,{c3,c4,c5,c6,c7}为骨干网络输出的多尺度特征图;{p3,p4,p5,p6,p7}为特征金字塔融合之后的多尺度特征图;轻量级多特征融合模块为本发明设计的多尺度特征图动态融合方法。
[0042]
图2是本发明图1中的轻量级多特征融合模块示意图。图中,{c3,c4,c5,c6,c7}为输入的多尺度特征图;{f3,f4,f5,f6,f7}为经过1
×
1卷积层压缩特征通道之后的多尺度特征图;{f3,f4,f5,f6,f7}为经过全局池化后各尺度特征图的特征向量;f为{f3,f4,f5,f6,f7}拼接而成的特征向量;f'为降维后的特征向量;{c'3,c'4,c'5,c'6,c'7}为输入多尺度特征图被缩放至输出尺度的特征图;{ω3,ω4,ω5,ω6,ω7}为网络学习到的多尺度特征图融合权重;p5为融合后的输出尺度k=5的输出特征图。
具体实施方式
[0043]
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实例对发明内容做进一步说明。
[0044]
如图1所示,本实施例公开的一种轻量级多尺度注意力特征金字塔的设计方法,具体实施步骤如下:
[0045]
步骤1:输入图片i∈r
1280
×
800
×3至由多层卷积神经网络组成的骨干网络,在骨干网络的不同阶段输出特征图,得到多尺度特征图{c3,c4,c5,c6,c7},多尺度特征图的大小分别为输入图片的{1/23,1/24,1/25,1/26,1/27},即多尺度特征图的大小分别为{160
×
100
×
256,80
×
50
×
256,40
×
25
×
256,20
×
13
×
256,10
×7×
256}。
[0046]
步骤2:如图2所示,对于特征金字塔的5个输出尺度{3,4,5,6,7},分别执行下述步骤3至步骤7的多尺度特征图融合操作。其中输出尺度k表示输出特征图的分辨率为输入图片分辨率的1/2k。
[0047]
步骤3:分别以相同的方式压缩各尺度特征图,得到压缩后的多尺度特征图。
[0048]
步骤3.1:选定输出特征图尺度k=5和特征图压缩比例r=16;
[0049]
步骤3.2:为每个尺度的特征图构建一层卷积核为1
×
1的普通卷积,卷积层的输入通道数为256,输出通道数为输入通道数的1/r倍,即16;
[0050]
步骤3.3:将各个尺度的特征图输入至对应的卷积层,得到通道压缩后的多尺度特征图{f3,f4,f5,f6,f7},其中每个特征图的高度与宽度与对应的输入特征图相同,每个特征图的通道数则被压缩至16。
[0051]
步骤4:使用无参方式提取压缩后的多尺度特征图中的特征向量。
[0052]
对于通道压缩后的各个尺度的特征图{f3,f4,f5,f6,f7},分别在特征图宽度和高度所在的维度求均值:
[0053]
[0054]
其中,h为特征图的高度,w为特征图的宽度,fi(h,w)为特征图fi在(h,w)位置的特征向量。从而得到各个尺度的特征图的特征向量{f3,f4,f5,f6,f7},其中fi,i∈{3,4,5,6,7}的维度均为16。
[0055]
步骤5:拼接各尺度特征图的特征向量,并使用多层全连接层学习融合权重。
[0056]
步骤5.1:拼接各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}为f,其维度为16
×
5=80;
[0057]
步骤5.2:使用两层全连接层对f降维,得到降维后的特征向量f':
[0058]f′
=fc(relu(fc(f)))
[0059]
其中fc为全连接层,relu为激活函数。第一层全连接层将特征从80维降维至16维,第二层全连接层将特征从16为降维至5维。
[0060]
步骤5.3:将特征向量f'输入softmax函数,得到各个尺度的特征图的融合权重{ω3,ω4,ω5,ω6,ω7}。
[0061]
步骤6:根据输出特征图的尺度k=5确定输出特征图的分辨率,将输入的各尺度特征图缩放至选择的尺度。
[0062]
步骤6.1:根据输入图片大小为1280
×
800
×
3和输出特征图尺度k=5,确定输出特征图的大小为40
×
25
×
256;
[0063]
步骤6.2:使用最近邻插值算法将输入的多尺度特征图{c3,c4,c5,c6,c7}缩放至输出特征图的尺度,得到统一尺度的特征图{c'3,c'4,c'5,c'6,c'7},其中每个特征图的大小均为40
×
25
×
256。
[0064]
步骤7:使用融合权重加权融合缩放至同一尺度的特征图,得到融合之后的特征图。
[0065]
使用融合权重{ω3,ω4,ω5,ω6,ω7}将统一尺度之后的特征图{c'3,c'4,c'5,c'6,c'7}加权融合,得到尺度为k=5的输出特征图p5:
[0066][0067]
其中,输出特征图p5的大小为40
×
25
×
256。
[0068]
本发明通过以上实施例的设计,可以充分融合多尺度特征图中的特征信息,增强特征金字塔的特征融合能力。本发明的一种轻量级多尺度注意力特征金字塔的设计方法可以方便地应用在各种计算机视觉网络中,如图像分类、目标检测和语义分割。
[0069]
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于包括如下步骤:步骤1:输入图片至由多层卷积神经网络组成的骨干网络,在骨干网络的不同阶段输出特征图,得到多尺度特征图;步骤2:对特征金字塔的5个输出尺度逐个执行步骤3-7的特征融合操作;步骤3:选定输出特征图尺度k,分别以相同的方式压缩各输入多尺度特征图,得到压缩后的多尺度特征图;步骤4:使用无参方式提取压缩后的多尺度特征图中的特征向量;步骤5:拼接各尺度特征图的特征向量,并使用多层全连接层学习融合权重;步骤6:将输入的各尺度特征图缩放至输出尺度k;步骤7:使用融合权重加权融合缩放至同一尺度的特征图,得到融合之后的尺度为k的输出特征图。2.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤1的实现方法为:将输入图片标准化并输入骨干网络,在骨干网络多个输出阶段提取多尺度特征图{c3,c4,c5,c6,c7}。3.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤2的实现方法为:对于特征金字塔的5个输出尺度{3,4,5,6,7},分别执行下述步骤3至步骤7的多尺度特征图融合操作,其中输出尺度k表示输出特征图的分辨率为输入图片分辨率的1/2
k
。4.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤3的实现方法为:步骤3.1:选定输出特征图尺度k和特征图压缩比例r;步骤3.2:为每个尺度的输入特征图构建一层卷积核为1
×
1的普通卷积,卷积层的输入通道数为特征图的通道数,输出通道数为输入通道数的1/r;步骤3.3:将各个尺度的特征图输入至对应的1
×
1卷积层,得到通道压缩后的多尺度特征图{f3,f4,f5,f6,f7}。5.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤4的实现方法为:对于通道压缩后的各个尺度的特征图{f3,f4,f5,f6,f7},分别在特征图宽度和高度所在的维度求均值:其中,h为特征图的高度,w为特征图的宽度,f
i
(h,w)为特征图f
i
在(h,w)位置的特征向量,从而得到各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}。6.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤5的实现方法为:步骤5.1:拼接各个尺度的特征图的特征向量{f3,f4,f5,f6,f7}为f;步骤5.2:使用两层全连接层对f降维,得到降维后的特征向量f':
f

=fc(relu(fc(f)))其中fc为全连接层,relu为激活函数;步骤5.3:将特征向量f'输入softmax函数,得到各个尺度的特征图的融合权重{ω3,ω4,ω5,ω6,ω7}。7.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤6的实现方法为:步骤6.1:根据输出特征图的尺度k确定输出特征图的分辨率大小;步骤6.2:使用最近邻插值算法将输入的多尺度特征图{c3,c4,c5,c6,c7}缩放至输出特征图的分辨率,得到统一尺度的特征图{c'3,c'4,c'5,c'6,c'7}。8.如权利要求1所述的一种轻量级多尺度注意力特征金字塔的设计方法,其特征在于步骤7的实现方法为:使用融合权重{ω3,ω4,ω5,ω6,ω7}将统一尺度之后的特征图{c'3,c'4,c'5,c'6,c'7}加权融合,得到尺度为k的输出特征图p
k


技术总结
本发明公开的一种轻量级多尺度注意力特征金字塔的设计方法,属于深度学习中的计算机视觉领域。本发明的内容为:设计了一种轻量级多尺度注意力特征金字塔结构,适用于图像分类、目标检测和语义分割网络,可以用更少的参数有效地增强多尺度特征图中的特征信息。本发明的实现方法为:将待检图片输入至骨干网络,得到多尺度特征图;压缩输入多尺度特征图的特征通道,并提取各个尺度特征图中关键的特征信息;使用全连接网络联合各尺度特征图的特征信息自动学习融合权重;最终根据网络学习到的权重动态融合多尺度特征图,得到输出特征图。本发明要解决的技术问题是设计更高效且轻量级的特征金字塔结构,提高特征金字塔增强多尺度特征图的能力。特征图的能力。特征图的能力。


技术研发人员:王少华 戴亚平 于淇玮
受保护的技术使用者:北京理工大学
技术研发日:2022.01.05
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐