一种基于多尺度区域卷积网络的目标检测方法

未命名 07-23 阅读:151 评论:0


1.本发明属于目标检测技术领域,具体涉及一种基于多尺度区域卷积网络的目标检测方法。


背景技术:

2.随着遥感、航天技术等相关技术的不断进步,遥感图像的应用场景日益广泛,这些技术的发展为遥感目标检测与识别的研究人员提供了可靠的数据来源。目标检测与识别技术可以获取遥感图像中特定目标的类别和位置信息,因此在智能交通、公共安全、国防建设等领域具有重要的应用价值。因此,对遥感目标的检测和识别的研究具有重要的意义。
3.区域卷积神经网络(region-based convolutional neural networks,r-cnn)使用候选区域提取深度特征来实现目标检测任务,而基于r-cnn的算法是多步骤、多阶段的,在训练过程中需要不断保存裁剪后的候选目标区域切片,从而产生大量的特征文件(上百gb),这使得检测过程需要更多的内存和时间。fast r-cnn方法针对上述问题进行了改进,采用共享卷积层的方法避免了将每一个候选目标区域都输入dcnn(深度卷积网)提取图像特征,不仅节省存储空间,也加快了检测速度。然而,fast r-cnn方法采用选择性搜索来提取候选区域,限制检测速度的进一步提升。而faster r-cnn方法使用自适应学习的机制来提取候选区域,只需要提取300个左右高质量的候选目标区域,即可达到与fast r-cnn方法同样的检测精度,从而进一步提升检测的速度。但是,faster r-cnn方法只能生成大小上相对单一的候选目标区域,在包括多种不同大小目标的复杂场景下,目标检测准确率明显下降。


技术实现要素:

4.本发明提出了一种多尺度区域卷积网络,一方面,能够产生多种尺度的候选目标区域,更有利于复杂场景下的目标检测任务,从而提高目标检测准确率,同时,利用核大小1*1的卷积层替换目标检测网络中的全连接层,减少训练参数,提升检测速度。
5.本发明的技术方案为:
6.一种基于多尺度区域卷积网络的目标检测方法,包括:
7.构建多尺度区域卷积网络,包括特征提取主干网络、区域建议网络和目标检测网络;其中特征提取主干网络用于提取输入图像的特征得到特征图;区域建议网络的输入为特征图,区域建议网络包括第一区域建议模块、第二区域建议模块和第三区域建议模块,并且第一区域建议模块、第二区域建议模块和第三区域建议模块的结构相同,均包括第一卷积层、第二卷积层、第三卷积层、激活层和softmax分类层,其中第一卷积层的输入为特征图,第一卷积层的输出连接激活层的输入,激活层的输出分别连接第二卷积层的输入和第三卷积层的输入,第二卷积层的输出连接softmax分类层的输入,softmax分类层的输出与第三卷积层的输出构成区域建议模块的输出;所不同的是,第一区域建议模块的第一卷积层的大小为7*7,第二区域建议模块的第一卷积层的大小为5*5,第三区域建议模块的第一
卷积层的大小为3*3,定义第一区域建议模块的输出为大区域建议框,第二区域建议模块的输出为中区域建议框,第三区域建议模块的输出为小区域建议框;目标检测网络的输入包括特征图、大区域建议框、中区域建议框和小区域建议框,目标检测网络采用roi池化层接收输入的特征图、大区域建议框、中区域建议框和小区域建议框,将不同尺度的区域建议框下的特征图池化为统一尺度,再通过卷积层和relu函数激活层得到目标检测框;
8.对构建的多尺度区域卷积网络进行训练,所采用的训练数据已使用目标边界框对目标进行了标注,将训练图像输入多尺度区域卷积网络后,首先经过特征提取主干网络提取图像特征,得到的特征图分别输入区域建议网络和目标检测网络用于建议框的产生和检测框的回归,进入区域建议网络的特征图分别由第一区域建议模块、第二区域建议模块和第三区域建议模块产生大区域建议框、中区域建议框和小区域建议框三种尺度的区域建议框,三种尺度的区域建议框同时送入目标检测网络,与目标的真实框比对,得到的差异值用于修正模型参数,经过多次迭代,最终完成模型的训练得到训练好的多尺度区域卷积网络;
9.将待检测目标图像输入训练好的多尺度区域卷积网络,得到目标检测框。
10.本发明的有益效果为,由于多尺度区域建议网络能够生成多种大小、不同数量的区域建议框,有利于针对存在不同大小目标的检测场景中的目标检测,改善检测准确率,而且,在常规目标检测网络中以1*1卷积层替换其中的全连接层,减少模型训练参数,提升检测速度。对实测遥感数据集的实验结果验证了本发明方法的有效性。
附图说明
11.图1为多尺度卷积网络模型结构图。
具体实施方式
12.下面结合附图和仿真对本发明进行详细的说明:
13.本发明采用全卷积网络来构成区域建议网络(region proposal network,简称rpn),该区域建议网络可以生成更多不同大小、不同数量的区域建议框(也称为锚框,anchor frame,简称af);经过训练后利用目标检测网络(target detection network,简称tdn)执行检测任务,相较于faster r-cnn网络中的tdn,该模型将其中的全连接层全部替换为1*1卷积层,tdn利用第一阶段中特征提取主干网得到的特征进行检测框回归,具体结构示意图如图1所示。
14.如图1所示,特征提取主干网络是由10个卷积层、10个激活层和4个池化层组成,其中所有的卷积层大小都为3*3、滑动步长为1、padding操作数(零填充操作数)为1,所有的池化层大小都为2*2、滑动步长为2、不做padding操作,所有激活层均为relu函数激活层,该网络用来提取输入图像的特征,产生的特征图分别输入区域建议网络和目标检测网络用于建议框的产生和检测框的回归。区域建议网络由模块1、模块2和模块3构成,每个模块都由3个卷积层、1个relu函数激活层和1个softmax分类层组成。三个模块仅在第一个卷积层设计上有差异。模块1的第一个卷积层大小为7*7、滑动步长为1、padding操作数为1;模块2的第一个卷积层大小为5*5、滑动步长为1、padding操作数为1;模块3的第一个卷积层大小为3*3、滑动步长为1、padding操作数为1。三个模块中的另外两个卷积层大小均为1*1、滑动步长为1、无padding操作。在区域建议网络中,模块1、模块2和模块3的第一个卷积层大小依次减
小,因此第一层卷积核的感受野(卷积核的卷积区域)也依次减小,所以它们分别能够产生大、中、小三种尺度的区域建议框,这三种尺度的区域建议框的集合即可称为多尺度区域建议框,利用多尺度区域建议框得到的特征进行检测框回归,能够更好的适应复杂场景下对不同大小目标的检测任务。
15.目标检测网络由两个1*1卷积层、两个relu函数激活层和1个roi池化层组成,其中该网络的激活层为relu函数激活层,roi池化层(region of interest)用于将不同尺度的建议框下的特征图池化为统一尺度。将整个目标检测网络变换为全卷积网络,去除了全连接层,减少了模型的训练参数,同时可以使得两个阶段的1*1卷积核参数共享,提升模型的训练效率。
16.在进行模型训练时,输入图像首先经过特征提取主干网络提取图像特征,产生的特征图分别输入区域建议网络和目标检测网络用于建议框的产生和检测框的回归,进入区域建议网络的特征图分别由模块1、模块2和模块3产生大、中、小三种尺度的区域建议框,三种尺度的区域建议框同时送入目标检测网络,与目标的真实框比对,其差异值用于修正模型参数,经过多次迭代,最终完成模型的训练。
17.完成模型训练后,只需将待检测图像输入模型,首先通过特征提取主干网络获得特征,然后将这些特征输入到目标检测网络进行检测,确定目标检测框。
18.仿真实验:
19.使用fair1m数据集中的飞机类别进行实验。fair1m数据集是目前遥感领域最大的细粒度目标识别数据集,拥有超过100万个实例,所有的对象实例都使用目标边界框进行了注释,这为有向目标提供了更准确的空间信息。fair1m数据集与遥感领域的其他数据集相比,拥有更全面的细粒度类型、更大的图像尺寸和方向范围、更多目标分布密集的复杂场景以及更丰富的地理信息,因此,fair1m数据集更具多样性和挑战性。
20.对于飞机型号,共有10个细粒度类别,涵盖全球34个机场,分别为波音737、波音777、波音747、波音787、空客a320、空客a220、空客a330、空客a350、中国商飞c919、中国商飞arj21等,是民航中最常见的几大类,除此之外,还设置了一个other-airplane类别,具体飞机实例分配情况如下表1所示:
21.表1飞机类别以及各类实例数表
[0022][0023][0024]
仿真实验使用的计算机系统环境为windows 10系统,硬件环境为cpu amd ryzen 55600h with radeon graphics,gpu nvidia geforce rtx 3050,16gb内存条。利用faster r-cnn方法和本发明方法对3.1数据集进行目标检测实验,结果如表2所示。在数据预处理时,本发明将原始图像裁剪为1024
×
1024个图像块,裁剪步长为824,两个相邻图像快之间像素重叠为200。其中,模型通过sgd算法进行优化,总共迭代次数为15次,初始学习率为0.0025,在第8次和第11次时学习率分别降低为原来的0.2倍,loss函数采用smooth l1损失函数。
[0025]
表2两种模型检测结果表
[0026] faster r-cnn方法本发明方法平均检测准确率(%)94.5697.89训练1个epoch时间(s)2989.92874.6
[0027]
训练1个epoch时间指将训练集中所有的图片训练一遍所需要的时间。由表2可知相比于faster r-cnn模型,本发明方法在飞机检测的平均准确率上有所提高,且模型的训练速度有所提升,因此,以上结果表明本发明提出的方法是有效的。

技术特征:
1.一种基于多尺度区域卷积网络的目标检测方法,其特征在于,包括:构建多尺度区域卷积网络,包括特征提取主干网络、区域建议网络和目标检测网络;其中特征提取主干网络用于提取输入图像的特征得到特征图;区域建议网络的输入为特征图,区域建议网络包括第一区域建议模块、第二区域建议模块和第三区域建议模块,并且第一区域建议模块、第二区域建议模块和第三区域建议模块的结构相同,均包括第一卷积层、第二卷积层、第三卷积层、激活层和softmax分类层,其中第一卷积层的输入为特征图,第一卷积层的输出连接激活层的输入,激活层的输出分别连接第二卷积层的输入和第三卷积层的输入,第二卷积层的输出连接softmax分类层的输入,softmax分类层的输出与第三卷积层的输出构成区域建议模块的输出;所不同的是,第一区域建议模块的第一卷积层的大小为7*7,第二区域建议模块的第一卷积层的大小为5*5,第三区域建议模块的第一卷积层的大小为3*3,定义第一区域建议模块的输出为大区域建议框,第二区域建议模块的输出为中区域建议框,第三区域建议模块的输出为小区域建议框;目标检测网络的输入包括特征图、大区域建议框、中区域建议框和小区域建议框,目标检测网络采用roi池化层接收输入的特征图、大区域建议框、中区域建议框和小区域建议框,将不同尺度的区域建议框下的特征图池化为统一尺度,再通过卷积层和relu函数激活层得到目标检测框;对构建的多尺度区域卷积网络进行训练,所采用的训练数据已使用目标边界框对目标进行了标注,将训练图像输入多尺度区域卷积网络后,首先经过特征提取主干网络提取图像特征,得到的特征图分别输入区域建议网络和目标检测网络用于建议框的产生和检测框的回归,进入区域建议网络的特征图分别由第一区域建议模块、第二区域建议模块和第三区域建议模块产生大区域建议框、中区域建议框和小区域建议框三种尺度的区域建议框,三种尺度的区域建议框同时送入目标检测网络,与目标的真实框比对,得到的差异值用于修正模型参数,经过多次迭代,最终完成模型的训练得到训练好的多尺度区域卷积网络;将待检测目标图像输入训练好的多尺度区域卷积网络,得到目标检测框。

技术总结
本发明属于目标检测技术领域,具体涉及一种基于多尺度区域卷积网络的目标检测方法。本发明的方法通过构建多尺度区域卷积网络来进行目标检测框的识别,多尺度区域卷积网络包括特征提取主干网络、区域建议网络和目标检测网络;其中特征提取主干网络用于提取输入图像的特征得到特征图;区域建议网络的输入为特征图,并分别得到三个不同尺度的区域建议框,目标检测网络的输入包括特征图和三个不同尺度的区域建议框,最后得到目标检测框。本发明有利于针对存在不同大小目标的检测场景中的目标检测,改善检测准确率。改善检测准确率。改善检测准确率。


技术研发人员:周代英 谢骐阳 徐泽颖
受保护的技术使用者:电子科技大学
技术研发日:2023.04.23
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐