一种改进的YOLOv5目标检测系统及方法

未命名 08-14 阅读:104 评论:0

一种改进的yolov5目标检测系统及方法
技术领域
1.本发明属于计算机视觉识别技术领域,进一步涉及目标检测,具体为一种改进的yolov5目标检测系统及方法。可用于以目标检测技术为基础的行人检测、交通检测、各种场景下的目标检测等。


背景技术:

2.机器视觉领域中的目标检测是指在图像或视频中自动检测并识别出目标的位置和类别。目标检测技术已经被广泛应用于各种领域,如自动驾驶、视频监控、人脸识别等。基于深度学习的方法是当前目标检测领域的主流方法,其通过使用深度神经网络来自动学习目标的特征和分类器。其中,目前最流行的方法是基于区域提议的方法,如faster r-cnn、ssd和yolo等。这些方法先使用深度神经网络生成目标的区域提议,然后使用分类器对每个提议进行分类和位置回归,最终得到目标的位置和类别。基于深度学习的目标检测与识别方法的核心依赖卷积于深度卷积的特征提取能力,在不增加推理计算量的同时,增强卷积的特征提取能力,可以全面提升网络性能,对以卷积为特征提取核心的目标检测和识别网络的检测精度具有积极的理论研究意义和使用价值。
3.目前,在目标检测领域,基于模型量化和压缩的方法发展迅速,已经引起了广大科研工作者的广泛关注。如wei x等人在文献“randomly dropping quantization for extremely low-bit post-training quantization”中提出了一种随机丢弃激活的量化方式。然而,在模型量化和压缩的过程中依然存在两个方面的问题:1)参数量化带来的精度损失必然会影响到模型的检测效果,一旦量化方式设置不合理,则检测性能不佳;2)当前的模型压缩大多不是无损的,导致压缩前后模型的检测效果出现差异,实际效果并不理想。


技术实现要素:

4.本发明目的在于针对上述现有技术的不足,提出一种改进的yolov5目标检测系统及方法,通过引入扩张卷积ec(expanded convolution)和特征相似度损失fsl(feature similarity loss)函数,在保持网络现有推理计算量和参数量的同时,提高网络的检测精度。本发明构建的基于扩张卷积和特征相似度损失函数的改进后yolov5s目标检测系统yolov5s-ec-fsl,能够有效解决现有技术中网络参数量和网络精度之间难以兼顾的技术问题。
5.实现本发明的思路是:首先,针对传统卷积模块特征提取能力弱、性能增强方式单一等问题,提出扩张卷积,通过在卷积模块中引入虚参数来增强卷积模块的特征提取能力,模型训练完毕后,对扩张卷积中引入的虚参数进行无损压缩,从而在不增加模型参数量和计算量的同时,提升模型的检测精度;其次,针对网络输出通道中存在大量冗余特征图的问题,引入特征相似度损失函数,通过对特征图之间的特征相似度损失进行反向传播,来抑制冗余特征图的产生,使得网络参数得到更有效的利用,从而实现模型检测精度的提升。
6.本发明实现上述目的具体方案为:
7.一种改进的yolov5目标检测系统,包括依次级联的输入模块、主干单元、特征融合单元以及输出模块;外部数据首先进入输入模块,经处理后传输给主干单元,由主干单元从中提取不同尺度的特征图,并将其传送给特征融合单元进行特征融合,最后通过输出模块输出检测结果;
8.上述输入模块,用于对从外部采集到的图像数据进行格式化处理,并将处理后数据传输给主干单元;
9.上述主干单元,用于对输入模块处理后的数据进行不同层级的特征提取、池化操作,获取不同尺度特征图;该单元包括扩张卷积econv模块和三层连续扩张卷积ec3模块,其中econv模块是在yolov5网络的conv模块基础上引入扩张卷积后形成;ec3模块是在yolov5网络的c3模块中引入扩张卷积形成;
10.上述特征融合单元,采用特征金字塔fpn加上路径聚合网络pan的结构,用于对主干单元中获取的不同尺度的特征图进行融合处理;
11.上述输出模块,用于对特征融合单元生成的融合后特征图进行目标预测,生成固定大小的目标矩阵,即目标检测的结果。
12.一种利用改进的yolov5目标检测系统实现目标检测的方法,包括如下步骤:
13.(1)对帕斯卡物体识别挑战赛pascal voc数据集进行划分,获取voc07+12数据集,并对其划分训练集与验证集,并将数据标签转化为与yolov5网络中相同的标签格式;
14.(2)将训练集数据送入系统的输入模块进行系统模型训练,由输入模块对数据进行预处理操作,得到预处理后数据,并发送给主干单元;
15.(3)主干单元通过econv模块和ec3模块在系统中引入扩张卷积,使用比传统卷积多二倍以上的参数量对预处理后的数据进行特征提取,并对主干单元中所有econv模块的输出通道进行特征相似度损失计算;
16.(4)特征融合单元对主干单元中输出的三种不同尺度的特征图首先进行自上而下的语义信息传递,然后在路径聚合网络自下而上传递定位信息,完成不同尺度的特征融合,最后生成三组不同尺度的融合后特征图;
17.(5)输出模块通过对特征融合单元生成的三组不同尺度的融合后特征图分别进行大、中和小这三类目标的预测,生成固定大小的预测目标矩阵;
18.(6)依据预测目标矩阵和由真实标签生成的目标矩阵之间的误差计算置信度损失、位置损失和分类损失,并对置信度损失、位置损失、分类损失和步骤(3)中得到的特征相似度损失按权相加得到总损失,然后对总损失进行反向传播,更新模型参数;
19.(7)使用参数更新后的模型对验证集数据进行推理,分别计算置信度损失、位置损失、分类损失和特征相似度损失,并对其按权相加得到总损失,判断总损失的下降过程是否趋于收敛,若是,得到训练完毕的模型,执行步骤(8);反之,返回步骤(2)继续训练;
20.(8)对训练完毕的模型中的扩张卷积进行无损压缩,生成最终目标检测模型;
21.(9)将待测数据输入最终目标检测模型中进行检测,获取检测结果。
22.本发明与现有技术相比,具有以下优点:
23.第一、本发明在传统卷积的基础上提出了扩张卷积,其为一种增强型卷积模块,在使用上可以与传统卷积进行随时切换,扩张卷积的参数量可以是传统卷积的数倍,因此在相同的条件下,使用扩张卷积的网络训练效果更好,检测精度更高;
24.第二、由于本发明使用线性方法进行输入通道扩展,在生成更多低成本特征图的同时,也使得各个通道之间的信息融合更加充分;
25.第三、本发明提出的扩张卷积在训练完毕后通过无损压缩,使得网络同时拥有了传统卷积计算速度块和扩张卷积检测精度高这两个优势;
26.第四、本发明针对卷积模块输出通道之间的冗余特征问题,提出了特征相似度损失函数,通过特征图之间的特征相似度损失的计算和反向传播,抑制了特征图之间的相似度,使得各个通道提取的信息更加的全面,从而有效的提升网络的检测效果。
附图说明
27.图1为本发明构建的yolov5s-ec-fsl目标检测系统结构示意图;
28.图2为本发明方法的实现流程图;
29.图3为二倍扩张卷积的应用实例示意图;
30.图4为二倍扩张卷积的输出通道扩展规则示意图;
31.图5为本发明中特征相似度损失函数的筛选结果示意图;
32.图6为传统yolov5s网络和本发明yolov5s-ec-fsl网络的首层输出特征图可视化效果对比图;其中(a)为传统yolov5s网络训练完毕后的首层输出特征图的可视化效果,(b)为本发明yolov5s-ec-fsl网络网络训练完毕后的首层输出特征图的可视化效果;
33.图7为yolov5s-ec-fsl网络压缩前后的检测效果对比图;其中(a)为yolov5s-ec-fsl网络压缩前的检测效果,(b)为yolov5s-ec-fsl网络压缩后的检测效果;
34.图8为使用本发明方法与现有方法进行检测的实验效果对比图;其中(a)为使用现有方法进行检测的实验效果,(b)为使用本发明方法进行检测的实验效果。
具体实施方式
35.下面结合附图和具体实施例,对本发明作进一步的详细描述。
36.实施例一:参照图1,本发明构建的yolov5s-ec-fsl目标检测系统,即改进的yolov5目标检测系统,具体包括:依次级联的输入模块、主干单元、特征融合单元以及输出模块;外部数据首先进入输入模块,经处理后传输给主干单元,由主干单元从中提取不同尺度的特征图,并将其传送给特征融合单元进行特征融合,最后通过输出模块输出检测结果;
37.所述输入模块,用于对从外部采集到的图像数据进行格式化处理,并将处理后数据传输给主干单元;具体是将外部输入系统中的图片进行数据增强、自适应放缩和归一化处理,得到统一尺寸大小的归一化数据,然后输出给主干单元。
38.所述主干单元,用于对输入模块处理后的数据进行不同层级的特征提取、池化操作,获取不同尺度特征图;该单元包括扩张卷积econv模块和三层连续扩张卷积ec3模块,其中econv模块包含线性变换层、卷积层、归一化层以及非线性激活函数层,是在yolov5网络的conv模块基础上引入扩张卷积后形成;ec3模块是包含3个econv模块的残差模块,具体是在yolov5网络的c3模块中引入扩张卷积形成。这里所说的引入主干网络的扩张卷积是一种基于传统逐点卷积的增强型卷积模块,扩张卷积的输入输出与传统卷积完全相同,通过输入数据的线性变换进行输入通道扩展,扩张卷积的参数量是传统卷积参数量的二倍以上,其输入通道ch与扩展通道ech,分别定义如下:
39.ch=[ch0,ch1,...,chy,...,ch
n-1
],
[0040]
ech=[ech0,ech1,...,ech
x
,...,ech
m-1
],
[0041]
其中,n为输入数据的通道数,m为输入通道线性扩展后的扩展通道数;
[0042]
所述输入通道ch与扩展通道ech之间的关系如下:
[0043][0044]
其中,chy代表ch中的第y个通道,ech
x
代表ech中的第x个通道,λ
(x,y)
表示chy对ech
x
的权重系数;扩张卷积的卷积核深度由n增加至m,对应的参数量也增加m/n倍。
[0045]
所述特征融合单元,采用特征金字塔fpn加上路径聚合网络pan的结构,用于对主干单元中获取的不同尺度的特征图进行融合处理;其中的特征金字塔fpn是将深层的语义特征传到浅层,路径聚合网络pan则是把浅层的定位信息传导到深层,特征金字塔fpn加上路径聚合网络pan的结构用于实现多尺度定位能力的增强。
[0046]
所述输出模块,用于对特征融合单元生成的融合后特征图进行目标预测,生成固定大小的目标矩阵,即目标检测的结果。
[0047]
本发明将改进后的yolov5s网络,即yolov5s-ec-fsl网络主要包括输入模块input、主干网络backbone、特征融合网络neck和输出端head4个部分。首先是输入模块,该模块统一输入图片缩放为640
×
640
×
3;然后是主干网络,其中包括多个econv模块和ec3模块,econv模块是在yolov5的conv模块的基础上引入扩张卷积后所形成,同理,ec3模块也是通过在yolov5的c3模块中引入扩张卷积而形成,二者的结构均在图1中给出示意,扩张卷积的引入,使得网络的特征提取能力得到增强,训练效果更好;接着是特征融合网络,该部分先将提取的特征图在特征金字塔fpn自上而下传递语义信息,然后在路径聚合网络pan自下而上传递定位信息,实现了不同层的特征融合;最后是输出端,该模块输出后分别得到20
×
20,40
×
40,80
×
80的特征图。
[0048]
实施例二:参照图2,本发明提出的一种利用改进的yolov5目标检测系统实现目标检测的方法,具体包括如下步骤:
[0049]
步骤1.对帕斯卡物体识别挑战赛pascal voc数据集进行划分,获取voc07+12数据集,并对其划分训练集与验证集,并将数据标签转化为与yolov5网络中相同的标签格式,具体是将voc数据标签转化为txt标签,实现如下:
[0050][0051]
其中,(x1,y1)和(x2,y2)分别为目标框的左上角和右下角的坐标,w和h分别为图片的宽度和高度,x
centre
和y
centre
分别代表归一化后目标中心点的横纵坐标,w和h分别代表归一化后的目标宽度和高度。
[0052]
步骤2.将训练集数据送入系统的输入模块进行系统模型训练,由输入模块对数据进行预处理操作,得到预处理后数据,并发送给主干单元;这里的预处理操作,包括使用mosaic数据增强技术增加样本数量、使用自适应锚框适应不同数据集、采用自适应图片缩放减少计算量以及添加focus模块加快推理速度。
[0053]
步骤3.主干单元通过econv模块和ec3模块在系统中引入扩张卷积,使用比传统卷积多二倍以上的参数量对预处理后的数据进行特征提取,并对主干单元中所有econv模块的输出通道进行特征相似度损失计算,即对扩张卷积的输出特征图之间进行特征相似度损失的计算,该计算作用于一个卷积模块中所有输出特征图的两两之间;首先构建输出通道echo:
[0054]
echo=[echo0,echo1,...,echoz,...,echo
o-1
],
[0055]
其中,o代表echo的输出通道个数,echoz代表echo的第z个输出通道;
[0056]
然后按照如下步骤,计算特征相似度损失loss
sim

[0057]
(3.1)将echo中的每个输出通道都进行由二维特征图向为一维向量的转换,以echo
m(1)z
为例,其中m(1)代表一维向量,echo
m(1)z
代表由echoz转化而来的一维向量,其表达式如下:
[0058]
echo
m(1)z
=[x
(z,0)
,x
(z,1)
,...,x
(z,r)
,...,x
(z,p-1)
],
[0059]
其中,p代表echo
m(1)z
中的元素个数,即一维向量的长度,x
(z,r)
代表echo
m(1)z
中第r个元素;
[0060]
(3.2)计算echo的o个输出通道中,两两通道之间的特征相似度损失,以echo
m(1)zi
和echo
m(1)zj
为例,其中echo
m(1)zi
和echo
m(1)zj
分别代表echo中两个不同的通道echo
zi
和echo
zj
转换后对应的一维向量,计算echo
m(1)zi
和echo
m(1)zj
之间的特征相似度损失a
(zi,zj)

[0061][0062]
其中x
(zi,l)
和x
(zj,l)
分别echo
m(1)zi
和echo
m(1)zj
中第l个元素;
[0063]
(3.3)设定特征相似度筛选阈值为margin,则echo
m(1)zi
和echo
m(1)zj
之间的特征相似度损失loss
(zi,zj)

[0064][0065]
(3.4)获取整个系统中的损失loss
all

[0066]
loss
all
=λ
sim
loss
sim
+λ1loss
rect
+λ2loss
obj
+λ3loss
clc

[0067]
其中,loss
sim
表示所有扩张卷积模块的各自输出特征图之间的特征相似度损失的均值之和,loss
rect
、loss
clc
和loss
obj
分别表示矩形框损失、分类损失和置信度损失,λ
sim
表示loss
sim
的损失权值,λ1、λ2和λ3分别表示loss
rect
、loss
obj
和loss
clc
损失的权值。
[0068]
步骤4.特征融合单元对主干单元中输出的三种不同尺度的特征图首先进行自上而下的语义信息传递,然后在路径聚合网络自下而上传递定位信息,完成不同层的特征融合,最后生成三组不同尺度的融合后特征图;
[0069]
步骤5.输出模块通过对特征融合单元生成的三组不同尺度的融合后特征图分别进行大、中和小这三类目标的预测,生成固定大小的预测目标矩阵;
[0070]
步骤6.依据预测目标矩阵和由真实标签生成的目标矩阵之间的误差计算置信度损失、位置损失和分类损失,并对置信度损失、位置损失、分类损失和步骤3中得到的特征相似度损失按权相加得到总损失,然后对总损失进行反向传播,更新模型参数;
[0071]
步骤7.使用参数更新后的模型对验证集数据进行推理,分别计算置信度损失、位置损失、分类损失和特征相似度损失,并对其按权相加得到总损失,判断总损失的下降过程是否趋于收敛,若是,得到训练完毕的模型,执行步骤8;反之,返回步骤2继续训练;
[0072]
步骤8.对训练完毕的模型中的扩张卷积进行无损压缩,生成最终目标检测模型。参照图4构建对应扩张卷积的压缩规则:
[0073]
在训练完毕后对扩张卷积的卷积核参数,按照其输入通道的扩展规则进行反向压缩,最终将扩展卷积的参数量压缩到和传统卷积相同大小,扩张卷积的压缩计算公式如下:
[0074][0075]
其中,ek代表扩张卷积的卷积核,ek
x
代表扩张卷积的卷积核中深度为x的参数;扩张卷积的卷积核深度由n增加至m,对应的参数量也增加m/n倍;
[0076][0077]
其中k代表扩张卷积压缩后的卷积核,ky代表k中深度为y的参数;
[0078]
得到k的表达式:
[0079][0080]
步骤9.将待测数据输入最终目标检测模型中进行检测,获取检测结果。
[0081]
实施例三:本实施例提出的目标检测方法,整体实现步骤同实施例二,现对其中获取数据集并划分的数据准备过程,作出进一步详细描述:
[0082]
本实施例将pascal voc数据集按照划分方式不同,设置voc07+12数据集,voc07+12数据集是通过voc2007数据集和voc2012数据集的整合,形成一个更大的数据集,具体设置如下:
[0083][0084]
voc07+12数据集中共包括21020张图片,是voc2007数据集的两倍多,其中16011张作为训练集,5009张作为验证集:
[0085]
pascalvoc数据集中每张图片都对应一个xml格式的标签文件,文件中依次涵盖标签对应的图片名、图片大小、目标的类别、拍摄角度、截断状态、识别难度和目标框的位置等信息,其中目标框的位置信息中包含目标框的左上角(x
min
,y
min
)和右下角(x
max
,y
max
)的坐标。为符合本文使用的yolov5网络在训练时对数据标签的格式要求,需要将voc标签格式转化为yolov5的txt标签。txt标签文件中每行数据代表该标签对应图片中的一个目标,每个目标信息由一个非负整数和四个[0,1]之间的浮点数表示,其中整数代表目标的类别,四个浮点数分别代表了归一化之后的目标中心点坐标以及画框的宽度和高度。
[0086]
实施例四:本实施例提出的目标检测方法,整体实现步骤同实施例二,现参照图5,对特征相似度损失的筛选作进一步详细描述:
[0087]
相似度损失的计算和反向传播会对各个通道之间的特征相似度进行限制,使得扩
张在提取的信息总量相同的情况下,包含更少的冗余信息,相似度损失的计算作用于一个扩张卷积模块中所有输出特征图的两两之间,输出数据echo的构建方式:
[0088]
echo=[echo0,echo1,...,echoz,...,echo
o-1
]
[0089]
其中o代表echo的输出通道的个数,这个网络的特征相似度损失loss
sim
的构建方式:
[0090]
将echo中的每个输出通道都进行由二维特征图向为一维向量的转换,以echo
m(1)z
为例,其中m(1)代表一维向量,echo
m(1)z
代表由echoz转化而来的一维向量,其表达式如下:
[0091]
echo
m(1)z
=[x
(z,0)
,x
(z,1)
,...,x
(z,r)
,...,x
(z,p-1)
]
[0092]
其中,p代表echo
m(1)z
中的元素个数,即一维向量的长度,x
(z,r)
代表echo
m(1)z
中第r个元素;
[0093]
本实施例中,特征图相似度是以两个向量之间的空间夹角余弦值的绝对值来进行衡量,以echo
m(1)zi
和echo
m(1)zj
为例,其中echo
m(1)zi
和echo
m(1)zj
分别代表echo中两个不同的通道echo
zi
和echo
zj
转换后对应的一维向量,计算echo
m(1)zi
和echo
m(1)zj
之间的特征相似度损失a
(zi,zj)

[0094][0095]
其中x
(zi,l)
和x
(zj,l)
分别echo
m(1)zi
和echo
m(1)zj
中第l个元素;
[0096]
本实施例中,为了避免特征相似度较小的损失对模型参数收敛方向产生影响,因此设定了特征相似度损失阈值来进行特征相似度损失的筛选,图5中以输出通道为8的卷积为例,介绍特征相似度损失的筛选流程,其中margin设置为0.80。
[0097]
第i个和第j个输出特征图之间的特征相似度损失loss
(i,j)
的构建方式:
[0098][0099]
其中margin代表特征相似度筛选阈值。
[0100]
对整个网络中的损失loss
all
的构建方式:
[0101]
loss
all
=λ
sim
loss
sim
+λ1loss
rect
+λ2loss
obj
+λ3loss
clc
[0102]
其中loss
sim
代表网络中,所有扩张卷积模块的各自输出特征图之间的特征相似度损失的均值之和,loss
rect
、loss
clc
和loss
obj
分别代表矩形框损失、分类损失和置信度损失,λ
sim
是loss
sim
的损失权重,λ1、λ2和λ3分别代表对应损失的损失权重。
[0103]
下面结合实验对本发明的效果作进一步的说明。
[0104]
1.实验条件:
[0105]
本发明的实验软硬件环境:
[0106][0107]
2.实验内容:
[0108]
为了充分检验出扩张卷积和特征相似度损失函数的真实效果,本次实验使用了yolov5s为基础网络,在此基础上引入二倍扩张卷积和特征相似度损失函数,在voc07+12数据集中进行实验验证,并对比两个网络的map0.5和fps等指标。
[0109]
3.实验结果分析:
[0110]
以下为实验的客观结果数据:
[0111][0112]
由此可以看出,引入扩张卷积和特征相似度损失函数后,yolov5s-ec-fsl模型在voc07+12数据集中的map达到了80.8%,较基础模型提升了1.6%。从yolov5s和yolov5s-ec-fsl的实验数据对比,都可以看出引入特征相似度损失函数后,模型的参数量、计算量和检测速度等指标均与基础模型一致。
[0113]
以下是特征相似度阈值为0.80时,两个网络的首层输出特征图的特征相似度分布情况对比:
[0114][0115]
[0116]
在voc07+12数据集中,在引入特征相似度损失函数后,网络的冗余特征图数量下降到1对。可以看出,特征相似度损失函数对特征图之间的特征相似度抑制效果非常明显,可以有效的减少冗余特征图的出现。
[0117]
图5为yolov5s和yolov5s-ec-fsl训练完毕后的首层输出特征图的可视化效果,其中yolov5s模型的输出特征图中存在多张主观相似度较高的图片,在yolov5s-ec-fsl模型的输出特征图中可以明显的看到相似度较高的特征图数量大大降低。这样的效果也与特征相似度损失的统计结果相一致,达到了特征相似度损失函数的设计目标,说明在加入特征相似度损失函数后,特征图之间的相似度明显降低,特征图之间的差异性变大,达到了抑制冗余特征图的预期效果。
[0118]
图6中,(a)为yolov5s网络训练完毕后的首层输出特征图的可视化效果,(b)为yolov5s-ec-fsl网络训练完毕后的首层输出特征图的可视化效果,其中yolov5s模型的输出特征图中存在多张主观相似度较高的图片,在yolov5s-ec-fsl模型的输出特征图中可以明显的看到相似度较高的特征图数量大大降低。这样的效果也与特征相似度损失的统计结果相一致,达到了特征相似度损失函数的设计目标,说明在加入特征相似度损失函数后,特征图之间的相似度明显降低,特征图之间的差异性变大,达到了抑制冗余特征图的预期效果。
[0119]
图7为yolov5s-ec-fsl模型在压缩前后的检测效果图,其中(a)和(b)分别为yolov5s-ec-fsl模型压缩前和压缩后的检测效果图,从中可以看出模型在压缩前后的检测结果,不论在目标种类、置信度大小、画框位置等,都完全相同。主观比较的结果与客观分析得到的结果完全一致,充分说明扩张卷积的压缩是无损的。
[0120]
图8中,(a)为yolov5s网络的实际检测效果图,(b)为yolov5s-ec-fsl网络的实际检测效果图,可以看出,扩张卷积和特征相似度损失函数的引入对瓶子和盆栽这类小目标的检测效果有一定的提升。在第一幅图的检测中,yolov5s模型没有检测到盆栽目标,yolov5s-ec-fsl模型测出了两个盆栽目标,较yolov5s模型有较大的效果改善。yolov5s模型对第二幅图的检测中出现了重框问题,在第三幅图片的检测中,被yolov5s漏检了一个瓶子目标,这些在yolov5s-ec-fsl网络中都正确的检测了出来。
[0121]
上述实验结果证明了本发明所提方法的正确性与有效性。
[0122]
本发明未详细说明部分属于本领域技术人员公知常识。
[0123]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,显然对于本领
[0124]
域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

技术特征:
1.一种改进的yolov5目标检测系统,其特征在于:包括依次级联的输入模块、主干单元、特征融合单元以及输出模块;外部数据首先进入输入模块,经处理后传输给主干单元,由主干单元从中提取不同尺度的特征图,并将其传送给特征融合单元进行特征融合,最后通过输出模块输出检测结果;所述输入模块,用于对从外部采集到的图像数据进行格式化处理,并将处理后数据传输给主干单元;所述主干单元,用于对输入模块处理后的数据进行不同层级的特征提取、池化操作,获取不同尺度特征图;该单元包括扩张卷积econv模块和三层连续扩张卷积ec3模块,其中econv模块是在yolov5网络的conv模块基础上引入扩张卷积后形成;ec3模块是在yolov5网络的c3模块中引入扩张卷积形成;所述特征融合单元,采用特征金字塔fpn加上路径聚合网络pan的结构,用于对主干单元中获取的不同尺度的特征图进行融合处理;所述输出模块,用于对特征融合单元生成的融合后特征图进行目标预测,生成固定大小的目标矩阵,即目标检测的结果。2.根据权利要求1所述系统,其特征在于:所述输入模块,用于对从外部采集到的图像数据进行格式化处理,具体是将外部输入系统中的图片进行数据增强、自适应放缩和归一化处理,得到统一尺寸大小的归一化数据并输出给主干单元。3.根据权利要求1所述系统,其特征在于:所述主干单元中的econv模块包含线性变换层、卷积层、归一化层以及非线性激活函数层;ec3模块是包含3个econv模块的残差模块。4.根据权利要求1所述的方法,其特征在于:所述特征金字塔fpn是将深层的语义特征传到浅层,路径聚合网络pan则是把浅层的定位信息传导到深层,特征金字塔fpn加上路径聚合网络pan的结构用于实现多尺度定位能力的增强。5.根据权利要求1所述系统,其特征在于:所述引入主干网络的扩张卷积是一种基于传统逐点卷积的增强型卷积模块,扩张卷积的输入输出与传统卷积完全相同,通过输入数据的线性变换进行输入通道扩展,扩张卷积的参数量是传统卷积参数量的二倍以上,其输入通道ch与扩展通道ech,分别定义如下:ch=[ch0,ch1,...,ch
y
,...,ch
n-1
],ech=[ech0,ech1,...,ech
x
,...,ech
m-1
],其中,n为输入数据的通道数,m为输入通道线性扩展后的扩展通道数;所述输入通道ch与扩展通道ech之间的关系如下:其中,ch
y
代表ch中的第y个通道,ech
x
代表ech中的第x个通道,λ
(x,y)
表示ch
y
对ech
x
的权
重系数;扩张卷积的卷积核深度由n增加至m,对应的参数量也增加m/n倍。6.一种根据权利要求1所述系统实现目标检测的方法,其特征在于,包括如下步骤:(1)对帕斯卡物体识别挑战赛pascal voc数据集进行划分,获取voc07+12数据集,并对其划分训练集与验证集,并将数据标签转化为与yolov5网络中相同的标签格式;(2)将训练集数据送入系统的输入模块进行系统模型训练,由输入模块对数据进行预处理操作,得到预处理后数据,并发送给主干单元;(3)主干单元通过econv模块和ec3模块在系统中引入扩张卷积,使用比传统卷积多二倍以上的参数量对预处理后的数据进行特征提取,并对主干单元中所有econv模块的输出通道进行特征相似度损失计算;(4)特征融合单元对主干单元中输出的三种不同尺度的特征图首先进行自上而下的语义信息传递,然后在路径聚合网络自下而上传递定位信息,完成不同层的特征融合,最后生成三组不同尺度的融合后特征图;(5)输出模块通过对特征融合单元生成的三组不同尺度的融合后特征图分别进行大、中和小这三类目标的预测,生成固定大小的预测目标矩阵;(6)依据预测目标矩阵和由真实标签生成的目标矩阵之间的误差计算置信度损失、位置损失和分类损失,并对置信度损失、位置损失、分类损失和步骤(3)中得到的特征相似度损失按权相加得到总损失,然后对总损失进行反向传播,更新模型参数;(7)使用参数更新后的模型对验证集数据进行推理,分别计算置信度损失、位置损失、分类损失和特征相似度损失,并对其按权相加得到总损失,判断总损失的下降过程是否趋于收敛,若是,得到训练完毕的模型,执行步骤(8);反之,返回步骤(2)继续训练;(8)对训练完毕的模型中的扩张卷积进行无损压缩,生成最终目标检测模型;(9)将待测数据输入最终目标检测模型中进行检测,获取检测结果。7.根据权利要求6所述的方法,其特征在于:步骤(1)中将数据标签转化为与yolov5网络中相同的标签格式,具体是将voc数据标签转化为txt标签,实现如下:其中,(x1,y1)和(x2,y2)分别为目标框的左上角和右下角的坐标,w和h分别为图片的宽度和高度,x
centre
和y
centre
分别代表归一化后目标中心点的横纵坐标,w和h分别代表归一化后的目标宽度和高度。8.根据权利要求6所述的方法,其特征在于:步骤(2)中输入模块对数据进行预处理操作,包括使用mosaic数据增强技术增加样本数量、使用自适应锚框适应不同数据集、采用自适应图片缩放减少计算量以及添加focus模块加快推理速度。9.根据权利要求6所述的方法,其特征在于:步骤(3)中对主干单元中所有econv模块的
输出通道进行特征相似度损失计算,即对扩张卷积的输出特征图之间进行特征相似度损失的计算,该计算作用于一个扩张卷积模块中所有输出特征图的两两之间;首先构建扩张卷积模块的输出数据echo:echo=[echo0,echo1,...,echo
z
,...,echo
o-1
],其中,o代表echo的输出通道个数,echo
z
代表echo的第z个输出通道;然后按照如下步骤,计算特征相似度损失loss
sim
:(3.1)将echo中的每个输出通道都进行由二维特征图向为一维向量的转换,以echo
m(1)z
为例,其中m(1)代表一维向量,echo
m(1)z
代表由echo
z
转化而来的一维向量,其表达式如下:echo
m(1)z
=[x
(z,0)
,x
(z,1)
,

,x
(z,r)
,...,x
(z,p-1)
],其中,p代表echo
m(1)z
中的元素个数,即一维向量的长度,x
(z,r)
代表echo
m(1)z
中第r个元素;(3.2)计算echo的o个输出通道中,两两通道之间的特征相似度损失,以echo
m(1)zi
和echo
m(1)zj
为例,其中echo
m(1
)
zi
和echo
m(1)zj
分别代表echo中两个不同的通道echo
zi
和echo
zj
转换后对应的一维向量,计算echo
m(1)zi
和echo
m(1)zj
之间的特征相似度损失a
(zi,zj)
:其中x
(zi,l)
和x
(zj,l)
分别echo
m(1)zi
和echo
m(1)zj
中第l个元素;(3.3)设定特征相似度筛选阈值为margin,则echo
m(1)zi
和echo
m(1)zj
之间的特征相似度损失loss
(zi,zj)
:(3.4)获取整个系统中的损失loss
all
:loss
all
=λ
sim
loss
sim
+λ1loss
rect
+λ2loss
obj
+λ3loss
clc
,其中,loss
sim
表示所有扩张卷积模块的各自输出特征图之间的特征相似度损失的均值之和,loss
rect
、loss
clc
和loss
obj
分别表示矩形框损失、分类损失和置信度损失,λ
sim
表示loss
sim
的损失权值,λ1、λ2和λ3分别表示loss
rect
、loss
obj
和loss
clc
损失的权值。10.根据权利要求6所述的方法,其特征在于:步骤(8)中对训练完毕的模型中的扩张卷积进行无损压缩,具体是在训练完毕后对扩张卷积的卷积核参数,按照其输入通道的扩展规则进行反向压缩,最终将扩展卷积的参数量压缩到和传统卷积相同大小,实现过程如下:
其中,ek代表扩张卷积的卷积核,ek
x
代表扩张卷积的卷积核中深度为x的参数;扩张卷积的卷积核深度由n增加至m,对应的参数量也增加m/n倍;其中k代表扩张卷积压缩后的卷积核,k
y
代表k中深度为y的参数;得到k的表达式:

技术总结
本发明公开了一种改进的YOLOv5目标检测系统及方法,主要解决现有检测算法在网络参数量和检测精度之间难以兼顾的问题。包括:依次级联的输入模块、主干单元、特征融合单元以及输出模块;外部数据首先进入输入模块,经处理后传输给主干单元,该单元包括扩张卷积模块和三层连续扩张卷积模块,均是在YOLOv5网络中引入扩张卷积后形成,用于提取不同尺度的特征图,并将其传送给特征融合单元,该单元采用特征金字塔FPN加上路径聚合网络PAN的结构对主干单元中获取的不同尺度的特征图进行融合处理;最后通过输出模块对融合后特征进行目标预测,输出检测结果。本发明能够在不增加检测模型参数量和计算量的同时,有效提升检测精度。有效提升检测精度。有效提升检测精度。


技术研发人员:王海 张魁 张敏 林生
受保护的技术使用者:西安电子科技大学
技术研发日:2023.05.23
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐