基于改进FasterR-CNN算法的行人检测方法
未命名
08-14
阅读:111
评论:0
基于改进faster r-cnn算法的行人检测方法
技术领域
1.本发明涉及行人检测方法,具体涉及基于改进faster r-cnn算法的行人检测方法。
背景技术:
2.行人检测是利用计算机视觉技术检测出图像中的行人的过程,其在交通安全、智能监控、自动驾驶等领域具有广泛的应用前景。基于特征的行人检测方法,例如haar、hog特征的方法,特征提取过程一般需人为设计,容易受噪声、照明变化、人体姿态变化等因素的影响,存在行人检测准确率较低以及小目标漏检的问题。
技术实现要素:
3.发明目的:本发明的目的是提供基于改进faster r-cnn算法的行人检测方法,以解决现有技术存在的行人检测准确率较低以及目标较小时出现漏检的问题。
4.技术方案:本发明所述基于改进faster r-cnn算法的行人检测方法,包括:
5.(1)将待检测图像输入resnet50主干网络,得到不同尺度的特征图;
6.(2)将不同尺度的特征图输入fpn网络进行特征融合,得到最终的不同尺度的特征图;
7.(3)将最终的不同尺度的特征图输入rpn网络,获取感兴趣区域图像;
8.(4)将感兴趣区域图像输入roi align将其映射到特征图上,得到图像尺寸一样的特征矩阵;
9.(5)将特征矩阵进行全连接,同时对目标进行类别分类和位置回归计算,得到目标的位置及类别,完成检测。
10.进一步地,步骤(2)包括:
11.经过resnet50主干网络得到不同尺度的特征图后,进行神经网络的向前传播,通过卷积计算后得到多个大小不一样的特征图c2、c3、c4、c5;
12.将得到的特征图c5进行上采样操作,接着对c4使用1*1的卷积核进行降维处理,然后将两者对应的元素进行相加,得到c4.1;以此类推,分别计算出c2.1、c3.1、c4.1、c5.1;
13.对c2.1、c3.1、c4.1、c5.1分别使用3*3的卷积核进行卷积操作,以此消除上采样所产生的混叠效应,最后得到所需要的特征图p2、p3、p4、p5。
14.进一步地,上采样时,采用双线性插值法,能够减少上采样过程中图像出现锯齿状边缘的问题,使图像更加平滑,空间位置精准度更高。
15.进一步地,双线性插值法包括:
16.在计算未知函数f在o=(x,y)的值时,需要知道离o点最近的四个点w
11
(x1,y1)、w
12
(x1,y2)、w
21
(x2,y1)、w
22
(x2、y2)的值;
17.首先在x方向进行插值:
18.[0019][0020]
然后在y方向进行插值:
[0021][0022]
最后得到插值的结果:
[0023]
f(x,y)=f(w
11
)(x
2-x)(y
2-y)+f(w
21
)(x-x1)(y
2-y)+f(w
12
)(x
2-x)(y-y1)+f(w
22
)(x-x1)(y-y1) (4)。
[0024]
进一步地,步骤(3)包括:
[0025]
将特征图p2、p3、p4、p5作为rpn网络的输入,使用3*3的滑动窗口来遍历整个特征图,其中包含面积为128*128、256*256、512*512和长宽比为1∶1、1:2和2∶1的9个anchor,滑动窗口每次的移动都使用这9个anchor来进行检测,每k个anchor对应k个区域建议框、2k个分类层输出值和4k个回归层输出值;一个anchor对应两个分类层输出,通过设置ciou的值来确定此anchor为正样本还是负样本;一个anchor又对应四个回归层输出值,分别是x和y两坐标的偏移量以及长和宽的偏移量,通过这种方式来确定图像中感兴趣的区域。
[0026]
本技术方案,在进行rpn生成建议框的过程中,采用ciou算法,提供更加严格的评估标准,提高目标检测模型的检测能力,能够更加全面地反映性能并且简化性能评估的过程。
[0027]
进一步地,ciou公式为:
[0028][0029]
其中x表示anchor所在的区域,y表示图像中标签所标记的行人区域;ρ表示预测框和真实框中心点的欧氏距离;b为预测框的中心点,b
gt
为真实框的中心点;c表示预测框和真实框最小外接矩形的对角线长度;α为权重函数,v表示度量宽高比的一致性参数。
[0030]
进一步地,α和v的表达式分别为:
[0031][0032][0033]
其中w表示预测框的宽,h表示预测框的高,w
gt
表示真实框的宽,h
gt
表示真实框的高。
[0034]
进一步地,回归层输出偏移量公式:
[0035][0036]
其中anchor的中心点x的坐标为(xa,ya),宽和高分别为wa与ha;标签y的中心坐标为(x,y),宽和高分别为w与h。
[0037]
进一步地,步骤(4)包括;
[0038]
在将感兴趣区域图像映射到特征图上后,接着将所映射的区域均分成4个大小相同的区域,然后对每个区域只取一个采样点,再对每个区域中的采样点进行插值计算,作为该区域最终的输出。本技术方案减少了采样点的个数,能够在不影响检测效果的情况下增加模型的检测速度。
[0039]
本发明还提供一种计算机设备,包括存储器和处理器,所述储存器存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的行人检测方法。
[0040]
有益效果:本发明与现有技术相比,具有如下显著优点:
[0041]
(1)在特征图处理方面有效结合了浅层网络和深层网络的特征,能够满足行人检测和图像分类的需要,同时对小目标的检测效果有显著的提升;
[0042]
(2)使用效果更好的roi align替代原始的roi pooling,能够达到更好的检测效果;
[0043]
与原先的faster r-cnn算法相比,优化后的faster r-cnn算法不仅提高了行人检测的准确率,而且提高了对小目标检测的精准度。
附图说明
[0044]
图1是本技术实施例提供的基于改进faster r-cnn算法的行人检测方法流程框图;
[0045]
图2是本技术实施例中fpn网络结构图;
[0046]
图3是本技术实施例中rpn实现过程示意图;
[0047]
图4是本技术实施例中模型训练的精准度图;
[0048]
图5是原始faster r-cnn算法的检测效果图;
[0049]
图6是改进faster r-cnn算法的检测效果图。
具体实施方式
[0050]
下面结合附图对本发明做进一步详细说明。
[0051]
如图1所示,基于改进faster r-cnn算法的行人检测方法,具体包括如下的步骤。
[0052]
(1)将待检测图像输入resnet50主干网络,得到不同尺度的特征图;
[0053]
(2)将不同尺度的特征图输入fpn网络进行特征融合,得到最终的不同尺度的特征图;
[0054]
fpn实现过程如图2所示,包括:
[0055]
自下而上:经过resnet50主干网络得到不同尺度的特征图后,进行神经网络的向前传播,通过卷积计算后得到多个大小不一样的特征图c2、c3、c4、c5;
[0056]
自下而上:将得到的特征图c5进行上采样操作,接着对c4使用1*1的卷积核进行降维处理,然后将两者对应的元素进行相加,得到c4.1;以此类推,分别计算出c2.1、c3.1、c4.1、c5.1;
[0057]
横向连接:对得到的c2.1、c3.1、c4.1、c5.1分别使用3*3的卷积核进行卷积操作,以此消除上采样所产生的混叠效应,最后得到所需要的特征图p2、p3、p4、p5。
[0058]
在上采样时,一般采用的插值方法为最临近插值法,该插值方法计算出来的图像会产生锯齿状的边缘,对检测的结果会产生不利影响。本实施例中,上采样时,采用双线性
插值法。双线性插值法公式为:
[0059]
在计算未知函数f在o=(x,y)的值时,需要知道离o点最近的四个点w
11
(x1,y1)、w
12
(x1,y2)、w
21
(x2,y1)、w
22
(x2、y2)的值;
[0060]
首先在x方向进行插值:
[0061][0062][0063]
然后在y方向进行插值:
[0064][0065]
最后得到插值的结果:
[0066]
f(x,y)=f(w
11
)(x
2-x)(y
2-y)+f(w
21
)(x-x1)(y
2-y)+f(w
12
)(x
2-x)(y-y1)+f(w
22
)(x-x1)(y-y1) (4)。
[0067]
(3)将最终的不同尺度的特征图输入rpn网络,获取感兴趣区域图像(即带有候选框的坐标信息的图像);
[0068]
rpn的实现过程如图3所示,包括:
[0069]
将特征图(feature map)p2、p3、p4、p5作为rpn网络的输入,使用3*3的滑动窗口(sliding window)来遍历整个特征图,其中包含面积为128*128、256*256、512*512和长宽比为1∶1、1∶2和2∶1的9个anchor,滑动窗口每次的移动都使用这9个anchor来进行检测,每k个anchor对应k个区域建议框、2k个分类层输出值(scorces)和4k个回归层输出值(coordinates);一个anchor对应两个分类层输出,通过设置ciou的值来确定此anchor为正样本还是负样本;一个anchor又对应四个回归层输出值,分别是x和y两坐标的偏移量以及长和宽的偏移量,通过这种方式来确定图像中感兴趣的区域。
[0070]
ciou公式为:
[0071][0072]
其中x表示anchor所在的区域,y表示图像中标签所标记的行人区域;ρ表示预测框和真实框中心点的欧氏距离;b为预测框的中心点,b
gt
为真实框的中心点;c表示预测框和真实框最小外接矩形的对角线长度;α为权重函数,v表示度量宽高比的一致性参数。
[0073]
α和v的表达式分别为:
[0074][0075][0076]
其中w表示预测框的宽,h表示预测框的高,w
gt
表示真实框的宽,h
gt
表示真实框的高。
[0077]
回归层输出偏移量公式:
cnn模型检测的效果图以及申请实施例训练后模型的检测效果图,可见本发明能够达到较为理想的检测效果。
技术特征:
1.基于改进faster r-cnn算法的行人检测方法,其特征在于,包括:(1)将待检测图像输入resnet50主干网络,得到不同尺度的特征图;(2)将不同尺度的特征图输入fpn网络进行特征融合,得到最终的不同尺度的特征图;(3)将最终的不同尺度的特征图输入rpn网络,获取感兴趣区域图像;(4)将感兴趣区域图像输入roialign将其映射到特征图上,得到图像尺寸一样的特征矩阵;(5)将特征矩阵进行全连接,同时对目标进行类别分类和位置回归计算,得到目标的位置及类别,完成检测。2.根据权利要求1所述的行人检测方法,其特征在于,步骤(2)包括:经过resnet50主干网络得到不同尺度的特征图后,进行神经网络的向前传播,通过卷积计算后得到多个大小不一样的特征图c2、c3、c4、c5;将得到的特征图c5进行上采样操作,接着对c4使用1*1的卷积核进行降维处理,然后将两者对应的元素进行相加,得到c4.1;以此类推,分别计算出c2.1、c3.1、c4.1、c5.1;对c2.1、c3.1、c4.1、c5.1分别使用3*3的卷积核进行卷积操作,以此消除上采样所产生的混叠效应,最后得到所需要的特征图p2、p3、p4、p5。3.根据权利要求2所述的行人检测方法,其特征在于,上采样时,采用双线性插值法。4.根据权利要求3所述的行人检测方法,其特征在于,双线性插值法包括:在计算未知函数f在o=(x,y)的值时,需要知道离o点最近的四个点w
11
(x1,y1)、w
12
(x1,y2)、w
21
(x2,y1)、w
22
(x2、y2)的值;首先在x方向进行插值:首先在x方向进行插值:然后在y方向进行插值:最后得到插值的结果:f(x,y)=f(w
11
)(x
2-x)(y
2-y)+f(w
21
)(x-x1)(y
2-y)+f(w
12
)(x
2-x)(y-y1)f(w
22
)(x-x1)(y-y1)(4)。5.根据权利要求2所述的行人检测方法,其特征在于,步骤(3)包括:将特征图p2、p3、p4、p5作为rpn网络的输入,使用3*3的滑动窗口来遍历整个特征图,其中包含面积为128*128、256*256、512*512和长宽比为1:1、1:2和2:1的9个anchor,滑动窗口每次的移动都使用这9个anchor来进行检测,每k个anchor对应k个区域建议框、2k个分类层输出值和4k个回归层输出值;一个anchor对应两个分类层输出,通过设置ciou的值来确定此anchor为正样本还是负样本;一个anchor又对应四个回归层输出值,分别是x和y两坐标的偏移量以及长和宽的偏移量,通过这种方式来确定图像中感兴趣的区域。6.根据权利要求5所述的行人检测方法,其特征在于,ciou公式为:
其中x表示anchor所在的区域,y表示图像中标签所标记的行人区域;ρ表示预测框和真实框中心点的欧氏距离;b为预测框的中心点,b
gt
为真实框的中心点;c表示预测框和真实框最小外接矩形的对角线长度;α为权重函数,v表示度量宽高比的一致性参数。7.根据权利要求6所述的行人检测方法,其特征在于,α和v的表达式分别为:7.根据权利要求6所述的行人检测方法,其特征在于,α和v的表达式分别为:其中w表示预测框的宽,h表示预测框的高,w
gt
表示真实框的宽,h
gt
表示真实框的高。8.根据权利要求6所述的行人检测方法,其特征在于,回归层输出偏移量公式:其中anchor的中心点x的坐标为(x
a
,y
a
),宽和高分别为w
a
与h
a
;标签y的中心坐标为(x,y),宽和高分别为w与h。9.根据权利要求3或4所述的行人检测方法,其特征在于,步骤(4)包括;在将感兴趣区域图像映射到特征图上后,接着将所映射的区域均分成4个大小相同的区域,然后对每个区域只取一个采样点,再对每个区域中的采样点进行插值计算,作为该区域最终的输出。10.一种计算机设备,包括存储器和处理器,所述储存器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,实现权利要求1至9中任一项所述的行人检测方法。
技术总结
本发明公开了基于改进Faster R-CNN算法的行人检测方法,包括:将待检测图像输入ResNet50主干网络,得到不同尺度的特征图;将不同尺度的特征图输入FPN网络进行特征融合,得到最终的不同尺度的特征图;将最终的不同尺度的特征图输入RPN网络,获取感兴趣区域图像;将感兴趣区域图像输入ROI Align将其映射到特征图上,得到图像尺寸一样的特征矩阵;将特征矩阵进行全连接,同时对目标进行类别分类和位置回归计算,得到目标的位置及类别,完成检测。本发明提高了行人检测的准确率及小目标检测的精准度。的精准度。的精准度。
技术研发人员:周辉 杨定礼 吴怡啄 朱小豪 尉逸佳 曹杰 彭宇彬 王文龙 冯俊桥
受保护的技术使用者:淮阴工学院
技术研发日:2023.05.17
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
