一种视频监控场景下高精度低算量的人群密度估计方法与流程

未命名 07-23 阅读：101 评论：0

1.本发明涉及深度学习在计算机视觉技术领域的应用，具体涉及一种视频监控场景下高精度低算量的人群密度估计方法。

背景技术：

2.随着经济和城市化发展，车站、广场、景区等公共场所经常出现大量人员聚集，为防止出现安全事故，需要进行实时监控和预警，对人员密度过大的区域进行管控、疏散。针对广场、景区等大型场景，可以使用无人机搭载的摄像机进行实时动态监控，针对场馆、站厅等小型场景，可以安装固定的摄像机进行实时动态监控。
3.近年来深度学习在智能视频态势监控领域有了突飞猛进的进展和成熟的应用，例如烟火检测、人脸识别、行人跟踪计数等，而人群密度估计作为智能视频态势监控领域一项基本任务，对城市人员管理有着重要的作用。
4.由于室内密集区域存在人员之间遮挡以及室外无人机航拍存在人员目标太小的问题，使得基于目标检测的人群密度估计算法准确率较低。为避免人员遮挡问题，当前普遍采用基于密度图的算法，csrnet：dilated convolutional neural networks for understanding the highly congested scenes(cvpr2018)采用多尺度特征融合的方法回归密度图，但人群密度估计结果不够准确且生成的密度图较为模糊。recurrent attentive zooming for joint crowd counting and precise localization(cvpr2019)提出一种计数和定位相结合的多分支人群密度估计模型，采用稀疏性鼓励的二元交叉熵损失，并通过注意力图筛选注意力值过高的区域进行循环定位，解决了人群局部人数不准确的问题，人群定位结果较为准确，生成的密度图更接近于真实密度图，但是该模型对大尺度人群定位效果差、模型结构复杂、参数量大，不利于模型经济性部署。

技术实现要素：

5.针对现有技术的不足，本发明公开一种视频监控场景下高精度低算量的人群密度估计方法，改进raznet网络结构，提升多尺度人群定位和人群密度估计的准确率，并对模型进行剪枝和微调处理，高精度、低算量地生成人群密度热力图。
6.本发明通过以下技术方案予以实现：
7.一种视频监控场景下高精度低算量的人群密度估计方法，所述方法包括以下步骤：
8.s1选取标注人群场景数据集，进行数据集预处理，获取预处理数据集；
9.s2改进raznet网络结构，输入预处理数据集进行稀疏训练，获取稀疏模型；
10.s3对稀疏模型进行剪枝和微调处理，获取优化模型；
11.s4加载优化模型，裁剪检测视频，模型推理结果映射拼接预测图，预测图映射生成人群密度热力图。
12.更进一步的，所述s1中，人群场景数据集选取nwpu-crowd数据集，该数据集包含多
种场景下的人群原始图像和标签，并随机划分成训练集和测试集，标注形式为人头点位置和人头框。
13.更进一步的，所述s1中，数据集预处理的步骤如下：
14.s1a进行高斯核卷积生成真值密度图，转换成灰度标签图像；
15.s1b将原始图像和对应的灰度标签图像同时进行随机裁剪和水平翻转；
16.s1c将裁剪翻转的原始图像按照概率转换为灰度图像，再按照概率进行gamma校正和归一化处理。
17.更进一步的，所述s2中，改进raznet网络结构，前端模块采用带有bn层的vgg16_bn前10个卷积层、前10个bn层和前3个最大池化层；增大感受野模块采用空间金字塔池化，进行多尺度特征融合；后端模块采用3个不连续的转置卷积层和4个不连续的3
×
3卷积层，将浅层特征图与高层特征图进行融合。
18.更进一步的，所述s3中，对稀疏模型进行剪枝和微调处理的步骤如下：
19.s3a设置剪枝比例，统计所有bn层通道的总个数，对所有bn层的γ取绝对值并按照从小到大排序，选取剪枝阈值，根据剪枝阈值依次比较所有bn层的γ，记录γ小于剪枝阈值的通道索引；
20.s3b按照记录的通道索引，删除bn层的部分权重，删除每个与bn层相邻卷积层的部分权重，得到新的模型权重文件；
21.s3c根据每个卷积层和bn层剪枝的数量，修改卷积层的输入输出通道个数和bn层的通道个数，得到剪枝后模型；
22.s3d剪枝后模型加载新的权重文件，输入训练集进行重新训练至模型损失不再下降，得到微调后模型。
23.更进一步的，所述s4中，模型推理和生成热力图的步骤如下：
24.s4a读取检测视频，按照顺序将每帧图像进行归一化处理，再将大图裁剪成n个小图；
25.s4b依次将n个小图输入模型进行推理，推理结果映射到0到1之间，拼接成原始尺寸的预测图p0；
26.s4c预测图p0进行平均池化处理得到预测图p1，提高尖点压缩噪声，对p1进行最大池化处理得到p2，比较p1和p2，得到预测图p1上人头位置坐标；
27.s4d将预测图p1上每个人头位置坐标点映射为一个圆形，圆心最热，热度向外递减，相邻圆形的叠加区域热度累加，生成人群密度热力图。
28.本发明的有益效果为：
29.(1)在raznet网络结构基础上增加网络的尺度多样性，提取不同尺度的特征，改善大尺度人头漏检的情况；
30.(2)对稀疏模型进行压缩优化，通过通道剪枝移除冗余的特征通道，减少网络参数量，在不降低人群密度估计准确率的情况下提升模型推理速度，节省了计算机计算资源和存储空间资源；
31.(3)根据定位结果生成人群密度热力图，相比较csrnet和mcnn等网络生成的人群密度热力图，准确性更可靠。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本发明实施例公开的人群密度估计流程图；
34.图2为本发明实施例公开的人群密度估计网络结构图；
35.图3为本发明实施例公开的模型剪枝和训练微调流程图；
36.图4为本发明实施例公开的模型测试流程图。
具体实施方式
37.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
38.实施例
39.本实施例公开如图1所示的一种视频监控场景下高精度低算量的人群密度估计方法，所述方法包括以下步骤：
40.s1选取标注人群场景数据集，进行数据集预处理，获取预处理数据集；
41.s2改进raznet网络结构，输入预处理数据集进行稀疏训练，获取稀疏模型；
42.s3对稀疏模型进行剪枝和微调处理，获取优化模型；
43.s4加载优化模型，裁剪检测视频，模型推理结果映射拼接预测图，预测图映射生成人群密度热力图。
44.下面结合附图进一步详细说明。
45.s1选取标注人群场景数据集，进行数据集预处理，获取预处理数据集：
46.具体地，选取nwpu-crowd数据集，该数据集包含3128张多种场景下的人群原始图像和标签，并随机划分成2528张训练集和600张测试集。
47.标注形式人头点位置和人头框。
48.数据集预处理过程中，首先将训练集图像进行高斯核卷积生成真值密度图，高斯函数如公式(1)所示，再将上述真值密度图转换成灰度标签图像；其次将原始图像和对应的灰度标签图像同时进行尺寸为576
×
768像素的随机裁剪和按照0.5的概率进行水平翻转；然后将上一步操作得到的原始图像按照0.1的概率转换为灰度图像，再按照0.5的概率进行gamma校正和均值为[0.446139603853，0.409515678883，0.395083993673]、标准差为[0.288205742836，0.278144598007，0.283502370119]的归一化处理；最后将灰度标签图像像素值乘以255，获得预处理数据集。
[0049][0050]
s2改进raznet网络结构，输入预处理数据集进行稀疏训练，获取稀疏模型：
[0051]
具体地，人群密度估计网络在raznet定位分支的基础上进行改进，网络构建包括
前端模块、增大感受野模块和后端模块，前端模块采用带有bn层的vgg16_bn前10个卷积层、前10个bn层和前3个最大池化层，输出初始特征图；增大感受野模块采用空间金字塔池化，进行多尺度特征融合，增大特征图的感受野，提升对大尺度目标定位准确率；后端模块采用3个不连续的转置卷积层和4个不连续的3
×
3卷积层，转置卷积层的作用是降低特征通道维度和扩大特征图尺寸，将池化后的特征图还原为原图大小，为增加细节信息，将第3层、第5层和第9特征图分别与第20层、第17层和第14层特征图以拼接的方式进行特征融合，形成全局特征图。
[0052]
空间金字塔池化首先输入初始特征图，通过1
×
1卷积层将通道维度降低一半，得到特征图1；再通过5
×
5、9
×
9和13
×
13三种不同池化核和填充个数分别为2、4和6的池化层，得到三种相同尺寸的特征图2-4；将特征图1-4进行通道维度的拼接；通过1
×
1卷积层将拼接融合后的特征图通道数还原为空间金字塔池化层输入特征图的通道数，输出含有多尺度信息的特征图。
[0053]
稀疏训练的目的一是训练模型更新权重，二是稀疏化bn层的尺度因子。前端模块中10个bn层的尺度因子添加l1正则项，使不重要的特征图通道对应的bn层尺度因子在训练过程中逐渐趋近于0。l1正则化如公式(2)所示，网络的损失函数计算方式如公式(3)所示，mse损失函数如公式(4)所示。
[0054]
g(x)＝|x|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0055][0056][0057]
其中，公式(3)损失函数计算的第一项是正常的网络损失；第二项是尺度因子的正则化；γ是尺度因子；λ是l1正则项的惩罚系数，是一个超参数，用来平衡损失函数计算的两项，稀疏训练过程中λ设置为0.001。
[0058]
为加快训练，将人群密度估计网络的前端模块预先训练好权重，其他模块权重随机初始化。采用adam优化算法更新权重，训练至模型损失不再下降，获得稀疏模型。
[0059]
s3对稀疏模型进行剪枝和微调处理，获取优化模型：
[0060]
加载稀疏模型，设置剪枝的比例为0.7，统计所有bn层通道的总个数t，对所有bn层的γ取绝对值并按照从小到大排序，选取序列第0.7
×
t个作为剪枝阈值，根据剪枝阈值依次比较所有bn层的γ，记录γ小于剪枝阈值的通道索引。
[0061]
按照记录的通道索引，删除bn层的部分权重，删除每个与bn层相邻卷积层的部分权重，保存得到新的模型权重文件。
[0062]
根据每个卷积层和bn层剪枝的数量，修改卷积层的输入输出通道个数和bn层的通道个数，得到剪枝后模型。
[0063]
剪枝模型加载新的模型权重文件，输入训练集进行重新训练至模型损失不再下降，得到微调后模型。
[0064]
s4加载优化模型，裁剪检测视频，模型推理结果映射拼接预测图，预测图映射生成人群密度热力图：
[0065]
具体地，加载微调后的模型，读取检测视频，按照顺序将视频的每帧图像进行均值
为[0.446139603853，0.409515678883，0.395083993673]、标准差为[0.288205742836，0.278144598007，0.283502370119]的归一化处理，然后将大图裁剪成n个576像素
×
768像素的小图(p0...pn)，裁剪边界不允许超出原图边界，若最后一次裁剪不足576像素
×
768像素，那么可以与之前裁剪的小图有重叠部分。
[0066]
依次将小图(p0...pn)输入模型进行推理，推理结果输入softmax激活函数，将推理结果映射到0到1之间，接着将n个小图的推理映射结果拼接成原始尺寸的预测图p0，对p0除以所有的小图像素点个数。
[0067]
为了提高定位准确度，先进行平均池化处理得到预测图p1，提高尖点压缩噪声，然后对p1进行最大池化处理得到p2，比较p1和p2，若p1中像素值小于p2中对应位置像素值，则将p1中像素点置0，将p1中像素值小于0.5的像素点的像素值置0，得到p1上像素值为1的像素坐标(x，y)即为人头的位置坐标。
[0068]
将预测图p1上每个人头位置坐标点映射为一个圆形，圆心最热，热度向外递减，相邻圆形的叠加区域热度累加，生成人群密度热力图。
[0069]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述方法包括以下步骤：s1选取标注人群场景数据集，进行数据集预处理，获取预处理数据集；s2改进raznet网络结构，输入预处理数据集进行稀疏训练，获取稀疏模型；s3对稀疏模型进行剪枝和微调处理，获取优化模型；s4加载优化模型，裁剪检测视频，模型推理结果映射拼接预测图，预测图映射生成人群密度热力图。2.根据权利要求1所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述s1中，人群场景数据集选取nwpu-crowd数据集，标注形式为人头点位置和人头框。3.根据权利要求1所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述s1中，数据集预处理的步骤为：s1a进行高斯核卷积生成真值密度图，转换成灰度标签图像，公式为：s1b将原始图像和对应的灰度标签图像同时进行尺寸为576
×
768像素的随机裁剪和按照0.5的概率进行水平翻转；s1c将裁剪翻转的原始图像按照0.1的概率转换为灰度图像，再按照0.5的概率进行gamma校正和均值为[0.446139603853，0.409515678883，0.395083993673]、标准差为[0.288205742836，0.278144598007，0.283502370119]的归一化处理，最后将灰度标签图像像素值乘以255，获得预处理数据集。4.根据权利要求1所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述s2中，人群密度估计网络在raznet定位分支的基础上进行改进，网络构建包括前端模块、增大感受野模块和后端模块，前端模块采用带有bn层的vgg16_bn前10个卷积层、前10个bn层和前3个最大池化层，输出初始特征图；增大感受野模块采用空间金字塔池化，进行多尺度特征融合，增大特征图的感受野，提升对大尺度目标定位准确率；后端模块采用3个不连续的转置卷积层和4个不连续的3
×
3卷积层，转置卷积层的作用是降低特征通道维度和扩大特征图尺寸，将池化后的特征图还原为原图大小，为增加细节信息，将第3层、第5层和第9特征图分别与第20层、第17层和第14层特征图以拼接的方式进行特征融合，形成全局特征图。5.根据权利要求4所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述空间金字塔池化首先输入初始特征图，通过1
×
1卷积层将通道维度降低一半，得到特征图1；再通过5
×
5、9
×
9和13
×
13三种不同池化核和填充个数分别为2、4和6的池化层，得到三种相同尺寸的特征图2-4；将特征图1-4进行通道维度的拼接；通过1
×
1卷积层将拼接融合后的特征图通道数还原为空间金字塔池化层输入特征图的通道数，输出含有多尺度信息的特征图。6.根据权利要求1所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述s2中，稀疏训练前端模块中10个bn层的尺度因子添加l1正则项，使不重要的特征
图通道对应的bn层尺度因子在训练过程中逐渐趋近于0，为加快训练，将网络的前端模块预先训练好权重，其他模块权重随机初始化，采用adam优化算法更新权重，训练至模型损失不再下降，获得稀疏模型。l1正则化公式为：g(x)＝|x|网络的损失函数公式为：其中，公式(3)损失函数计算的第一项是正常的网络损失；第二项是尺度因子的正则化；γ是尺度因子；λ是l1正则项的惩罚系数，是一个超参数，用来平衡损失函数计算的两项，稀疏训练过程中λ设置为0.001。mse损失函数公式为：7.根据权利要求1所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述s3中，对稀疏模型进行剪枝和微调处理的步骤为：s3a设置剪枝的比例为0.7，统计所有bn层通道的总个数t，对所有bn层的γ取绝对值并按照从小到大排序，选取序列第0.7
×
t个作为剪枝阈值，根据剪枝阈值依次比较所有bn层的γ，记录γ小于剪枝阈值的通道索引；s3b按照记录的通道索引，删除bn层的部分权重，删除每个与bn层相邻卷积层的部分权重，得到新的模型权重文件；s3c根据每个卷积层和bn层剪枝的数量，修改卷积层的输入输出通道个数和bn层的通道个数，得到剪枝后模型；s3d剪枝后模型加载新的权重文件，输入训练集，进行重新训练至模型损失不再下降，得到微调后模型。8.根据权利要求1所述的视频监控场景下高精度低算量的人群密度估计方法，其特征在于，所述s4中，模型推理和生成热力图的步骤为：s4a读取检测视频，按照顺序将视频的每帧图像进行均值为[0.446139603853，0.409515678883，0.395083993673]、标准差为[0.288205742836，0.278144598007，0.283502370119]的归一化处理，然后将大图裁剪成n个576像素
×
768像素的小图(p0...pn)，裁剪边界不允许超出原图边界，若最后一次裁剪不足576像素
×
768像素，那么可以与之前裁剪的小图有重叠部分；s4b依次将小图(p0...pn)输入模型进行推理，推理结果输入s0ftmax激活函数，将推理结果映射到0到1之间，接着将n个小图的推理映射结果拼接成原始尺寸的预测图p0，对p0除以所有的小图像素点个数；s4c预测图p0进行平均池化处理得到预测图p1，提高尖点压缩噪声，然后对p1进行最大池化处理得到p2，比较p1和p2，若p1中像素值小于p2中对应位置像素值，则将p1中像素点置0，将p1中像素值小于0.5的像素点的像素值置0，得到p1上像素值为1的像素坐标(x，y)即为人头的位置坐标；
s4d将预测图p1上每个人头位置坐标点映射为一个圆形，圆心最热，热度向外递减，相邻圆形的叠加区域热度累加，生成人群密度热力图。

技术总结
本发明涉及深度学习在计算机视觉技术领域的应用，具体涉及一种视频监控场景下高精度低算量的人群密度估计方法，本发明选取标注人群场景数据集，进行数据集预处理；改进RAZNet网络结构，增大特征图感受野，将浅层细节特征与深层语义特征进行融合，提升多尺度人群密度估计的准确率；对稀疏模型进行剪枝和微调处理，去除冗余通道，并通过训练微调降低精度损失；根据优化模型推理结果生成人群密度热力图，进而显著提高推理速度和估计精度。进而显著提高推理速度和估计精度。进而显著提高推理速度和估计精度。

技术研发人员：程幸福刘金龙王永威
受保护的技术使用者：航天图景（北京）科技有限公司
技术研发日：2022.01.04
技术公布日：2023/7/22

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：问答的处理方法及装置与流程 下一篇：一种深槽隔离的SPAD像素单元的制作方法

一种视频监控场景下高精度低算量的人群密度估计方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种视频监控场景下高精度低算量的人群密度估计方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表