一种基于混合特征多模态分析的视频采集参数优化方法与流程

未命名 08-17 阅读：86 评论：0

1.本发明涉及图像通信技术领域，具体涉及一种基于混合特征多模态分析的视频采集参数优化方法。

背景技术：

2.在图像通信技术领域中，通常需要对待传输的视频流数据进行编码压缩，当需要对压缩后的视频流数据执行目标检测等任务时，不合理的视频压缩会影响yolo等目标检测器的性能，尤其在煤矿采煤工作面、煤矿掘进工作面等煤矿井下关键地点等光照不是非常理想的区域，暗部特征可能被过度压缩，从而影响目标检测的准确度。
3.针对roi进行编码的区域的码率分配可以缓解或杜绝上述问题，然而，对于掘进工作面等需要临时挂设拍摄的相机而言，由于设定合理的roi以及目标码率是一种十分抽象，难以培训操作人员设定合理参数的任务。因此需要一种基于混合特征多模态分析的视频采集参数优化方法，来来解决对图像通信过程中视频流编码压缩后影响目标检测器的性能的问题。

技术实现要素：

4.本发明提供一种基于混合特征多模态分析的视频采集参数优化方法，以解决现有的问题。
5.本发明的一种基于混合特征多模态分析的视频采集参数优化方法采用如下技术方案：本发明一个实施例提供了一种基于混合特征多模态分析的视频采集参数优化方法，该方法包括以下步骤：根据每个时间段内每个gop的i帧图像和p帧图像利用背景建模方法获得第一背景张量集合和第二背景张量集合；根据第一背景张量集合和第二背景张量集合获得每个时间段的扰动程度集合；对每个时间段的所有工序进行编码获得每个时间段的工序编码，对每个时间段的工序编码以及扰动程度集合进行降维得到每个时间段的综合特征码，对所有时间段的综合特征码进行聚类获得所有场景类型，根据所有场景类型所包含时间段内的所有i帧图像中目标的包围框获得最终遮罩图像，根据最终遮罩图像构建宏块树，根据宏块树获得所有宏块树区域；根据每个时间段内各帧图像上目标包围框覆盖每个宏块树区域的次数获得每个时间段各宏块树区域的检测权重，根据每个时间段内所有i帧图像在每个宏块树区域内的亮度均值获得每个时间段各宏块区域的代表亮度值；根据每个时间段的每个宏块树区域的检测权重以及每个宏块树区域的代表亮度值训练第一神经网络以及每个场景类型的权重识别网络；根据当前gop和前一个gop的i帧图像在每个宏块树区域内的亮度均值、第一神经网络以及权重识别网络获得当前gop中每个宏块树区域的最终检测权重；
获取p帧图像平均qp值，初始化最大qp值和最小qp值，根据最大qp值和最小qp值以及当前gop中每个宏块树区域的最终检测权重获得每个宏块树区域的qp值，计算所有宏块树区域的qp值的均值，记为的值；根据值与p帧图像平均qp值对最大qp值和最小qp值进行更新操作，获得每个宏块树区域的最终qp，根据每个宏块树区域的最终qp对视频进行编码，实现图像通信。
6.优选的，所述根据每个时间段内每个gop的i帧图像和p帧图像利用背景建模方法获得第一背景张量集合和第二背景张量集合，包括的具体步骤如下：将每个时间段内每个gop的i帧图像和p帧图像分别输入到目标检测网络中，目标检测网络所有卷积层输出的张量构成的集合分别记为i帧图像的特征张量集合和p帧图像的特征张量集合；分别将每个时间段内所有i帧图像的特征张量集合中具有相同序号的张量构成第一张量序列，将第一张量序列输入到背景建模算法中得到第一背景张量，所有第一背景张量构成的集合记为第一背景张量集合；分别将每个时间段内所有p帧图像的特征张量集合中具有相同序号的张量构成第二张量序列，将第二张量序列输入到背景建模算法中得到第二背景张量，所有第二背景张量构成的集合记为第二背景张量集合。
7.优选的，所述根据第一背景张量集合和第二背景张量集合获得每个时间段的扰动程度集合，包括的具体步骤如下：对于每个时间段，将第一背景张量集合和第二背景张量集合中的每两个元素的差异记为每个差异张量，每个差异张量逐通道取最大值得到的每个差异张量中所有最大值构成每个扰动程度，所有扰动程度构成的集合记为每个时间段的扰动程度集合。
8.优选的，所述对每个时间段的所有工序进行编码获得每个时间段的工序编码，包括的具体步骤如下：为每个工序对应一个比特值，将每个时间段包含的工序对应的比特值设置为1，不包含的工序对应的比特值设置为0，将每个时间段所有工序对应的比特值构成的编码记为每个时间段的工序编码。
9.优选的，所述根据所有场景类型所包含时间段内的所有i帧图像中目标的包围框获得最终遮罩图像，包括的具体步骤如下：每个场景类型包含的时间段内的所有视频帧依次输入到目标检测网络中得到若干包围框，每个包围框构成一个目标遮罩图，所述若干包围框对应的目标遮罩图进行叠加后进行二值化处理得到每个场景类型的场景遮罩图像，所有场景类型的场景遮罩图像进行或运算得到最终遮罩图像。
10.优选的，所述根据每个时间段内各帧图像上目标包围框覆盖每个宏块树区域的次数获得每个时间段各宏块树区域的检测权重，包括的具体步骤如下：所有宏块树区域从0开始计数，每个时间段内的视频流中每一帧依次输入到目标检测网络中得到的每一帧的包围框，当一帧的包围框结果覆盖了若干个宏块树区域时，被覆盖的宏块树区域计数自加1，所有宏块树区域的计数进行归一化处理后的结果作为每个时间段各宏块树区域的检测权重。
11.优选的，所述根据当前gop和前一个gop的i帧图像在每个宏块树区域内的亮度均
值、第一神经网络以及权重识别网络获得当前gop中每个宏块树区域的最终检测权重，包括的具体步骤如下：分别计算当前gop中i帧图像上所有宏块树区域的亮度均值，记为第一均值；将第一均值输入第一神经网络中，输出的场景类型记为第一场景类型，将第一均值输入到第一场景类型的权重识别网络中，输出当前gop所有宏块树区域的检测权重；获得当前gop的前一个gop的i帧图像上所有宏块树区域的亮度均值，记为第二均值，将第二均值输入到第一神经网络中，输出的场景类型记为第二场景类型，将第二均值输入到第二场景类型的权重识别网络中得到前一个gop所有宏块树区域的检测权重；当前gop每个宏块树区域的检测权重和前一个gop每个宏块树区域的检测权重中选取出最大值，所有宏块树区域对应得到的最大值作为当前gop所有宏块树区域的最终检测权重。
12.优选的，所述根据最大qp值和最小qp值以及当前gop中每个宏块树区域的最终检测权重获得每个宏块树区域的qp值，包括的具体步骤如下：其中为当前gop中第i个宏块树区域的qp值，为最小qp值，为最大qp值，为第i个宏块树区域的最终检测权重。
13.优选的，所述根据值与p帧图像平均qp值对最大qp值和最小qp值进行更新操作，获得每个宏块树区域的最终qp，包括的具体步骤如下：如果值小于gop的p帧图像平均qp值，则令最大qp值自减1，重新计算各个宏块树区域的qp以及值；如果值大于等于gop的p帧图像平均qp值，则令最小qp值自加1，重新计算各个宏块树区域的qp以及值；当调整最大qp值和最小qp值的数值前后，如果值由小于p帧图像平均qp值变为大于等于p帧图像平均qp值时，或者值由大于等于p帧图像平均qp值时变为小于等于p帧图像平均qp值时，则每个宏块树区域的qp的计算结束，此时获得每个宏块树区域的qp记为每个宏块树区域的最终qp。
14.优选的，所述所有宏块树区域是指宏块树中所有叶子节点对应的宏块区域。
15.本发明上述的技术方案至少具有如下有益效果：本发明基于目标检测网络张量的背景建模结果的差异和目标检测结果，结合工种信息自动对场景分类并建立宏块树，并动态分配宏块qp权重，考虑到了井下等静态视频监控中，由于大光比、工种需要导致人员来回走动等因素，使得传统码率控制方法无法很好地将合适的qp自动分配给重点区域的宏块进而致目标检测网络的检测性能下降的问题。本发明基于宏块级的qp控制，解决了有限码率下优先保证目标检测结果的性能的问题，克服了传统码率控制无法自动根据场景为目标检测网络分配分宏块qp的问题。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以
根据这些附图获得其他的附图。
17.图1为本发明的一种基于混合特征多模态分析的视频采集参数优化方法的步骤流程图。
具体实施方式
18.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于混合特征多模态分析的视频采集参数优化方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
19.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
20.下面结合附图具体的说明本发明所提供的一种基于混合特征多模态分析的视频采集参数优化方法的具体方案。
21.请参阅图1，其示出了本发明一个实施例提供的一种基于混合特征多模态分析的视频采集参数优化方法的步骤流程图，该方法包括以下步骤：步骤s101、获取视频流中不同类型视频帧，并根据不同类型视频帧获得特征张量集合。
22.在煤矿井下采煤过程中涉及到多种工种或工序，例如挂网、敲帮问顶、架设支护、割煤等工序。在煤矿井下采煤过程中为了实时监控工序和实时监测工作质量，需要对煤矿井下采煤过程进行实时在线监测，这个监测过程需要使用视频图像通信技术，因此首先构造一个图像通信模块，具体方法为：首先在煤矿井下面向掘进工作面部署多个相机，本实施例以部署11个相机为例进行叙述，这些相机以不同的视角来监控采煤过程，需要说明的是本实施例中相机采集的图像长宽相等且为偶数，便于后续处理；每个相机都安装通信模块，例如利用网线将井下的相机采集到视频流数据传输到矿井外面，然后利用wify模块将传输到矿井外面的视频流数据传输到监控端，实现远程图像通信和监测工作质量，其中监测工作质量需要使用目标检测器。
23.在常规的图像通信技术中需要对相机采集到视频流进行压缩，然而不合理的视频压缩会影响yolo等目标检测器的性能，尤其在煤矿采煤工作面、煤矿掘进工作面等煤矿井下关键地点等光照不是非常理想的区域，暗部特征可能被过度压缩，从而影响目标检测器的准确度。
24.针对roi进行编码的区域的码率分配可以缓解或杜绝上述问题，然而，对于掘进工作面等需要临时挂设拍摄的相机而言，由于设定合理的roi以及目标码率是一种十分抽象，难以培训操作人员设定合理参数的任务。因此需要一种基于混合特征多模态分析的视频采集参数优化方法。
25.本实施例通过自学习、自适应的方式，只需要实施者进行宽松的参数的设定（例如后续使用的qp最大值最小值、目标码率等参数），就可以提高煤矿井下各个关键地点的快速部署和采集效果，提高煤矿井下图像通信过程中视频流压缩效率和质量。
26.（1）首先每个相机采集到的视频流进行解码，抽取每个gop的i帧图像以及基于这个i帧图像持续解码到下一个i帧图像来临之前的p帧图像。
27.需要说明的是，gop是视频编码领域中常用的概念，gop即group of picture（图像组），指两个i帧图像之间的距离。由于每个gop是编码和解码的基本单位，即p帧图像是基于i帧图像持续恢复的，p帧图像没有完整画面数据，只有与前一帧的画面差别的数据，因此持续基于p帧图像进行编码会导致画质劣化，因此一般的编码配置中gop不高于200，本实施例中设置为50。
28.进一步需要说明的是，由于煤矿井下照明条件较差，因此会有较多的噪点，经过较低码率的编码后，噪点会导致画面质量进一步劣化，因此，无论码率如何，一个gop的i帧图像会比p帧图像拥有更保真的画面。即便如此，i帧图像和p帧图像都会存在一定程度的伪影和失真，一般情况下越暗的地方受到影响越严重，这也是导致目标检测算法在视频检测中难以保持高准确性的影响因素。因此，上述以一个gop为单位对适配进行解码，然后提取出i帧图像和p帧图像，从而代表压缩失真的情形。
29.至此，一个gop对应一个i帧图像和p帧图像，那么本实施例对于一个时间段内的视频流，其存在多个gop,那么一个时间段内得到多个i帧图像和p帧图像，本实施例以一个时间段等于3分钟为例进行叙述。
30.（2）训练一个目标检测网络，即目标检测器，本实施例的目标检测网络使用开源paddlepaddle框架提出的es-net为主干网络，使用pp-picohead为检测头，最终的网络结构称为picodet-l，是一种公开且广泛流行的，基于yolo原理的目标检测网络，本实施例不再赘述目标检测网络的具体结构。另外，本实施例所述目标检测网络为yolo的变种，即通过修改检测头、任务对齐机制、注意力机制、主干网络、激活函数等基于yolo检测原理的网络变种，例如yolox，picodet，efficientdet等，对于centernet、ssd等非yolo检测原理的网络，也适用于本实施例，对于非yolo检测原理的网络依然适用，因此实施者也可以选用其他的目标监检测网络。
31.需要说明的是，上述的目标检测网络输入是一张图像，输出是该图像中待检测目标的包围框，本实施例所述待检测目标包括挂网、支架等，训练该网络的数据集以及网络的训练方法均是公知常规的技术手段，本实施例不再赘述具体过程。
32.进一步需要说明的是，目标检测网络是一个卷积神经网络，除了卷积层操作外还存在注意力机制、shuffle机制等与单纯的卷积无关的操作，因此本实施例以目标检测网络中每个进行卷积操作后得到的张量进行索引编号，将前向传播时得到的张量按索引收集起来，构建成特征张量集合t。
33.一个时间段内得到多个gop，任意一个gop包含的i帧图像或p帧图像输入到目标检测网络中进行前向传播，将目标检测网络中第i个卷积层输出的张量记为，将目标检测网络中所有卷积层输出的张量构成的集合记为特征张量集合t，即每输入一个i帧图像或p帧图像即可得到每个i帧图像或p帧图像的一个特征张量集合t，其中就表示特征张量集合t中的第i个张量。需要说明的是张量其实是一个多个通道的图像，该图像上每个像素点对应多个通道，例如经常使用的rgb图像就是三个通道的张量，rgb图像上每个像素点对应r、g、b三个通道。
34.特征张量集合t代表了此时视频编码信息中，目标检测网络通过卷积操作所能提
取到的特征和响应大小。
35.至此一个时间段内得到多个gop,对应得到多个i帧图像和p帧图像，以及得到每个i帧图像的特征张量集合t以及每个p帧图像的特征张量集合t。
36.步骤s102、根据特征张量集合获得每个时间段的综合特征码。
37.（1）在任意一个时间段内，对于任意一个i帧图像的特征张量集合t，将该特征张量集合t中存在第i个张量，同时在该时间段内其他i帧图像也对应存在第i个张量，一个时间段内从多个i帧对应的特征张量集合t中获得一个张量的序列，记为一个时间段的第i个张量序列，这个张量序列就是该段时间内所有i帧图像在目标检测网络第i层对应的所有张量构成的序列，将这个张量序列输入到背景建模算法中，该算法也输出一个张量，记为，表示这个张量序列中的去除前景特征之后的背景特征信息，因此将也称为第一背景张量。
38.同理，根据一个时间段内所有i帧图像的特征张量集合t中每个相同序号处的多个张量获得一个时间段的所有张量序列，将所有张量序列分别输入到背景建模算法中，输出的结果构成的集合记为第一背景张量集合，即表示集合第i个元素，对应目标检测网络的第i个卷积层。
39.在该时间段内，对于任意一个p帧图像的特征张量集合t，将该特征张量集合t中存在第i个张量，同时在该时间段内其他p帧图像也对应存在第i个张量，一个时间段内从多个p帧对应的特征张量集合t中获得一个张量的序列，仍记为一个时间段的第i个张量序列，将这个张量序列输入到背景建模算法中，该算法输出记为，也是一个张量，称为第二背景张量。同理，根据一个时间段内所有p帧图像的特征张量集合t中每个相同序号处的多个张量获得一个时间段的所有张量序列，将所有张量序列分别输入到背景建模算法中，输出的结果构成的集合记为第二背景张量集合，即表示集合第i个元素，对应目标检测网络的第i个卷积层。
40.需要说明的是，本实施例使用的背景建模算法为基于高斯混合模型进行背景建模的方法，其中开源的opencv3代码库中的backgroundsubtractormog2方法提供了具体的实现过程，因此本实施例不再赘述背景建模算法的具体原理。当使用backgroundsubtractormog2方法进行背景建模时，该方法的history参数设置为该时间段的gop数量的一半，即针对一段时间内的特征张量进行尽可能长的建模，从而为包含整个时间段的压缩带来的特征张量的响应进行背景建模。
41.额外需要说明的是，常规的背景建模算法输入的是rgb图像，rgb图像实质上是三个通道的张量，本实施例中的特征张量集合t中的张量的通道数一般大于3，但依然可以作为背景建模算法的输入。
42.本实施例中上述的背景建模的目的在于，对于一段时间，由于画面中会存在工作中的工人，从而干扰对画质与张量之间的影响的分析，其次，背景建模能够避免图像高频噪声带来的误差，从而尽可能根据压缩导致的伪影来分析集合和之间的信息差异。
43.(2) 对于一个时间段，得到一个和一个，目标检测网络中任意一个卷积层在
和中分别对应的两个元素求差异，例如和中在目标检测网络的第i个卷积层对应的两个元素分别为和，与求差值再取绝对值，获得的结果就是和的差异记为差异张量，也是一个张量，即是一个有多个通道的图像，本实施例对上每个像素点在所有通道的取值进行线性归一化。由于中个数值取值范围不确定，数值是不均衡的，为了发现信息保真和失真之间该张量的响应受到的影响的相对大小，需要基于各个通道的数值范围对进行归一化，本实施例后续对归一化后的进行分析。
44.需要说明的是，差异张量中每个数值表示的误差大小，因此，对于差异张量，如果最大值较大，即差异张量中存在较大的异常响应，说明由于视频流中的图像的失真导致的不同的特征，目标检测网络通过卷积操作产生了不同的响应结果，而且根据卷积操作的传播作用，这个不同的响应可能会带给接下来的各层。
45.因此，依次获取差异张量中每个通道上的最大值，最终获得的最大值的个数等于的通道数，这些最大值构成按照通道位置排列构成一个向量，记为扰动程度，代表目标检测网络由于视频流中的图像的失真导致所捕捉到不同的特征的扰动程度。
46.至此，对于一个时间段，目标检测网络的第i个卷积层对应得到一个扰动程度，那么该时间段内目标检测网络的所有卷积层对应得到一个扰动程度集合e，即是扰动程度集合e的第i个元素。
47.（3）在一个时间段内，可能是空闲时间也可能是一种公众进行工作的时间，也有可能是包含了两个甚至多个施工工序，例如挂网、敲帮问顶、架设支护、割煤等工序，本实施例就以挂网、敲帮问顶、架设支护、割煤为例进行叙述，实施者根据具体施工情况添加其他工序，其中每个工序都对应着一个工种的繁忙情况，本实施例为了对施工的繁忙情况进行分析，需要对施工工序进行编码。
48.本实施例对挂网、敲帮问顶、架设支护、割煤四个工序进行编码，具体方法为：构建一个4比特的二进制数，这4个比特分别对应这四个工序，当人为的确认一个时间段存在这四个工序中的某个工序时，对应的比特位设置为1，不存在工序时对应比特位为0，例如当一个时间段内存在挂网，不存在其他工序时，编码结果为1000；当一个时间段内存在敲帮问顶、架设支护，不存在其他工序是编码结果为0110；将得到的编码记为工序编码。
49.进一步的，最近一周的煤矿开采过程的工作总时间进行均等分割成多个时间段，举例来说，例如一周7天，每天按12个小时工作时间进行计算，那么共有7*12*60分钟=5040分钟，由于每个时间段为3分钟，因此一周包含了5040/3=1680个时间段。
50.至此，最近一周包含多个时间段，对于一个相机，在一个时间段内，对应得到一个工序编码，表示该时间段内的繁忙情况；并且对于一个相机，在一个时间段还对应得到一个扰动程度集合e。将同一个相机在同一个时间段对应的工序编码以及扰动程度集合e中的元素进行首位拼接相连，构成一个高维向量，一周内所有相机的所有时间段对应的高维向量进行pca降维，每个时间段对应的高位向量降维之后的结果记为每个时间段的综合特征码。本实施例以将高维向量降维到12维为例进行叙述。
51.进行降维主要是考虑到扰动程度集合e表示的是视频流中的图像的失真导致所捕捉到扰动特征，工序编码表示的则是视频流中的图像所展示的工作繁忙情况，通过降维，可
以将多个时间段内不敏感的扰动特征和繁忙数据进行提剔除，并实现将扰动特征和工作繁忙情况进行统一度量空间的映射，便于对将扰动特征和工作繁忙情况进行后续的统一分析。
52.步骤s103、根据每个时间段的综合特征码获得各宏块树区域的检测权重以及每个宏块树区域的代表亮度值。
53.（1）获取所有相机在最近一周内所有时间段得到的综合特征码，对这些综合特征码进行聚类，得到多个类别，将类别中包含的综合特征码数量小于第一预设阈值th1的类别删除掉，这些删除掉的类别视为离群点，其中离群点的时间段不再参与后续处理，本实施例以th1=10为例进行叙述。
54.本实施例聚类算法使用的是dbscan算法，该算法是常用技术手段，本实施例不再赘述其工作原理，其中将dbscan算法中的minpts参数在本实施例设置为15进行叙述和实施。
55.同一个类别中的综合特征码连续分布在一起，表示具有相似和具有较大联系性的扰动特征和工作繁忙情况，而不同类别之间综合特征码具有明显的区别，表示具有不同的和相互不关联的联系性的扰动特征和工作繁忙情况。因此每个类别表示一种场景类型，即同一个场景类型下具有相似和具有较大联系性的扰动特征和工作繁忙情况。
56.同时可知一个场景类型对应包含多个综合特征码，也对应多个时间段。
57.对于一个场景类型中的某个时间段，该时间段对应的每个gop中i帧图像输入到目标检测网络中，该网络输出一个包围框，获取一个灰度值全为0的灰度图像，将该灰度图像内的且在该包围框内的像素灰度值设置为1，将该灰度图像记为该i帧图像的目标遮罩图。那么该场景类型中多个时间段对应的多个i帧图像输入目标检测网络后同理得到多个目标遮罩图，将这些目标遮罩图进行相加求和得到相加结果，对该相加结果进行二值化处理得到场景遮罩图像。其中相加结果进行二值化处理的具体方法为：当相加结果中的像素灰度值大于第二预设阈值th2时，将该像素灰度值设置为1，否则设置为0，从而得到一个二值图像，记为场景遮罩图像，本实施例以th2=5为例进行叙述。
58.对相加结果进行二值化处理目的在于，认为检测结果对应的区域在th2个时间段内出现过才能作为场景遮罩图像中为1的区域，由于视频编码可能会导致目标检测网络出现误检，即一个不存在对应物体的区域可能会偶尔被检测出包围框，实施者可以按需调整th2的大小，本实施例基于th2来保证一个区域中至少被检测出th2个才能拿标记为1。
59.至此，每个场景类型对应得到一个场景遮罩图像，每个场景类型借助进行阈值化处理可以避免生成该场景类型下错误的标记。将所有场景类型的场景遮罩图像进行或运算，得到一个最终遮罩图像。
60.进一步的，对最终遮罩图像进行宏块分割，具体方法为：将最终遮罩图像等分成4个方形区域，如果一个矩形区域中存在像素值为1的区域，进一步将该矩形区域再次等分成4个矩形区域，直到下次分割得到的矩形区域面积小于16
×
16时，不再分割。这个过程中生成了一种树状结构，记为宏块树，即最终遮罩图像中，根节点先等分割成四个区域，然后子节点根据父节点的区域继续等分割成四个区域。至此将最终遮罩图像分割得到了多个宏块，并构成一个宏块树。
61.需要说明的是，宏块是图像通信技术中视频编码处理的基本单元，通常宏块大小
为16x16个像素，称为大宏块，例如h265、h264、vp8等编码算法中，还会将大宏块自动划分为更小的宏块。在编码算法中，如果一个区域没有太多细节，可以控制宏块划分的大一些，如果有非常多的细节，就需要将宏块的大小控制得更小。然而对于井下环境，画面较暗的区域通常会被错误地划分为大宏块。
62.（2）场景类型是基于工种闲忙对于画质导致编码参数不合理，带来目标检测网络中的扰动来表示的综合特征的场景类型。因此，基于宏块树，对宏块树对应区域的平均亮度进行表示，可以代表场景类型的亮度和待检测区域的纹理特征。
63.那么，首先获得每个时间段各宏块树区域的检测权重w，具体方法为：对于一个时间段，获取宏块树的叶子节点所在的区域，这些区域内记为宏块树区域。所有宏块树区域从0开始计数，该时间段内的视频流中每一帧依次输入到目标检测网络中得到的每一帧的包围框，当一帧的包围框结果覆盖了若干个宏块树区域时，被覆盖的宏块树区域计数自加1。最终，所有宏块树区域的计数进行归一化处理，得到能够表示各个宏块树区域对于该时间段对应场景类型中各个区域中出现待检测物体特征的权重，简称为该时间段各宏块树区域的检测权重w。该值越大表示该时间段内各个区域检测出目标物体的可能性就大。对于每个时间段的视频流，都可以得到每个时间段各宏块树区域的检测权重w。
64.然后，基于宏块树区域，对一个时间段的画面亮度进行分析，得到时间段对应的亮度特征b。具体方法为：对于一个时间段的视频流，获取视频中的每个i帧图像，获取每个i帧图像的亮度图像，所述亮度是i帧图像在hls空间中l的分量，进一步的，先计每个i帧图像的亮度图像在每个宏块树区域内的所有像素灰度值的均值，记为每个宏块树区域在每个i帧图像上的亮度均值，一个时间段内多个i帧图像，对应获得每个宏块树区域在多个i帧图像上的亮度均值，这些亮度均值的中值作为每个宏块树区域的代表亮度值b。
65.至此，所有相机在每个时间段上得到了各宏块树区域的检测权重w以及每个宏块树区域的代表亮度值b。其中w可以对检测结果的分布有针对性地进行码率的优先级权重的计算， b可以减小描述一个场景类型所需的计算量。
66.步骤s104、根据每个时间段的每个宏块树区域的检测权重以及每个宏块树区域的代表亮度值获得第一神经网络以及每个场景类型的权重识别网络。
67.对所有的场景类型进行one-hot编码，获得每个场景类型的编码结果。构建第一神经网络，第一神经网络是全连接网络结构，本实施例以将第一神经网络设计为5个有隐藏层为例进行叙述，具体的设计全连接网络的方法是常用技术手段，本实施例不再具体赘述。该网络的输入是每个时间段所有宏块树区域的代表亮度值b，即第一神经网络的输入层神经元个数等于宏块树区域数量，第一神经网络的输出为场景类型，即第一神经网络的输出层神经元个数为场景类型个数。训练第一神经网络的数据集为：以每个时间段的所有宏块树区域的代表亮度值b为一个样本，每个时间段对应的场景类型的编码结果作为样本的标签，那么所有相机在所有时间段得到的所有样本和标签构成了训练第一神经网络的数据集；利用这个数据集，使用交叉熵损失函数训练第一神经网络。
68.为任意一个场景类型构建一个全连接神经网络，记为该场景类型的权重识别网络，该网络的输入是该场景类型对应的每个时间段的所有宏块树区域的代表亮度值b，即该场景类型的权重识别网络输入层的神经元个数为宏块树区域数量，输出为该场景类型对应的每个时间段的所有宏块树区域的检测权重w。训练该场景类型的权重识别网络的数据集
的构建方法为：以该场景类型中每个时间段的所有宏块树区域的代表亮度值b为一个样本，该场景类型中每个时间段所有宏块树区域的检测权重w作为样本的标签，那么该场景类型中所有时间段得到的所有样本和标签构成了训练权重识别网络的数据集，利用这个数据集，使用均方差损失函数训练该场景类型的权重识别网络。
69.同理训练得到所有场景类型的权重识别网络，不同场景类型的权重识别网络的网络结构保持相同。同样，由于全连接网络的方法是常用技术手段，本实施例不再对权重识别网络进行赘述。
70.至此，根据历史上最近一周的历史视频数据，获得了一个第一神经网络，以及每个场景类型的权重识别网络。
71.步骤s105、根据第一神经网络和每个场景类型的权重识别网络获得当前有宏块树区域的最终检测权重，根据最终检测权重获得各宏块树区域的qp值并进行视频编码传输。
72.（1）在煤矿开采中，实时的获取每个相机输出的视频流，并将视频流进行传输，在实时获得的视频流传输之前，当前视频流中gop数据的i帧图像是达到时，分别计算该i帧图像上所有宏块树区域的亮度均值；然后这里得到的所有宏块树区域的亮度均值输入第一神经网络中，输出场景类型d1，作为当前gop的场景类型；进一步再将这里得到的所有宏块树区域的亮度均值输入到场景类型d1的权重识别网络中，输出所有宏块树区域预测出的检测权重，记为当前gop所有宏块树区域的检测权重。
73.同理，分别获得当前gop的前一个gop的i帧图像上所有宏块树区域的亮度均值，将该i帧图像上所有宏块树区域的亮度均值输入到第一神经网络中得到前一个gop的场景类型，进而将该i帧图像上所有宏块树区域的亮度均值输入到前一个gop的场景类型对应的权重识别网络中得到前一个gop的所有宏块树区域预测出的检测权重，记为前一个gop所有宏块树区域的检测权重。
74.由于一个时段内可能会有多个场景类型的切换，或一个场景类型的代表亮度值b处于先前训练集数据集的长尾区域，可能会导致权重特征w的预测错误，因此，当新的gop到达，两个gop之间发生类别的切换时，基于新的gop的亮度特征b进行如下处理：由于前一个gop的场景类型和当前gop的场景类型不同，需要同时基于前一个gop的场景类型和当前gop的场景类型为当前的所有宏块树区域预测检测权重，具体为，当前gop每个宏块树区域的检测权重和前一个gop每个宏块树区域的检测权重中选取出最大值，那么所有宏块树区域对应得到的最大值作为当前gop所有宏块树区域的最终检测权重。
75.（2）当前gop所有宏块树区域的最终检测权重进行softmax归一化处理。接下来对当前gop进行码率控制。
76.需要说明的是，因为井下的场景类型一般为静态的，本实施例面向的码率控制方法为qp（quantization parameter）控制。本实施例以openh264为例，结合宏块树区域，对视频编码gop的p帧图像中，进行宏块级的qp干预。具体方法为：首先实施者给定理想的最小qp值、最大qp值以及目标码率，qp越大，量化失真越明显，反之画面质量越好。本实施例的最小qp值为19，最大qp值初始化为40，视频流分辨率为2560*1440，帧率15fps，目标码率为2mbps，gop大小为50帧。
77.对于h264编码而言，通常认为qp达到19时，画面观感与原始图像几乎无异，具体体现在压缩带来的块效应和伪影极不明显甚至不存在，对于目标检测而言，适合输入这种质
量的画面。
78.对于当前gop，若当前gop是第一个gop，本发明通过abr码率控制，并得到gop的p帧图像平均qp值，具体为：首先，对于刚开始编码的情况，即没有前一个gop时，使用abr进行时长为一个gop的码率控制，其中，控制i帧图像的qp为最小qp值。此时的p帧图像各宏块的qp受到i帧图像大小的影响，以及非常低的平均码率（2mbps），qp值会远高于i帧图像的qp值，例如qp可能会达到35。获取当前gop中p帧图像平均qp值，这里的p帧图像的平均qp值的获取方法是qp（quantization parameter）控制方法中的公开技术，本实施例不再赘述，这个gop的p帧图像平均qp值会在以后的编码中永久使用。
79.这样，当前gop是第一个gop之后的下一个gop时，当前gop中各个宏块树区域的qp，可以根据当前gop所有宏块树区域的最终检测权重进行如下调整，从而实现动态调整宏块级qp的值，保障目标检测的准确性，以及整体视频流的码率合理控制：对于当前gop中的每个宏块树区域，各宏块树区域的qp进行分配：第i个宏块树区域的qp的计算方式为：其中i为宏块树区域的索引，为当前gop中第i个宏块树区域的qp值，表示最小qp值，初始化为19，表示最大qp值，初始化为40；为第i个宏块树区域的最终检测权重。
80.获得当前gop中所有宏块树区域的qp值的均值，简称为当前gop的值。
81.按照当前gop中所有宏块树区域的qp值的均值对和进行更新操作，具体方法为：如果值小于gop的p帧图像平均qp值，则令自减1，按照上述公式重新计算各个宏块树区域的qp以及值。如果值大于等于gop的p帧图像平均qp值，则令自加1，按照上述公式重新计算各个宏块树区域的qp以及值。由于一开始计算只存在一种情况，即值小于gop的p帧图像平均qp值或值大于等于gop的p帧图像平均qp值，因此，当调整、的数值前后，如果值由小于p帧图像平均qp值变为大于等于p帧图像平均qp值时，或者值由大于等于p帧图像平均qp值时变为小于等于p帧图像平均qp值时，则认为每个宏块树区域的qp的计算结束，此时获得每个宏块树区域的qp记为每个宏块树区域的最终qp；否则的话一直重复对和的更新操作，直至得到。每个宏块树区域的最终qp。
82.至此，可以根据各个宏块树区域的最终qp进行后续的编码，从而达到动态调整宏块级qp的值的效果，将编码后的视频流进行传输。
83.其中根据宏块树区域的最终qp进行编码是视频编码中常规技术，本实施例不再赘述。
84.对于已经有前一个gop，且施行了上述的步骤，实时获得下一个gop时，和的值依然初始化围为19和40。然后仍然按照gop的p帧图像平均qp值对和进行更新操作，获得下一个gop中每个宏块树区域的最终qp，并进行后续的编码，将编码后
的视频流进行传输，依次类推，从而完成实时的图像通信过程。
85.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，该方法包括以下步骤：根据每个时间段内每个gop的i帧图像和p帧图像利用背景建模方法获得第一背景张量集合和第二背景张量集合；根据第一背景张量集合和第二背景张量集合获得每个时间段的扰动程度集合；对每个时间段的所有工序进行编码获得每个时间段的工序编码，对每个时间段的工序编码以及扰动程度集合进行降维得到每个时间段的综合特征码，对所有时间段的综合特征码进行聚类获得所有场景类型，根据所有场景类型所包含时间段内的所有i帧图像中目标的包围框获得最终遮罩图像，根据最终遮罩图像构建宏块树，根据宏块树获得所有宏块树区域；根据每个时间段内各帧图像上目标包围框覆盖每个宏块树区域的次数获得每个时间段各宏块树区域的检测权重，根据每个时间段内所有i帧图像在每个宏块树区域内的亮度均值获得每个时间段各宏块区域的代表亮度值；根据每个时间段的每个宏块树区域的检测权重以及每个宏块树区域的代表亮度值训练第一神经网络以及每个场景类型的权重识别网络；根据当前gop和前一个gop的i帧图像在每个宏块树区域内的亮度均值、第一神经网络以及权重识别网络获得当前gop中每个宏块树区域的最终检测权重；获取p帧图像平均qp值，初始化最大qp值和最小qp值，根据最大qp值和最小qp值以及当前gop中每个宏块树区域的最终检测权重获得每个宏块树区域的qp值，计算所有宏块树区域的qp值的均值，记为的值；根据值与p帧图像平均qp值对最大qp值和最小qp值进行更新操作，获得每个宏块树区域的最终qp，根据每个宏块树区域的最终qp对视频进行编码，实现图像通信。2.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述根据每个时间段内每个gop的i帧图像和p帧图像利用背景建模方法获得第一背景张量集合和第二背景张量集合，包括的具体步骤如下：将每个时间段内每个gop的i帧图像和p帧图像分别输入到目标检测网络中，目标检测网络所有卷积层输出的张量构成的集合分别记为i帧图像的特征张量集合和p帧图像的特征张量集合；分别将每个时间段内所有i帧图像的特征张量集合中具有相同序号的张量构成第一张量序列，将第一张量序列输入到背景建模算法中得到第一背景张量，所有第一背景张量构成的集合记为第一背景张量集合；分别将每个时间段内所有p帧图像的特征张量集合中具有相同序号的张量构成第二张量序列，将第二张量序列输入到背景建模算法中得到第二背景张量，所有第二背景张量构成的集合记为第二背景张量集合。3.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述根据第一背景张量集合和第二背景张量集合获得每个时间段的扰动程度集合，包括的具体步骤如下：对于每个时间段，将第一背景张量集合和第二背景张量集合中的每两个元素的差异记为每个差异张量，每个差异张量逐通道取最大值得到的每个差异张量中所有最大值构成每个扰动程度，所有扰动程度构成的集合记为每个时间段的扰动程度集合。
4.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述对每个时间段的所有工序进行编码获得每个时间段的工序编码，包括的具体步骤如下：为每个工序对应一个比特值，将每个时间段包含的工序对应的比特值设置为1，不包含的工序对应的比特值设置为0，将每个时间段所有工序对应的比特值构成的编码记为每个时间段的工序编码。5.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述根据所有场景类型所包含时间段内的所有i帧图像中目标的包围框获得最终遮罩图像，包括的具体步骤如下：每个场景类型包含的时间段内的所有视频帧依次输入到目标检测网络中得到若干包围框，每个包围框构成一个目标遮罩图，所述若干包围框对应的目标遮罩图进行叠加后进行二值化处理得到每个场景类型的场景遮罩图像，所有场景类型的场景遮罩图像进行或运算得到最终遮罩图像。6.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述根据每个时间段内各帧图像上目标包围框覆盖每个宏块树区域的次数获得每个时间段各宏块树区域的检测权重，包括的具体步骤如下：所有宏块树区域从0开始计数，每个时间段内的视频流中每一帧依次输入到目标检测网络中得到的每一帧的包围框，当一帧的包围框结果覆盖了若干个宏块树区域时，被覆盖的宏块树区域计数自加1，所有宏块树区域的计数进行归一化处理后的结果作为每个时间段各宏块树区域的检测权重。7.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述根据当前gop和前一个gop的i帧图像在每个宏块树区域内的亮度均值、第一神经网络以及权重识别网络获得当前gop中每个宏块树区域的最终检测权重，包括的具体步骤如下：分别计算当前gop中i帧图像上所有宏块树区域的亮度均值，记为第一均值；将第一均值输入第一神经网络中，输出的场景类型记为第一场景类型，将第一均值输入到第一场景类型的权重识别网络中，输出当前gop所有宏块树区域的检测权重；获得当前gop的前一个gop的i帧图像上所有宏块树区域的亮度均值，记为第二均值，将第二均值输入到第一神经网络中，输出的场景类型记为第二场景类型，将第二均值输入到第二场景类型的权重识别网络中得到前一个gop所有宏块树区域的检测权重；当前gop每个宏块树区域的检测权重和前一个gop每个宏块树区域的检测权重中选取出最大值，所有宏块树区域对应得到的最大值作为当前gop所有宏块树区域的最终检测权重。8.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述根据最大qp值和最小qp值以及当前gop中每个宏块树区域的最终检测权重获得每个宏块树区域的qp值，包括的具体步骤如下：其中为当前gop中第i个宏块树区域的qp值，为最小qp值，为最大qp值，为第i个宏块树区域的最终检测权重。9.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其
特征在于，所述根据值与p帧图像平均qp值对最大qp值和最小qp值进行更新操作，获得每个宏块树区域的最终qp，包括的具体步骤如下：如果值小于gop的p帧图像平均qp值，则令最大qp值自减1，重新计算各个宏块树区域的qp以及值；如果值大于等于gop的p帧图像平均qp值，则令最小qp值自加1，重新计算各个宏块树区域的qp以及值；当调整最大qp值和最小qp值的数值前后，如果值由小于p帧图像平均qp值变为大于等于p帧图像平均qp值时，或者值由大于等于p帧图像平均qp值时变为小于等于p帧图像平均qp值时，则每个宏块树区域的qp的计算结束，此时获得每个宏块树区域的qp记为每个宏块树区域的最终qp。10.根据权利要求1所述的一种基于混合特征多模态分析的视频采集参数优化方法，其特征在于，所述所有宏块树区域是指宏块树中所有叶子节点对应的宏块区域。

技术总结
本发明涉及图像通信技术领域，具体涉及一种基于混合特征多模态分析的视频采集参数优化方法，包括：根据每个时间段内每个GoP的I帧图像和P帧图像获得每个时间段的扰动程度集合，根据扰动程度集合和工序编码获得综合特征码，根据综合特征码获得场景类型以及获得宏块树区域，获得各宏块树区域的检测权重以及各宏块区域的代表亮度值并进一步获得当前GoP中每个宏块树区域的最终检测权重，根据最终检测权重获得每个宏块树区域的最终QP，根据每个宏块树区域的最终QP对视频进行编码，实现图像通信。本发明解决了有限码率下优先保证目标检测结果的性能的问题，克服了传图像通信中统码率控制无法自动根据场景为目标检测网络分配分宏块QP的问题。宏块QP的问题。宏块QP的问题。

技术研发人员：顾军康亚飞张恩明赵金升
受保护的技术使用者：华洋通信科技股份有限公司
技术研发日：2023.07.18
技术公布日：2023/8/16

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种提高干细胞治疗能力的制剂的制作方法 下一篇：一种基于行业异构云环境下的多形态应用上云方法与流程

一种基于混合特征多模态分析的视频采集参数优化方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于混合特征多模态分析的视频采集参数优化方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表