一种基于神经网络的用于压缩视频质量增强的方法

未命名 07-14 阅读：100 评论：0

1.本发明涉及视频压缩编码领域，涉及hevc压缩视频后处理技术中压缩视频质量增强方法。

背景技术：

2.近年来，视频业务快速发展，对高分辨率和高清晰度的需求不断提高。特别是新兴的视频应用，如8k视频、全景视频、虚拟现实(vr)视频等，给视频编码和传输带来了巨大挑战。在视频编码过程中，以h.264，hevc，vvc为代表的基于块的视频编码标准由于采用了有损压缩技术，往往产生压缩噪声，导致输出的视频画面有伪影，降低视频体验质量。具体而言，原始视频在经过视频编码标准压缩后生成相对原始视频质量较低的视频帧，具体表现为在原始视频编码过程中需要量化变换系数以压缩数据量，在解码环节进行反量化进行解码，量化造成的信息损失导致经过视频编码标准处理过后的视频质量与原始视频质量存在差距。在早期时候，为提高视频质量，对单个压缩图像的压缩伪影去除或者质量增强进行大量研究，这些传统方法一般通过优化特定压缩标准的变化系数来增强视频帧质量,很难拓展到其它压缩方案。
3.随着深度神经网络的发展，基于深度学习的压缩视频质量增强方法不断出现，这些方法通过学习原始视频和压缩视频间的非线性映射，从大量训练数据中回归无伪影视频帧，获得了显著的效果。具体而言，通过设计网络模型，利用视频帧时间和空间上信息的相关性，对压缩后的视频帧进行信息补偿，以达到减少或者去除压缩视频伪影的目的。

技术实现要素：

4.本发明的目的在于，针对被视频压缩标准压缩后的视频质量下降的问题，提出了一种基于神经网络的用于压缩视频质量增强的方法。
5.为实现上述目的，本发明采用如下的技术方案：
6.基于神经网络的用于压缩视频质量增强的方法，包含以下内容：
7.步骤1：构建用于训练和测试的压缩视频数据集
8.从数据中收集多个具有不同分辨率和内容的未压缩视频用于训练。选取视频编码联合协作团队发布的18个未压缩视频用于视频质量评估。用h.265/hevc参考软件hm16.5压缩上述所有视频，压缩在4个不同的量化参数(qps)下进行，qps分别等于37，32，27，22。
9.步骤2：构建时空信息预提取网络模块
10.用基于“encoder-decoder”思想进行该网络模块的构建，其特征在于，网络具体包括预提取部分，编码部分和解码部分。预提取部分设置为一层卷积核为7
×5×
5的3d卷积层，网络每次输入7帧连续的视频帧，将3d卷积核的第1个维度设置为7，使其在时间维度上提取连续视频帧的信息，将3d卷积核的第2和第3个维度设置为5，使其在空间维度上提取视频帧的信息。预提取层的卷积核具有较大的感受野，可以大范围捕获输入视频帧的时序信息和空间信息。编码部分设计了3次下采样操作。将预提取部分提取到的时空特征图在空间
上进行下采样操作，每次下采样操作后，特征图的高和宽各减少一半，下采样操作用于提取输入帧底层特征并增大卷积核的感受野。下采样操作具体实现为：每个下采样模块由2个卷积核为3
×3×
3的3d卷积层组成，第1个卷积运算的跨步步长设置为(1,2,2)，通过卷积运算跨步的方式减少特征图的空间尺寸，并保持特征图的时间尺寸不变。第2个卷积运算的跨步步长为(1,1,1)，用于提取第1个卷积运算下采样后得到的特征信息。解码部分设计了3次上采样操作和2次跳跃连接。通过上采样操作将抽象的特征还原到输入视频帧的尺寸。通过跳跃连接合并通道，将具有相同空间分辨率的特征从底层连接到深层，使浅层特征的局部信息到达输出。上采样操作和跳跃连接的具体实现为：设置3层卷积核为3
×4×
4的转置卷积层，卷积运算的跨步步长设置为(1,2,2)，在第1次和第2次转置卷积后通过跳跃连接分别合并第3次和第2次下采样之后得到的特征图，在每个转置卷积层之后设置一层卷积核为3
×3×
3的3d卷积层用于提取合并特征图的信息。
11.步骤3：构建时空信息融合网络模块
12.时空信息融合网络模块对时空信息预提取网络中提取到的时空信息进行充分的挖掘，其特征在于包括5个时空分解融合模块。时空分解融合模块的关键在于：对输入的连续视频帧特征图在时间域上进行分割，然后在空间域上对每帧特征图单独进行信息提取，最后将分割的特征图在时域上重新拼接。时空分解融合模块按顺序设置为1层卷积核为1
×1×
1的3d卷积层，1层归一化层，3层卷积核为3
×
3的2d卷积层，1个通道注意力模块和1层卷积核为3
×1×
1的3d卷积层和1层卷积核为1
×1×
1的3d卷积层。通道注意力模块设置为1个自适应池化层和1个卷积核为1
×
1的2d卷积层，对于每个通道，自适应地计算其所有元素的平均值作为该通道的特征重要性得分，通过1
×
1的2d卷积层提取分数特征，将得到的分数特征与输入特征图元素相乘，得到加权特征图。时空分解融合模块的具体实现为：在特征图经过第1层卷积后，在时间维度上将特征图分割成7份。每份特征图先经过一层归一化层用来稳定训练过程，再经过3个卷积核为3
×
3的2d卷积层，通道注意力模块，在空间域上单独对每帧视频进行信息增强，最后将分割的7帧特征图在时间维度上进行拼接，经过1层卷积核为3
×1×
1的3d卷积在空域上对时空信息进行融合，最后通过1层卷积核为1
×1×
1的3d卷积输出增强信息，每个时空分解融合模块首尾相连，用来加速网络收敛过程。
附图说明
13.图1是本发明中基于神经网络的用于压缩视频质量增强的方法的整体流程示意图。
14.图2是本发明中时空信息预提取网络模块流程示意图。
15.图3是本发明中时空信息融合网络模块流程示意图。
具体实施方式
16.本发明主要实现对压缩视频进行质量增强，下面将结合附图详细介绍本发明采用的具体方法。
17.具体而言，基于神经网络的用于压缩视频质量增强的方法的整体流程如附录图1所示，包括以下步骤。s1:构建用于网络训练的压缩视频数据集。s2:构建时空信息预提取网络。s3:构建时空信息融合网络。s4:端到端训练时空信息预提取网络和时空信息融合网络
并测试。
18.(1)对于s1:构建用于网络训练的压缩视频数据集。
19.数据集来自于两个数据库xiph((xiph.org))和vqeg，从中总共收集了126个具有不同分辨率和内容的未压缩视频用于验证。通过h.265/hevc参考软件hm16.5压缩上述所有视频，压缩在4个不同的量化参数(qps)下进行，qps分别等于37，32，27，22。将压缩后的视频帧的亮度通道即y分量转化成lmdb格式进行读取，将视频帧随机进行翻转，旋转达到增强数据的目的，将压缩后的视频帧和对应的未压缩视频帧切割成128
×
128的子视频帧形成视频帧对用于训练。
20.(2)对于s2:构建时空信息预提取网络。
21.时空信息预提取网络见附录图2。将连续7帧像素尺寸为128
×
128的视频帧输入第一层卷积核为7
×5×
5的3d卷积层，输入通道的尺寸为1，表示输入视频帧的y分量，经过第一层卷积后，将输出通道扩展到32去学习更加丰富的特征。然后经过连续的3层下采样模块，每个下采样模块由2个卷积核为3
×3×
3的3d卷积层组成，第1个卷积运算的跨步步长为(1,2,2),用于下采样。经过3次下采样之后，视频帧的尺寸依次变为64
×
64，32
×
32，16
×
16。第2个卷积运算的跨步步长为(1,1,1)，用于提取第一个卷积运算下采样后得到的视频帧信息。下采样过程中输入通道数和输出通道数始终保持32不变。经过连续的3次下采样之后，开始进行上采样运算，连续的3次上采样过程由转置转积完成，转置转积的卷积核为3
×4×
4，卷积运算的跨步步长(1,2,2)，第1个上采样运算之后视频帧的输入尺寸变为32
×
32，然后将该层特征图与第3次下采样后的特征图在输出通道上进行拼接，使输出通道即下一层的输入通道变成64，第二次上采样过程首先经过1层卷积核为3
×3×
3的3d卷积层，卷积运算的跨步步长为(1,1,1),输入通道数设置为64，输出通道数设置为32，该卷积层用于提取第3次下采样和第1次上采样拼接特征图的特征，然后经过转置卷积将视频帧尺寸升为64
×
64，将该层特征与第2次下采样的特征图在输出通道上进行拼接，使输出通道即下一层的输入通道变成64，第三次上采样经过1层卷积核为3
×3×
3的3d卷积层和一层转置卷积将视频帧尺寸还原到128
×
128，最后经过1层卷积核为3
×3×
3的3d卷积层输出中间特征。其中，除了网络最后一层3d卷积，每个卷积层后面都加了非线性激活层(leakyrelu层)用于给网络中加入非线性特征。
22.(3)对于s3:构建时空信息融合网络。
23.时空信息融合网络由5个附录图3所示的时空分解融合模块串联形成。时空信息融合网络的作用是对时空信息预提取网络提取到的时空信息进行融合。将时空信息预提取网络输出的中间特征送入时空分解融合模块，时空分解融合模块中卷积层的输入通道数和输出通道数始终保持为32。中间特征先经过一层卷积核为1
×1×
1的3d卷积层，然后在时间维度上将该层输出的特征图分割成7份得到7帧特征图。将每帧特征图依次送入层归一化层，3个卷积核为3
×
3的2d卷积层和通道注意力模块。通道注意力模块由一层自适应池化层和一个卷积核为1
×
1的2d卷积层组成。时空分解融合模块中的层归一化层，2d卷积层和通道注意力模块中的参数是共享的，被分割的7帧特征图在这些参数共享的卷积层中做一样的特征处理。最后，将分割的7帧视频在时间维度上进行拼接，经过一层卷积核为3
×1×
1的3d卷积在空域上对信息进行融合，通过一层卷积核为1
×1×
1的3d卷积输出信息，每个时空分解融合模块首尾相连。中间特征经过5次时空分解融合模块进行时空信息融合之后，再经过附
录图1中用于合并输出通道特征的卷积核为3
×1×
1的3d卷积核进行输出通道的合并，该层输入通道数为32，输出通道数为1，通过运算移除该层输出通道所在维度，得到7个特征张量，将这7个特征张量拼接到新的输出通道上，输出通道数变为7，然后再经过一层卷积核大小为1
×
1的2d卷积用于合并时间通道，该层输入通道数为7，输出通道数为1，最后，将该层得到的输出与原始输入的7帧连续视频帧的中间帧相加得到质量增强后的特征图。其中，除了网络最后一层3d卷积和通道注意力模块，每个卷积层后面都加了非线性激活层(leakyrelu层)用于给网络中加入非线性特征。
24.(4)对于s4:端到端训练时空信息预提取网络和时空信息融合网络
25.在训练的时候，分别从原始视频和压缩视频中随机裁剪128
×
128大小的视频帧作为训练样本，旋转或者翻转样本进行数据增强并使用adam优化器训练所有的模型。在4个qp(22、27、32、37)值下训练模型并进行测试，在qp等于37时，学习率设置为0.0005并在整个训练过程中保持不变，在qp等于22、27和32时，将学习率设置为0.0003并在整个训练过程中保持不变。网络训练的batch_size设置为16，总归迭代30万次，将总的损失函数设置为增强目标帧与对应的没有经过压缩的原始视频帧之间的平方误差之和。训练完成后，在18个测试视频上进行测试，测试结果如表1所示，class a到class分别表示视频帧的分辨率为2560
×
1600，1920
×
1080，832
×
480，416
×
240和1270
×
720。基于表1的实验数据分析，经过本发明方法增强后的视频帧在峰值信噪比psnr和结构相似性ssim上得到一定提升。
26.表1：在4个不同qp的测试视频上的
△
psnr/
△
ssim
27.[0028][0029]
以上具体实施方式仅用于说明本发明的技术方案，而非对其限制。本领域的技术人员应当理解：上述实施方式并不以任何形式限制本发明，凡采用等同替换或等效变换等方式所取得的相似技术方案，均属于本发明的保护范围。

技术特征：
1.一种基于神经网络的用于压缩视频质量增强的方法，其特征在于：包括如下步骤：第一：训练和测试的压缩视频数据集；1.1、从数据库中收集多个具有不同分辨率和内容的未压缩视频用于训练；选取视频编码联合协作团队发布的多个未压缩视频用于视频质量评估；1.2、用h.265/hevc参考软件hm16.5压缩上述所有视频，压缩在4个不同的量化参数qps下进行，qps分别等于37，32，27，22；1.3、将未压缩视频帧和压缩后视频帧的亮度通道即y分量转化成lmdb格式用作训练数据集，将视频帧随机进行翻转，旋转达到增强数据的目的；将压缩后的视频帧和对应的未压缩视频帧切割成128
×
128的子视频帧形成视频帧对用于训练；测试视频不做转化处理，直接提取18个测试视频的未压缩视频帧和压缩后视频帧y分量用作测试；第二：时空信息预提取网络；2.1、用基于“encoder-decoder”思想进行构建该网络模块，具体包括预提取部分，编码部分和解码部分，利用3d卷积层对特征图在时空维度上进行编解码，同时在时空维度上提取特征图底层特征和深层特征；2.2、预提取部分设置为一层卷积核为7
×5×
5的3d卷积层，网络每次输入7帧连续的视频帧，将3d卷积核的第1个维度设置为7，使其在时间维度上提取连续视频帧的信息，将3d卷积核的第2个和第3个维度设置为5，使其在空间维度上提取视频帧的信息；2.3、编码部分设计了3次下采样操作；将预提取部分提取到的时空特征图在空间上进行下采样操作，每次下采样操作后，特征图的高和宽各减少一半，下采样操作用于提取输入帧底层特征并增大卷积核的感受野；下采样操作的具体实现为：每个下采样模块由2个卷积核为3
×3×
3的3d卷积层组成，第1个卷积运算的跨步步长设置为(1,2,2)，通过卷积运算跨步的方式减少特征图的空间尺寸，并保持特征图的时间尺寸不变；第2个卷积运算的跨步步长为(1,1,1)，用于提取第1个卷积运算下采样后得到的特征信息；2.4、解码部分设计了3次上采样操作和2次跳跃连接；通过上采样操作将抽象的特征还原到输入视频帧的尺寸；通过跳跃连接合并通道，将具有相同空间分辨率的特征从底层连接到深层，使浅层特征的局部信息到达输出；上采样操作和跳跃连接的具体实现为：设置3层卷积核为3
×4×
4的转置卷积层，卷积运算的跨步步长设置为(1,2,2)，在第1次和第2次转置卷积后通过跳跃连接分别合并第3次和第2次下采样之后得到的特征图，在每个转置卷积层之后设置一层卷积核为3
×3×
3的3d卷积层用于提取合并特征图的信息；第三：时空信息融合网络；3.1、时空信息融合网络模块对时空信息预提取网络中提取到的时空信息进行挖掘，包括5个时空分解融合模块；3.2、时空分解融合模块的关键在于：对输入的连续视频帧特征图在时间域上进行分割，然后利用2d卷积层在空间域上对每帧特征图单独进行信息提取，最后将分割的特征图在时域上重新拼接；3.3、时空分解融合模块按顺序设置为1层卷积核为1
×1×
1的3d卷积层，1层归一化层，3层卷积核为3
×
3的2d卷积层，1个通道注意力模块和1层卷积核为3
×1×
1的3d卷积层和1层卷积核为1
×1×
1的3d卷积层；3.4、通道注意力模块按顺序设置为1层自适应池化层和1层卷积核为1
×
1的2d卷积层，
对于每个通道，自适应地计算其所有元素的平均值作为该通道的特征重要性得分，通过1
×
1的2d卷积层提取分数特征，将得到的分数特征与输入特征图元素相乘，得到加权特征图；3.5、时空分解融合模块的具体实现为：在特征图经过第1层卷积后，在时间维度上将特征图分割成7份；每份特征图先经过一层归一化层用来稳定训练过程，再经过3个卷积核为3
×
3的2d卷积层，通道注意力模块，在空间域上单独对每帧视频进行信息增强，最后将分割的7帧特征图在时间维度上进行拼接，经过1层卷积核为3
×1×
1的3d卷积在空域上对时空信息进行融合，最后通过1层卷积核为1
×1×
1的3d卷积输出增强信息，每个时空分解融合模块首尾相连。

技术总结
本发明公开了一种基于神经网络的用于压缩视频质量增强的方法，属于视频后处理领域。其特征在于：首先构建了包含多个具有不同分辨率和内容的压缩视频集用于训练；其次设计了时空信息预提取网络，通过3D卷积层对特征图在时空维度上进行编解码，同时在时空维度上提取特征图底层特征和深层特征；最后设计了时空信息融合网络，将连续视频帧分解，在时间域上利用2D卷积层对分解的视频帧单独进行信息提取，然后再融合分解的视频帧特征，有效的对视频帧的信息进行增强，达到对压缩视频质量增强的目的。的。的。

技术研发人员：贾克斌黄威威刘鹏宇
受保护的技术使用者：北京工业大学
技术研发日：2023.03.16
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：基于人工智能的广告敏感内容审核方法及系统与流程 下一篇：电池支架组件及车辆的制作方法

一种基于神经网络的用于压缩视频质量增强的方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于神经网络的用于压缩视频质量增强的方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表