一种基于条件编码的视频压缩方法、系统、设备及介质与流程

未命名 07-23 阅读:240 评论:0


1.本发明涉及视频技术领域,特别是一种基于条件编码的视频压缩方法、系统、设备及介质。


背景技术:

2.近年来,云南电网公司视频监督平台、变电站视频监控系统等产出了海量的视频数据。公司要求视频数据接入数据中心。但是,仍存在下列问题:1、非结构化数据服务平台存储空间有限。目前剩余空间约为2pb,视频监督平台每年约产生2.6pb视频数据,现有存储已无法满足视频数据增量存储需求。2、摄像头侧产生的视频数据传输至公司数据中心需要高额的宽带流量费。3、视频传输过程中进行视频压缩是缓解存储压力、节省宽带费用的有效方法。
3.目前,传统视频压缩方法多采用残差编码,预测帧先会从之前已经解码的帧中生成出来,然后再计算当前帧与预测帧的残差。残差编码的熵大于或等于条件编码的熵,无法以更低的码率重建高质量视频。


技术实现要素:

4.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
5.鉴于上述和/或现有的视频压缩方法中存在的问题,提出了本发明。
6.因此,本发明所要解决的问题在于如何提供一种基于条件编码的视频压缩方法。
7.为解决上述技术问题,本发明提供如下技术方案:
8.第一方面,本发明实施例提供了一种基于条件编码的视频压缩方法,其包括,
9.通过特征提取器将解码帧从像素域转换到特征域;
10.基于运动估计学习运动向量,所述运动向量经过编码和解码之后用于指导提取特征;
11.基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入;
12.将所述上下文特征作为编码条件,帮助编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。
13.作为本发明所述基于条件编码的视频压缩方法的一种优选方案,其中:所述通过特征提取器对输入的图像进行特征提取包括,
14.对于t时刻输入的图像x
t
,将t-1时刻的重建帧图像作为参考帧;
15.通过特征提取器分别提取x
t
和对应的特征f
t

16.作为本发明所述基于条件编码的视频压缩方法的一种优选方案,其中:所述基于
运动估计学习运动向量包括,
17.基于双层卷积神经网络计算当前帧特征f
t
和前一帧特征之间的运动信息m
t

18.将所述运动信息m
t
进行压缩编码,解码后得到重建后的运动信息
19.作为本发明所述基于条件编码的视频压缩方法的一种优选方案,其中:所述基于运动补偿生成最终的上下文特征包括,
20.基于可形变卷积将t-1时刻的特征变换到当前时刻得到预测特征
21.以预测特征作为条件信息,将和原始帧特征f
t
进行拼接输入到编码器;
22.基于解码得到残差特征将其与预测特征相加,以重建更准确的输入帧特征作为最终的上下文特征。
23.作为本发明所述基于条件编码的视频压缩方法的一种优选方案,其中:所述基于可形变卷积将t-1时刻的特征变换到当前时刻得到预测特征包括,
24.通过卷积层将转化为分组的偏移量信息,其中每组的通道之间共享相同的偏移量;
25.将参考帧特征上对应位置的值通过可形变卷积融合为预测特征上的一个值:
[0026][0027]
其中,k2表示卷积核中的每个位置,在实现中为{-1,0,1}2,w(pn)为对应位置的权重;p0和δpn分别表示特征位置及对应的偏移量。
[0028]
作为本发明所述基于条件编码的视频压缩方法的一种优选方案,其中:所述基于运动补偿生成最终的上下文特征采用的公式为:
[0029][0030][0031]
其中,encoder和decoder分别为编码器和解码器,q为量化操作。
[0032]
作为本发明所述基于条件编码的视频压缩方法的一种优选方案,其中:所述基于条件编码的视频压缩方法,为了实现码率和失真的最优平衡,通过如下公式进行优化:
[0033][0034]
其中,rm和rc分别表示运动编码和条件编码消耗的码率,表示重建帧与原始输入帧之间的损失,λ为超参数,用于控制优化过程中码率和损失之间的平衡。
[0035]
第二方面,本发明实施例提供了一种基于条件编码的视频压缩系统,其包括,
[0036]
特征提取模块,用于将解码帧从像素域转换到特征域;
[0037]
运动估计模块,用于基于运动估计学习运动向量,所述运动向量经过编码和解码
之后用于指导提取特征;
[0038]
上下改进模块,用于基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入;
[0039]
条件编码模块,用于将所述上下文特征作为编码条件,帮助编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。
[0040]
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述处理器执行所述计算机程序时实现上述方法的任一步骤。
[0041]
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序被处理器执行时实现上述方法的任一步骤。
[0042]
本发明有益效果为:使用条件编码视频压缩代替残差编码视频压缩,可以自适应学习帧内编码与帧间编码,同时将时域上下文特征作为条件输入可以帮助编解码器对当前帧的编码,具有更高维度的上下文特征可以携带更丰富的时域信息帮助编码,特别是对高频细节的恢复,对高分辨率视频的压缩更具优势,充分利用高维特征来帮助视频高频细节可以获得更好的重建质量。
附图说明
[0043]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0044]
图1为基于条件编码的视频压缩方法的流程图。
[0045]
图2为基于条件编码的视频压缩方法的条件压缩示意图。
[0046]
图3~5为本方法与基线方法率失真曲线。
具体实施方式
[0047]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0048]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0049]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0050]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0051]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位
或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0052]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0053]
实施例1
[0054]
参照图1和图2,为本发明第一个实施例,该实施例提供了一种基于条件编码的视频压缩方法,包括:
[0055]
s100:通过特征提取器将解码帧从像素域转换到特征域。
[0056]
应说明的是,对于t时刻输入的图像x
t
,t-1时刻的重建帧图像会作为参考帧,通过特征提取器分别提取x
t
和对应的特征f
t

[0057]
s200:基于运动估计学习运动向量,所述运动向量经过编码和解码之后用于指导提取特征。
[0058]
具体的,基于双层卷积神经网络计算当前帧特征f
t
和前一帧特征之间的运动信息m
t
,并进行压缩编码,解码后得到重建后的运动信息
[0059]
应说明的是,本方法不再依赖于传统的残差压缩方法,而是基于高效的条件信息对原始图像(特征)进行直接编码,因此,如何得到高效的条件信息就十分重要。为此将前一帧的特征变换到当前时刻得到预测特征并将其作为条件信息使用。
[0060]
具体的,借鉴了可形变卷积在运动补偿中的成功应用,同样基于可形变卷积将预测帧特征对齐到当前时刻。首先,卷积层将转化为分组的偏移量信息,每组的通道之间共享相同的偏移量。对于可形变卷积中的每个卷积核,存在与每个位置对应的运动信息,用于控制从参考帧特征中采样的位置。接着,参考帧特征上对应位置的值被可形变卷积融合为预测特征上的一个值。
[0061][0062]
其中,k2表示卷积核中的每个位置,在实现中为{-1,0,1}2,w(pn)为对应位置的权重;p0和δpn分别表示特征位置及对应的偏移量。
[0063]
s300:基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入。
[0064]
应说明的是,相比传统的像素域的预测帧,高维特征可以提供更丰富的时域信息,不同的通道也可以有很大的自由度去提取不同类型的信息,从而帮助当前帧高频细节获得更好的重建。
[0065]
具体的,在编码端,以预测特征作为条件信息,将和原始帧特征f
t
进行拼接输入到编码器,对应的量化后的隐空间特征是其过程如下:
[0066][0067]
在解码端,基于解码得到残差特征然后将其与原始条件特征相加,以重建更准确的输入帧特征作为最终的上下文特征,过程如下:
[0068][0069]
其中,encoder和decoder分别为编码器和解码器,q为量化操作。
[0070]
最后通过图像重建模块,将恢复为重建图片
[0071]
为了实现码率和失真的最优平衡,本发明提出的整个模型以如下方式进行优化:
[0072][0073]
其中,rm和rc分别表示运动编码和条件编码消耗的码率,表示重建帧与原始输入帧之间的损失,λ为超参数,用于控制优化过程中码率和损失之间的平衡。
[0074]
在运动编码和条件编码过程中,量化后的特征将通过熵编码转化为码流。类似的,在解码过程中需要通过熵解码将码流恢复为特征。
[0075]
为了平衡压缩性能和编解码速度,引入基于transformer的超先验网络和通道自回归熵模型用于快速而准确的估计分布的均值和方差,用于上述熵编码和熵解码过程。其中,ae和ad是隐含的熵编码和熵解码模块,q是量化过程,编码器和解码器的结构是对称的,解码器下方标注了每层transformer的数量,并使用虚线标注了图片或特征形状的变化。在训练阶段,使用一个码流估计网络来估计消耗的码率;在测试阶段,使用实际的熵编码算法。考虑到量化本身不可微分,采用在训练过程中加入均匀噪声进行近似的方法来保证端到端的优化。
[0076]
s400:利用编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。
[0077]
应说明的是,让编码器去自动挖掘当前帧和上下文特征相关性并去除其中的冗余,而不是使用固定的减法去除冗余,可以在帧内编码和帧间编码获得自适应转换。对于视频中运动较大的区域或者新内容出现的区域,帧间相关性通常较低,其残差能量较大,因此残差编码对这种区域的压缩效率是非常低的。相比之下,基于上下文特征的视频压缩方法可以自适应地学习帧内编码和帧间编码。相比传统rgb三通道像素,更高维度的上下文特征可以携带更丰富的时域信息来帮助编码,特别是对高频细节的恢复。在未来,高分辨率视频将会更受欢迎和普及,而针对高分辨率视频中的更多高频细节内容,基于条件编码的视频压缩方法的优势也将更为明显。
[0078]
进一步的,本实施例还提供一种基于条件编码的视频压缩系统,包括:
[0079]
特征提取模块,用于将解码帧从像素域转换到特征域;
[0080]
运动估计模块,用于基于运动估计学习运动向量,所述运动向量经过编码和解码之后用于指导提取特征;
[0081]
上下改进模块,用于基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入;
[0082]
条件编码模块,用于将所述上下文特征作为编码条件,帮助编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。
[0083]
本实施例还提供一种计算机设备,适用于基于条件编码的视频压缩方法的情况,包括:
[0084]
存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的基于条件编码的视频压缩方法。
[0085]
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0086]
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现基于条件编码的视频压缩方法。
[0087]
本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
[0088]
实施例2
[0089]
参照图3~5,为本发明第二个实施例,该实施例提供了一种基于条件编码的视频压缩方法。
[0090]
为了验证本发明的有益效果,使用vimeo-90k数据集作为训练集。该数据集包含89800个7帧、448256分辨率的视频序列。在训练中,随机地将视频序列裁剪为大小为256256视频序列。
[0091]
在hevc数据集上评估了本方法,其中,hevc被划分为b、c、d、e四个类别,包含共16个不同分辨率的视频序列。
[0092]
在训练过程中,使用了四种不同的λ取值(256,512,1024,2048),采用了6阶段的训练策略,每个阶段训练的轮数和损失函数如表1所示。
[0093]
表1不同训练阶段的损失函数
[0094]
[0095]
在第1阶段,优化与运动信息相关的模块,使预测的条件信息尽可能与输入的当前帧接近。第2阶段,对运动信息编码的码率加以约束,从而平衡运动信息的码率代价和重建质量。第3阶段冻结运动估计、运动压缩和运动补偿模块参数,优化网络的剩余参数,仅约束网络的重建质量。第4阶段在第3阶段的基础上,加以对条件编码的码率约束。第5阶段,解冻运动模块的参数,整个网络端到端训练。最后,在第6阶段,冻结量化操作前的全部网络参数,并使用取整的量化方法对其他参数进一步训练。其中,前5个阶段使用5e-5的学习率,并在最后一个阶段降低为5e-6的学习率。
[0096]
图3~5为本方法与基线方法率失真曲线。显然,本方法在hevc的大部分子数据集上,均超越了现有的基于传统算法和基于深度学习的视频编码框架。特别是在hevc的b类数据集上,本方法相比dvc和h.265在psnr指标上分别提升了0.40db和0.35db的表现。
[0097]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种基于条件编码的视频压缩方法,其特征在于:包括,通过特征提取器将解码帧从像素域转换到特征域;基于运动估计学习运动向量,所述运动向量经过编码和解码之后用于指导提取特征;基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入;将所述上下文特征作为编码条件,帮助编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。2.如权利要求1所述的基于条件编码的视频压缩方法,其特征在于:所述通过特征提取器对输入的图像进行特征提取包括,对于t时刻输入的图像x
t
,将t-1时刻的重建帧图像作为参考帧;通过特征提取器分别提取x
t
和对应的特征f
t
和3.如权利要求2所述的基于条件编码的视频压缩方法,其特征在于:所述基于运动估计学习运动向量包括,基于双层卷积神经网络计算当前帧特征f
t
和前一帧特征之间的运动信息m
t
;将所述运动信息m
t
进行压缩编码,解码后得到重建后的运动信息4.如权利要求3所述的基于条件编码的视频压缩方法,其特征在于:所述基于运动补偿生成最终的上下文特征包括,基于可形变卷积将t-1时刻的特征变换到当前时刻得到预测特征以预测特征作为条件信息,将和原始帧特征f
t
进行拼接输入到编码器;基于解码得到残差特征将其与预测特征相加,以重建更准确的输入帧特征作为最终的上下文特征。5.如权利要求4所述的基于条件编码的视频压缩方法,其特征在于:所述基于可形变卷积将t-1时刻的特征变换到当前时刻得到预测特征包括,通过卷积层将转化为分组的偏移量信息,其中每组的通道之间共享相同的偏移量;将参考帧特征上对应位置的值通过可形变卷积融合为预测特征上的一个值:其中,k2表示卷积核中的每个位置,在实现中为{-1,0,1}2,w(p
n
)为对应位置的权重;p0和δp
n
分别表示特征位置及对应的偏移量。6.如权利要求5所述的基于条件编码的视频压缩方法,其特征在于:所述基于运动补偿生成最终的上下文特征采用的公式为:生成最终的上下文特征采用的公式为:
其中,encoder和decoder分别为编码器和解码器,q为量化操作。7.如权利要求6所述的基于条件编码的视频压缩方法,其特征在于:所述基于条件编码的视频压缩方法,为了实现码率和失真的最优平衡,通过如下公式进行优化:其中,r
m
和r
c
分别表示运动编码和条件编码消耗的码率,表示重建帧与原始输入帧之间的损失,λ为超参数,用于控制优化过程中码率和损失之间的平衡。8.一种基于条件编码的视频压缩系统,基于权利要求1~7所述的基于条件编码的视频压缩方法,其特征在于:包括,特征提取模块,用于将解码帧从像素域转换到特征域;运动估计模块,用于基于运动估计学习运动向量,所述运动向量经过编码和解码之后用于指导提取特征;上下改进模块,用于基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入;条件编码模块,用于将所述上下文特征作为编码条件,帮助编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述方法的步骤。

技术总结
本发明公开了一种基于条件编码的视频压缩方法、系统、设备及介质,包括通过特征提取器将解码帧从像素域转换到特征域;基于运动估计学习运动向量,所述运动向量经过编码和解码之后用于指导提取特征;基于运动补偿生成最终的上下文特征,所述上下文特征为时域高维上下文特征,以并联的方式作为编码器和解码器的条件输入;将所述上下文特征作为编码条件,帮助编码器自动挖掘当前帧和上下文特征相关性并去除其中的冗余。本发明使用条件编码视频压缩代替残差编码视频压缩,可以自适应学习帧内编码与帧间编码,同时将时域上下文特征作为条件输入可以帮助编解码器对当前帧的编码,对高分辨率视频的压缩更具优势。率视频的压缩更具优势。率视频的压缩更具优势。


技术研发人员:张航 黄祖源 李辉 曾晓雯 高宇豆
受保护的技术使用者:云南电网有限责任公司信息中心
技术研发日:2022.11.23
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐