基于IPMS-CNN和空域相邻CU编码模式的HEVC-SCC快速编码方法及装置
未命名
08-17
阅读:279
评论:0
基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法及装置
技术领域
1.本发明涉及视频编码领域,特别涉及一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法及装置。
背景技术:
2.近年来,随着计算机视觉、多媒体技术和人机交互等领域的快速发展,屏幕共享、无线显示、远程教育等屏幕内容视频(screen content video,scv)的应用程序不断涌现,对传统处理自然视频的视频编码方法提出了巨大的挑战。传统处理自然视频的标准,例如高效视频编码(high effcient video coding,hevc),是专门为压缩相机拍摄采集的自然视频内容而制定的。而屏幕内容视频主要是由计算机生成的,它通常具有大面积的均匀平面、重复的图案和字符、颜色种类有限但具有高饱和度、图像对比度高、有锐利的边缘等特点。如果仍用传统的视频编码标准来处理屏幕内容视频,压缩效果往往不佳。因此为了利用屏幕内容视频的这些特殊特征,联合视频编码组在hevc的基础上开发了屏幕内容编码(screen content coding,scc)标准:hevc-scc。该标准增加了四种新的模式:帧内块复制(intra block copy,ibc,调色板模式(palette mode,plt),自适应颜色变换(adaptive color transform,act),自适应运动矢量分辨率(adaptive motion vector resolution,amvr)。
3.在这四种模式,ibc和plt是提高压缩性能的两种主要模式。ibc模式有助于在同一帧内编码重复的模式,而plt模式的目标是用一些有限的主要颜色进行编码。尽管这两种工具的加入能显著提高scc的编码性能,但是其编码复杂度也显著增加。
技术实现要素:
4.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法及装置,在保证主观质量的同时,能够节省编码时间,降低屏幕内容视频的计算复杂度,加速hevc-scc的编码过程。
5.本发明采用如下技术方案:
6.一方面,一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,包括:
7.数据集制作步骤,建立不同分辨率的视频序列数据集并编码,获取不同量化参数下hevc-scc的各个cu是否使用ibc/plt模式的真实标签;
8.网络模型构建步骤,构建包括输入层、特征提取层和输出表达层的网络模型ipms-cnn;其中,特征提取层中搭建三个卷积层提取三种特征图,加上下采样后得到的特征图,共提取四种不同尺寸的特征图;
9.网络模型训练步骤,基于制作的数据集,对构建的网络模型进行训练,获得训练好的ibc/plt模式选择卷积神经网络ipms-cnn模型;
10.网络模型预测步骤,将lcu输入到训练好的ipms-cnn,获得模式预测标签,以预测出ctu的模式选择;
11.当前cu模式预测步骤,计算相邻3个cu所使用的ibc/plt模式数量和相邻3个cu所使用的intra模式数量,根据两个数量关系联合预测当前8
×
8cu模式;
12.编码步骤,编码器基于网络模型预测步骤调用预测标签,与当前cu模式预测步骤一起预测cu划分结果。
13.优选的,所述数据集制作步骤,具体包括:
14.自制三种不同分辨率的视频序列数据集,数据集涵盖图片数据集和视频数据集,包含tgm/m、a、cc三种类型视频序列;
15.接着通过标准编码软件平台进行编码,在全帧内配置下,设置不同量化参数qp下的各个cu的ibc/plt模式的模式标签。
16.优选的,所述的数据集包括:训练集、验证集和测试集;所述训练集、验证集和测试集中的每一个集均包含三个子集;第一个子集的分辨率为1024
×
576,第二个子集的分辨率为1792
×
1024,第三个子集为2304
×
1280。
17.优选的,所述量化参数包括四个量化等级,分别为22、27、32和37。
18.优选的,网络模型构建步骤中,特征提取层中搭建三个卷积层,提取三种特征图,同时经过下采样后的特征图会直接送入网络的连接层中。
19.优选的,所述输出表达层中包括全连接层;所述全连接层的特征向量中添加有量化参数qp。
20.优选的,所述网络模型的损失函数如下:
[0021][0022]
其中,表示真实值和预测值的交叉熵,、、分别表示第一级64
×
64、第二级32
×
32、第三级16
×
16cu的真实模式标签,表示64
×
64ctu的真实模式标签,,表示4个32
×
32ctu的真实模式标签,表示4
×
4个16
×
16ctu的真实模式标签;同理,、、分别表示第一级64
×
64、第二级32
×
32、第三级16
×
16的预测标签,表示64
×
64ctu的预测模式标签,,则表示4个32
×
32ctu的预测模式标签,表示4
×
4个16
×
16ctu的预测模式标签;网络的预测标签和真实标签都经过了二值化,范围在[0,1]之间。
[0023]
优选的,所述网络模型预测步骤中,网络模型输出21个二进制标签表示64
×
64、32
×
32、16
×
16的ctu是否会划分以及在此基础上是否会选择ibc/plt模式。
[0024]
优选的,所述当前cu模式预测步骤,具体包括:
[0025]
当cu尺寸为8
×
8时,计算相邻3个cu所使用的ibc、plt模式数量和intra模式数量;
[0026]
具体的,当时,候选模式只有intra模式;当且时,候选模式为ibc和plt模式;当且时,候选模式为intra、ibc和plt模式。
[0027]
另一方面,一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码装置,包括:
[0028]
数据集制作模块,建立不同分辨率的视频序列数据集并编码,获取不同量化参数下hevc-scc的各个cu是否使用ibc/plt模式的真实标签;
[0029]
网络模型构建模块,构建包括输入层、特征提取层和输出表达层的网络模型ipms-cnn;其中,特征提取层中搭建三个卷积层,提取三种特征图;
[0030]
网络模型训练模块,基于制作的数据集,对构建的网络模型进行训练,获得训练好的网络模型ipms-cnn;
[0031]
网络模型预测模块,将ctu输入到训练好的ipms-cnn,获得模式预测标签,以预测出ctu的模式选择;
[0032]
当前cu模式预测模块,计算相邻3个cu所使用的ibc/plt模式数量和相邻3个cu所使用的intra模式数量,根据两个数量关系联合预测当前8
×
8cu模式;
[0033]
编码模块,编码器基于网络模型预测步骤调用预测标签,与当前cu模式预测步骤一起预测cu划分结果。
[0034]
与现有技术相比,本发明的有益效果如下:
[0035]
(1)本发明首先搭建数据库,训练ibc/plt模式选择的卷积神经网络模型(ipms-cnn);其次将输入的ctu通过模式选择网络,输出ctu的模式预测标签;最后通过统计相邻3个cu所使用的模式数量来预测当前cu选择的模式,本发明能够在保持编码质量的同时减少编码时间,降低屏幕内容视频的计算复杂度;
[0036]
(2)本发明采用四种尺度特征融合的网络结构,其中,下采样后的特征图会与后续经过卷积层得到的特征图一起送到连接层中,下采样后的图像提供了一部分深层特征,而卷积层的特征图则提供了一些浅层特征,这些浅层特征和深层特征的结合,不仅可以增加训练数据的数量,还可以给全连接层提供更多的特征信息,提高模型的特征表达能力和预测模式选择的准确性;
[0037]
(3)本发明在输出表达层的全连接层中添加qp这个外部向量,可以使模型更好地学习如何在不同的qp下选择最佳的编码模式,能够让模型更好地适应各种qp值,进而生成更高质量的重建视频;
[0038]
(4)本发明通过将卷积神经网络预测大尺寸cu模式的方法与基于空间相邻cu所采用模式数量预测小尺寸cu模式的方法结合,可以更加精确地预测cu的模式,从而降低模式选择的复杂度。
附图说明
[0039]
图1为本发明的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法的
流程图;
[0040]
图2为本发明的ipms-cnn卷积神经网络结构示意图;
[0041]
图3为本发明的当前8
×
8cu和相邻cu示意图;
[0042]
图4为本发明的将卷积神经网络预测大尺寸cu模式的方法与基于空间相邻cu所采用模式数量预测小尺寸cu模式的方法相连接的详细流程图;
[0043]
图5为本发明的mff-cnn网络结构示意图;
[0044]
图6为本发明的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码装置的结构框图。
具体实施方式
[0045]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0046]
为了解决hevc-scc中cu划分复杂度高的问题,本实施例提出一种基于多尺度特征融合(mff-cnn)的hevc-scc帧内cu快速划分编码方法,用于在不影响主观质量的同时加快编码时间,降低编码复杂度。
[0047]
具体的,参见图1所示,一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,包括:
[0048]
s101,数据集制作步骤,建立不同分辨率的视频序列数据集并编码,获取不同量化参数下hevc-scc的各个cu是否使用ibc/plt模式的真实标签;
[0049]
s102,网络模型构建步骤,构建包括输入层、特征提取层和输出表达层的网络模型ipms-cnn;其中,特征提取层中搭建三个卷积层,特征提取层中搭建三个卷积层提取三种特征图,加上下采样后得到的特征图,共提取四种不同尺寸的特征图;
[0050]
s103,网络模型训练步骤,基于制作的数据集,对构建的网络模型进行训练,获得训练好的ibc/plt模式选择卷积神经网络(ibc /plt mode selection convolution neural network,ipms-cnn)模型;
[0051]
s104,将lcu输入到训练好的ipms-cnn,获得64
×
64、32
×
32、16
×
16cu的模式预测标签,以预测出ctu的模式选择;
[0052]
s105,8
×
8 cu模式预测步骤,8
×
8cu的模式预测则通过统计空域相邻cu所采用的模式数量来预测当前cu可能选择的模式。计算相邻3个cu所使用的ibc/plt模式数量和相邻3个cu所使用的intra模式数量,根据两个数量关系联合预测当前8
×
8cu模式;
[0053]
s106,编码步骤,编码器基于网络模型预测步骤调用预测标签,与当前cu模式预测步骤一起预测cu划分结果。
[0054]
本实施例中,所述数据集制作步骤,具体包括:
[0055]
制作三种不同分辨率的视频序列数据集:1024
×
576、1792
×
102、2304
×
1280,数据集涵盖图片数据集和视频数据集,且每种分辨率都包含tgm/m、a、cc三种类型视频序列;
[0056]
将所有数据集序列通过hm16.12+scm8.3进行编码,在全帧内(all intra,ai)配置
scale feature fusion convolution neural network)(见图5)、ipms-cnn模式选择模型,分别输出21个二进制标签表示64
×
64、32
×
32、16
×
16的ctu是否会划分以及在此基础上是否会选择ibc/plt模式;
[0067]
(b)当cu尺寸为8
×
8时,计算相邻3个cu所使用的ibc、plt模式数量和intra模式数量。当时,候选模式只有intra模式;当且时,候选模式为ibc、plt模式;当且时,候选模式为intra、ibc、plt模式;
[0068]
(c)编码器根据步骤(a)调用网络标签,与步骤(b)一起预测cu划分结果,从而跳过不必要的模式遍历,减少编码时间,加速屏幕内容视频的编码过程。
[0069]
参见图5所示,为本实施例mff-cnn网络结构示意图。
[0070]
参见图6所示,本实施例还公开了一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码装置,包括:
[0071]
数据集制作模块601,建立不同分辨率的视频序列数据集并编码,获取不同量化参数下hevc-scc的各个cu是否使用ibc/plt模式的真实标签;
[0072]
网络模型构建模块602,构建包括输入层、特征提取层和输出表达层的网络模型ipms-cnn;其中,特征提取层中搭建三个卷积层,提取三种特征图;
[0073]
网络模型训练模块603,基于制作的数据集,对构建的网络模型进行训练,获得训练好的网络模型ipms-cnn;
[0074]
网络模型预测模块604,将ctu输入到训练好的ipms-cnn,获得模式预测标签,以预测出ctu的模式选择;
[0075]
当前cu模式预测模块605,计算相邻3个cu所使用的ibc/plt模式数量和相邻3个cu所使用的intra模式数量,根据两个数量关系联合预测当前8
×
8cu模式;
[0076]
编码模块606,编码器基于网络模型预测步骤调用预测标签,与当前cu模式预测步骤一起预测cu划分结果。
[0077]
一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码装置各模块的具体实现同一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,本实施例不再重复说明。
[0078]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
技术特征:
1.一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,包括:数据集制作步骤,建立不同分辨率的视频序列数据集并编码,获取不同量化参数下hevc-scc的各个cu是否使用ibc/plt模式的真实标签;网络模型构建步骤,构建包括输入层、特征提取层和输出表达层的网络模型ipms-cnn;其中,特征提取层中搭建三个卷积层提取三种特征图,加上下采样后得到的特征图,共提取四种不同尺寸的特征图;网络模型训练步骤,基于制作的数据集,对构建的网络模型进行训练,获得训练好的ibc/plt模式选择卷积神经网络ipms-cnn模型;网络模型预测步骤,将lcu输入到训练好的ipms-cnn,获得模式预测标签,以预测出ctu的模式选择;当前cu模式预测步骤,计算相邻3个cu所使用的ibc/plt模式数量和相邻3个cu所使用的intra模式数量,根据两个数量关系联合预测当前8
×
8cu模式;编码步骤,编码器基于网络模型预测步骤调用预测标签,与当前cu模式预测步骤一起预测cu划分结果。2.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述数据集制作步骤,具体包括:自制三种不同分辨率的视频序列数据集,数据集涵盖图片数据集和视频数据集,包含tgm/m、a、cc三种类型视频序列;接着通过标准编码软件平台进行编码,在全帧内配置下,设置不同量化参数qp下的各个cu的ibc/plt模式的模式标签。3.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述的数据集包括:训练集、验证集和测试集;所述训练集、验证集和测试集中的每一个集均包含三个子集;第一个子集的分辨率为1024
×
576,第二个子集的分辨率为1792
×
1024,第三个子集为2304
×
1280。4.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述量化参数包括四个量化等级,分别为22、27、32和37。5.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,网络模型构建步骤中,特征提取层中搭建三个卷积层,提取三种特征图,同时经过下采样后的特征图会直接送入网络的连接层中。6.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述输出表达层中包括全连接层;所述全连接层的特征向量中添加有量化参数qp。7.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述网络模型的损失函数如下:
;其中,表示真实值和预测值的交叉熵,、、分别表示第一级64
×
64、第二级32
×
32、第三级16
×
16cu的真实模式标签,表示64
×
64ctu的真实模式标签,,表示4个32
×
32ctu的真实模式标签,表示4
×
4个16
×
16ctu的真实模式标签;同理,、、分别表示第一级64
×
64、第二级32
×
32、第三级16
×
16的预测标签,表示64
×
64ctu的预测模式标签,,则表示4个32
×
32ctu的预测模式标签,表示4
×
4个16
×
16ctu的预测模式标签;网络的预测标签和真实标签都经过了二值化,范围在[0,1]之间。8.根据权利要求1所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述网络模型预测步骤中,网络模型输出21个二进制标签表示64
×
64、32
×
32、16
×
16的ctu是否会划分以及在此基础上是否会选择ibc/plt模式。9.根据权利要求8所述的基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码方法,其特征在于,所述当前cu模式预测步骤,具体包括:当cu尺寸为8
×
8时,计算相邻3个cu所使用的ibc、plt模式数量和intra模式数量;具体的,当时,候选模式只有intra模式;当且时,候选模式为ibc和plt模式;当且时,候选模式为intra、ibc和plt模式。10.一种基于ipms-cnn和空域相邻cu编码模式的hevc-scc快速编码装置,其特征在于,包括:数据集制作模块,建立不同分辨率的视频序列数据集并编码,获取不同量化参数下hevc-scc的各个cu是否使用ibc/plt模式的真实标签;网络模型构建模块,构建包括输入层、特征提取层和输出表达层的网络模型ipms-cnn;其中,特征提取层中搭建三个卷积层,提取三种特征图;网络模型训练模块,基于制作的数据集,对构建的网络模型进行训练,获得训练好的网络模型ipms-cnn;网络模型预测模块,将ctu输入到训练好的ipms-cnn,获得模式预测标签,以预测出ctu的模式选择;当前cu模式预测模块,计算相邻3个cu所使用的ibc/plt模式数量和相邻3个cu所使用的intra模式数量,根据两个数量关系联合预测当前8
×
8cu模式;编码模块,编码器基于网络模型预测步骤调用预测标签,与当前cu模式预测步骤一起预测cu划分结果。
技术总结
本发明公开了一种基于IPMS-CNN和空域相邻CU编码模式的HEVC-SCC快速编码方法及装置,将卷积神经网络预测大尺寸CU模式的方法与基于空间相邻CU所采用模式数量预测小尺寸CU模式的方法相结合,旨在保持编码质量的同时减少编码时间,降低计算复杂度,方法首先搭建数据库,训练IBC/PLT模式选择的卷积神经网络模型;其次将输入的CTU通过模式选择网络,输出CTU的模式预测标签;最后通过统计相邻3个CU所使用的模式数量来预测当前CU选择的模式。本发明能够节省编码时间,降低屏幕内容视频的计算复杂度。度。度。
技术研发人员:陈婧 李志鸿 曾焕强 林琦 朱建清
受保护的技术使用者:华侨大学
技术研发日:2023.07.20
技术公布日:2023/8/16
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
