一种针对低码率视频的时空超分辨率方法、系统及设备
未命名
08-13
阅读:100
评论:0
1.本发明涉及视频时空超分辨率技术领域,特别涉及一种针对低码率视频的时空超分辨率方法、系统及设备。
背景技术:
2.低码率视频是军事指挥、灾区应急等场景获取一手资源和信息的重要方式。低码率视频一般分辨率为qcif、cif大小,帧率在2~10帧。在灾区应急、军事通信、海上救援等传输条件比较恶劣的环境下,低码率视频为信息的传递发挥了重要作用。低码率视频由于其码率受限,观看体验欠佳,无法满足对信息获取的需要。对低码率视频进行超分辨率恢复可以大大提高人们对视频中环境和目标的感知以及对视频的观看感受,恢复视频更多的细节,从而使得视频可以提供更大的信息量。但由于低码率视频中帧与帧之间信息不连贯,对其进行视频超分辨率重建难度大,容易产生伪影、运动模糊等问题。低码率视频超分辨率的关键在于对视频的分辨率和帧率进行提升,同时能够很好的抑制伪影、运动模糊等问题。
3.低码率视频超分辨率可以被视为视频超分辨率的一支。对视频进行超分辨率恢复理论上可以通过对视频逐帧进行图像超分辨率恢复来完成,但是只针对单张图片进行超分辨率恢复没有利用视频帧之间潜在的关系,忽略了视频帧在时域上的连续性,并且不能对视频的帧率进行提升。
4.目前视频时空超分辨率方法一般可以分为两种。一种是两阶段的方法,也就是先进行时间上的超分辨率,让图像的分辨率提升,然后进行空间上的超分辨率,让视频的帧率提升。即通过级联式的方式实现,分成两步走,先进行超分辨率处理后进行插帧处理,或者先进行插帧处理后进行超分辨率处理。这种方法由于未能充分利用帧与帧之间的关系效果往往很差,实现起来的复杂度高、时间长。第二种是采用一体化的方法,即使用一个模型同时完成时间和空间上的超分辨率。一体化的方法是通过一个模型端到端的对视频进行分辨率和帧率的提升。同时虽然一体化方法的优势日益彰显,但基于一体化模型的时空视频超分辨率方法研究仍在起步阶段,目前存在的这些方法在挖掘视频帧之间信息上仍存在较大的限制,特别对于在低码率视频场景下,仍存在运动模糊、伪影等问题,对于低码率视频超分辨率任务效果不佳。
技术实现要素:
5.本发明的目的是提供一种针对低码率视频的时空超分辨率方法、系统及设备,完成从低分辨率视频到高分辨率视频的转换。
6.为实现上述目的,本发明提供了如下方案:
7.一种针对低码率视频的时空超分辨率方法,包括:
8.采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;
9.构建基于transformer的u型架构模型;所述u型架构模型包括特征提取模块、3个
编码器、3个解码器以及高分辨率重建模块;
10.通过所述训练样本对所述u型架构模型进行训练;
11.通过训练好的u型架构模型对低码率视频进行时空超分辨率。
12.可选地,采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本,具体包括:
13.采集低码率视频超分辨率数据集;所述低码率视频超分辨率数据集中包含若干大小为448
×
256、帧率为10帧的连续低分辨率视频帧;
14.对所有所述低分辨率视频帧加入运动模糊操作;
15.对加入运动模糊操作的所有低分辨率视频帧进行4倍下采样,形成高低分辨率图像对,构建训练样本。
16.可选地,各所述编码器的尾端设置有tokenmaker模块。
17.可选地,通过所述训练样本对所述u型架构模型进行训练,具体包括:
18.将所述训练样本中4张连续的低分辨率视频帧输入至特征提取模块进行特征提取;
19.将提取到的特征依次输入至3个编码器中进行处理;
20.将编码器处理后的数据分别输入至token maker模块和所述解码器;3个解码器中前两个解码器的输入来自上一级解码器的输出以及对应编码器的输出,最后一个解码器的输入来自所述token maker模块的输出以及对应编码器的输出;
21.将解码器处理后的输入至所述高分辨率重建模块,输出高分辨率视频帧;
22.将输出的高分辨率视频帧与训练样本中的低分辨率视频帧对应的高分辨率视频帧进行误差比较;
23.根据比较结果优化所述u型架构模型,完成训练过程。
24.可选地,所述u型架构模型的损失函数采用charbonnier损失函数,所述charbonnier损失函数放入表达式为:
[0025][0026]
表示生成的超分辨率样本,y表示训练样本,∈为设定的微小常量。
[0027]
本发明还提供了一种针对低码率视频的时空超分辨率系统,包括:
[0028]
训练样本构建模块,用于采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;
[0029]
模型构建模块,用于构建基于transformer的u型架构模型;所述u型架构模型包括特征提取模块、3个编码器、3个解码器以及高分辨率重建模块;
[0030]
训练模块,用于通过所述训练样本对所述u型架构模型进行训练;
[0031]
时空超分辨率模块,用于通过训练好的u型架构模型对低码率视频进行时空超分辨率。
[0032]
可选地,所述训练样本构建模块具体包括:
[0033]
采集单元,用于采集低码率视频超分辨率数据集;所述低码率视频超分辨率数据集中包含若干大小为448
×
256、帧率为10帧的连续低分辨率视频帧;
[0034]
运动模糊操作加入单元,用于对所有所述低分辨率视频帧加入运动模糊操作;
[0035]
下采样单元,用于对加入运动模糊操作的所有低分辨率视频帧进行4倍下采样,形成高低分辨率图像对,构建训练样本。
[0036]
可选地,所述训练模块具体包括:
[0037]
第一输入单元,用于将所述训练样本中4张连续的低分辨率视频帧输入至特征提取模块进行特征提取;
[0038]
第二输入单元,用于将提取到的特征依次输入至3个编码器中进行处理;
[0039]
第三输入单元,用于将编码器处理后的数据分别输入至token maker模块和所述解码器;3个解码器中前两个解码器的输入来自上一级解码器的输出以及对应编码器的输出,最后一个解码器的输入来自所述token maker模块的输出以及对应编码器的输出;
[0040]
第四输入单元,用于将解码器处理后的输入至所述高分辨率重建模块,输出高分辨率视频帧;
[0041]
误差比较单元,用于将输出的高分辨率视频帧与训练样本中的低分辨率视频帧对应的高分辨率视频帧进行误差比较;
[0042]
优化单元,用于根据比较结果优化所述u型架构模型,完成训练过程。
[0043]
本发明还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的针对低码率视频的时空超分辨率方法。
[0044]
本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的针对低码率视频的时空超分辨率方法。
[0045]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0046]
本发明提供了一种针对低码率视频的时空超分辨率方法、系统及设备,该方法包括:采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;通过所述训练样本对所述u型架构模型进行训练;通过训练好的u型架构模型对低码率视频进行时空超分辨率。本发明可以同时做到视频超分辨率和插帧同时完成,有效降级了“级联式”视频超分辨率方法的复杂度,提高了插帧和超分辨率任务的效率。
附图说明
[0047]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0048]
图1为本发明提供的一体化视频超分辨率流程图;
[0049]
图2为本发明提供的针对低码率视频的时空超分辨率方法的流程图;
[0050]
图3为本发明提供的训练样本构建示意图;
[0051]
图4为本发明提供的基于transformer的u型架构模型的结构示意图;
[0052]
图5为编码器构造示意图;
[0053]
图6为token maker结构示意图;
[0054]
图7为解码器结构示意图;
[0055]
图8为高分辨率重建模块处理流程图;
[0056]
图9为本发明提供的方法与其他方法的对比结果。
具体实施方式
[0057]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0058]
本发明的目的是提供一种针对低码率视频的时空超分辨率方法、系统及设备,用以有效降低低码率视频超分辨率时画面细节的跳动和伪影,提升画质表现,为低码率超分辨率系统展示高质量视频流提出了解决方案。
[0059]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0060]
实施例一
[0061]
本发明实施例一提供了一种针对低码率视频的时空超分辨率方法。如图1所示,本发明结合滑动窗口以及多尺度特征融合的思想,使得模型可以通过输入的n+1帧低分辨率连续视频帧来得到2n+1帧高分辨率的视频帧,来实现时间和空间上的超分辨率。如图2所示,该方法包括以下步骤:
[0062]
s1:采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本。
[0063]
收集低码率视频超分辨率数据集,以此使所述数据集包含若干大小为448
×
256,帧率为10帧的连续视频帧。
[0064]
对所有视频帧加入运动模糊操作,以对数据集进行数据增强。
[0065]
对所有视频帧进行4倍下采样,以形成高低分辨率图像对。
[0066]
如图3所示,将所有视频帧每7帧存放在一个文件夹。
[0067]
按照7:3的比例划分训练集,测试集。
[0068]
s2:构建基于transformer的u型架构模型;如图4所示,所述u型架构模型包括特征提取模块、3个编码器、3个解码器以及高分辨率重建模块。
[0069]
s3:通过所述训练样本对所述u型架构模型进行训练。
[0070]
(1)本发明将4张连续的低分辨率视频帧作为输入,经过一层3
×
3卷积后,输入特征为b
×n×h×w×
c(n=4),b为batch size,h和w分别为特征的高和宽,c为输入的通道数。
[0071]
(2)提取到的特征会依次经历3个编码块(即编码器)ek,k=0,1,2。如图5所示,进入第一个编码块之后,给出一个预定义m
×
m(m=4)大小的滑动窗口,滑动窗口transformer块会将b
×n×h×w×
c的输入视频帧划分为b
×n×
(h/m)
×
(w/m)
×
c大小的非重叠窗口。特征在进行层归一化(ln)之后在基于窗口的多头自注意力层中进行每个窗口内的局部注意力计算。
[0072]
(3)之后经过一个层归一化层(ln)和多层感知层(mlp)处理之后,进入到下一个transformer块中处理。
[0073]
(4)第二个transformer块与第一个不同的地方在于第二个transformer块在移动
窗口多头自注意力层(sw-msa)中进行了窗口滑动的操作,被输入进来的特征在进行窗口分区前移动(m/2)
×
(m/2)大小,其他操作与上一步均相同。
[0074]
(5)经过所有的transformer块处理之后,一部分特征通过跳跃连接进入到对应的解码器,作为解码器的一部分输入。另一部分特征经过一层卷积之后,尺寸变为b
×n×
(h/2)
×
(w/2)
×
c,输入到下一级编码块进行处理。
[0075]
(6)针对低码率视频的恢复,本发明还在每个编码器的尾端引入了tokenmaker模块。tokenmaker可以自适应的提取视频帧重点重要区域,可以使模型重点关注一些运动范围大,容易产生伪影的区域。如图6所示,每个tokenmaker模块都包含token learner和token fuser两部分。编码器输出的特征x为b
×n×h×w×
c,首先将其变换为(b
×
n)
×h×w×
c,然后送入tokenlearner中,在token learner中首先会计算其空间注意力a,然后与输入相乘x
⊙
a得到s个token(s=8),
⊙
为点乘。在token fuser中,由于在s个token中已经包含了所有token的信息,需将token learner的输出映射回原张量形状b
×n×h×w×
c。
[0076]
(7)在解码器部分中,本发明使用了三个级联的解码块dk,k=0,1,2,每一级的解码块通过反复查询同一级的编码器ek构造的字典来补充高分辨率细节,从而生成高分辨率视频帧。如图7所示,每个解码块接收两个输入,d0和d1分别接收的是来自上一级解码块的输出和对应编码块的输出,d2接收的是来自e3的输出和通过平均特征所得到的特征q。此时特征形状变为b
×n×h×w×
c(n=7)。
[0077]
(8)来自同级编码器的输出在经历一层ln层之后作为transformer块的k、v,而来自上一级解码器的输出先经历一层ln层之后自己做一次自注意力计算,然后作为transformer块的q与来自同级编码器的特征进行注意力计算。
[0078]
(9)在计算完自注意力之后,特征会先经过一个ln层,然后进入apem模块。在apem模块中,首先使用一个1
×
1卷积来提升特征的维度,然后将特征reshape为一个2d特征,并且用一个3
×
3卷积层来捕获所需要的局部信息,最后将特征再reshape来收缩维度,来与后续输入通道做匹配。同样,在线性层和卷积层之后使用gelu激活函数来避免过拟合和梯度爆炸。
[0079]
(10)最后设置了2个pixel shuffle层(即高分辨率重建模块),最后再经过一个卷积层,就可以得到4倍超分的连续七帧高分辨率视频帧pixel shuffle算法的主要流程如图8所示,其实现的功能是:将一个h
×
w的低分辨率输入图像,通过亚像素卷积操作将其变为rh
×
rw的高分辨率图像。
[0080]
本发明构建的上述模型的损失函数采用的是charbonnier损失函数,表达式为:
[0081][0082]
表示生成的超分辨率样本,y表示真实的样本,∈为一设定微小常量。
[0083]
s4:通过训练好的u型架构模型对低码率视频进行时空超分辨率。
[0084]
本发明可以同时做到视频超分辨率和插帧同时完成,有效降级了“级联式”视频超分辨率方法的复杂度,提高了插帧和超分辨率任务的效率。并且由于本发明相比两阶段和一阶段的视频超分辨率算法参数量都比较小,所以本发明可以采用同时输入四帧的方法,由此对于低分辨率、低帧率的视频,本发明采用的模型可以借鉴到更多的相邻帧之间的信息,便于视频的恢复。除此之外,由于模型采用的是有监督的训练方式,所以数据集对模型
的影响是非常大的,为此本发明制作了一个专用于低码率视频恢复的数据集,此数据集模拟了低码率视频的分辨率和帧率,并且加入了低码率视频可能会出现的残影、运动模糊等情况,让模型可以更好的学习到低码率视频的特征。
[0085]
经实验证明,与两阶段和一体化的方法对比,本发明在客观评价标准psnr和ssim上都有更好的表现。
[0086]
psnr计算方式如下:
[0087][0088][0089]
r表示真实样本,f表示高分辨率样本,当psnr值越大时,表示预测后的高分辨率样本质量越高。一般来说,当psnr》30时,超分辨率效果较好。
[0090]
ssim计算方式如下:
[0091][0092][0093][0094]
ssim(x,y)=l(x,y)c(x,y)s(x,y)
[0095]
其中,c1、c2、c3为防止分母变成0的常数,k1=0.01,k2=0.03,l=255。对于输入的两幅图像x和y,首先计算其两者亮度之间的差异;然后,分别对两幅图像计算方差,这是对两幅图像进行对比度上的比较;最后再计算两幅图像的协方差,得到两幅图像结构相似性的比对,综合三个方面就可以得到ssim指标。
[0096]
表1在低码率视频超分辨率数据集与其他方法的对比
[0097]
[0098]
vid4是一个常用的视频超分辨率数据集,其包含了4个场景,数量比较小,因此常用作测试集使用。由于vid4数据集的图像分辨率也比较小,因此与研究内容接近,在此数据集上的表现也能一定程度上展现模型的泛化能力。
[0099]
通过表2可以看到,使用本发明所提出的低码率视频超分辨率数据集训练的模型在通用场景下的数据集也有不错的性能,证明了本发明提供的方法在通用视频超分辨率场景下也有较好的鲁棒性。
[0100]
表2在vid4数据集上与其他方法的对比
[0101][0102][0103]
如图9所示,在主观感受上,本发明所提出的方法在运动模糊处理、物体边缘恢复中也取得了更好的效果;图9(a)、图9(d)、图9(g)为采用dain+edvr方法的处理结果示意图;图9(b)、图9(e)、图9(h)为采用zooming slowmo方法的处理结果示意图;图9(c)、图9(f)、图9(i)为采用本发明提供的方法的处理结果示意图。dain+edvr的方法在物体恢复细节上会有所缺失,如楼房的窗户和环境中的树木等,在高分辨率恢复后会非常模糊,整体恢复效果较差。而zooming slowmo在细节恢复上则可能出现过度平滑,失去物体本来的特征,在一些运动幅度比较大的场景会出现物体变形等问题,而本发明所提出的方法对低码率视频处理后能较好地还原物体的细节,具有较好的超分辨率效果。
[0104]
实施例二
[0105]
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供了一种针对低码率视频的时空超分辨率系统。
[0106]
该系统包括:
[0107]
训练样本构建模块,用于采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;
[0108]
模型构建模块,用于构建基于transformer的u型架构模型;所述u型架构模型包括特征提取模块、3个编码器、3个解码器以及高分辨率重建模块;
[0109]
训练模块,用于通过所述训练样本对所述u型架构模型进行训练;
[0110]
时空超分辨率模块,用于通过训练好的u型架构模型对低码率视频进行时空超分
辨率。
[0111]
其中,所述训练样本构建模块具体包括:
[0112]
采集单元,用于采集低码率视频超分辨率数据集;所述低码率视频超分辨率数据集中包含若干大小为448
×
256、帧率为10帧的连续低分辨率视频帧;
[0113]
运动模糊操作加入单元,用于对所有所述低分辨率视频帧加入运动模糊操作;
[0114]
下采样单元,用于对加入运动模糊操作的所有低分辨率视频帧进行4倍下采样,形成高低分辨率图像对,构建训练样本。
[0115]
其中,所述训练模块具体包括:
[0116]
第一输入单元,用于将所述训练样本中4张连续的低分辨率视频帧输入至特征提取模块进行特征提取;
[0117]
第二输入单元,用于将提取到的特征依次输入至3个编码器中进行处理;
[0118]
第三输入单元,用于将编码器处理后的数据分别输入至token maker模块和所述解码器;3个解码器中前两个解码器的输入来自上一级解码器的输出以及对应编码器的输出,最后一个解码器的输入来自所述token maker模块的输出以及对应编码器的输出;
[0119]
第四输入单元,用于将解码器处理后的输入至所述高分辨率重建模块,输出高分辨率视频帧;
[0120]
误差比较单元,用于将输出的高分辨率视频帧与训练样本中的低分辨率视频帧对应的高分辨率视频帧进行误差比较;
[0121]
优化单元,用于根据比较结果优化所述u型架构模型,完成训练过程。
[0122]
实施例三
[0123]
本发明实施例三提供一种电子设备,包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一提供的针对低码率视频的时空超分辨率方法。
[0124]
在实际应用中,上述电子设备可以是服务器。
[0125]
在实际应用中,电子设备包括:至少一个处理器(processor)、存储器(memory)、总线及通信接口(communicationsinterface)。
[0126]
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。
[0127]
通信接口,用于与其它设备进行通信。
[0128]
处理器,用于执行程序,具体可以执行上述实施例所述的方法。
[0129]
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
[0130]
处理器可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0131]
存储器,用于存放程序。存储器可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
[0132]
实施例四
[0133]
基于实施例三的描述,本发明实施例四提供一种存储介质,其上存储有计算机程序,计算机程序可被处理器执行以实现实施例一的针对低码率视频的时空超分辨率方法。
[0134]
本发明实施例二提供的针对低码率视频的时空超分辨率系统以多种形式存在,包括但不限于:
[0135]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
[0136]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网性能。这类终端包括:pda、mid和umpc设备等,例如ipad。
[0137]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0138]
(4)其他具有数据交互功能的电子设备。
[0139]
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
[0140]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0141]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0142]
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0143]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0144]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0145]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0146]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。
[0147]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带、磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本发明中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
[0148]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0149]
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。
[0150]
一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0151]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0152]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种针对低码率视频的时空超分辨率方法,其特征在于,包括:采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;构建基于transformer的u型架构模型;所述u型架构模型包括特征提取模块、3个编码器、3个解码器以及高分辨率重建模块;通过所述训练样本对所述u型架构模型进行训练;通过训练好的u型架构模型对低码率视频进行时空超分辨率。2.根据权利要求1所述的针对低码率视频的时空超分辨率方法,其特征在于,采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本,具体包括:采集低码率视频超分辨率数据集;所述低码率视频超分辨率数据集中包含若干大小为448
×
256、帧率为10帧的连续低分辨率视频帧;对所有所述低分辨率视频帧加入运动模糊操作;对加入运动模糊操作的所有低分辨率视频帧进行4倍下采样,形成高低分辨率图像对,构建训练样本。3.根据权利要求1所述的针对低码率视频的时空超分辨率方法,其特征在于,各所述编码器的尾端设置有tokenmaker模块。4.根据权利要求3所述的针对低码率视频的时空超分辨率方法,其特征在于,通过所述训练样本对所述u型架构模型进行训练,具体包括:将所述训练样本中4张连续的低分辨率视频帧输入至特征提取模块进行特征提取;将提取到的特征依次输入至3个编码器中进行处理;将编码器处理后的数据分别输入至token maker模块和所述解码器;3个解码器中前两个解码器的输入来自上一级解码器的输出以及对应编码器的输出,最后一个解码器的输入来自所述token maker模块的输出以及对应编码器的输出;将解码器处理后的输入至所述高分辨率重建模块,输出高分辨率视频帧;将输出的高分辨率视频帧与训练样本中的低分辨率视频帧对应的高分辨率视频帧进行误差比较;根据比较结果优化所述u型架构模型,完成训练过程。5.根据权利要求1所述的针对低码率视频的时空超分辨率方法,其特征在于,所述u型架构模型的损失函数采用charbonnier损失函数,所述charbonnier损失函数放入表达式为:为:表示生成的超分辨率样本,y表示训练样本,∈为设定的微小常量。6.一种针对低码率视频的时空超分辨率系统,其特征在于,包括:训练样本构建模块,用于采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;模型构建模块,用于构建基于transformer的u型架构模型;所述u型架构模型包括特征
提取模块、3个编码器、3个解码器以及高分辨率重建模块;训练模块,用于通过所述训练样本对所述u型架构模型进行训练;时空超分辨率模块,用于通过训练好的u型架构模型对低码率视频进行时空超分辨率。7.根据权利要求6所述的针对低码率视频的时空超分辨率系统,其特征在于,所述训练样本构建模块具体包括:采集单元,用于采集低码率视频超分辨率数据集;所述低码率视频超分辨率数据集中包含若干大小为448
×
256、帧率为10帧的连续低分辨率视频帧;运动模糊操作加入单元,用于对所有所述低分辨率视频帧加入运动模糊操作;下采样单元,用于对加入运动模糊操作的所有低分辨率视频帧进行4倍下采样,形成高低分辨率图像对,构建训练样本。8.根据权利要求1所述的针对低码率视频的时空超分辨率系统,其特征在于,所述训练模块具体包括:第一输入单元,用于将所述训练样本中4张连续的低分辨率视频帧输入至特征提取模块进行特征提取;第二输入单元,用于将提取到的特征依次输入至3个编码器中进行处理;第三输入单元,用于将编码器处理后的数据分别输入至token maker模块和所述解码器;3个解码器中前两个解码器的输入来自上一级解码器的输出以及对应编码器的输出,最后一个解码器的输入来自所述token maker模块的输出以及对应编码器的输出;第四输入单元,用于将解码器处理后的输入至所述高分辨率重建模块,输出高分辨率视频帧;误差比较单元,用于将输出的高分辨率视频帧与训练样本中的低分辨率视频帧对应的高分辨率视频帧进行误差比较;优化单元,用于根据比较结果优化所述u型架构模型,完成训练过程。9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-5中任一项所述的针对低码率视频的时空超分辨率方法。10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的针对低码率视频的时空超分辨率方法。
技术总结
本发明公开了一种针对低码率视频的时空超分辨率方法、系统及设备,属于视频时空超分辨率领域,该方法包括:采集低码率视频超分辨率数据集,并对所述低码率视频超分辨率数据集进行预处理,构建训练样本;通过所述训练样本对所述U型架构模型进行训练;通过训练好的U型架构模型对低码率视频进行时空超分辨率。本发明有效降低了低码率视频超分辨率时画面细节的跳动和伪影,提升了画质表现,为低码率超分辨率系统展示高质量视频流提出了解决方案。辨率系统展示高质量视频流提出了解决方案。辨率系统展示高质量视频流提出了解决方案。
技术研发人员:尹航 赵天毅 王胤文
受保护的技术使用者:中国传媒大学
技术研发日:2023.05.10
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
