一种基于遗憾最小化的视频摘要方法

未命名 10-18 阅读:266 评论:0


1.本发明涉及一种从视频生成其对应摘要的方法。具体的说,设计一种基于遗憾最小化的有多属性约束的视频摘要生成方法。


背景技术:

2.随着视频信息源源不断涌现和短视频平台的快速发展,人们越来越倾向于通过较短的视频来快速地获取信息。与此同时,随着录影设备如智能手机的发展,视频制作的门槛不断降低,人人都可以分享自己录制的视频到网上,这就使得人们常常会面对大量的质量参差不齐的视频,当视频非常冗长的时候,快速了解每个视频的内容并从中挑选自己所想要的内容就变得极为困难。为了降低人们浏览视频的成本,快速展示长视频的内容,视频摘要技术成为了当前研究的热点。
3.视频摘要的目标是去除视频中冗余的部分,并提取出最重要、最相关、最好看的部分,形成一个能体现视频主要内容的简短摘要。根据摘要呈现的形式可以分为静态摘要和动态摘要,静态摘要以图片集合的形式呈现,而动态摘要以视频片段集合的形式呈现。静态摘要更能降低浏览成本,而动态摘要能保留视频的声音,动态信息等。本发明以静态摘要的形式呈现[1,2,3]。
[0004]
由于视频的复杂性,该项技术仍有着诸多的问题。首先是视频内容信息的提取,如何将这些画面信息量化是一件困难的事情。其次,一个视频摘要的好坏标准具有极强的主观性,对每个人都不尽相同,难以客观评价。
[0005]
画面信息量化方面,一些研究方法是直接以视频画面的像素数据作为计算依据,如聚类,字典学习方法和一些深度学习方法等,但画面中实际包含的信息繁多,可以进一步分离提取,研究者们通常会提取视频画面的低阶特征如颜色直方图特征,方向梯度直方图特征的全局特征,或如sift的局部特征,将多个特征量化后,通过一定权重的线性组合获得综合评分,作为挑选摘要的依据。后来在引入了深度学习的方法之后,视频的深度特征作为画面描述符被广泛使用,一些现有技术中分别用视频的低阶特征和深度特征输入has-rnn模型,得到了相近的实验效果,证明了画面的低阶特征和深度特征都有较强的形容能力[4]。随着目标识别等模型的发展,视频内容的语义信息也被引入进来。
[0006]
要生成视频摘要,除了对单独画面的特征做量化,多个画面组合在一起形成的摘要的特征也可以被量化,例如一些方法中用重要性,代表性,多样性,情节性来形容一个画面组合的基本情况[1]。而由于视频包含的画面数量众多,可能的画面组合极多,一般难以计算所有组合的所有特征,在一些论文和技术中验证了重要性,代表性,多样性的次模性[1],使得计算成本显著减少,但与之相对的,不满足次模性的特征就难以被纳入考虑范围,例如上述的情节性就不满足于次模性。
[0007]
除了计算视频的各类特征,视频摘要的另一个重点是如何组合各类特征。早期的研究者们回归模型得到各项特征的权重,建立一个得到最终得分的线性模型,近期的技术则主要使用深度学习模型在已有的数据集上训练得到更具有针对性的权重[4]。但是基于
训练得到的权重,虽然在其训练的数据集上能达到很好的效果,但是其黑盒训练不清晰,且目前现有的数据集量都极为小,其实验结果很难具有说服力,且如果需要达到预期的效果,针对不同视频种类,不同审美标准,都需要进行大量的模型训练,即使训练完成,介于视频摘要具有主观性,其结果的优劣也难以评价[6]。
[0008]
目前,深度学习方法由于其在现有数据集上的优异表现,在视频摘要领域仍占有主导地位,但传统算法的可解释性强,无监督学习的优势也使其愈发得到重视,深度学习模型与传统算法相结合的方法将会是视频摘要任务发展的主流趋势[3,4,5,6]。
[0009]
上文中提到的文献来源于如下的文章:
[0010]
[1]zhao,b.,li,x.,lu,x.:property-constrained dual learning for video summarization.ieee transactions on neural networks and learning systems(tnnls)31(10),pages:3989-4000,2019.
[0011]
[2]ma,m.,mei,s.,wan,s.,hou,j.,wang,z.,feng,d.d.:video summarization via block sparse dictionary selection.neurocomputing 378,pages:197-209,2020.
[0012]
[3]raj,r.,bhatnagar,v.,singh,a.k.,mane,s.,walde,n.:video summarization:study of various techniques.arxiv preprint arxiv:2101.08434,2021.
[0013]
[4]truong,b.t.,venkatesh,s.:video abstraction:a systematic review and classifification
·
acm transactions on multimedia computing,communications,and applications(tomm)3(1),pages:3-40,2007.
[0014]
[5]tiwari,v.,bhatnagar,c.:a survey of recent work on video summarization:approaches and techniques.multimedia tools and applications 80(18),pages:27187-27221,2021.
[0015]
[6]k.,v.v.,sen,d.,raman,b.:video skimming:taxonomy and comprehensive survey
·
acm computing surveys(csur)52(5),pages:1-38,2019.


技术实现要素:

[0016]
本发明为解决的技术问题:
[0017]
本发明的目的是提出一种基于遗憾最小化的视频摘要方法,具体的说,设计的是一种利用遗憾最小化查询技术,截取部分视频画面,得到一个令绝大多数人满意的摘要的方法。本发明致力于解决视频摘要生成时所需要的成本问题,例如深度学习方法中的学习训练成本,或者对观众的问询成本等。本发明针对视频中的各画面的多种信息,利用一系列图像处理算法及框架实现了图像信息的量化,使视频帧转变为多维数据,针对大量的多维数据,使用遗憾最小化的先进算法sphere筛选出令用户满意的摘要结果,并在必要情况下对结果在情节覆盖性上进行补充。
[0018]
本发明为解决其技术问题采用如下方案:
[0019]
一种基于遗憾最小化的视频摘要方法,包括如下步骤:
[0020]
在权利要求书步骤一中,建立视频摘要候选帧集,通过识别视频结构,提取出视频中各独立镜头的边界。为避免视频结构不清晰导致候选帧数量过少,需要不依赖视频结构重新提取候选帧,具体为将视频均匀分块后,在每个视频块内量化每帧的多维属性,挑选出
块内最佳的一帧作为摘要候选帧。在经过两类方式得到摘要候选帧集后,通过相似性抑制以及一定的画面过滤方式合并视频摘要候选帧集为最终的候选帧集。具体方法如下:
[0021]
其中,镜头边界的判断需要利用帧与前后五十帧的余弦相似度及色彩相似度,利用transnet v2计算每一帧为镜头边界帧的概率。挑选视频块内的最佳的一帧时,提取了该帧的稳定性s,色彩丰富度c,代表性r,清晰度e四个指标作为该帧的特征,之后将四个指标的得分线性组合计算总得分score。得分公式如下:
[0022]
score(f)=ηs·
s(f)+ηc·
c(f)+ηr·
r(f)+ηe·
e(f)
[0023]
线性组合的各权重ηs,ηc,ηr,ηe则沿用目前已有的研究设为8,2,2,1。
[0024]
挑选出块内最佳的一帧作为摘要候选帧。在经过两类方式得到摘要候选帧集后,通过如下公式做相似性的抑制:
[0025]di
≤θd,di=d(fi,f
i+1
),1≤i≤l-1.
[0026]
其中di第i帧画面与第i+1帧画面的相似性,θd为提前设置的相似性阈值,d(fi,f
i+1
)为计算两帧相似性,具体算法上我们采用的是余弦相似性。经过了相似性抑制后,我们还辅助增加了一些画面过滤方式,例如去除纯色等无意义画面,最终合并了边界帧集与块代表帧集为最终的候选帧集。
[0027]
在权利要求书步骤二中,本发明将视频摘要与多准则决策的方法中的遗憾查询方法结合,将视频画面量化为多个标准后,可以将视频摘要问题转化为多准则决策查询问题。得到视频摘候选帧集后,提取每一帧的各特征信息并量化,使得每一帧都可以转化为一个多维数组。需要处理的特征信息包括该帧含有的目标主体信息、运动轨迹信息、多样性信息、色彩丰富度、图像质量5个维度,每个维度的得分标准化为一个0到1之间的分数,每一帧即转化为一个5维的得分数组。5个维度的计算覆盖了画面的低阶特征、深度特征、语义特征和时序特征,具体方法如下:
[0028]
特征一为色彩丰富度。一个好的视频摘要应当是讨好眼球的,色彩丰富鲜艳的图片比一般图片更能吸引人的注意力,更能使人满意。主流方法利用画面的三个颜色通道将画面帧的色彩丰富程度划分为1-7级的鲜艳程度,本发明计算画面鲜艳分数时,先计算红色通道r与绿色通道g的差值rg,再结合蓝色通道b通过公式计算差值yb,最后再得到最终分数c前,根据rg和yb的标准差和均值计算整体的标准差σ
rgyb
和平均值μ
rgyb
,公式如下:
[0029][0030][0031]
c=σ
rgyb
+0.3*μ
rgyb
[0032]
特征二为目标主体信息。通过成熟的yolov5框架识别画面中的人物,及其他目标,通常我们会认为一个占据画面面积更大且更接近画面中心的目标更为重要,所以本发明在得到画面目标的坐标信息后,计算其面积并除以其与画面中心的距离,认为是该目标在本画面中的信息度。画面内第i个目标主体的面积记为其与画面中心的距离记为则第i个目标主体的信息度
[0033]
计算画面中的所有目标的信息度,相加后得到该画面整体的信息度o。
[0034]
特征三为运动轨迹信息。一般来说,包含有移动物体的画面会带有更多的信息,本发明使用shi-tomasi角点检测算法定位画面中的目标物体,再通过金字塔lucas-kanade光流法计算视频中物体的运动情况,将目标物体的运动信息与视频画面的整体运动信息做对比,因为被跟踪目标的移动速度应当是小于背景的移动速度的,所以经过判断可以得到画面中所包含的跟踪目标的运动情况,记为运动轨迹信息t。
[0035]
特征四为图像质量。一个好的视频帧画面必定应当避免其有像素上的损失,或者画面上的失真。本发明使用brisque算法获取图片质量评分。brisque算法是一种无参考的空间域图像质量评估算法,其从图像中提取mean subtracted contrast normalized(mscn)系数,将mscn系数拟合成asymmetric generalized gaussian distribution(aggd)非对称性广义高斯分布,提取拟合的高斯分布的特征,输入到支持向量机svm中做回归,从而得到图像质量的评估结果,记为图像质量0。
[0036]
特征五为多样性信息。摘要中的画面应当尽量高的保持多样性,但摘要画面的多样性应当是局部的多样性,即该画面与前后相邻镜头片段应当有较大的差异,而不相邻的镜头之间的多样性则不应当有过多的要求,因为即使两个画面很相似,但在不同的时间段,其所蕴含的信息是完全不同的,例如足球比赛视频中不同时间段上相似的进球画面,在摘要中都应当保留。而一个画面如果在局部有很高的多样性,即证明其很有可能是一个完全不同的镜头,该画面也很有可能是一个镜头边界。本发明使用了transnetv2模型,基于画面的3d特征,比较该帧与前后50帧画面的相似性,得到镜头边界预测值,即画面的局部多样性得分d。
[0037]
所有的数据在得到后都通过min-max标准化到[0,1],数值越高越好,最终得到每个代表帧的5维分数,即摘要候选集中的每一帧画面被转化为[c,o,t,q,d]的形式。
[0038]
在权利要求书步骤三中,比较所有候选帧的5维得分,通过遗憾最小化算法根据所需要的摘要比例生成摘要,找到一个摘要组合可以使其能让在5个维度上偏好不同的人都能对摘要比较的满意。
[0039]
遗憾最小化查询提出遗憾率的概念来衡量用户在面对某个集合时相较于面对整个数据集时的满意程度,并为用户返回使得遗憾率最小的集合,也被称为遗憾最小化集合。和常见的top-k查询相比,遗憾最小化查询不需要用户提供复杂的效用函数(utility function)来表明他们的偏好;和skyline查询相比,遗憾最小化查询返回大小可控的结果集。其最基本的思想是构造一系列有代表性的效用函数,并找到这些效用函数上取得最大效用值(utility)的点,并将这些点作为结果集返回。
[0040]
具体的来说,一个在d维点集p上的效用函数f可以表示为f=《f[1],f[2],

,f[d]》,其中f[i]∈r
+
,并且点集p中一个点的具体形式为p=(p[1],p[2],

,p[d])。该点p的在效用函数f下的效用值可以表示为:
[0041][0042]
而一个效用函数f在一个点集上的效用值即为在该点集中所有点上的最大效用值,称为收益(gain),记为
[0043]
在本发明中,视频摘要任务场景下,点集即为帧集,这里将点集p记为视频帧集v,生成的摘要帧集记为s。而f的遗憾(regret)则是其在小点集上的收益与大点集上的收益之差,例如函数f在摘要上的遗憾为rv(s,f)=g(v,f)-g(s,f),此时的遗憾率即为:
[0044][0045]
该公式即可表示一个用户,其偏好为f,在面对一个视频v的摘要s时,他的遗憾率即为rrv(s,f)。在本发明中,我们需要考虑所有的用户群体,即所有可能的效用函数f,所以我们建立一个效用函数集合集合内离散分布有大量的不同的效用函数,其可以认为覆盖了几乎所有用户的偏好情况,在这个代表了所有用户的集合上,我们可以评估一个视频摘要的最大遗憾率具体公式如下:
[0046][0047]
该公式表示遍历用户的效用函数计算每个用户的遗憾率,从中选取最大的用户遗憾率,作为该摘要的最大遗憾率,即视频摘要遗憾率。
[0048]
本发明的任务是生成一个摘要,使其的最大遗憾率最小。具体采用的算法为目前最先进的sphere算法,其可以高效率的生成不超过指定数量的子集内的点,在视频摘要任务中即生成不超过指定长度的视频摘要。
[0049]
在权利要求书步骤四中,对摘要结果做情节性上的进一步补充,以满足其在原视频中时间序列上的覆盖程度,主要通过观察已有摘要中的帧之间的时间序列分布情况,在间隔过大的帧之间添加合适的帧形成最终的摘要结果。
[0050]
观察已有摘要帧集合s中帧的时间序列分布,找出最大时间序列间隔,并从摘要候选帧集中挑选出时间序列位于最大间隔中间的帧进入摘要,形成新的摘要s

,循环该过程直到摘要帧数量满足要求。具体公式如下:
[0051]
interval=max(i(fi)-i(f
i-1
)),i=1,2,

,|s

|-1,
[0052][0053][0054]
i(fi)表示第i帧的时间序列,interval表示现有摘要内帧之间最大的时间序列间隔,λ即表示即将插入的新的帧的时间序列坐标,即表示按时间序列添加新帧进入摘要。
[0055]
本发明采用以上技术方案与现有技术相比,具有以下有益效果:
[0056]
(1)本发明充分利用可能的属性和多种先进的技术来摘要视频,可以更好的量化视频画面内容,有效的建立候选画面集合,为摘要的生成建立更好的基础。
[0057]
(2)本发明创新性的将遗憾最小化算法与视频摘要任务结合,利用遗憾最小化查询可以在不依赖额外信息的情况下,保证所有用户对摘要结果都有一定的满意程度,该方法具有更高的普适性。
[0058]
(3)本发明对于遗憾最小化得到的结果,通过故事性属性的计算,将时间序列信息补充在结果当中,使得本方法能在满足摘要大小的同时也能使传统遗憾最小化算法在视频摘要任务中的效果更优。
附图说明
[0059]
图1是本发明的总体处理流程图。首先对视频进行摘要候选帧的筛选,再对候选帧画面内的信息进行量化,再利用量化后的多维信息通过遗憾最小化查询算法生成摘要,最后基于情节性对摘要结果进行画面补充。
[0060]
图2是本发明在筛选摘要候选帧时的流程图,需要挑选出镜头边界帧以及视频分块后的块代表帧,再计算帧之间的相似性,删除相似的帧,留下的帧即作为摘要候选帧。
[0061]
图3是本发明在量化帧画面信息的流程图。
具体实施方式
[0062]
以下结合附图和实施案例对本发明的技术方案做进一步详细说明:
[0063]
第一步,我们先筛选视频的候选帧,首先查找视频的镜头边界帧,例如f1,又将视频均匀分块后,通过比较分块内的每帧的基本特征,找到每个分块内的最佳代表帧,例如f2,通过计算两帧之间的相似性,如果超过阈值,则两帧都留作摘要候选帧,否则删除其中一帧。比较所有边界帧和分块代表帧后即得到摘要候选帧集合。
[0064]
第二步,摘要候选帧集合内每帧画面的内容信息都生成其对应的5维分数,并将得分标准化介于0到1之间的分数,例如摘要候选帧f1在色彩丰富度c,目标信息o,运动轨迹t,图像质量q,多样性得分d上的分数[c,o,t,q,d]为[0.76,0.87,0.96,0.56,0.88],即p=(0.76,0.87,0.96,0.56,0.88)。
[0065]
第三步,摘要候选帧集合内的每一帧都生成其对应的5维分数后,将所有的分数点集合输入遗憾最小化查询算法,筛选出最佳的摘要组合,具体过程如下,例如帧f1得分为p1=(0.76,0.87,0.96,0.56,0.88),帧f2得分为p2=(0.38,0.24,0.15,0.48,0.37),帧f2在5个维度上都远弱于帧f1,所以首先会直接淘汰帧f2,而对于帧f3,其5维得分为p3=(066,0.77,0.86,0.96,0.78),可以看到其在第4个维度上显著优于帧f1,此时需要比较这两帧的优越性,具体来说,对于不同的用户,对不同的维度有不同的偏好,例如用户a对5个维度的偏好权重为0.2,0.2,0.2,0.3,0.1即其效用函数f=《0.2,0.2,0.2,0.3,0.1》,则其对帧f1的偏好程度,即效用值可以认为是f(p1)=0.2
×
0.76+0.2
×
0.87+0.2
×
0.96+0.3
×
0.56+0.1
×
0.88=0.774,对帧f2的偏好程度可以认为是f(p2)=0.2
×
0.66+0.2
×
0.77+0.2
×
0.86+0.3
×
0.96+0.1
×
0.78=0.824,则我们会优先选择帧f2作为摘要帧,其中0.824与0.774之间的差距即为遗憾。当帧f1,帧f2组合成为一个摘要时,即s={f1,f2},用户a对该摘要的效用值即为其中帧最大的效用值0.824,如果用户a在面对整个视频所有帧v时,最大的效用值为0.9,则该摘要的遗憾即为rv(s,f)=g(v,f)-g(s,f)=0.9-0.824=0.076,遗憾率即为当面向的用户数量庞大时,我们无法满足所有用户的最佳需求,用户面对的结果与其最佳选择之间的差值即为遗憾,我们建立可以覆盖所有偏好情况的函数库,计算在其基础上不同的摘要帧组合可能会获得的最大遗憾率,从中挑选出最大遗憾率最小的一个组摘要帧组合作为结果输出。
[0066]
第四步,在得到遗憾最小化的摘要结果之后,我们计算每个摘要帧之间的时间序列间隔,例如结果中f1、f2、f3的时间序列分别为第530帧,第630帧,第1530帧,则f1、f2之间的时间序列为最大,即interval=1000,则从摘要候选帧集合中挑选最接近位于两帧时间序
列号中间,即时间序列号为1030的候选帧,例如从候选帧集合中找到最接近的是第950帧,则将第950帧加入摘要结果,不断如此重复补充过程,直到摘要结果中帧的数量满足任务需求,例如此时摘要结果有4帧,而原视频时长32秒,一般认为一帧画面能有效代表其附近2秒的视频原片段,所以摘要结果可以覆盖原视频8秒,当此次摘要任务需要25%的摘要比例时,4帧画面已满足任务要求,即可输出摘要结果,第530帧,第950帧,第630帧,第1530帧。

技术特征:
1.一种基于遗憾最小化的视频摘要方法,其特征包括如下步骤:步骤一、建立视频摘要候选帧集,通过识别视频结构,提取出视频中各独立镜头的边界。为避免视频结构不清晰导致候选帧数量过少,需要不依赖视频结构重新提取候选帧,具体为将视频均匀分块后,在每个视频块内量化每帧的多维属性,挑选出块内最佳的一帧作为摘要候选帧。在经过两类方式得到摘要候选帧集后,通过相似性抑制以及一定的画面过滤方式合并视频摘要候选帧集为最终候选帧集。步骤二、量化候选帧集合内每一帧的各特征信息,使得每一帧都可以转化为一个多维数组。需要处理的特征信息包括:目标主体信息、运动轨迹信息、多样性信息、色彩丰富度、图像质量5个维度,每个维度的得分标准化为一个0到1之间的数,每一帧即转化为一个五维的得分数组。步骤三、比较所有候选帧的5维得分,通过遗憾最小化算法根据所需要的摘要比例生成摘要,找到一个摘要组合可以使其能让在5个维度上偏好不同的用户都能对摘要满意。步骤四、对摘要结果做情节性上的进一步补充,以满足其在原视频中时间序列上的覆盖程度,主要通过观察已有摘要中的帧之间的时间序列分布情况,在间隔过大的帧之间添加合适的帧形成最终的摘要结果。2.如权利要求1中步骤一所述的一种基于遗憾最小化的视频摘要方法,其特征在于,建立视频摘要候选帧集的过程中,还包括:利用帧与前后五十帧的余弦相似度及色彩相似度作为镜头边界的判断依据。挑选视频块内最佳帧时,需要考虑帧的色彩丰富度、边缘分布情况、稳定性、多样性,并通过线性组合计算总得分。3.如权利要求1步骤二所述的一种基于遗憾最小化的视频摘要方法,其特征在于,信息量化的过程中使用了多种图像处理技术,包括:利用yolov5识别目标,根据目标主体的范围及与画面中心的距离计算其主体得分;利用色彩直方图计算该图在rgb上的色彩丰富度;利用brisque计算图像的质量;利用余弦相似度计算图像在视频中的多样性。4.如权利要求1中步骤三所述的一种基于遗憾最小化的视频摘要方法,其特征在于,不需要对模型进行训练学习,也不需要向用户进行提问,其包括:利用sphere算法分析输入的多维数据数据,挑选出一个摘要组合使其在在面向不同偏好的用户时,都能够有一个最小遗憾的选项,该遗憾即为用户在面向该摘要组合时,摘要组合的各项得分与其心目中的最佳摘要组合的得分上的差值。每个视频摘要的最大遗憾率的具体计算公式如下:该公式表示在函数集合内遍历用户的偏好函数(效用函数)f计算每个用户对视频v的摘要s的遗憾率rrv(s,f),从中选取最大的用户遗憾率,作为该摘要的最大遗憾率即视频摘要遗憾率。本发明的任务为生成一个摘要,其视频摘要遗憾率最小。5.如权利要求1中步骤四所述的一种基于遗憾最小化的视频摘要方法,其特征在于,基于帧在视频中的时间序列进行补充挑选:
观察已有摘要帧集合中的时间序列分布,找出最大时间序列间隔,并从摘要候选帧集中挑选出时间序列位于最大间隔中间的帧进入摘要,形成新的摘要,重复该过程直到摘要帧数量满足要求。

技术总结
本发明涉及一种视频摘要方法,具体的说,设计的是一种利用遗憾最小化,截取部分视频画面,得到一个令绝大多数人满意的摘要的方法。本发明致力于解决视频摘要生成时所需要的成本问题,例如深度学习方法中的学习训练成本,或者对观众的问询成本等。本发明针对视频中的各画面的多种信息,利用一系列图像处理算法及框架实现了信息的量化,使画面转变为多维数据,针对大量的多维数据,本发明创新地使用遗憾最小化算法与视频摘要任务结合,筛选出令绝大多数人最满意的摘要结果,并对结果在情节覆盖性上进行补充。本发明广泛适用于各类视频浏览、视频检索、视频推广、监控查询等应用场景。监控查询等应用场景。


技术研发人员:郑吉平 徐宇尧
受保护的技术使用者:南京航空航天大学
技术研发日:2023.08.09
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐