模型训练、视频场景分割方法、设备及计算机可读介质与流程
未命名
08-15
阅读:100
评论:0
1.本技术涉及视频图像处理领域,尤其涉及一种用于视频场景分割的模型训练、视频场景分割方法、设备及计算机可读介质。
背景技术:
2.目前关于视频场景的分割方案中,通常将视频场景分割的算法视为一种序列标注问题。也就是将镜头序列提取图像特征后,得到镜头的图像特征序列,然后采用序列标注方法将对每个序列元素进行图像特征识别,标示该序列元素所对应的镜头是否为场景的分割点。该方案中,将视频场景分割中镜头的图像特征序列作为了一个普通的序列,对于场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性没有进行考虑,因此会导致分割所获得的结果准确性不足。
技术实现要素:
3.本技术的多个方面提供一种模型训练、视频场景分割方法、设备及计算机可读介质,用以解决目前的视频场景分割方案中准确性不足的问题。
4.本技术的一方面,提供一种用于视频场景分割的模型训练方法,其中,所述方法包括:
5.获取第一视频数据集中第一样本的第一镜头序列,所述第一镜头序列包括多个第一镜头;
6.将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征;
7.对所述第一镜头序列进行场景分割,获取多个伪场景,每个伪场景中包括多个第一镜头;
8.从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度;
9.将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练,以使同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值。
10.本技术实施例还提供了一种视频场景分割方法,所述方法使用前述模型训练方法所训练完成的特征提取模型,所述方法包括:
11.对目标视频进行镜头分割,获取所述目标视频的第三镜头序列,所述第三镜头序列包括多个第三镜头;
12.将所述第三镜头输入所述特征提取模型,获取所述第三镜头的图像特征;
13.基于所述目标视频的第三镜头,构建第三相似度矩阵,其中,所述第三相似度矩阵为q
×
q的矩阵,q为所述目标视频的镜头数量,每个矩阵元素s
k,l
=psk★
ps
l
,psk表示所述目标视频的第k个镜头,ps
l
表示所述目标视频的第l个镜头,
★
表示计算psk和ps
l
之间图像特征的相似度;
14.遍历所述目标视频中的第三镜头,从所述第三相似度矩阵中提取每个第三镜头的检测窗口,所述检测窗口包括第三镜头及其关联镜头所对应的矩阵元素所组成的窗口;
15.将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界。
16.此外,本技术实施例还提供了一种用于视频场景分割的模型训练装置,所述装置包括:
17.特征提取模块,用于获取第一视频数据集中第一样本的第一镜头序列,所述第一镜头序列包括多个第一镜头,以及将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征;
18.场景构建模块,用于对所述第一镜头序列进行场景分割,获取多个伪场景,每个伪场景中包括多个第一镜头;
19.矩阵构建模块,用于从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度;
20.训练模块,用于将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练,以使同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值。
21.本技术实施例还提供了一种视频场景分割装置,所述装置使用前述模型训练装置所训练获得的特征提取模型,所述装置包括:
22.特征提取模块,用于对目标视频进行镜头分割,获取所述目标视频的第三镜头序列,所述第三镜头序列包括多个第三镜头;以及将所述第三镜头输入所述特征提取模型,获取所述第三镜头的图像特征;
23.矩阵构建模块,用于基于所述目标视频的第三镜头,构建第三相似度矩阵,其中,所述第三相似度矩阵为k
×
k的矩阵,k为所述目标视频的镜头数量,每个矩阵元素s
k,l
=psk*ps
l
,psk表示所述目标视频的第k个镜头,ps
l
表示所述目标视频的第l个镜头,
★
表示计算psk和ps
l
之间图像特征的相似度;
24.窗口生成模块,用于遍历所述目标视频中的第三镜头,从所述第三相似度矩阵中提取每个第三镜头的检测窗口,所述检测窗口包括第三镜头及其关联镜头所对应的矩阵元素所组成的窗口;
25.边界识别模块,用于将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界。
26.本技术实施例还提供了一种电子设备,所述电子设备包括:
27.至少一个处理器;以及
28.与所述至少一个处理器通信连接的存储器;其中,
29.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的模型训练方法或视频场景分割方法。
30.本技术实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现前述的模型训练方法或视频场景分割方法。
31.本技术实施例所提供的用于视频场景分割的模型训练方案中,用于对视频场景分
割中所使用到的特征提取模型进行预训练,在获取到第一视频数据集中第一样本的第一镜头序列后,将第一镜头序列中的第一镜头输入获取所述第一镜头的图像特征,然后对所述第一镜头序列进行场景分割,获取多个伪场景,从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度。由于同一个伪场景中的两个第一镜头之间图像特征的相似度较小,而不同伪场景的两个镜头之间图像特征的相似度较大。因此,将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练,并设定训练目标为同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值,可以使得训练完成后的特征提取模型在提取图像特征时可以反映出场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性,从而提升视频场景分割的准确性。
32.本技术另一些实施例所提供的用于视频场景分割的模型训练方案中,在对视频场景分割中所使用到的特征提取模型完成预训练后,可以使用已标注场景标签的第二视频数据集对特征提取模型进行进一步的训练,在获取到第二视频数据集中第而样本的第二镜头序列后,可以将第二镜头序列中的第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征,由于第二视频数据集中的第二样本是已经标注过场景标签的样本,其中已经确定了属于同一场景的镜头,因此可以将所述第二视频数据集作为训练样本,对所述特征提取模型进行进一步训练,将训练目标设定为属于同一场景的镜头之间图像特征的相似度提升至第三预设值,属于不同场景的镜头之间图像特征的相似度降低至第四预设值,由此可以进一步优化特征提取模型,提升视频场景分割的准确性。
33.本技术另一些实施例所提供的用于视频场景分割的模型训练方案中,已标注场景标签的第二视频数据集还可以用于训练神经网络模型,在获取到第二视频数据集中第而样本的第二镜头序列后,可以将第二镜头序列中的第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征,然后基于属于同一第二样本的第二镜头,构建第二相似度矩阵,其中,所述第二相似度矩阵为m
×
m的矩阵,m为第二样本的镜头数量,每个矩阵元素s
m,n
=psm*psn,psm表示所述第二样本的第m个镜头的图像特征,psn表示同一第二样本的第n个镜头的图像特征,*表示计算psm和psn之间的相似度。由于在该第二相似度矩阵中,m和n相同的对角线上的矩阵元素表示同一个镜头之间图像特征的相似度,其余位置的矩阵元素则表示不同镜头之间图像特征的相似度,该矩阵中场景边界所在镜头及其前后关联的镜头所在的矩阵位置处会表现出一定的特征,因此从所述第二相似度矩阵中提取第二镜头及其关联镜头所对应的矩阵元素所组成的窗口,作为检测窗口,该检测窗口用于输入神经网络模型,以识别出对应的第二镜头是否为其所属的第二样本中的场景边界。而第二视频数据集中的第二样本是标注了场景标签的样本,因此可以基于于所述第二视频数据集所提取的检测窗口作为训练样本,对神经网络模型进行训练,通过将训练目标设定为第二样本中已标注的关于第二镜头的场景标签与基于所述神经网络模型所获取的识别结果一致,即可使神经网络模型能够准确地检测对相似度矩阵中所提取的检测窗口进行检测,判断检测窗口中心的镜头是否为场景边界。
34.此外,本技术实施例所提供的视频场景分割方案中,由于使用了模型训练方案所训练完成的特征提取模型和/或神经网络模型,在分割过程中可以考虑到了场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性,因此可以提升视频
场景分割的准确性。
附图说明
35.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:
36.图1为本技术实施例提供的一种用于视频场景分割的模型训练方法的处理流程示意图;
37.图2本技术实施例中所构建的第一相似度矩阵的示意图;
38.图3为本技术实施例中进一步训练特征提取模型的处理流程示意图;
39.图4为本技术实施例中训练神经网络模型的处理流程示意图;
40.图5为本技术实施例中所构建的第二相似度矩阵的示意图;
41.图6为本技术实施例中的一个视频的所有镜头所构建的余弦相似度矩阵的示意图;
42.图7为采用本技术实施例提供的模型训练方案对特征识别模型以及神经网络模型进行训练的示意图;
43.图8为本技术实施例提供的一种视频场景分割方法的处理流程示意图;
44.图9为本技术实施例中由第三相似矩阵中提取到的一个检测窗口的示意图;
45.图10为本技术实施例中对检测窗口进行图像化映射处理后的示意图;
46.图11为本技术实施例的一种用于视频场景分割的模型训练装置的结构示意图;
47.图12为本技术实施例的一种视频场景分割装置的结构示意图;
48.图13为适用于实现本技术实施例中的方案的一种设备的结构示意图;
49.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
50.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.在本技术一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
52.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
53.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机程序指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器
(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
54.本技术实施例提供了用于视频场景分割的模型训练方法,以及基于训练完成后的模型实现视频场景分割的方法,在进行模型训练时采用无场景标签的第一视频数据集作为训练样本,从中提取图像特征并构建第一相似度矩阵,对所述特征提取模型进行训练,并设定训练目标为所述第一相似度矩阵中同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值,可以使得训练完成后的特征提取模型在提取图像特征时可以反映出场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性,从而提升视频场景分割的准确性。
55.在此基础上,可以基于已标注场景标签的第二视频数据集对完成前述训练的特征提取模型进行进一步训练,优化所述特征提取模型,提升视频场景分割的准确性。
56.此外,对于视频场景分割时所使用到的神经网络模型,也可以基于已标注场景标签的第二视频数据集对其进行训练,将基于所述第二视频数据集所提取的检测窗口作为训练样本,对神经网络模型进行训练,以使第二样本中已标注的关于第二镜头的场景标签与基于所述神经网络模型所获取的识别结果一致,从而提升神经网络模型对于场景边界的检测精度,进一步提升场景分割的准确性。
57.在实际场景中,上述方法的执行主体可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序,所述用户设备包括但不限于计算机、手机、平板电脑、智能手表、手环等各类终端设备,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现,可以用于实现设置闹钟时的部分处理功能。在此,云由基于云计算(cloud computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
58.图1示出了本技术实施例提供的一种用于视频场景分割的模型训练方法的处理流程,该方法至少包括以下的处理步骤:
59.步骤s101,获取第一视频数据集中第一样本的第一镜头序列。
60.对于一个视频而言,可以由连续的视频帧组成。其中,一组连续的视频帧可以构成一个镜头,而若干连续且相关的镜头则构成一个场景,而多个场景则组成了视频。
61.在本实施例中,所述第一视频数据集可以是没有标注过场景标签的视频数据集,该视频数据集中所包括的视频文件即为本方案中的第一样本。所述第一镜头序列包括按照时序排列的一系列第一镜头,每一个镜头包括多个连续的视频帧。例如,在本实施例中,所述第一视频数据集可以是包括300部电影的数据集,该数据集中的300部电影即为300个第一样本,而每一部电影均由数量不等的第一镜头组成,这些第一镜头按照时序排列后即为第一镜头序列。
62.在获取所述第一镜头序列时,若所述第一视频数据集中的第一样本是已经完成镜头分割的样本,则可以直接基于已分割的信息,获取关于各个第一样本的第一镜头序列;若
所述第一视频数据集中的第一样本未完成镜头分割,则可以采用任意已有的镜头分割方案对所述第一样本进行镜头分割,如灰度分割法、边缘分割法、彩直方图分割法、块匹配镜头分割方法、统计判决镜头分割方法、基于聚类的镜头分割方法、镜头渐变的检测算法等,均可以用于对第一样本进行镜头分割处理,获取第一镜头序列。以前述第一视频数据集中的电影film1例,多采用基于聚类的镜头分割方法对其进行处理后,可以获得关于该电影film1的第一镜头序列,该第一镜头序列可以包括按照时序排列的第一镜头shot_1、shot_2、shot_3、
……
、shot_n。
63.在此,本领域技术人员应当理解,上述关于镜头分割方案的具体内容仅为举例,现有或今后出现的基于类似原理的其它形式如果能够适用于本技术,也应该包含在本技术的保护范围内,并以引用的形式包含于此。
64.步骤s102,将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征。
65.在实际场景中,由于同一镜头中各个视频帧的图像具体一定的相关性,因此可以使用镜头中的部分视频帧的图像特征来表示整个镜头的图像特征。本实施例中,在获取第一镜头的图像特征时,可以先提取所述第一镜头的关键帧,然后将所述关键帧输入特征提取模型,获取所述关键帧的图像特征,并将所述关键帧的图像特征作为所述第一镜头的图像特征。其中,所述关键帧可以是第一镜头中的一个或多个视频帧,例如以第一镜头shot_1为例,若该镜头中由500个视频帧组成,可以提取其中的三个视频帧作为关键帧,具体的提取方式可以根据实际应用场景的需求设定,例如可以是随机抽样的方式,也可以是提取镜头边界以及中间的视频帧作为关键帧,此外还可以是基于图像中的色彩特征、形状特征的关键帧提取等。在获取确定了三个关键帧之后,可以将这些关键帧输入至特征提取模型,分别获取三个关键帧的图像特征,将其作为所述第一镜头的图像特征,或者也可以对三个关键帧的图像特征进行诸如加权计算或者其它方式的数值处理后,再作为所述第一镜头的图像特征。
66.步骤s103,对所述第一镜头序列进行场景分割,获取多个伪场景。其中,每个伪场景中包括多个第一镜头。本步骤中进行场景分割所采用的场景分割方案可以是任意已有视频场景分割方案,是用于对作为训练样本的第一视频数据集进行初步的处理,因此其分割的结果可以定义为“伪场景”。以前述的电影film1所对应的第一镜头序列为例,采用基于动态规划的最优序列分组(optimal sequential grouping)算法,该电影film1所对对应的第一镜头序列进行场景分割,可以获得p个伪场景。每个伪场景中包括了多个第一镜头,例如第一个伪场景f_sence_1包括了11个第一镜头shot_1~shot_11,第二个伪场景f_sence_2包括了13个第一镜头shot_12~shot_24等。
67.为了进一步提升后续处理的准确性,在获取伪场景时,可以先对所述第一镜头序列进行场景分割,获取多个初始场景,该初始场景即为初步处理获取到的、还未经过筛选的伪场景,每个初始场景中包括了多个第一镜头。对于各个初始场景,可以基于其中各个第一镜头的图像特征进行进一步的筛选,来最终确定伪场景。
68.本实施例中给出的一种筛选的具体方式如下:可以根据第一镜头的图像特征,筛选出每个初始场景中与中央镜头的图像特征的相似度最高的a个第一镜头。其中,所述中央镜头为初始场景中符合预设条件的镜头,该预设条件可以根据实际应用场景的需求由用户预先设定,如本实施例中可以将初始场景是时序位置处于中央的镜头作为中央镜头。以一
个包括了9个第一镜头shot_1~shot_9的初始场景为例,其中的第5个镜头shot_5即为中央镜头,通过将其余的第一镜头shot_1~shot_4以及shot_6~shot_9,分别与中央镜头shot_5进行图像特征的相似度计算,即可确定其余各个第一镜头与中央镜头之间图像特征的相似度。此时,对相似度进行排序后,即可筛选出每个初始场景中与中央镜头的图像特征的相似度最高的a个第一镜头,然后将所述a个第一镜头与对应的中央镜头确定为一个伪场景。若本实施例中设定a为4,相似度排序靠前的4个第一镜头分别为shot_2、shot_3、shot_4以及shot_6,则对于前述包括了第一镜头shot_1~shot_9的初始场景,对其进行筛选的结果为:包括shot_2~shot_6这a+1个第一镜头的伪场景。
69.步骤s104,从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度。例如,可以从第1个伪场景中提取其中的第2个镜头,同时从第3个伪场景中提取其中的第5个镜头,进而计算出这两个第一镜头之间图像特征的相似度。遍历每个伪场景中所有镜头,即可计算出各个伪场景的两个第一镜头之间图像特征的相似度。
70.在本技术的一些实施例中,遍历计算的结果可以采用矩阵的形式表示,即从每个伪场景中分别提取第一镜头,来构建第一相似度矩阵。在通过前述的步骤获取到多个伪场景后,即可从每一个伪场景中提取两个第一镜头来作为构建矩阵的样本,当获取到的伪场景数量为n个时,从每个伪场景中提取两个第一镜头,由此可以获得2n个第一镜头,基于该2n个第一镜头所构建的第一相似度矩阵为n
×
n的矩阵,如图2所示。每个矩阵元素s
i,j
=ps
i,1
★
ps
j,2
,ps
i,1
表示第i个伪场景的第一个镜头,ps
j,2
表示第j个伪场景的第二个镜头,
★
表示计算ps
i,1
和ps
j,2
之间图像特征的相似度,i和j的取值为1至n的正整数,即1、2、3、
……
、n。对于第一视频数据集中的任意一个第一样本,都可以基于上述步骤构建出对应的第一相似度矩阵。图2中所示出的较少数量的矩阵元素仅为便于说明,不应理解为对实际数量的限制。
71.在该第一相似度矩阵中,i和j相同的对角线上的矩阵元素表示的是同一个伪场景中的两个镜头之间图像特征的相似度,而其余的矩阵元素则表示不同伪场景的两个镜头之间图像特征的相似度。例如,矩阵元素s
1,1
表示第1个伪场景其中一个镜头ps
1,1
与该伪场景中的另一个镜头的ps
1,2
之间图像特征的相似度,而矩阵元素s
1,2
表示第1个伪场景其中一个镜头ps
1,1
与第2个伪场景中的一个镜头的ps
2,2
之间图像特征的相似度。
72.步骤s105,将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练。进行训练时,可以从第一视频数据集中的选取任意数量的视频,通过前述步骤遍历计算伪场景的两个第一镜头之间的图像特征的相似度,由于训练的目的在于使得特征提取模型从镜头中提取出能够反映场景内和场景间的镜头之间内在关联性的图像特征,也就是相同场景内的两个镜头之间图像特征的相似度较高,而不同场景内的两个镜头之间图像特征的相似度较低。
73.因此,可以设定训练目标为同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值。其中,所述相似度可以采用余弦相似度,此时第一预设值可以是接近于1的数值,即同一伪场景的两个镜头之间图像特征的相似度高,这两个镜头为正样本对;而所述第二预设值则可以设定为接近于0的数值,即不同伪场景的两个镜头之间图像特征的相似度低,这两个镜头为负样本对。
74.在实际场景中,该训练过程可以参考clip(contrastive language
–
image pre-training,可对比语言-图像预训练)算法,使用对比损失(contrastive loss)函数来评估特征提取模型的训练是否完成,其区别在于clip算法中的样本对为文本与图像的特征,而本方案中输入的样本对为两个镜头的特征。相应地,所述特征提取模型可以采用clip算法中的图像编码器,具体可以根据实际场景的需求采用resnet(residual network,残差网络)模型或者是vit(vision transformer,视觉转换器)模型,由此所获取到的图像特征可以是包括clip-vit特征或clip-resnet特征。
75.通过上述方式完成特征提取模型的训练后,该特征提取模型在提取图像特征时可以反映出场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性,从而提升视频场景分割的准确性。
76.在本技术的实施例提供的另一种用于视频场景分割的模型训练方法,在基于第一视频数据集完成对特征提取模型的训练之后,还可以基于已标注场景标签的第二视频数据集对特征提取模型进行进一步的训练。由此,在本技术实施例中,可以将第一次基于第一视频数据集的训练定义为预训练,而将本次基于第二视频数据集的训练定义为微调。其中,微调的具体处理过程如图3所示,至少包括以下的处理步骤:
77.步骤s301,获取第二视频数据集中第二样本的第二镜头序列。
78.其中,所述第二视频数据集中的第二样本为已标注场景标签的样本,所述场景标签用于标识对应的镜头是否为场景边界,即第二视频数据集中的第二样本已经预先完成了场景分割。在实际场景中,为了确保用于训练的第二样本的场景标签的有效性,可以使用人工标注的视频作为第二视频数据集中的第二样本。
79.类似于第一视频数据集,所述第二视频数据集中的第二样本也可以是已经完成镜头分割的样本,此时直接基于已分割的信息,获取关于各个第二样本的第二镜头序列。此外,也可以采用任意已有的镜头分割方案对所述第二样本进行镜头分割,来获取第一镜头序列。例如,以第二视频数据集中的电影film2例,对其进行处理后可以获得关于该电影film2的第二镜头序列,该第二镜头序列可以包括按照时序排列的第二镜头shot_1、shot_2、shot_3、
……
、shot_m。由于该样本已经标注过场景标签,此时即可确定其中哪些镜头属于场景边界,因此也可以确定哪些镜头属于同一个场景。
80.步骤s302,将所述第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征。其中,在本步骤中的特征提取模型为已经完成前述预训练的特征提取模型。在实际处理过程中,同样可以使用第二镜头中的关键帧的图像特征来表示第二镜头的图像特征,具体处理方式如下:提取所述第二镜头的关键帧,将所述关键帧输入已完成训练的特征提取模型,获取所述关键帧的图像特征,并将所述关键帧的图像特征作为所述第二镜头的图像特征。
81.步骤s303,将所述第二视频数据集作为训练样本,对所述特征提取模型进行进一步训练。由于第二视频数据集已经完成了场景标注,各个第二镜头是否属于同一场景是已知的,因此无需如第一视频数据集一样,通过分割伪场景来构建相似度矩阵,而是直接将训练的目标设定为使所述第二样本中属于同一场景的镜头之间图像特征的相似度提升至第三预设值,所述第二样本中属于不同场景的镜头之间图像特征的相似度降低至第四预设值即可。在该微调过程中进行训练的原理与预训练过程中的原理类似,同样可以参考clip算
法,将同一场景的两个镜头作为正样本对,而将不同场景中的两个镜头作为负样本对,在训练完成后可以进一步优化特征提取模型识别场景内和场景间的镜头之间内在关联性的能力。
82.此外,除了前述的特征提取模型之外,由于本技术所提供的视频分割方案中,还需要使用神经网络模型来待检测的目标视频中的某一镜头是否为场景边界进行识别,因此还可以对神经网络模型也进行训练。其中,所述神经网络模型进行训练时,可以使用已标注场景标签的第二视频数据集,其具体处理过程如图4所示,至少包括了以下的处理步骤:
83.步骤s401,获取第二视频数据集中第二样本的第二镜头序列。所述第二镜头序列包括多个第二镜头,所述第二视频数据集中的第二样本为已标注场景标签的样本,所述场景标签用于标识对应的镜头是否为场景边界。
84.步骤s402,将所述第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征。其中,本实施例中的上述两个步骤的处理与特征提取模型进行微调的处理过程类似。而本实施的该步骤所使用的特征提取模型可以是已经完成前述预训练以及微调的特征提取模型,由此可以更加准确地提取第二镜头的图像特征。或者,所述特征提取模型也可以是完成预训练后的特征提取模型,此时可以基于所述第二视频数据集同时完成对特征提取模型的微调以及对神经网络模型的训练。
85.步骤s403,基于属于同一第二样本的第二镜头,构建第二相似度矩阵。若第二样本中包括了m个第二镜头,由此可以构建m
×
m的第二相似度矩阵,如图5所示,每个矩阵元素s
m,n
=psm★
psn,psm表示所述第二样本的第m个镜头,psn表示同一第二样本的第n个镜头,
★
表示计算psm和psn之间图像特征的相似度,其中m,n的取值为1至m的正整数,即1、2、3、
……
、m。对于第二视频数据集中的任意一个第二样本,都可以基于上述步骤构建出对应的第二相似度矩阵。
86.在该第二相似度矩阵中,m和n相同的对角线上的矩阵元素表示同一个镜头之间图像特征的相似度,应当是完全一致的,因此若采用余弦相似度,则该对角线的上数值应当均为1。而其余位置的矩阵元素则表示不同镜头之间图像特征的相似度。例如,矩阵元素s
3,4
或者s
4,3
则表示第二镜头序列中第3个和第4个的第二镜头之间图像特征的相似度。图5中所示出的较少数量的矩阵元素仅为便于说明,不应理解为对实际数量的限制。在实际场景中,一个视频的所有镜头所构建一个完整的余弦相似度矩阵可以如图6所示。
87.步骤s404,从所述第二相似度矩阵中提取第二镜头的检测窗口。其中,所述检测窗口用于输入神经网络模型,以识别出对应的第二镜头是否为其所属的第二样本中的场景边界。其中,所述检测窗口包括第二镜头及其关联镜头所对应的矩阵元素所组成的窗口,所述关联镜头是指与某一个第二镜头在时序上存在前后关联的镜头,例如前5个以及后5个镜头等,由此这些镜头所对应的矩阵元素即可组成窗口。
88.在本实施例中,在确定检测窗口时,可以从所述第二相似度矩阵中,以任一第二镜头所对应的矩阵元素为窗口中心点,确定边长为2p+1个矩阵元素的正方形检测窗口。例如,图6中的检测窗口s为例,其窗口中心点的矩阵元素即对应第二镜头shot_a,其关联镜头可以是时序位置前后的p个镜头,由此可以提取获得一个以shot_a所对应的矩阵元素s
a,a
为中心,边长为2p+1的正方形检测窗口,该正方形检测窗口即为镜头shot_a的检测窗口。而以1个镜头的步长遍历第二相似度矩阵的对角线,即可获取第二样本中关于每个第二镜头的检
测窗口。
89.步骤s405,将基于所述第二视频数据集所提取的检测窗口作为训练样本,对神经网络模型进行训练,由于第二视频数据集是已经预先完成场景标签标注的,因此其样本中的各个第二镜头是否是场景边界均是已知的,因此可以通过监督学习的方式对神经网络模型进行训练,将训练目标设定为第二样本中已标注的关于第二镜头的场景标签与基于所述神经网络模型所获取的识别结果一致,即可优化神经网络模型,使得该神经网络模型可以更加准确地通过检测窗口识别任意视频中的场景边界,从而实现精准的视频场景分割。
90.此外,由于本技术实施例中神经网络模型对于检测窗口的识别实质为一个二分类的问题,即该检测窗口中心所对应的镜头是否为场景边界。由此,本技术的一些实施例中,可以采用适用于处此类问题的卷积神经网络(cnn,convolutional neural network)模型,以便于提升处理效率以及精度。
91.图7示出了采用本技术实施例提供的模型训练方案对特征识别模型以及神经网络模型进行训练的示意图,该实施例中所采用特征识别模型为clip算法中基于vit的图像编码器(encoder),神经网络模型为cnn,具体训练过程包括以下两步:
92.第一步step1,使用未标注场景标签的视频数据集(sample without labels)完成对encoder的预训练,其训练过程如前述图1所示方案。
93.第二步step2,使用已标注场景标签的视频数据集(sample with labels)完成对encoder的微调以及cnn的训练,其训练过程如前述图4以及图6所示的方案。
94.本技术实施例还提供了一种视频场景分割方法,该方法至少采用了前述任意一种模型训练方法所训练完成的特征提取模型,该方法的处理流程如图8所示,至少包括以下的处理步骤:
95.步骤s801,对目标视频进行镜头分割,获取所述目标视频的第三镜头序列,所述第三镜头序列包括多个第三镜头。
96.其中,所述目标视频为待检测的视频样本,即本方案中需要进行场景分割处理的视频,可以采用任意已有的镜头分割方案对所述目标视频进行镜头分割。例如,本实施例中的目标视频为video1,对其进行镜头分割后获得的第三镜头序列中包括了按照时序排列的k个第三镜头,分别为shot_1、shot_2、shot_3、
……
、shot_k。
97.步骤s802,将所述第三镜头输入所述特征提取模型,获取所述第三镜头的图像特征。
98.本实施例中,第三镜头的图像特征可以使用第三镜头中关键帧的图像特征来表示。由此,在获取第三镜头的图像特征时,可以先提取所述第三镜头的关键帧,然后将所述关键帧输入特征提取模型,获取所述关键帧的图像特征,并将所述关键帧的图像特征作为所述第三镜头的图像特征。例如本实施例中所使用的关键帧可以是第三镜头中的时序位置最中央的一个视频帧作为关键帧,然后将关键帧输入至特征提取模型,获取该关键帧的图像特征,将其作为所述第三镜头的图像特征。
99.步骤s803,基于所述目标视频的第三镜头,构建第三相似度矩阵。
100.其中,所述第三相似度矩阵为q
×
q的矩阵,q为所述目标视频的镜头数量,例如当目标视频包含了300个镜头时,该第三相似度矩阵即为300
×
300的矩阵。每个矩阵元素s
k,l
=psk*ps
l
,psk表示所述目标视频的第k个镜头,ps
l
表示所述目标视频的第l个镜头,其中
k,l的取值为1至q的正整数,即1、2、3、
……
、p,*表示计算psk和ps
l
之间图像特征的相似度。
101.步骤s804,遍历所述目标视频中的第三镜头,从所述第三相似度矩阵中提取每个第三镜头的检测窗口。
102.其中,遍历的步长可以设定为1个镜头,即在提取完目标视频中第1个第三镜头的检测窗口后,再继续提取第2个第三镜头的检测窗口,直至提取完所有第三镜头的检测窗口。所述检测窗口包括第三镜头及其关联镜头所对应的矩阵元素所组成的窗口。本实施例中在提取检测窗口时,可以从所述第三相似度矩阵中,以每个第三镜头所对应的矩阵元素为窗口中心点,确定边长为2p+1个矩阵元素的正方形检测窗口。例如,当提取第50个第三镜头的检测窗口时,窗口中心点即为矩阵元素s
50,50
,该检测窗口中的矩阵元素的具体内容包括了该第三镜头与其时序位置前后p个镜头之间图像特征的相似度(即检测窗口中的非对角线位置),以及上述各个镜头与其自身之间图像特征的相似度(即检测窗口中的对角线位置)。
103.步骤s805,将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界。
104.以目标视频中的第50个镜头为例,若设定p为4,则所述检测窗口即为如图9所示的9
×
9的矩阵,该矩阵所涉及的第三镜头分别为ps
46
、ps
47
、ps
48
、ps
49
、ps
50
、ps
51
、ps
52
、ps
53
、ps
54
。该矩阵中k、l取值相同的对角线位置上的矩阵元素s
k,l
分别为上述第三镜头与其自身之间图像特征的相似度,若采用余弦相似度时,其相似度的数值应当为1。而k、l取值不相同的非对角线位置上的矩阵元素s
k,l
分别为上述第三镜头两两之间图像特征的相似度,若采用余弦相似度时,由于图像特征是由预先训练完成的特征提取模型所提取,能够反映出场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性,因此其相似度的数值会与两个第三镜头之间是否属于同一场景关联,若两个第三镜头之间属于同一场景,则其图像特征的相似度会更接近1,反之若两个第三镜头之间不属于同一场景,则其图像特征的相似度会更接近0。由此,检测窗口中心点所对应的第三镜头是否为场景的边界,将会导致检测窗口表现出不同的特征。
105.在实际场景中,可以将相似度的数值与图像特征形成映射,例如与灰度、色彩、深度等,从而将检测窗口映射形成不同的检测图像,这些检测图像中会形成与相似度对应的明暗、色彩等变化的像素块,每个像素块均对应一个检测窗口的一个矩阵元素,如图10所示,由此可以通过图像识别的方式实现场景边界的检测。
106.在本技术的一些实施例中,所述神经网络模型使用前述模型训练方法所训练完成的神经网络模型,例如已经完成训练的cnn模型等。由于神经网络模型已经使用标注过场景标签的训练样本进行过训练,因此可以使得检测精度更高,更加准确。
107.此外,本技术实施例所提供的视频场景分割方法中,在将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界之后,还可以根据识别获得的结果,将所述目标视频分割为多个场景。例如,对于一个包含100个第三镜头的目标视频,若神经网络模型识别到目标视频的第21、50、67、82个第三镜头为场景边界,则可以基于该结果将目标视频分割为5个场景,其中第1个场景sence_1包括了镜头shot_1~shot21,第2个场景sence_2包括了镜头shot_22~shot50,第3个场景sence_3包括了镜头shot_51~shot67,第4个场景sence_4包括了镜头shot_68~shot81,第5个场景sence_5包括了镜头shot_83~
shot100。在实际场景中,也可以通过标注场景标签的方式对分割的场景进行标记,例如对上述几个场景边界的第三镜头,标注表示场景边界的标签,以此实现场景分割。
108.此外,本技术实施例还提供了一种用于视频场景分割的模型训练装置,该装置的结构如图11所示,包括特征提取模块1110、场景构建模块1120、矩阵构建模块1130以及训练模块1140。其中,所述特征提取模块1110用于获取第一视频数据集中第一样本的第一镜头序列,所述第一镜头序列包括多个第一镜头,以及将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征。所述场景构建模块1120用于对所述第一镜头序列进行场景分割,获取多个伪场景,每个伪场景中包括多个第一镜头。所述矩阵构建模块1130用于从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度。所述训练模块1140用于将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练,以使同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值。
109.可选地,所述特征提取模块1110还用于获取第二视频数据集中第二样本的第二镜头序列,所述第二镜头序列包括多个第二镜头,所述第二视频数据集中的第二样本为已标注场景标签的样本,所述场景标签用于标识对应的镜头是否为场景边界,以及将所述第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征。所述训练模块1140还用于将所述第二视频数据集作为训练样本,对所述特征提取模型进行进一步训练,以使所述第二样本中属于同一场景的镜头之间图像特征的相似度提升至第三预设值,所述第二样本中属于不同场景的镜头之间图像特征的相似度降低至第四预设值。
110.可选地,所述矩阵构建模块1130还用于基于属于同一第二样本的第二镜头,构建第二相似度矩阵,其中,所述第二相似度矩阵为m
×
m的矩阵,m为第二样本的镜头数量,每个矩阵元素s
m,n
=psm*p
sp
,psm表示所述第二样本的第m个镜头,psn表示同一第二样本的第n个镜头,*表示计算psm和psn之间图像特征的相似度,以及从所述第二相似度矩阵中提取第二镜头的检测窗口,所述检测窗口用于输入神经网络模型,以识别出对应的第二镜头是否为其所属的第二样本中的场景边界,其中,所述检测窗口包括第二镜头及其关联镜头所对应的矩阵元素所组成的窗口。所述训练模块1040还用于将基于所述第二视频数据集所提取的检测窗口作为训练样本,对神经网络模型进行训练,以使第二样本中已标注的关于第二镜头的场景标签与基于所述神经网络模型所获取的识别结果一致。
111.本技术实施例还提供了一种视频场景分割装置,该装置的结构如图12所示,包括了特征提取模块1210、矩阵构建模块1220以及边界识别模块1230。其中,所述特征提取模块1210用于对目标视频进行镜头分割,获取所述目标视频的第三镜头序列,所述第三镜头序列包括多个第三镜头;以及将所述第三镜头输入所述特征提取模型,获取所述第三镜头的图像特征。所述矩阵构建模块1220用于基于所述目标视频的第三镜头,构建第三相似度矩阵,其中,所述第三相似度矩阵为k
×
k的矩阵,k为所述目标视频的镜头数量,每个矩阵元素s
k,l
=psk*ps
l
,psk表示所述目标视频的第k个镜头,ps
l
表示所述目标视频的第l个镜头,*表示计算psk和ps
l
之间图像特征的相似度;以及遍历所述目标视频中的第三镜头,从所述第三相似度矩阵中提取每个第三镜头的检测窗口,所述检测窗口包括第三镜头及其关联镜头所对应的矩阵元素所组成的窗口。所述边界识别模块1230用于将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界。
112.基于同一发明构思,本技术实施例中还提供了一种电子设备,所述电子设备对应的方法可以是前述实施例中的用于视频场景分割的模型训练方法以及视频场景分割方法,并且其解决问题的原理与该方法相似。本技术实施例提供的所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述本技术的多个实施例的方法和/或技术方案。
113.所述电子设备可以是用户设备、或者用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序,所述用户设备包括但不限于计算机、手机、平板电脑、智能手表、手环等各类终端设备,所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现,可以用于实现设置闹钟时的部分处理功能。在此,云由基于云计算(cloud computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
114.图13示出了适用于实现本技术实施例中的方法和/或技术方案的一种设备的结构,该设备1300包括中央处理单元(cpu,central processing unit)1301,其可以根据存储在只读存储器(rom,read only memory)1302中的程序或者从存储部分1308加载到随机访问存储器(ram,random access memory)1303中的程序而执行各种适当的动作和处理。在ram 1303中,还存储有系统操作所需的各种程序和数据。cpu 1301、rom 1302以及ram 1303通过总线1304彼此相连。输入/输出(i/o,input/output)接口1305也连接至总线1304。
115.以下部件连接至i/o接口1305:包括键盘、鼠标、触摸屏、麦克风、红外传感器等的输入部分1306;包括诸如阴极射线管(crt,cathode ray tube)、液晶显示器(lcd,liquid crystal display)、led显示器、oled显示器等以及扬声器等的输出部分1307;包括硬盘、光盘、磁盘、半导体存储器等一个或多个计算机可读介质的存储部分1308;以及包括诸如lan(局域网,local area network)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。
116.特别地,本技术实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本技术公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(cpu)1301执行时,执行本技术的方法中限定的上述功能。
117.本技术另一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现前述本技术的任意一个或多个实施例的方法和/或技术方案。
118.具体来说,本实施例可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包
含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
119.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
120.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。
121.可以以一种或多种程序设计语言或其组合来编写用于执行本技术操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
122.附图中的流程图或框图示出了按照本技术各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
123.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
124.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或页面组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
125.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
126.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
127.上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一个计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
128.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
129.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
技术特征:
1.一种用于视频场景分割的模型训练方法,其中,所述方法包括:获取第一视频数据集中第一样本的第一镜头序列,所述第一镜头序列包括多个第一镜头;将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征;对所述第一镜头序列进行场景分割,获取多个伪场景,每个伪场景中包括多个第一镜头;从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度;将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练,以使同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值。2.根据权利要求1所述的方法,其中,将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征,包括:提取所述第一镜头的关键帧,将所述关键帧输入特征提取模型,获取所述关键帧的图像特征,并将所述关键帧的图像特征作为所述第一镜头的图像特征。3.根据权利要求1所述的方法,其中,对所述第一镜头序列进行场景分割,获取多个伪场景,包括:对所述第一镜头序列进行场景分割,获取多个初始场景,每个初始场景中包括多个第一镜头;根据第一镜头的图像特征,筛选出每个初始场景中与中央镜头的图像特征的相似度最高的a个第一镜头,其中,所述中央镜头为初始场景中符合预设条件的镜头;将所述a个第一镜头与对应的中央镜头确定为一个伪场景。4.根据权利要求1所述的方法,其中,从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度,包括:从每个伪场景中分别提取第一镜头,构建第一相似度矩阵,其中,所述第一相似度矩阵为n
×
n的矩阵,其中n为伪场景的数量,每个矩阵元素s
i,j
=ps
i,1
★
ps
j,2
,ps
i,1
表示第i个伪场景的第一个镜头,ps
j,2
表示第j个伪场景的第二个镜头,
★
表示计算ps
i,1
和ps
j,2
之间图像特征的相似度。5.根据权利要求1所述的方法,其中,所述特征提取模型采用clip算法中的图像编码器,所述图像特征包括clip-vit特征或clip-resnet特征。6.根据权利要求1所述的方法,其中,所述方法还包括:获取第二视频数据集中第二样本的第二镜头序列,所述第二镜头序列包括多个第二镜头,所述第二视频数据集中的第二样本为已标注场景标签的样本,所述场景标签用于标识对应的镜头是否为场景边界;将所述第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征;将所述第二视频数据集作为训练样本,对所述特征提取模型进行进一步训练,以使所述第二样本中属于同一场景的镜头之间图像特征的相似度提升至第三预设值,所述第二样本中属于不同场景的镜头之间图像特征的相似度降低至第四预设值。7.根据权利要求6所述的方法,其中,将所述第二镜头输入已完成训练的特征提取模
型,获取所述第二镜头的图像特征,包括:提取所述第二镜头的关键帧,将所述关键帧输入已完成训练的特征提取模型,获取所述关键帧的图像特征,并将所述关键帧的图像特征作为所述第二镜头的图像特征。8.根据权利要求1或6所述的方法,其中,所述方法还包括:获取第二视频数据集中第二样本的第二镜头序列,所述第二镜头序列包括多个第二镜头,所述第二视频数据集中的第二样本为已标注场景标签的样本,所述场景标签用于标识对应的镜头是否为场景边界;将所述第二镜头输入已完成训练的特征提取模型,获取所述第二镜头的图像特征;基于属于同一第二样本的第二镜头,构建第二相似度矩阵,其中,所述第二相似度矩阵为m
×
m的矩阵,m为第二样本的镜头数量,每个矩阵元素s
m,n
=ps
m
★
ps
n
,ps
m
表示所述第二样本的第m个镜头,ps
n
表示同一第二样本的第n个镜头,
★
表示计算ps
m
和ps
n
之间图像特征的相似度;从所述第二相似度矩阵中提取第二镜头的检测窗口,所述检测窗口用于输入神经网络模型,以识别出对应的第二镜头是否为其所属的第二样本中的场景边界,其中,所述检测窗口包括第二镜头及其关联镜头所对应的矩阵元素所组成的窗口;将基于所述第二视频数据集所提取的检测窗口作为训练样本,对神经网络模型进行训练,以使第二样本中已标注的关于第二镜头的场景标签与基于所述神经网络模型所获取的识别结果一致。9.根据权利要求8所述的方法,其中,从所述第二相似度矩阵中提取第二镜头的检测窗口,包括:从所述第二相似度矩阵中,以任一第二镜头所对应的矩阵元素为窗口中心点,确定边长为2p+1个矩阵元素的正方形检测窗口。10.根据权利要求8所述的方法,其中,所述神经网络模型为卷积神经网络模型。11.根据权利要求1至10中任一项所述的方法,其中,所述相似度采用余弦相似度。12.一种视频场景分割方法,其中,所述方法使用权利要求1至7、11中任一项所述的方法所训练完成的特征提取模型,所述方法包括:对目标视频进行镜头分割,获取所述目标视频的第三镜头序列,所述第三镜头序列包括多个第三镜头;将所述第三镜头输入所述特征提取模型,获取所述第三镜头的图像特征;基于所述目标视频的第三镜头,构建第三相似度矩阵,其中,所述第三相似度矩阵为q
×
q的矩阵,q为所述目标视频的镜头数量,每个矩阵元素s
k,l
=ps
k
★
ps
l
,ps
k
表示所述目标视频的第k个镜头,ps
l
表示所述目标视频的第l个镜头,
★
表示计算ps
k
和ps
l
之间图像特征的相似度;遍历所述目标视频中的第三镜头,从所述第三相似度矩阵中提取每个第三镜头的检测窗口,所述检测窗口包括第三镜头及其关联镜头所对应的矩阵元素所组成的窗口;将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界。13.根据权利要求12所述的方法,其中,所述神经网络模型使用权利要求8至11中任一项所述的方法所训练完成的神经网络模型。14.根据权利要求12所述的方法,其中,将所述第三镜头输入所述特征提取模型,获取
所述第三镜头的图像特征,包括:提取所述第三镜头的关键帧,将所述关键帧输入已完成训练的特征提取模型,获取所述关键帧的图像特征,并将所述关键帧的图像特征作为所述第三镜头的图像特征。15.根据权利要求12所述的方法,其中,从所述第三相似度矩阵中提取每个第三镜头的检测窗口,包括:从所述第三相似度矩阵中,以每个第三镜头所对应的矩阵元素为窗口中心点,确定边长为2p+1个矩阵元素的正方形检测窗口。16.根据权利要求12至15所述的方法,其中,将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界之后,还包括:根据识别获得的结果,将所述目标视频分割为多个场景。17.一种用于视频场景分割的模型训练装置,其中,所述装置包括:特征提取模块,用于获取第一视频数据集中第一样本的第一镜头序列,所述第一镜头序列包括多个第一镜头,以及将所述第一镜头输入特征提取模型,获取所述第一镜头的图像特征;场景构建模块,用于对所述第一镜头序列进行场景分割,获取多个伪场景,每个伪场景中包括多个第一镜头;矩阵构建模块,用于从每个伪场景中分别提取第一镜头,遍历计算两个第一镜头之间的图像特征的相似度;训练模块,用于将所述第一视频数据集作为训练样本,对所述特征提取模型进行训练,以使同一伪场景的两个镜头之间图像特征的相似度提升至第一预设值,且不同伪场景的两个镜头之间图像特征的相似度降低至第二预设值。18.一种视频场景分割装置,其中,所述装置使用权利要求17所述的模型训练装置所训练获得的特征提取模型,所述装置包括:特征提取模块,用于对目标视频进行镜头分割,获取所述目标视频的第三镜头序列,所述第三镜头序列包括多个第三镜头;以及将所述第三镜头输入所述特征提取模型,获取所述第三镜头的图像特征;矩阵构建模块,用于基于所述目标视频的第三镜头,构建第三相似度矩阵,其中,所述第三相似度矩阵为k
×
k的矩阵,k为所述目标视频的镜头数量,每个矩阵元素s
k,l
=ps
k
★
ps
l
,ps
k
表示所述目标视频的第k个镜头,ps
l
表示所述目标视频的第l个镜头,
★
表示计算ps
k
和ps
l
之间图像特征的相似度;以及遍历所述目标视频中的第三镜头,从所述第三相似度矩阵中提取每个第三镜头的检测窗口,所述检测窗口包括第三镜头及其关联镜头所对应的矩阵元素所组成的窗口;边界识别模块,用于将遍历得到的检测窗口输入神经网络模型,识别对应的第三镜头是否为场景边界。19.一种电子设备,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至16中任一项所述的方法。
20.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至16中任一项所述的方法。
技术总结
本申请提供了一种模型训练、视频场景分割方法、设备及计算机可读介质,该方案对特征提取模型完成训练后,可以使得该特征提取模型在提取图像特征时能够反映出场景内和场景间图像特征的关系、以及多个镜头何以组合为一个场景的内在关联性,从而提升视频场景分割的准确性,而在完成对神经网络模型的训练后,可以使得该神经网络模型具有更好的分类效果,能够更加准确的识别某一镜头是否为场景边界,从而提升神经网络模型对于场景边界的检测精度。升神经网络模型对于场景边界的检测精度。升神经网络模型对于场景边界的检测精度。
技术研发人员:王欣博 张奕 曹翔
受保护的技术使用者:上海哔哩哔哩科技有限公司
技术研发日:2023.05.12
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
