视频切分方法、选取方法、合成方法及相关装置与流程

未命名 08-07 阅读：112 评论：0

1.本技术涉及视频处理技术领域，尤其涉及视频切分方法、选取方法、合成方法及相关装置。

背景技术：

2.图库回忆等视频处理应用具有将手机等电子设备中与某个主题相关的图像和视频进行合成的功能，目前在合成某一主题的视频时，通常采用截取视频的前3秒进行合成。需要说明的是，被截取的前3秒视频可能是与主题关联度比较低或者画面质量较低的视频片段，这种视频片段这会影响合成的视频效果。
3.因此，如何对视频进行切分，以便视频合成时对切分后的视频片段进行选取，得到与主题更相关的视频片段是需要解决的问题。

技术实现要素：

4.本技术提供了一种视频切分方法、选取方法、合成方法及相关装置，能够将视频中复杂多变的内容按照语义进行切分，有利于后续在进行视频合成时选取相关的视频片段进行处理。
5.为实现上述技术目的，本技术采用如下技术方案：第一方面，本身提供了一种视频切分方法，所述方法包括：根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列；将所述图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；所述图像特征用于表示对应图像帧的语义；根据所述图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，所述特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度；利用预设的滤波矩阵对所述特征相似度矩阵进行滑动卷积计算得到边界得分序列；根据所述边界得分序列和预设的边界峰值确定所述视频的切分位置；基于所述切分位置对所述视频进行切分。
6.采用该方案，通过深度学习模型得到每帧图像的图像特征，图像特征用于表示图像帧的语义，在切分视频时考虑了图像的语义，使得切分后的视频片段与语义相关，有利于在进行视频合成时选取相关的视频片段进行处理。
7.可选的，所述预设抽取规则包括：每隔预设步长抽取一个图像帧。
8.可选的，所述滤波矩阵m为m
×
m的矩阵，m为奇数，所述m小于所述图像帧序列中图像帧的数量，所述m的中间行和中间列对应的元素都为0，所述m的中间行和中间列将所述m划分为左上角、右上角、左下角、右下角四个部分，每个部分为(m-1)/2
ꢀ×
(m-1)/2的矩阵，所述左上角和右下角对应的矩阵中的元素都是a，右上角和左下角对应的矩阵中的元素都
是-a，其中，所述a为正数。比如，若a为1，则m=。
9.第二方面，本技术提供了一种视频片段选取方法，采用第一方面或者第一方面任一可能的实施方式对视频进行切分得到多个视频片段；所述方法还包括：根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，所述标签用于表示对应图像帧包括的场景和/或物体；采用质量分析算法确定所述抽取的每帧图像的质量得分，所述质量得分用于表示图像帧的清晰度；聚合每个视频片段所包含的被抽取的图像帧对应的标签，确定每个视频片段对应的标签内容；根据每个视频片段所包含的被抽取的图像帧对应的质量得分的均值确定每个视频片段的质量得分；根据各视频片段对应的标签内容和质量得分确定被选取的视频片段。
10.可选的，所述根据各视频片段对应的标签内容和质量得分确定被选取的视频片段，包括：根据各视频片段对应的标签内容，确定所述各视频片段对应的标签内容与目标视频的匹配值；根据视频片段对应的质量得分从匹配值超过预设匹配值的视频片段中确定被选取的视频片段。
11.第三方面，本技术提供了一种视频合成方法，集成第二方面或者第二方面任一可能的实施方式确定的被选取的视频片段生成视频。
12.第四方面，本技术提供了一种视频切分装置，所述装置包括：抽取单元，用于根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列；第一处理单元，用于将所述图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；所述图像特征用于表示对应图像帧的语义；第二处理单元，用于根据所述图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，所述特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度；第三处理单元，用于利用预设的滤波矩阵对所述特征相似度矩阵进行滑动卷积计算得到边界得分序列；第一确定单元，用于根据所述边界得分序列和预设的边界峰值确定所述视频的切分位置；切分单元，用于基于所述切分位置对所述视频进行切分。
13.第五方面，本技术提供了一种视频片段选取装置，包括第四方面所述的视频切分装置，所述视频切分装置对视频进行切分得到多个视频片段；所述视频片段选取装置还包
括：第二确定单元，用于根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，所述标签用于表示对应图像帧包括的场景和/或物体；第三确定单元，用于采用质量分析算法确定所述抽取的每帧图像的质量得分，所述质量得分用于表示图像帧的清晰度；第四确定单元，用于聚合每个视频片段中所包含的图像帧对应的标签，确定每个视频片段对应的标签内容；第五确定单元，用于根据每个视频片段中所包含的图像帧对应的质量得分的均值确定每个视频片段的质量得分；第六确定单元，用于根据各视频片段对应的标签内容和质量得分确定被选取的视频片段。
14.第六方面，本技术提供了一种视频合成装置，包括第五方面所述的视频片段选取装置，所述视频合成装置还包括，集成单元，用于集成所述视频片段选取装置选取的视频片段生成视频。
15.第七方面，本技术提供了一种电子设备，包括：存储器和一个或多个处理器，所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如第一方面、第一方面任一可能的实施方式、第二方面、第二方面任一可能的实施方式、第三方面、或者第三方面任一可能的实施方式所述的方法。
16.第八方面，本技术提供了一种计算机可读存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面、第一方面任一可能的实施方式、第二方面、第二方面任一可能的实施方式、第三方面、或者第三方面任一可能的实施方式所述的方法。
17.可以理解的是，上述第二方面到第八方面提供的技术方案可以分别对应到如第一方面及其可能的实现中提供的任一种方案中，能够达到的有益效果类似，此处不再赘述。
附图说明
18.图1a为本技术实施例提供的一种视频切分方法的流程示意图；图1b为本技术实施例提供的一种视频切分方法的流程示意图；图2为本技术实施例提供的一种视频片段选取方法的流程示意图；图3a为本技术实施例提供的一种视频合成方法的流程示意图；图3b为本技术实施例提供的一种视频合成方法的流程示意图；图4为本技术实施例提供的一种电子设备的组成示意图；图5为本技术实施例提供的一种芯片系统的组成示意图。
具体实施方式
19.以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是
两个或两个以上。
20.根据手机、平板、电脑等电子设备上的图片或者视频生成目标视频时（比如回忆视频、美食视频、旅游视频等），如果选取的视频片段中的内容与目标视频的语义匹配时，则目标视频具有较好效果。相对于现有技术中只选取视频前三秒合成到目标视频，本技术提供的视频切分方法，方便按照语义对视频进行切分，有利于在后续合成目标视频时，使被合成的视频片段与目标视频的表示主题更匹配，效果更好。
21.本技术对如何进行视频切分、对切分后的视频片段如何进行选取、以及集成选取的视频片段得到目标视频进行了介绍。
22.参见图1a，图1a是本技术一实施例提供的一种视频切分方法的流程示意图，如图1a所示，视频切分方法可以包括步骤101至步骤106，其中：101.根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列。
23.在一些可能的实施方式中，图像帧抽取规则包括：每隔预设步长抽取一个图像帧。需要说明的是，也可以每隔预设时间间隔抽取一个图像帧。可以均匀抽取，也可以不均匀抽取，比如可以每隔10帧抽取一个图像帧，也可以每隔0.1秒抽取一帧，还可以前面5秒钟每隔10帧抽取一帧，后面每隔5帧抽取一帧等都是这行的，这里不做限定。
24.如图1b所示，在该实施例中可以每隔1秒抽取一帧，比如，第0秒开始抽取第一帧图像，第一秒抽取第二帧图像，从待处理的图像中按照该图像帧抽取规则，共抽取n帧图像，n=11。
25.102.将图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；图像特征用于表示对应图像帧的语义。
26.在图1b所示的示例中，将抽取得到的11帧图像依次输入预设的深度学习模型，深度学习模型输出图像特征，图像特征可以表示图像帧的语义。深度学习模型可以是用包括多个语义标签的图像集合进行训练得到。
27.103.根据图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度。
28.在图1b所示的示例中，相似度矩阵如图1b中间11*11的矩阵所示。相似度矩阵可以由图像特征通过欧式计算、归一化处理后得到。
29.104.利用预设的滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列。
30.在一些可能的实施例中，滤波矩阵m为m
×
m的矩阵，m为奇数，m小于所述图像帧序列中图像帧的数量，m的中间行和中间列对应的元素都为0，m的中间行和中间列将m划分为左上角、右上角、左下角、右下角四个部分，每个部分为(m-1)/2
×
(m-1)/2的矩阵，左上角和右下角对应的矩阵中的元素都是a，右上角和左下角对应的矩阵中的元素都是-a，其中，a为正数，若a=1，则
m=。
31.在图1b所示的示例中，m为5，第三行和第三列中的元素都为0，左上角和右下角为元素都是1的二阶矩阵，右上角和左下角为元素都是-1的二阶矩阵。滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列：3.5、1.9、1.8、2.5、4.7、6.4、5、2.4、2、1.8、3.8。
32.105.根据边界得分序列和预设的边界峰值确定视频的切分位置。
33.若预设的边界峰值为6，则确定切分位置为第六帧图像所处位置，也就是第5秒的位置。预设的边界峰值可以根据经验确定。
34.106.基于切分位置对所述视频进行切分。
35.在图1b所示的示例中，根据步骤105确定的切分位置，可以将视频分为两个片段：片段a和片段b，其中，片段a对应0~5秒视频片段，片段b对应5~10秒视频片段。
36.采用该方案，通过深度学习模型得到每帧图像的图像特征，图像特征用于表示图像帧的语义，在切分视频时考虑了图像的语义，使得切分后的视频片段与语义相关，有利于在进行视频合成时选取相关的视频片段进行处理。
37.在视频切分后，可以对切分得到的视频片段进行选取，将被合并到目标视频中的视频片段。
38.参见图2，图2是本技术一实施例提供的一种视频片段选取方法的流程示意图，如图2所示，视频片段选取方法可以包括步骤201至步骤211，其中：201.根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列。
39.在一些可能的实施方式中，图像帧抽取规则包括：每隔预设步长抽取一个图像帧。需要说明的是，也可以每隔预设时间间隔抽取一个图像帧。可以均匀抽取，也可以不均匀抽取，比如可以每隔10帧抽取一个图像帧，也可以每隔0.1秒抽取一帧，还可以前面5秒钟每隔10帧抽取一帧，后面每隔5帧抽取一帧等都是这行的，这里不做限定。
40.如图1b所示，在该实施例中可以每隔1秒抽取一帧，比如，第0秒开始抽取第一帧图像，第一秒抽取第二帧图像，从待处理的图像中按照该图像帧抽取规则，共抽取n帧图像，n=11。
41.202.将图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；图像特征用于表示对应图像帧的语义。
42.在图1b所示的示例中，将抽取得到的11帧图像依次输入预设的深度学习模型，深度学习模型输出图像特征，图像特征可以表示图像帧的语义。深度学习模型可以是用包括多个语义标签的图像集合进行训练得到。
43.203.根据图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度。
44.在图1b所示的示例中，相似度矩阵如图1b中间11*11的矩阵所示。相似度矩阵可以由图像特征通过欧式计算、归一化处理后得到。
45.204.利用预设的滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列。
46.在一些可能的实施例中，滤波矩阵m为m
×
m的矩阵，m为奇数，m小于所述图像帧序列中图像帧的数量，m的中间行和中间列对应的元素都为0，m的中间行和中间列将m划分为左上角、右上角、左下角、右下角四个部分，每个部分为(m-1)/2
×
(m-1)/2的矩阵，左上角和右下角对应的矩阵中的元素都是a，右上角和左下角对应的矩阵中的元素都是-a，其中，a为正数，若a=1，则m=。
47.在图1b所示的示例中，m为5，第三行和第三列中的元素都为0，左上角和右下角为元素都是1的二阶矩阵，右上角和左下角为元素都是-1的二阶矩阵。滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列：3.5、1.9、1.8、2.5、4.7、6.4、5、2.4、2、1.8、3.8。
48.205.根据边界得分序列和预设的边界峰值确定视频的切分位置。
49.若预设的边界峰值为6，则确定切分位置为第六帧图像所处位置，也就是第5秒的位置。预设的边界峰值可以根据经验确定。
50.206.基于切分位置对所述视频进行切分。
51.在图1b所示的示例中，根据步骤105确定的切分位置，可以将视频分为两个片段：片段a和片段b，其中，片段a对应0~5秒视频片段，片段b对应5~10秒视频片段。
52.207.根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，标签用于表示对应图像帧包括的场景和/或物体。
53.根据图像特征得到与图像特征对应的标签，标签用于表示对应图像帧包括的场景和/或物体，举例来说，标签可以是：小狗，公园、树木等，也可以是旅游、美食等场景。
54.208.采用质量分析算法确定抽取的每帧图像的质量得分，质量得分用于表示图像帧的清晰度。
55.可以用图像的质量得分评估对应帧图像的清晰度，比如值越大越图像清醒，值越小越图像越模糊等。
56.209.聚合每个视频片段所包含的被抽取的图像帧对应的标签，确定每个视频片段对应的标签内容。
57.比如片段a中可以聚合第1帧到第5帧图像的标签，将标签的集合以及标签的置信度来作为片段a的标签内容，其中置信度可以根据某个标签在视频片段中出现的频率来确定，如果在每帧图像中都有某个标签，则该标签的置信度可以为1，若5帧图像中有4帧图像包括某个标签，则该标签的置信度可以为0.8。
58.210.根据每个视频片段所包含的被抽取的图像帧对应的质量得分的均值确定每个视频片段的质量得分。
59.211.根据各视频片段对应的标签内容和质量得分确定被选取的视频片段。
60.具体地，可以结合目标视频的需要，比如目标视频是美食视频，则可以确定与该视
频最相关的一个或者多个标签，根据与目标视频对应的标签的匹配性确定若干个视频片段。然后根据这若干个视频片段中每个视频片段的质量得分选取清晰度最高的视频片段。
61.需要说明的是，在选取视频片段时，根据标签和质量得分如何确定被选取的视频片段可以根据需要进行设定，这里不做限定。
62.选取视频片段后，可以进一步地将视频片段集成到目标视频中，如图3a所示，视频合成方法可以包括步骤301至步骤312，其中：301.根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列。
63.在一些可能的实施方式中，图像帧抽取规则包括：每隔预设步长抽取一个图像帧。需要说明的是，也可以每隔预设时间间隔抽取一个图像帧。可以均匀抽取，也可以不均匀抽取，比如可以每隔10帧抽取一个图像帧，也可以每隔0.1秒抽取一帧，还可以前面5秒钟每隔10帧抽取一帧，后面每隔5帧抽取一帧等都是这行的，这里不做限定。
64.如图1b所示，在该实施例中可以每隔1秒抽取一帧，比如，第0秒开始抽取第一帧图像，第一秒抽取第二帧图像，从待处理的图像中按照该图像帧抽取规则，共抽取n帧图像，n=11。
65.302.将图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；图像特征用于表示对应图像帧的语义。
66.在图1b所示的示例中，将抽取得到的11帧图像依次输入预设的深度学习模型，深度学习模型输出图像特征，图像特征可以表示图像帧的语义。深度学习模型可以是用包括多个语义标签的图像集合进行训练得到。
67.303.根据图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度。
68.在图1b所示的示例中，相似度矩阵如图1b中间11*11的矩阵所示。相似度矩阵可以由图像特征通过欧式计算、归一化处理后得到。
69.304.利用预设的滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列。
70.在一些可能的实施例中，滤波矩阵m为m
×
m的矩阵，m为奇数，m小于所述图像帧序列中图像帧的数量，m的中间行和中间列对应的元素都为0，m的中间行和中间列将m划分为左上角、右上角、左下角、右下角四个部分，每个部分为(m-1)/2
ꢀ×
(m-1)/2的矩阵，左上角和右下角对应的矩阵中的元素都是a，右上角和左下角对应的矩阵中的元素都是-a，其中，a为正数，若a=1，则m=。
71.在图1b所示的示例中，m为5，第三行和第三列中的元素都为0，左上角和右下角为元素都是1的二阶矩阵，右上角和左下角为元素都是-1的二阶矩阵。滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列：3.5、1.9、1.8、2.5、4.7、6.4、5、2.4、2、1.8、3.8。
72.305.根据边界得分序列和预设的边界峰值确定视频的切分位置。
73.若预设的边界峰值为6，则确定切分位置为第六帧图像所处位置，也就是第5秒的位置。预设的边界峰值可以根据经验确定。
74.306.基于切分位置对所述视频进行切分。
75.在图1b所示的示例中，根据步骤105确定的切分位置，可以将视频分为两个片段：片段a和片段b，其中，片段a对应0~5秒视频片段，片段b对应5~10秒视频片段。
76.307.根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，标签用于表示对应图像帧包括的场景和/或物体。
77.根据图像特征得到与图像特征对应的标签，标签用于表示对应图像帧包括的场景和/或物体，举例来说，标签可以是：小狗，公园、树木等，也可以是旅游、美食等场景。
78.308.采用质量分析算法确定抽取的每帧图像的质量得分，质量得分用于表示图像帧的清晰度。
79.可以用图像的质量得分评估对应帧图像的清晰度，比如值越大越图像清醒，值越小越图像越模糊等。
80.309.聚合每个视频片段所包含的被抽取的图像帧对应的标签，确定每个视频片段对应的标签内容。
81.比如片段a中可以聚合第1帧到第5帧图像的标签，将标签的集合以及标签的置信度来作为片段a的标签内容，其中置信度可以根据某个标签在视频片段中出现的频率来确定，如果在每帧图像中都有某个标签，则该标签的置信度可以为1，若5帧图像中有4帧图像包括某个标签，则该标签的置信度可以为0.8。
82.310.根据每个视频片段所包含的被抽取的图像帧对应的质量得分的均值确定每个视频片段的质量得分。
83.311.根据各视频片段对应的标签内容和质量得分确定被选取的视频片段。
84.具体地，可以结合目标视频的需要，比如目标视频是美食视频，则可以确定与该视频最相关的一个或者多个标签，根据与目标视频对应的标签的匹配性确定若干个视频片段。然后根据这若干个视频片段中每个视频片段的质量得分选取清晰度最高的视频片段。
85.需要说明的是，在选取视频片段时，根据标签和质量得分如何确定被选取的视频片段可以根据需要进行设定，这里不做限定。
86.312.集成被选取的视频片段生成视频。
87.需要说明的是，本技术对上述方法实施例中各步骤之间的顺序不做限定，可以根据具体情况做调整，都是可行的。如图3b所示，抽取图像帧后，可以将每帧图像分别输入深度学习模型和质量分析算法模型，深度学习算法模型输出每帧图像的图像特征，根据图像特征再确定与图像特征对应的语义匹配的标签，以及根据质量算法模型得到每帧图像的质量得分。然后根据图像序列按照前面实施例提供的视频切分方法对视频进行切分，比如切分得到x个视频片段，结合与目标视频相关的标签信息得到目标视频片段，最后将选取的目标视频片段合成到目标视频中。
88.采用该实施例提供的技术方案得到的合成的视频片段与目标视频对应的场景更加贴切，有利于提高用户体验。
89.本技术实施例还提供了一种视频切分装置，视频切分装置包括：抽取单元、第一处
理单元、第二处理单元、第三处理单元、第一确定单元和切分单元。其中，抽取单元，用于根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列；第一处理单元，用于将图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；图像特征用于表示对应图像帧的语义；第二处理单元，用于根据图像帧序列中图像帧的图像特征确定特征相似度矩阵，特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度；第三处理单元，用于利用预设的滤波矩阵对特征相似度矩阵进行滑动卷积计算得到边界得分序列；第一确定单元，用于根据边界得分序列和预设的边界峰值确定视频的切分位置；切分单元，用于基于切分位置对所述视频进行切分。各单元的具体实施方式可以参见前面方法实施例中对视频切分方法的描述，为简洁起见，这里不再赘述。
90.本技术实施例还提供了一种视频片段选取装置，包括前面实施例公开的视频切分装置，视频切分装置对视频进行切分得到多个视频片段；视频片段选取装置还包括：第二确定单元、第三确定单元、第四确定单元、第五确定单元和第六确定单元。其中，第二确定单元，用于根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，标签用于表示对应图像帧包括的场景和/或物体；第三确定单元，用于采用质量分析算法确定抽取的每帧图像的质量得分，质量得分用于表示图像帧的清晰度；第四确定单元，用于聚合每个视频片段中所包含的图像帧对应的标签，确定每个视频片段对应的标签内容。第五确定单元，用于根据每个视频片段中所包含的图像帧对应的质量得分的均值确定每个视频片段的质量得分。第六确定单元，用于根据各视频段对应的标签内容和质量得分确定被选取的视频段。各单元的具体实施方式可以参见前面方法实施例中视频片段选取方法中的描述，为简洁起见，这里不再赘述。
91.本技术实施例还提供了一种视频合成装置，包括前面实施例公开的视频片段选取装置，还包括集成单元，集成单元，用于集成视频片段选取装置选取的视频片段生成目标视频。各单元的具体实施方式可以参见前面方法实施例中视频片段选取方法中的描述，为简洁起见，这里不再赘述。
92.本技术实施例还提供了一种电子设备，包括：存储器和一个或多个处理器，所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行前面任一方法实施例中所述的方法。
93.接下来，对本技术实施例涉及的电子设备予以说明。
94.图4是本技术实施例提供的一种电子设备400的结构示意图，其具体可以是手机、平板电脑等设备。参见图4，电子设备400可以包括处理器410，外部存储器接口420，内部存储器421，通用串行总线（universal serial bus，usb）接口430，充电管理模块440，电源管理模块441，电池442，天线1，天线2，移动通信模块450，无线通信模块460，音频模块470，扬声器470a，受话器470b，麦克风470c，耳机接口470d，传感器模块480，按键490，马达491，指示器492，摄像头493，屏幕494，以及用户标识模块（subscriber identification module，sim）卡接口495等。其中，传感器模块480可以包括压力传感器480a，陀螺仪传感器480b，气压传感器480c，磁传感器480d，加速度传感器480e，距离传感器480f，接近光传感器480g，指纹传感器480h，温度传感器480j，触摸传感器480k，环境光传感器480l，骨传导传感器480m等。
95.处理器410可以包括一个或多个处理单元，比如：处理器410可以包括ap、cp、调制解调处理器、图形处理器（graphics processing unit，gpu）、图像信号处理器（image signal processor，isp）、控制器、存储器、视频编解码器、数字信号处理器（digital signal processor，dsp）、基带处理器、和/或神经网络处理器（neural-network processing unit，npu）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。
96.其中，控制器可以是电子设备400的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。
97.处理器410中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器410中的存储器为高速缓冲存储器。该存储器可以保存处理器410刚用过或循环使用的指令或数据。如果处理器410需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器410的等待时间，因而提高了系统的效率。处理器还可以设置低功耗存储器（比如，island 低功耗等）以降低功耗。
98.电子设备400通过gpu，屏幕494，以及应用处理器等实现显示功能。gpu为图像处理的微处理器，连接屏幕494和应用处理器。gpu用于执行数学和几何计算，用于图形渲染。处理器410可包括一个或多个gpu，其执行程序指令以生成或改变显示信息。
99.屏幕494用于显示图像，视频等。屏幕494包括显示面板。显示面板可以采用液晶屏幕（liquid crystal display，lcd）、有机发光二极管（organic light-emitting diode，oled）、有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrix organic light emitting diode，amoled）、柔性发光二极管（flex light-emitting diode，fled）、miniled、microled、micro-oled、量子点发光二极管（quantum dot light emitting diodes，qled）等。在一些实施例中，电子设备400可以包括1个或n个屏幕494，n为大于1的整数。
100.电子设备400可以通过isp，摄像头493，视频编解码器，gpu，屏幕494以及应用处理器等实现拍摄功能。
101.isp 用于处理摄像头493反馈的数据。比如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给isp处理，转化为肉眼可见的图像。isp还可以对图像的噪点，亮度，肤色进行算法优化。isp还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，isp可以设置在摄像头493中。
102.摄像头493用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，ccd）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，cmos）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb，yuv等格式的图像信号。在一些实施例中，电子设备400可以包括1个或n个摄像头493，n为大于1的整数。
103.外部存储器接口420可以用于连接外部存储卡，比如micro sd卡，实现扩展电子设备400的存储能力。外部存储卡通过外部存储器接口420与处理器410通信，实现数据存储功能。比如将音乐，视频等文件保存在外部存储卡中。
104.内部存储器421可以用于存储计算机可执行程序代码，计算机可执行程序代码包
括指令。处理器410通过运行存储在内部存储器421的指令，来执行电子设备400的各种功能应用以及数据处理。内部存储器421可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储电子设备400在使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器421可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，ufs）等。
105.加速度传感器480e可检测电子设备400在各个方向上（一般为三轴）加速度的大小。当电子设备400静止时可检测出重力的大小及方向。加速度传感器480e还可以用于识别电子设备400的姿态，应用于横竖屏切换，计步器等应用。当然，加速度传感器480e也可以结合陀螺仪传感器480b，来识别电子设备400的姿态，应用于横竖屏切换。
106.陀螺仪传感器480b可以用于确定电子设备400的运动姿态。在一些实施例中，可以通过陀螺仪传感器480b确定电子设备400围绕三个轴（即，x，y和z轴）的角速度。陀螺仪传感器480b可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器480b检测电子设备400抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备400的抖动，实现防抖。陀螺仪传感器480b还可以用于横竖屏切换，导航，体感游戏场景。
107.可以理解的是，本技术实施例示意的结构并不构成对电子设备400的具体限定。在本技术另一些实施例中，电子设备400可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。
108.本技术实施例提供的电子设备可以是用户设备（user equipment，ue），例如移动终端（如手机）、平板电脑等设备。
109.另外，在上述部件之上，运行有操作系统。例如可以是谷歌公司所开发的android开源操作系统等。
110.电子设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等。为了更清楚的说明本技术实施例提供的触控操作的识别方法，本技术实施例以分层架构的安卓（android）系统为例，对电子设备的软件系统进行示例性说明。
111.如图5所示，电子设备可以包括硬件层和软件层，其中，分层架构的android系统可以包括应用层，应用框架层，系统库层和内核层。在一些可选的实施例中，电子设备的系统还可以包括上述技术架构未提及的层级，如安卓运行时（android runtime）。应用程序层可以包括一系列应用程序包，如导航应用、音乐应用、视频应用、和指关节敲击屏幕应用等。应用程序包可以包括视频、聊天等应用，以及系统用户界面（system user interface，system ui），指关节敲击屏幕应用可以用于截屏、录屏、长截屏、区域截屏等。
112.视频、聊天等应用用于为用户提供对应的服务。例如，用户使用视频应用观看视频，使用聊天应用和其他用户聊天，使用音乐应用收听音乐，使用视频合成利用已有的图像和视频生成回忆视频等。
113.systemui用于管理电子设备的人机交互界面（user interface，ui），在本技术实施例中，systemui用于监测触控屏上的触控操作。
114.应用程序框架层为应用程序层的应用程序提供应用编程接口（applicationprogramming interface，api）和编程框架。应用程序框架层包括一些预先定
义的函数。应用程序框架层可以包括窗口管理服务模块（window manage service，wms），显示旋转模块（又称displayrotation），应用管理服务模块（activity manage service，ams）、输入管理模块（又称input）和图像处理模块等。
115.wms用于管理窗口程序。窗口管理器可以获取屏幕大小，判断是否有状态栏，对屏幕中的图像进行抠图截取屏幕等。本技术实施例中，wms可以创建并管理应用对应的窗口。
116.显示旋转模块用于控制屏幕进行旋转，通过旋转使得屏幕呈现出竖屏或者横屏的布局。比如在确定需要进行屏幕旋转时，通知surfaceflinger进行应用界面的横竖屏切换。
117.ams用于根据用户的操作启动特定的应用。例如，当图像完成合成操作后，触发图像在屏幕中主键显示出来，在图像显示出来后，触发对确定需要被执行抠图操作的图像执行抠图操作，并创建视频应用对应的应用堆栈，使视频应用能够正常运行。
118.系统库层可以包括多个功能模块，比如：传感器模块（又称sensor）和surfaceflinger。
119.传感器模块用于获取传感器采集的数据，比如采集屏幕下的环境光。采集电子设备的重力方向信息。或者，传感器模块也可以根据环境光调节屏幕的亮度，以及根据电子设备的重力方向信息，确定电子设备的横竖屏状态信息，横竖屏状态信息用于指示电子设备处于横屏状态还是竖屏状态。
120.surfaceflinger是一种系统服务，用于图层的创建、控制和管理等功能。
121.另外，系统库层还可以包括：表面管理器（surface manager），媒体库（media libraries），三维图形处理库（比如：opengl es），2d图形引擎（比如：sgl）等。表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2d和3d图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，比如：mpeg4，h.264，mp3，aac，amr，jpg，png等。三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。2d图形引擎是2d绘图的绘图引擎。
122.内核层是硬件和软件之间的层。在本技术实施例中，内核层至少包含触控驱动模块和显示驱动模块。
123.显示驱动模块用于根据应用框架层的模块和应用层的应用程序所提供的图像数据，在屏幕中显示合成的图像。例如，视频应用将视频的一帧图像数据传递给显示驱动模块，显示驱动模块根据该图像数据在触摸屏上显示视频中的一帧图像。systemui将图像数据传递给显示驱动模块，显示驱动模块将合成后的图像在屏幕中显示出来。
124.触控驱动模块用于监测触摸屏各区域的容值数据。当用户在触摸屏上点击或滑动时，被点击或滑动的区域的电容值会发生变化，触控驱动模块能够监测到触摸屏上各区域电容值的变化，并向输入管理模块发送电容值变化的消息，电容值数据变化消息中携带有触摸屏各个区域的电容值的变化幅度以及发生变化的时间等信息。
125.输入管理模块根据上报的电容值变化消息可以确定触控操作，然后将识别到的触控操作发送给其他模块。这里的触控操作可以包括指关节敲击操作、点击操作、拖拽操作、以及特定的手势操作（如上滑手势操作，横滑手势操作等）。
126.硬件层包括屏幕和环境光传感器等，环境光传感器用于检测屏幕下面的环境光信息等。应用处理器监测对触控屏的触控操作，基带处理器监听加速度数据并将监听到的加速度数据存储到存储模块，在ap监测到触控操作时，cp根据存储模块存储的加速度数据识
别触控操作是否为指关节敲击动作；cp将识别结果发送给ap。
127.上述技术架构列举了电子设备中本技术可能涉及的模块和器件。在实际应用中，电子设备可以包括上述技术架构的全部或部分模块和器件，以及其他上述技术架构未提及的模块和器件，当然，也可以只包括上述技术架构的模块和器件，本实施例对此不做限定。
128.本技术实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，当计算机程序被处理器执行时能够实现上述各个方法实施例中的步骤。
129.本技术实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，当计算机程序被处理器执行时能够实现上述各个方法实施例中的步骤。
130.本技术实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器（read-only memory，rom）、随机存取存储器（random accessmemory，ram）、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
131.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
132.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
133.在本技术所提供的实施例中，应该理解到，所揭露的方法和电子设备，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
134.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
135.应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
136.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
137.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
138.以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

技术特征：
1.一种视频切分方法，其特征在于，所述方法包括：根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列；将所述图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；所述图像特征用于表示对应图像帧的语义；根据所述图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，所述特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度；利用预设的滤波矩阵m对所述特征相似度矩阵进行滑动卷积计算得到边界得分序列；根据所述边界得分序列和预设的边界峰值确定所述视频的切分位置；基于所述切分位置对所述视频进行切分。2.根据权利要求1所述的方法，其特征在于，所述图像帧抽取规则包括：每隔预设步长抽取一个图像帧。3.根据权利要求1或2所述的方法，其特征在于，所述滤波矩阵m为m
×
m的矩阵，m为奇数，所述m小于所述图像帧序列中图像帧的数量，所述m的中间行和中间列对应的元素都为0，所述m的中间行和中间列将所述m划分为左上角、右上角、左下角、右下角四个部分，每个部分为(m-1)/2
ꢀ×
(m-1)/2的矩阵，所述左上角和右下角对应的矩阵中的元素都是a，右上角和左下角对应的矩阵中的元素都是-a，其中，所述a为正数。4.一种视频片段选取方法，其特征在于，采用权利要求1至3中任一项方法对视频进行切分得到多个视频片段；所述方法还包括：根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，所述标签用于表示对应图像帧包括的场景和/或物体；采用质量分析算法确定所述抽取的每帧图像的质量得分，所述质量得分用于表示图像帧的清晰度；聚合每个视频片段所包含的被抽取的图像帧对应的标签，确定每个视频片段对应的标签内容；根据每个视频片段所包含的被抽取的图像帧对应的质量得分的均值确定每个视频片段的质量得分；根据各视频片段对应的标签内容和质量得分确定被选取的视频片段。5.根据权利要求4所述的方法，其特征在于，所述根据各视频片段对应的标签内容和质量得分确定被选取的视频片段，包括：根据各视频片段对应的标签内容，确定所述各视频片段对应的标签内容与目标视频的匹配值；根据视频片段对应的质量得分从匹配值超过预设匹配值的视频片段中确定被选取的视频片段。6.一种视频合成方法，其特征在于，集成权利要求4或5所述的方法确定的被选取的视频片段生成视频。7.一种视频切分装置，其特征在于，所述装置包括：抽取单元，用于根据预设的图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列；
第一处理单元，用于将所述图像帧序列输入预设的深度学习模型得到每帧图像的图像特征；所述图像特征用于表示对应图像帧的语义；第二处理单元，用于根据所述图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，所述特征相似度矩阵用于表示所述图像帧序列中任意两个图像帧的相似度；第三处理单元，用于利用预设的滤波矩阵对所述特征相似度矩阵进行滑动卷积计算得到边界得分序列；第一确定单元，用于根据所述边界得分序列和预设的边界峰值确定所述视频的切分位置；切分单元，用于基于所述切分位置对所述视频进行切分。8.一种视频片段选取装置，其特征在于，包括权利要求7所述的视频切分装置，所述视频切分装置对视频进行切分得到多个视频片段；所述视频片段选取装置还包括：第二确定单元，用于根据抽取的每帧图像的图像特征确定每帧图像分别对应的标签，所述标签用于表示对应图像帧包括的场景和/或物体；第三确定单元，用于采用质量分析算法确定所述抽取的每帧图像的质量得分，所述质量得分用于表示图像帧的清晰度；第四确定单元，用于聚合每个视频片段中所包含的图像帧对应的标签，确定每个视频片段对应的标签内容；第五确定单元，用于根据每个视频片段中所包含的图像帧对应的质量得分的均值确定每个视频片段的质量得分；第六确定单元，用于根据各视频片段对应的标签内容和质量得分确定被选取的视频片段。9.一种视频合成装置，其特征在于，包括权利要求8所述的视频片段选取装置，所述视频合成装置还包括，集成单元，用于集成所述视频片段选取装置选取的视频片段生成视频。10.一种电子设备，其特征在于，包括：存储器和一个或多个处理器，所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1-6中任一项所述的方法。11.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任一项所述的方法。

技术总结
本申请实施例提供了一种视频切分方法、选取方法、合成方法及相关装置。视频切分方法包括：根据图像帧抽取规则，从待处理的视频中抽取多个图像帧作为待处理的图像帧序列；将图像帧序列输入深度学习模型得到每帧图像的图像特征；根据图像帧序列中所有图像帧的图像特征确定特征相似度矩阵，利用滤波矩阵对特征相似度矩阵进行滑动卷积得到边界得分序列；根据边界得分序列和预设的边界峰值确定视频的切分位置；基于切分位置对视频进行切分。采用该方案，通过深度学习模型得到每帧图像的图像特征，图像特征用于表示图像帧的语义，在切分视频时考虑了图像的语义，使得切分后的视频片段与语义相关，有利于在进行视频合成时选取相关的视频片段进行处理。的视频片段进行处理。的视频片段进行处理。

技术研发人员：赵焰喆
受保护的技术使用者：荣耀终端有限公司
技术研发日：2023.07.07
技术公布日：2023/8/5

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

视频切分方法、选取方法、合成方法及相关装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

视频切分方法、选取方法、合成方法及相关装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表