基于视频倍速下音频的处理方法、装置、设备和介质与流程

未命名 10-19 阅读：100 评论：0

1.本发明涉及多媒体数据处理技术领域，特别涉及一种基于视频倍速下音频的处理方法、装置、设备和介质。

背景技术：

2.随着现代生活节奏越来越快，以致于大家在观看电视剧时，不想浪费太多时间，所以现在视频播放器都会有倍速播放的功能，比如1.5倍速，2倍速等，用户可以根据自己的习惯和需求选择倍数，但是若用户选择2倍速，视频播放是快了，但是音频也同步变快，音频变快后，会引起用户的体验变差，所以这个问题亟待解决。
3.因此，在视频倍速下，如何提高用户的视听观影体验是目前需要解决的问题。

技术实现要素：

4.本发明提供一种基于视频倍速下音频的处理方法、装置、设备和介质，旨在解决在视频倍速下，提高用户的视听观影体验。
5.为了实现上述发明目的，本发明提出一种基于视频倍速下音频的处理方法，所述方法包括：
6.对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；
7.获得所述第一音频信息对应的子视频信息；
8.基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；
9.根据智能融合技术得到所述第一音频信息对应的目标音频信息；
10.将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。
11.进一步地，所述对所述多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息，包括：
12.获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据；
13.对每个所述音频子数据设置对应的音频分割点标记，得到第一音频信息。进一步地，所述获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据，包括：
14.识别所述音频信息中的断句特征；其中，断句特征至少包括声学断句特征、文字断句特征以及间隔时长大于阈值的静音段；
15.若识别到所述断句特征至少之一，则以断句特征出现的时刻作为音频分割点进行标记；
16.以多个所述音频分割点将所述音频信息进行分割，得到多个所述音频子数据。
17.进一步地，所述所述获得第一音频信息对应的子视频信息的步骤，包括：
18.根据所述音频分割点标记，以所述音频分割点标记对应的时刻，将所述第一音频信息对应的视频信息进行分段，得到子视频信息。
19.进一步地，所述基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息，包括：
20.基于预设的视频倍速获取对应的时间间隔；
21.获取所述子视频信息中的子视频帧；
22.根据所述子视频帧中信息量的大小确定关键帧；
23.将所述关键帧之外的视频帧按照所述时间间隔进行丢帧，得到第一视频信息。
24.进一步地，所述根据智能融合技术得到所述第一音频信息对应的目标音频信息，包括：
25.获取所述第一音频信息中每段音频对应的文本信息；
26.提取所述文本信息中的关键字；
27.根据智能融合技术将关键字信息进行整合，获得包含所述关键字的目标句子；
28.若所述目标句子的字数小于或者等于目标音频字数最大值，则将所述目标句子，利用预设的平均语速生成所述目标音频信息。
29.进一步地，所述目标音频字数最大值的获取步骤，包括：
30.根据第一公式得到目标音频字数最大值，所述第一公式为
31.m＝t*v
32.t为所述第一视频信息对应的视频时长；v为预设平均语速；m为目标音频字数最大值。。
33.本技术还提供一种基于视频倍速下音频的处理装置，其特征在于，所述装置包括：
34.第一音频信息模块，用于对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；
35.子视频信息模块，用于获得所述第一音频信息对应的子视频信息；
36.第一视频信息模块，用于基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；
37.目标音频信息模块，用于根据智能融合技术得到所述第一音频信息对应的目标音频信息；
38.对齐模块，用于将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。
39.本技术还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述的基于视频倍速下音频的处理方法的步骤。
40.本技术还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的基于视频倍速下音频的处理方法的步骤。
41.有益效果：对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；获得所述第一音频信息对应的子视频信息；基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；根据智能融合技术得到所述第一音频信息对应的目标音频信息；将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。本技术在保证视频倍速的同时，智能生成音频信息，提高了用户视听观影体验。
附图说明
42.图1为本技术基于视频倍速下音频的处理方法的一实施例流程示意图；
43.图2为本技术基于视频倍速下音频的处理方法的另一实施例流程示意图；
44.图3为本技术基于视频倍速下音频的处理方法的另一实施例流程示意图；
45.图4为本技术基于视频倍速下音频的处理方法的另一实施例流程示意图；
46.图5为本技术基于视频倍速下音频的处理方法的另一实施例流程示意图；
47.图6为本技术基于视频倍速下音频的处理方法的另一实施例流程示意图；
48.图7为本技术基于视频倍速下音频的处理装置的一实施例结构示意图；
49.图8为本技术计算机设备的一实施例结构示意框图。
50.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
51.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
52.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
53.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
54.参照图1，本发明实施例提供一种基于视频倍速下音频的处理方法，包括以下步骤s1-s5：
55.s1对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息。
56.在步骤s1中，所述对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息的步骤之前，包括：判断所述多媒体数据是否被调整为倍速播放；若是，则对多媒体数据对应的音频信息进行分段标记；若否，则不对多媒体数据对应的音频信息进行分段标记多媒体数据(multimedia)是多种媒体的综合，一般包括文本，声音和图像等多种媒体形式，对视频信息进行丢帧，所述视频信息包括文字、彩色图片、动画、视频片段等，包括视频数据，所述丢帧，也叫跳帧，假如显示器设定的刷新率是80hz，显卡以100fps循环显示0到9数字，那么，在开始的0.1秒内，显卡显示了10个数字而显示器只刷新了8次，最终看到的图像很可能是会丢帧，将多媒体数据中的视频和音频进行分离，将视频按照一定的时间间隔进行丢帧，所述时间间隔可以由用户自己设置或者系统根据视频信息量自动执行丢帧，
57.s2:获得所述第一音频信息对应的子视频信息。
58.在步骤s2中，根据所述音频分割点标记，以所述音频分割点标记对应的时刻，将所述第一音频信息对应的视频信息进行分段，得到子视频信息。
59.s3:基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；
60.在步骤s3中，当由用户自行设定时间间隔时，具体地，在一实施例中，所述对多媒体数据对应的视频信息进行丢帧，得到第一视频信息，包括：获取视频信息对应的视频帧，根据所述视频帧的信息量将所述视频帧分为i帧，b帧，p帧，将信息量最大的视频帧单独编码成一个单元，确定为i帧，即关键帧，包含一幅图片的所有信息，可独立解码成一幅完整的图片，后面的第二个单元一直到第十个单元中的每一个单元我们定义为p帧(差别帧，因为它不包含完整的画面，只包含和前面帧的差别的信息，不能独立解码成一幅完整的图片，需要和前面解码后的图片一起才能解码出完整的图片)，还有b帧(双向帧，需要前后的数据才能解码成单独的图片)，根据丢帧操作实现了视频的倍速播放。
61.s4：根据智能融合技术得到所述第一音频信息对应的目标音频信息。
62.在步骤s4中，所述根据智能融合技术得到所述第一音频信息对应的目标音频信息，包括：获取所述第一音频信息中每段音频对应的文本信息；提取所述文本信息中的关键字；根据智能融合技术将关键字信息进行整合得到目标音频信息。具体地，在一实施例中，获取分段标记后的第一音频信息，第一音频信息中的音频段转化为文本，提取所述文本中的关键字，将关键字进行智能整合得到目标音频信息，将目标字数与目标音频字数进行比较，当目标字数小于等于目标音频字数时，则将目标字数转化为与语音进行播放，所述目标音频字数为第一音频信息对应的视频信息。
63.s5:将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。
64.在步骤s5中，在一实施例中，将倍速后的视频帧与目标音频进行对齐。对齐方式包括中间对齐，也可以首对齐，在该实施例中，对齐方式为首尾对齐，倍速后的视频帧即为第一视频信息中的视频帧，通过上述步骤，保证了多媒体数据中的视频倍速时，音频在保证内容清晰时也能和视频同步播放。
65.本发明属于多媒体数据处理技术领域，特别是涉及一种基于视频倍速下音频的处理方法、装置、设备和介质，其中，方法包括：对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；对所述多媒体数据对应的视频信息进行丢帧，得到第一视频信息；根据智能融合技术得到所述第一音频信息对应的目标音频信息；将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。本技术在视频倍速下，提高了用户的视听观影体验。
66.参照图2，在一个实施例中，所述对所述多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息，包括：
67.s11:获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据；
68.在步骤s11中，所述音频子数据包括语音声音、音乐、音效和旁白等，将音频进行提取，以每句话为分割点进行音频分段，在每句话分段结尾处分别进行标记分割点，得到第一音频信息，具体地，在一实施例中，将一段音频以每句话结束点为分割点，得到多个音频子数据。
69.s12:对每个所述音频子数据设置对应的音频分割点标记，得到第一音频信息。
70.在步骤s12中，在一实施例中，对每个分割点标记成分割点a1、分割点a2、分割点a3
…
分割点an；根据判断多媒体数据是否开启倍速功能来确定是否要对多媒体数据对应的音频信息进行分段标记，具体地，在一实施例中，系统检测到用户选择了视频倍速功能，且超过2倍速，则对视频对应的音频进行提取并进行分段标记处理，在本实施例中，当超过2倍速时再开始进行音频提取，具体快进速度多少时再进行音频的提取，可以根据具体用户需求进行调整，此处不做限定，根据判断视频是否被调整为倍速播放来确定是否需要提取音频，保证了用户的观感体验。
71.参照图3，在一个实施例中，所述获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据，包括：
72.s13:识别所述音频信息中的断句特征；其中，断句特征至少包括声学断句特征、文字断句特征以及间隔时长大于阈值的静音段；
73.在步骤s13中，所述识别所述音频信息中的断句特征包括：根据所述纯文字数据的标点位置，标注文本数据的断句标签；对所述纯文本数据进行分词，并计算各词的词向量；根据所述纯文本数据中每个词的词向量及所述断句标签，构建文字断句模型或者通过声学断句特征模型来识别待断句的特征。
74.s14:若识别到所述断句特征至少之一，则以断句特征出现的时刻作为音频分割点进行标记；
75.在步骤s14中，根据音频信息中的断句特征对音频的分割点进行标记，根据音频的分割点标记得到多个音频子数据，断句特征包括声学断句特征、文字断句特征以及间隔时长大于阈值的静音段，所述声学断句特征包括以下任意一种或多种：词间停顿时长、词尾基频走势、词内音素平均时长、词内元音音素平均时长、说话人历史平均语速等，具体地，在一实施例中，根据语音停顿时长这一特征对待断句文本提取文本断句特征，判断当前视频中的语音出现的停顿时长是否大于预设停顿时长，若大于，则在该位置进行分割点标记，通过上述技术方案，得到分割点标记的音频。
76.s15:以多个所述音频分割点将所述音频信息进行分割，得到多个所述音频子数据。
77.在步骤s15中，预先收集大量纯文本数据，构建文本断句模型，利用所述文本断句模型提取各词或字的文本断句特征，在该实施例中，预先收集少量文本数据及其对应的语音数据，构建基于文本断句特征和声学断句特征的长时记忆断句模型；在对文本断句时，分别根据待断句文本及其对应的语音数据提取文本断句特征和声学断句特征，利用提取的断句特征和预先构建的长时记忆断句模型逐词进行断句判断，通过上述技术方案，得到了多个音频子数据。
78.参照图4，在一个实施例中，所述对每个所述音频子数据设置对应的音频分割点标记，得到第一音频信息的步骤之后，包括：
79.s16:根据所述音频分割点标记，以所述音频分割点标记对应的时刻，将所述第一音频信息对应的视频信息进行分段，得到子视频信息。
80.在步骤s16中，根据第一音频信息中每段音频的分割点对视频信息进行对应分割，得到分段后的视频，为视频丢帧做准备，具体地，在一实施例中，对一段音频进行分割，得到
音频帧分割点分别为a1、a2、a3、a4、a5、a6；根据音频分割点对应地将视频帧中的图片进行分段，得到分段的视频，通过上述技术方案，得到子视频信息，从而才能进一步地将分段视频进行丢帧处理。
81.参照图5，在一个实施例中，所述基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息，包括：
82.s31:基于预设的视频倍速获取对应的时间间隔；
83.在步骤s31中，所述视频倍速可以根据用户需要进行设置，不对此进行限定，具体地，在一实施例中，根据视频信息获取视频倍速，在该实施例中，原视频时长为60分钟，1秒的时长播放25帧，当前要过以2倍速进行播放，则对应的每间隔一帧进行丢帧，则将原视频以1秒50帧的帧率进行播放，视频信息包括文字、彩色图片、动画、音乐、视频片段等，根据音频分割点标记多视频进行分段，得到多段视频帧，获取每段视频帧的信息量，根据视频帧的信息量将多段视频帧分为i帧、p帧、b帧，具体地，在一实施例中，根据预设的视频倍速获取对应的时间间隔的步骤之前，包括：读取视频文件或网络数据；识别读取的数据中的视频相关的数据；解析出里面的每一个单元(nalu)，即每一帧(i、p、b)；然后把这些帧解码出完整的图片；最后按照一定的时间间隔把解码出来的图片显示出来，通过上述视频解码的过程得到图片。
84.s32:获取所述子视频信息中的子视频帧；
85.在步骤s32中，根据预设的视频倍速获取对应的时间间隔，对子视频信息中的子视频的视频帧按照时间间隔进行丢帧，得到子视频信息中的子视频帧，在本实施例中，时间间隔规定为40ms显示一幅图片。
86.s33:根据所述子视频帧中信息量的大小确定关键帧；
87.在步骤s33中，在一实施例中，当遇到两个在一起的关键帧i帧时，根据两个i帧的信息量大小来确定，丢弃信息量较小的i帧，i帧为帧内编码帧，i帧通常是每个gop(mpeg所使用的一种视频压缩技术)的第一个帧，经过适度地压缩，作为随机访问的参考点，可以当成静态图像。p帧：前向预测编码帧，通过将图像序列中前面已编码帧的时间冗余信息充分去除来压缩传输数据量的编码图像，也称为预测帧。b帧：双向预测内插编码帧，以前面的i或p帧和后面的p帧为参考帧。具体地，在另一实施例中，分别计算每个待提取镜头中视频帧之间的帧间变化幅度，帧间变化幅度反应了视频帧的内容大小。利用基于直方图的算法、基于运动的算法、基于轮廓的算法和针对压缩视频的算法中的一种或多种算法，计算出每个待提取镜头中视频帧之间的帧间变化幅度，根据帧间变化幅度确定关键帧。
88.s34:将所述关键帧之外的视频帧按照所述时间间隔进行丢帧，得到第一视频信息。
89.在步骤s34中，在一实施例中，保留视频帧中的关键帧i帧，对b帧和p帧进行丢帧，在该实施例中时间间隔为30ms，每隔30ms对b帧和i帧进行丢弃，完成丢弃操作，得到第一视频信息，在另一实施例中，数据检测模型获取当前视频帧的数据占用长度，判断当前视频帧的数据占用长度是否大于预设阈值，当数据占用长度大于预设阈值时，则丢弃当前待缓存的视频帧，否则，不丢弃，以此完成丢弃操作，通过上述技术方案，得到第一视频信息。
90.参照图6，在一个实施例中，所述根据智能融合技术得到所述第一音频信息对应的目标音频信息，包括：
91.s41:获取所述第一音频信息中每段音频对应的文本信息；
92.在步骤s41中，根据第一音频信息中进行分割标记的音频转化为文本，提取文本中的关键字，根据关键字进行智能融合处理得到目标音频信息，所述智能融合技术不做限定，具体地，在一实施例中，根据语音识别转文本模型获取音频信息对应的文本信息。
93.s42:提取所述文本信息中的关键字；
94.在步骤s42中，在本实施例中，利用nlp技术提取文本中的关键字，将关键字智能融合为新的句子，所述nlp技术是自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
95.s43:根据智能融合技术将关键字信息进行整合，获得包含所述关键字的目标句子；
96.在步骤s43中，在一实施例中，通过音频信息转化为文本信息，文本信息为“你今天穿着真好看”，提取文本信息的关键字，得到“你，好看，穿着”，根据融合技术得到关键字的目标句子“你穿着好看”。
97.s44:若所述目标句子的字数小于或者等于目标音频字数最大值，则将所述目标句子，利用预设的平均语速生成所述目标音频信息。
98.在步骤s44中，在上述实施例中，关键字的目标句子为“你穿着好看”，此时目标句子的字数为5，根据第一公式得到目标音频字数最大值的字数为10，所述第一公式为该音频信息中的音频的平均语速和音频对应的视频时长的乘积，此时目标句子字数小于目标音频字数的最大值，则将所述目标句子，根据系统预设的平均语速生成目标音频信息，在另一实施例中，目标句子的字数为15，根据第一公式得到目标音频字数最大值的字数为10，此时，目标句子的字数大于目标音频字数最大值，则重新对第一音频信息进行关键字提取，然后通过智能融合技术进行整合。通过上述技术方案，得到目标音频信息，为视频倍速播放时，音频也能内容清晰且同步播放，提高用户体验感。
99.参照图，在一个实施例中，所述目标音频字数最大值的获取步骤，包括：
100.s45:根据第一公式得到目标音频字数最大值，所述第一公式为
101.m＝t*v
102.t为所述第一视频信息对应的视频时长；v为预设平均语速；m为目标音频字数最大值。
103.在步骤s45中，所述第一公式为m＝t*v；t为所述第一视频信息对应的视频时长；v为预设平均语速；m为目标音频字数最大值；将根据智能融合技术得到的目标字数与第一公式计算得到的目标音频字数进行比较，当目标字数小于目标音频字数时，才能将目标字数转化为对应的语音，对齐视频进行播放，具体地，在一实施例中，根据第一公式得到目标音频字数为10个字，而智能融合技术将音频短的关键字融合后得到的目标字数则会控制在10个字以内，在另一实施例中，根据第一公式得到目标音频字数30，此时智能融合技术将音频短的关键字融合后得到的目标字数则会控制在30个字以内，通过上述技术方案，保证了只能融合后的句子字数在目标音频字数之内，防止出现播放了智能融合后的目标字数，但该字数超过目标音频字数，则会造成该音频对应的视频帧播放完，但音频却没有播放完成的
问题，使用户对视频内容不了解，难以把握信息，体验感差，此时，将关键字重新进行整合，直到目标字数小于等于目标音频字数。通过上述技术方案，得到视频倍速播放时对应的目标音频，提高用户的体验感。
104.参照图7，是本发明实施例还提供一种基于视频倍速下音频的处理装置，包括：
105.第一音频信息模块10，用于对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；
106.子视频信息模块20，用于获得所述第一音频信息对应的子视频信息；
107.第一视频信息模块30，用于基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；
108.目标音频信息模块40，用于根据智能融合技术得到所述第一音频信息对应的目标音频信息；
109.对齐模块50，用于将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。
110.在一个实施例中，所述第一音频信息模块10还包括：
111.所述对所述多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息，包括：
112.获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据；
113.对每个所述音频子数据设置对应的音频分割点标记，得到第一音频信息。在一个实施例中，所述第一音频信息模块10还包括：
114.所述获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据，包括：
115.识别所述音频信息中的断句特征；其中，断句特征至少包括声学断句特征、文字断句特征以及间隔时长大于阈值的静音段；
116.若识别到所述断句特征至少之一，则以断句特征出现的时刻作为音频分割点进行标记；
117.以多个所述音频分割点将所述音频信息进行分割，得到多个所述音频子数据。
118.在一个实施例中，所述子视频信息模块20还包括：
119.根据所述音频分割点标记，以所述音频分割点标记对应的时刻，将所述第一音频信息对应的视频信息进行分段，得到子视频信息。
120.在一个实施例中，所述第一视频信息模块30还包括：
121.所述基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息，包括：
122.基于预设的视频倍速获取对应的时间间隔；
123.获取所述子视频信息中的子视频帧；
124.根据所述子视频帧中信息量的大小确定关键帧；
125.将所述关键帧之外的视频帧按照所述时间间隔进行丢帧，得到第一视频信息。
126.在一个实施例中，上述目标音频信息模块40还包括：
127.获取所述第一音频信息中每段音频对应的文本信息；
128.提取所述文本信息中的关键字；
129.根据智能融合技术将关键字信息进行整合，获得包含所述关键字的目标句子；
130.若所述目标句子的字数小于或者等于目标音频字数最大值，则将所述目标句子，利用预设的平均语速生成所述目标音频信息。
131.在一个实施例中，上述目标音频信息模块40还包括：
132.根据第一公式得到目标音频字数最大值，所述第一公式为
133.m＝t
*v134.t为所述第一视频信息对应的视频时长；v为预设平均语速；m为目标音频字数最大值。
135.参照图8，本发明实施例还提供一种计算机设备，该计算机设备的内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于视频倍速下音频的处理方法的相关数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地，上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现基于视频倍速下音频的处理方法，包括如下步骤：对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；获得所述第一音频信息对应的子视频信息；基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；根据智能融合技术得到所述第一音频信息对应的目标音频信息；将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定。
136.本技术一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于视频倍速下音频的处理方法，包括如下步骤：对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；获得所述第一音频信息对应的子视频信息；基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；根据智能融合技术得到所述第一音频信息对应的目标音频信息；将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。
137.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram通过多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
138.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
139.以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：
1.一种基于视频倍速下音频的处理方法，其特征在于，所述方法包括：对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；获得所述第一音频信息对应的子视频信息；基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；根据智能融合技术得到所述第一音频信息对应的目标音频信息；将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。2.根据权利要求1所述的基于视频倍速下音频的处理方法，其特征在于，所述对所述多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息，包括：获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据；对每个所述音频子数据设置对应的音频分割点标记，得到第一音频信息。3.根据权利要求2所述的基于视频倍速下音频的处理方法，其特征在于，所述获得所述音频信息的音频分割点，基于所述音频分割点，对所述音频信息进行分割，得到多个音频子数据，包括：识别所述音频信息中的断句特征；其中，断句特征至少包括声学断句特征、文字断句特征以及间隔时长大于阈值的静音段；若识别到所述断句特征至少之一，则以断句特征出现的时刻作为音频分割点进行标记；以多个所述音频分割点将所述音频信息进行分割，得到多个所述音频子数据。4.根据权利要求1所述的基于视频倍速下音频的处理方法，其特征在于，所述获得第一音频信息对应的子视频信息的步骤，包括：根据所述音频分割点标记，以所述音频分割点标记对应的时刻，将所述第一音频信息对应的视频信息进行分段，得到子视频信息。5.根据权利要求1所述的基于视频倍速下音频的处理方法，其特征在于，所述基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息，包括：基于预设的视频倍速获取对应的时间间隔；获取所述子视频信息中的子视频帧；根据所述子视频帧中信息量的大小确定关键帧；将所述关键帧之外的视频帧按照所述时间间隔进行丢帧，得到第一视频信息。6.据权利要求1所述的基于视频倍速下音频的处理方法，其特征在于，所述根据智能融合技术得到所述第一音频信息对应的目标音频信息，包括：获取所述第一音频信息中每段音频对应的文本信息；提取所述文本信息中的关键字；根据智能融合技术将关键字信息进行整合，获得包含所述关键字的目标句子；若所述目标句子的字数小于或者等于目标音频字数最大值，则将所述目标句子，利用预设的平均语速生成所述目标音频信息。7.据权利要求6所述的基于视频倍速下音频的处理方法，其特征在于，所述目标音频字数最大值的获取步骤，包括：根据第一公式得到目标音频字数最大值，所述第一公式为
m＝t
*
vt为所述第一视频信息对应的视频时长；v为预设平均语速；m为目标音频字数最大值。8.一种基于视频倍速下音频的处理装置，其特征在于，所述装置包括：第一音频信息模块，用于对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；子视频信息模块，用于获得所述第一音频信息对应的子视频信息；第一视频信息模块，用于基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；目标音频信息模块，用于根据智能融合技术得到所述第一音频信息对应的目标音频信息；对齐模块，用于将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于视频倍速下音频的处理方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于视频倍速下音频的处理方法的步骤。

技术总结
本发明属于多媒体数据处理技术领域，特别是涉及一种基于视频倍速下音频的处理方法，其特征在于，所述方法包括：对多媒体数据对应的音频信息进行分段标记，得到对应的第一音频信息；获得所述第一音频信息对应的子视频信息；基于预设的视频倍速，对所述子视频信息进行丢帧，得到第一视频信息；根据智能融合技术得到所述第一音频信息对应的目标音频信息；将所述目标音频信息与所述第一视频信息进行对齐，得到目标视频。本申请在视频倍速下，提高了用户的视听观影体验。的视听观影体验。的视听观影体验。

技术研发人员：戴志涛吴蕊珠
受保护的技术使用者：深圳市沃特沃德信息有限公司
技术研发日：2023.06.15
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于视频倍速下音频的处理方法、装置、设备和介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于视频倍速下音频的处理方法、装置、设备和介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表