一种语音识别方法、装置、设备及存储介质与流程

未命名 09-17 阅读：115 评论：0

1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术：

2.解说语音一般指解说员对视频的视频内容进行解说的语音，比如，游戏解说语音为游戏解说员对游戏视频的视频内容进行解说的语音。在某些领域，解说语音识别服务变得越来越重要，需求也越来越多，对解说语音识别服务的质量要求也逐渐提升。
3.目前的语音识别方案大多为针对通用语音的识别方案，这些方案由于关注的是通用语音的识别，因此，对通用语音具有较好的识别效果。然而，解说语音通常为特定领域的语音，因此，针对通用语音的识别方案对于解说语音的适用性并不高，即，采用针对通用语音的识别方案对解说语音进行识别，识别效果较差。

技术实现要素：

4.有鉴于此，本发明提供了一种语音识别方法、装置、设备及存储介质，用以解决采用针对通用语音的识别方案对解说语音进行识别，识别效果较差的问题，其技术方案如下：
5.一种语音识别方法，包括：
6.获取目标语音和目标视频，其中，所述目标语音为所述目标视频的视频内容的解说语音；
7.对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；
8.根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。
9.可选的，所述对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果，包括：
10.利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频，得到所述目标语音的语音识别结果；其中：
11.所述语音识别模型采用第一训练集中的第一训练数据训练得到，所述第一训练数据包括第一训练视频和标注有语音内容文本的第一训练语音，所述第一训练语音为所述第一训练视频的视频内容的解说语音；
12.所述语音识别模型的训练目标包括：使根据所述第一训练语音的声学特征并辅以所述第一训练视频的视觉特征预测的语音识别结果与所述第一训练语音标注的语音内容文本趋于一致。
13.可选的，所述利用预先训练得到的语音识别模型处理所述目标语音和所述目标视
频，得到所述目标语音的语音识别结果，包括：
14.利用所述语音识别模型，获取所述目标语音的声学特征和所述目标视频的视觉特征；
15.利用所述语音识别模型，将所述目标语音的声学特征与所述目标视频的视觉特征融合；
16.利用所述语音识别模型，以融合后特征为依据，预测所述目标语音的语音识别结果。
17.可选的，所述第一训练视频标注有视频内容描述文本；
18.所述语音识别模型的训练目标还包括：使根据所述第一训练视频的视觉特征预测的视频内容描述文本与所述第一训练视频标注的视频内容描述文本趋于一致。
19.可选的，所述语音识别模型的训练过程包括：
20.利用语音识别模型获取所述第一训练语音提取声学特征以及所述第一训练视频的视觉特征，并以所述第一训练语音的声学特征为依据，辅以所述第一训练视频的视觉特征，预测所述第一训练语音的语音识别结果，得到第一预测结果；
21.根据所述第一训练视频的视觉特征，预测所述第一训练视频的视频内容描述文本，得到第二预测结果；
22.根据所述第一预测结果和所述第一训练语音标注的语音内容文本，以及所述第二预测结果和所述第一训练视频标注的视频内容描述文本，对语音识别模型进行参数更新。
23.可选的，所述以所述第一训练语音的声学特征为依据，辅以所述第一训练视频的视觉特征，预测所述第一训练语音的语音识别结果，包括：
24.对所述第一训练语音的声学特征和所述第一训练视频的视觉特征进行模态丢弃处理，得到模态丢弃处理后的特征；
25.对所述模态丢弃处理后的特征进行融合；
26.根据融合后特征预测所述第一训练语音的语音识别结果。
27.可选的，所述根据所述第一训练视频的视觉特征，预测所述第一训练视频的视频内容描述文本，得到第二预测结果，包括：
28.对所述第一训练视频的视觉特征进行解码：在每个解码时刻，根据所述第一训练视频的视觉特征获取该解码时刻解码所需的视觉上下文特征，对该解码时刻解码所需的视觉上下文特征进行解码，得到该解码时刻的视频内容描述文本预测结果；
29.由各解码时刻的视频内容描述文本预测结果组成第二预测结果。
30.可选的，所述语音识别模型包括：用于对输入的语音提取声学特征、对输入的视频提取视觉特征以及将提取的声学特征与提取的视觉特征融合的编码模块，以及对所述编码模块输出的融合特征进行解码的解码模块；
31.初始的语音识别模型中的编码模块预先采用第二训练集中的第二训练数据训练得到，其中，所述第二训练数据包括无标注的第二训练语音以及无标注的第二训练视频，所述第二训练语音为所述第二训练视频的视频内容的解说语音。
32.可选的，采用所述第二训练集中的第二训练数据训练编码模块的过程包括：
33.针对所述第二训练集中的每条第二训练数据，基于预先训练得到的通用语音识别模型获取该第二训练数据中的第二训练语音的声学特征，作为该第二训练数据对应的声学
特征；
34.对所述第二训练集中各第二训练数据分别对应的声学特征进行聚类，得到多类声学特征，并为每类声学特征设定一类别标签，将每个声学特征的类别标签确定为对应的第二训练数据的类别标签；
35.将每条具有类别标签的第二训练数据作为第三训练数据，由获得的各第三训练数据组成第三训练集；
36.采用所述第三训练集，结合数据分类任务，训练编码模块。
37.可选的，所述采用所述第三训练集，结合数据分类任务，训练编码模块，包括：
38.构建包括编码模块和分类模块的数据分类模型；
39.从所述第三训练集中获取第三训练数据；
40.将获取的第三训练数据输入数据分类模型的编码模块，得到第三训练数据对应的融合特征；
41.将第三训练数据对应的融合特征输入数据分类模型的分类模块进行类别预测，得到第三训练数据的类别预测结果；
42.根据第三训练数据的类别预测结果以及第三训练数据的类别标签，对数据分类模型进行参数更新。
43.一种语音识别装置，包括：数据获取模块、特征获取模块和语音识别结果确定模块；
44.所述数据获取模块，用于获取目标语音和目标视频，其中，所述目标语音为所述目标视频的视频内容的解说语音；
45.所述特征获取模块，用于对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；
46.所述语音识别结果确定模块，用于根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。
47.一种语音识别设备，包括：存储器和处理器；
48.所述存储器，用于存储程序；
49.所述处理器，用于执行所述程序，实现上述任一项所述的语音识别方法的各个步骤。
50.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的语音识别方法的各个步骤。
51.本发明提供的语音识别方法、装置、设备及存储介质，首先获取目标视频和目标语音(目标语音为目标视频的视频内容的解说语音)，然后对目标语音提取声学特征，并对目标视频提取含视频内容信息的视觉特征，最后根据目标语音的声学特征并辅以目标视频的视觉特征，确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音，其与目标视频的视频内容具有一定的相关性，本发明从目标语音即解说语音的这一特点出发，提出对目标视频提取含视频内容信息的视觉特征，辅以含视频内容信息的视觉特征对解说语音进行语音识别，在对目标语音即解说语音进行语音识别时，辅以含视频内容信息的视觉特征，能够获得较为准确的语音识别结果。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
53.图1为本发明涉及的硬件架构的示意图；
54.图2为本发明实施例提供的语音识别方法的流程示意图；
55.图3为本发明实施例提供的训练语音识别模型的流程示意图；
56.图4为本发明实施例提供的语音识别模型的结构示意图；
57.图5为本发明实施例提供的将声学特征和视觉特征依次经模态丢弃模块、特征融合模块进行处理的示意图；
58.图6为本发明实施例提供的将视觉特征经注意力模块和视觉描述解码模块进行解码的示意图；
59.图7为本发明实施例提供的采用第二训练集中的第二训练数据训练编码模块的流程示意图；
60.图8为本发明实施例提供的语音识别装置的结构示意图；
61.图9为本发明实施例提供的语音识别设备的结构示意图。
具体实施方式
62.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
63.目前的语音识别方案大多为基于通用识别模型的识别方案，即，预先训练一个通用语音识别模型，进而，将待识别语音输入训练得到的通用语音识别模型进行识别。基于通用识别模型的识别方案对通用语音具有较好的识别效果，但是，将其应用于特定领域的解说语音的识别时，识别准确率较低。
64.鉴于基于通用识别模型的识别方案对于特定领域(比如游戏解说领域)的解说语音的识别准确率较低，本案发明人进行了研究，起初的思路是：首先训练一个通用语音识别模型，然后通过迁移学习方式，使用特定领域的训练语音和训练语音的标注文本对通用语音识别模型进行微调，微调后模型作为特定领域的语音识别模型，进而，将特定领域的解说语音输入特定领域的语音识别模型进行语音识别。
65.本案发明人对上述方案进行研究发现，上述方案虽然在一定程度上提升了特定领域解说语音的识别准确率，但是，相比于通用领域语音的识别准确率还有很大的差距。
66.本案发明人对特定领域的解说语音识别任务进行研究发现，相比于通用领域的语音识别任务，特定领域的解说语音识别任务的难度要大很多。以游戏领域的游戏解说语音识别任务为例：影响游戏解说语音识别效果的因素很多，比如解说员普通话水平、解说员地域口音、游戏专有名词、游戏场景噪声等等，另外，很多游戏解说员可能同时也是游戏玩家，这意味着，不同游戏解说员的教育程度、年龄、口音可能不同，即游戏解说语音识别效果还
会受解说员教育程度、年龄、口音等复杂因素的影响，上述种种因素显著降低了游戏解说语音的识别准确率。
67.为了能够显著提升特定领域解说语音的识别准确率，本案发明人继续进行研究，在研究过程中发现，目前的语音识别方案为单模态语音识别方案，基于该发现，本案发明人想到可采用多模态语音识别方案，即，利用说话人的唇语内容辅助该说话人的语音的识别，具体的，采用说话人的训练语音和训练语音对应的视频(训练语音对应的视频为训练语音的说话人的视频，其包含训练语音的说话人的人脸)训练语音识别模型，进而将待识别语音和待识别语音对应的视频(待识别语音对应的视频包含待识别语音的说话人的人脸)输入语音识别模型。
68.本案对上述的多模态语音识别方案进行研究发现，上述的多模态语音识别方案存在诸多缺陷：其一，未充分考虑解说语音的特点；其二，上述的多模态语音识别方案需要通过摄像头捕捉说话人即解说员的人脸信息，因涉及用户隐私的保护，导致上述的多模态语音识别模型在很多场合都不适用。
69.鉴于上述的多模态语音识别方案存在诸多缺陷，本案发明人继续进行研究，本案发明人通过研究发现，解说语音为解说员对视频画面中的内容进行描述和分析的语音，这意味着，解说语音的语音内容与解说员所解说的视频画面中的内容具有一定的相关性，以游戏领域的游戏解说语音为例，由于游戏解说语音为游戏解说员对游戏视频画面中的内容进行描述和分析的语音，因此，游戏视频画面中的内容与解说语音的语音内容具有一定的相关性，比如，游戏视频画面中的内容为“机器人正在从中路的河道走过来，此时火舞拿到了第一滴血”，对应的解说语音的语音内容为“火舞这时在下路拿了一血”，基于上述发现，本案发明人继续进行研究，通过不断研究，最终提出了一种效果较好的语音识别方法，该语音识别方法的基本构思是，利用解说员所解说的视频画面中的内容辅助解说语音的识别，该语音识别方法充分考虑了解说语音的特点，能够显著提升特定领域解说语音的识别准确率，另外，由于该语音识别方法无需通过摄像头捕捉解说员的人脸信息，因此不会触及到解说员的隐私。
70.在介绍本发明提供的语音识别方法之前，先对本发明涉及的硬件架构进行说明。
71.在一种可能的实现方式中，如图1所示，本发明涉及的硬件架构可以包括：电子设备101和服务器102。
72.示例性的，电子设备101可以是任何一种可与用户进行人机交互的电子产品，例如，pc、笔记本电脑、平板电脑、手机、学习机、智能电视等。
73.应注意的是，图1仅仅是一种示例，电子设备的类型可以有多种，不限于图1中的笔记本电脑。
74.示例性的，服务器102可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心。服务器102可以包括处理器、存储器以及网络接口等。
75.示例性的，电子设备101可以通过无线通信网络与服务器102建立连接并通信；示例性的，电子设备101可以通过有线通信网络与服务器102建立连接并通信。
76.电子设备101可获取目标语音和目标视频(目标语音为目标视频的视频内容的解说语音)，将目标语音和目标视频发送至服务器102，服务器102按本发明提供的语音识别方法对目标语音进行语音识别。
77.在另一种可能的实现方式中，本发明涉及的硬件架构可以包括：电子设备。
78.电子设备为具有较强数据处理能力的电子产品，电子设备可获取目标语音和目标视频(目标语音为目标视频的视频内容的解说语音)，按本发明提供的语音识别方法对目标语音进行语音识别。
79.本领域技术人员应能理解上述电子设备和服务器仅为举例，其它现有的或今后可能出现的电子设备或服务器如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。
80.接下来通过下述实施例对本发明提供的语音识别方法进行介绍。
81.请参阅图2，示出了本发明实施例提供的语音识别方法的流程示意图，该语音识别方法可以包括：
82.步骤s201：获取目标语音和目标视频。
83.其中，目标语音和目标视频为特定领域的语音和视频，目标语音为待识别语音，其为目标视频的视频内容的解说语音，即解说员针对目标视频的视频内容进行解说的语音。
84.示例性的，目标语音和目标视频为游戏领域的语音和视频，具体的，目标视频为游戏视频，目标语音为游戏视频的视频内容的解说语音，即游戏解说员对游戏视频的视频内容进行解说的语音。
85.目标语音和目标视频除了可以为游戏领域的语音和视频外，还可以为其他领域的语音和视频，比如，目标语音和目标视频还可以为体育领域的语音和视频，具体的，目标视频可以为体育赛事视频，目标语音可以为体育赛事视频的视频内容的解说语音，即体育解说员对体育赛事视频的视频内容进行解说的语音。
86.步骤s202：对目标语音提取声学特征，得到目标语音的声学特征，并对目标视频提取含视频内容信息的视觉特征，得到目标视频的视觉特征。
87.本实施例对目标语音和目标视频这两种模态的数据分别提取特征，以得到目标语音的声学特征以及目标视频的视觉特征。其中，目标视频的视觉特征含目标视频的视频内容信息。
88.步骤s203：根据目标语音的声学特征并辅以目标视频的视觉特征，确定目标语音的语音识别结果。
89.具体的，将目标语音的声学特征与目标视频的视觉特征融合，根据融合后特征确定目标语音的语音识别结果。
90.由于目标语音为目标视频的视频内容的解说语音，因此，目标语音的语音内容与目标视频的视频内容具有一定的相关性，有鉴于此，本发明对目标视频提取含视频内容信息的视觉特征，辅以目标视频的视觉特征对目标语音进行识别。
91.本发明实施例提供的语音识别方法，首先获取目标语音和目标视频，然后对目标语音提取声学特征，并对目标视频提取含视频内容信息的视觉特征，最后根据目标语音的声学特征并辅以目标视频的视觉特征，确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音，其与目标视频的视频内容具有一定的相关性，本发明从目标语音即解说语音的这一特点出发，提出对目标视频提取含视频内容信息的视觉特征，辅以含视频内容信息的视觉特征对解说语音进行识别，在对解说语音进行识别时，辅以含视频内容信息的视觉特征，能够获得较为准确的识别结果，尤其对于特定领域(目标语音所
属领域)的一些专有词、稀有词等具有较好的识别效果，本发明实施例提供的语音识别方法提升了解说场景的语音识别服务的用户体验。
92.在一种可能的实现方式中，上述实施例提供的语音识别方法可基于预先训练得到的语音识别模型实现。需要说明的是，上述实施例提供的语音识别方法基于模型实现仅为示例，本发明对具体实现形式不做限定。
93.具体的，基于语音识别模型实现语音识别的过程可以包括：
94.步骤a1、获取目标语音和目标视频。
95.其中，目标语音为待识别语音，其为目标视频的视频内容的解说语音，目标视频用于辅助目标语音识别。
96.步骤a2、利用语音识别模型，获取目标语音的声学特征和目标视频的视觉特征。
97.将目标语音和目标视频输入语音识别模型，语音识别模型对输入的目标语音提取声学特征，以得到目标语音的声学特征，并对输入的目标视频提取含视频内容信息的视觉特征，得到目标视频的视觉特征。
98.步骤a3、利用语音识别模型，将目标语音的声学特征与目标视频的视觉特征融合。
99.语音识别模型获得目标语音的声学特征和目标视频的视觉特征后，将目标语音的声学特征与目标视频的视觉特征融合，得到融合后特征。
100.步骤a4、利用语音识别模型，以融合后特征为依据，预测目标语音的语音识别结果。
101.语音识别模型根据融合后特征预测目标语音的语音识别结果。
102.上述的语音识别模型采用第一训练集中的第一训练数据训练得到。
103.在一种可能的实现方式中，第一训练数据包括第一训练视频和标注有语音内容文本的第一训练语音，第一训练语音为第一训练视频的视频内容的解说语音，语音识别模型以使根据第一训练语音的声学特征并辅以第一训练视频的视觉特征预测的语音识别结果与第一训练语音标注的语音内容文本趋于一致为训练目标训练得到。需要说明的是，第一训练语音标注的语音内容文本可通过如下方式获得：先将第一训练语音输入预先训练得到的通用语音识别模型进行识别，以得到识别结果后，然后对识别结果进行人工校正，该方式具有较高的标注效率，当然，本实施例并不限定于此，也可直接由人工对第一对训练语音进行标注。
104.为了训练得到性能更佳的语音识别模型，在另一种可能的实现方式中，第一训练数据包括标注有视频内容描述文本的第一训练视频和标注有语音内容文本的第一训练语音，第一训练语音为第一训练视频的视频内容的解说语音，语音识别模型以使根据第一训练语音的声学特征并辅以第一训练视频的视觉特征预测的语音识别结果与第一训练语音标注的语音内容文本趋于一致为第一训练目标，以使根据第一训练视频的视觉特征预测的视频内容描述文本与第一训练视频标注的视频内容描述文本趋于一致为第二训练目标训练得到。
105.需要说明的是，在训练语音识别模型时，结合上述的第二训练目标进行训练，使得语音识别模型能够从输入的视频中提取到含更多更丰富的视频内容信息的视觉特征，进而，辅以含更多更丰富的视频内容信息的视觉特征进行语音识别，能够获得更为准确的识别结果。
106.在本发明的另一实施例中，以第一训练集中的第一训练数据包括标注有语音内容文本的第一训练语音和标注有视频内容描述文本的第一训练视频为例，对采用第一训练集中的第一训练数据训练语音识别模型的过程进行介绍。
107.请参阅图3，示出了训练语音识别模型的流程示意图，可以包括：
108.步骤s301：从第一训练集中获取第一训练数据。
109.其中，第一训练集中包括多条第一训练数据，每条第一训练数据包括标注有语音内容文本的第一训练语音和标注有视频内容描述文本的第一训练视频。
110.步骤s302a：利用语音识别模型，获取第一训练数据中第一训练语音的声学特征。
111.利用语音识别模型对获取的第一训练数据中的第一训练语音提取声学特征，得到第一训练语音的声学特征。
112.语音识别模型可以包括编码模块，示例性的，如图4所示，编码模块可以声学特征提取模块401a，获取的第一训练数据中的第一训练语音输入语音识别模型的声学特征提取模块401a，声学特征提取模块401a对输入的第一训练语音提取声学特征并输出。
113.可选的，声学特征提取401可以包括语音编码器，语音编码器对第一训练语音进行编码，输出第一训练语音的声学特征。其中，语音编码器可以但不限定为包括下采样卷积和conformer模块。
114.步骤s302b：利用语音识别模型，获取第一训练数据中第一训练视频的视觉特征。
115.利用语音识别模型对获取的第一训练数据中的第一训练视频提取视觉特征，得到第一训练视频的视觉特征。
116.如图4所示，语音识别模型的编码模块可以包括视觉特征提取模块401b，获取的第一训练数据中的第一训练视频输入语音识别模型的视觉特征提取模块401b，视觉特征提取模块401b对输入的第一训练视频提取视觉特征并输出。
117.可选的，视觉特征提取模块401b可以包括视频编码器和特征处理模块，视频编码器对输入的第一训练视频进行编码，输出表征第一训练视频的视觉信息的视觉特征，视频编码器输出的视觉特征进一步输入特征处理模块进行处理，特征处理模块输出能够更好地表征第一训练视频的视觉信息的视觉特征。其中，视频编码器可以但不限定为采用3d convnet，特征处理模块可以但不限定为采用双向长短期记忆网络(bidirectional lstm)。需要说明的是，在另一种可能的实现方式中，视觉特征提取模块401b也可只包括视频编码器。
118.步骤s303a：利用语音识别模型，以第一训练语音的声学特征为依据，辅以第一训练视频的视觉特征，预测第一训练语音的语音识别结果，得到第一预测结果。
119.具体的，利用语音识别模型将第一训练语音的声学特征与第一训练视频的视觉特征融合，并利用语音识别模型，以融合特征为依据，预测第一训练语音的语音识别结果，得到第一预测结果。
120.如图4所示，语音识别模型的编码模块可以包括特征融合模块402。在一种可能的实现方式中，可直接将第一训练语音的声学特征与第一训练视频的视觉特征输入特征融合模块402进行特征融合；在另一种可能的实现方式中，如图5所示，可先将第一训练语音的声学特征与第一训练视频的视觉特征输入模态丢弃模块进行模态丢弃处理，以得到模态丢弃处理后的特征，然后将模态丢弃处理后的特征输入特征融合模块402进行特征融合。
121.需要说明的是，将第一训练语音的声学特征与第一训练视频的视觉特征输入模态丢弃模块后，模态丢弃模块基于设定的模态丢弃概率，对第一训练语音的声学特征与第一训练视频的视觉特征进行模态丢弃处理。其中，设定的模态丢弃概率包括每种模态的特征被丢弃的概率(声学特征被丢弃的概率、视觉特征被丢弃的概率)以及不进行模态丢弃(不丢弃任何模态的特征)的概率，所有概率之和为1，模态丢弃模块进行模态丢弃处理的结果可能为丢弃某一模态的特征，也可能为未丢弃任何模态的特征。
122.在获得模态丢弃处理后的特征后，基于特征融合模块402对模态丢弃处理后的特征进行融合处理，需要说明的是，若模态丢弃处理后的特征包括声学特征和视觉特征，则将声学特征与视觉特征融合，若丢弃处理后的特征只包括一个模态的特征，则将这一个模态的特征与0融合，比如，模态丢弃处理后的特征为声学特征，则将视觉特征看作0，将声学特征与0融合。
123.假设第一训练语音的声学特征为fa，第一训练视频的视觉特征为fv，模态丢弃模块基于设定的概率对声学特征fa和视觉特征fv进行模态丢弃处理的结果为如下三种结果的一种：声学特征fa被丢弃、视觉特征fv被丢弃、未丢弃任何模态的特征。在获得模态丢弃处理后的特征后，基于特征融合模块402对模态丢弃处理后的特征在通道维度进行特征融合，从而得到融合特征f
av
，融合特征f
av
可表示为：
[0124][0125]
其中，f(fa,fv)表示将声学特征fa与视觉特征fv融合，其他同理。
[0126]
特征融合模块402在将声学特征与视觉特征融合时，会确定声学特征和视觉特征分别对应的权重，进而按确定出的权重对声学特征与视觉特征加权求和，以得到融合后特征。需要说明的是，声学特征和视觉特征分别对应的权重之和为1，视觉特征对应的权重越大，说明视频内容与语音内容的相关度越大，反之，视觉特征对应的权重越小，说明视频内容与语音内容的相关度越小。上述融合方式使得，在视频内容与语音内容弱相关或无关时，模型能够侧重使用声学特征确定语音识别结果。可选的，特征融合模块402可采用conformer模块。
[0127]
另外需要说明的是，上述模态丢弃模块只在训练阶段使用，在训练阶段引入模态丢弃模块的目的在于，使语音识别模型具备如下能力：在输入只有语音时，也能输出较为准确的语音识别结果。
[0128]
语音识别模型还包括解码模块，如图4所示，语音识别模型的解码模块可以包括语音识别解码器403，特征融合模块402输出的融合特征输入语音识别解码器403进行解码，得到的解码结果即为第一预测结果。
[0129]
步骤s303b：根据第一训练视频的视觉特征，预测第一训练视频的视频内容描述文本，得到第二预测结果。
[0130]
可将第一训练视频的视觉特征输入视频内容描述文本预测模块，视频内容描述文本预测模块根据输入的视觉特征预测第一训练视频的视频内容描述文本，以得到第二预测结果。
[0131]
具体的，根据第一训练视频的视觉特征，预测第一训练视频的视频内容描述文本，得到第二预测结果的过程包括：对第一训练视频的视觉特征进行解码：在每个解码时刻，根据第一训练视频的视觉特征获取该解码时刻解码所需的视觉上下文特征，对该解码时刻解码所需的视觉上下文特征进行解码，得到该解码时刻的视频内容描述文本预测结果；由各解码时刻的视频内容描述文本预测结果组成第二预测结果。
[0132]
更为具体的，如图6所示，视频内容描述文本预测模块包括注意力模块和视觉描述解码器，将第一训练视频的视觉特征输入注意力模块，在每个解码时刻，注意力模块根据第一训练视频的视觉特征获取该解码时刻解码所需的视觉上下文特征，该解码时刻解码所需的视觉上下文特征输入视觉描述解码器，视觉描述解码器对该解码时刻解码所需的视觉上下文特征进行解码，输出该解码时刻的视频内容描述文本预测结果。
[0133]
需要说明的是，上述的注意力模块和视觉描述解码器只在训练阶段使用，即，注意力模块和视觉描述解码器为语音识别模型的辅助训练模块，在训练阶段引入注意力模块和视觉描述解码器是为了提升模型的特征表达能力，即，使视觉特征提取模块能够提取到含更多、更丰富的视频内容信息的视觉特征。
[0134]
步骤s304：根据第一预测结果和第一训练语音标注的语音内容文本，以及，第二预测结果和第一训练视频标注的视频内容描述文本，对语音识别模型进行参数更新。
[0135]
具体的，根据第一预测结果和第一训练语音标注的语音内容文本，以及，第二预测结果和第一训练视频标注的视频内容描述文本，对语音识别模型进行参数更新，包括：
[0136]
步骤s3041a、根据第一预测结果和第一训练语音标注的语音内容文本，确定第一预测损失。
[0137]
可选的，第一预测损失可以为交叉熵损失，交叉熵损失的计算方式为现有技术，本实施例在此不做赘述。
[0138]
步骤s3041b、根据第二预测结果和第一训练视频标注的视频内容描述文本，确定第二预测损失。
[0139]
可选的，第二预测损失可以为交叉熵损失，交叉熵损失的计算方式为现有技术，本实施例在此不做赘述。
[0140]
步骤s3042、根据第一预测损失和第二预测损失，对语音识别模型进行参数更新。
[0141]
具体的，根据第一预测损失和第二预测损失，对语音识别模型进行参数更新的过程可以包括：将第一预测损失与第二预测损失融合，根据融合后损失对语音识别模型进行参数更新。
[0142]
将第一预测损失与第二预测损失融合的方式有多种，在一种可能的实现方式中，可直接将第一预测损失与第二预测损失求和，在另一种可能的实现方式中，可将第一预测损失与第二预测损失加权求和，加权求和的融合方式如下式所示：
[0143]
loss
total
＝λloss
asr
+θloss
vc
(2)
[0144]
其中，loss
asr
表示第一预测损失，即语音识别任务上的预测损失，loss
vc
表示第二预测损失，即视觉描述任务上的预测损失，λ为第一预测损失对应的权重，θ为第二预测损失对应的权重，λ和θ的具体取值可根据具体场景设定，loss
total
即为融合后损失。
[0145]
重复执行步骤s301～步骤s304，直至满足训练结束条件，比如模型收敛、达到设定的训练迭代次数等。
[0146]
为了能够充分利用视频内容信息，以提升解说语音的识别效果，本发明以解说员的解说语音和解说员所解说的视频这两种模态的数据为训练数据训练语音识别模型，即本发明中的语音识别模型为多模态语音识别模型。相比于辅以唇语内容进行语音识别的多模态语音识别模型，由于本发明中的多模态语音识别模型辅以解说语音所解说的视频内容对解说语音进行识别，因此，其对于解说语音的识别效果更好，并且，由于在应用本发明中的多模态语音识别模型时，无需通过摄像头捕捉说话人即解说员的人脸信息，因此，不会触及解说员的隐私，从而，本发明中的多模态语音识别模型应用范围更广。
[0147]
在一种可能的实现方式中，可采用大量的第一训练数据(有标注训练数据)训练语音识别模型，以使语音识别模型具有较好的性能，考虑到获取大量的有标注训练数据具有一定的难度，在另一种可能的实现方式，可预先用大量的无标注训练数据(比如100h的无标注训练数据)训练用于对输入的语音提取声学特征、对输入的视频提取视觉特征以及将提取的声学特征与提取的视觉特征融合的编码模块(比如上述的声学特征提取模块、视觉特征提取模块和特征融合模块)，然后再构建包括编码模块(训练得到编码模块)以及解码模块(比如上述的语音识别解码器)的模型，作为初始的语音识别模型，最后，采用少量的有标注训练数据(比如10h的第一训练数据)对初始的语音识别模型进行微调，以得到性能较佳的语音识别模型。
[0148]
针对上述第二实现方式，除了需获得第一训练集外，还需获得第二训练集，其中，第二训练集中包括多条第二训练数据，每条第二训练数据包括无标注的第二训练语音以及无标注的第二训练视频，第二训练语音为其所在的第二训练数据中的第二训练视频的视频内容的解说语音。
[0149]
接下来对采用第二训练集中的第二训练数据训练编码模块(比如上述的声学特征提取模块、视觉特征提取模块和特征融合模块)的过程进行介绍。
[0150]
请参阅图7，示出了采用第二训练集中的第二训练数据训练编码模块的流程示意图，可以包括：
[0151]
步骤s701：针对第二训练集中的每条第二训练数据，基于预先训练得到的通用语音识别模型获取该第二训练数据中的第二训练语音的声学特征，作为该第二训练数据对应的声学特征。
[0152]
经由步骤s701可获得第二训练集中各第二训练数据分别对应的声学特征。
[0153]
步骤s702：对第二训练集中各第二训练数据分别对应的声学特征进行聚类，得到多类声学特征，并为每类声学特征设定一类别标签，将每个声学特征的类别标签确定为对应的第二训练数据的类别标签。
[0154]
可采用现有的聚类方式(比如k-means聚类方式)对第二训练集中各条第二训练数据分别对应的声学特征进行聚类，通过聚类，可获得多类声学特征，在获得多类声学特征后，可为每类声学特征设定一个类别标签，比如，通过聚类获得了4类声学特征，可为4类声学特征分别设定类别标签“1”、“2”、“3”、“4”，在设定好每类声学特征的类别标签后，可将每个声学特征的类别标签作为对应的第二训练数据的类别标签，比如，一条第二训练数据对应的声学特征的类别标签为“1”，则将类别标签“1”作为该条第二训练数据对应的类别标签。
[0155]
经由步骤s702可获得第二训练集中每条第二训练数据的类别标签。
[0156]
步骤s703：将每条具有类别标签的第二训练数据作为第三训练数据，由获得的各第三训练数据组成第三训练集。
[0157]
经由步骤s701～步骤s703可获得有类别标签的训练数据。
[0158]
步骤s704：采用第三训练集，结合数据分类任务，训练编码模块。
[0159]
具体的，采用第三训练集，结合数据分类任务，训练编码模块的过程可以包括：
[0160]
步骤s7041、构建包括编码模块和分类模块的数据分类模型。
[0161]
步骤s7042、从第三训练集中获取第三训练数据。
[0162]
步骤s7043、将获取的第三训练数据中的训练语音输入数据分类模型的编码模块，得到第三训练数据对应的融合特征。
[0163]
具体的，将获取的第三训练数据输入数据分类模型的编码模块后，编码模块对第三训练数据中的训练语音提取声学特征，对第三训练数据中的训练视频提取视觉特征，并将提取的声学特征与提取的视觉特征融合，输出第三训练数据对应的融合特征。
[0164]
步骤s7044、将第三训练数据对应的融合特征输入数据分类模型的分类模块，得到第三训练数据的类别预测结果。
[0165]
数据分类模型的分类模块根据输入的融合特征对第三训练数据进行类别预测，输出第三训练数据的类别预测结果。
[0166]
步骤s7045、根据第三训练数据的类别预测结果以及第三训练数据的类别标签，对数据分类模型进行参数更新。
[0167]
具体的，根据第三训练数据的类别预测结果以及第三训练数据的类别标签，确定类别预测损失，根据类别预测损失，对数据分类模型进行参数更新。
[0168]
可选的，类别预测损失可以为交叉熵损失，交叉熵损失的计算方式为现有技术，本实施例在此不做赘述。
[0169]
重复执行步骤s7042～步骤s7045，直至满足训练结束条件(比如模型收敛，或者达到设定的训练迭代次数等)。
[0170]
训练结束后，便可用训练得到的数据分类模型中的编码模块(比如视觉特征提取模块、声学特征提取模块和特征融合模块)，同时结合上解码模块(比如语音识别解码器)构建初始的语音识别模型，在构建出初始的语音识别模型后，利用第一训练数据集中的第一训练数据对初始的语音识别模型进行训练，在训练时，可辅以模态丢弃模块和视觉描述解码器。
[0171]
在获得训练后的语音识别模型后，便可利用训练后的语音识别模型进行语音识别。具体的，首先获取目标语音和目标视频，然后将目标语音输入语音识别模型的编码模块，编码模块对目标语音提取声学特征，对目标视频提取视觉特征，并将提取的声学特征与提取的视觉特征融合，输出目标语音对应的融合特征，最后将目标语音对应的融合特征输入语音识别模型的解码模块进行解码，以得到目标语音的语音识别结果。
[0172]
本发明实施例还提供了一种语音识别装置，下面对本发明实施例提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
[0173]
请参阅图8，示出了本发明实施例提供的语音识别装置的结构示意图，可以包括：数据获取模块801、特征获取模块802和语音识别结果确定模块803。
[0174]
数据获取模块801，用于获取目标语音和目标视频，其中，所述目标语音为所述目
标视频的视频内容的解说语音。
[0175]
特征获取模块802，用于对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征。
[0176]
语音识别结果确定模块803，用于根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。
[0177]
可选的，特征获取模块802和语音识别结果确定模块803的实现过程可通过语音识别模型实现，具体的，利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频，得到所述目标语音的语音识别结果。
[0178]
其中，所述语音识别模型采用第一训练集中的第一训练数据训练得到，所述第一训练数据包括第一训练视频和标注有语音内容文本的第一训练语音，所述第一训练语音为所述第一训练视频的视频内容的解说语音；所述语音识别模型的训练目标包括：使根据所述第一训练语音的声学特征并辅以所述第一训练视频的视觉特征预测的语音识别结果与所述第一训练语音标注的语音内容文本趋于一致。
[0179]
可选的，利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频，得到所述目标语音的语音识别结果，包括：
[0180]
利用所述语音识别模型，获取所述目标语音的声学特征和所述目标视频的视觉特征；
[0181]
利用所述语音识别模型，将所述目标语音的声学特征与所述目标视频的视觉特征融合；
[0182]
利用所述语音识别模型，以融合后特征为依据，预测所述目标语音的语音识别结果。
[0183]
可选的，所述第一训练视频标注有视频内容描述文本；所述语音识别模型的训练目标还包括：使根据所述第一训练视频的视觉特征预测的视频内容描述文本与所述第一训练视频标注的视频内容描述文本趋于一致。
[0184]
可选的，本发明实施例提供的语音识别装置还可以包括：用于训练语音识别模型的第一训练模块。第一训练模块在训练语音识别模型时，具体用于：
[0185]
利用语音识别模型获取所述第一训练语音提取声学特征以及所述第一训练视频的视觉特征，并以所述第一训练语音的声学特征为依据，辅以所述第一训练视频的视觉特征，预测所述第一训练语音的语音识别结果，得到第一预测结果；
[0186]
根据所述第一训练视频的视觉特征，预测所述第一训练视频的视频内容描述文本，得到第二预测结果；
[0187]
根据所述第一预测结果和所述第一训练语音标注的语音内容文本，以及所述第二预测结果和所述第一训练视频标注的视频内容描述文本，对语音识别模型进行参数更新。
[0188]
可选的，第一训练模块在利用语音识别模型，以所述第一训练语音的声学特征为依据，辅以所述第一训练视频的视觉特征，预测所述第一训练语音的语音识别结果时，具体用于：
[0189]
对所述第一训练语音的声学特征和所述第一训练视频的视觉特征进行模态丢弃处理，得到模态丢弃处理后的特征；
[0190]
利用语音识别模型，对所述模态丢弃处理后的特征进行融合；
[0191]
利用语音识别模型，以融合后特征为依据，预测所述第一训练语音的语音识别结果。
[0192]
可选的，第一训练模块在根据所述第一训练视频的视觉特征，预测所述第一训练视频的视频内容描述文本，得到第二预测结果时，具体用于：
[0193]
对所述第一训练视频的视觉特征进行解码：在每个解码时刻，根据所述第一训练视频的视觉特征获取该解码时刻解码所需的视觉上下文特征，对该解码时刻解码所需的视觉上下文特征进行解码，得到该解码时刻的视频内容描述文本预测结果；
[0194]
由各解码时刻的视频内容描述文本预测结果组成第二预测结果。
[0195]
可选的，所述语音识别模型包括：用于对输入的语音提取声学特征、对输入的视频提取视觉特征以及将提取的声学特征与提取的视觉特征融合的编码模块，以及对所述编码模块输出的融合特征进行解码的解码模块；
[0196]
初始的语音识别模型中的编码模块预先采用第二训练集中的第二训练数据训练得到，其中，所述第二训练数据包括无标注的第二训练语音以及无标注的第二训练视频，所述第二训练语音为所述第二训练视频的视频内容的解说语音。
[0197]
可选的，本发明实施例提供的语音识别装置还可以包括：用于采用所述第二训练集中的第二训练数据训练编码模块的第二训练模块。
[0198]
第二训练模块在采用所述第二训练集中的第二训练数据训练编码模块时，具体用于：
[0199]
针对所述第二训练集中的每条第二训练数据，基于预先训练得到的通用语音识别模型获取该第二训练数据中的第二训练语音的声学特征，作为该第二训练数据对应的声学特征；
[0200]
对所述第二训练集中各第二训练数据分别对应的声学特征进行聚类，得到多类声学特征，并为每类声学特征设定一类别标签，将每个声学特征的类别标签确定为对应的第二训练数据的类别标签；
[0201]
将每条具有类别标签的第二训练数据作为第三训练数据，由获得的各第三训练数据组成第三训练集；
[0202]
采用所述第三训练集，结合数据分类任务，训练编码模块。
[0203]
可选的，第二训练模块在采用所述第三训练集，结合数据分类任务，训练编码模块时，具体用于：
[0204]
构建包括编码模块和分类模块的数据分类模型；
[0205]
从所述第三训练集中获取第三训练数据；
[0206]
将获取的第三训练数据输入数据分类模型的编码模块，得到第三训练数据对应的融合特征；
[0207]
将第三训练数据对应的融合特征输入数据分类模型的分类模块进行类别预测，得到第三训练数据的类别预测结果；
[0208]
根据第三训练数据的类别预测结果以及第三训练数据的类别标签，对数据分类模型进行参数更新。
[0209]
本发明实施例提供的语音识别装置，首先获取目标语音和目标视频，然后对目标语音提取声学特征，并对目标视频提取含视频内容信息的视觉特征，最后根据目标语音的
声学特征并辅以目标视频的视觉特征，确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音，其与目标视频的视频内容具有一定的相关性，本发明实施例提供的语音识别装置对目标视频提取含视频内容信息的视觉特征，辅以含视频内容信息的视觉特征对解说语音进行识别，在对解说语音进行识别时，辅以含视频内容信息的视觉特征，能够获得较为准确的识别结果。
[0210]
本发明实施例还提供了一种语音识别设备，请参阅图9，示出了该语音识别设备的结构示意图，该语音识别设备可以包括：至少一个处理器901，至少一个通信接口902，至少一个存储器903和至少一个通信总线904。
[0211]
在本发明实施例中，处理器901、通信接口902、存储器903、通信总线904的数量为至少一个，且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信。
[0212]
处理器901可能是一个中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等。
[0213]
存储器903可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器。
[0214]
其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：
[0215]
获取目标语音和目标视频，其中，所述目标语音为所述目标视频的视频内容的解说语音；
[0216]
对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；
[0217]
根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。
[0218]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0219]
本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质可存储有适于处理器执行的程序，所述程序用于：
[0220]
获取目标语音和目标视频，其中，所述目标语音为所述目标视频的视频内容的解说语音；
[0221]
对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；
[0222]
根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。
[0223]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0224]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0225]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0226]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种语音识别方法，其特征在于，包括：获取目标语音和目标视频，其中，所述目标语音为所述目标视频的视频内容的解说语音；对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。2.根据权利要求1所述的语音识别方法，其特征在于，所述对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果，包括：利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频，得到所述目标语音的语音识别结果；其中：所述语音识别模型采用第一训练集中的第一训练数据训练得到，所述第一训练数据包括第一训练视频和标注有语音内容文本的第一训练语音，所述第一训练语音为所述第一训练视频的视频内容的解说语音；所述语音识别模型的训练目标包括：使根据所述第一训练语音的声学特征并辅以所述第一训练视频的视觉特征预测的语音识别结果与所述第一训练语音标注的语音内容文本趋于一致。3.根据权利要求2所述的语音识别方法，其特征在于，所述利用预先训练得到的语音识别模型处理所述目标语音和所述目标视频，得到所述目标语音的语音识别结果，包括：利用所述语音识别模型，获取所述目标语音的声学特征和所述目标视频的视觉特征；利用所述语音识别模型，将所述目标语音的声学特征与所述目标视频的视觉特征融合；利用所述语音识别模型，以融合后特征为依据，预测所述目标语音的语音识别结果。4.根据权利要求2所述的语音识别方法，其特征在于，所述第一训练视频标注有视频内容描述文本；所述语音识别模型的训练目标还包括：使根据所述第一训练视频的视觉特征预测的视频内容描述文本与所述第一训练视频标注的视频内容描述文本趋于一致。5.根据权利要求4所述的语音识别方法，其特征在于，所述语音识别模型的训练过程包括：利用语音识别模型，获取所述第一训练语音的声学特征以及所述第一训练视频的视觉特征，并以所述第一训练语音的声学特征为依据，辅以所述第一训练视频的视觉特征，预测所述第一训练语音的语音识别结果，得到第一预测结果；根据所述第一训练视频的视觉特征，预测所述第一训练视频的视频内容描述文本，得到第二预测结果；根据所述第一预测结果和所述第一训练语音标注的语音内容文本，以及，所述第二预测结果和所述第一训练视频标注的视频内容描述文本，对语音识别模型进行参数更新。6.根据权利要求5所述的语音识别方法，其特征在于，所述以所述第一训练语音的声学
特征为依据，辅以所述第一训练视频的视觉特征，预测所述第一训练语音的语音识别结果，包括：对所述第一训练语音的声学特征和所述第一训练视频的视觉特征进行模态丢弃处理，得到模态丢弃处理后的特征；对所述模态丢弃处理后的特征进行融合；根据融合后特征预测所述第一训练语音的语音识别结果。7.根据权利要求5所述的语音识别方法，其特征在于，所述根据所述第一训练视频的视觉特征，预测所述第一训练视频的视频内容描述文本，得到第二预测结果，包括：对所述第一训练视频的视觉特征进行解码：在每个解码时刻，根据所述第一训练视频的视觉特征获取该解码时刻解码所需的视觉上下文特征，对该解码时刻解码所需的视觉上下文特征进行解码，得到该解码时刻的视频内容描述文本预测结果；由各解码时刻的视频内容描述文本预测结果组成第二预测结果。8.根据权利要求2～7中任一项所述的语音识别方法，其特征在于，所述语音识别模型包括：用于对输入的语音提取声学特征、对输入的视频提取视觉特征以及将提取的声学特征与提取的视觉特征融合的编码模块，以及对所述编码模块输出的融合特征进行解码的解码模块；初始的语音识别模型中的编码模块预先采用第二训练集中的第二训练数据训练得到，其中，所述第二训练数据包括无标注的第二训练语音以及无标注的第二训练视频，所述第二训练语音为所述第二训练视频的视频内容的解说语音。9.根据权利要求8所述的语音识别方法，其特征在于，采用所述第二训练集中的第二训练数据训练编码模块的过程包括：针对所述第二训练集中的每条第二训练数据，基于预先训练得到的通用语音识别模型获取该第二训练数据中的第二训练语音的声学特征，作为该第二训练数据对应的声学特征；对所述第二训练集中各第二训练数据分别对应的声学特征进行聚类，得到多类声学特征，并为每类声学特征设定一类别标签，将每个声学特征的类别标签确定为对应的第二训练数据的类别标签；将每条具有类别标签的第二训练数据作为第三训练数据，由获得的各第三训练数据组成第三训练集；采用所述第三训练集，结合数据分类任务，训练编码模块。10.根据权利要求9所述的语音识别方法，其特征在于，所述采用所述第三训练集，结合数据分类任务，训练编码模块，包括：构建包括编码模块和分类模块的数据分类模型；从所述第三训练集中获取第三训练数据；将获取的第三训练数据输入数据分类模型的编码模块，得到第三训练数据对应的融合特征；将第三训练数据对应的融合特征输入数据分类模型的分类模块进行类别预测，得到第三训练数据的类别预测结果；根据第三训练数据的类别预测结果以及第三训练数据的类别标签，对数据分类模型进
行参数更新。11.一种语音识别装置，其特征在于，包括：数据获取模块、特征获取模块和语音识别结果确定模块；所述数据获取模块，用于获取目标语音和目标视频，其中，所述目标语音为所述目标视频的视频内容的解说语音；所述特征获取模块，用于对所述目标语音提取声学特征，得到所述目标语音的声学特征，并对所述目标视频提取含视频内容信息的视觉特征，得到所述目标视频的视觉特征；所述语音识别结果确定模块，用于根据所述目标语音的声学特征并辅以所述目标视频的视觉特征，确定所述目标语音的语音识别结果。12.一种语音识别设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储程序；所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的语音识别方法的各个步骤。13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的语音识别方法的各个步骤。

技术总结
本发明提供了一种语音识别方法、装置、设备及存储介质，语音识别方法包括：获取目标语音和目标视频，其中，目标语音为目标视频的视频内容的解说语音；对目标语音提取声学特征，得到目标语音的声学特征，并对目标视频提取含视频内容信息的视觉特征，得到目标视频的视觉特征；根据目标语音的声学特征并辅以目标视频的视觉特征，确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音，其与目标视频的视频内容具有一定的相关性，本发明对目标视频提取含视频内容信息的视觉特征，辅以视觉特征对解说语音进行语音识别，在对目标语音即解说语音进行语音识别时，辅以含视频内容信息的视觉特征，能够获得较为准确的语音识别结果。准确的语音识别结果。准确的语音识别结果。

技术研发人员：茆廷志万根顺邢秀萍张景宣高建清潘嘉刘聪胡国平
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2023.05.31
技术公布日：2023/9/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于人工智能的CNC自动报价算法的制作方法 下一篇：带计算功能触控板电路及具有它的触控装置的制作方法

一种语音识别方法、装置、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种语音识别方法、装置、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表