语音识别模型的调整方法、装置与电子设备与流程

未命名 09-13 阅读：105 评论：0

1.本技术涉及语音识别领域，具体而言，涉及一种语音识别模型的调整方法、装置、计算机可读存储介质、处理器与电子设备。

背景技术：

2.命令词识别是语音识别的一个细分方向，命令词识别一般是离线的，计算量要求尽量小的，一般用于终端设备的控制(包括唤醒)。在较为复杂的情况下，命令词识别极易受到麦克风性能、外界环境噪声等客观音素的影响，从而产生不可靠的识别结果，其中最重要的就是误识别现象，在多命令词识别模型中尤为常见。
3.因此，现有技术中的命令词识别模型误识别率较高的问题亟待解决。
4.在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

5.本技术的主要目的在于提供一种语音识别模型的调整方法、装置、计算机可读存储介质、处理器与电子设备，以解决现有技术中的命令词识别模型误识别率较高的问题。
6.根据本发明实施例的一个方面，提供了一种语音识别模型的调整方法，包括：获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，所述第一初始音频数据不包括命令词，所述第二初始音频数据包括所述命令词；对所述第一初始音频数据进行处理，得到音频处理数据，所述音频处理数据与所述第一初始音频数据不同；采用初始语音识别模型对所述音频处理数据进行命令词识别，得到目标识别结果，所述目标识别结果用于表征对应的所述音频处理数据包括所述命令词，所述目标识别结果对应的所述音频处理数据构成负样本数据；根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。
7.可选地，所述初始语音识别模型包括初始生成部分和初始输出层，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：根据所述初始生成部分，得到初始重构部分，所述初始重构部分和所述初始生成部分构成初始自编码器；采用至少部分所述第二初始音频数据对所述初始重构部分进行训练，得到第一目标重构部分；根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型。
8.可选地，根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型，包括：根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标生成部分、目标输出层和第二目标重构
部分；删除所述第二目标重构部分，得到所述目标语音识别模型，所述目标语音识别模型包括所述目标生成部分和所述目标输出层。
9.可选地，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：将所述负样本数据中的所述音频处理数据识别成文本，得到文本数据，所述音频处理数据和所述文本数据构成训练数据；采用至少部分所述第二初始音频数据和所述负样本训练数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。
10.可选地，对所述第一初始音频数据进行处理，得到音频处理数据，包括：对所述第一初始音频数据添加场景特征，得到所述音频处理数据，所述场景特征包括以下至少之一：环境噪声、速率扰动、混响。
11.可选地，对所述第一初始音频数据添加场景特征，得到所述音频处理数据，包括：截取所述第一初始音频数据的部分，得到第一初始子音频；对所述第一初始子音频添加所述场景特征，得到所述音频处理数据。
12.可选地，所述第一初始音频数据有多条，对所述第一初始音频数据进行处理，得到音频处理数据，包括：分别截取至少两条所述第一初始音频数据的部分，得到多个第二初始子音频数据；将多个所述第二初始子音频数据进行叠加，得到所述音频处理数据。
13.可选地，在获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据之后，采用初始语音识别模型对所述音频处理数据进行命令词识别之前，所述方法还包括：根据所述第二初始音频数据，构建所述初始语音识别模型。
14.根据本发明实施例的另一方面，还提供了一种语音识别模型的调整装置，包括：获取单元，用于获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，所述第一初始音频数据不包括命令词，所述第二初始音频数据包括所述命令词；处理单元，用于对所述第一初始音频数据进行处理，得到音频处理数据，所述音频处理数据与所述第一初始音频数据不同；识别单元，用于采用初始语音识别模型对所述音频处理数据进行命令词识别，得到目标识别结果，所述目标识别结果用于表征对应的所述音频处理数据包括所述命令词，所述目标识别结果对应的所述音频处理数据构成负样本数据；训练单元，用于根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。
15.根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。
16.根据本发明实施例的再一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。
17.根据本发明实施例的另一方面，还提供了一种电子设备，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的方法。
18.在本发明实施例中，首先，获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据，然后，对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据，之后，采用初始语音识别模型对音频处理
数据进行命令词识别，得到用于表征对应的音频处理数据包括命令词的目标识别结果，目标识别结果和音频处理数据构成负样本数据，最后，根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
附图说明
19.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
20.图1示出了根据本技术的实施例的一种语音识别模型的调整方法的流程示意图；
21.图2示出了根据本技术的实施例的一种语音识别模型的调整装置的结构示意图；
22.图3示出了根据本技术的实施例的初始自编码器的结构图；
23.图4示出了根据本技术的实施例的初始生成部分、初始输出层和第一目标重构部分的结构图；
24.图5示出了根据本技术的实施例的语音识别模型的调整方法的流程示意图。
25.其中，上述附图包括以下附图标记：
26.200、初始生成部分；201、初始重构部分；202、初始输出层；203、第一目标重构部分。
具体实施方式
27.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
28.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
29.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。
31.正如背景技术中所说的，现有技术中的命令词识别模型误识别率较高，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种语音识别模型的调整方法、装置、计算机可读存储介质、处理器与电子设备。
32.根据本技术的实施例，提供了一种语音识别模型的调整方法。
33.图1是根据本技术实施例的语音识别模型的调整方法的流程图。如图1所示，该方法包括以下步骤：
34.步骤s101，获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，上述第一初始音频数据不包括命令词，上述第二初始音频数据包括上述命令词；
35.步骤s102，对上述第一初始音频数据进行处理，得到音频处理数据，上述音频处理数据与上述第一初始音频数据不同；
36.步骤s103，采用初始语音识别模型对上述音频处理数据进行命令词识别，得到目标识别结果，上述目标识别结果用于表征对应的上述音频处理数据包括上述命令词，上述目标识别结果对应的上述音频处理数据构成负样本数据；
37.步骤s104，根据至少部分上述第二初始音频数据和上述负样本数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型。
38.上述的方法中，首先，获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据，然后，对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据，之后，采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应的音频处理数据包括命令词的目标识别结果，目标识别结果对应的音频处理数据构成负样本数据，最后，根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
39.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
40.上述第一初始语音数据可以为各种语音数据，例如噪声数据、歌曲数据和不包括命令词的第二初始语音数据；上述第二初始语音数据包含命令词数据和通用数据；具体的，命令词数据可以为“上一集”等命令词语音数据和对应对文本标签；通用数据可以为任意语句构成的数据，包括语音数据和对应对文本标签，例如“今天天气怎么样”等。
41.本技术的一种具体的实施例中，上述初始语音识别模型的学习率为10-3
，这样可以使得训练出来的模型更加准确。当然，实际的应用中，上述学习率还可以为其他数值，本领域技术人员可以根据实际情况来设置。
42.本技术的一种实施例中，上述初始语音识别模型包括初始生成部分和初始输出层，根据至少部分上述第二初始音频数据和上述负样本数据，至少对上述初始语音识别模
型进行训练，得到目标语音识别模型，包括：根据上述初始生成部分200，得到初始重构部分201，上述初始重构部分201和上述初始生成部分200构成初始自编码器，上述初始自编码器的结构图如图3所示；采用至少部分上述第二初始音频数据对上述初始重构部分进行训练，得到第一目标重构部分；如图4所示，根据至少部分上述第二初始音频数据和上述负样本数据对上述初始生成部分200、上述第一目标重构部分203和上述初始输出层202进行训练，得到目标语音识别模型。为了避免由于负样本数据的音频中干扰较多，而导致的在识别成文本时出现识别误差，因此，本实施例中，在进行模型训练时，引入了自编码器，自编码器可以防止负样本数据误差较大，导致目标语音识别模型出现较大偏差，为了保证原模型的结构不发生变化，本技术的自编码器的特征编码部分与初始语音识别模型的初始生成部分相同，本技术的自编码器的解码部分为上述重构部分，根据自编码器的特性，上述初始重构部分为根据上述初始生成部分反推得到的，首先需要用第二初始音频数据对初始自编码器进行训练，得到第一目标重构部分，然后再用至少部分第二初始音频数据和负样本数据，对上述初始生成部分、上述第一目标重构部分和上述初始输出层进行训练，从而使得目标语音识别模型的误识别率进一步降低。
43.本技术的再一种实施例中，根据至少部分上述第二初始音频数据和上述负样本数据对上述初始生成部分、上述第一目标重构部分和上述初始输出层进行训练，得到目标语音识别模型，包括：根据至少部分上述第二初始音频数据和上述负样本数据对上述初始生成部分、上述第一目标重构部分和上述初始输出层进行训练，得到目标生成部分、目标输出层和第二目标重构部分；删除上述第二目标重构部分，得到上述目标语音识别模型，上述目标语音识别模型包括上述目标生成部分和上述目标输出层。本实施例中，因为上述初始语音识别模型包括初始生成部分和初始输出层，为了使得得到的目标语音识别模型与初始语音识别模型结构保持一致，需要删除训练后得到的第二目标重构部分。
44.为了进一步降低命令词识别模型的误识别率，本技术的另一种实施例中，根据至少部分上述第二初始音频数据和上述负样本数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型，包括：将上述负样本数据中的上述音频处理数据识别成文本，得到文本数据，上述音频处理数据和上述文本数据构成负样本训练数据；采用至少部分上述第二初始音频数据和上述负样本训练数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型。在对初始语音识别模型训练前，需要将音频处理数据识别成文本，得到文本数据，然后用音频处理数据和文本数据对初始语音识别模型进行训练。
45.本技术的一种具体的实施例中，可以采用连续语音识别模型将上述音频处理数据识别成文本数据。当然，实际的应用中，也可以采用别的方式将音频数据处理成文本数据。
46.本技术的另一种具体的实施例中，不仅可以将音频处理数据识别成文本数据，还可以对音频处理数据进行声母和韵母的识别。
47.本技术的又一种实施例中，对上述第一初始音频数据进行处理，得到音频处理数据，包括：对上述第一初始音频数据添加场景特征，得到上述音频处理数据，上述场景特征包括以下至少之一：环境噪声、速率扰动、混响。本实施例中，对上述第一初始音频数据添加场景特征，使得上述音频处理数据可以更真实地反映现实生活中的各种情况，使得模型训练的样本集数量增加，并且使得样本集可以更加贴近实际的应用场景，从而进一步提升语音识别模型的准确率。
48.上述环境噪声可以为电视、音乐、流水声等噪声，用于模拟环境的实际背景噪声；上述速率扰动可以为对第一初始音频数据进行拉长或缩短；上述混响可以为房间冲击响应，用于模拟声音在房间的反射。
49.为了构造多样化的音频处理数据，本技术的再一种实施例中，对上述第一初始音频数据添加场景特征，得到上述音频处理数据，包括：截取上述第一初始音频数据的部分，得到第一初始子音频；对上述第一初始子音频添加上述场景特征，得到上述音频处理数据。
50.本技术的另一种实施例中，上述第一初始音频数据有多条，对上述第一初始音频数据进行处理，得到音频处理数据，包括：分别截取至少两条上述第一初始音频数据的部分，得到多个第二初始子音频数据；将多个上述第二初始子音频数据进行叠加，得到上述音频处理数据。本实施例中，还可以对截取多条第一初始音频数据的部分，得到多个第二初始子音频数据，将上述多个第二初始子音频数据进行叠加，得到合成音频，然后对合成音频在添加场景特征。
51.上述分别截取至少两条上述第一初始音频数据的部分，可以截取相同时长的音频数据，也可以截取不同时长的音频数据；多个上述第二初始子音频数据的信噪比可以相同，也可以不同，只要使得生成的音频处理数据与第一初始音频数据不同即可。
52.本技术的又一种实施例中，在获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据之后，采用初始语音识别模型对上述音频处理数据进行命令词识别之前，上述方法还包括：根据上述第二初始音频数据，构建上述初始语音识别模型。本实施例中，上述初始语音识别模型是根据上述第二初始音频数据构建的，上述第二初始音频数据的样本规模一般远小于第一初始音频数据，所以初始语音识别模型对第一初始音频数据中的样本可能具有较高的误识别率，需要通过负样本数据来进行调整。
53.本技术的一种具体的实施例中，上述初始语音识别模型是基于第二初始音频数据中对应的文字的声母和韵母构建的，当然，实际的应用中，还有其他的建模方式，例如，可以基于第二初始音频数据中对应的文字来构建初始语音识别模型，还可以基于第二初始音频数据中对应的文字的音节(即将声母和韵母按照汉语拼音发音顺序进行的组合)来构建初始语音识别模型，还可以基于第二初始音频数据中对应的文字的音素来构建初始语音识别模型，其中，上述音素是根据语音的自然属性划分出来的最小语音单元，依据音节里的发音动作来分析，一个动作构成一个音素，如，汉语音节(a，啊)只有一个音素，汉语音节(ai，爱)有两个音素，汉语音节(dai，代)有三个音素等。
54.本技术实施例还提供了一种语音识别模型的调整装置，需要说明的是，本技术实施例的语音识别模型的调整装置可以用于执行本技术实施例所提供的用于语音识别模型的调整方法。以下对本技术实施例提供的语音识别模型的调整装置进行介绍。
55.图2是根据本技术实施例的语音识别模型的调整装置的示意图。如图2所示，该装置包括：
56.获取单元10，用于获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，上述第一初始音频数据不包括命令词，上述第二初始音频数据包括上述命令词；
57.处理单元20，用于对上述第一初始音频数据进行处理，得到音频处理数据，上述音频处理数据与上述第一初始音频数据不同；
58.识别单元30，用于采用初始语音识别模型对上述音频处理数据进行命令词识别，得到目标识别结果，上述目标识别结果用于表征对应的上述音频处理数据包括上述命令词，上述目标识别结果对应的上述音频处理数据构成负样本数据；
59.训练单元40，用于根据至少部分上述第二初始音频数据和上述负样本数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型。
60.上述的装置包括获取单元、处理单元、识别单元和训练单元，其中，上述获取单元用于获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括的第二初始音频数据，上述处理单元用于对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据，上述识别单元用于采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应的音频处理数据包括命令词的目标识别结果，目标识别结果对应的音频处理数据构成负样本数据，上述训练单元用于根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该装置中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
61.上述第一初始语音数据可以为各种语音数据，例如噪声数据、歌曲数据和不包括命令词的第二初始语音数据；上述第二初始语音数据包含命令词数据和通用数据；具体的，命令词数据可以为“上一集”等命令词语音数据和对应对文本标签；通用数据可以为任意语句构成的数据，包括语音数据和对应对文本标签，例如“今天天气怎么样”等。
62.本技术的一种具体的实施例中，上述初始语音识别模型的学习率为10-3
，这样可以使得训练出来的模型更加准确。当然，实际的应用中，上述学习率还可以为其他数值，本领域技术人员可以根据实际情况来设置。
63.本技术的一种实施例中，上述初始语音识别模型包括初始生成部分和初始输出层，上述训练单元包括构成模块、第一训练模块和第二训练模块，其中，上述构成模块用于根据上述初始生成部分200，得到初始重构部分201，上述初始重构部分201和上述初始生成部分200构成初始自编码器，上述初始自编码器的结构图如图3所示；上述第一训练模块用于采用至少部分上述第二初始音频数据对上述初始重构部分进行训练，得到第一目标重构部分；如图4所示，上述第一训练模块用于根据至少部分上述第二初始音频数据和上述负样本数据对上述初始生成部分200、上述第一目标重构部分203和上述初始输出层202进行训练，得到目标语音识别模型。为了避免由于负样本数据的音频中干扰较多，而导致的在识别成文本时出现识别误差，因此，本实施例中，在进行模型训练时，引入了自编码器，自编码器可以防止负样本数据误差较大，导致目标语音识别模型出现较大偏差，为了保证原模型的结构不发生变化，本技术的自编码器的特征编码部分与初始语音识别模型的初始生成部分相同，本技术的自编码器的解码部分为上述重构部分，根据自编码器的特性，上述初始重构部分为根据上述初始生成部分反推得到的，首先需要用第二初始音频数据对初始自编码器进行训练，得到第一目标重构部分，然后再用至少部分第二初始音频数据和负样本数据，对上述初始生成部分、上述第一目标重构部分和上述初始输出层进行训练，从而使得目标语
音识别模型的误识别率进一步降低。
64.本技术的再一种实施例中，上述第二训练模块包括训练子模块和删除子模块，其中，上述训练子模块用于根据至少部分上述第二初始音频数据和上述负样本数据对上述初始生成部分、上述第一目标重构部分和上述初始输出层进行训练，得到目标生成部分、目标输出层和第二目标重构部分；上述删除子模块用于删除上述第二目标重构部分，得到上述目标语音识别模型，上述目标语音识别模型包括上述目标生成部分和上述目标输出层。本实施例中，因为上述初始语音识别模型包括初始生成部分和初始输出层，为了使得得到的目标语音识别模型与初始语音识别模型结构保持一致，需要删除训练后得到的第二目标重构部分。
65.为了进一步降低命令词识别模型的误识别率，本技术的另一种实施例中，上述训练单元包括识别模块和第三训练模块，其中，上述识别模块用于将上述负样本数据中的上述音频处理数据识别成文本，得到文本数据，上述音频处理数据和上述文本数据构成负样本训练数据；上述第三训练模块用于采用至少部分上述第二初始音频数据和上述负样本训练数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型。在对初始语音识别模型训练前，需要将音频处理数据识别成文本，得到文本数据，然后用音频处理数据和文本数据对初始语音识别模型进行训练。
66.本技术的一种具体的实施例中，可以采用连续语音识别模型将上述音频处理数据识别成文本数据。当然，实际的应用中，也可以采用别的方式将音频数据处理成文本数据。
67.本技术的另一种具体的实施例中，不仅可以将音频处理数据识别成文本数据，还可以对音频处理数据进行声母和韵母的识别。
68.本技术的又一种实施例中，上述处理单元包括第一添加模块，其中，上述第一添加模块用于对上述第一初始音频数据添加场景特征，得到上述音频处理数据，上述场景特征包括以下至少之一：环境噪声、速率扰动、混响。本实施例中，对上述第一初始音频数据添加场景特征，使得上述音频处理数据可以更真实地反映现实生活中的各种情况，使得模型训练的样本集数量增加，并且使得样本集可以更加贴近实际的应用场景，从而进一步提升语音识别模型的准确率。
69.上述环境噪声可以为电视、音乐、流水声等噪声，用于模拟环境的实际背景噪声；上述速率扰动可以为对第一初始音频数据进行拉长或缩短；上述混响可以为房间冲击响应，用于模拟声音在房间的反射。
70.为了构造多样化的音频处理数据，本技术的再一种实施例中，上述第一添加模块包括截取子模块和添加子模块，其中，上述截取子模块用于截取上述第一初始音频数据的部分，得到第一初始子音频；上述添加子模块用于对上述第一初始子音频添加上述场景特征，得到上述音频处理数据。
71.本技术的另一种实施例中，上述第一初始音频数据有多条，上述处理单元包括截取模块、叠加模块和第二添加模块，其中，上述截取模块用于分别截取至少两条上述第一初始音频数据的部分，得到多个第二初始子音频数据；上述叠加子模块用于将多个上述第二初始子音频数据进行叠加，得到合成音频数据；上述第二添加模块用于对上述合成音频数据添加上述场景特征，得到上述音频处理数据。本实施例中，还可以对截取多条第一初始音频数据的部分，得到多个第二初始子音频数据，将上述多个第二初始子音频数据进行叠加，
得到合成音频，然后对合成音频在添加场景特征。
72.上述分别截取至少两条上述第一初始音频数据的部分，可以截取相同时长的音频数据，也可以截取不同时长的音频数据；多个上述第二初始子音频数据的信噪比可以相同，也可以不同，只要使得生成的音频处理数据与第一初始音频数据不同即可。
73.本技术的又一种实施例中，上述装置还包括构建单元，其中，上述构建单元用于在获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据之后，采用初始语音识别模型对上述音频处理数据进行命令词识别之前，根据上述第二初始音频数据，构建上述初始语音识别模型。本实施例中，上述初始语音识别模型是根据上述第二初始音频数据构建的，上述第二初始音频数据的样本规模一般远小于第一初始音频数据，所以初始语音识别模型对第一初始音频数据中的样本可能具有较高的误识别率，需要通过负样本数据来进行调整。
74.本技术的一种具体的实施例中，上述初始语音识别模型是基于第二初始音频数据中对应的文字的声母和韵母构建的，当然，实际的应用中，还有其他的建模方式，例如，可以基于第二初始音频数据中对应的文字来构建初始语音识别模型，还可以基于第二初始音频数据中对应的文字的音节(即将声母和韵母按照汉语拼音发音顺序进行的组合)来构建初始语音识别模型，还可以基于第二初始音频数据中对应的文字的音素来构建初始语音识别模型，其中，上述音素是根据语音的自然属性划分出来的最小语音单元，依据音节里的发音动作来分析，一个动作构成一个音素，如，汉语音节(a，啊)只有一个音素，汉语音节(ai，爱)有两个音素，汉语音节(dai，代)有三个音素等。
75.上述语音识别模型的调整装置包括处理器和存储器，上述获取单元、处理单元、识别单元和训练单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
76.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中的命令词识别模型误识别率较高的问题。
77.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
78.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述语音识别模型的调整方法。
79.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述语音识别模型的调整方法。
80.本发明实施例提供了一种电子设备，包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。
81.上述的电子设备包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。该方法中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据
对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
82.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
83.步骤s101，获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，上述第一初始音频数据不包括命令词，上述第二初始音频数据包括上述命令词；
84.步骤s102，对上述第一初始音频数据进行处理，得到音频处理数据，上述音频处理数据与上述第一初始音频数据不同；
85.步骤s103，采用初始语音识别模型对上述音频处理数据进行命令词识别，得到目标识别结果，上述目标识别结果用于表征对应的上述音频处理数据包括上述命令词，上述目标识别结果对应的上述音频处理数据构成负样本数据；
86.步骤s104，根据至少部分上述第二初始音频数据和上述负样本数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型。
87.本文中的设备可以是服务器、pc、pad、手机等。
88.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
89.步骤s101，获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，上述第一初始音频数据不包括命令词，上述第二初始音频数据包括上述命令词；
90.步骤s102，对上述第一初始音频数据进行处理，得到音频处理数据，上述音频处理数据与上述第一初始音频数据不同；
91.步骤s103，采用初始语音识别模型对上述音频处理数据进行命令词识别，得到目标识别结果，上述目标识别结果用于表征对应的上述音频处理数据包括上述命令词，上述目标识别结果对应的上述音频处理数据构成负样本数据；
92.步骤s104，根据至少部分上述第二初始音频数据和上述负样本数据，至少对上述初始语音识别模型进行训练，得到目标语音识别模型。
93.为了使得本领域技术人员能够更加清楚地了解本公开的技术方案，以下将结合具体的实施例与对比例对本公开的技术方案进行详细说明。
94.实施例
95.该语音识别模型的调整方法的流程示意图如图5所示。该语音识别模型的调整方法包括以下步骤：
96.步骤一：构造多样化的音频样本；
97.首先，获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，上述第一初始音频数据不包括命令词，上述第二初始音频数据包括命令词，然后，根据上述第二初始音频数据，构建初始语音识别模型，最后分别截取至少两条上述第一初始音频数据的部分，得到多个第二初始子音频数据，再对得到的多个第二初始音频数据进行处理，得到音频处理数据，具体的对第二初始音频数据进行处理的方案有两种，第一种：对一个第二初始子音频数据添加噪声干扰以及混响，得到合成音频数据，再调整得到的合成音频数据的速率，得到上述音频处理数据，第二种：选择两个第二初始音频数据，并调整这两
个第二初始音频数据的速率，得到上述音频处理数据。
98.步骤二：对构造的音频样本进行识别，获得识别为命令词的样本；
99.采用上述初始语音识别模型对上述音频处理数据进行命令词识别，得到目标识别结果，上述目标识别结果用于表征对应的上述音频处理数据包括上述命令词，上述目标识别结果和上述音频处理数据构成负样本数据。
100.步骤三：将负样本识别成文本；
101.采用连续语音识别模型将上述负样本数据中的上述音频处理数据识别成文本，得到文本数据，上述音频处理数据和上述文本数据构成训练数据。
102.步骤四：对初始语音识别模型进行微调训练；
103.采用至少部分上述第二初始音频数据对上述初始重构部分进行训练，得到第一目标重构部分，采用至少部分上述第二初始音频数据和上述训练数据对上述初始生成部分、上述第一目标重构部分和上述初始输出层进行训练，得到目标生成部分、目标输出层和第二目标重构部分，删除上述第二目标重构部分，得到上述目标语音识别模型，上述目标语音识别模型包括上述目标生成部分和上述目标输出层。
104.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
105.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
106.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
107.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
108.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
109.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
110.1)、本技术的语音识别模型的调整方法，首先，获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据，然后，对第一初
始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据，之后，采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应的音频处理数据包括命令词的目标识别结果，目标识别结果对应的音频处理数据构成负样本数据，最后，根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
111.2)、本技术的语音识别模型的调整装置包括获取单元、处理单元、识别单元和训练单元，其中，上述获取单元用于获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据，上述处理单元用于对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据，上述识别单元用于采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应的音频处理数据包括命令词的目标识别结果，目标识别结果对应的音频处理数据构成负样本数据，上述训练单元用于根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该装置中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
112.3)、本技术的电子设备包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。该方法中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。
113.以上上述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：
1.一种语音识别模型的调整方法，其特征在于，包括：获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，所述第一初始音频数据不包括命令词，所述第二初始音频数据包括所述命令词；对所述第一初始音频数据进行处理，得到音频处理数据，所述音频处理数据与所述第一初始音频数据不同；采用初始语音识别模型对所述音频处理数据进行命令词识别，得到目标识别结果，所述目标识别结果用于表征对应的所述音频处理数据包括所述命令词，所述目标识别结果对应的所述音频处理数据构成负样本数据；根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。2.根据权利要求1所述的方法，其特征在于，所述初始语音识别模型包括初始生成部分和初始输出层，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：根据所述初始生成部分，得到初始重构部分，所述初始重构部分和所述初始生成部分构成初始自编码器；采用至少部分所述第二初始音频数据对所述初始重构部分进行训练，得到第一目标重构部分；根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型。3.根据权利要求2所述的方法，其特征在于，根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型，包括：根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标生成部分、目标输出层和第二目标重构部分；删除所述第二目标重构部分，得到所述目标语音识别模型，所述目标语音识别模型包括所述目标生成部分和所述目标输出层。4.根据权利要求1所述的方法，其特征在于，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：将所述负样本数据中的所述音频处理数据识别成文本，得到文本数据，所述音频处理数据和所述文本数据构成负样本训练数据；采用至少部分所述第二初始音频数据和所述负样本训练数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。5.根据权利要求1所述的方法，其特征在于，对所述第一初始音频数据进行处理，得到音频处理数据，包括：对所述第一初始音频数据添加场景特征，得到所述音频处理数据，所述场景特征包括以下至少之一：环境噪声、速率扰动、混响。6.根据权利要求5所述的方法，其特征在于，对所述第一初始音频数据添加场景特征，得到所述音频处理数据，包括：
截取所述第一初始音频数据的部分，得到第一初始子音频；对所述第一初始子音频添加所述场景特征，得到所述音频处理数据。7.根据权利要求1所述的方法，其特征在于，所述第一初始音频数据有多条，对所述第一初始音频数据进行处理，得到音频处理数据，包括：分别截取至少两条所述第一初始音频数据的部分，得到多个第二初始子音频数据；将多个所述第二初始子音频数据进行叠加，得到所述音频处理数据。8.根据权利要求1至7中任意一项所述的方法，其特征在于，在获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据之后，采用初始语音识别模型对所述音频处理数据进行命令词识别之前，所述方法还包括：根据所述第二初始音频数据，构建所述初始语音识别模型。9.一种语音识别模型的调整装置，其特征在于，包括：获取单元，用于获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，所述第一初始音频数据不包括命令词，所述第二初始音频数据包括所述命令词；处理单元，用于对所述第一初始音频数据进行处理，得到音频处理数据，所述音频处理数据与所述第一初始音频数据不同；识别单元，用于采用初始语音识别模型对所述音频处理数据进行命令词识别，得到目标识别结果，所述目标识别结果用于表征对应的所述音频处理数据包括所述命令词，所述目标识别结果对应的所述音频处理数据构成负样本数据；训练单元，用于根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至8中任意一项所述的方法。11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的方法。12.一种电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至8中任意一项所述的方法。

技术总结
本申请提供了一种语音识别模型的调整方法、装置与电子设备。该方法包括：获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据；对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据；采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应音频处理数据的识别结果，包括命令词的音频处理数据构成负样本数据；根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，挑选出发生误识别的音频处理数据，从而构成负样本数据，使得模型训练的样本数据量增大，从而使得目标语音识别模型更加准确。从而使得目标语音识别模型更加准确。从而使得目标语音识别模型更加准确。

技术研发人员：雷延强叶珑
受保护的技术使用者：广州视源人工智能创新研究院有限公司
技术研发日：2022.03.03
技术公布日：2023/9/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：电刺激生发装置的制作方法 下一篇：半导体加工装置及其控制方法与流程

语音识别模型的调整方法、装置与电子设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音识别模型的调整方法、装置与电子设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表