语音识别模型训练方法、语音识别方法、装置和设备与流程

未命名 10-18 阅读：124 评论：0

1.本技术涉及人工智能技术领域，特别是涉及一种语音识别模型训练方法、语音识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着人工智能技术的发展，出现了一种利用语音识别模型检测员工是否存在违规行为的技术，例如可以是通过在金融业务网点中添加语音采集设备，通过语音采集设备采集金融网点员工与网点客户之间的语音交流音频，并将该音频输入至训练的语音识别模型中，通过语音识别模型识别金融网点员工与网点客户之间的交流用语是否规范。
3.传统技术中，通过语音识别模型识别用语是否规范的方式通常是先将语音信息转化成文本内容，再由识别模型识别文本内容，来判断语音信息是否规范。
4.然而，通过上述语音识别模型识别交流用语的方式，由于训练出来的语音识别模型需要对语音信息先转化成文本，再进行文本识别，而再转化文本内容的过程中，可能会出现发音不标准的不规范语音，也会被识别成正确文本，之后错误的识别出该语音为规范语音，可能会造成错误的识别结果，因此，现有的语音识别模型，难以准确的识别金融网点员工用语是否规范。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够准确识别金融网点员工用语是否规范的语音识别模型训练方法、语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面，本技术提供了一种语音识别模型训练方法，所述方法包括：
7.获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；
8.将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；
9.基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器；
10.基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音。
11.在其中一个实施例中，所述编码器包括：第一编码器以及第二编码器；所述第一编码器与所述第二编码器共享编码器权重；所述将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征，包括：将所述第一音频特征输入所
述第一编码器，通过所述第一编码器得到所述第一编码特征；将所述第二音频特征输入所述第二编码器，通过所述第二编码器得到所述第二编码特征；所述基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器，包括：基于所述第一编码特征与所述第二编码特征之间的差异，调整所述第一编码器的编码器权重，以得到训练完成的第一编码器；所述基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型，包括：基于所述训练完成的第一编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的第一编码器以及所述训练完成的分类器，作为训练完成的语音识别模型。
12.在其中一个实施例中，所述基于所述第一编码特征与所述第二编码特征之间的差异，调整所述第一编码器的编码器权重，以得到训练完成的第一编码器，包括：将所述第一编码特征与所述第二编码特征输入所述语音识别模型的投影模块，通过所述投影模块获取所述第一编码特征对应的第一映射特征，以及所述第二编码特征对应的第二映射特征；基于所述第一映射特征与所述第二映射特征之间的差异，调整所述第一编码器的编码器权重，以使在所述样本比对语音为规范语音的情况下，减少所述第一映射特征与所述第二映射特征之间的差异，并在所述样本比对语音为非规范语音的情况下，增加所述第一映射特征与所述第二映射特征之间的差异，以得到训练完成的第一编码器。
13.在其中一个实施例中，所述基于所述训练完成的第一编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的第一编码器以及所述训练完成的分类器，作为训练完成的语音识别模型，包括：获取样本语音对应的目标语音类别；所述目标语音类别用于表征所述样本语音是否为规范语音；将所述样本语音的样本音频特征输入所述训练完成的第一编码器，通过所述训练完成的第一编码器得到所述样本音频特征对应的样本编码特征，并利用所述待训练的语音识别模型的分类器，得到所述样本语音对应的预测语音类别；基于所述预测语音类别与所述目标语音类别之间的差异，对所述分类器进行训练，得到所述训练完成的分类器。
14.在其中一个实施例中，所述获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征，包括：获取所述样本规范语音的第一音频序列，以及所述样本比对语音的第二音频序列；对所述第一音频序列以及所述第二音频序列进行多维度的特征提取，得到所述第一音频特征以及所述第二音频特征。
15.在其中一个实施例中，所述对所述第一音频序列以及所述第二音频序列进行多维度的特征提取，包括以下至少一种：对所述第一音频序列以及所述第二音频序列进行梅尔倒频系数计算，获取所述第一音频序列以及所述第二音频序列的单音字节；对所述第一音频序列以及所述第二音频序列进行音素gp特征提取，获取所述第一音频序列以及所述第二音频序列的音素特征；对所述第一音频序列以及所述第二音频序列通过lpc求根法获取所述第一音频序列以及所述第二音频序列的共振峰；对所述第一音频序列以及所述第二音频序列通过teo归一化互相关法进行基频分析，获取所述第一音频序列以及所述第二音频序列的最优基频；获取所述第一音频序列以及所述第二音频序列的音频信号幅度。
16.第二方面，本技术提供了一种语音识别方法，所述方法包括：
17.获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特
征；
18.将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如第一方面任一项实施例所述的语音识别模型训练方法训练得到；
19.将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。
20.在其中一个实施例中，所述通过所述分类器得到所述语音信息的规范语音识别结果之后，还包括：在所述规范语音识别结果表征所述语音信息为非规范语音的情况下，记录所述语音信息，以及所述待评估对象与所述语音信息的关联关系；根据所述待评估对象关联的语音信息，获取所述待评估对象的对象评估结果。
21.第三方面，本技术还提供了一种语音识别模型训练装置，所述装置包括：
22.样本特征获取模块，用于获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；
23.样本编码获取模块，用于将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；
24.编码器训练模块，用于基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器；
25.分类器训练模块，用于基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音。
26.第四方面，本技术还提供了一种语音识别装置，所述装置包括：
27.音频特征获取模块，用于获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特征；
28.编码特征获取模块，用于将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如第一方面任一项实施例所述的语音识别模型训练方法训练得到；
29.规范语音识别模块，用于将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。
30.第五方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
31.获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；
32.将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；
33.基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器；
34.基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音；
35.所述处理器执行所述计算机程序时还实现以下步骤：
36.获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特征；
37.将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如第一方面任一项实施例所述的语音识别模型训练方法训练得到；
38.将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。
39.第六方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
40.获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；
41.将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；
42.基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器；
43.基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音；
44.所述计算机程序被处理器执行时还实现以下步骤：
45.获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特征；
46.将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如第一方面任一项实施例所述的语音识别模型训练方法训练得到；
47.将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。
48.第七方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
49.获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；
50.将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；
51.基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训
练，得到训练完成的编码器；
52.基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音；
53.该计算机程序被处理器执行时还实现以下步骤：
54.获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特征；
55.将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如第一方面任一项实施例所述的语音识别模型训练方法训练得到；
56.将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。
57.上述语音识别模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过获取样本规范语音的第一音频特征，以及用于与样本规范语音进行比对的样本比对语音的第二音频特征；样本比对语音包括：规范语音与非规范语音；将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器，通过编码器得到第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征；基于第一编码特征与第二编码特征之间的差异，对编码器进行训练，得到训练完成的编码器；基于训练完成的编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的编码器以及训练完成的分类器，作为训练完成的语音识别模型；分类器用于识别语音是否为规范语音。本技术通过得到样本规范语音的第一音频特征与样本比对语音的第二音频特征，从而通过第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征之间的差异，对语音识别模型的编码器进行训练，之后还可以基于训练完成的编码器，对语音识别模型的分类器进行训练，从而使得训练后的语音识别模型可以根据语音的音频特征，来识别语音是否为规范语音，相比于现有技术中需要通过将语音转化成文本后再进行文本识别，来实现语音识别，本技术可以提高语音识别的准确性，从而可以更准确的识别金融网点员工用语是否规范。
附图说明
58.图1为一个实施例中语音识别模型训练方法的流程示意图；
59.图2为一个实施例中训练第一编码器的流程示意图；
60.图3为一个实施例中训练分类器的流程示意图；
61.图4为一个实施例中语音识别方法的流程示意图；
62.图5为一个实施例中编码器网络的结构示意图；
63.图6为一个实施例中语音识别流程示意图；
64.图7为一个实施例中语音识别模型训练装置的结构框图；
65.图8为一个实施例中语音识别装置的结构框图；
66.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
67.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
68.在一个实施例中，如图1所示，提供了一种语音识别模型训练方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：
69.步骤s101，获取样本规范语音的第一音频特征，以及用于与样本规范语音进行比对的样本比对语音的第二音频特征；样本比对语音包括：规范语音与非规范语音。
70.其中，样本规范语音指的是预先采集的用于训练语音识别模型的规范语音信息，例如可以是发音标准、无方言口音的金融网点员工，按照标准内容和要求的服务态度、语气，按照正常的语速、分贝进行服务对话时预先录制的语音信息，而样本比对语音则指的是用于和样本规范语音进行比对的语音信息，该语音信息可以是规范语音，也可以是非规范语音。其中规范语音的获取可以和样本规范语音的获取方式类似，而非规范语音则可以是通过录制诸如语速极快、语速极慢、饱含各种不符合正常服务态度的情绪、特别大声、特别小声、说违规用语、说话吐字极其不分清、带严重口音的语音信息得到。
71.第一音频特征指的是由样本规范语音提取出来的音频特征，第二音频特征则指的是样本比对语音的音频特征，具体来说，服务器在进行语音识别模型的训练时，可以先从预先采集的样本语音库中，采集规范语音，即样本规范语音，以及用于和样本规范语音进行比对的样本比对语音，之后则可以对样本规范语音和样本比对语音进行音频特征的提取，从而得到第一音频特征和第二音频特征。
72.步骤s102，将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器，通过编码器得到第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征。
73.待训练的语音识别模型指的是需要进行训练的语音识别模型，该语音识别模型可以包含编码器和分类器，编码器用于生成编码特征，而分类器则是用于实现语音类别的分类，例如可以是分类成规范语音以及非规范语音。第一编码特征指的是由编码器得到的，与第一音频特征对应的编码特征，第二编码特征则指的是由编码器得到的，与第二音频特征对应的编码特征。具体来说，服务器可以将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器，由编码器得到第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征。
74.步骤s103，基于第一编码特征与第二编码特征之间的差异，对编码器进行训练，得到训练完成的编码器。
75.而在得到第一编码特征与第二编码特征之后，则可以计算第一编码特征和第二编码特征之间的差异，例如可以基于预先构建的损失函数，来得到第一编码特征与第二编码特征之间的差异损失，从而利用差异损失对编码器进行训练，以得到训练完成的编码器。
76.步骤s104，基于训练完成的编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的编码器以及训练完成的分类器，作为训练完成的
语音识别模型；分类器用于识别语音是否为规范语音。
77.而在完成编码器的训练后，服务器还可以利用训练完成的编码器，进一步地实现对语音识别模型中，用于识别语音是否为规范语音的分类器进行训练，从而得到训练完成的分类器，之后则可以将训练完成的编码器以及训练完成的分类器，组成最终训练完成的语音识别模型。
78.上述语音识别模型训练方法中，通过获取样本规范语音的第一音频特征，以及用于与样本规范语音进行比对的样本比对语音的第二音频特征；样本比对语音包括：规范语音与非规范语音；将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器，通过编码器得到第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征；基于第一编码特征与第二编码特征之间的差异，对编码器进行训练，得到训练完成的编码器；基于训练完成的编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的编码器以及训练完成的分类器，作为训练完成的语音识别模型；分类器用于识别语音是否为规范语音。本技术通过得到样本规范语音的第一音频特征与样本比对语音的第二音频特征，从而通过第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征之间的差异，对语音识别模型的编码器进行训练，之后还可以基于训练完成的编码器，对语音识别模型的分类器进行训练，从而使得训练后的语音识别模型可以根据语音的音频特征，来识别语音是否为规范语音，相比于现有技术中需要通过将语音转化成文本后再进行文本识别，来实现语音识别，本技术可以提高语音识别的准确性，从而可以更准确的识别金融网点员工用于是否规范。
79.在一个实施例中，编码器可以包括：第一编码器以及第二编码器；第一编码器与第二编码器共享编码器权重；步骤s102可以进一步包括：将第一音频特征输入第一编码器，通过第一编码器得到第一编码特征；将第二音频特征输入第二编码器，通过第二编码器得到第二编码特征；步骤s103可以进一步包括：基于第一编码特征与第二编码特征之间的差异，调整第一编码器的编码器权重，以得到训练完成的第一编码器；步骤s104可以进一步包括：基于训练完成的第一编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的第一编码器以及训练完成的分类器，作为训练完成的语音识别模型。
80.本实施例中，编码器可以包括第一编码器以及第二编码器，第一编码器主要是用于得到第一编码特征，而第二编码器则主要是用于得到第二编码特征，并且第一编码器和第二编码器的网络结构权值共享，即共享相同的编码器权重。服务器在得到第一编码特征与第二编码特征过程中，可以是将第一音频特征和第二音频特征，分别输入至编码器权重共享的第一编码器和第二编码器，由第一编码器和第二编码器分别提取第一音频特征对应的第一编码特征，以及第二音频特征对应的第二编码特征。
81.之后，服务器可以利用第一编码特征和第二编码特征之间的差异，来更新第一编码器的编码器权重，由于第一编码器和第二编码器是编码器权重共享的关系，因此在更新第一编码器过程的编码器权重过程中，实质上也在更新第二编码器的编码器权重，服务器可以通过对编码器权重进行更新，来对第一编码器进行训练，从而得到训练完成的第一编码器，并利用训练完成的第一编码器，对语音识别模型中的分类器进行训练，从而得到训练完成的分类器，之后服务器则可以将训练完成的第一编码器和分类器，组成最终训练完成
的语音识别模型。
82.本实施例中，编码器可以由第一编码器以及第二编码器所组成，并且第一编码器和第二编码器可以共享权重，从而可以分别利用第一编码器和第二编码器得到第一编码特征与第二编码特征，并且在训练编码器过程中，可以通过更新编码器权重的方式实现第一编码器训练，并利用训练好的第一编码器与分类器得到训练完成的语音识别模型，可以实现第一编码特征与第二编码特征的并行计算，进一步提高编码器的训练效率。
83.进一步地，如图2所示，基于第一编码特征与第二编码特征之间的差异，调整第一编码器的编码器权重，以得到训练完成的第一编码器，可以进一步包括：
84.步骤s201，将第一编码特征与第二编码特征输入语音识别模型的投影模块，通过投影模块获取第一编码特征对应的第一映射特征，以及第二编码特征对应的第二映射特征。
85.投影模块可以是用于将编码特征映射到对比损失空间中的模块，该模块可以通过mlp层，即多层感知机神经网络实现，该投影模块也可以设置在语音识别模型中，第一映射特征指的是由投影模块输出得到的，第一编码特征对应的映射特征，而第二映射特征则指的是由投影模块输出得到的，第二编码特征对应的映射特征。具体来说，在语音识别模型中，第一编码器以及第二编码器分别连接有投影模块，通过将第一编码器以及第二编码器得到的第一编码特征与第二编码特征，分别输入至对应的投影模块，则可以得到相应的第一映射特征和第二映射特征。
86.步骤s202，基于第一映射特征与第二映射特征之间的差异，调整第一编码器的编码器权重，以使在样本比对语音为规范语音的情况下，减少第一映射特征与第二映射特征之间的差异，并在样本比对语音为非规范语音的情况下，增加第一映射特征与第二映射特征之间的差异，以得到训练完成的第一编码器。
87.由于样本比对语音可以是规范语音，也可以是非规范语音，为了使训练得到的第一编码器可以准确得到用于识别语音是否为规范语音的编码特征，在进行第一编码器的训练时，可以采用对比学习的方式进行训练，该方式可以使得如果样本比对语音是规范语音，则需要减少第一映射特征与第二映射特征之间的差异，即减少对比损失，而如果样本比对语音是非规范语音，则需要增加第一映射特征与第二映射特征之间的差异，即增加对比损失。通过调整第一编码器权重，从而可以使两个规范语音之间的差异减小，规范语音与非规范语音之间的差异增加，从而可以训练得到可用于准确识别语音是否为规范语音的编码特征的第一编码器。
88.本实施例中，还可以利用投影模块，将编码器提取的编码特征映射到对比损失空间，并利用映射后的映射特征之间的差异，对编码器进行训练，使得两个规范语音之间的差异减小，规范语音与非规范语音之间的差异增加，从而可以训练得到可用于准确识别语音是否为规范语音的编码特征的第一编码器。
89.另外，如图3所示，基于训练完成的第一编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的第一编码器以及训练完成的分类器，作为训练完成的语音识别模型，可以进一步包括：
90.步骤s301，获取样本语音对应的目标语音类别；目标语音类别用于表征样本语音是否为规范语音。
91.样本语音可以是样本语音库中的任意一个语音信息，可以是规范语音也可以是非规范语音，而目标语音类别则是样本语音所对应的真实语音类别，可以用于表征该样本语音是否为规范语音还是非规范语音。具体来说，服务器在完成第一编码器的训练后，还可以从样本语音库中提取出样本语音，并确定每一个样本语音对应的语音类别，作为各个样本语音对应的目标语音类别。
92.步骤s302，将样本语音的样本音频特征输入训练完成的第一编码器，通过训练完成的第一编码器得到样本音频特征对应的样本编码特征，并利用待训练的语音识别模型的分类器，得到样本语音对应的预测语音类别。
93.样本音频特征则是对样本语音进行音频特征提取得到的音频特征，而样本编码特征则是将样本音频特征输入训练完成的第一编码器后，由第一编码器对样本音频特征进行编码处理后的特征。服务器在得到样本语音后，还可以对样本语音进行音频特征提取，得到样本音频特征并将其输入训练完成的第一编码器中，由第一编码器对样本音频特征进行编码处理，得到对应样本编码特征。
94.而预测语音类别则是由语音识别模型的分类器预测的，样本语音是否为规范语音类别。该分类器可以基于输入的样本语音的编码特征，来预测该样本语音属于规范语音还是非规范语音，从而得到样本语音的预测语音类别。
95.步骤s303，基于预测语音类别与目标语音类别之间的差异，对分类器进行训练，得到训练完成的分类器。
96.最终，服务器在得到样本语音的预测语音类别后，则可以基于该预测语音类别，与样本语音的目标语音类别之间的差异，对语音识别模型中的分类器进行训练，从而得到训练完成的分类器。
97.本实施例，服务器可以利用样本语音的真实语音类别，以及分类器输出的样本语音的预测语音类别，对语音识别模型的分类器进行训练，从而可以使分类器可以准确识别是否为规范语音，进一步提高了规范语音分类识别的准确性。
98.在一个实施例中，步骤s101可以进一步包括：获取样本规范语音的第一音频序列，以及样本比对语音的第二音频序列；对第一音频序列以及第二音频序列进行多维度的特征提取，得到第一音频特征以及第二音频特征。
99.第一音频序列指的是样本规范语音对应的音频序列，而第二音频序列则是样本比对语音对应的音频序列，本实施例中，服务器在得到样本规范语音和样本比对语音后，可以先分别提取样本规范语音和样本比对语音的音频序列，作为第一音频序列和第二音频序列，之后则可以对第一音频序列以及第二音频序列进行多个维度的特征提取，例如可以是对第一音频序列以及第二音频序列通过不同特征提取方式提取特征，并且将各个方式提取的特征进行组合，作为第一音频特征以及第二音频特征。
100.本实施例中，第一音频特征以及第二音频特征的提取可以是通过对样本规范语音的音频序列，以及样本比对语音的音频序列进行多维度的特征提取得到，从而可以进一步提高得到的第一音频特征以及第二音频特征的准确性。
101.在一个实施例中，对第一音频序列以及第二音频序列进行多维度的特征提取，包括以下至少一种：对第一音频序列以及第二音频序列进行梅尔倒频系数计算，获取第一音频序列以及第二音频序列的单音字节；对第一音频序列以及第二音频序列进行音素gp特征
提取，获取第一音频序列以及第二音频序列的音素特征；对第一音频序列以及第二音频序列通过lpc求根法获取第一音频序列以及第二音频序列的共振峰；对第一音频序列以及第二音频序列通过teo归一化互相关法进行基频分析，获取第一音频序列以及第二音频序列的最优基频；获取第一音频序列以及第二音频序列的音频信号幅度。
102.本实施例中，多种特征提取的方式可以包括以下几种，分别是通过计算音频序列的梅尔倒频系数，来识别音频序列中包含的单音字节；通过对音频序列进行音素gp特征提取，来得到对应的音素特征；通过lpc求根法计算音频序列的共振峰，以对应升到传输频率相应的极点频率；对音频序列进行teo归一化互相关法实现基频分析，来得到音频序列对应的最优基频，以及通过计算每音频序列幅度的平方值，来得到音频序列的信号幅度，并将上述单音字节、音素特征、共振峰、最优基频以及信号幅度，组成音频序列的多维度音频特征。
103.本实施例中，服务器可以对音频序列进行不同方式的特征提取，从而得到不同维度的音频特征，进一步提高了音频特征的完整性。
104.在一个实施例中，如图4所示，还提供了一种语音识别方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：
105.步骤s401，获取金融网点中待评估对象发起的语音信息，以及语音信息对应的音频特征。
106.待评估对象指的是需要进行审核评估的金融网点中的对象，例如可以是需要进行审核评估的金融网点员工。具体来说，在进行金融网点员工评估过程中，可以采集金融网点员工在工作过程中的对话，作为待评估对象发起的语音信息，之后服务器还可以对待评估对象发起的语音信息进行特征提取，从而提取出该语音信息对应的音频特征。
107.步骤s402，将语音信息对应的音频特征输入训练完成的语音识别模型的编码器，通过编码器获取音频特征对应的编码特征；其中，语音识别模型通过如上任一项实施例的语音识别模型训练方法训练得到；
108.步骤s403，将编码特征输入训练完成的语音识别模型的分类器，通过分类器得到语音信息的规范语音识别结果。
109.而在得到语音信息对应的音频特征之后，则可以将该音频特征输入到训练完成的语音识别模型的编码器中，由编码器提取出音频特征对应的编码特征，并将编码特征输入到训练完成的语音识别模型的分类器中，由分类器来得到该语音信息是否为规范语音，即可以得到该语音信息的规范语音识别结果。其中该语音识别模型可以通过以上实施例提供的语音识别模型训练方法训练得到，因此可以更准确的识别出待评估对象发起的语音信息是否为规范语音信息。
110.上述语音识别方法中，通过获取金融网点中待评估对象发起的语音信息，以及语音信息对应的音频特征；将语音信息对应的音频特征输入训练完成的语音识别模型的编码器，通过编码器获取音频特征对应的编码特征；其中，语音识别模型通过如上任一项实施例的语音识别模型训练方法训练得到；将编码特征输入训练完成的语音识别模型的分类器，通过分类器得到语音信息的规范语音识别结果。本技术通过将金融网点中待评估对象的语音信息中的音频特征输入训练完成的语音识别模型，从而可以通过语音识别模型识别该语音信息是否为规范语音，相比于现有技术中语音识别模型需要通过将语音转化成文本后再
进行文本识别，来实现语音识别，本技术可以提高语音识别的准确性，从而可以更准确的识别金融网点员工用语是否规范。
111.在一个实施例中，步骤s403之后，还可以包括：在规范语音识别结果表征语音信息为非规范语音的情况下，记录语音信息，以及待评估对象与语音信息的关联关系；根据待评估对象关联的语音信息，获取待评估对象的对象评估结果。
112.对象评估结果指的是针对金融网点中待评估对象的评估结果，该评估结果可以通过评估分数表征。具体来说，如果待评估对象发起的语音信息被识别为非规范语音，那么服务器还可以进一步的将该语音信息进行记录，同时记录该语音信息和待评估对象之间的关联关系。之后，在对待评估对象进行评估时，可以获取该待评估对象关联的语音信息，并根据关联的语音信息确定出待评估对象的对象评估结果，例如可以是统计待评估对象关联的语音信息的数量，从而根据该语音信息数量，来扣除待评估对象相应的评估分数，来得到待评估对象的评估结果。
113.本实施例中，服务器还可以记录待评估对象与非规范语音之间的关联关系，从而基于上述关联关系，对待评估对象进行评估，从而进一步提高待评估对象评估结果获取的准确性。
114.在一个实施例中，还提供了一种音频审核方法，通过提取金融网点员工语音音频的各种特征，融合处理后进行对比学习特征分析匹配，不用转文字进行搜索匹配，之后还可以利用匹配出的员工语音是否规范的结果，对金融网点员工进行评估审核，具体可以包括以下步骤：
115.步骤1：获取网点员工的语音信息。
116.其中，语因信息指的是网点员工的语言信息，在网点员工和客户交流过程中，可以通过语音采集设备，例如录音机等，录制网点员工与客户交流的语音信息。
117.步骤2：将语音信息输入语音匹配模型，通过语音匹配模型提取音频的各种特征，例如使用特征可以包括：音素音节、时长和语速、共振峰、基频、强度等等，融合处理后进行对比学习特征分析匹配，并判断该语音信息是否包含违规内容，具体可通过以下流程实现：
118.首先需要收集正样本和负样本，选择发音标准、无方言口音的男女金融网点员工，按照标准内容和要求的服务态度、语气，按照正常的语速、分贝进行服务对话并录音，这些语料后续作为正样本；然后让随机使用以下一个及多个条件录制显然不合理的语音作为负样本，可以是语速极快、语速极慢、饱含各种不符合正常服务态度的情绪、特别大声、特别小声、说违规用语、说话吐字极其不分清、带严重口音的语音等等。
119.正负样本都需要经过音频序列提取后输入如图5所示的网络，该网络结构的编码器权值共享的，先提取音频序列(根据时间维度)上述的特征，进行concat，然后输入编码器：resblock处理局部相关性，再经过transformer模块提取音频序列信息的相关依赖，更好地表征特征。编码器出来的特征经过投影模块(包含一个小的神经网络：dense block、relu、dense block)将特征映射到对比损失空间中，最后通过对比损失函数调整两个样本的距离，训练后正样本距离越来越近，负样本越来越远，这样可以训练出能够有效进行区分的特征，等待编码器训练好后，将分类器和编码器联调，正样本编码为1，负样本为0，固定编码器，训练分类器。
120.其中，如图5所示，特征提取可以包括以下过程：
121.(1)梅尔倒频系数是用于识别连续口语句子中的单音节词
122.(2)音素gp特征提取用于提取中文语音的音素特征
123.(3)lpc求根法计算升到的共振峰，这里计算前三个，对应升到传输频率相应的极点频率
124.(4)teo归一化互相关法实现基频分析，为roubust algo-rithm for pitch tracking，papt法，获取基频最优估计
125.(5)强度计算法是计算每帧音频信号幅度的平方值，转化为分贝。
126.而对比训练模型则是每次从训练批次里面取两个序列进行训练，两者编码器的权重共享，也就是相当于一个网络，然后输入mlp层将优化的特征，最后计算对比损失，其中对比损失再反向传播训练网络时，让两个正样本距离减小，正负样本距离增加，从而起到区分作用，不计算负样本之间的损失。
127.等到编码器训练良好后，固定编码器，按照如图6所示方式训练分类器，使用全连接神经网络的分类器即可，等待分类器训练良好后，按照图6所示方式对输入的音频序列进行审核判别。
128.步骤3，如果该语音信息中包含违规内容，则记录该语音信息，并根据记录的语音信息来实现对员工的监管。
129.可以是判断语音信息有不规范内容后，将音频片段和相应的不合规文本打包，日终汇总到结果展示模块，自动进行扣分，便于网点负责人管理，负责人可根据该汇总情况进行审核，员工可以自查，并在展示模块上提出人工复核要求，消除扣分。
130.本实施例中，可以通过利用员工语音的语音特征，来识别员工语音是否符合规范，从而可以提高语音规范识别的准确性，从而进一步提高了金融网点员工监督的全面性。
131.应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
132.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的语音识别模型训练方法的语音识别模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别模型训练装置实施例中的具体限定可以参见上文中对于语音识别模型训练方法的限定，在此不再赘述。
133.在一个实施例中，如图7所示，提供了一种语音识别模型训练装置，包括：样本特征获取模块701、样本编码获取模块702、编码器训练模块703和分类器训练模块704，其中：
134.样本特征获取模块701，用于获取样本规范语音的第一音频特征，以及用于与样本规范语音进行比对的样本比对语音的第二音频特征；样本比对语音包括：规范语音与非规范语音；
135.样本编码获取模块702，用于将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器，通过编码器得到第一音频特征对应的第一编码特征，以及第二音频
特征对应的第二编码特征；
136.编码器训练模块703，用于基于第一编码特征与第二编码特征之间的差异，对编码器进行训练，得到训练完成的编码器；
137.分类器训练模块704，用于基于训练完成的编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的编码器以及训练完成的分类器，作为训练完成的语音识别模型；分类器用于识别语音是否为规范语音。
138.在一个实施例中，编码器包括：第一编码器以及第二编码器；第一编码器与第二编码器共享编码器权重；样本编码获取模块702，进一步用于将第一音频特征输入第一编码器，通过第一编码器得到第一编码特征；将第二音频特征输入第二编码器，通过第二编码器得到第二编码特征；编码器训练模块703，进一步用于基于第一编码特征与第二编码特征之间的差异，调整第一编码器的编码器权重，以得到训练完成的第一编码器；分类器训练模块704，进一步用于基于训练完成的第一编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的第一编码器以及训练完成的分类器，作为训练完成的语音识别模型。
139.在一个实施例中，编码器训练模块703，进一步用于将第一编码特征与第二编码特征输入语音识别模型的投影模块，通过投影模块获取第一编码特征对应的第一映射特征，以及第二编码特征对应的第二映射特征；基于第一映射特征与第二映射特征之间的差异，调整第一编码器的编码器权重，以使在样本比对语音为规范语音的情况下，减少第一映射特征与第二映射特征之间的差异，并在样本比对语音为非规范语音的情况下，增加第一映射特征与第二映射特征之间的差异，以得到训练完成的第一编码器。
140.在一个实施例中，分类器训练模块704，进一步用于获取样本语音对应的目标语音类别；目标语音类别用于表征样本语音是否为规范语音；将样本语音的样本音频特征输入训练完成的第一编码器，通过训练完成的第一编码器得到样本音频特征对应的样本编码特征，并利用待训练的语音识别模型的分类器，得到样本语音对应的预测语音类别；基于预测语音类别与目标语音类别之间的差异，对分类器进行训练，得到训练完成的分类器。
141.在一个实施例中，样本特征获取模块701，进一步用于获取样本规范语音的第一音频序列，以及样本比对语音的第二音频序列；对第一音频序列以及第二音频序列进行多维度的特征提取，得到第一音频特征以及第二音频特征。
142.在一个实施例中，样本特征获取模块701，进一步用于对第一音频序列以及第二音频序列进行梅尔倒频系数计算，获取第一音频序列以及第二音频序列的单音字节；对第一音频序列以及第二音频序列进行音素gp特征提取，获取第一音频序列以及第二音频序列的音素特征；对第一音频序列以及第二音频序列通过lpc求根法获取第一音频序列以及第二音频序列的共振峰；对第一音频序列以及第二音频序列通过teo归一化互相关法进行基频分析，获取第一音频序列以及第二音频序列的最优基频；获取第一音频序列以及第二音频序列的音频信号幅度。
143.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。
144.在一个实施例中，如图8所示，提供了一种语音识别装置，包括：音频特征获取模块801、编码特征获取模块802和规范语音识别模块803，其中：
145.音频特征获取模块801，用于获取金融网点中待评估对象发起的语音信息，以及语音信息对应的音频特征；
146.编码特征获取模块802，用于将语音信息对应的音频特征输入训练完成的语音识别模型的编码器，通过编码器获取音频特征对应的编码特征；其中，语音识别模型通过如上任一项实施例的语音识别模型训练方法训练得到；
147.规范语音识别模块803，用于将编码特征输入训练完成的语音识别模型的分类器，通过分类器得到语音信息的规范语音识别结果。
148.在一个实施例中，语音识别装置，还包括：对象评估模块，用于在规范语音识别结果表征语音信息为非规范语音的情况下，记录语音信息，以及待评估对象与语音信息的关联关系；根据待评估对象关联的语音信息，获取待评估对象的对象评估结果。
149.上述语音识别模型训练装置以及语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
150.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型训练方法或者语音识别方法。
151.本领域技术人员可以理解，图9中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
152.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
153.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
154.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
155.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
156.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，
本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
157.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
158.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：
1.一种语音识别模型训练方法，其特征在于，所述方法包括：获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器；基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音。2.根据权利要求1所述的方法，其特征在于，所述编码器包括：第一编码器以及第二编码器；所述第一编码器与所述第二编码器共享编码器权重；所述将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征，包括：将所述第一音频特征输入所述第一编码器，通过所述第一编码器得到所述第一编码特征；将所述第二音频特征输入所述第二编码器，通过所述第二编码器得到所述第二编码特征；所述基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器，包括：基于所述第一编码特征与所述第二编码特征之间的差异，调整所述第一编码器的编码器权重，以得到训练完成的第一编码器；所述基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型，包括：基于所述训练完成的第一编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的第一编码器以及所述训练完成的分类器，作为训练完成的语音识别模型。3.根据权利要求2所述的方法，其特征在于，所述基于所述第一编码特征与所述第二编码特征之间的差异，调整所述第一编码器的编码器权重，以得到训练完成的第一编码器，包括：将所述第一编码特征与所述第二编码特征输入所述语音识别模型的投影模块，通过所述投影模块获取所述第一编码特征对应的第一映射特征，以及所述第二编码特征对应的第二映射特征；基于所述第一映射特征与所述第二映射特征之间的差异，调整所述第一编码器的编码器权重，以使在所述样本比对语音为规范语音的情况下，减少所述第一映射特征与所述第二映射特征之间的差异，并在所述样本比对语音为非规范语音的情况下，增加所述第一映
射特征与所述第二映射特征之间的差异，以得到训练完成的第一编码器。4.根据权利要求2所述的方法，其特征在于，所述基于所述训练完成的第一编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的第一编码器以及所述训练完成的分类器，作为训练完成的语音识别模型，包括：获取样本语音对应的目标语音类别；所述目标语音类别用于表征所述样本语音是否为规范语音；将所述样本语音的样本音频特征输入所述训练完成的第一编码器，通过所述训练完成的第一编码器得到所述样本音频特征对应的样本编码特征，并利用所述待训练的语音识别模型的分类器，得到所述样本语音对应的预测语音类别；基于所述预测语音类别与所述目标语音类别之间的差异，对所述分类器进行训练，得到所述训练完成的分类器。5.根据权利要求1至4任意一项所述的方法，其特征在于，所述获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征，包括：获取所述样本规范语音的第一音频序列，以及所述样本比对语音的第二音频序列；对所述第一音频序列以及所述第二音频序列进行多维度的特征提取，得到所述第一音频特征以及所述第二音频特征。6.根据权利要求5所述的方法，其特征在于，所述对所述第一音频序列以及所述第二音频序列进行多维度的特征提取，包括以下至少一种：对所述第一音频序列以及所述第二音频序列进行梅尔倒频系数计算，获取所述第一音频序列以及所述第二音频序列的单音字节；对所述第一音频序列以及所述第二音频序列进行音素gp特征提取，获取所述第一音频序列以及所述第二音频序列的音素特征；对所述第一音频序列以及所述第二音频序列通过lpc求根法获取所述第一音频序列以及所述第二音频序列的共振峰；对所述第一音频序列以及所述第二音频序列通过teo归一化互相关法进行基频分析，获取所述第一音频序列以及所述第二音频序列的最优基频；获取所述第一音频序列以及所述第二音频序列的音频信号幅度。7.一种语音识别方法，其特征在于，所述方法包括：获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特征；将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如权利要求1至6任一项所述的语音识别模型训练方法训练得到；将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。8.根据权利要求7所述的方法，其特征在于，所述通过所述分类器得到所述语音信息的规范语音识别结果之后，还包括：在所述规范语音识别结果表征所述语音信息为非规范语音的情况下，记录所述语音信息，以及所述待评估对象与所述语音信息的关联关系；
根据所述待评估对象关联的语音信息，获取所述待评估对象的对象评估结果。9.一种语音识别模型训练装置，其特征在于，所述装置包括：样本特征获取模块，用于获取样本规范语音的第一音频特征，以及用于与所述样本规范语音进行比对的样本比对语音的第二音频特征；所述样本比对语音包括：规范语音与非规范语音；样本编码获取模块，用于将所述第一音频特征以及所述第二音频特征输入待训练的语音识别模型的编码器，通过所述编码器得到所述第一音频特征对应的第一编码特征，以及所述第二音频特征对应的第二编码特征；编码器训练模块，用于基于所述第一编码特征与所述第二编码特征之间的差异，对所述编码器进行训练，得到训练完成的编码器；分类器训练模块，用于基于所述训练完成的编码器，对所述待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将所述训练完成的编码器以及所述训练完成的分类器，作为训练完成的语音识别模型；所述分类器用于识别语音是否为规范语音。10.一种语音识别装置，其特征在于，所述装置包括：音频特征获取模块，用于获取金融网点中待评估对象发起的语音信息，以及所述语音信息对应的音频特征；编码特征获取模块，用于将所述语音信息对应的音频特征输入所述训练完成的语音识别模型的编码器，通过所述编码器获取所述音频特征对应的编码特征；其中，所述语音识别模型通过如权利要求1至6任一项所述的语音识别模型训练方法训练得到；规范语音识别模块，用于将所述编码特征输入所述训练完成的语音识别模型的分类器，通过所述分类器得到所述语音信息的规范语音识别结果。11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本申请涉及一种语音识别模型训练方法、语音识别方法、装置、计算机设备和存储介质，可应用于人工智能技术领域。所述语音识别模型训练方法包括：获取样本规范语音的第一音频特征，以及样本比对语音的第二音频特征；将第一音频特征以及第二音频特征输入待训练的语音识别模型的编码器，得到对应的第一编码特征，以及第二编码特征；基于第一编码特征与第二编码特征之间的差异，对编码器进行训练，得到训练完成的编码器；基于训练完成的编码器，对待训练的语音识别模型中的分类器进行训练，得到训练完成的分类器，将训练完成的编码器以及训练完成的分类器，作为训练完成的语音识别模型。采用本方法能够更准确的识别金融网点员工用语是否规范。是否规范。是否规范。

技术研发人员：徐雪杨洁琼江文乐罗亚明
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2023.07.18
技术公布日：2023/10/11

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

语音识别模型训练方法、语音识别方法、装置和设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音识别模型训练方法、语音识别方法、装置和设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表