声纹模型的训练方法、装置、设备、介质及产品与流程
未命名
07-22
阅读:86
评论:0
1.本技术涉及数据处理技术领域,尤其涉及一种声纹模型的训练方法、装置、设备、介质及产品。
背景技术:
2.声纹识别是生物识别技术的一种。声纹识别可应用于说话人辨认场景,也即通过对说话人的语音数据进行处理,确认其是否在所记录的语者集合中并确认说话人的身份。
3.相关技术通过声纹模型对待识别的语音数据进行声纹识别以确认说话人的身份。在训练声纹模型的过程中,将样本语音数据切分成多个固定长度的语音块,基于这多个语音块训练声纹模型。
4.然而上述技术中若长度设置过小,会影响声纹模型对较长的语音数据的识别效果,若长度设置过大,会影响声纹模型对较短的语音数据的识别效果。
技术实现要素:
5.本技术提供一种声纹模型的训练方法、装置、设备、介质及产品,用以解决相关技术中语音块的长度差异过大导致声纹模型的识别效果较差的问题。
6.第一方面,本技术提供一种声纹模型的训练方法,包括:
7.获取多个样本数据,各所述样本数据包括样本语音数据与对应的样本说话人标识;
8.在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照所述样本长度对第i次迭代训练所输入的各所述样本语音数据进行切分,以获得各所述样本语音数据对应的多个长度为所述样本长度的样本语音块,i为大于或等于1的正整数;
9.以各所述样本语音数据对应的所述样本说话人标识为监督数据,基于各所述样本语音数据对应的多个所述样本语音块,对所述第一声纹模型进行第i次迭代训练;
10.若训练后的所述第一声纹模型满足预设收敛条件,则将满足所述预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,所述训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。
11.第二方面,本技术提供一种声纹模型的训练装置,包括:
12.获取模块,用于获取多个样本数据,各所述样本数据包括样本语音数据与对应的样本说话人标识;
13.切分模块,用于在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照所述样本长度对第i次迭代训练所输入的各所述样本语音数据进行切分,以获得各所述样本语音数据对应的多个长度为所述样本长度的样本语音块,i为大于或等于1的正整数;
14.训练模块,用于以各所述样本语音数据对应的所述样本说话人标识为监督数据,
基于各所述样本语音数据对应的多个所述样本语音块,对所述第一声纹模型进行第i次迭代训练;
15.所述训练模块,还用于若训练后的所述第一声纹模型满足预设收敛条件,则将满足所述预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,所述训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。
16.第三方面,本技术提供一种电子设备,包括:存储器,以及与所述处理器通信连接的存储器;
17.所述存储器存储计算机执行指令;
18.所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的声纹模型的训练方法。
19.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面所述的声纹模型的训练方法。
20.第五方面,本技术提供一种计算机程序产品,包括计算机执行指令,所述计算机执行指令被处理器执行时实现第一方面所述的声纹模型的训练方法。
21.本技术提供的声纹模型的训练方法、装置、设备、介质及产品,通过获取多个样本数据,各所述样本数据包括样本语音数据与对应的样本说话人标识;在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照所述样本长度对第i次迭代训练所输入的各所述样本语音数据进行切分,以获得各所述样本语音数据对应的多个长度为所述样本长度的样本语音块,i为大于或等于1的正整数;以各所述样本语音数据对应的所述样本说话人标识为监督数据,基于各所述样本语音数据对应的多个所述样本语音块,对所述第一声纹模型进行第i次迭代训练;若训练后的所述第一声纹模型满足预设收敛条件,则将满足所述预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,所述训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。本技术在训练第一声纹模型时,针对当前第i次迭代训练,随机生成一个在预设长度范围内的样本长度,然后按照该样本长度对样本数据中的样本语音信号进行切分,得到多个长度为该样本长度的样本语音块,由于每次迭代训练都是随机从预设长度范围中生成的一个样本长度,这样第一声纹模型在多次迭代训练中能够针对不同长度的样本语音块进行学习,通过动态设置样本语音块的长度,提高了第一声纹模型对语音块长度的自适应能力,从而训练完成的第一声纹模型的声纹识别效果较好。
附图说明
22.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
23.图1为本技术提供的一种应用场景的示意图;
24.图2为本技术提供的声纹模型的训练方法的流程示意图一;
25.图3为本技术提供的声纹模型的训练方法的流程示意图二;
26.图4为本技术提供的声纹识别过程的流程示意图一;
27.图5为本技术提供的声纹识别过程的流程示意图二;
28.图6为本技术提供的声纹模型的训练装置的结构示意图;
29.图7为本技术提供的电子设备的结构示意图。
30.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
31.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
32.术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
33.本技术的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
34.首先对本技术所涉及的名词进行解释:
35.声纹识别:声纹识别就是把声信号转换成电信号,再用计算机进行识别。包括说话人辨认、说话人确认、说话人日志等。
36.说话人辨认:通过对说话人语音信号的分析处理,确认其是否在所记录的语者集合中并确认说话人身份的一种技术。
37.语音块:声纹模型训练过程中,会按照指定长度将输入语音切成语音块,然后提取特征进行模型训练。
38.为了清楚理解本技术的技术方案,首先对现有技术的方案进行详细介绍。
39.声纹识别是生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。说话人辨认是通过对说话人的语音数据进行处理,确认其是否在所记录的语者集合中并确认说话人的身份,而说话人确认是通过对说话人的语音数据进行处理,确认说话人是否为所记录的说话人。
40.相关技术通过训练声纹模型,采用声纹模型对待识别的语音数据进行声纹识别以确认说话人的身份。在训练声纹模型的过程中,一般是使用固定长度的语音块进行训练,例如将训练使用的样本语音数据切分成多个固定长度的语音块,基于这多个固定长度的语音块训练声纹模型。
41.然而上述技术中语音块的长度的设置对声纹模型的识别效果具有较大影响。若语音块的长度设置过小,会影响声纹模型对较长的语音数据的识别效果,若语音块的长度设置过大,会影响声纹模型对较短的语音数据的识别效果。
42.针对现有技术中语音块的长度差异过大导致声纹模型的识别效果较差的技术问题,发明人在研究中发现,为了解决该问题,在训练声纹模型时,可以采用随机生成样本长度的方式,来避免将语音块的长度设置为固定长度,又考虑到语音块的长度过长或者过短均会对声纹模型的识别效果产生影响,可以设置一个预设长度范围,从而随机生成在预设
长度范围内的样本长度,并且,发明人还考虑到声纹模型的训练过程包括多次迭代训练,而每次迭代训练,均需要对样本语音数据进行切分,基于此,可以在每次迭代训练时,随机生成一个在预设长度范围内的样本长度。
43.具体地,本技术在训练第一声纹模型时,针对当前第i次迭代训练,随机生成一个在预设长度范围内的样本长度,然后按照该样本长度对样本数据中的样本语音信号进行切分,得到多个长度为该样本长度的样本语音块,由于每次迭代训练都是随机从预设长度范围中生成的一个样本长度,这样第一声纹模型在多次迭代训练中能够针对不同长度的样本语音块进行学习,通过动态设置样本语音块的长度,提高了第一声纹模型对语音块长度的自适应能力,从而训练完成的第一声纹模型的声纹识别效果较好。
44.下面对本技术实施例提供的声纹模型的训练方法的应用场景进行介绍。
45.图1为本技术提供的一种应用场景的示意图。如图1所示,该应用场景中包括:电子设备1。其中,电子设备1为训练第一声纹模型的设备。在本实施例中,电子设备1在第一声纹模型的每次迭代训练过程中,都随机生成一个在预设长度范围内的样本长度,然后按照该样本长度对样本数据中的样本语音信号进行切分,得到多个长度为该样本长度的样本语音块,从而以样本语音数据对应的样本说话人标识为监督数据,基于这多个样本语音块对第一声纹模型进行迭代训练,直至得到训练完成的第一声纹模型。
46.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
47.图2为本技术提供的声纹模型的训练方法的流程示意图一。本技术提供的声纹模型的训练方法的执行主体为声纹模型的训练装置,该声纹模型的训练装置集成在电子设备中。如图2所示,本实施例提供的声纹模型的训练方法包括以下步骤:
48.步骤s101,获取多个样本数据,各样本数据包括样本语音数据与对应的样本说话人标识。
49.其中,样本数据为用于训练第一声纹模型的数据。样本数据的数量可以根据需要设置,本实施例对此不加以限定,例如样本数据的数量为1000、10000等。
50.样本语音数据为说话人通过其所使用的设备采集的,该样本语音数据包含说话人输出的语音信号,例如样本语音数据为一条内容包含“打开门锁”的音频。样本语音数据对应的样本说话人标识指代样本语音数据中的发声对象也即说话人的身份。不同的样本说话人标识指代不同的说话人的身份,样本说话人标识与说话人的身份一一对应,样本说话人标识能够唯一标识对应的说话人的身份。样本说话人标识的表示方式可以根据需要设置,本实施例对此不加以限定,例如说话人的身份分别为甲、乙、丙,则对应的样本说话人标识分别为1、2、3。可选地,样本语音数据对应的样本说话人标识以人工标注的方式得到。在本实施例中,技术人员事先采集样本语音数据,并为该样本语音数据标注样本说话人标识。其中,样本语音数据的长度可以根据需要设置,本实施例对此不加以限定,例如样本语音数据的长度为5秒、10秒或15秒等。
51.步骤s102,在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照样本长度对第i次迭代训练所输入的各样本语音数据进行切分,以获得各样本语音数据对应的多个长度为样本长度的样本语音块,i为大于或等于1的正整数。
52.其中,第一声纹模型的训练过程包含多次迭代训练,本步骤以第i次迭代训练为例进行说明,且i小于或等于第一声纹模型的多次迭代训练的总数。其中,预设长度范围可以根据需要设置,本实施例对此不加以限定,例如预设长度范围为0.5秒至2秒。需要说明的是,虽然预设长度范围是一个长度范围,但该预设长度范围包含多个预设长度,每两个相邻的预设长度之间的差值是固定的。可选地,随机生成一个在预设长度范围内的样本长度的实现方式包括:随机从预设长度范围内的各预设长度中选择一个预设长度,将被选中的预设长度作为样本长度。其中,预设长度范围内的各预设长度对应的概率也即各预设长度被选中的概率可以根据需要设置,例如各预设长度对应的概率相同。
53.步骤s103,以各样本语音数据对应的样本说话人标识为监督数据,基于各样本语音数据对应的多个样本语音块,对第一声纹模型进行第i次迭代训练。
54.在本实施例中,样本语音数据与样本语音块均是一段语音信号,语音信号可以直接作为模型输入数据,只是在一些情况下,如数据不足、计算力薄弱时,还可以先将语音信号由时域信号转换为频域信号,借鉴人耳的处理机制对语音信号进行特征提取,得到语音特征,将语音特征作为模型输入数据。其中,语音特征使得语音信号所包含的语音信息更容易暴露,大大降低算法优化的压力,某种程度上也起到降维的效果,提高计算效率。基于此,本实施例在得到样本语音数据对应的多个样本语音块之后,对各样本语音块进行特征提取,以获得样本语音数据对应的多个样本语音特征。相应地,第一声纹模型的输入数据为样本语音数据对应的多个样本语音特征。例如,对样本语音块进行梅尔频率倒谱系数(mel frequency cepstral coefficient,mfcc)特征或梅尔滤波器组(mel filter bank,fbank)特征的提取,得到其对应的样本语音特征。
55.在训练第一声纹模型时,设置有多个预设说话人身份,各预设说话人身份相当于一种类别。步骤s101所获取的各样本语音数据对应的样本说话人标识所指代的说话人身份均在这多个预设说话人身份中。相应地,第一声纹模型的输出数据为样本语音数据对应的声纹识别结果,该声纹识别结果为预测概率序列,该预测概率序列包含各预设说话人身份对应的预测概率,预设说话人身份对应的预测概率表示第一声纹模型预测的该样本语音数据对应的说话人身份为该预设说话人身份的概率。预设说话人身份对应的预测概率越大,表示该样本语音数据对应的说话人身份越可能是该预设说话人身份,预设说话人身份对应的预测概率越小,表示该样本语音数据对应的说话人身份越不可能是该预设说话人身份。
56.步骤s104,若训练后的第一声纹模型满足预设收敛条件,则将满足预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。
57.其中,预设收敛条件可以根据需要设置,本实施例对此不加以限定,例如训练收敛条件为训练次数达到预设次数或者损失值低于损失值阈值等,其中预设次数与损失值阈值均可以根据需要设置。
58.本技术在训练第一声纹模型时,针对当前第i次迭代训练,随机生成一个在预设长度范围内的样本长度,然后按照该样本长度对样本数据中的样本语音信号进行切分,得到多个长度为该样本长度的样本语音块,由于每次迭代训练都是随机从预设长度范围中生成的一个样本长度,这样第一声纹模型在多次迭代训练中能够针对不同长度的样本语音块进行学习,通过动态设置样本语音块的长度,提高了第一声纹模型对语音块长度的自适应能
力,从而训练完成的第一声纹模型的声纹识别效果较好。
59.图3为本技术提供的声纹模型的训练方法的流程示意图二,如图3所示,本实施例提供了一种声纹模型的具体训练过程。本实施例提供的声纹模型的训练方法包括以下步骤:
60.步骤s201,获取多个样本数据,各样本数据包括样本语音数据与对应的样本说话人标识。
61.本实施例中,步骤s201的实现方式与上一实施例的步骤s101的实现方式同理,在此不再赘述。
62.步骤s202,在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照样本长度对第i次迭代训练所输入的各样本语音数据进行切分,以获得各样本语音数据对应的多个长度为样本长度的样本语音块,i为大于或等于1的正整数。
63.本实施例中,步骤s202的实现方式与上一实施例的步骤s102的实现方式同理,在此不再赘述。
64.步骤s203,以各样本语音数据对应的样本说话人标识为监督数据,基于各样本语音数据对应的多个样本语音块,对第一声纹模型进行第i次迭代训练。
65.本实施例中,步骤s203的实现方式与上一实施例的步骤s103的实现方式同理,在此不再赘述。
66.可选地,第一声纹模型包括特征提取网络和分类网络;相应地,以各样本语音数据对应的样本说话人标识为监督数据,基于各样本语音数据对应的多个样本语音块,对第一声纹模型进行第i次迭代训练的实现方式包括以下步骤s2031-步骤s2033:
67.步骤s2031,针对各样本语音数据,通过特征提取网络,对样本语音数据对应的多个样本语音块进行特征提取,以获得样本语音数据对应的样本声纹特征;通过分类网络,基于样本声纹特征,确定样本语音数据对应的声纹识别结果。
68.其中,声纹识别结果包含样本语音数据对应的预测概率,预测概率表示样本语音数据属于样本说话人标识所指代的说话人身份的概率。该声纹识别结果为预测概率序列,该预测概率序列包含各预设说话人身份对应的预测概率,预设说话人身份对应的预测概率表示第一声纹模型预测的该样本语音数据对应的说话人身份为该预设说话人身份的概率。可选地,通过分类网络,基于样本声纹特征,确定样本语音数据对应的声纹识别结果的实现方式包括:将该样本声纹特征输入到分类网络,采用分类网络将该样本声纹特征映射成一维向量,该一维向量也即预测概率序列,预测概率序列包括的多个预测概率之和为1。
69.步骤s2032,基于各样本语音数据对应的预测概率与样本说话人标识,确定第一声纹模型的第i个损失值。
70.其中,样本说话人标识指代的是真实的说话人身份,样本语音数据对应的预测概率表示的是预测到该样本语音数据属于该说话人身份的概率,若以概率的形式表示样本说话人标识,则样本说话人标识可以表示为1,则1与该预测概率之间的差值可以看作是第一声纹模型的训练误差,则可以基于该训练误差计算损失值。其中,损失值的计算方式可以根据需要设置,本实施例对此不加以限定,例如以交叉熵损失函数的方式计算损失值。
71.步骤s2033,基于第i个损失值调整第一声纹模型的模型参数,以获得第i次迭代训练后的第一声纹模型。
72.在本实施例中,每确定出一次迭代训练的损失值,就基于该损失值反向传播调整第一声纹模型的模型参数。
73.上述实现方式提供了一种第一声纹模型的具体训练方式,分别通过特征提取网络提取样本声纹特征,通过分类网络基于样本声纹特征对样本语音数据进行分类,以确定其属于样本说话人标识所指代的说话人身份的预测概率,从而能够进一步确定用于表示第一声纹模型在第i次迭代训练中的训练误差的损失值,进而能够基于该损失值调整第一声纹模型的模型参数,使得调整模型参数后的第一声纹模型的准确性更高,达到训练的目的。
74.在本实施例中,若第i次迭代训练后的第一声纹模型满足预设收敛条件,说明第一声纹模型的准确性足够高,该第一声纹模型能够用来对语音数据进行声纹识别,且声纹识别的效果较好,则执行步骤s204。若第i次迭代训练后的第一声纹模型未满足预设收敛条件,说明第一声纹模型还需要进一步的训练,则执行步骤s205。
75.步骤s204,将满足预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。
76.其中,满足预设收敛条件的第一声纹模型的准确性足够高,则停止训练第一声纹模型。
77.步骤s205,基于第i次迭代训练后的第一声纹模型进行第i+1次迭代训练。
78.其中,第一声纹模型的第i+1次迭代训练与第i次迭代训练同理,在此不再赘述。
79.本实施例提供了一种简单、有效的声纹模型训练方法,让第一声纹模型在训练过程中动态使用不同长度的样本语音块进行训练,进而提高了第一声纹模型对不同长度的语音数据的辨认能力。
80.在上述实施例给出的一种可选实现方式中,第一声纹模型包括特征提取网络和分类网络,特征提取网络用于提取声纹特征,而分类网络用于基于声纹特征确定对应的预测概率序列。训练第一声纹模型的目的是训练特征提取网络的特征提取能力,特征提取能力越高,声纹特征越准确,相应地,在一些实施例中,将训练完成的第一声纹模型中的特征提取网络,确定为第二声纹模型。
81.在该实施例中,训练完成的第一声纹模型中的特征提取网络的特征提取能力较高,能够提取到准确性较高的声纹特征,通过将该特征提取网络确定为第二声纹模型,使用该第二声纹模型单独进行声纹特征的提取,进而为后续的声纹识别提供了较为准确的数据支持。
82.相应地,在上述任一实施例的基础上,本技术还提供了一种使用第二声纹模型进行声纹识别的方案。图4为本技术提供的声纹识别过程的流程示意图一,如图4所示,该过程包括以下步骤:
83.步骤s301,获取待识别的目标语音数据。
84.其中,目标语音数据包含说话人输出的语音信号,例如目标语音数据为一条内容包含“打开相册”的音频。该目标语音数据对应的说话人的身份是待识别的。可选地,说话人通过其说使用的设备采集该目标语音数据,并触发设备将该目标语音数据发送至电子设备,相应地,电子设备接收该目标语音数据,执行本实施例提供的声纹识别过程,对该目标语音数据进行声纹识别,以确认说话人身份。
85.步骤s302,采用第二声纹模型确定目标语音数据对应的目标声纹特征。
86.在获取到待识别的目标语音数据之后,采用第二声纹模型确定目标语音数据对应的目标声纹特征,可选地,采用第二声纹模型确定目标语音数据对应的目标声纹特征的实现方式,包括以下步骤s3021-步骤s3022:
87.步骤s3021,对目标语音数据进行切分,得到多个目标语音块。
88.可选地,对目标语音数据进行切分,得到多个目标语音块的实现方式,包括以下两种实现方式:
89.第一种实现方式:从多个预设语音长度范围中,确定目标语音数据的长度所属的预设语音长度范围;确定与预设语音长度范围所对应的预设语音块长度;按照预设语音块长度,对目标语音数据进行切分,得到多个长度为预设语音块长度的目标语音块。其中,预设语音长度范围以及对应的预设语音块长度均可以根据需要设置,本实施例对此不加以限定。例如预设语音长度范围为5秒到10秒,则对应的预设语音块长度为1.5秒,再如预设语音长度范围为11秒到15秒,则对应的预设语音块长度为2秒。
90.在上述实现方式中,考虑到不同的目标语音数据的长度可能存在差别,从而在切分目标语音数据时,可以根据目标语音数据的长度所属的预设语音长度范围对应的预设语音块长度,来对目标语音数据进行切分,使得目标语音块的长度适宜。
91.第二种实现方式:按照默认语音块长度,对目标语音数据进行切分,得到多个长度为默认语音块长度的目标语音块。其中,默认语音块长度可以根据需要设置,本实施例对此不加以限定,例如默认语音块长度为1秒。
92.在上述实现方式中,直接按照默认语音块长度对目标语言数据进行切分,操作简单且高效。
93.步骤s3022,将多个目标语音块输入到第二声纹模型,采用第二声纹模型对多个目标语音块进行特征提取,以获得目标声纹特征。
94.其中,第二声纹模型为训练完成的第一声纹模型中的特征提取网络,则通过将多个目标语音块输入到第二声纹模型中,可以提取到对应的目标声纹特征。可选地,本实施例在得到目标语音数据对应的多个目标语音块之后,对各目标语音块进行特征提取,以获得目标语音数据对应的多个目标语音特征。相应地,第二声纹模型的输入数据为目标语音数据对应的多个目标语音特征。
95.在上述实现方式中,通过对目标语音数据进行切分,从而采用第二声纹模型对切分得到的多个语音块进行特征提取,得到表征了目标语音数据中的说话人的声纹信息的特征。
96.在一些实施例中,在对目标语音数据进行切分,得到多个目标语音块之前还包括:对目标语音数据进行语音活动检测,以获得检测后的目标语音数据,检测后的目标语音数据包含说话人发声时的语音数据且不包含说话人未发声时的语音数据;相应地,对目标语音数据进行切分,得到多个目标语音块的实现方式包括:对检测后的目标语音数据进行切分,得到多个目标语音块。
97.其中,语音活动检测(voice activity detection,vad)用于识别并消除目标语音数据中包含的说话人未发生时的语音数据。
98.在上述实现方式中,考虑到目标语音数据除包含说话人发声时的语音数据外,还可能包含说话人未发声时的语音数据,而说话人未发声时的语音数据对声纹识别没有益
处,则通过先对目标语音数据进行语音活动检测,从而能够对检测后的目标语音数据进行切分,减少了目标语音数据中的无效数据,为声纹识别提供了较为简短有效的数据,进而增强第二声纹模型的识别能力。
99.步骤s303,确定目标声纹特征与语料库中的各预设声纹特征之间的相似度。
100.其中,语料库中事先存储有多个预设声纹特征,每个预设声纹特征对应一个说话人。目标声纹特征与各预设声纹特征之间的相似度能够体现出目标声纹特征属于对应的说话人的可能性。语料库中的各预设声纹特征与预设说话人标识对应存储,预设说话人标识指代对应的预设声纹特征所属的说话人的身份。
101.步骤s304,将所确定的最大相似度所属的预设声纹特征对应的预设说话人标识,确定为目标语音数据对应的目标说话人标识,最大相似度大于预设相似度阈值。
102.其中,目标声纹特征与预设声纹特征之间的相似度越大,表示目标声纹特征对应的目标语音数据所属的说话人越可能是该预设声纹特征对应的说话人,则最大相似度所属的预设声纹特征对应的预设说话人标识所指代的说话人的身份最可能是目标语音数据所属的说话人的身份,则可以将该预设说话人标识确定为目标语音数据对应的目标说话人标识。其中,预设相似度阈值可以根据需要设置,本实施例对此不加以限定。
103.在确定该目标说话人标识之后,可以输出携带该目标说话人标识的第一提示信息,以提示用户查看。需要说明的是,若所确定的各相似度均小于或等于预设相似度阈值,则输出第二提示信息,该第二提示信息用于提示未识别到目标语音数据所属的说话人身份。
104.例如,图5为本技术提供的声纹识别过程的流程示意图二,参见图5,对于目标语音数据,先进行语音活动检测,再采用第二声纹模型确定目标声纹特征,然后进行说话人辨认,也即步骤s303-步骤s304,得到识别结果,也即目标说话人标识。
105.本实施例提供了一种使用第二声纹模型对目标语音数据进行声纹识别的方案,采用第二声纹模型所确定的目标声纹特征的准确性较高,从而通过确定该目标声纹特征与语料库中各预设声纹特征之间的相似度,能够根据所确定的多个相似度定位到目标语音数据对应的目标说话人标识,从而确定出其对应的说话人身份,该方案的准确性较高。
106.图6为本技术提供的声纹模型的训练装置的结构示意图,如图6所示,本实施例中,声纹模型的训练装置400可以设置在电子设备中,声纹模型的训练装置400包括:
107.获取模块401,用于获取多个样本数据,各样本数据包括样本语音数据与对应的样本说话人标识;
108.切分模块402,用于在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照样本长度对第i次迭代训练所输入的各样本语音数据进行切分,以获得各样本语音数据对应的多个长度为样本长度的样本语音块,i为大于或等于1的正整数;
109.训练模块403,用于以各样本语音数据对应的样本说话人标识为监督数据,基于各样本语音数据对应的多个样本语音块,对第一声纹模型进行第i次迭代训练;
110.训练模块403,还用于若训练后的第一声纹模型满足预设收敛条件,则将满足预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。
111.可选地,第一声纹模型包括特征提取网络和分类网络;训练模块403,用于:
112.针对各样本语音数据:
113.通过特征提取网络,对样本语音数据对应的多个样本语音块进行特征提取,以获得样本语音数据对应的样本声纹特征;
114.通过分类网络,基于样本声纹特征,确定样本语音数据对应的声纹识别结果,声纹识别结果包含样本语音数据对应的预测概率,预测概率表示样本语音数据属于样本说话人标识所指代的说话人身份的概率;
115.基于各样本语音数据对应的预测概率与样本说话人标识,确定第一声纹模型的第i个损失值;
116.基于第i个损失值调整第一声纹模型的模型参数,以获得第i次迭代训练后的第一声纹模型;
117.训练模块403还用于若第i次迭代训练后的第一声纹模型未满足预设收敛条件,则基于第i次迭代训练后的第一声纹模型进行第i+1次迭代训练。
118.可选地,装置400还包括:
119.训练模块,还用于将训练完成的第一声纹模型中的特征提取网络,确定为第二声纹模型。
120.可选地,装置400还包括:
121.获取模块401,还用于获取待识别的目标语音数据;
122.确定模块,用于采用第二声纹模型确定目标语音数据对应的目标声纹特征;确定目标声纹特征与语料库中的各预设声纹特征之间的相似度;将所确定的最大相似度所属的预设声纹特征对应的预设说话人标识,确定为目标语音数据对应的目标说话人标识,最大相似度大于预设相似度阈值。
123.可选地,确定模块,用于对目标语音数据进行切分,得到多个目标语音块;将多个目标语音块输入到第二声纹模型,采用第二声纹模型对多个目标语音块进行特征提取,以获得目标声纹特征。
124.可选地,装置400还包括:
125.检测模块,用于对目标语音数据进行语音活动检测,以获得检测后的目标语音数据,检测后的目标语音数据包含说话人发声时的语音数据且不包含说话人未发声时的语音数据;
126.确定模块,用于对检测后的目标语音数据进行切分,得到多个目标语音块。
127.可选地,确定模块,用于从多个预设语音长度范围中,确定目标语音数据的长度所属的预设语音长度范围;确定与预设语音长度范围所对应的预设语音块长度;按照预设语音块长度,对目标语音数据进行切分,得到多个长度为预设语音块长度的目标语音块。
128.可选地,确定模块,用于按照默认语音块长度,对目标语音数据进行切分,得到多个长度为默认语音块长度的目标语音块。
129.本实施例提供的声纹模型的训练装置可以执行图2、图3或图4所示方法实施例的技术方案,其实现原理和技术效果与图2、图3或图4所示方法实施例类似,在此不再一一赘述。
130.本技术实施例还提供了一种电子设备。电子设备旨在各种形式的数字计算机,诸
如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。
131.图7是本技术提供的电子设备的结构示意图。如图7所示,电子设备50包括:处理器501和与处理器501通信连接存储器502。
132.存储器502存储计算机执行指令,处理器501执行存储器502存储的计算机执行指令,以实现如本技术所提供的声纹模型的训练方法。
133.其中,本技术实施例中,存储器502和处理器501通过总线连接。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component interconnect,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
134.本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。
135.在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述声纹模型的训练方法。例如,该计算机可读存储介质可以是计算机执行指令的存储器,例如只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、cd-rom、磁带、软盘和光数据存储设备等。
136.在示例性实施例中,还提供了一种计算机程序产品,包括计算机执行指令,计算机执行指令被处理器执行时实现本技术所提供的声纹模型的训练方法。
137.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本技术所必须的。
138.进一步需要说明的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
139.应该理解,上述的装置实施例仅是示意性的,本技术的装置还可通过其它的方式实现。例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
140.另外,若无特别说明,在本技术各个实施例中的各功能单元/模块可以集成在一个
单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
141.集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,人工智能处理器可以是任何适当的硬件处理器,比如cpu、gpu、fpga、dsp和asic等等。若无特别说明,存储单元可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器rram(resistive random access memory)、动态随机存取存储器dram(dynamic random access memory)、静态随机存取存储器sram(static random-access memory)、增强动态随机存取存储器edram(enhanced dynamic random access memory)、高带宽内存hbm(high-bandwidth memory)、混合存储立方hmc(hybrid memory cube)等等。
142.集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器、随机存取存储器、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
143.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
144.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
145.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
技术特征:
1.一种声纹模型的训练方法,其特征在于,包括:获取多个样本数据,各所述样本数据包括样本语音数据与对应的样本说话人标识;在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照所述样本长度对第i次迭代训练所输入的各所述样本语音数据进行切分,以获得各所述样本语音数据对应的多个长度为所述样本长度的样本语音块,i为大于或等于1的正整数;以各所述样本语音数据对应的所述样本说话人标识为监督数据,基于各所述样本语音数据对应的多个所述样本语音块,对所述第一声纹模型进行第i次迭代训练;若训练后的所述第一声纹模型满足预设收敛条件,则将满足所述预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,所述训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。2.根据权利要求1所述的方法,其特征在于,所述第一声纹模型包括特征提取网络和分类网络;所述以各所述样本语音数据对应的所述样本说话人标识为监督数据,基于各所述样本语音数据对应的多个所述样本语音块,对所述第一声纹模型进行第i次迭代训练,包括:针对各所述样本语音数据:通过所述特征提取网络,对所述样本语音数据对应的多个所述样本语音块进行特征提取,以获得所述样本语音数据对应的样本声纹特征;通过所述分类网络,基于所述样本声纹特征,确定所述样本语音数据对应的声纹识别结果,所述声纹识别结果包含所述样本语音数据对应的预测概率,所述预测概率表示所述样本语音数据属于所述样本说话人标识所指代的说话人身份的概率;基于各所述样本语音数据对应的所述预测概率与所述样本说话人标识,确定所述第一声纹模型的第i个损失值;基于所述第i个损失值调整所述第一声纹模型的模型参数,以获得第i次迭代训练后的第一声纹模型;所述方法还包括:若所述第i次迭代训练后的第一声纹模型未满足所述预设收敛条件,则基于所述第i次迭代训练后的第一声纹模型进行第i+1次迭代训练。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述训练完成的第一声纹模型中的特征提取网络,确定为第二声纹模型。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取待识别的目标语音数据;采用所述第二声纹模型确定所述目标语音数据对应的目标声纹特征;确定所述目标声纹特征与语料库中的各预设声纹特征之间的相似度;将所确定的最大相似度所属的预设声纹特征对应的预设说话人标识,确定为所述目标语音数据对应的目标说话人标识,所述最大相似度大于预设相似度阈值。5.根据权利要求4所述的方法,其特征在于,所述采用所述第二声纹模型确定所述目标语音数据对应的目标声纹特征,包括:对所述目标语音数据进行切分,得到多个目标语音块;
将多个所述目标语音块输入到所述第二声纹模型,采用所述第二声纹模型对多个所述目标语音块进行特征提取,以获得所述目标声纹特征。6.根据权利要求5所述的方法,其特征在于,所述对所述目标语音数据进行切分,得到多个目标语音块之前,还包括:对所述目标语音数据进行语音活动检测,以获得检测后的目标语音数据,所述检测后的目标语音数据包含说话人发声时的语音数据且不包含说话人未发声时的语音数据;所述对所述目标语音数据进行切分,得到多个目标语音块,包括:对所述检测后的目标语音数据进行切分,得到多个所述目标语音块。7.根据权利要求5所述的方法,其特征在于,所述对所述目标语音数据进行切分,得到多个目标语音块,包括:从多个预设语音长度范围中,确定所述目标语音数据的长度所属的预设语音长度范围;确定与所述预设语音长度范围所对应的预设语音块长度;按照所述预设语音块长度,对所述目标语音数据进行切分,得到多个长度为所述预设语音块长度的目标语音块。8.根据权利要求5所述的方法,其特征在于,所述对所述目标语音数据进行切分,得到多个目标语音块,包括:按照默认语音块长度,对所述目标语音数据进行切分,得到多个长度为所述默认语音块长度的目标语音块。9.一种声纹模型的训练装置,其特征在于,包括:获取模块,用于获取多个样本数据,各所述样本数据包括样本语音数据与对应的样本说话人标识;切分模块,用于在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照所述样本长度对第i次迭代训练所输入的各所述样本语音数据进行切分,以获得各所述样本语音数据对应的多个长度为所述样本长度的样本语音块,i为大于或等于1的正整数;训练模块,用于以各所述样本语音数据对应的所述样本说话人标识为监督数据,基于各所述样本语音数据对应的多个所述样本语音块,对所述第一声纹模型进行第i次迭代训练;所述训练模块,还用于若训练后的所述第一声纹模型满足预设收敛条件,则将满足所述预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型,所述训练完成的第一声纹模型用于对所输入的语音数据进行声纹识别。10.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8任一项所述的声纹模型的训练方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的声纹模型的训练方法。
12.一种计算机程序产品,包括计算机执行指令,其特征在于,所述计算机执行指令被处理器执行时实现如权利要求1至8任一项所述的声纹模型的训练方法。
技术总结
本申请提供一种声纹模型的训练方法、装置、设备、介质及产品,可用于数据处理技术领域。该方法包括:获取多个样本数据;在第一声纹模型的第i次迭代训练中,随机生成一个在预设长度范围内的样本长度,并按照样本长度对第i次迭代训练所输入的各样本语音数据进行切分,以获得各样本语音数据对应的多个长度为样本长度的样本语音块;以各样本语音数据对应的样本说话人标识为监督数据,基于各样本语音数据对应的多个样本语音块对第一声纹模型进行第i次迭代训练;若训练后的第一声纹模型满足预设收敛条件,则将满足预设收敛条件的第一声纹模型确定为训练完成的第一声纹模型。本申请训练完成的第一声纹模型的声纹识别效果较好。完成的第一声纹模型的声纹识别效果较好。完成的第一声纹模型的声纹识别效果较好。
技术研发人员:徐雪萍 原道德 刘进涛 葛新 杨凯
受保护的技术使用者:建信金融科技有限责任公司
技术研发日:2023.04.20
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
