一种基于谱图去噪和对抗学习的鲁棒说话人识别方法

未命名 07-26 阅读：88 评论：0

1.本发明属于语音处理技术领域。涉及一种基于谱图去噪和对抗学习的鲁棒说话人识别方法。

背景技术：

2.在现实环境中，说话人识别系统输入的语音通常受到各种背景噪声和混响的干扰，干净语音上的附加噪声模糊了声学细节，降低了语音可懂度和质量，从而使得说话人识别系统的性能下降。提高说话人识别系统鲁棒性的常见方法主要是通过干净和有噪声数据组成的数据集对系统进行训练；或者添加语音增强前端，语音增强是指当语音信号被噪声干扰后，从噪声背景中提取有用的语音信号的技术。然而在语音增强过程中可能会产生语音失真，甚至会降低说话人识别系统的性能，由于神经网络具有强大的特征提取能力，利用神经网络可以直接从被噪声干扰的语音的频域特征中提取不含噪声的频域特征。另外，生成对抗网络(gan)目前被广泛研究并已经应用于许多语音或音频相关任务，这些任务主要集中在域转换和生成更真实的数据分布，对于抗噪特征的提取，gan网络也具备了一定的潜力。

技术实现要素：

3.本发明的目的在于提供一种基于谱图去噪和对抗学习的鲁棒说话人识别方法，以解决上述背景技术中提出的问题。
4.该方法首先采集干净语音的梅尔谱图数据集以及干净语音加噪后的含噪梅尔谱图数据集；利用均方误差损失函数训练多级编解码结构的u型网络u-net从含噪梅尔谱图提取出增强梅尔谱图；利用最小二乘损失函数训练基于时延神经网络的条件生成对抗网络(tdnn-cgan)，采用多层感知机(mlp)作为判别器，采用时延神经网络(tdnn)作为生成器用来提取增强梅尔谱图的深度特征；利用交叉熵损失训练基于mlp的说话人分类器用于识别说话人的身份，从而实现噪声环境下的说话人识别。
5.上述说话人识别方法的具体步骤如下：
6.步骤一：将干净语音sc添加噪声n得到含噪语音sn＝sc+n，利用汉明窗将干净语音sc、含噪语音sn分割成短帧，从每一帧中提取梅尔特征向量，分别构成两个特征矩阵：其中xc(t)、xn(t)分别表示干净、含噪语音梅尔谱图的第t帧的梅尔特征向量，t表示语音帧的个数，t∈{1,...,t}，上标t表示转置，d表示特征向量的维数。
7.步骤二：将含噪语音的含噪梅尔谱图xn输入多级编解码结构的u-net，得到x
n*
＝enhance(xn)，其中enhance(
·
)表示从含噪梅尔谱图xn提取增强梅尔谱图x
n*
的过程，利用均方误差损失函数作为谱图去噪损失来训练u-net，谱图去噪损失的表达式如下:
8.9.步骤三：将干净梅尔谱图xc、增强梅尔谱图x
n*
分别输入tdnn-cgan，通过tdnn-cgan中的生成器-时延神经网络(tdnn)分别提取干净梅尔谱图、增强梅尔谱图的深度特征ec＝g(xc)、en＝g(x
n*
)。将提取的深度特征输入判别器-多层感知机(mlp)，g(
·
)和d(
·
)分别表示生成器和判别器的输出，根据最小二乘生成对抗网络(lsgan)中的判别损失训练判别器，判别损失的表达式如下:
[0010][0011]
固定鉴别网络的网络参数，将增强梅尔谱图的深度特征en输入判别器，计算对抗学习中的生成损失，用于训练生成器tdnn，使得从含噪语音中提取的深度特征更加接近于干净语音的深度特征，生成损失的表达式如下：
[0012][0013]
步骤四：将从增强梅尔谱图提取的深度特征en输入说话人分类器，通过交叉熵损失同时训练说话人分类器，实现噪声环境下的说话人识别，即鲁棒说话人识别。
[0014]
本发明的有益效果是：
[0015]
本发明通过谱图去噪与对抗学习，采用u-net梅尔谱图增强网络、基于时延神经网络的条件生成对抗网络tdnn-cgan、说话人分类器的联合训练方案，使得从含噪语音中提取的深度特征接近于从干净语音中提取的深度特征，提升了说话人识别系统在噪声环境下的性能。
附图说明
[0016]
图1为本发明提出的基于谱图去噪和对抗学习的鲁棒说话人识别方法。
具体实施方式
[0017]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。
[0018]
如图1所示，本发明提出了一种基于谱图去噪和对抗学习的鲁棒说话人识别方法。首先，将干净语音信号与噪声信号混合得到含噪语音信号，提取干净语音信号、含噪语音信号的频域特征(如梅尔谱图)。其次，将从含噪语音提取出的梅尔谱图输入至基于u-net的谱图增强网络，对含噪语音的梅尔谱图去除噪声干扰，得到增强谱图。将干净语音的梅尔谱图、含噪语音的增强梅尔谱图分别输入基于时延神经网络的条件生成对抗网络tdnn-cgan，经生成器编码得到干净语音信号的深度特征和含噪语音信号的深度特征。然后，通过判别器进行对抗学习，使得从含噪语音中提取的增强深度特征更加接近于干净语音的深度特征；最后将增强深度特征输入说话人分类器，从而实现噪声环境下的说话人识别。
[0019]
本发明将通过以下实施步骤作进一步说明。
[0020]
步骤一：首先，对一段说话人语音进行语音活动检测(vad)去除静音段，并截取3s时长语音作为干净语音，从噪声数据库中随机取一段3s时长的噪声信号进行线性相加，得到该干净语音的含噪语音副本。然后对干净语音和其含噪语音副本预加重、加汉明窗分帧、
提取梅尔特征，得到干净语音梅尔谱图含噪语音梅尔谱图其中xc(t)、xn(t)分别表示干净、含噪语音梅尔谱图的第t帧的梅尔特征向量，t表示语音帧的个数，t∈{1,...,t}，上标t表示转置，d表示特征向量的维数。
[0021]
步骤二：将含噪语音信号的含噪梅尔谱图xn作为基于u-net的谱图去噪网络的输入，该网络具有多级编码-解码结构，在编码阶段，输入的特征图首先依次经过5层卷积层进行特征压缩，得到一个隐层向量c，在解码阶段，隐层向量c依次经过5层反卷积层进行特征重建，得到增强特征x
n*
＝enhance(xn)，其中enhance(
·
)表示基于u-net的谱图去噪过程，从含噪语音的梅尔谱图xn提取增强梅尔谱图x
n*
。
[0022]
其中的编码阶段的5层卷积层均选用2d卷积，其输入通道数分别为1、16、32、32，64，输出通道数分别为16、32、32、64、64，各卷积层的卷积核大小均为4
×
1。在解码阶段的5层卷积层均选用2d反卷积，其输入通道数分别为64、128、64、64、32，输出通道数分别为64、32、32、16、1，各反卷积层的卷积核大小均为4
×
1。所有卷积层后均添加prelu激活函数。并且每个编码层都连接到其同源解码层，绕过在模型中间执行的特征压缩过程，直接将特征图的细粒度信息传递到解码阶段。
[0023]
步骤三：将干净梅尔谱图xc、增强梅尔谱图x
n*
分别输入基于时延神经网络的条件生成对抗网络tdnn-cgan，分别得到干净梅尔谱图的深度特征ec、增强梅尔谱图的深度特征en。在编码网络中，输入的特征图将依次经过4层1d卷积层，4层卷积层后均进行批标准化操作、加入dropout层，dropout层的参数值p设置为0.1。各卷积层的输出表示为其中l＝1,2,3,4，t
′
表示帧的个数，d
′
表示每帧的深度特征向量维数。
[0024]
考虑到在神经网络中，每层网络所提取的深度特征都包含原始输入的相关信息，所以将每层卷积层的输出通过线性相加实现特征聚合，得到聚合后的特征然后对聚合的特征进行统计池化，将聚合特征均值和标准差拼接得到话语级特征最后利用全连接层将e
statistics
转换为固定的256维向量来作为编码器所提取的深度特征。
[0025]
步骤四：通过对抗学习，首先训练判别器正确区分ec和en。然后固定判别器，训练生成器tdnn，判别器由三层全连接层组成，最后一层具有2个输出节，训练判别器的目标函数表示为：
[0026][0027]
步骤五：将从增强梅尔谱图提取的深度特征输入至由一层全连接层和一层softmax层构成的说话人分类器，通过交叉熵损失训练说话人分类器。
[0028]
步骤六：
[0029]
①
按照步骤一、步骤二执行，将含噪语音的含噪梅尔谱图输入基于u-net的谱图去噪网络得到增强梅尔谱图，与干净语音的梅尔谱图计算均方误差损失(mse)损失，用于训练基于u-net的谱图去噪网络。
[0030]
②
按照步骤三、步骤四执行，首先通过判别损失训练tdnn-cgan中的判别器，然后固定判别器的网络参数，计算生成损失，利用反向传播算法训练谱图增强网络和tdnn-cgan
中的生成器。
[0031]
③
执行步骤五，结合语音对应的说话人真实标签以及说话人分类器的预测标签，计算交叉熵损失，利用反向传播算法训练谱图增强网络、生成器和说话人分类器。
[0032]
④
交替训练，直至网络的损失值收敛，停止训练，保存u-net谱图增强网络模型、基于时延神经网络的条件生成对抗网络tdnn-cgan中的生成器网络模型、说话人分类器的网络模型。
[0033]
步骤七：利用步骤六保存好的u-net谱图增强网络模型、基于时延神经网络的条件生成对抗网络tdnn-cgan中的生成器网络模型、说话人分类器的网络模型，按照步骤二、步骤三、步骤五来识别含噪语音的说话人身份，实现噪声环境下的说话人识别。
[0034]
为验证该说话人识别方法的性能，从aishell-1数据集中选取340个说话人，每个说话人选取40句话，每句话截取成3s片段，其中20句话作为训练集的干净语音，并将干净语音与musan噪声数据集中的噪声数据按0,5,10,15,20其中的一种信噪比随机混合得到含噪副本，干净语音与含噪语音副本构成训练集；其余20句话按照有无噪声，与musan噪声数据集中的三种不同类型的噪声，分别按照0,5,10,15,20五种信噪比混合得到16组测试集，用于计算说话人识别正确率，说话人识别正确率越高表示说话人识别系统的识别性能越好。
[0035]
另外，构造一个用交叉熵损失训练，由tdnn网络、说话人分类器组成的说话人识别系统；构造一个用对抗学习和交叉熵损失训练，由基于时延神经网络的条件生成对抗网络tdnn-cgan和说话人分类器组成的说话人识别系统。用于评估基于特征增强和对抗学习的鲁棒说话人识别系统的有效性，实验结果如表1所示。
[0036]
从表1中可知，基于谱图去噪和对抗学习的鲁棒说话人识别方法(u-net谱图增强网络+tdnn-cgan+说话人分类器)在不添加噪声的情况下，说话人识别正确率为99.68％，在三种不同噪声类型且信噪比为0db的情况下，说话人识别正确率分别为89.72％、92.50％、91.47％。而tdnn+说话人分类器在不添加噪声的情况下，说话人识别正确率为98.24％，在三种不同噪声类型且信噪比为0db的情况下，说话人识别正确率分别为79.63％、83.82％、86.29％；tdnn-cgan+说话人分类器在不添加噪声的情况下，说话人识别正确率为99.12％，在三种不同噪声类型且信噪比为0db的情况下，说话人识别正确率分别为86.93％、90.11％、87.64％。
[0037]
在训练数据相同的条件下，相比来说，基于谱图去噪和对抗学习的鲁棒说话人识别方法(u-net谱图增强网络+tdnn-cgan+说话人分类器)在无噪声环境下及噪声环境下，均取得了更高的说话人识别正确率，表示获得了最佳的鲁棒说话人识别性能。所以，本发明基于谱图去噪和对抗学习的鲁棒说话人识别系统是有效的。
[0038]
表1说话人识别正确率
[0039][0040]
以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

技术特征：
1.一种基于谱图去噪和对抗学习的鲁棒说话人识别方法，其特征在于：采用多级编解码结构的u型网络u-net对含噪语音信号的梅尔谱图去除噪声干扰，得到增强梅尔谱图；采用基于时延神经网络的条件生成对抗网络tdnn-cgan提取增强梅尔谱图的深度特征，将得到的深度特征输入说话人分类器识别说话人的身份；所述说话人识别方法的具体步骤如下：
①
将干净语音添加噪声得到含噪语音，对干净语音、含噪语音分别进行分帧、加窗、提取梅尔谱图，分别得到干净语音梅尔谱图含噪语音梅尔谱图其中x
c
(t)、x
n
(t)分别表示干净、含噪语音梅尔谱图的第t帧的梅尔特征向量，t表示语音帧的个数，t∈{1,...,t}，上标t表示转置，d表示每帧梅尔特征向量的维数；
②
将x
n
输入u-net谱图增强网络，得到增强梅尔谱图x
n*
，利用均方误差损失函数作为谱图增强损失来训练u-net谱图增强网络，谱图增强损失的表达式如下:
③
将x
c
、x
n*
分别输入tdnn-cgan，利用tdnn-cgan中的生成器分别提取x
c
的深度特征e
c
＝g(x
c
)、x
n*
的深度特征e
n
＝g(x
n*
)；将e
c
、e
n
分别输入tdnn-cgan中的判别器，根据最小二乘生成对抗网络中的判别损失训练判别器，判别损失的表达式如下:g(
·
)和d(
·
)分别表示生成器和判别器的输出；固定判别器的网络参数，将e
n
输入判别器，根据最小二乘生成对抗网络中的生成损失训练生成器，生成损失的表达式如下：
④
将e
c
、e
n
输入说话人分类器，通过交叉熵损失训练说话人分类器，用于识别说话人的身份。

技术总结
本发明提供了一种基于谱图去噪和对抗学习的鲁棒说话人识别方法。首先采集干净语音的谱图数据集以及干净语音加噪后的含噪谱图数据集；利用均方误差损失函数训练多级编解码结构的U型网络(U-Net)对含噪语音信号的梅尔谱图去除噪声干扰，得到增强梅尔谱图；利用最小二乘损失函数训练基于时延神经网络的条件生成对抗网络(TDNN-CGAN)，采用时延神经网络(TDNN)作为TDNN-CGAN中的生成器以提取增强梅尔谱图的深度特征，采用多层感知机(MLP)作为TDNN-CGAN中的判别器；最后利用交叉熵损失训练说话人分类器来识别说话人的身份，实现噪声环境下的说话人识别。本发明从含噪语音提取的深度特征接近于从干净语音提取的深度特征，提升了说话人识别系统在噪声环境下的性能。升了说话人识别系统在噪声环境下的性能。升了说话人识别系统在噪声环境下的性能。

技术研发人员：张烨常浩
受保护的技术使用者：南昌大学
技术研发日：2023.04.20
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种苗木修剪后伤口打药装置的制作方法 下一篇：穿筋机的制作方法

一种基于谱图去噪和对抗学习的鲁棒说话人识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于谱图去噪和对抗学习的鲁棒说话人识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表