一种基于EDRSN的电力通信系统声纹识别方法及系统与流程
未命名
08-15
阅读:116
评论:0
一种基于edrsn的电力通信系统声纹识别方法及系统
技术领域
1.本发明涉及一种基于edrsn的电力通信系统声纹识别方法及系统,属于人工智能技术领域。
背景技术:
2.随着社会经济和城市建设的快速发展,电力行业建设的投资规模不断扩大,电力调度在行业内发挥着越来越重要的作用。目前,调度命令主要通过语音调度的方式下达,由于缺乏控制人员验证,使得调度系统存在一定的安全隐患。声纹识别作为一种生物识别验证方法,可以更好地提高语音调度场景下的安全性。声纹识别技术能够实现无需额外的身份认证步骤的情况下发出调度命令,确保调度系统的可靠性和安全性。然而,由于电力系统中环境嘈杂,语音信息容易受到干扰,这使得传统的声纹识别算法的准确性大大降低。随着人工智能的快速发展,深度学习(dl)也被应用到电力调度系统中。结合声纹识别技术,利用dl提取噪声特征,实现语音降噪,再将降噪后的语音信号送入声纹识别网络,实现高可靠的控制人员认证,提高电力调度的安全性。
3.li,c.等(参见li,c.,ma,x.,jiang,b.,li,x.,zhang,x.,liu,x.,and zhu,z.,“deep speaker:an end-to-end neural speaker embedding system.”,arxiv preprint)提出了一种基于dl的说话人嵌入系统,该系统将语音信号映射到一个超平面,通过残差网络模型提取声纹特征,并以余弦相似度为基础,使用triplet loss函数训练模型。对不同的数据库进行验证,结果表明该系统对比基于dnn的i-vector特征系统具有更好的性能表现。但是上述声纹识别方法仅考虑对声纹特征进行提取和识别,并未考虑含噪环境及降噪处理,且模型的复杂度较高、收敛速度较慢。
技术实现要素:
4.为了克服上述问题,本发明提出了一种基于edrsn的电力通信系统声纹识别方法,即在噪声环境下基于edrsn的声纹识别方法,将传统的语音预处理方法与dl相结合的识别方法。
5.首先,对采集的语音信号使用双路径卷积递归网络(dpcrn降噪模型),降低嘈杂电力环境中的噪音影响;其次,通过语音信号端点检测消除长时间的静音片段,利用语音信号预加重来增强语音片段以减少噪音的影响;最后,在drsn的基础上重新设计了网络结构,引入软阈值机制来进一步区分噪声特征并消除噪声,引入卷积注意力机制模块(cbam)和增强声纹特征,提高声纹识别的准确性。
6.本发明还提供了一种基于edrsn的电力通信系统声纹识别系统。
7.本发明的技术方案如下:
8.一种基于edrsn的电力通信系统声纹识别方法,包括:
9.采集语音信号并对语音信号进行降噪;
10.对降噪后的语音信号进行预处理,增强语音信号声纹特征;
11.将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果;
12.其中,声纹识别模型(edrsn模型)为:在drsn的基础上,引入软阈值机制来进一步区分噪声特征并消除噪声,并引入卷积注意力机制模块(cbam),增强声纹特征。
13.根据本发明优选的,采集语音信号并对语言信号进行降噪,包括:
14.采集语音信号;
15.通过短时傅里叶变换,将语音信号从时域转换至时频域;
16.将时频域中含噪语音信号的实部和虚部分别作为两个数据流输入训练好的dpcrn降噪模型,训练好的dpcrn降噪模型通过信号近似算法及优化得到复数比率掩码;
17.将复数比率掩码与时频域中含噪语音信号相乘,得到降噪后的语音信号;
18.通过反短时傅里叶变换得到降噪后的时域语音信号。
19.根据本发明优选的,dpcrn降噪模型的训练过程包括:
20.将复数比率掩码作为学习目标,使用信号近似算法进行优化,利用dpcrn降噪模型中的卷积层对输入信号x(t,f)的实部和虚部进行复数卷积运算,利用dpcrn降噪模型中的rnn结构对复数卷积运算结果进行多次训练,得到训练好的dpcrn降噪模型。
21.根据本发明优选的,对降噪后的语音信号进行预处理,包括:对降噪后的语音信号依次进行端点检测、预加重、分帧、加窗。
22.端点检测,包括:对语音信号的起点和终点进行标记,区分无声部分和有声部分,并去除无声部分;
23.预加重,包括:采用高通滤波器对端点检测后的语音信号进行处理。
24.根据本发明优选的,声纹识别模型依次包括一个输入层、三个改进残差收缩块单元(ersbu)、一个平均池化层、一个仿射层和一个输出层;其中,每个改进残差收缩块单元包括三个卷积层、三个批归一化(bn)层、两个卷积注意力模块(cbam)和一个软阈值化模块;卷积注意力模块(cbam)包括通道注意力模块(cam)和空间注意力模块(sam);软阈值化模块包括两个全连接(fc)层和一个批归一化(bn)层,并依次采用relu和sigmod激活函数。
25.根据本发明优选的,采用relu激活函数及三条路径对声纹识别模型进行训练,包括:
26.1)第一条路径:x表示输入数据特征,其经过改进残差收缩块单元的第一个卷积层和批归一化层,由relu激活函数得到输出特征y1∈rc×h×w,其中rc×h×w表示c
×h×
w维的实数集,c表示特征图像长度,h表示特征图像高度,w表示特征图像通道数,随后通过残差路径,得到第一条路径的输出特征p1;
27.2)第二条路径:特征y1经过卷积注意力模块,在通道注意力模块和空间注意力模块的联合作用下得到特征f1,表示为其中,mc(y1)为通道注意力模块获得的通道特征图,ms(y1’
)为空间注意力模块获得的空间特征图,随后特征f1经过卷积层和批归一化层,由relu激活函数得到输出特征y2,随后再次经过卷积注意力模块,得到特征f2,最后再经过卷积层得到输出特征y3,并将其表示为第二条路径的输出特征p2;
28.3)第三条路径:对特征y3的绝对值求均值,并将均值输入软阈值化模块,通过训练得到输
出阈值α,将α与特征p2中各特征元素对比,进行降噪处理,表示为其中p为p2中特征元素,p’为软阈值化后p2中特征元素,通过软阈值化模块,将特征p2中绝对值小于α的特征元素设置为0,得到输出结果p
23
;
29.4)第一条路径的输出特征p1与p
23
相加,p1和p
23
的维数相同,得到ersbu的最终输出p
out
;
30.声纹识别模型的输入层在获得输入特征后,依次进入声纹识别模型的三个改进残差收缩块单元,每个改进残差收缩块单元重复步骤1)至步骤4)过程,再经过平均池化层与仿射层,最后在输出层得到声纹识别模型的最终训练结果,并在训练过程中记录声纹识别模型的损失函数曲线。
31.根据本发明优选的,将预处理后的语音信号输入训练好的声纹识别模型,与预先采集的不同控制人员的语音信息进行比对,确认人员身份。
32.一种基于edrsn的电力通信系统声纹识别系统,包括:
33.数据采集模块,被配置为:采集控制人员语音信号;
34.降噪模块,被配置为:对采集的控制人员语音信号进行降噪;
35.预处理模块,被配置为:对降噪后的语音信号进行预处理,增强语音信号声纹特征;
36.声纹识别模块,被配置为:将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果。
37.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于edrsn的电力通信系统声纹识别方法的步骤。
38.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于edrsn的电力通信系统声纹识别方法的步骤。
39.本发明的有益效果为:
40.1、本发明对采集的语音信号使用双路径卷积递归网络(dpcrn降噪模型),降低嘈杂电力环境中的噪音影响;
41.2、本发明通过语音信号端点检测消除长时间的静音片段,利用语音信号预加重来增强语音片段以减少噪音的影响;
42.3、本发明在drsn的基础上重新设计了网络结构,引入软阈值机制来进一步区分噪声特征并消除噪声,引入卷积注意力机制模块(cbam)和增强声纹特征,提高声纹识别的准确性。
附图说明
43.图1是本发明基于edrsn的电力通信系统声纹识别方法的流程框图。
44.图2是本发明声纹识别模型的结构示意图。
45.图3是在说话人数量为1000,语音数据量为5
×
104,网络模型学习率为0.001的参数配置下,edrsn网络和resnet网络的损失值曲线示意图。
具体实施方式
46.下面结合附图和实施例对本发明作进一步说明,但不限于此。
47.实施例1
48.一种基于edrsn的电力通信系统声纹识别方法,如图1所示,包括:
49.采集控制人员语音信号并进行降噪;在多种噪杂环境下收集1000名控制人员的语音信息,构成包含5
×
104条语音段的语音数据集,用于测试噪声环境下声纹识别的准确率;降噪以降低噪声对声纹识别的影响;
50.对降噪后的语音信号进行预处理,增强语音信号声纹特征;
51.将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果;
52.其中,声纹识别模型(edrsn模型)为:在drsn的基础上,引入软阈值机制来进一步区分噪声特征并消除噪声,并引入卷积注意力机制模块(cbam),增强声纹特征。提高声纹识别的准确性。
53.实施例2
54.根据实施例1所述的一种基于edrsn的电力通信系统声纹识别方法,其区别在于:
55.dpcrn降噪模型采用的是现有的dpcrn模型。
56.dpcrn降噪模型的核心是循环神经网络即rnn结构,rnn结构包括两种类型,即块内rnn和块间rnn,块内rnn用于模拟单一时间段的信号频谱,而块间rnn用于模拟信号频谱随时间的变化,设含噪的语音信号为x(t),其时域表达式为x(t)=s(t)+n
′
(t),其中t表示语音时间,s(t)和n
′
(t)分别表示时域纯净语音信号和噪声信号,通过训练好的dpcrn降噪模型对采集的控制人员语音信号进行降噪,步骤具体如下:
57.①
对x(t)、s(t)以及n
′
(t)使用短时傅里叶变换即stft,将语音信号从时域转换至时频域,可表示为x(t,f)=s(t,f)+n(t,f),其中f表示频率,代表时频域中含噪语音信号,代表时频域中纯净语音信号,代表时频域中噪声信号,其中i表示虚数单位,τ为时间切片,h(τ-t)为stft分析窗函数;
58.②
将时频域中含噪语音信号x(t,f)的实部和虚部分别作为两个数据流输入训练好的dpcrn降噪模型,训练好的dpcrn模型通过信号近似算法及优化得到复数比率掩码m(t,f),其表达式为m(t,f)=mr(t,f)+imi(t,f),而m(t,f)是由实部mr(t,f)和虚部mi(t,f)组成的复数变量;
59.③
将复数比率掩码m(t,f)与含噪时频域语音信号x(t,f)相乘,得到降噪后的语音信号其中表示变量之间的乘法运算;
60.④
通过反短时傅里叶变换得到降噪后的时域语音信号可表示为
61.其中,dpcrn降噪模型的训练过程包括:将复数比率掩码作为学习目标,使用信号近似算法进行优化,利用dpcrn降噪模型中的卷积层对输入信号x(t,f)的实部和虚部进行
复数卷积运算,利用dpcrn降噪模型中的rnn结构对复数卷积运算结果进行多次训练,得到训练好的dpcrn降噪模型。
62.实施例3
63.根据实施例1或2所述的一种基于edrsn的电力通信系统声纹识别方法,其区别在于:
64.对降噪后的语音信号进行预处理,包括:对降噪后的语音信号依次进行端点检测、预加重、分帧、加窗。
65.①
端点检测:对语音信号的起点和终点进行标记,以区分无声部分和有声部分,并去除无声部分,得到有效的压缩语音信息;
66.②
预加重:语音信号在传播时会产生衰减,因而在声纹识别中,一般采用高通滤波器以弥补信号衰减,针对语音采样信号其经过高通滤波器后的输出信号为y[n],表示为其中n为采样点,μ∈[0.9,1]为常数;
[0067]
③
分帧:在语音信号声纹特征提取过程中,语音数据集中的信号是波动的,无法对其进行傅里叶变换,需将语音信号以非常小的时间间隔进行分割,每个间隔内的语音信号均可被看作为可进行傅里叶变换的平滑信号;
[0068]
④
加窗:分帧后的语音信号由于起点和终点位置不连续,若直接进行傅里叶变换提取声纹特征,会产生吉布斯现象,造成频谱损失,需对分帧后的语音信号进行加窗操作,即将语音信号与窗口函数相乘,此时可采用汉明窗作为窗口函数,其表示为其中m表示窗函数长度,n表示时间序列长度,表示矩形窗。
[0069]
实施例4
[0070]
根据实施例1-3任一所述的一种基于edrsn的电力通信系统声纹识别方法,其区别在于:
[0071]
搭建以edrsn为基础的网络模型,进行声纹特征提取,并将经过dpcrn降噪模块以及预处理模块后的语音信号与对应的控制人员身份标签输入edrsn中,采用监督学习方法进行离线训练:
[0072]
引入软阈值化和注意力机制,设计网络结构,搭建声纹识别模型;如图2所示,声纹识别模型依次包括一个输入层、三个改进残差收缩块单元(ersbu)、一个平均池化层、一个仿射层和一个输出层;其中,每个改进残差收缩块单元包括三个卷积层、三个批归一化(bn)层、两个卷积注意力模块(cbam)和一个软阈值化模块;卷积注意力模块(cbam)包括通道注意力模块(cam)和空间注意力模块(sam);软阈值化模块包括两个全连接(fc)层和一个批归一化(bn)层,并依次采用relu和sigmod激活函数。
[0073]
采用relu激活函数及三条路径对声纹识别模型进行训练,包括:
[0074]
1)第一条路径:x表示输入数据特征,其经过改进残差收缩块单元的第一个核大小为5
×
5的卷积层和批归一化层,由relu激活函数得到输出特征y1∈rc×h×w,其中rc×h×w表示c
×h×
w维的实数集,c表示特征图像长度,h表示特征图像高度,w表示特征图像通道数,随后
通过残差路径,得到第一条路径的输出特征p1;
[0075]
2)第二条路径:特征y1经过卷积注意力模块,在通道注意力模块和空间注意力模块的联合作用下得到特征f1,表示为其中,mc(y1)为通道注意力模块获得的通道特征图,ms(y1’
)为空间注意力模块获得的空间特征图,随后特征f1经过一个3
×
3大小的卷积层和批归一化层,由relu激活函数得到输出特征y2,随后再次经过卷积注意力模块,得到特征f2,最后再经过一个3
×
3大小的卷积层得到输出特征y3,并将其表示为第二条路径的输出特征p2;
[0076]
3)第三条路径:对特征y3的绝对值求均值,并将均值输入软阈值化模块,通过训练得到输出阈值α,将α与特征p2中各特征元素对比,进行降噪处理,表示为其中p为p2中特征元素,p’为软阈值化后p2中特征元素,通过软阈值化模块,将特征p2中绝对值小于α的特征元素设置为0,从而实现降低数据噪声的效果,并得到输出结果p
23
;
[0077]
4)第一条路径的输出特征p1与p
23
相加,p1和p
23
的维数相同,得到ersbu的最终输出p
out
;
[0078]
声纹识别模型的输入层在获得输入特征后,依次进入声纹识别模型的三个改进残差收缩块单元,每个改进残差收缩块单元重复步骤1)至步骤4)过程,再经过平均池化层与仿射层,最后在输出层得到声纹识别模型的最终训练结果,并在训练过程中记录声纹识别模型的损失函数曲线。
[0079]
在语音数据集中提取25%的数据作为测试集,输入训练好的edrsn,输出对应的控制人员身份,进一步与实际控制人员标签对比,评测声纹识别的准确率。
[0080]
将预处理后的语音信号输入训练好的声纹识别模型,与预先采集的不同控制人员的语音信息进行比对,确认人员身份。
[0081]
图3是在说话人数量为1000,语音数据量为5
×
104,网络模型学习率为0.001的参数配置下,edrsn网络和resnet网络的损失值曲线示意图。由图3可以看出,edrsn声纹识别准确率高于resnet网络,且复杂度低收敛速度更快。
[0082]
实施例5
[0083]
根据实施例4所述的一种基于edrsn的电力通信系统声纹识别方法,其区别在于:
[0084]
在多种噪杂环境下收集了800名控制人员的语音信息,构成了包含2.5
×
104条语音段的数据集。
[0085]
实施例6
[0086]
一种基于edrsn的电力通信系统声纹识别系统,包括:
[0087]
数据采集模块,被配置为:采集控制人员语音信号;
[0088]
降噪模块,被配置为:对采集的控制人员语音信号进行降噪;
[0089]
预处理模块,被配置为:对降噪后的语音信号进行预处理,增强语音信号声纹特征;
[0090]
声纹识别模块,被配置为:将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果。
[0091]
实施例7
[0092]
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-4任一基于edrsn的电力通信系统声纹识别方法的步骤。
[0093]
实施例8
[0094]
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1-4任一基于edrsn的电力通信系统声纹识别方法的步骤。
技术特征:
1.一种基于edrsn的电力通信系统声纹识别方法,其特征在于,包括:采集语音信号并对语音信号进行降噪;对降噪后的语音信号进行预处理,增强语音信号声纹特征;将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果;其中,声纹识别模型为:在drsn的基础上,引入软阈值机制来进一步区分噪声特征并消除噪声,并引入卷积注意力机制模块,增强声纹特征。2.根据权利要求1所述的一种基于edrsn的电力通信系统声纹识别方法,其特征在于,声纹识别模型依次包括一个输入层、三个改进残差收缩块单元、一个平均池化层、一个仿射层和一个输出层;其中,每个改进残差收缩块单元包括三个卷积层、三个批归一化层、两个卷积注意力模块和一个软阈值化模块;卷积注意力模块包括通道注意力模块和空间注意力模块;软阈值化模块包括两个全连接层和一个批归一化层,并依次采用relu和sigmod激活函数。3.根据权利要求2所述的一种基于edrsn的电力通信系统声纹识别方法,其特征在于,采用relu激活函数及三条路径对声纹识别模型进行训练,包括:1)第一条路径:x表示输入数据特征,其经过改进残差收缩块单元的第一个卷积层和批归一化层,由relu激活函数得到输出特征y1∈r
c
×
h
×
w
,其中r
c
×
h
×
w
表示c
×
h
×
w维的实数集,c表示特征图像长度,h表示特征图像高度,w表示特征图像通道数,随后通过残差路径,得到第一条路径的输出特征p1;2)第二条路径:特征y1经过卷积注意力模块,在通道注意力模块和空间注意力模块的联合作用下得到特征f1,表示为其中,m
c
(y1)为通道注意力模块获得的通道特征图,m
s
(y1')为空间注意力模块获得的空间特征图,随后特征f1经过卷积层和批归一化层,由relu激活函数得到输出特征y2,随后再次经过卷积注意力模块,得到特征f2,最后再经过卷积层得到输出特征y3,并将其表示为第二条路径的输出特征p2;3)第三条路径:对特征y3的绝对值求均值,并将均值输入软阈值化模块,通过训练得到输出阈值α,将α与特征p2中各特征元素对比,进行降噪处理,表示为其中p为p2中特征元素,p'为软阈值化后p2中特征元素,通过软阈值化模块,将特征p2中绝对值小于α的特征元素设置为0,得到输出结果p
23
;4)第一条路径的输出特征p1与p
23
相加,p1和p
23
的维数相同,得到ersbu的最终输出p
out
;声纹识别模型的输入层在获得输入特征后,依次进入声纹识别模型的三个改进残差收缩块单元,每个改进残差收缩块单元重复步骤1)至步骤4)过程,再经过平均池化层与仿射层,最后在输出层得到声纹识别模型的最终训练结果,并在训练过程中记录声纹识别模型的损失函数曲线。4.根据权利要求1所述的一种基于edrsn的电力通信系统声纹识别方法,其特征在于,其特征在于,采集语音信号并对语言信号进行降噪,包括:
采集语音信号;通过短时傅里叶变换,将语音信号从时域转换至时频域;将时频域中含噪语音信号的实部和虚部分别作为两个数据流输入训练好的dpcrn降噪模型,训练好的dpcrn降噪模型通过信号近似算法及优化得到复数比率掩码;将复数比率掩码与时频域中含噪语音信号相乘,得到降噪后的语音信号;通过反短时傅里叶变换得到降噪后的时域语音信号。5.根据权利要求4所述的一种基于edrsn的电力通信系统声纹识别方法,其特征在于,dpcrn降噪模型的训练过程包括:将复数比率掩码作为学习目标,使用信号近似算法进行优化,利用dpcrn降噪模型中的卷积层对输入信号x(t,f)的实部和虚部进行复数卷积运算,利用dpcrn降噪模型中的rnn结构对复数卷积运算结果进行多次训练,得到训练好的dpcrn降噪模型。6.根据权利要求1所述的一种基于edrsn的电力通信系统声纹识别方法,其特征在于,对降噪后的语音信号进行预处理,包括:对降噪后的语音信号依次进行端点检测、预加重、分帧、加窗;端点检测,包括:对语音信号的起点和终点进行标记,区分无声部分和有声部分,并去除无声部分;预加重,包括:采用高通滤波器对端点检测后的语音信号进行处理。7.根据权利要求1所述的一种基于edrsn的电力通信系统声纹识别方法,其特征在于,将预处理后的语音信号输入训练好的声纹识别模型,与预先采集的不同控制人员的语音信息进行比对,确认人员身份。8.一种基于edrsn的电力通信系统声纹识别系统,其特征在于,包括:数据采集模块,被配置为:采集控制人员语音信号;降噪模块,被配置为:对采集的控制人员语音信号进行降噪;预处理模块,被配置为:对降噪后的语音信号进行预处理,增强语音信号声纹特征;声纹识别模块,被配置为:将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于edrsn的电力通信系统声纹识别方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于edrsn的电力通信系统声纹识别方法的步骤。
技术总结
本发明涉及一种基于EDRSN的电力通信系统声纹识别方法及系统,包括:采集语音信号并对语音信号进行降噪;对降噪后的语音信号进行预处理,增强语音信号声纹特征;将预处理后的语音信号输入训练好的声纹识别模型,进行声纹特征提取,得到声纹识别结果;其中,声纹识别模型为:在DRSN的基础上,引入软阈值机制来进一步区分噪声特征并消除噪声,并引入卷积注意力机制模块,增强声纹特征。本发明对采集的语音信号使用双路径卷积递归网络,降低嘈杂电力环境中的噪音影响;本发明通过语音信号端点检测消除长时间的静音片段,利用语音信号预加重来增强语音片段以减少噪音的影响;本发明提高了声纹识别的准确性。纹识别的准确性。纹识别的准确性。
技术研发人员:白智全 马媛媛 贺邦玮 张庆锐 翟洪婷 翟启 权玮虹 孙丽丽 张延童 李亮 刘保臣 王敏 张化代 毛恒
受保护的技术使用者:国网山东省电力公司信息通信公司 国家电网有限公司
技术研发日:2023.05.29
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种立式超深旋耕刀具 下一篇:用于鸭支原体探针法荧光定量检测的引物对及探针和应用
