一种基于时空神经网络的语音去噪方法与流程
未命名
08-13
阅读:111
评论:0
1.本发明涉及语音去噪技术领域,尤其涉及一种基于时空神经网络的语音去噪方法。
背景技术:
2.语音去噪又被称为语音增强,主要是针对于有人声的音频进行处理,目的是去除那些背景噪声,增强音频中人声的可懂性。语音去噪的应用范围很广,可以用于人与人之间的语音通讯,也可以用于很多语音任务的预处理。
3.语音去噪的噪声通常被分为两大类,静态和非静态噪音。其中,静态噪音是指不随着时间发生变化变化的噪声,比如菜场的嘈杂声,电台的杂讯声等;非静态噪音是指随时间发生变化的噪声,比如说话时背后突然经过一辆汽车,又比如突然响起的警报声等。
技术实现要素:
4.为了解决上述技术问题,本发明提供了一种基于时空神经网络的语音去噪方法,所述方法至少以下步骤:
5.s1、将原始带噪声的语音数据分割成若干个语音片段数据,选取一个语音片段数据并与上一次选取的相邻语音片段数据合并后进行快速傅里叶变换,得到对应的频域数据,其中,每一个语音片段数据均包括480个点,频域数据包含481个点;
6.s2、计算频域数据振幅并将所计算的振幅输入预设时空神经网络中提取特征点,其中,特征点提取具体过程为:将所述振幅前321个点以每三个点求一次平均,后160个点以每二十个点求一次平均,进而得到包括115个点的特征点;
7.s3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;
8.s4、将所获取的估算实部和估算虚部与步骤s1中频域数据对应的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理以使窗覆盖部分相加,进而完成该语音片段数据的降噪处理。
9.优选地,所述步骤s2中计算频域数据振幅用公式表示为:
[0010][0011]
式中,s表示频域数据的振幅,r表示频域数据的实部,i表示频域数据的虚部。
[0012]
优选地,所述步骤s3具体为:
[0013]
s31、将所提取的特征点输入预设时空神经网络的第一模块中以获取包括36个点的输出数据,其中,第一模块的结构包括依次连接的第一全连接层、relu激活函数层、dropout函数层和短时记忆单元算法层;
[0014]
s32、将获取的包含36个点的输出数据输入预设时空神经网络的第二模块中获取包含481个点的估算实部和估算虚部,其中,第二模块的结构包括两个并列设置的第二全连接层和第三全连接层。
[0015]
优选地,所述步骤s31中短时记忆单元算法层的处理过程具体为:将dropout函数
层处理后的特征点分别输入四个并列设置的第四全连接层中进行处理,然后将四个第四全连接层的输出结果进行融合,用公式表示为:
[0016]
out=tanh(r1)*(1-sig(r3+r4))+tanh(r2)*sig(r3+r4)
[0017]
式中,out表示短时记忆单元算法层的输出结果,r1,r2,r3,r4分别表示四个第四全连接层的输出结果,tanh表示一种函数,用公式表示为:x表示输入的特征点,sig表示sigmoid激活函数,用公式表示为:其中,r1=w1*x+b1,r2=w2*x+b2,r3=w3*x+b3,r4=w4*x+b4,w1,w2,w3,w4分别表示四个第四全连接层的权重系数,b1,b2,b3,b4分别表示四个第四全连接层的偏置项。
[0018]
优选地,所述步骤s32中的短时记忆单元算法层处理过程具体为:将dropout函数层处理后的特征点分别输入三个并列设置的第五全连接层中进行处理,然后将三个第五全连接层的输出结果进行融合,用公式表示为:
[0019]
out=tanh(r1
′
)*(1-sig(r3
′
))+tanh(r2
′
)*sig(r3
′
)
[0020]
式中,r1
′
,r2
′
,r3
′
分别表示三个第五全连接层的处理结果,r1
′
=w1
′
*x+b1
′
,r2
′
=w2
′
*x+b2
′
,r3
′
=w3
′
*x+b3
′
,w1
′
,w2
′
,w3
′
分别表示三个第五全连接层的权重系数,b1
′
,b2
′
,b3
′
分别表示三个第五全连接层的偏置项。
[0021]
优选地,所述步骤s32中的短时记忆单元算法层处理过程具体为:将dropout函数层处理后的特征点输入与dropout函数层连接的第六全连接层中进行处理,然后将第六全连接层的输出结果平均划分为三份后再进行融合,用公式表示为:
[0022]
out=softmax(r1
″
@r2
″
)@r3
″
[0023]
式中,r1
″
,r2
″
,r3
″
分别表示将第六全连接层的输出结果r
″
平均分为三份后的输出结果,r
″
=w
″
*x+b
″
,w
″
表示第六全连接层的权重系数,b
″
表示第六全连接层的偏置项,@表示矩阵计算。
[0024]
优选地,所述步骤s4中采用三角滤波器进行滤波处理,用公式表示为:
[0025]
out(r)=r1*r-i1*i
[0026]
out(i)=r1*i-i1*r
[0027]
式中,r1表示估算实部,i1表示估算虚部。
[0028]
优选地,所述步骤s4中利用加窗函数处理具体为:基于加窗函数window overlap-add将当前输出数据与上一次输出数据重叠的部分相加并输出重叠相加后的数据。
[0029]
与现有技术比较,本发明所提供的一种基于时空神经网络的语音去噪方法,所述语音去噪方法适用性广,即使在噪音严重的环境下也可以消除或者有效降低噪音,而且对原始语音的损害较小;同时,本发明运行速度快,模型体量小,可以实现在嵌入式的设备中实时处理带噪声语音。
附图说明
[0030]
图1是本发明中一种基于时空神经网络的语音去噪方法的流程图,
[0031]
图2是本发明中预设时空神经网络第一模块的结构构成图,
[0032]
图3是本发明中预设时空神经网络第二模块的结构构成图,
[0033]
图4是本实施例中三种短时记忆单元算法层的结构构成图。
具体实施方式
[0034]
为了便于理解本发明的结构和操作使用方法,下文结合说明书附图和优化的实施例对本发明作更全面和仔细描述,但本发明的保护范围并不限于以下具体的实施例。需要说明的是,在不影响使用效果的的情况下,本发明实施例中的结构特征和部件尺寸可以改变,连接方式可以代换,器件大小可以改变。
[0035]
除非另有定义,下文中所使用的所有专业术语与本领域技术人员通常理解的含义相同。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而仅仅是为了便于对相应零部件进行区别。同样,“一个”或者“一”等类似词语不表示数量限制,而是表示存在至少一个。“连接”或者“连通”等类似的词语并非限定于直接的连接,而是可以通过其他中间连接件间接的连接。“上方”、“下方”、“一侧”、“另一侧”、“竖向”、“横向”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
[0036]
如图1-图4所示,本发明提供了一种基于时空神经网络的语音去噪方法,所述方法至少以下步骤:
[0037]
s1、将原始带噪声的语音数据分割成若干个语音片段数据,选取一个语音片段数据并与上一次选取的相邻语音片段数据合并后进行快速傅里叶变换,得到对应的频域数据,其中,每一个语音片段数据均包括480个点,频域数据包含481个点;
[0038]
该步骤中,快速傅里叶变换为现有技术,此处不再赘述。上一次选取的语音片段数据与当前选取的语音片段数据为相邻的语音片段数据,其合并之后得到包含960个点的输入数据,将包含960个点的输入数据进行快速傅里叶变换使输入数据从时域数据转变为频域数据,该频域数据为复数,由实部r和虚部i构成。
[0039]
s2、计算频域数据振幅并将所计算的振幅输入预设时空神经网络中提取特征点,其中,特征点提取具体过程为:将所述振幅前321个点以每三个点求一次平均,后160个点以每二十个点求一次平均,进而得到包括115个点的特征点;
[0040]
该步骤中,基于所述频域数据可计算出对应振幅s,且s,r和i都包含481个点,将所述振幅s前321个点以每三个点求一次平均,得到107个点,对于第322个点到481个点的后160个点以每二十个点求一次平均,得到8个点,进而最终得到包括115个点的特征点。
[0041]
s3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;
[0042]
该步骤具体包括:
[0043]
s31、将所提取的特征点输入预设时空神经网络的第一模块中以获取包括36个点的输出数据,其中,第一模块的结构包括依次连接的第一全连接层、relu激活函数层、dropout函数层和短时记忆单元算法层;
[0044]
该步骤中,基于全连接层对输入特征点的处理过程具体为:对输入数据应用线性变换,用公式表示为:y=ax+b,其中,x表示输入数据,y表述输出结果,a表示全连接层的权重值,b表示全连接层的偏置项,relu激活函数层可用公式表示为:relu(x)=(x)
+
=max(0,x);dropout函数层的处理过程为:假定有n个数据,从第一个数据开始循环,每次循环都会
产生一个服从均匀分布的0到1的随机数,当这个随机数,小于指定的值时,就把这个数据的值赋值为0,直到循环到最后一个数据;所述短时记忆单元算法层的结构可为三种,一种是四个并列设置的第四全连接层;另一种是三个并列设置的第五全连接层;第三种是一个第六全连接层;基于三种短时记忆单元算法层均能获取包含36个点的输出数据。
[0045]
s32、将获取的包含36个点的输出数据输入预设时空神经网络的第二模块中获取包含481个点的估算实部和估算虚部,其中,第二模块的结构包括两个并列设置的第二全连接层和第三全连接层;基于第二模块中的第二全连接层和第三全连接层分别对短时记忆单元算法层输出数据进行处理分别输出估算实部和估算虚部。
[0046]
s4、将所获取的估算实部和估算虚部与步骤s1中频域数据对应的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理以使窗覆盖部分相加,进而完成该语音片段数据的降噪处理;
[0047]
该步骤中,基于所述加窗函数window overlap-add对数据进行处理为现有技术,此处不再赘述。基于三角滤波器对所获取的估算实部和估算虚部与步骤s1中频域数据对应的实部和虚部进行滤波处理,得到包含960个点的对应频域数据,然后通过逆快速傅里叶变换将频域数据转换成时域数据,最后,利用加窗函数window overlap-add以使当前输出数据与上一次输出数据重叠的部分相加并输出重叠相加后的数据,进而得到完成降噪处理的语音片段数据。
[0048]
本实施例中,首先将时域数据转变为频域数据,并通过频域数据振幅分段取平均后作为特征点输入预设时空神经网络的短时记忆单元算法层中进行处理,进而获取振幅对应估算实部和估算虚部;然后,对估算实部和估算虚部以及快速傅里叶变换后的实部和虚部直接做滤波处理;最后,利用加窗函数对逆快速傅里叶变换的数据进行处理即可得到降噪后的语音片段数据。所述语音去噪方法适用性广,即使在噪音严重的环境下也可以消除或者有效降低噪音,而且对原始语音的损害较小;同时,本发明运行速度快,模型体量小,可以实现在嵌入式的设备中实时处理带噪声语音。
[0049]
如图4a所示,在一优选实施例中,所述短时记忆单元算法层的处理过程具体为:将dropout函数层处理后的特征点分别输入四个并列设置的第四全连接层中进行处理,然后将四个第四全连接层的输出结果进行融合,用公式表示为:
[0050]
out=tanh(r1)*(1-sig(r3+r4))+tanh(r2)*sig(r3+r4)
[0051]
式中,out表示短时记忆单元算法层的输出结果,r1,r2,r3,r4分别表示四个第四全连接层的输出结果,tanh表示一种函数,用公式表示为:x表示输入的特征点,sig表示sigmoid激活函数,用公式表示为:其中,r1=w1*x+b1,r2=w2*x+b2,r3=w3*x+b3,r4=w4*x+b4,w1,w2,w3,w4分别表示四个第四全连接层的权重系数,b1,b2,b3,b4分别表示四个第四全连接层的偏置项。
[0052]
如图4b所示,在一优选实施例中,所述短时记忆单元算法层处理过程具体为:将dropout函数层处理后的特征点分别输入三个并列设置的第五全连接层中进行处理,然后将三个第五全连接层的输出结果进行融合,用公式表示为:
[0053]
out=tanh(r1
′
)*(1-sig(r3
′
))+tanh(r2
′
)*sig(r3
′
)
[0054]
式中,r1
′
,r2
′
,r3
′
分别表示三个第五全连接层的处理结果,r1
′
=w1
′
*x+b1
′
,r2
′
=w2
′
*x+b2
′
,r3
′
=w3
′
*x+b3
′
,w1
′
,w2
′
,w3
′
分别表示三个第五全连接层的权重系数,b1
′
,b2
′
,b3
′
分别表示三个第五全连接层的偏置项。
[0055]
如图4c所示,在一优选实施例中,所述短时记忆单元算法层处理过程具体为:将dropout函数层处理后的特征点输入与dropout函数层连接的第六全连接层中进行处理,然后将第六全连接层的输出结果平均划分为三份后再进行融合,用公式表示为:
[0056]
out=softmax(r1"@r2
″
)@r3"
[0057]
式中,r1
″
,r2
″
,r3
″
分别表示将第六全连接层的输出结果r
″
平均分为三份后的输出结果,r
″
=w
″
*x+b
″
,w
″
表示第六全连接层的权重系数,b
″
表示第六全连接层的偏置项,@表示矩阵计算。
[0058]
上述三种短时记忆单元算法层输出的包含36个点数据都能起到类似有益技术效果,并将短时记忆单元算法层输出数据输入第二模块中使得数据从36个点增加到481个点,进而能够进一步增强语音片段数据的降噪效果。
[0059]
以上对本发明所提供的一种基于时空神经网络的语音去噪方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
技术特征:
1.一种基于时空神经网络的语音去噪方法,其特征在于,所述方法至少以下步骤:s1、将原始带噪声的语音数据分割成若干个语音片段数据,选取一个语音片段数据并与上一次选取的相邻语音片段数据合并后进行快速傅里叶变换,得到对应的频域数据,其中,每一个语音片段数据均包括480个点,频域数据包含481个点;s2、计算频域数据振幅并将所计算的振幅输入预设时空神经网络中提取特征点,其中,特征点提取具体过程为:将所述振幅前321个点以每三个点求一次平均,后160个点以每二十个点求一次平均,进而得到包括115个点的特征点;s3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;s4、将所获取的估算实部和估算虚部与步骤s1中频域数据对应的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理以使窗覆盖部分相加,进而完成该语音片段数据的降噪处理。2.如权利要求1所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s2中计算频域数据振幅用公式表示为:式中,s表示频域数据的振幅,r表示频域数据的实部,i表示频域数据的虚部。3.如权利要求1所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s3具体为:s31、将所提取的特征点输入预设时空神经网络的第一模块中以获取包括36个点的输出数据,其中,第一模块的结构包括依次连接的第一全连接层、relu激活函数层、dropout函数层和短时记忆单元算法层;s32、将获取的包含36个点的输出数据输入预设时空神经网络的第二模块中获取包含481个点的估算实部和估算虚部,其中,第二模块的结构包括两个并列设置的第二全连接层和第三全连接层。4.如权利要求3所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s31中短时记忆单元算法层的处理过程具体为:将dropout函数层处理后的特征点分别输入四个并列设置的第四全连接层中进行处理,然后将四个第四全连接层的输出结果进行融合,用公式表示为:out=tanh(r1)*(1-sig(r3+r4))+tanh(r2)*sig(r3+r4)式中,out表示短时记忆单元算法层的输出结果,r1,r2,r3,r4分别表示四个第四全连接层的输出结果,tanh表示一种函数,用公式表示为:x表示输入的特征点,sig表示sigmoid激活函数,用公式表示为:其中,r1=w1*x+b1,r2=w2*x+b2,r3=w3*x+b3,r4=w4*x+b4,w1,w2,w3,w4分别表示四个第四全连接层的权重系数,b1,b2,b3,b4分别表示四个第四全连接层的偏置项。5.如权利要求3所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s32中的短时记忆单元算法层处理过程具体为:将dropout函数层处理后的特征点分别输入三个并列设置的第五全连接层中进行处理,然后将三个第五全连接层的输出结果进行融合,
用公式表示为:out=tanh(r1
′
)*(1-sig(r3
′
))+tanh(r2
′
)*sig(r3
′
)式中,r1
′
,r2
′
,r3
′
分别表示三个第五全连接层的处理结果,r1
′
=w1
′
*x+b1
′
,r2
′
=w2
′
*x+b2
′
,r3
′
=w3
′
*x+b3
′
,w1
′
,w2
′
,w3
′
分别表示三个第五全连接层的权重系数,b1
′
,b2
′
,b3
′
分别表示三个第五全连接层的偏置项。6.如权利要求3所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s32中的短时记忆单元算法层处理过程具体为:将dropout函数层处理后的特征点输入与dropout函数层连接的第六全连接层中进行处理,然后将第六全连接层的输出结果平均划分为三份后再进行融合,用公式表示为:out=softmax(r1
″
@r2
″
)@r3
″
式中,r1
″
,r2
″
,r3
″
分别表示将第六全连接层的输出结果r
″
平均分为三份后的输出结果,r
″
=w
″
*x+b
″
,w
″
表示第六全连接层的权重系数,b
″
表示第六全连接层的偏置项,@表示矩阵计算。7.如权利要求4-6任一项所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s4中采用三角滤波器进行滤波处理,用公式表示为:out(r)=r1*r-i1*iout(i)=r1*i-i1*r式中,r1表示估算实部,i1表示估算虚部。8.如权利要求7所述的基于时空神经网络的语音去噪方法,其特征在于,所述步骤s4中利用加窗函数处理具体为:基于加窗函数windowoverlap-add将当前输出数据与上一次输出数据重叠的部分相加并输出重叠相加后的数据。
技术总结
本发明具体公开了一种基于时空神经网络的语音去噪方法,所述方法包括以下步骤:S1、分割原始语音数据,选取两段分割后的语音片段数据合并后进行快速傅里叶变换;S2、计算频域数据的振幅并输入预设时空神经网络中提取特征点;S3、基于预设时空神经网络所提取的特征点获取对应的估算实部和估算虚部;S4、将估算实部和估算虚部与频域数据的实部和虚部经滤波处理后进行逆快速傅里叶变换,然后利用加窗函数进行处理,进而完成该语音片段数据的降噪处理。本发明模型体量小,适用性广,即使在噪音严重的环境下也可以消除或者有效降低噪音,而且对原始语音的损害较小,而且,本发明运行速度快,可以在嵌入式设备中运行。可以在嵌入式设备中运行。可以在嵌入式设备中运行。
技术研发人员:肖镕 高卫东
受保护的技术使用者:深圳同创音频技术有限公司
技术研发日:2023.04.26
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
