一种基于多种设备有监督域自适应的声场景分类方法

未命名 07-12 阅读:91 评论:0


1.本发明属于声音场景分类领域,具体是指一种基于多种设备有监督域自适应的声场景分类方法。


背景技术:

2.在万物互联的时代中,声场景分类可以在许多领域中应用,如智慧城市建设,生物多样性监测,城市安全监控等方面。声学场景分类任务的目标是将采集到的待分类声音信号按照预先定义的声场景类别进行分类,从而为许多领域提供目标声场景信息。研究人员已经对声场景分类技术进行了许多研究,并且针对多种不同的拾音设备进行声场景样本采集,试图将该技术应用于现已部署的各种拾音设备上,但是由于不同种类的录音设备获取到的数据分布不一致,所以对声场景分类技术提出了设备多样性问题。
3.在实际的场景中,这种由设备失配引起的数据分布不一致现象使得已训练好的声场景分类模型在其他设备上表现出了明显的性能下降,从而无法应用到人们的生活中。最近大量基于深度学习的声场景分类方法被应用于分类任务,并试图解决设备失配带来的影响,主要分为音频样本数据优化和网络模型结构优化。音频样本数据优化主要有数据增强、频段标准化等方式,虽然这类方法可以增加样本数量或修正不同拾音设备带来的部分样本差异,但由于声场景音频样本数据的复杂性,声场景音频样本数据可能包含许多重叠声音或背景噪音,所以这类方法不能完全弥补设备来带的差异,存在较大的局限性。网络模型结构的优化主要有设计大规模的网络结构、融合高低频路径分离的深度残差网络、采用两阶段分类器进行分类的网络和通过感受野主动调整正则化系数的网络,该类方法可以通过网络模型的优化更好的提取关键特征从而提升模型的泛化能力,但是该类方法的模型参数较多,复杂度较高不利于应用于低成本的移动设备上。


技术实现要素:

4.本发明的目的在于提供一种结构简单、分类效果好、适应范围广的基于多种设备有监督域自适应的声场景分类方法。
5.实现上述目的的技术方案包括如下内容。
6.一种基于多种设备有监督域自适应的声场景分类方法,包括如下步骤,
7.s1:读取多种不同种类拾音设备采集得到的场景音频信号,并对场景音频信号进行预处理,获得经预处理的样本数据;
8.s2:对步骤s1获得的样本数据进行傅里叶变换,对傅里叶变换处理后的样本数据进行梅尔滤波处理,再进行频段标准化修正,提取三个特征频谱图,融合三个特征频谱图得到三维声学特征;
9.s3:将步骤s2得到的三维声学特征输入数据增强模块,得到经过数据增强后的三维声学特征;
10.s4:构建有监督域自适应声场景分类模型;
11.基于cnn模型和域自适应方法构建声场景分类模型;
12.所述声场景分类模型由若干特征对齐卷积块和全连接层构成;
13.所述声场景分类模型在训练阶段按拾音设备种类将三维声学特征划分为源域和目标域,然后所述的源域和目标域分别通过声场景分类模型,并在每个特征对齐卷积块单独计算源域和目标域之间的差异损失,得到域差异损失;
14.所述特征对齐卷积块将源域和目标域的输出特征进行差异对比,并计算出域差异损失;
15.所述声场景分类模型的总损失为域差异损失、源域和目标域损失的加权求和;
16.s5:将步骤s3所述三维声学特征及其对应标签输入到步骤s4所述声场景分类模型中进行有监督训练,得到训练好的有监督域自适应声场景分类模型;
17.s6:将待分类的场景音频信号,输入到步骤s5所述有监督域自适应声场景分类模型中,得到分类结果。
18.进一步,步骤s1所述对场景音频信号进行预处理包括预加重、分帧、加窗。
19.进一步,步骤s2中,所述提取三个特征频谱图包括利用梅尔滤波器组、一阶差分滤波器组和二阶差分滤波器组提取获得经过频段标准化的对数梅尔特征频谱图、一阶差分特征频谱图和二阶差分特征频谱图。
20.进一步,步骤s2中,所述频段标准化首先在训练集的样本空间上按照设备的种类进行划分;然后分别对设备的声学特征频谱图的每个频段都计算出均值和标准差;根据输入声学特征的对应设备种类进行频段标准化处理。
21.进一步,步骤s3中,采用mixup模块和specaugment模块先后对步骤s2所述三维声学特征进行数据增强处理。mixup和specaugment数据增强方法联合使用,从样本数据量增加的角度提高了模型的泛化能力。
22.进一步,步骤s4中,所述声场景分类模型由三个特征对齐卷积块和两个全连接层构成。
23.进一步,步骤s4中,所述特征对齐卷积块包括两个卷积层、两个批归一化层(batch-normalization,以下简称bn层)、两个激活函数层(rectifield linear unit,以下简称relu层)、一个池化层。
24.不同种拾音设备间的数据分布差异主要分为线性失真和非线性失真两部分,线性失真可以用频段标准化进行修正,非线性失真可以用无监督域自适应方法进行处理。无监督域自适应方法需要在目标域上拥有大规模的未标记数据才能取得较好的性能,然而收集大规模的音频样本数据需要投入较大的成本,缺乏大量数据条件下,无监督域自适应方法不能很好的提取域不变特征,分类效果无法得到保证。本发明的基于多种设备有监督域自适应的声场景分类方法中,频段标准化在不同种类拾音设备具有不同频率响应的角度出发,对样本的频谱特征进行线性修正,从而降低了设备之间的差异,提高了分类精度;有监督域自适应声场景分类模型通过对设备类型划分源域和目标域,并在训练过程中通过域差异损失来降低这两个域之间的差异程度,使得模型能修正两个域之间的非线性失真并且能更好的提取声学特征的域不变特征,从而提高模型的泛化能力;频段标准化和有监督域自适应声场景分类模型的结合使用,可以分别修正线性失真和非线性失真进而降低设备间的差异,不但提高了声场景分类的分类准确率,而且可以将模型泛化到其他不可见的拾音设
备上,显著提高了模型的泛化能力,使得本发明技术方案中的声场景分类方法适用于各种设备和各种场景。
附图说明
25.图1为实施例中的频段标准化均值曲线图;
26.图2为实施例中的频段标准化标准差曲线图;
27.图3为实施例中的三维声学特征提取方法示意图;
28.图4为实施例中有监督域自适应声场景分类模型的特征对齐卷积块结构示意图;
29.图5为实施例中有监督域自适应声场景分类模型的网络结构示意图;
30.图6为实施例中实验结果示意图。
具体实施方式
31.以下结合实施例对本发明进行具体的说明,所述实施例的实例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
32.参见图1至图6,一种基于多种设备有监督域自适应的声场景分类方法,其包括以下步骤,
33.s1:读取多种不同种类拾音设备采集得到的场景音频信号,并对场景音频信号进行预加重、分帧、加窗等预处理,获得经预处理的样本信息;
34.s2:对步骤s1获得的样本数据进行傅里叶变换,对傅里叶变换处理后的样本数据进行梅尔滤波处理,再进行频段标准化修正,提取三个特征频谱图,融合三个特征频谱图得到三维声学特征;
35.所述提取三个特征频谱图包括利用梅尔滤波器组、一阶差分滤波器组和二阶差分滤波器组提取获得经过频段标准化的对数梅尔特征频谱图、一阶差分特征频谱图和二阶差分特征频谱图。
36.频段标准化是一种在样本空间上对多种不同种类拾音设备的梅尔频段特征进行标准化修正的方法,可以有效解决多种不同种类拾音设备上的线性失真问题;
37.如图1和图2所示为本实施例中的频段标准化均值和标准差曲线图,可以明显观测出不同设备在相同的频段上其均值和标准差表现出了较大的差异,表明不同种类拾音设备的频率响应并不一致,采用频段标准化的方法可以有效修正不同种类拾音设备上的线性失真问题。
38.如图3为本实施例中的三维声学特征提取方法示意图,样本信息依次经过梅尔滤波器组、频段标准化模块、一阶差分滤波器组和二阶差分滤波器组,得到经过频段标准化的对数梅尔特征频谱图、一阶差分特征频谱图和二阶差分特征频谱图,然后将三个特征频谱图输入到特征融合模块中,在通道维度上对三个特征频谱图进行拼接,最后得到经过拼接融合的三维声学特征。
39.步骤s2中,频段标准化首先要在训练集的样本空间上按照设备的种类进行划分,然后分别对设备的声学特征频谱图的每个频段都计算出均值和标准差,其计算公式为:
[0040][0041]
其中d为训练样本的设备类别,n为训练样本的数量,m为训练样本的时间帧数,k为训练样本的梅尔频段;
[0042]
最后根据输入声学特征的对应设备种类进行频段标准化处理,其计算公式为:
[0043][0044]
其中x
dnmk
为输入声学特征频谱图,为经过频段标准化处理后的声学特征频谱图;
[0045]
s3:将步骤s2所得到三维声学特征输入数据增强模块,得到经过数据增强后的声学特征。
[0046]
本实施例的数据增强模块是基于mixup和specaugment方法联合组成的,通过对输入的声学特征进行时间扭曲、时间掩蔽、频率掩蔽和混合数据增强方法,得到经过数据增强后的声学特征。
[0047]
步骤s3中,数据增强方法由mixup和specaugment联合组成,其构成方法有:
[0048]
specaugment的处理方法包括:
[0049]
时间扭曲:将输入声学特征频谱图中任意长度的时间谱图覆盖到输入声学特征频谱图的任意时间谱图上;
[0050]
时间掩蔽:将输入声学特征频谱图中任意长度的时间谱图进行掩蔽;
[0051]
频率掩蔽:将输入声学特征频谱图中任意长度的频率谱图进行掩蔽;
[0052]
mixup的构成方法有:
[0053][0054][0055]
其中i、j为正整数,λ∈(0,1)且符合beta分布,xi表示输入声学特征的第i个样本,xj表示输入声学特征的第j个样本,表示混合增强得到的声学特征,yi表示输入声学特征的第i个样本对应的标签,yj表示输入声学特征的第j个样本对应的标签,表示混合增强得到的声学特征对应的标签;
[0056]
s4:构建有监督域自适应声场景分类模型;
[0057]
基于cnn模型和域自适应方法构建声场景分类模型;
[0058]
声场景分类模型由三个特征对齐卷积块和两个全连接层构成;
[0059]
声场景分类模型在训练阶段按拾音设备种类将声学特征划分为源域和目标域,然后的源域和目标域分别通过声场景分类模型,并在每个特征对齐卷积块单独计算源域和目
标域之间的差异损失,得到域差异损失;
[0060]
特征对齐卷积块将源域和目标域的输出特征进行差异对比,并计算出域差异损失;
[0061]
特征对齐卷积块包括:两个卷积层、两个bn层、两个relu激活层、一个池化层;
[0062]
如图4所示为本实施例中有监督域自适应声场景分类模型的特征对齐卷积块结构示意图,三个特征对齐卷积块中,卷积核步长均设置为1,输入特征在卷积层中与卷积核进行卷积,得到提取出的高阶抽象特征;第一个特征对齐卷积块中,两个卷积层的通道数为64,卷积核尺寸为5
×
5,最大池化尺寸为4
×
4;第二个特征对齐卷积块中,两个卷积层的通道数为128,卷积核尺寸为3
×
3,平均池化尺寸为4
×
4;第三个特征对齐卷积块中,两个卷积层的通道数为256,卷积核尺寸为3
×
3,平均池化尺寸为2
×
2;
[0063]
特征对齐卷积块中的最大池化maxpooling层和平均池化avgpooling层分别通过选取最大值和平均值的方式来缩小特征尺寸,从而减少模型的参数。
[0064]
特征对齐卷积块中relu激活层的计算公式为:
[0065]
输入的特征在经过三个特征对齐卷积块后先经过flatten处理,将三维特征扁平化为一维特征,然后输入到两个全连接层中进行数据合并,依据分类结果得到长度为10的一维数据,最后经过softmax层得到最终的分类预测结果。
[0066]
softmax层的计算公式为:
[0067]
其中,i,j为正整数,zi表示输入特征预测为第i类的预测值。
[0068]
如图5所示为本实施例中有监督域自适应声场景分类模型的网络结构示意图,有监督域自适应声场景分类模型,为了缩小源域和目标域之间的特征差异,在训练阶段中按照设备类别将主设备划分为源域,其他设备划分为目标域,并且每轮训练都要使用源域样本和目标域样本在有监督域自适应声场景分类模型中使用均方误差mse损失函数衡量源域和目标域的差异,进行域差异计算,从而得到域差异损失,域差异损失加上源域和目标域分类损失即可得到总损失,根据总损失进行反向更新从而进行模型的训练;
[0069]
mse损失函数计算公式为:
[0070]
其中,m为输入特征的元素个数,为源域的第i个元素的值,为目标域的第i个元素的值;
[0071]
有监督域自适应声场景分类模型总共有三个特征对齐卷积块,其域差异损失分别为loss
mse1
,loss
mse2
,loss
mse3
,故总的域差异损失loss
ddl
=loss
mse1
+loss
mse2
+loss
mse3

[0072]
源域和目标域分类损失采用nll损失,其计算公式为:
[0073][0074]
有监督域自适应声场景分类模型的总损失为域差异损失、源域损失和目标域损失的加权求和;
[0075]
总的损失函数为loss=loss
ddl
+loss
t
+losss[0076]
s5:根据s1-s3方法提取训练样本的声学特征,并将训练样本的声学特征及其对应标签输入到s4有监督域自适应声场景分类模型中进行有监督训练,得到训练好的有监督域自适应声场景分类模型;
[0077]
s6:将待分类声场景音频信号根据s1和s2方法提取待分类声场景音频样本的声学特征,输入到训练好的有监督域自适应声场景分类模型中,得到分类结果;
[0078]
本实施例建立在window10系统、显卡rtx3060,cpu为r7-5800h,内存16g的实验环境下;采用pytorch作为深度学习框架,采用dcase比赛中的dcase2020task1a多设备声场景分类数据集,该数据集总共包含十个预定义的声场景类别,按照官方的数据集划分方式,训练集样本个数13926,其中主设备a的数量为10215,设备b、c、s1、s2、s3的数量均约为750,测试集样本个数2968,其中设备a、b、c、s1、s2、s3、s4、s5、s6的数量均约为330,并且设备s4、s5、s6没有出现在训练集中。
[0079]
如图6所示的实验结果可知,在仅利用训练集中设备a的样本进行训练时,可以在测试集中的设备a达到76.7%的准确率,但是在其他未经训练的设备上准确率均不超过43%,表明在单个设备上训练出的模型并不能泛化到其他设备上应用,而利用官方划分的训练集中所有可见设备进行训练时,其在主设备a上的识别降低了8%,但是由于更多种类的设备参与到了模型训练中,使得模型在其他设备上的识别性能有了较大的提升,甚至将模型泛化到不可见设备上,这表明更多种类的设备参与到模型训练当中可以帮助模型更好的提取不同设备间的共有特征或者域不变特征。
[0080]
而在加入本实施例中所提到的设备匹配方法(频段标准化和有监督域自适应方法)后,模型分别在可见设备和不可见设备上表现出了不同的性能,频段标准化在主设备a上达到77%的准确率,表现出了和单独训练设备a相当的效果,并且在其余可见设备b-s3中至少提升了3%的准确率,但是在不可见设备s4-s6中却受到一定程度的影响,表明频段标准化主要是对可见设备的频率轴进行线性修正,可以有效提高可见设备的识别准确率,在测试集上平均分类准确率提高了2%。
[0081]
与此同时,有监督域自适应方法在设备a上准确率提高了4%,并且在其他设备上都取得了一定的提升,尤其是在不可见设备s4-s6上提升效果更为明显,这表明在训练过程中有监督域自适应方法主动将源域和目标域的特征进行对齐,使模型更好的提取域不变特征,增强模型的分类准确率和泛化能力,在测试集上平均分类准确率提高了4%。
[0082]
本实施例针对多种不同种类拾音设备采集的音频数据存在设备失配问题,导致线性和非线性失真影响模型分类准确率和泛化能力的技术问题,提出了一种融合频段标准化和有监督域自适应方法的声音处理方法。本发明可以有效降低设备失配造成的影响,提高模型在不同拾音设备上的性能,具有广泛的应用前景。
[0083]
以上仅为本发明专利的一种较佳实施例,本实施例使用了六个可见拾音设备的样本数据进行处理,而在其他的实施例中也可以使用更多或更少的可见拾音设备,只要满足本发明专利声音处理方法和技术特征,都属于本发明专利保护范围内。本领域普通技术人员可以理解并实现上述实施例的全部或部分流程,并依本发明专利要求所作的等同变化,仍属于发明所涵盖的范围。

技术特征:
1.一种基于多种设备有监督域自适应的声场景分类方法,其特征在于,包括如下步骤,s1:读取多种不同种类拾音设备采集得到的场景音频信号,并对场景音频信号进行预处理,获得经预处理的样本数据;s2:对步骤s1获得的样本数据进行傅里叶变换,对傅里叶变换处理后的样本数据进行梅尔滤波处理,再进行频段标准化修正,提取三个特征频谱图,融合三个特征频谱图得到三维声学特征;s3:将步骤s2得到的三维声学特征输入数据增强模块,得到经过数据增强后的三维声学特征;s4:构建有监督域自适应声场景分类模型,基于cnn模型和域自适应方法构建声场景分类模型;所述声场景分类模型由若干特征对齐卷积块和全连接层构成;所述声场景分类模型在训练阶段按拾音设备种类将三维声学特征划分为源域和目标域,然后所述的源域和目标域分别通过声场景分类模型,并在每个特征对齐卷积块单独计算源域和目标域之间的差异损失,得到域差异损失;所述特征对齐卷积块将源域和目标域的输出特征进行差异对比,并计算出域差异损失;所述声场景分类模型的总损失为域差异损失、源域和目标域损失的加权求和;s5:将步骤s3所述三维声学特征及其对应标签输入到步骤s4所述声场景分类模型中进行有监督训练,得到训练好的有监督域自适应声场景分类模型;s6:将待分类的场景音频信号,输入到步骤s5所述有监督域自适应声场景分类模型中,得到分类结果。2.根据权利要求1所述的基于多种设备有监督域自适应的声场景分类方法,其特征在于,步骤s1所述对场景音频信号进行预处理包括预加重、分帧、加窗。3.根据权利要求1所述的基于多种设备有监督域自适应的声场景分类方法,其特征在于,步骤s2中,所述提取三个特征频谱图包括利用梅尔滤波器组、一阶差分滤波器组和二阶差分滤波器组提取获得经过频段标准化的对数梅尔特征频谱图、一阶差分特征频谱图和二阶差分特征频谱图。4.根据权利要求1所述的基于多种设备有监督域自适应的声场景分类方法,其特征在于,步骤s2中,所述频段标准化首先在训练集的样本空间上按照设备的种类进行划分;然后分别对设备的声学特征频谱图的每个频段都计算出均值和标准差;根据输入声学特征的对应设备种类进行频段标准化处理。5.根据权利要求1所述的基于多种设备有监督域自适应的声场景分类方法,其特征在于,步骤s3中,采用mixup模块和specaugment模块先后对步骤s2所述三维声学特征进行数据增强处理。6.根据权利要求1所述的基于多种设备有监督域自适应的声场景分类方法,其特征在于,步骤s4中,所述声场景分类模型由三个特征对齐卷积块和两个全连接层构成。7. 根据权利要求1所述的基于多种设备有监督域自适应的声场景分类方法,其特征在于,步骤s4中,所述特征对齐卷积块包括两个卷积层、两个批归一化层(batch-normalization,简称bn层)、两个激活函数层(rectifield linear unit,简称relu层)、一
个池化层。

技术总结
本发明属于声音场景分类领域,具体是指一种基于多种设备有监督域自适应的声场景分类方法,其特征在于,包括如下步骤,S1:对场景音频信号进行预处理;S2:进行傅里叶变换,进行梅尔滤波处理,再进行频段标准化修正,提取三个特征频谱图,融合三个特征频谱图得到三维声学特征。S3:将步骤S2得到的三维声学特征输入数据增强模块,得到经过数据增强后的三维声学特征;S4:构建有监督域自适应声场景分类模型;S5:进行有监督训练,得到训练好的有监督域自适应声场景分类模型;S6:得到分类结果。本发明具有结构简单、分类效果好、适应范围广的优点。适应范围广的优点。适应范围广的优点。


技术研发人员:罗丽燕 王玫 刘展奇 仇洪冰 宋浠瑜 杨含悦 樊小青
受保护的技术使用者:桂林电子科技大学
技术研发日:2023.04.10
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐