一种音频场景分类方法及装置
未命名
07-27
阅读:121
评论:0
1.本发明涉及音频信号处理技术领域,具体涉及一种音频场景分类方法及装置。
背景技术:
2.目前近年来由于人们对音频信号的利用率提高和音频文件被大量收集,如何分析大量音频中环境信息进行是当下的重要任务之一。其中识别音频特征并将其归为某一特定的场景类别的任务是声学场景分类(acoustic scene classification,asc)。
3.随着神经网络的高速发展,声学场景分类的应用场景越来越广泛,例如情景感知可穿戴设备、助听器、医疗保健、安全监控、智能城市和物联网。
4.其中基线系统(baseline system)、和prml系统(pattern recognition and machine learning)是具有代表性的声学场景分类网络模型;其虽然在声学场景分类中有广泛的应用,但是计算准确率不高。
技术实现要素:
5.本发明提供了一种音频场景分类方法及装置,旨在提高声学场景分类时的准确率。
6.本发明第一方面提供一种音频场景分类方法,其特征在于,该方法包括:
7.获取待分类的音频信息;
8.提取待分类的音频信息的log-mel特征;
9.使用tucker分解与张量回归的音频分类模型,处理log-mel特征,从而输出得到分类结果。
10.在本公开的一种示例性实施例中,提取待分类的音频信息的log-mel特征的方法包括,对获取的待分类音频信息进行分帧操作;之后对每一帧音频信息加海宁窗进行信号截断;对音频信息进行快速傅里叶变换;把每一帧时域信号在时间上堆叠起来得到频谱图;之后取频谱的绝对值的平方得到功率谱,将功率谱特征输出到mel滤波器组得到mel谱;对mel谱取log,最终得到了log-mel特征。
11.在本公开的一种示例性实施例中,tucker分解与张量回归的音频分类模型包括,log-mel数据增强、四个ts层、最大池化和张量回归层;
12.在所述log-mel数据增强中,对log-mel数据增强扩充数据集;
13.在所述ts层中,提取log-mel特征中的通道特征,处理特征的宽和高;
14.在所述在最大池化中,保留音频的纹理特征;
15.在所述在张量回归层中,利用平均池化压缩处理后的特征的多模式结构,对权重施加低秩约束,将输出表示在低秩子空间中,完成分类。
16.在本公开的一种示例性实施例中,log-mel数据增强的方法包括使用mixup数据增强和specaugment增强方法,增强log-mel特征。
17.在本公开的一种示例性实施例中,ts层由tucker分解卷积、空间可分离卷积、bn、
relu激活函数和平均池化组成;通过卷积tucker分解进行训练和特征提取;输出到空间可分离卷积,处理特征的宽和高,加快网络的运行速度;之后依次通过bn、relu激活函数和平均池化输出,平均池化用于保留局部音频的特征。
18.对卷积层权重进行tucker分解,其中沿着输入和输出通道的因子用于参数化1
×
1卷积,其余两个因子吸收到核心中,用于参数化常规2d卷积。首先通过1
×
1卷积降低输入通道数,接着应用小卷积提取log-mel中易于分类的特征,最后通过1
×
1卷积将通道数恢复为输出通道数。其中两个1
×
1卷积分别用于降低和升高通道维度,主要目的是为了减少参数的数量,从而减少计算量,且在降维之后可以更加有效、直观地进行数据的训练和特征提取。
19.在本公开的一种示例性实施例中,空间可分离卷积为大小为3
×
3的卷积核分为一个3
×
1和1
×
3的卷积核的外积。
20.在本公开的一种示例性实施例中,张量回归层,首先使用平均池化操作减少网络参数和特征维度,之后对于输入的张量,在固定低秩和偏差的条件下对估计回归权重张量。
21.首先使用平均池化操作减少网络参数和特征维度,之后对于输入的张量,在固定低秩和偏差的条件下对估计回归权重张量。输出为标量值(音频类别),将输入和回归权重之间的内积替换为沿相匹配模式的张量收缩。这里使用张量分解的tucker结构,也可以使用其他张量分解结构,例如cp和tt结构。张量回归层(trl)相当于首先在输入张量x上利用因子矩阵降维,然后对权重施加低秩约束,然后在结果上应用张量回归得到分类结果y。
22.本发明第二方面提供一种音频场景分类装置,装置包括:
23.音频信息获取模块,被配置为执行获取待分类的音频信息;
24.声学特征提取模块,被配置为执行提取待分类的音频信息的log-mel特征;
25.分类特征增强模块,被配置为执行使用使用mixup数据增强和specaugment增强方法,对log-mel特征进行数据增强;
26.特征提取模块,被配置为执行使用ts层,进行训练和提取log-mel特征中的通道特征;被配置为使用空间可分离卷积处理特征的宽和高。
27.分类输出模块,被配置为执行使用张量回归层,利用平均池化压缩处理后的特征的多模式结构,输出得到分类结果,完成分类。
28.根据本公开的第三方面,本技术还提供了一种电子设备,所述电子设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现如上所述的音频场景分类方法。
29.根据本公开的第四方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述的音频场景分类方法。
30.本发明所达到的有益效果为:本发明通过混合张量分解和张量回归的声学场景分类模型解决复杂音频场景分类模型,该模型由tucker分解卷积、空间可分离卷积与张量回归层组成,可以利用tucker分解降低卷积权重的冗余度,使数据可以更加有效、直观的进行训练和特征提取;利用空间可分离卷积减少计算量和计算复杂度,加快网络的运行速度;之后利用张量回归层替代传统的全连接层,保留数据本身的多模式结构,同时降低了参数量。解决了传统卷积神经网络冗余度和参数量高、数据特征不够直观有效和丢失多模式结构信
息等问题,以此提高音频场景分类的准确性。
附图说明
31.图1是本发明实施例提供的一种音频场景分类方法的流程图。
32.图2是本发明提取待分类的音频信息的log-mel特征方法的流程图。
33.图3是提取的log-mel特征图。
34.图4是本发明步骤三的流程图。
35.图5是使用mixup数据增强和specaugment增强后,获得的增强log-mel特征。
36.图6是本发明ts层的结构图。
37.图7是本发明tucker分解卷积的结构图。
38.图8是本发明张量回归层的结构图。
39.图9是本发明实施例提供的一种音频场景分类装置的结构框图。
具体实施方式
40.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明;应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
41.需要说明的是,本技术实施例提供的音频场景分类方法,其执行主体可以是音频场景分类装置,该音频场景分类装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,该计算机设备可以为服务器或者终端,其中,上文所述的服务器指的可以是一台服务器,也可以是由多台服务器组成的服务器集群,上文所述的终端可以为台式电脑、平板电脑、笔记本电脑或者智能手机等,本技术实施例不对终端的具体类型进行限定。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
42.如图1所示,其示出了本技术实施例提供的一种音频场景分类方法的流程图,该音频场景分类方法包括以下步骤:
43.步骤1、获取待分类的音频信息;
44.步骤2、提取待分类的音频信息的log-mel特征;
45.作为一个可选的实施例,如图2所示是一种提取待分类的音频信息的log-mel特征方法的流程图,该方法包括如下步骤:
46.步骤201、对获取的待分类音频信息进行分帧操作;处理后的每一帧音频信息可视为平稳信号;之后对每一帧音频信息加海宁窗进行信号截断,帧长设置为46ms,帧移设置为23ms;海宁窗的公式如下:
[0047][0048]
步骤202、为了获得更更明显的音频特征,对步骤201处理后的音频信息进行fft(快速傅里叶变换),使时域信号转为频域信号,每一帧时域信号在时间上堆叠起来得到音频信号的频谱特征x(k);fft是dct(离散傅里叶变换)的一种快速算法,dct的公式如下:
[0049]
[0050]
步骤203、将频谱特征取绝对值得到振幅谱,接着取振幅谱的平方再除以fft的点数(与fft对应),得到功率谱特征p(k);计算公式如下:
[0051][0052]
步骤204、一般来说,人耳很难理解两个靠的很近的线性频率之间的不同,如果把一个频率区域的能量加起来,只关心频率区域有多少能量,人耳就比较能区分;因此,将功率谱特征p(k)输出到符合人耳听力系统的mel滤波器组得到mel谱;滤波器具体频率通过如下公式得到:
[0053][0054]
步骤205、人耳对声音强度的感知也不是线性的,为了符合人耳的听力系统,对mel谱取log,对能量进行压缩,最终得到了log-mel特征,如图3所示为提取的log-mel特征图。
[0055]
步骤3、使用基于tucker分解与张量回归的音频分类模型,提取步骤2处理后log-mel特征图,从而输出得到分类结果。
[0056]
作为一个可选的实施例,如图4所示为步骤3流程图;本发明提出了一种基于tucker分解卷积和张量回归的音频分类模型,该模型由log-mel数据增强、四层ts层、最大池化和一层张量回归层组成。一个ts层由tucker分解卷积、空间可分离卷积、bn、relu激活函数和平均池化组成;其中,ts层中的tucker分解可以降低卷积权重的冗余度,使数据更加有效、直观的进行训练和特征提取;空间可分离卷积可以减少计算量和计算复杂度,加快网络的运行速度;平均池化可以更好的保留局部音频的特征。经过4层ts层后通过最大池化则是可以较好的保留音频的纹理特征,使其整体特征更显著。最后引入可以保留数据本身的多模式结构,并且可以降低参数量的张量回归层(trl)替代传统的展平化和全连接层,以获得更好的音频分类效果。
[0057]
作为一个可选的实施例,步骤3具体包括如下步骤:
[0058]
步骤301、使用mixup数据增强和specaugment增强方法,增强log-mel特征;
[0059]
对log-mel特征进行mixup数据增强,将不同类的log-mel特征进行混合,从而扩充数据集。
[0060]
对log-mel特征进行specaugment增强;
[0061]
具体为,将log-mel特征进行零均值归一化x-x.mean();对log-mel特征时间轴进行扭曲,相当于对特征时间维度进行拉伸和压缩,从而实现数据增强;随机划掉log-mel特征中的连续若干行进行时间维度的增强;随机划掉log-mel特征中的连续若干列进行频率维度的增强;图5为分别是原始log-mel,时间扭曲,频域遮蔽以及时间遮蔽后的log-mel特征。
[0062]
步骤302、通过连续的四层ts层提取步骤301处理后音频信号的通道特征:
[0063]
如图6所示,一个ts层由tucker分解卷积、空间可分离卷积、bn、relu激活函数和平均池化组成;其中,ts层中的tucker分解卷积可以降低卷积权重的冗余度,使数据更加有效、直观的进行训练和特征提取;空间可分离卷积可以减少计算量和计算复杂度,加快网络的运行速度;平均池化可以更好的保留局部音频的特征。
[0064]
log-mel特征是三维的特征,一个通道维度,两个空间维度,这时卷积核维度是t
×s×h×
w,s对应输入通道,t对应输出通道。原始卷积层的运算为:
[0065][0066]
将卷积核w进行如下所示的tucker分解:
[0067][0068]
卷积核被分解为一个核心张量和四个模式上的因子矩阵;卷积核的tucker分解的秩为(r1,r2,r3,r4)。tucker分解的一个优势在于,不需要一次分解所有模式,对于log-mel特征来说,其空间信息已经比较小,因此由宽度和高度构成的空间维度模式不需要进行低秩近似。因此,将空间维度矩阵和吸收到核心张量g中,产生的张量h如下所示:
[0069][0070]
产生的张量h相当于没有对log-mel宽度和高度构成的空间维度模式进行分解;将其带入到式中可以得到tucker分解卷积的公式,tucker分解的卷积f如下所示:
[0071][0072]
如图7所示,tucker分解卷积首先将x的s维度与收缩,相当于通过1
×
1卷积将处理后的log-mel特征的输入通道数由s转化为r2,对应图中的第一步(粉色操作);然后对其应用h
×
w的参数化2d卷积提取关键特征,对应图中的第二步(蓝色操作),最后通过与收缩升维,相当于应用1
×
1卷积将通道数由r2提升为目标通道数t,对应图中的第三步(橙色操作),以此减少参数的数量和计算量,且在降维之后可以更加有效、直观地进行数据的训练和特征提取。
[0073]
tucker分解卷积处理后,输出到空间可分离卷积处理特征的宽和高,减少计算成本;
[0074]
具体来说,空间可分离卷积为大小为3
×
3的卷积核分为一个3
×
1和1
×
3的卷积核的外积,这两个卷积分别需要进行3次乘法,执行乘法的次数由9次变为6次,以此减少所需的计算成本。
[0075]
空间可分离卷积处理后,依次通过bn、relu激活函数和平均池化输出,通过平均池化操作,对整体特征信息进行下采样,既能够减小维度参数,又可以将有利特征信息传递到下一模块。
[0076]
步骤303、通过最大池化处理步骤302的输出特征,可以较好的保留音频的纹理特征,使其整体特征更显著。
[0077]
步骤304、通过张量回归层利用平均池化压缩处理后的特征的多模式结构,对权重施加低秩约束,将输出表示在低秩子空间中,完成分类。
[0078]
在本公开的一种示例性实施例中,如图8所示是张量回归层结构示意图;
[0079]
引入可以保留数据本身的多模式结构,并且可以降低参数量张量回归层(trl)替代传统的展平化和全连接层,从而更好的完成分类。
[0080]
将处理后的特征表示为输出为y∈rs×o,s为batch的尺寸,o为对应的每一个batch的分类标签。在固定低秩(r0,
…
,r3,r4)和一个偏差b的条件下,估计回归权重张量分类公式如下:
[0081]
y=《x,w》3+b
[0082]
式的重点不在于缩并最终两个张量的指标,张量回归保留了一项回归操作,重点是寻找最终收缩的最佳参数值;接下来对回归权重进行tucker分解,表示为:
[0083][0084]
因子矩阵u通过梯度反向传播与网络其余部分端到端的进行学习;在本次实验中采用分类公式的变形式如下:
[0085]
y=《x
×
0v(0)
×
1v(1
)
×…×
3v(3)
,g
×4u
(4)
》3+b
[0086]
其中大部分的计算是在低秩子空间中完成,而不是直接在x维度上。利用因子矩阵对输入张量x进行压缩,强制约束为低秩张量会减少输入的音频关键特征的存储量;如图8所示,通过张量回归层可以得出输入与哪一类别更为相似,从而得到分类结果,完成分类。
[0087]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0088]
实验验证
[0089]
本发明选用dcase2020挑战任务1a中的数据集,包含十类音频场景,包含23035个片段的音频,本实验以7:1.5:1.5划分训练集、验证集和测试集,测试准确率时选用看不见所属城市(unseen cities)。在ubuntu20.04系统进行实验,采用pytorch深度学习框架,epoch设定为300,batchsize为16,损失函数选用beloss(cross entropy loss),采用adam优化器,初始学习率设定为0.001。
[0090]
其中,基线系统(baseline system)用openl3嵌入取代mel能量的使用,用两个完全连接的前馈层(大小为512和128)取代了cnn网络架构,epoch设定为200,batchsize为64,学习率设定为0.001,采用adam优化器。
[0091]
本次实验选用准确率(accuracy)作为本次的评估方法,其代表所有预测正确的占总的比重。计算公式如下:
[0092]
[0093]
其中tp(true positive)表示正确的正例,一个实例是正类并且也被判定成正类。fn(false negative)表示错误的负例,漏报,本为正类但判定为负类。fp(false positive)表示错误的正例,误报,本为负类但判定为正类。tn(true negative)表示正确的负例,一个实例是负类并且也被判定成负类。
[0094]
prml系统是基于open13嵌入和带有卷积块注意力模块(cbam)的resnet-18的声学场景分类系统;各网络模型测试结果如下表所示。
[0095]
表1各网络模型实验性能
[0096][0097][0098]
从表中可知,本发明提出的混合张量分解和张量回归的声学场景分类模型在dcase2020任务1a的开发集的准确率为62.4%,比基线方法提升了8.3%,比prml系统提升了2.8%。使用tucker分解的所提模型要比未使用tucker分解的平均分类准确率有小幅下降,降低了0.4%,这是因为tucker分解卷积是以损失小部分的性能,换取参数量的降低;这说明将全连接层替换为张量回归层,可以保留数据的多模式结构,这些结构信息可以使模型更好的学习每一类别的特征,从而提高分类的准确率
[0099]
各模型参数量如下表所示。
[0100]
表2各模型参数量
[0101][0102]
从表中可以看出,本文所提模型参数量较基线系统和prml系统的参数量都要少很
多,更适用于轻量化设备中使用,在本文所提模型中采用tucker分解的卷积比未采用tucker分解的卷积参数量多23.3%,可以看出tucker分解卷积对参数量的影响是比较显著的,而由表1可知采用tucker分解卷积较未采用tucker分解卷积的本文模型平均分类准确率仅下降0.6%,tucker分解卷积以较少的性能为代价,换来参数量的显著降低,表现出其所具有良好性能。
[0103]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0104]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的音频场景分类方法的音频场景分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个音频场景分类装置实施例中的具体限定可以参见上文中对于音频场景分类方法的限定,在此不再赘述。
[0105]
在一个实施例中,如图9所示是本技术实施例提供的一种音频场景分类装置的结构框图,该装置包括:
[0106]
音频信息获取模块,被配置为执行获取待分类的音频信息;
[0107]
声学特征提取模块,被配置为执行提取待分类的音频信息的log-mel特征;
[0108]
分类特征增强模块,被配置为执行使用使用mixup数据增强和specaugment增强方法,对log-mel特征进行数据增强;
[0109]
特征提取模块,被配置为执行使用ts层:进行训练和提取log-mel特征中的通道特征;
[0110]
分类输出模块,被配置为执行使用张量回归层,利用平均池化压缩处理后的特征的多模式结构,输出得到分类结果,完成分类。
[0111]
上述音频场景分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0112]
在一个实施例中,本发明还提供了一种电子设备,该电子设备可以是服务器,该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频场景分类方法。
技术特征:
1.一种音频场景分类方法,其特征在于,所述方法包括:获取待分类的音频信息;提取待分类的音频信息的log-mel特征;使用tucker分解与张量回归的音频分类模型,处理log-mel特征,从而输出得到分类结果。2.根据权利要求1所述的一种音频场景分类方法,其特征在于,提取待分类的音频信息的log-mel特征的方法包括,对获取的待分类音频信息进行分帧操作;之后对每一帧音频信息加海宁窗进行信号截断;对音频信息进行快速傅里叶变换;把每一帧时域信号在时间上堆叠起来得到频谱图;之后取频谱的绝对值的平方得到功率谱,将功率谱特征输出到mel滤波器组得到mel谱;对mel谱取log,最终得到了log-mel特征。3.根据权利要求1所述的一种音频场景分类方法,其特征在于,tucker分解与张量回归的音频分类模型包括,log-mel数据增强、四个ts层、最大池化和张量回归层;在所述log-mel数据增强中,对log-mel数据增强扩充数据集;在所述ts层中,提取log-mel特征中的通道特征,处理特征的宽和高;在所述在最大池化中,保留音频的纹理特征;在所述在张量回归层中,利用平均池化压缩处理后的特征的多模式结构,对权重施加低秩约束,将输出表示在低秩子空间中,完成分类。4.根据权利要求3所述的一种音频场景分类方法,其特征在于,log-mel数据增强的方法包括使用mixup数据增强和specaugment增强方法,增强log-mel特征。5.根据权利要求3所述的一种音频场景分类方法,其特征在于,ts层由tucker分解卷积、空间可分离卷积、bn、relu激活函数和平均池化组成;通过卷积tucker分解进行训练和特征提取;输出到空间可分离卷积,处理特征的宽和高,加快网络的运行速度;之后依次通过bn、relu激活函数和平均池化输出,平均池化用于保留局部音频的特征。6.根据权利要求5所述的一种音频场景分类方法,其特征在于,空间可分离卷积为大小为3
×
3的卷积核分为一个3
×
1和1
×
3的卷积核的外积。7.根据权利要求5所述的一种音频场景分类方法,其特征在于,张量回归层,首先使用平均池化操作减少网络参数和特征维度,之后对于输入的张量,在固定低秩和偏差的条件下对估计回归权重张量。8.一种音频场景分类装置,其特征在于,所述装置包括:音频信息获取模块,被配置为执行获取待分类的音频信息;声学特征提取模块,被配置为执行提取待分类的音频信息的log-mel特征;分类特征增强模块,被配置为执行使用使用mixup数据增强和specaugment增强方法,对log-mel特征进行数据增强;特征提取模块,被配置为执行使用ts层,进行训练和提取log-mel特征中的通道特征;被配置为使用空间可分离卷积处理特征的宽和高。分类输出模块,被配置为执行使用张量回归层,利用平均池化压缩处理后的特征的多模式结构,输出得到分类结果,完成分类。9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
技术总结
本发明涉及音频信号处理技术领域,具体涉及一种音频场景分类方法及装置,本发明使用Tucker分解与张量回归的音频分类模型,该模型首先对log-mel数据增强扩充数据集;利用tucker分解降低卷积权重的冗余度,使数据可以更加有效、直观的进行训练和特征提取;利用空间可分离卷积减少计算量和计算复杂度,加快网络的运行速度;之后利用张量回归层替代传统的全连接层,保留数据本身的多模式结构,同时降低了参数量。解决了传统卷积神经网络冗余度和参数量高、数据特征不够直观有效和丢失多模式结构信息等问题,以此提高音频场景分类的准确性。性。性。
技术研发人员:杨立东 岳任博 郭勇
受保护的技术使用者:内蒙古科技大学
技术研发日:2023.03.16
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
