一种基于注意力机制的声音事件定位与检测方法

未命名 08-07 阅读:100 评论:0


1.本发明属于音频检测领域,具体涉及一种基于注意力机制的声音事件定位与检测方法。


背景技术:

2.随着智能语音处理的发展,声音事件定位与检测应用更加广泛。声音作为人们获取信息的重要途径之一,常常应用于日常生活和工业生产中。而声音事件定位与检测(sound event localization and detection,seld)在机器学习中越来越受人们关注,使用于检测和定位产生的异常声音,不仅在于对其他传感器检测的补充,而且在检测精度上有所提升。seld常常在多媒体、游戏开发及设备故障检测等领域有所应用和发展。
3.seld是音频检测领域的一个研究热点。智能语音处理广泛应用于声音事件定位与检测,其主要目的在于检测到声音事件的类型以及所在的空间位置。seld由两个子任务组成,分别是声音事件检测(sound event detection,sed)和声源定位(sound source localization,ssl)。sed能够在不同环境下的音频序列中识别出各个声音事件的开始和结束时间。早期的sed包含传统语音识别方法,如:隐马尔可夫模型,非负矩阵分解。(a.j.eronen et al.,"audio-based context recognition,"in ieee transactions on audio,speech,and language processing,vol.14,no.1,pp.321-329,jan.2006,doi:10.1109/tsa.2005.854103.;heittola t,mesaros a,virtanen t,et al.sound event detection in multisource environments using source separation[c]//first international workshop on machine listening in multisource environments(chime 2011).florence:chime,2011:36-40.)。这些算法只能检测出部分音频序列中置信度最高的一种事件,不能在真实声音环境下同时反映出可能出现的多个声音事件。当前较为主流的sed是基于深度学习的方法,如:循环卷积神经网络,多尺度卷积神经网络。(turpault n,serizel r,salamon j,et al.sound event detection in domestic environments with weakly labeled data and soundscape synthesis[c]//4th workshop on detection and classification of acoustic scenes and events(dcase 2019).2019.;rsanet:towards real-time object detection with residual semantic-guided attention feature pyramid network[j].mobile networks and applications,2021,26(1):77-87.;iqbal t,xu y,kong q,et al.capsule routing for sound event detection[c].2018 26th european signal processing conference(eusipco).rome,italy,2018:2255-2259.)。卷积神经网络(convolution neural networks,cnn)的网络模型能够从音频样本中自动学习音频特征,对于每一帧的处理都是基于一个有限时频范围,但cnn不能捕捉音频段中的长时依赖性的问题。因此,将循环神经网络(recurrent neural network,rnn)捕获时序信息以及分析语义信息的能力和cnn特征提取相结合的卷积循环神经网络(convolution recurrent neural network,crnn)可以有效提取时序数据的特征从而实现多声音时间检测。多尺度卷积网络中引入了特征融合模块,通过将特征与不同时间依赖关
系的长度融合来捕获长短期依赖关系。这些算法有着特征图信息弱和目标漏检率大的问题,而且提取特征有限,不能充分提取声音时间的多尺度特征,多尺度卷积神经网络在一定程度解决此类问题,利用特征金字塔组件在crnn中提高sed的精度。
[0004]
常见ssl算法有基于波束形成的定位算法、基于高分辨谱估计的定位算法和基于到达时延差(time difffference of arrival,tdoa)。如:端到端tdoa估计,基于深度学习高分辨谱估计算法。(y.chen,b.liu,z.zhang and h.-s.kim,"an end-to-end deep learning framework for multiple audio source separation and localization,"icassp 2022-2022ieee international conference on acoustics,speech and signal processing(icassp),singapore,singapore,2022,pp.736-740,doi:10.1109/icassp43922.2022.9746950.;hu j,cao y,wu m,et al.atrack-wise ensemble event independent network for polyphonic sound event localization and detection[j].2022.)传统循环卷积神经网络的声音事件定位与检测方法对于长时间序列数据特征提取能力有限,因此导致定位和检测精度较低。为了更好获取时序数据的特征,利用注意力机制来提取时间序列模型的局部特征和全局特征。


技术实现要素:

[0005]
本发明的目的是为了依据现有技术中的存在的缺陷,提出一种改进注意力机制声音事件检测方法。该方法利用4个密集网络作为骨干网络提取声音深层特征,每个密集网络由一个双重卷积和一个向量乘法模块组成。利用特征提取加强模块,通过下采样操作和卷积操作,捕获更丰富的声音特征,使生成的模型可以更加有效预测出声音事件的位置信息,实现方式包括以下步骤,
[0006]
步骤1,选择l3das22 challenge task2官方提供的数据集作为训练集,根据数据集中的时域声音信号,提取时频域特征。
[0007]
步骤2,利用梅尔滤波器(mel)对步骤1中的频域特征进行加权,得到每个mel频率段的能量,将每个mel频率段的能量取对数运算,得到对数梅尔频谱图(log-mel),将log-mel谱图和其四通道特征(log-mel iv)分别作为sed和doa估计的输入特征,将两种类型的特征用于集成模型;
[0008]
步骤3,将得到的两种特征,分别送入到conv-conformer网络中进行训练,提取的特征i
iv
输入四个双重卷积块中再和降采样块进行拼接最终得到深层特征fc,其中双重卷积块有4个,降采样块有2个,其过程可以表示为:
[0009][0010]
其中表示大小为3
×
3的双重卷积核,f
downi
(
·
)为第i个降采样块。
[0011]
降采样块由平均池化,多层卷积组成,平均池化的大小为2*2,步长为2,卷积核大小为3*3,第一个降采样块过程可以表示为:
[0012]fdown1
=conv(avg(conv(conv(avg(i
iv
)))))
[0013]
第二个降采样块结构相似,但平均池化大小为1*2,步长为1*2,表示为:
[0014][0015]
conformer时序特征提取网络包含feed forward模块、卷积模块、自注意力模块和
第二个feed forward模块等四个模块,其过程可以表示为:
[0016][0017]
其中f
confi
为第i个模块输出的时序特征,f
ci
为第i个模块输入的深度特征,layernorm(
·
)为层归一化操作,ffm(
·
)为feed forward模块,conv(
·
)为卷积模块,mhsa(
·
)为多头注意力机制模块;
[0018]
在feed forward模块中,通过层归一化维度为512的输入特征,再经过线性层,引入激活平衡器(activationbalancer)和激活函数doubleswish,集中关注特征中的空间坐标信息,并使用dropout层调整网络,其中doubleswish:
[0019][0020]
在卷积模块中,首先,一个点向卷积和一个门控线性单元(glu),接下来是一个一维深度卷积层,batchnorm层在卷积层之后帮助训练深度模型。
[0021]
步骤4,得到fc深层特征后输入时序将输出深层时序特征输入全连接层分别得到doa位置坐标向量和sed结果,其过程可以表示为:
[0022][0023]
本发明具有以下优点和积极效果:
[0024]
1)提出降采样提取块来捕获和聚合更丰富的特征,以增强网络的建模能力。
[0025]
2)设计了改进注意力模块,以关注关键区域,同时减少冗余时序信息,提高模型的收敛性。
[0026]
3)提出的网络模型可以在l3das22challengetask2官方提供的数据集上获得较好的结果。以证明所提出模型的性能的优越性。
[0027]
该方法可广泛用于声音事件检测,声源定位等相关智能语音处理任务。
附图说明
[0028]
图1是本发明实施例声音事件与定位算法的架构示意图,它主要包含一个深层特征提取模块,一个时序特征提取模块和一个输出模块。其中深层特征提取模块由双重卷积模块组成。
[0029]
图2是双重卷积深度特征提取模块示意图。包含卷积层、归一化和激活函数三个模块。
[0030]
图3是conformer时序特征提取模块示意图。包含feed forward、多头自注意力机制模块、卷积层和层归一化四个模块。
[0031]
图4是改进feed forward模块示意图。包含层归一化、线形层、激活平衡器、
doubleswish激活函数和dropout层五个模块。
[0032]
图5为本发明实施例的总体示意图。图5:(a)特征提取架构。它主要分为sed和doa双分支,输入音频特征(audio feature),主要包含一个深层特征提取层,其中含有4个sed双重卷积特征提取模块(sedblock)和4个doa双重卷积特征提取模块(doablock),3个张量维度调整模块(einsum),降采样分支中4个一维卷积层(conv2d),2个降采样块(downsample),6个改进时序特征提取模块(conformer)和6个跟踪输出模块(sedtrack、doatrack)(b)双重卷积特征提取模块,包含双重卷积块(doubleblock),平均池化层(avgpool2d),批量归一化(batchnorm2d),激活层(relu)。(c)改进时序特征提取模块,包含前馈网络(feed forward),多头注意力机制(multi-head self-attention),卷积层(convolution),层归一化模块(layernorm),线性层(linearlayer),激活平衡器(activationbalancer),激活函数(doubleswish),丢弃层(dropout)。
具体实施方式
[0033]
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限制本发明。
[0034]
步骤1,选择l3das22challengetask2官方提供的数据集作为训练集,根据数据集中的时域声音信号,提取时频域特征。
[0035]
步骤2,利用mel滤波器对步骤1中的频域特征进行加权,得到每个mel频率段的能量,将每个mel频率段的能量取对数运算,得到log-mel频谱图,将log-mel谱图作为sed任务的输入,foa中四个信号通道,将全向通道w和三个方向通道x、y和z。利用log-mel四通道信号的短时间傅里叶变换谱图计算对数mel谱图,利用对数mel空间中w与x、y和z的交关计算强度向量得到log-mel iv作为doa估计的输入特征,再将两种类型的特征用于集成模型。
[0036]
步骤3,将得到的两种特征,分别送入到conv-conformer网络中进行训练,提取的特征i
iv
输入四个双重卷积块中再和降采样块进行拼接最终得到深层特征fc,其中双重卷积块有4个,降采样块有2个,其过程可以表示为:
[0037][0038]
其中表示大小为3
×
3的双重卷积核,f
downi
(
·
)为第i个降采样块。
[0039]
降采样块由平均池化,多层卷积组成,平均池化的大小为2*2,步长为2,卷积核大小为3*3,第一个降采样块过程可以表示为:
[0040]fdown1
=conv(avg(conv(conv(avg(i
iv
)))))
[0041]
第二个降采样块结构相似,但平均池化大小为1*2,步长为1*2,表示为:
[0042][0043]
conformer时序特征提取网络包含feed forward模块、卷积模块、自注意力模块和第二个feed forward模块等四个模块,其过程可以表示为:
[0044][0045]
其中f
confi
为第i个模块输出的时序特征,f
ci
为第i个模块输入的深度特征,layernorm(
·
)为层归一化操作,ffm(
·
)为feed forward模块,conv(
·
)为卷积模块,mhsa(
·
)为多头注意力机制模块。
[0046]
在feed forward模块中,通过层归一化维度为512的输入特征,再经过线性层,引入激活平衡器(activationbalancer)和激活函数doubleswish,集中关注特征中的空间坐标信息,并使用dropout层调整网络,其中doubleswish:
[0047][0048]
其中activationbalancer,在特征提取的前向计算过程中,统计特征激活值的范围,包括其中正数比例以及绝对值大小,在反向求梯度的过程中,根据前向统计结果,对应地放缩梯度大小,从而降低激活函数doubleswish中产生的激活值异常,降低参数的浪费。
[0049]
在卷积模块中,首先,通过一个点向卷积,点卷积的膨胀稀疏为2,再经过一个门控线性单元(glu)维度为1,接下来是一个一维深度卷积层,卷积核大小为31,batchnorm层在卷积层之后帮助训练深度模型。
[0050]
步骤4,得到fc深层特征后输入时序将输出深层时序特征输入全连接层分别得到doa位置坐标向量和sed结果,其过程可以表示为:
[0051][0052]
通过线性层将sed特征宽度减小到14,将doa特征宽度减小到3,再分别将sed和doa三个时序特征进行拼接输出,得到输出结果。
[0053]
本发明有效的提高了声音事件检测中doa估计的预测精度,与l3das22challengetask2中方法相比,在预测值提升了1.6%,较为有效解决特征提取不足的问题。
[0054]
总结:本发明公开的基于注意力机制的声音事件定位与检测方法,该方法使用两个任务支路分别进行声音事件检测(sound event detection,sed)和声源定位(sound source localization,ssl),其中由4个密集网络作为骨干网络提取声音深层特征,每个密集网络由一个双重卷积和一个向量乘法模块组成。利用特征提取加强模块,通过下采样操作和卷积操作,捕获更丰富的声音特征,使生成的模型可以更加有效预测出声音事件的位置信息。利用卷积注意力模块,可以更有效的对序列数据中的局部特征和全局特征的统一建模,减少训练参数量。最后使用全连接层,将时序信号特征输出为声音事件的位置信息。最佳结果预测值为0.616,相较l3das22 challenge task2中第二名预测值提升了1.6%。本发明具有准确率较强,训练时间较少的特点。
[0055]
具体实施时,本发明可采用计算机软件技术实现自动运行流程。
[0056]
应当理解的是,上述面对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明专利要求所保护的范围情况下,还可以做出替换和变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

技术特征:
1.一种基于注意力机制的声音事件定位与检测方法,其特征在于,所述方法包括如下步骤:步骤1,选择l3das22 challenge task2官方提供的数据集作为训练集,根据数据集中的时域声音信号,提取时频域特征;步骤2,利用梅尔滤波器mel对步骤1中的频域特征进行加权,得到每个mel频率段的能量,将每个mel频率段的能量取对数运算,得到对数梅尔频谱图log-mel,将log-mel谱图和其四通道特征log-mel iv分别作为sed和doa估计的输入特征,将两种类型的特征用于集成模型;步骤3,将步骤2中得到的两种特征,分别送入到改进卷积注意力机制网络conv-conformer中进行训练,利用双重卷积块和卷积注意力机制conformer网络,提取log-mel谱图中的深层特征和时序特征;步骤4,将步骤3提取到的深层特征和时序特征通过全连接层作为分类任务执行输出声音事件的标签输出和多输出回归任务执行实现声音的定位。2.根据权利要求1所述的一种基于注意力机制的声音事件定位与检测方法,其特征在于,所述步骤1中,提取数据集声音信号的时频特征,使用两个一阶三维声音频麦克风ambisonics,送入log-mel谱图表示的通道数为8,送入iv特征的通道数为14。3.根据权利要求1所述的一种基于注意力机制的声音事件定位与检测方法,其特征在于,所述步骤3中,提取深层特征,实现方式为,将提取的特征i
iv
输入四个双重卷积块中再和降采样块进行拼接最终得到深层特征f
c
,其中双重卷积块有4个,降采样块有2个,其过程可以表示为:其中表示大小为3
×
3的双重卷积核,f
downi
(
·
)为第i个降采样块;降采样块由平均池化,多层卷积组成,平均池化的大小为2*2,步长为2,卷积核大小为3*3,第一个降采样块过程可以表示为:f
down1
=conv(avg(conv(conv(avg(i
iv
)))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)第二个降采样块结构相似,但平均池化大小为1*2,步长为1*2,表示为:conformer时序特征提取网络包含feed forward模块、卷积模块、自注意力模块和第二个feed forward模块等四个模块,其过程可以表示为:其中f
confi
为第i个模块输出的时序特征,f
ci
为第i个模块输入的深度特征,layernorm(
·
)为层归一化操作,ffm(
·
)为feed forward模块,conv(
·
)为卷积模块,mhsa(
·
)为多
头注意力机制模块;在feed forward模块中,通过层归一化维度为512的输入特征,再经过线性层,引入activationbalancer和激活函数doubleswish,集中关注特征中的空间坐标信息,并使用dropout层调整网络,其中doubleswish:在卷积模块中,首先,一个点向卷积和一个门控线性单元glu,接下来是一个一维深度卷积层,batchnorm层在卷积层之后帮助训练深度模型,增强模型拟合能力;在自注意力模块中,主要采用多头注意力,同时集成了超长转换器模型transformer-xl中的相对正弦位置编码方案;相对位置编码允许自注意模块对不同的输入长度进行更好的泛化,并且生成的编码器对话语长度的变化具有更强的鲁棒性,同时结合带有dropout的预残差单元,有助于训练和正则化更深层次的模型,最后经过第二个feed forward模块输出深层时序特征。将步骤3提取到的深层特征和时序特征通过全连接层作为分类任务执行输出声音事件的标签输出和多输出回归任务执行实现声音的定位。4.根据权利要求1所述的一种基于注意力机制的声音事件定位与检测方法,其特征在于,所述步骤4中,全连接层作为分类任务执行声音事件的标签输出和多输出回归任务,实现方式为,将输出深层时序特征输入全连接层分别得到doa位置坐标向量和sed结果,其过程可以表示为:其中y
sed
,y
doa
分别为sed和doa任务的输出,sigmod(
·
)和tanh(
·
)为激活函数,linear(
·
)将特征向量维度进行转换并拼接特征得到识别结果。

技术总结
本发明公开一种基于注意力机制的声音事件定位与检测方法。该方法使用两个任务支路分别进行声音事件检测(Sound Event Detection,SED)和声源定位(Sound Source Localization,SSL),其中由4个密集网络作为骨干网络提取声音深层特征,每个密集网络由一个双重卷积和一个向量乘法模块组成。利用特征提取加强模块,通过下采样操作和卷积操作,捕获更丰富的声音特征,使生成的模型可以更加有效预测出声音事件的位置信息。利用卷积注意力模块,可以更有效的对序列数据中的局部特征和全局特征的统一建模,减少训练参数量。最后使用全连接层,将时序信号特征输出为声音事件的位置信息。最佳结果预测值为0.616,相较L3DAS22Challenge Task2中第二名预测值提升了1.6%。本发明具有准确率较强,训练时间较少的特点。训练时间较少的特点。训练时间较少的特点。


技术研发人员:雷帮军 杨雄 朱忠敏 徐文发
受保护的技术使用者:三峡大学
技术研发日:2023.06.08
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐