一种跨模态音视频融合语音分离方法

未命名 07-14 阅读:153 评论:0


1.本发明涉及一种跨模态音视频融合语音分离方法,属于语音分离领域。


背景技术:

2.在人机交互中,干净且高质量的声音输入,能有效提高语音识别(automatic speech recognition,asr)和自然语言理解(natural language processing,nlp)的准确度。然而现实生活中,由于环境的复杂性,存在噪声和其他说话者的干扰,很难直接得到干净的语音信号。因此,需要采用语音分离技术对复杂场景下的语音信号进行前端处理,语音分离的最终目的是将目标声音与背景噪声(环境噪声,人声等)进行分离。
3.近年来,国内外学者针对语音分离提出了多种模型方法。基于传统信号处理的角度,人们利用统计学方法解决语音分离。例如wang提出的计算机场景分析(computational auditory scene analysis,casa)、schmidt提出的非负矩阵分解(non-negative matrix factorization,nmf),但casa、nmf学习能力不足,限制了整体性能进一步提高。随着深度学习的快速发展,以深度神经网络(deep neural network,dnn)为代表的深度模型在语音分离方面取得显著的进展,如深度聚类(deep clustering)和置换不变训练(permutation invariant training,pit)。然而,这些基于音频流的方法都存在标签置换问题,很难将分离的音频与混合信号中的说话者相对应。
4.在拥挤的餐厅和嘈杂的酒吧,人类的感知系统能有效处理复杂环境。例如人类能只关注自己感兴趣的声音,而忽略外部的干扰声音。这种复杂场景下的语音感知能力不仅依赖人类听觉系统,还得益于视觉系统,共同促进多感官的感知。受此启发,基于音视频融合的多模态主动说话者检测、音视频语音分离、音视频同步等研究被相继提出。
5.gabbay a等人提出基于视频帧的语音分离网络,利用视频帧中面部信息辅助进行语音分离,虽然有效的减少了混合噪声对分离的影响,但是该方法具有局限性,只能在有限的环境下取得较好分离效果,不具有泛化性。afouras t等人在gabbay a基础上,提出用光谱信号代替图像信号作为时间信号的分离方案,并用softmask进行预测。谷歌最早提出基于视频和声音联合表征的多流体卷积神经网络,该方法从输入的视频流提取人脸图像,然后从音频流提取音频特征,通过在卷积层进行特征拼接,得到融合后的音视频特征,将音视频特征输入双向长短时记忆网络(bi-directional long short-term memory,bilstm),输出二值掩蔽(ideal binary mask,ibm),最后将ibm与混合语音语谱图相乘得到分离语音。为了提高不同场景下音视频语音分离的鲁棒性,gao等人提出了多任务建模策略。该策略通过学习跨模态的嵌入来建立人脸和声音的匹配,通过人脸和声音的相互关联,有效解决了音视频不一致问题。xiong等人在多任务建模基础上,提出了基于跨模态注意的联合特征表示的音视频语音分离,将多任务建模策略应用于音视频融合,提高了视觉信息利用率。
6.上述利用视觉信息辅助进行语音分离方法,可以从混合声音中自动分离出对应视觉部分的音频信号,有效的解决标签置换问题。但这些方法提取视觉特征仅包括唇部特征,在小规模数据集上,面对更复杂的场景时容易受到干扰。音视频融合采用简单的特征拼接
或叠加方法,融合方式单一,未能充分融合音视频特征。


技术实现要素:

7.针对视觉特征的鲁棒性差、音视频融合方式单一的问题,本发明提出一种结合光流算法与注意力机制的u-net网络跨模态音视频融合语音分离方法。
8.本发明的一种跨模态音视频融合语音分离方法,所述方法包括:
9.s1、利用自注意力机制计算音频特征与视觉特征相关性;
10.s2、在自注意力机制中加入可学习参数,自适应调整注意力权重,加快模型的收敛速度;
11.s3、在自注意力机制的基础上,采用多头注意力机制,利用不同的子空间计算音频特征与视觉特征相关性;
12.s4、通过对不同子空间的计算结果进行累加,获得音频和视觉信息的联合特征表示,以提高语音分离效果。
13.优选的是,所述s1包括:
14.s11、通过farneback算法和轻量级网络shufflenet v2分别提取运动特征和唇部特征;
15.s12、将运动特征与唇部特征进行仿射变换;
16.优选的是,所述s2中,跨模态融合模块采用了跨模态注意力融合(cross-modal attention,cma)策略。自注意力机制的可表示为
[0017][0018]
其中,q、k、v分别表示查询、键、值,dk表示k的维度大小,由上式可得,跨模态注意力融合(scaled dot-product cross-modal attention,scma)可表示为:
[0019][0020]
其中,f
vm
和fa分别表示视觉特征和音频特征,f
vm
经过二维卷积得到q
vm
和k
vm
,fa音频特征经过二维卷积得到va,d是q
vm
,k
vm
和va的维度,输出为音视频融合特征。
[0021]
优选的是,所述s3中,在scma基础上,采用多头注意力跨模态融合(multiple head cross-modal attention,hcma),hcma就是将scma过程重复进行三次后,再把输出合并起来,最终输出音视频融合特征。
[0022]
优选的是,所述s4中,利用多个线性子空间去获取来自音视频的不同方面的信息,从而进一步增强模型拟合性能,更充分地利用不同模态的相互关系。
[0023]
本发明的有益效果,本发明充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(farneback)算法和u-net网络,提出跨模态融合的光流-音视频语音分离(flow-avss)模型。通过farneback算法和轻量级网络shufflenet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(tcn)得到视觉特征,为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合音视频特征,最后融合音视频特征经过u-net分离
网络得到分离语音。利用pesq、stoi及sdr评价指标,在avspeech数据集进行实验测试。研究表明,本发明的方法与纯语音分离网络和仅采用特征拼接的音视频分离网络相比,性能上分别提高了2.23db和1.68db。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。
附图说明
[0024]
图1为二维光流矢量表示观测场景中三维速度在成像表明投影图;
[0025]
图2为q,k,v计算过程图;
[0026]
图3为定义多组a,生成多组q,k,v图;
[0027]
图4为跨模态融合的光流-音视频分离框架图;
[0028]
图5为跨模态融合模块整体结构图;
[0029]
图6为仿射变换和tcn模块图;
[0030]
图7为跨模态注意力融合策略图;
[0031]
图8为pesq算法框图;
具体实施方式
[0032]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0034]
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。本实施方式的结合光流算法与注意力机制的u-net网络跨模态音视频融合语音分离方法是首先通过farneback算法和轻量级网络shufflenet v2分别提取运动特征和唇部特征,其次将运动特征与唇部特征进行仿射变换,经过时间卷积模块(tcn)得到视觉特征,之后将视觉特征与音频特征进行跨模态融合,得到融合音视频特征,最后将融合音视频特征经过u-net分离网络得到分离语音。系统总体框图如图4所示。本实施方式一种跨模态音视频融合语音分离的实现,包括:
[0035]
s1、利用自注意力机制计算音频特征与视觉特征相关性,包括:
[0036]
s11、通过farneback算法和轻量级网络shufflenet v2分别提取运动特征和唇部特征;
[0037]
s12、将运动特征与唇部特征进行仿射变换;
[0038]
光流可以被认为是在一幅图像中亮度模式的表面运动分布,是图像中所有像素点的二维速度场,其中每个像素的二维运动向量可以理解为一个光流,所有的光流构成光流场,如图1所示。
[0039]
本实施利用稠密farneback光流算法分析唇部的运动信息。farneback光流算法假设亮度恒定不变、时间连续运动或是“小运动”、光流的变化几乎是光滑的。像素在唇部图像第一帧的光强度为i(x,y,t)(其中x、y代表像素点当前位置、t代表所在的时间维度),像素
点移动了(dx,dy)的距离到下一帧,用了dt时间,根据亮度恒定不变,可得:
[0040]
i(x,y,t)=i(x+dx,y+dy,t+dt)
[0041]
将上式右端进行泰勒展开,可得:
[0042][0043]
其中,ε代表二项无穷小项,可忽略不计。再将上述两式结合后同除dt,可得:
[0044][0045]
设u,v分别为光流在x轴与y轴的速度矢量,可得:
[0046][0047]
令分别表示图像中像素点的灰度沿x,y,t方向的偏导。综上可得:
[0048]ix
u+iyv+i
t
=0
[0049]
其中,i
x
,iy,i
t
可由唇部图像数据求得,(u,v)为所求的光流矢量。
[0050]
注意力机制是在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小。注意力机制的核心公式为:
[0051][0052]
q,k,v计算过程为:
[0053]
q=xaq[0054]
k=xak[0055]
v=xav[0056]
其中,x为输入矩阵,a表示权重矩阵,aq、ak和av是三个可训练的参数矩阵。输入矩阵x分别与aq、ak和av相乘,生成q,k,v,相当于进行了线性变换。attention使用经过矩阵乘法生成的三个可训练参数矩阵,增强了模型的拟合能力。q,k,v的计算过程如图2所示。
[0057]
为了进一步增强模型拟合性能,transformer对attention继续扩展,提出了多头注意力。如图3所示。
[0058]
通过稠密光流(farneback)算法和轻量级网络shufflenet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块得到视觉特征。跨模态融合的光流-音视频分离框架如图4所示。
[0059]
本实施提出了基于注意力机制的跨模态融合策略,跨模态融合模块的整体结构如图5所示。在进行特征融合的时候,先利用特征线性调制(feature-wise linear modulation,film)对唇部特征和运动特征进行特征仿射变换处理,表示为:
[0060]
film(fm,fv)=γ(fm)
·fv
+β(fm)
[0061]
其中,γ(
·
)和β(
·
)是单层的全连接层,输出是缩放向量和偏移向量。
[0062]
运动特征fm经过线性变换与fv相乘进行仿射变换。然后送入tcn,tcn由一维卷积、
批量归一化(batch normalization,bn)和整流线性单元(rectified linear unit,relu)组成,通过tcn模块可以捕获唇部特征中的时间关系。最后tcn模块输出视觉特征f
vm
,如图6所示。
[0063]
s2、在自注意力机制中加入可学习参数,自适应调整注意力权重,加快模型的收敛速度:
[0064]
受transformer多头注意力启发,跨模态融合模块采用了跨模态注意力融(cross-modal attention,cma)策略。在表示自注意力机制的式
[0065][0066]
中,加入可学习参数λ,不仅能自适应的调整注意力权重,还能作为残差连接i(fm),由上式可得,注意力跨模态融合(scaled dot-product cross-modal attention,scma)可表示为:
[0067][0068]
其中,视觉特征f
vm
经过二维卷积得到q
vm
和k
vm
,音频特征fa经过二维卷积得到va,d是q
vm
,k
vm
和va的维度,输出为音视频融合特征。具体融合过程如图7(a)所示。
[0069]
s3、在自注意力机制的基础上,采用多头注意力机制,利用不同的子空间计算音频特征与视觉特征相关性:
[0070]
为了进一步增强模型拟合性能,充分利用不同模态的相互关系。在scma基础上,采用多头注意力跨模态融合(multiple head cross-modal attention,hcma),利用多个子空间让模型去关注不同方面的信息,如图7(b)所示。
[0071]
s4、通过对不同子空间的计算结果进行累加,获得音频和视觉信息的联合特征表示,以提高语音分离效果:
[0072]
本实施利用hcma将scma过程重复进行三次后,再把输出合并起来,输出音视频融合特征。hcma计算过程如下。
[0073]qvmi
=q
vmwiq
,k
vmi
=k
vmwik
,v
ai
=vaw
iv
,i=1,2,3
[0074]
headi=scma(q
vmi
,k
vmi
,v
ai
),i=1,2,3
[0075]
hcma(q
vm
,k
vm
,va)=concact(head1,head2,head3)
[0076]
其中,i表示多头注意力头数,w
iq
、w
ik
和w
iv
表示权重训练矩阵,q
vmi
、k
vmi
、v
ai
分别表示不同子空间下q
vm
、k
vm
、va,headi表示自注意力机制的融合结果。
[0077]
实验:
[0078]
1、实验环境
[0079]
本实施提出的跨模态融合flow-avss网络,是用pytorch工具包实现。通过farneback算法计算唇部区域内的光流,并对训练数据进行预处理。使用权重衰减为10-2
的adamw作为网络优化器,初始学习速率为10-4
,并且每次迭代以8
×
104将学习速率减半。实验设备采用处理器inter(r)core(tm)i7-9700 cpu@3.00ghz,安装内存32,操作系统64位windows10,gpu型号geforce rtx 2080ti,实验在gpu模式下运行,一次训练所抓取的数据样本量为8。
[0080]
2、语音数据集
[0081]
语音数据集采用avspeech数据集,avspeech数据集中语音长度在3s到10s之间,在每个片段中,视频中唯一可见的面孔和原声带中唯一可以听到的声音属于一个说话人。该数据集包含了约4700个小时的视频片段,大约有15万个不同的说话者,跨越了各种各样不同性别的人、语音和面部姿态。
[0082]
干净的语音剪辑来自avspeech数据集,从数据集中不同长度的片段中截取3s不重叠的语音片段,对于视频剪辑也是来自avspeech数据集,同样截取与音频时间相对应的时长为3s的视频段,本次实验随机选取1000个干净语音,然后按照每三个语音混合的方法,生成混合的语音数据库,再从此混合语音中选取20000个可懂度相当的混合语音作为本次实验的数据集,其中90%作为训练集,剩余的10%作为测试集。本实施利用的混合语音按如下方式生成,为
[0083]
mix=avsi+avsj+avsk[0084]
其中,avsi、avsj和avsk是来自avspeech数据集的不同源视频的干净语音;mix为生成的混合音频。
[0085]
3、实验结果
[0086]
为了分析跨模态融合的flow-avss网络性能,利用sdr、pesq及sto评价语音分离效果,结果如表1所示。表中,为了简化表达,唇部网络、运动网络分别缩写为lip,flow。lip+flow+特征拼接表示加入运动特征后,采用特征拼接方法的网络结构,lip+flow+scma表示加入运动特征后,采用自注意力机制跨模态融合的网络结构,lip+flow+hcma表示加入运动特征后,采用多头注意力跨模态融合的网络结构。
[0087]
表1语音分离的性能评估
[0088][0089]
由表1可知,lip+flow+特征拼接的sdr值为8.73,相比于av基线未加光流的sdr提升了0.8db,说明加入光流后,提高了视觉特征鲁棒性,有效提高音视频语音分离性能。lip+flow+scma、lip+flow+hcma的sdr值分别为9.25db、9.96db,相比lip+flow+特征拼接,sdr分别提高了0.52db、1.23db,说明采用跨模态注意力,相比特征拼接,能更好利用不同模态之间相互关系,得到更理想的音视频特征。
[0090]
lip+flow+hcma的sdr值为9.96db,相比lip+flow+scma,sdr提高了0.71db,多头注意力中利用了多个学习q、k、v的权重矩阵,该权重矩阵是独立地随机初始化,然后将输入的视觉特征映射到不同的子空间,从而获得更多与音频特征关联性强的视觉信息,通过对scma单次结果的累加降维,最终获得视觉信息利用率更高的音视频特征,获得了更好的分离性能。

技术特征:
1.一种跨模态音视频融合语音分离方法,其特征在于,包括:s1、利用自注意力机制计算音频特征与视觉特征相关性;s2、在自注意力机制中加入可学习参数,自适应调整注意力权重,加快模型的收敛速度;s3、在自注意力机制的基础上,采用多头注意力机制,利用不同的子空间计算音频特征与视觉特征相关性;s4、通过对不同子空间的计算结果进行累加,获得音频和视频信息的联合特征表示,以提高语音分离效果。2.根据权利要求1所述的跨模态音视频融合语音分离方法,其特征在于,所述s1包括:s11、通过farneback算法和轻量级网络shufflenet v2分别提取运动特征和唇部特征;s12、将运动特征与唇部特征进行仿射变换。3.根据权利要求1所述的跨模态音视频融合语音分离方法,其特征在于,所述s2中:跨模态融合模块采用了跨模态注意力融合(cross-modal attention,cma)方法,自注意力机制可表示为其中,q、k、v分别表示查询、键、值,d
k
表示k的维度大小,由上式可得,跨模态注意力融合(scaled dot-product cross-modal attention,scma)可表示为:其中,f
vm
和f
a
分别表示视觉特征和音频特征,f
vm
经过二维卷积得到q
vm
和k
vm
,f
a
音频特征经过二维卷积得到v
a
,d是q
vm
,k
vm
和v
a
的维度,输出为音视频融合特征。4.根据权利要求1所述的跨模态音视频融合语音分离方法,其特征在于,所述s3中:在scma的基础上,采用多头注意力跨模态融合(multiple head cross-modal attention,hcma)方法,hcma就是将scma过程重复进行三次后,再把输出合并起来,最终输出音视频融合特征。5.根据权利要求1所述的跨模态音视频融合语音分离方法,其特征在于,所述s4中:利用多个线性子空间对二维卷积结果进行处理以获取来自音视频不同方面的信息,进一步增强模型拟合性能,更加充分地利用不同模态的相互关系。

技术总结
本发明充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合稠密光流(Farneback)算法和U-Net网络,提出跨模态融合的光流-音视频语音分离(Flow-AVSS)模型。该模型通过Farneback算法和轻量级网络ShuffleNet v2分别提取运动特征和唇部特征,然后将运动特征与唇部特征进行仿射变换,经过时间卷积模块(TCN)得到视觉特征,为充分利用到视觉信息,在进行特征融合时采用多头注意力机制,将视觉特征与音频特征进行跨模态融合,得到融合音视频特征,最后融合音视频特征经过U-Net分离网络得到分离语音。利用PESQ、STOI及SDR评价指标,在AVspeech数据集进行实验测试。本方法与纯语音分离网络和仅采用特征拼接的音视频分离网络相比,性能上分别提高了2.23dB和1.68dB。由此表明,采用跨模态注意力进行特征融合,能更加充分利用各个模态相关性,增加的唇部运动特征,能有效提高视频特征的鲁棒性,提高分离效果。果。果。


技术研发人员:兰朝凤 蒋朋威 赵世龙 郭锐 韩闯 韩玉兰 郭小霞
受保护的技术使用者:哈尔滨理工大学
技术研发日:2023.04.14
技术公布日:2023/7/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐