一种基于毫米波雷达的多模态语音识别系统及方法

未命名 07-15 阅读:357 评论:0


1.本发明属于物联网无线智能感知领域,具体涉及一种基于毫米波雷达的多模态语音识别系统及方法。


背景技术:

2.如今,随着语音识别技术的实用化,语音助手被广泛应用于各种应用场景,为我们的生活带来更多便利。特别是语音助手中的语音识别被用于提高智能驾驶、智能家居、智能医疗等领域的人机交互效率。比如,智能会议纪要,可以在会议室部署语音助手,将人声转为文字。此外,为了安全驾驶,语音助手还可以用于智能驾驶,无需手动触摸即可识别驾驶员的指令。目前语音助手中的语音识别技术主要是基于麦克风来采集人类主体的语音信号。基于麦克风的语音识别在没有其他语音干扰和环境噪声的情况下效果很好。然而,在多声源和环境噪声的情况下,基于麦克风的语音识别性能会急剧下降。例如,在智能驾驶领域,当车内多名乘客同时说话时,语音助手中会出现多种声音混合在一起的情况,导致驾驶员无法与语音助手进行有效交互。因此,本质上需要新的方法来收集来自人类主体的语音相关信号,以确保语音识别的性能。
3.语音识别技术主要有两种方法来提高多声源和环境噪声情况下的识别性能:
4.1、基于单传感器单模态的语音识别;使用单个传感器单模态(例如,麦克风、wifi、rfid和摄像头等)来收集与语音相关的信号。由于语音信号是一个宽频带信号,而且易受环境噪音的干扰,通常基于单传感器单模态在多声源和环境噪声情况下无法取得良好的性能。
5.2、基于多传感器的多模式融合语音识别;这种方法同时使用不同模态传感器同时收集语音相关信号(例如音频、视频和无线信号)。然而,现有的基于多模式融合的方法要么存在隐私问题(摄像头和麦克风融合),感知范围受限(超声波和麦克风融合)或者增加额外的硬件成本,并且在时间和空间上难以实现同步。
6.因此,基于上述考虑,有必要提出一种可以应用于多声源和高环境噪声场景的创新的语音识别系统,利用单个传感器同时同一目标的宏观和微观两个维度的特征,考虑到两个维度的特征的相关性和互补性,提出一种基于transfuser的特征融合网络框架,从而提高低信噪比情况下语音识别的准确性、鲁棒性、安全性、也可避免侵犯用户隐私。


技术实现要素:

7.针对于上述现有技术的不足,本发明的目的在于提供一种基于毫米波雷达的多模态语音识别系统及方法,以解决现有的在多人场景、高环境噪声等场景,语音识别准确率低、实时性能差、鲁棒性低的问题。
8.为达到上述目的,本发明采用的技术方案如下:
9.本发明的一种基于毫米波雷达的多模态语音识别系统,包括:特征提取模块和多模态融合与识别模块;
10.所述特征提取模块,利用毫米波雷达发射调频连续波(fmcw)信号,并从反射信号中提取嘴唇运动特征和声带振动特征;
11.所述多模态融合与识别模块,用于融合嘴唇运动特征和声带振动特征,并进行语音识别。
12.进一步地,所述特征提取模块中毫米波雷达发射端发射调频连续波信号,信号特征为:每组由m帧chirp信号组成,每帧chirp信号的周期为t,chirp间隔时间t
interval
起始频率fc,每组发射信号包含m帧,持续时间t
frame
;接收毫米波雷达所有回波信号,将回波信号的每个chirp信号与发射信号的chirp信号进行混频从而获得解调的中频信号:
[0013][0014]
式中,a表示信号增益,b表示chirp信号带宽,d表示目标与雷达之间的距离,λ表示波长,c表示光速;
[0015]
以采样率为f
adc
对中频信号s
if
(t)进行降采样,采样点为n。
[0016]
进一步地,所述调频连续波发射信号s
tx
(t)和回波信号s
rx
(t)的函数表达式为:
[0017][0018][0019]
其中,α表示信号路径损耗,a表示信号增益,j表示虚数单位,fc表示信号得起始频率,b表示chirp信号的带宽,t表示chirp信号周期,t表示时间,τ表示回波信号的延迟时间,φ0表示初始相位值。
[0020]
进一步地,所述提取嘴唇运动特征具体包括:
[0021]
检测发出语音用户所在位置,从每组信号中提取一帧chirp信号,对每个chirp信号的采样点执行n点离散傅里叶变换(dft)算法,通过检测离散傅里叶变换峰值位置确定发出语音用户嘴唇所在位置;在发出语音用户位置处提取嘴唇运动相关的信号相位变化为:δφ(t)=4πδd(t)/λ,将每帧chirp信号所检测到目标峰值相位信号δφ(t)拼接;通过截止频率f
stop
的低通滤波滤除高频信号、以f
lip
的采样率进行降采样、对降采样后的信号差分获取发出语音用户嘴唇运动相关的信号s
l+d
(t),表示为:
[0022]sl+d
(t)=s
l
(t)+sd(t)
[0023]
其中,s
l
(t)表示发出语音用户嘴唇运动信号,sd(t)表述动态干扰信号;通过执行语音活动检测算法来判别是否存在语音活动;并通过动态干扰去除算法进行滤波;最后得到嘴唇运动相关的特征l
p
表示为:
[0024][0025]
其中,stft表示短时傅里叶变换。
[0026]
进一步地,所述语音活动检测算法进行判别具体为:
[0027]
(11)嘴唇运动预检测:考虑到用户语音活动中包含嘴唇运动和声带振动同时存在,使用基于阈值的能量检测算法来估计窗口内嘴唇运动信号的能量强度;具体的,以δτ时间窗口分割嘴唇运动信号,再计算其窗口内的能量值e
l
(t,t+δτ),设置阈值e
th
判断是否
产生嘴唇运动;
[0028]
(12)声带振动验证:对产生嘴唇运动的δτ时间内的声带振动信号进一步分割,以dt/2的时间窗口滑动分割,计算信号能量值
[0029]
(13)决策判别:将δτ时间内的嘴唇运动能量特征e
l
(δτ)和声带振动能量特征es(δτ)组合为新的特征向量:e(δτ)=concat(e
l
(δτ),es(δτ)),其中concat表示特征向量拼接,最后利用svm对拼接后的特征向量进行分类判别。
[0030]
进一步地,所述动态干扰去除算法进行滤波具体为:
[0031]
(21)已知range bin为r处的包含身体干扰的嘴唇运动信号为s
l+d
(r),估算身体运动的所产生的干扰信号表示为:
[0032][0033]
其中,αi表示第i个range bin的权重系数,且
[0034]
(22)差分算法去除动态干扰信号:分别对包含干扰的嘴唇运动信号s
l+d
和步骤(21)中估算的身体运动的所产生的干扰信号执行短时傅里叶变换(stft),在频域中去除身体运动所带来的干扰后得到无干扰的嘴唇运动信号估计值即即获得无低频动态干扰的嘴唇运动信号估计值。
[0035]
进一步地,所述提取声带振动特征具体包括:
[0036]
通过声带振动引起的信号相位δφ的变化来定位发出语音用户位置,从每组信号中提取一帧chirp信号,对每个chirp信号的采样点执行n点离散傅里叶变换(dft)算法,通过检测离散傅里叶变换峰值位置确定发出语音用户声带振动位置rs;然后将所有帧的rs位置的信号组合、相位差分提取声带振动信号、高通滤波去除低频干扰信号和噪声,得到无干扰的声带振动信号s
vib
;通过执行语音活动检测算法来判别是否存在语音活动;最后通过声带振动语音增强方法对由声带提取的语音共振峰信号进行高频信号估计,即可得到声带增强语音信号ls。
[0037]
进一步地,所述声带振动语音增强方法来得到增强语音信号ls;具体流程如下:
[0038]
(31)生成增强语音信号频谱:对输入的声带振动信号s
vib
进行短时傅里叶变换(stft),然后通过设计好的生成器网络gennet(
·
)输出含有高频信号的声带振动语音频谱图:l
vib
=gennet(stft(s
vib
));
[0039]
(32)逆生成器网络生成增强语音信号频谱:利用生成器的逆网络结构invgennet(
·
)将步骤(31)中输出的声带振动语音频谱图l
vib
进行逆生成和逆傅里叶变换(istft),即通过满足一致性约束:来保证生成器网络输出结果的准确准确性;
[0040]
(33)判别输出结果:将生成的声带振动语音频谱图l
vib
(假样本)和由麦克风采集的真实语音信号频谱图(真样本)分别输入判别器网络desnet(
·
)进行识别,直到判别器无法识别真假样本,即表明生成器生成的振动语音频谱图l
vib
包含高频信号分量,即:ls=opt(l
vib
)。
[0041]
进一步地,所述多模态融合与识别模块将提取到的嘴唇运动信号l
p
和声带增强语
音信号ls进行融合,利用嘴唇运动特征编码器对l
p
编码为encoder(l
p
),利用声带振动特征编码器将ls编码为encoder(ls);然后将编码后的嘴唇运动特征encoder(l
p
)和声带振动特征encoder(ls)利用transfuser结构进行特征融合,得到融合后的特征f
fusion
,表示为:
[0042]ffusion
=transfuser[encoder(l
p
),encoder(ls)]
[0043]
其中,特征编码器encoder(
·
)由位置编码器、正则化、多输入注意力子模块att(
·
)组成,具体表示为:
[0044][0045]
其中,q、k和v分别表示搜索矩阵、关键值矩阵和特征值矩阵,表示尺度因子;最后利用语音识别方法对融合后的特征进行分类识别。
[0046]
进一步地,所述多模态融合与识别模块采用基于transfuser结构的多模态特征融合算法进行特征融合,具体如下:
[0047]
(41)获取去噪后的嘴唇运动特征和声带信号增强后的声带振动特征;
[0048]
(42)嘴唇运动特征编码:已知嘴唇运动频谱特征根据时间维度分割为2维的平面切片基于注意力机制的编码器编输出特征为:q
l
,k
l
,v
l
,通过正则化和前向传播输出嘴唇运动编码后特征;
[0049]
(43)声带振动特征编码:对输入的声带振动信号x=(x1,...,xi,xn),预编码后的特征为y=(y1,...,yi,yn),其中,最后,基于注意力机制的编码器编输出特征为:qs,ks,vs,通过正则化和前向传播输出声带振动编码特征;
[0050]
(44)交叉注意力机制:对嘴唇运动特征编码器输出的特征q
l
,k
l
,v
l
和声带振动特征编码器输出的特征qs,ks,vs,利用交叉注意力机制嘴唇运动特征和声带振动特征交换,即交叉后的嘴唇运动特征为:a
l
=att((k
l
,v
l
),qs),声带振动特征为:as=att((ks,vs),q
l
);
[0051]
(45)融合注意力机制:将交叉注意力机制的输出结果作为融合注意力机制的输入,即,融合注意力机制的输出特征表示:af=att((kf,vf),qs)+att((kf,vf),q
l
),其中,kf表示在步骤(44)交叉注意力机制中将嘴唇运动编码器输出的特征k
l
和嘴唇运动编码器输出的特征ks进行向量拼接得到,即:kf=concat(k
l
,ks);同理vf=concat(v
l
,vs)。
[0052]
进一步地,所述语音识别方法具体包括:解码器和线性映射;对多模态融合后的特征通过语音识别网路进行识别,接收融合后的特征f
fusion
,利用解码器decoder(
·
)对f
fusion
进行解析得到解码后的音标相关特征f
symbol
,即:f
symbol
=decoder(f
fusion
);通过线性映射softmax输出音标识别结果。
[0053]
本发明的一种基于毫米波雷达的多模态语音识别方法,基于上述系统,步骤如下:
[0054]
1)利用毫米波雷达发射持续发射fmcw信号,并接收回波信号;
[0055]
2)利用接收到的回波信号确定发出语音用户所在位置,分别提取相应的声带振动特征信号和嘴唇运动特征信号并进行预处理;
[0056]
3)利用语音活动检测算法过滤非有效语音活动信号;
[0057]
4)对提取到的嘴唇运动特征信号进行噪声干扰去除,对提取到的声带振动特征信号进行振动语音增强算法处理;
[0058]
5)将嘴唇运动特征信号和声带振动特征信号进行融合;
[0059]
6)对融合后的特征进行语音识别。
[0060]
本发明的有益效果:
[0061]
1、通过采用动态干扰去除算法,使得提取到更高信噪比的嘴唇运动特征信号,从而提高了语音识别的准确率和鲁棒性;
[0062]
2、通过在前端采用语音活动检测算法,实现了过滤非语音活动的效果,减少了后端语音增强,特征融合和语音识别等不必要的资源消耗,从而提高了资源利用率和系统处理速度;
[0063]
3、通过融合嘴唇运动特征和声带振动特征技术,实现了两种特征的互补和增强的效果,使得语音识别的准确率得到进一步的提高。
[0064]
4、本发明通过单一传感器同时感知统一目标两个模态的特征并将其融合,实现在多用户、高噪声干扰等场景下的用户有效语音识别。
附图说明
[0065]
图1为本发明系统的原理图。
[0066]
图2为语音活动检测流程图。
[0067]
图3为声带振动语音增强的原理图。
[0068]
图4为嘴唇运动特征编码器的结构图。
[0069]
图5为声带振动特征编码器的结构图。
[0070]
图6为多模态融合与识别模块结构原理图。
具体实施方式
[0071]
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
[0072]
参照图1-图6所示,本发明的一种基于毫米波雷达的多模态语音识别系统,包括:特征提取模块和多模态融合与识别模块;
[0073]
所述特征提取模块,利用毫米波雷达发射调频连续波(fmcw)信号,并从反射信号中提取嘴唇运动特征和声带振动特征;
[0074]
其中,所述特征提取模块中毫米波雷达发射端发射调频连续波信号,信号特征为:每组由m帧chirp信号组成,每帧chirp信号的周期为t,chirp间隔时间t
interval
起始频率fc,每组发射信号包含m帧,持续时间t
frame
;接收毫米波雷达所有回波信号,将回波信号的每个chirp信号与发射信号的chirp信号进行混频从而获得解调的中频信号:
[0075][0076]
式中,a表示信号增益,b表示chirp信号带宽,d表示目标与雷达之间的距离,λ表示波长,c表示光速;
[0077]
以采样率为f
adc
对中频信号s
if
(t)进行降采样,采样点为n。
[0078]
具体地,所述调频连续波发射信号s
tx
(t)和回波信号s
rx
(t)的函数表达式为:
[0079]
[0080][0081]
其中,α表示信号路径损耗,a表示信号增益,j表示虚数单位,fc表示信号得起始频率,b表示chirp信号的带宽,t表示chirp信号周期,t表示时间,τ表示回波信号的延迟时间,φ0表示初始相位值。
[0082]
具体地,所述提取嘴唇运动特征具体包括:
[0083]
检测发出语音用户所在位置,从每组信号中提取一帧chirp信号,对每个chirp信号的采样点执行n点离散傅里叶变换(dft)算法,通过检测离散傅里叶变换峰值位置确定发出语音用户嘴唇所在位置;在发出语音用户位置处提取嘴唇运动相关的信号相位变化为:δφ(t)=4πδd(t)/λ,将每帧chirp信号所检测到目标峰值相位信号δφ(t)拼接;通过截止频率f
stop
的低通滤波滤除高频信号、以f
lip
的采样率进行降采样、对降采样后的信号差分获取发出语音用户嘴唇运动相关的信号s
l+d
(t),表示为:
[0084]sl+d
(t)=s
l
(t)+sd(t)
[0085]
其中,s
l
(t)表示发出语音用户嘴唇运动信号,sd(t)表述动态干扰信号;通过执行语音活动检测算法来判别是否存在语音活动;并通过动态干扰去除算法进行滤波;最后得到嘴唇运动相关的特征l
p
表示为:
[0086][0087]
其中,stft表示短时傅里叶变换。
[0088]
具体地,所述语音活动检测算法进行判别具体为:
[0089]
(11)嘴唇运动预检测:考虑到用户语音活动中包含嘴唇运动和声带振动同时存在,使用基于阈值的能量检测算法来估计窗口内嘴唇运动信号的能量强度;具体的,以δτ时间窗口分割嘴唇运动信号,再计算其窗口内的能量值e
l
(t,t+δτ),设置阈值e
th
判断是否产生嘴唇运动;
[0090]
(12)声带振动验证:对产生嘴唇运动的δτ时间内的声带振动信号进一步分割,以dt/2的时间窗口滑动分割,计算信号能量值
[0091]
(13)决策判别:将δτ时间内的嘴唇运动能量特征e
l
(δτ)和声带振动能量特征es(δτ)组合为新的特征向量:e(δτ)=concat(e
l
(δτ),es(δτ)),其中concat表示特征向量拼接,最后利用svm对拼接后的特征向量进行分类判别。
[0092]
具体地,所述动态干扰去除算法进行滤波具体为:
[0093]
(21)已知range bin为r处的包含身体干扰的嘴唇运动信号为s
l+d
(r),估算身体运动的所产生的干扰信号表示为:
[0094][0095]
其中,αi表示第i个range bin的权重系数,且
[0096]
(22)差分算法去除动态干扰信号:分别对包含干扰的嘴唇运动信号s
l+d
和步骤(21)中估算的身体运动的所产生的干扰信号执行短时傅里叶变换(stft),在频域中去除身体运动所带来的干扰后得到无干扰的嘴唇运动信号估计值即
获得无低频动态干扰的嘴唇运动信号估计值。
[0097]
具体地,所述提取声带振动特征具体包括:
[0098]
通过声带振动引起的信号相位δφ的变化来定位发出语音用户位置,从每组信号中提取一帧chirp信号,对每个chirp信号的采样点执行n点离散傅里叶变换(dft)算法,通过检测离散傅里叶变换峰值位置确定发出语音用户声带振动位置rs;然后将所有帧的rs位置的信号组合、相位差分提取声带振动信号、高通滤波去除低频干扰信号和噪声,得到无干扰的声带振动信号s
vib
;通过执行语音活动检测算法来判别是否存在语音活动;最后通过声带振动语音增强方法对由声带提取的语音共振峰信号进行高频信号估计,即可得到声带增强语音信号ls。
[0099]
具体地,所述声带振动语音增强方法来得到增强语音信号ls;具体流程如下:
[0100]
(31)生成增强语音信号频谱:对输入的声带振动信号s
vib
进行短时傅里叶变换(stft),然后通过设计好的生成器网络gennet(
·
)输出含有高频信号的声带振动语音频谱图:l
vib
=gennet(stft(s
vib
));
[0101]
(32)逆生成器网络生成增强语音信号频谱:利用生成器的逆网络结构invgennet(
·
)将步骤(31)中输出的声带振动语音频谱图l
vib
进行逆生成和逆傅里叶变换(istft),即通过满足一致性约束:来保证生成器网络输出结果的准确准确性;
[0102]
(33)判别输出结果:将生成的声带振动语音频谱图l
vib
(假样本)和由麦克风采集的真实语音信号频谱图(真样本)分别输入判别器网络desnet(
·
)进行识别,直到判别器无法识别真假样本,即表明生成器生成的振动语音频谱图l
vib
包含高频信号分量,即:ls=opt(l
vib
)。
[0103]
所述多模态融合与识别模块,用于融合嘴唇运动特征和声带振动特征,并进行语音识别;
[0104]
其中,所述多模态融合与识别模块将提取到的嘴唇运动信号l
p
和声带增强语音信号ls进行融合,利用嘴唇运动特征编码器对l
p
编码为encoder(l
p
),利用声带振动特征编码器将ls编码为encoder(ls);然后将编码后的嘴唇运动特征encoder(l
p
)和声带振动特征encoder(ls)利用transfuser结构进行特征融合,得到融合后的特征f
fusion
,表示为:
[0105]ffusion
=transfuser[encoder(l
p
),encoder(ls)]
[0106]
其中,特征编码器encoder(
·
)由位置编码器、正则化、多输入注意力子模块att(
·
)组成,具体表示为:
[0107][0108]
其中,q、k和v分别表示搜索矩阵、关键值矩阵和特征值矩阵,表示尺度因子;最后利用语音识别方法对融合后的特征进行分类识别。
[0109]
具体地,所述多模态融合与识别模块采用基于transfuser结构的多模态特征融合算法进行特征融合,具体如下:
[0110]
(41)获取去噪后的嘴唇运动特征和声带信号增强后的声带振动特征;
[0111]
(42)嘴唇运动特征编码:已知嘴唇运动频谱特征根据时间维度分割
为2维的平面切片基于注意力机制的编码器编输出特征为:q
l
,k
l
,v
l
,通过正则化和前向传播输出嘴唇运动编码后特征;
[0112]
(43)声带振动特征编码:对输入的声带振动信号x=(x1,...,xi,xn),预编码后的特征为y=(y1,...,yi,yn),其中,最后,基于注意力机制的编码器编输出特征为:qs,ks,vs,通过正则化和前向传播输出声带振动编码特征;
[0113]
(44)交叉注意力机制:对嘴唇运动特征编码器输出的特征q
l
,k
l
,v
l
和声带振动特征编码器输出的特征qs,ks,vs,利用交叉注意力机制嘴唇运动特征和声带振动特征交换,即交叉后的嘴唇运动特征为:a
l
=att((k
l
,v
l
),qs),声带振动特征为:as=att((ks,vs),q
l
);
[0114]
(45)融合注意力机制:将交叉注意力机制的输出结果作为融合注意力机制的输入,即,融合注意力机制的输出特征表示:af=att((kf,vf),qs)+att((kf,vf),q
l
),其中,kf表示在步骤(44)交叉注意力机制中将嘴唇运动编码器输出的特征k
l
和嘴唇运动编码器输出的特征ks进行向量拼接得到,即:kf=concat(k
l
,ks);同理vf=concat(v
l
,vs)。
[0115]
具体地,所述语音识别方法具体包括:解码器和线性映射;对多模态融合后的特征通过语音识别网路进行识别,接收融合后的特征f
fusion
,利用解码器decoder(
·
)对f
fusion
进行解析得到解码后的音标相关特征f
symbol
,即:f
symbol
=decoder(f
fusion
);通过线性映射sofimax输出音标识别结果。
[0116]
此外,本发明还提供一种基于毫米波雷达的多模态语音识别方法,基于上述系统,步骤如下:
[0117]
1)利用毫米波雷达发射持续发射fmcw信号,并接收回波信号;
[0118]
2)利用接收到的回波信号确定发出语音用户所在位置,分别提取相应的声带振动特征信号和嘴唇运动特征信号并进行预处理;
[0119]
3)利用语音活动检测算法过滤非有效语音活动信号;
[0120]
4)对提取到的嘴唇运动特征信号进行噪声干扰去除,对提取到的声带振动特征信号进行振动语音增强算法处理;
[0121]
5)将嘴唇运动特征信号和声带振动特征信号进行融合;
[0122]
6)对融合后的特征进行语音识别。
[0123]
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

技术特征:
1.一种基于毫米波雷达的多模态语音识别系统,其特征在于,包括:特征提取模块和多模态融合与识别模块;所述特征提取模块,利用毫米波雷达发射调频连续波信号,并从反射信号中提取嘴唇运动特征和声带振动特征;所述多模态融合与识别模块,用于融合嘴唇运动特征和声带振动特征,并进行语音识别。2.根据权利要求1所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述特征提取模块中毫米波雷达发射端发射调频连续波信号,信号特征为:每组由m帧chirp信号组成,每帧chirp信号的周期为t,chirp间隔时间t
interval
起始频率f
c
,每组发射信号包含m帧,持续时间f
frame
;接收毫米波雷达所有回波信号,将回波信号的每个chirp信号与发射信号的chirp信号进行混频从而获得解调的中频信号:式中,a表示信号增益,b表示chirp信号带宽,d表示目标与雷达之间的距离,λ表示波长,c表示光速;以采样率为f
adc
对中频信号s
if
(t)进行降采样,采样点为n。3.根据权利要求2所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述调频连续波发射信号s
tx
(t)和回波信号s
rx
(t)的函数表达式为:(t)的函数表达式为:其中,α表示信号路径损耗,j表示虚数单位,f
c
表示信号得起始频率,t表示chirp信号周期,t表示时间,τ表示回波信号的延迟时间,φ0表示初始相位值。4.根据权利要求3所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述提取嘴唇运动特征具体包括:检测发出语音用户所在位置,从每组信号中提取一帧chirp信号,对每个chirp信号的采样点执行n点离散傅里叶变换算法,通过检测离散傅里叶变换峰值位置确定发出语音用户嘴唇所在位置;在发出语音用户位置处提取嘴唇运动相关的信号相位变化为:δφ(t)=4πδd(t)/λ,将每帧chirp信号所检测到目标峰值相位信号δφ(t)拼接;通过截止频率f
stop
的低通滤波滤除高频信号、以f
lip
的采样率进行降采样、对降采样后的信号差分获取发出语音用户嘴唇运动相关的信号s
l+d
(t),表示为:s
l+d
(t)=s
l
(t)+s
d
(t)其中,s
l
(t)表示发出语音用户嘴唇运动信号,s
d
(t)表述动态干扰信号;通过执行语音活动检测算法来判别是否存在语音活动;并通过动态干扰去除算法进行滤波;最后得到嘴唇运动相关的特征l
p
表示为:其中,stft表示短时傅里叶变换。5.根据权利要求4所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述语
音活动检测算法进行判别具体为:(11)嘴唇运动预检测:考虑到用户语音活动中包含嘴唇运动和声带振动同时存在,使用基于阈值的能量检测算法来估计窗口内嘴唇运动信号的能量强度;具体的,以δτ时间窗口分割嘴唇运动信号,再计算其窗口内的能量值e
l
(t,t+δτ),设置阈值e
th
判断是否产生嘴唇运动;(12)声带振动验证:对产生嘴唇运动的δτ时间内的声带振动信号进一步分割,以dt/2的时间窗口滑动分割,计算信号能量值(13)决策判别:将δτ时间内的嘴唇运动能量特征e
l
(δτ)和声带振动能量特征e
s
(δτ)组合为新的特征向量:e(δτ)=concat(e
l
(δτ),e
s
(δτ)),其中concat表示特征向量拼接,最后利用svm对拼接后的特征向量进行分类判别。6.根据权利要求4所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述动态干扰去除算法进行滤波具体为:(21)已知range bin为r处的包含身体干扰的嘴唇运动信号为s
l+d
(r),估算身体运动的所产生的干扰信号表示为:其中,α
i
表示第i个range bin的权重系数,且(22)差分算法去除动态干扰信号:分别对包含干扰的嘴唇运动信号s
l+d
和步骤(21)中估算的身体运动的所产生的干扰信号执行短时傅里叶变换(stft),在频域中去除身体运动所带来的干扰后得到无干扰的嘴唇运动信号估计值即即获得无低频动态干扰的嘴唇运动信号估计值。7.根据权利要求3所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述提取声带振动特征具体包括:通过声带振动引起的信号相位δφ的变化来定位发出语音用户位置,从每组信号中提取一帧chirp信号,对每个chirp信号的采样点执行n点离散傅里叶变换算法,通过检测离散傅里叶变换峰值位置确定发出语音用户声带振动位置r
s
;然后将所有帧的r
s
位置的信号组合、相位差分提取声带振动信号、高通滤波去除低频干扰信号和噪声,得到无干扰的声带振动信号s
vib
;通过执行语音活动检测算法来判别是否存在语音活动;最后通过声带振动语音增强方法对由声带提取的语音共振峰信号进行高频信号估计,得到声带增强语音信号l
s
。8.根据权利要求7所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述声带振动语音增强方法来得到增强语音信号l
s
;具体流程如下:(31)生成增强语音信号频谱:对输入的声带振动信号s
vib
进行短时傅里叶变换,然后通过设计好的生成器网络gennet(
·
)输出含有高频信号的声带振动语音频谱图:l
vib
=gennet(stft(s
vib
));(32)逆生成器网络生成增强语音信号频谱:利用生成器的逆网络结构invgennet(
·
)将步骤(31)中输出的声带振动语音频谱图l
vib
进行逆生成和逆傅里叶变换,即进行逆生成和逆傅里叶变换,即通过满足一致性约束:来保证生成器网络输出结果的准确准确性;
(33)判别输出结果:将生成的声带振动语音频谱图l
vib
和由麦克风采集的真实语音信号频谱图分别输入判别器网络desnet(
·
)进行识别,直到判别器无法识别真假样本,即表明生成器生成的振动语音频谱图l
vib
包含高频信号分量,即:l
s
=opt(l
vib
)。9.根据权利要求1所述的基于毫米波雷达的多模态语音识别系统,其特征在于,所述多模态融合与识别模块将提取到的嘴唇运动信号l
p
和声带增强语音信号l
s
进行融合,利用嘴唇运动特征编码器对l
p
编码为encoder(l
p
),利用声带振动特征编码器将l
s
编码为encoder(l
s
);然后将编码后的嘴唇运动特征encoder(l
p
)和声带振动特征encoder(l
s
)利用transfuser结构进行特征融合,得到融合后的特征f
fusion
,表示为:f
fusion
=transfuser[encoder(l
p
),encoder(l
s
)]其中,特征编码器encoder(
·
)由位置编码器、正则化、多输入注意力子模块att(
·
)组成,具体表示为:其中,q、k和v分别表示搜索矩阵、关键值矩阵和特征值矩阵,表示尺度因子;最后利用语音识别方法对融合后的特征进行分类识别。10.一种基于毫米波雷达的多模态语音识别方法,基于权利要求1-9中任意一项所述系统,其特征在于,步骤如下:1)利用毫米波雷达发射持续发射fmcw信号,并接收回波信号;2)利用接收到的回波信号确定发出语音用户所在位置,分别提取相应的声带振动特征信号和嘴唇运动特征信号并进行预处理;3)利用语音活动检测算法过滤非有效语音活动信号;4)对提取到的嘴唇运动特征信号进行噪声干扰去除,对提取到的声带振动特征信号进行振动语音增强算法处理;5)将嘴唇运动特征信号和声带振动特征信号进行融合;6)对融合后的特征进行语音识别。

技术总结
本发明公开了一种基于毫米波雷达的多模态语音识别系统及方法,系统包括:特征提取模块和多模态融合与识别模块;所述特征提取模块,利用毫米波雷达发射调频连续波信号,并从反射信号中提取嘴唇运动特征和声带振动特征;所述多模态融合与识别模块,用于融合嘴唇运动特征和声带振动特征,并进行语音识别。本发明通过融合嘴唇运动特征和声带振动特征技术,实现了两种特征的互补和增强的效果,使得语音识别的准确率得到进一步的提高。别的准确率得到进一步的提高。别的准确率得到进一步的提高。


技术研发人员:谢磊 樊龙 王楚豫 陆桑璐
受保护的技术使用者:南京大学
技术研发日:2023.04.27
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐