一种基于混合三维残差门控循环单元的唇语识别方法
未命名
10-18
阅读:92
评论:0
1.本发明属于唇语识别技术领域,涉及一种基于混合三维残差门控循环单元的唇语识别方法。
背景技术:
2.语音是如今日常生活中至关重要的一种交流方式,人们通过语音来表达他们的思想、情感和意见,以交流信息和相互理解。深度学习是一种基于神经网络的机器学习方法,随着计算机硬件技术的发展和数据量的增加,深度学习在各种应用领域中得到了广泛应用。但是,深度学习仍然面临着优化算法和模型结构的挑战。语音识别作为自然语言处理技术的一个重要分支,在实际应用中面临着一些挑战。最大的挑战之一是环境噪声和语音间混叠的影响,使得输入信号有严重的变形和干扰,导致语音识别的准确率下降。此外,声音的语速、口音、语气等不同因素也会影响语音识别的效果。同时,口齿不清、发音错误等语音缺陷也会造成巨大的影响。
3.唇语识别是一种能够解决语音识别中噪声问题的技术。唇语信号在无法获取语音信号或语音信号受到严重干扰的情况下,仍可提供有效的语音信息,其识别精度也能够与语音识别相当,并且具有较高的鲁棒性。唇语识别可以利用视频设备捕捉人类唇部运动信息,并利用模型对其进行分析,从而实现语音的识别和转写。在配合人类语音和声音的同时,唇语可以提供额外的视觉信息来减轻它们的识别难度,为语音识别技术的进一步发展提供更多的可能性。由于残疾人无法发声,他们可能无法利用传统的语音识别技术进行交流。在这种情况下,唇语识别技术可以通过分析人类唇部运动信息,并将其转换为语音信息,来帮助残疾人进行有效的交流。因此,唇语识别技术对于提高残疾人迅捷有效地沟通具有重要的帮助作用。
4.传统唇语识别模型的数据扩增方法包括旋转、缩放、水平翻转等方式,但限于因数据分布不均衡等问题,效果有限。为了提高模型的鲁棒性和泛化能力,采用混合数据训练技术进行样本扩增,并将每个样本进行线性组合生成新的混合样本,增加数据多样性和唇语视频数据集的规模,使得神经网络训练出来的特征更具代表性。采用融合残差与时空卷积网络可以很好地提取唇语视频中的静态和动态信息,使得模型能够更加准确地分辨不同的唇语动作。同时,使用时空残差块和自适应注意力机制来建模视频中短期和长期的时间依赖特征,以有效地处理非常长的时间序列。序列信息门控网络作为后端网络,在唇语视频中捕获长期依赖的时序关系上表现较好,进而提升识别精度和鲁棒性。此外,还运用了局部稀疏连接的解码器,这种解码器方法可有效地降低模型参数和算力消耗,实现了模型的轻量化、高效化和易于部署,同时在保持高精度的情况下,降低了模型的算力消耗,提高了唇语识别的实用性。
技术实现要素:
5.有鉴于此,本发明的目的在于提供一种基于混合三维残差门控循环单元的唇语识
别方法。
6.为达到上述目的,本发明提供如下技术方案:
7.一种基于混合三维残差门控循环单元的唇语识别方法,包括以下步骤:
8.s1:以唇部图像特征序列为对象,设计混合数据训练,对数据进行增强;
9.s2:以采用融合残差和时空卷积的网络作为前端网络,以产生序列的最终表示;
10.s3:构建基于序列信息门控网络的后端网络,对唇语进行识别。
11.进一步,所述步骤s1具体包括:
12.s11:基于多个面部标志,将数据集中的唇部图像先进行人脸对齐,裁剪图像并将它们调整为固定大小;
13.s12:使用每个地标的中值坐标,将常见的裁剪应用于给定剪辑的所有帧;
14.s13:帧被转换为灰度,并根据整体均值和方差进行归一化后得到唇部区域;
15.s14:最后使用混合数据训练进行数据增强。
16.进一步,步骤s1中,假设batch
x1
是一个batch样本,batch
y1
是该batch样本对应的标签;batch
x2
是另外一个batch样本,batch
y2
是该batch样本对应的标签,λ是由参数α,β的贝塔分布计算出来的混合系数,混合数据训练原理公式为:
17.λ=beta(α,β)
18.mixed_batch
x
=λ*batch
x1
+(1-λ)*batch
x2
19.mixed_batchy=λ*batch
y1
+(1-λ)*batch
y2
20.其中beta指的是贝塔分布,mixed_batch
x
是混合后的batch样本,mixed_batchy是混合后的batch样本对应的标签;
21.当batch size=1时,表示两张图片样本混合;当batch size>1时,表示两个batch图片样本两两对应混合。
22.进一步,所述前端网络具体包括:
23.第一层:用于将时空卷积应用于预处理的帧流并且捕获嘴部区域的短期动态;第一层由一个卷积层组成,具有64个3维内核,还包括批量归一化和整流线性单元;提取的特征图通过时空最大池化层;
24.第二层:3维特征图在每个时间步通过一个残差网络,使用34层身份映射版本;它的构建块由两个卷积层和bn和relu组成,而跳过连接促进信息传播;resnet使用最大池化层逐步下降空间维度,直到其输出在每个时间步成为一维张量;
25.原始的残差块中的计算为:
26.y
l
=h(x
l
)+f(x
l
,w
l
)
27.x
l+1
=f(y
l
)
28.其中x
l
是第1个残差单元的输入特征,w
l
={w
l,k
|1≤k≤k}是第l个残差单元相关的一组权重,k是残差单元中的层数,f表示残差函数,函数f是逐元素加法后的操作,也就是relu激活函数,函数的集合作为恒等映射:
29.h(x
l
)=x
l x
l+1
=y
l
30.从而得到函数:
31.x
l+1
=x
l
+f(x
l
,w
l
)
32.经过递归得到:
[0033][0034]
任意深层单元的特征x
l
表示为浅层单元x
l
的特征加上形如的残差函数,表明任意单元l与l之间都具有残差特性,对于任意一个l层的深度网络:
[0035][0036]
最后一层的输出特征x
l
是x0加上中间层残差函数的结果,将网络的损失函数表示为ε,根据链式法则有:
[0037][0038]
进一步,所述后端网络具体包括:
[0039]
时空卷积层的输出是由卷积神经网络和光流算法提取出的时空特征;所述时空特征中包含视频数据中的空间和时间信息;所述时空特征作为残差网络输入,传递给序列信息门控网络进行时间序列的语义建模和学习,从而完成对视频中语音信号的识别;
[0040]
序列信息门控网络在时间t的激活是前一个激活和候选激活之间的线性插值:
[0041][0042]
其中更新门决定单元更新其激活或内容的程度,更新门由下式计算:
[0043][0044]
这个过程是把现有的状态和新计算的状态之间取线性总和,但没有采取任何机制去控制其状态暴露程度,而每次将所有状态都暴露,候选激活的计算方法:
[0045][0046]
其中r
t
是一组重置门,并且
⊙
是逐元素乘法,当关闭时,重置门使单元充当读取输入序列的第一个符号,使其能够忘记先前计算的状态;重置门的计算类似于更新门:
[0047][0048]
在后端,对序列信息门控网络在时间维度上的输出进行平均,并将结果发送到最终的全连接层进行预测,交叉熵损失用于优化。
[0049]
本发明的有益效果在于:从模型算法角度出发,本发明的唇语识别模型完整结合了融合残差和时空卷积的网络和序列信息门控网络,前端网络能够利用三维卷积神经网络提取唇语视频中的静态和动态特征,并通过深度残差结构来解决一般二维网络中梯度消失的问题。而后端网络则是基于序列信息门控网络,能够很好地处理唇语视频中的时序信息,从而进一步提高唇语识别的准确性和鲁棒性。本前后端结合的模型成功地解决了唇语识别中常见的唇形相似性高、数据量少的难题,在实验中取得了较好的效果。该模型对唇读障碍人群的实际应用领域有着广泛而实用的意义。
[0050]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并
且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0051]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0052]
图1为本发明所述的基于混合三维残差门控循环单元的唇语识别方法流程图。
具体实施方式
[0053]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0054]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0055]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0056]
针对唇语识别模型的高精度、轻量化的需求,研究基于混合三维残差门控循环单元的唇语识别方法。以唇部图像特征序列为对象,设计混合数据训练,对数据进行增强;以采用融合残差和时空卷积的网络作为前端网络,后端网络采用序列信息门控网络的方式,实现了模型的轻量化、高效化和易于部署。
[0057]
研究基于混合三维残差门控循环单元的唇语识别,如图1所示,包括混合数据训练、基于融合残差和时空卷积的前端网络、后端网络三个步骤。
[0058]
数据预处理:基于66个面部标志,将数据集中的唇部图像先进行人脸对齐,裁剪图像并将它们调整为固定的88
×
88大小。使用每个地标的中值坐标,将常见的裁剪应用于给定剪辑的所有帧。帧被转换为灰度,并根据整体均值和方差进行归一化后得到唇部区域。最后使用混合数据训练进行数据增强。
[0059]
假设batch
x1
是一个batch样本,batch
y1
是该batch样本对应的标签;batch
x2
是另外一个batch样本,batch
y2
是该batch样本对应的标签,λ是由参数α,β的贝塔分布计算出来的混合系数,由此我们可以得到混合数据训练原理公式为:
[0060]
λ=beta(α,β)(1)
[0061]
mixed_batch
x
=λ*batch
x1
+(1-λ)*batch
x2
(2)
[0062]
mixed_batchy=λ*batch
y1
+(1-λ)*batch
y2
(3)
[0063]
其中beta指的是贝塔分布,mixed_batch
x
是混合后的batch样本,mixed_batchy是混合后的batch样本对应的标签。
[0064]
batch
x1
与batch
x2
没有太多的限制,当batchsize=1时,就是两张图片样本混合;当batchsize>1时,便是两个batch图片样本两两对应混合。此外batch
x1
与batch
x2
可以是同一批样本,也可以是不同批样本。
[0065]
前端网络:时空卷积层与残差网络相结合以产生序列的最终表示。
[0066]
第一层将时空卷积应用于预处理的帧流并且能够捕获嘴部区域的短期动态。它们由一个卷积层组成,具有64个3维内核,大小为5
×7×
7(时间/宽度/高度),然后是批量归一化和整流线性单元。提取的特征图通过时空最大池化层,该层降低了3维特征图的空间大小。
[0067]
第二层3维特征图在每个时间步通过一个残差网络。使用34层身份映射版本。它的构建块由两个卷积层和bn和relu组成,而跳过连接促进了信息传播。resnet使用最大池化层逐步下降空间维度,直到其输出在每个时间步成为一维张量。
[0068]
原始的残差块中的计算为:
[0069]yl
=h(x
l
)+f(x
l
,w
l
)(4)
[0070]
x
l+1
=f(y
l
)(5)
[0071]
这里xl是第1个残差单元的输入特征。w
l
={w
l,k
|1≤k≤k}是第l个残差单元相关的一组权重(和偏差),k是残差单元中的层数。f表示残差函数,函数f是逐元素加法后的操作,也就是relu激活函数。函数的集合作为恒等映射:
[0072]
h(x
l
)=x
l
x
l+1
=y
l
[0073]
则可以得到函数:
[0074]
x
l+1
=x
l
+f(x
l
,w
l
)(6)
[0075]
经过递归,可以得到:
[0076][0077]
任意深层单元的特征x
l
可以表示为浅层单元xl的特征加上形如的残差函数,表明了任意单元l与l之间都具有残差特性。对于任意一个l层的深度网络:
[0078][0079]
最后一层的输出特征x
l
是x0加上中间层残差函数的结果。公式(7)具有很好的反向传播特性,将网络的损失函数表示为ε,根据链式法则有:
[0080][0081]
上式表明,损失函数对输入的梯度可以分解为两项相加的结果,第一项损失函数
对x
l
的偏导数无关任何权重层,第二项却和权重层有关。表明了信息可以直接回传到网络的任意浅层。上式同样说明对于一个mini-batch的训练数据而言,由于不大可能mini-batch中的每一个训练样本的括号中的第二项都为-1,那么整个的梯度值不大可能为0,这就实现了即便权重值很小的时候也不大可能发生梯度弥散的问题。
[0082]
后端网络:时空卷积层的输出是由卷积神经网络和光流算法提取出的时空特征。这些时空特征是一些高级别的语义特征,其中包含了视频数据中的空间和时间信息。那么这些时空特征将作为残差网络输入,进行特征的提取。这些特征能够更好地表示视频中的语音信号,从而提高模型的精度和鲁棒性。这些向量会被传递给序列信息门控网络进行时间序列的语义建模和学习,从而完成对视频中语音信号的识别。
[0083]
序列信息门控网络在时间t的激活是前一个激活和候选激活之间的线性插值
[0084][0085]
其中更新门决定单元更新其激活或内容的程度。更新门由下式计算:
[0086][0087]
这个过程是把现有的状态和新计算的状态之间取线性总和,但没有采取任何机制去控制其状态暴露程度,而每次将所有状态都暴露。候选激活的计算方法:
[0088][0089]
其中r
t
是一组重置门,并且
⊙
是逐元素乘法。当关闭(接近0)时,重置门有效地使单元充当读取输入序列的第一个符号,使其能够忘记先前计算的状态。重置门的计算类似于更新门:
[0090][0091]
在后端,对序列信息门控网络在时间维度上的输出进行平均,并将结果发送到最终的全连接层进行预测。交叉熵损失用于优化。
[0092]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种基于混合三维残差门控循环单元的唇语识别方法,其特征在于:包括以下步骤:s1:以唇部图像特征序列为对象,设计混合数据训练,对数据进行增强;s2:以采用融合残差和时空卷积的网络作为前端网络,以产生序列的最终表示;s3:构建基于序列信息门控网络的后端网络,对唇语进行识别。2.根据权利要求1所述的基于混合三维残差门控循环单元的唇语识别方法,其特征在于:所述步骤s1具体包括:s11:基于多个面部标志,将数据集中的唇部图像先进行人脸对齐,裁剪图像并将它们调整为固定大小;s12:使用每个地标的中值坐标,将常见的裁剪应用于给定剪辑的所有帧;s13:帧被转换为灰度,并根据整体均值和方差进行归一化后得到唇部区域;s14:最后使用混合数据训练进行数据增强。3.根据权利要求2所述的基于混合三维残差门控循环单元的唇语识别方法,其特征在于:步骤s1中,假设batch
x1
是一个batch样本,batch
y1
是该batch样本对应的标签;batch
x2
是另外一个batch样本,batch
y2
是该batch样本对应的标签,λ是由参数α,β的贝塔分布计算出来的混合系数,混合数据训练原理公式为:λ=beta(α,β)mixed_batch
x
=λ*batch
x1
+(1-λ)*batch
x2
mixed_batch
y
=λ*batch
y1
+(1-λ)*batch
y2
其中beta指的是贝塔分布,mixed_batch
x
是混合后的batch样本,mixed_batch
y
是混合后的batch样本对应的标签;当batch size=1时,表示两张图片样本混合;当batch size>1时,表示两个batch图片样本两两对应混合。4.根据权利要求1所述的基于混合三维残差门控循环单元的唇语识别方法,其特征在于:所述前端网络具体包括:第一层:用于将时空卷积应用于预处理的帧流并且捕获嘴部区域的短期动态;第一层由一个卷积层组成,具有64个3维内核,还包括批量归一化和整流线性单元;提取的特征图通过时空最大池化层;第二层:3维特征图在每个时间步通过一个残差网络,使用34层身份映射版本;它的构建块由两个卷积层和bn和relu组成,而跳过连接促进信息传播;resnet使用最大池化层逐步下降空间维度,直到其输出在每个时间步成为一维张量;原始的残差块中的计算为:y
l
=h(x
l
)+f(x
l
,w
l
)x
l+1
=f(y
l
)其中x
l
是第1个残差单元的输入特征,w
l
={w
l,k
|1≤k≤k}是第l个残差单元相关的一组权重,k是残差单元中的层数,f表示残差函数,函数f是逐元素加法后的操作,也就是relu激活函数,函数的集合作为恒等映射:h(x
l
)=xl x
l+1
=y
l
从而得到函数:x
l+1
=x
l
+f(x
l
,w
l
)
经过递归得到:任意深层单元的特征x
l
表示为浅层单元x
l
的特征加上形如的残差函数,表明任意单元l与l之间都具有残差特性,对于任意一个l层的深度网络:最后一层的输出特征x
l
是x0加上中间层残差函数的结果,将网络的损失函数表示为ε,根据链式法则有:5.根据权利要求1所述的基于混合三维残差门控循环单元的唇语识别方法,其特征在于:所述后端网络具体包括:时空卷积层的输出是由卷积神经网络和光流算法提取出的时空特征;所述时空特征中包含视频数据中的空间和时间信息;所述时空特征作为残差网络输入,传递给序列信息门控网络进行时间序列的语义建模和学习,从而完成对视频中语音信号的识别;序列信息门控网络在时间t的激活是前一个激活和候选激活之间的线性插值:其中更新门决定单元更新其激活或内容的程度,更新门由下式计算:这个过程是把现有的状态和新计算的状态之间取线性总和,但没有采取任何机制去控制其状态暴露程度,而每次将所有状态都暴露,候选激活的计算方法:其中r
t
是一组重置门,并且
⊙
是逐元素乘法,当关闭时,重置门使单元充当读取输入序列的第一个符号,使其能够忘记先前计算的状态;重置门r
tj
的计算类似于更新门:r
tj
=σ(w
r
x
t
+uh
t-1
)
j
在后端,对序列信息门控网络在时间维度上的输出进行平均,并将结果发送到最终的全连接层进行预测,交叉熵损失用于优化。
技术总结
本发明涉及一种基于混合三维残差门控循环单元的唇语识别方法,属于唇语识别领域,包括以下步骤:S1:以唇部图像特征序列为对象,设计混合数据训练,对数据进行增强;S2:以采用融合残差和时空卷积的网络作为前端网络,以产生序列的最终表示;S3:构建基于序列信息门控网络的后端网络,对唇语进行识别。本发明解决了唇语识别中常见的唇形相似性高、数据量少的难题。题。题。
技术研发人员:李鹏华 苏沁伟 项盛 侯杰 茹懿 吕涛 尹绍云
受保护的技术使用者:重庆邮电大学
技术研发日:2023.07.07
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
