一种基于视听语音分离的说话人视觉激活解释方法及系统与流程

未命名 08-15 阅读：109 评论：0

1.本发明涉及计算机视觉可解释性与音频处理技术领域，尤其涉及一种基于视听语音分离的说话人视觉激活解释方法以及一种基于视听语音分离的说话人视觉激活解释系统。

背景技术：

2.服务业作为第三产业，工作的对象是人类，因此机器人将置身于人类的活动环境尤其是城市环境与室内环境中。与实验室、工厂、农场等场景不同，人们往往无法预设工作场景和工作内容。虽然在理想场景下，现有的语音识别、目标识别等技术已非常成熟，但目前人型机器人对于自然环境信息的处理能力严重不足，特别是在复杂环境下，语音识别与语义分割任务往往不尽如人意，难以达到人类的抗干扰水平。比如餐厅服务员需要在嘈杂环境中正确面对提需求的顾客并了解其说话内容，同时对这个过程中对其他顾客提出的要求保持识别和记忆能力。又比如，对于听力障碍人群，现有的助听器往往采用的是增大音量和简单降噪的方案，这往往会进一步损害听力障碍人群的听力，并且难以提取出听力障碍人群真正关心的声源信息。
3.对于普遍配置摄像头和麦克风的机器人或其他辅助设备而言，这就需要依赖如语音增强(speech enhance)、语音分离(speech separation)等前置处理，通过目标检测(target detection)提取视觉信息作为辅助参考，从而增强语音信息在低信噪比(signal-to-noise ratio)环境下的可懂度与信息质量。
4.其中语音分离是指从观测的声学信号(包括目标语音、干扰语音、噪声与回响)中分离出目标语音的问题。1953年，colin cherry首先提出了鸡尾酒会效应：在嘈杂的酒会中，人耳能听到的很多不同的声音，其中既包括频率上差别较大的如走路声、杯碟碰撞声、背景音乐声，也包括频率上较难分别的其他人的说话声，并且伴随着声音在不同介质中的传导与反射。但当人将注意力集中到某一个说话者的语音时，往往会产生其他声音被“抑制”的效果，从而使得人耳可以更清晰地分析说话人的说话内容和所处方位，该效应被称为鸡尾酒会效应。同时人们发现人类借助异质信息可以更稳定完成认知任务。如通过视觉信息，人脑可以更充分挖掘语音上下文关系，从而在更低信噪比条件下，完成语音增强与语音分离任务，甚至通过唇语重新构建语音信息。该任务因此被称为视听语音分离(audio-visual speech separation)。
5.随着深度学习与多模态学习的快速发展，深度学习模型也开始被应用于视听语音分离任务中，并取得较好效果。但随即人们面临三个较为突出问题：
6.首先是目前的视听语音分离模型一般默认能够顺利收集视觉信息并提取视觉特征。但是目前已开源的视听语音分离代码无法在人数变动以及交叉移动时，稳定发挥作用。
7.其次是，视听语音分离涉及到多模态特征融合与学习，目前采用的深度学习方法缺乏可解释性。近年来相关学者提出的事后解释深度学习模型的方法主要关注于分类、目标检测等任务，对于视听语音分离特殊的模型输出，没有可解释性工具来阐释模型作用的
机理，尤其是展现视觉部分发挥作用的机制。
8.最后是，视听语音分离问题，涉及到两个模态的多模块处理，目前开源的深度学习库往往只关注其中一个模态，缺少统一处理加速的框架，因此目前开源代码处理速度均不理想，难以放到实际环境中应用。

技术实现要素：

9.针对上述问题，本发明提供了一种基于视听语音分离的说话人视觉激活解释方法及系统，通过提取面部特征与唇部运动特征帮助模型直接从说话人数未知的混合音频中提取出目标音频，解决了传统语音分离任务中关于分离语音排序、需要预设说话人数目等难点，通过进行说话人定位能够指出分离的目标音频所对应画面中的说话人，从而显著提高服务型机器人的服务水平。其次，参考基于激活的可解释性方法，创新性地提出了适用于视听语音分离特殊输出的可视化解释方法，用于分析唇部与面部原始数据对模型分离结果的影响，以及卷积神经网络不同层的特征激活情况。最后，基于目标追踪算法bytetrack设计针对实际场景的视听语音分离工作链路，并融合了目前流行的视觉处理、音频处理的框架形成了新的工程方案，使模型能够在更复杂条件下稳定工作。
10.为实现上述目的，本发明提供了一种基于视听语音分离的说话人视觉激活解释方法，包括：
11.由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段；
12.利用基于残差神经网络的深度学习网络，由所述说话人视频片段中提取唇部运动特征和面部特征；
13.利用基于u-net的编码器网络对所述混合音频片段进行音频特征提取，并在时域上与所述唇部运动特征和面部特征对齐，构成多模态深度特征；
14.根据所述多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的所述视听语音分离模型；
15.将训练完成的所述视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入所述视听语音分离模型；
16.根据所述视听语音分离模型输出的预测频谱图计算得分函数，并根据所述得分函数计算视觉模态不同层的贡献度，根据所述贡献度生成的热力图得到视觉模态激活图。
17.在上述技术方案中，优选地，所述由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段的具体过程包括：
18.由数据集中随机抽取两段说话人视频片段，随机抽取一段噪声音频片段；
19.由所述两段说话人视频片段中各抽取预设时长的说话人音频片段，并由所述噪声音频片段中抽取所述预设时长的噪声音频片段；
20.求取所述说话人音频片段与所述噪声音频片段在时域上的均值，得到所述混合语音片段。
21.在上述技术方案中，优选地，所述利用基于残差神经网络的深度学习网络，由所述说话人视频片段中提取唇部运动特征和面部特征的具体过程包括：
22.根据所述说话人视频片段的视频质量对应的预设面部检测频率，对所述说话人视
频片段进行面部检测，两次面部检测的中间帧取检测框线性插值，得到面部特征；
23.对检测得到的面部区域进行人脸关键点检测，获取唇部区域；
24.采用resnet18网络提取面部特征作为所述唇部区域的唇部运动特征的补充信息；
25.通过前置3d卷积模块初步提取所述唇部区域的动态信息，以及通过张量压缩变形，得到唇部运动特征。
26.在上述技术方案中，优选地，所述利用基于u-net的编码器网络对所述混合音频片段进行音频特征提取，并在时域上与所述唇部运动特征和面部特征对齐，构成多模态深度特征的具体过程包括：
27.将所述混合音频片段的频谱图输入多层卷积网络的编码器，输出所述混合音频片段的音频特征；
28.将所述面部特征中最后一维复制帧数遍形成相应通道数的张量，并与所述唇部运动特征和所述音频特征在当前通道维度进行拼接，形成多模态特征；
29.通过反卷积将所述多模态特征在第三维度进行逐步扩张，并在每次反卷积后将尺寸对应的特征图在当前通道维度拼接后再进行下一次反卷积，同时压缩通道数，使得最终输出与所述频谱图形状相同的预测掩码图。
30.在上述技术方案中，优选地，所述根据所述多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的所述视听语音分离模型的具体过程包括：
31.计算所述说话人音频片段的真实频谱图，通过所述混合语音片段和所述说话人音频片段计算得到真实掩码图；
32.将所述混合语音片段和所述说话人视频片段输入视听语音分离模型，得到预测掩码图，由视觉特征反卷积得到预测频谱图；
33.计算所述真实掩码图与所述预测掩码图的差值二范式值作为视听掩码预测损失；
34.计算所述预测频谱图和所述真实频谱图的差值二范式值作为无声视频声音重构损失；
35.根据所述视听掩码预测损失和所述无声视频声音重构损失构建所述视听语音分离模型的损失函数；
36.根据预设深度学习规划，对所述损失函数求梯度进行反向传播更新参数，直至所述损失函数收敛至预设损失值或完成预设学习轮数的训练，得到训练完成的所述视听语音分离模型。
37.在上述技术方案中，优选地，所述将训练完成的所述视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入所述视听语音分离模型的具体过程包括：
38.在mmcv库上部署人脸检测模型tinaface、目标追踪模型bytetrack以及所述视听语音分离模型，并借助mmdeploy库对算法模型格式进行转化；
39.调用ffmpeng库函数对接收到的实时音视频数据进行实时解码，并将解码后的音视频流信息输入所述人脸检测模型、所述目标追踪模型及所述视听语音分离模型。
40.在上述技术方案中，优选地，所述根据所述视听语音分离模型输出的预测频谱图计算得分函数，并根据所述得分函数计算视觉模态不同层的贡献度，根据所述贡献度生成的热力图得到视觉模态激活图的具体过程包括：
41.对所述视听语音分离模型输出的预测频谱图上各元素，取模的相反数并求和，得到模型数据对于当前结果合理性的得分函数；
42.针对所述得分函数，采用grad-cam、grad-cam++、xgrad-cam、eigen-cam和eigengrad-cam的权重计算方法，计算视觉模态各特征层各数据点的贡献度；
43.对不同特征层的贡献度生成热力图，并将所述热力图负采样到原图尺寸，得到视觉模态激活图。
44.本发明还提出一种基于视听语音分离的说话人视觉激活解释系统，应用如上述技术方案中任一项公开的基于视听语音分离的说话人视觉激活解释方法，包括：
45.训练语音混合模块，用于由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段；
46.视觉特征提取模块，用于利用基于残差神经网络的深度学习网络，由所述说话人视频片段中提取唇部运动特征和面部特征；
47.多模特征提取模块，用于利用基于u-net的编码器网络对所述混合音频片段进行音频特征提取，并在时域上与所述唇部运动特征和面部特征对齐，构成多模态深度特征；
48.模型构建训练模块，用于根据所述多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的所述视听语音分离模型；
49.模型部署实施模块，用于将训练完成的所述视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入所述视听语音分离模型；
50.视觉激活解释模块，用于根据所述视听语音分离模型输出的预测频谱图计算得分函数，并根据所述得分函数计算视觉模态不同层的贡献度，根据所述贡献度生成的热力图得到视觉模态激活图。
51.在上述技术方案中，优选地，所述视觉特征提取模块具体用于：
52.根据所述说话人视频片段的视频质量对应的预设面部检测频率，对所述说话人视频片段进行面部检测，两次面部检测的中间帧取检测框线性插值，得到面部特征；
53.对检测得到的面部区域进行人脸关键点检测，获取唇部区域；
54.采用resnet18网络提取面部特征作为所述唇部区域的唇部运动特征的补充信息；
55.通过前置3d卷积模块初步提取所述唇部区域的动态信息，以及通过张量压缩变形，得到唇部运动特征。
56.在上述技术方案中，优选地，所述模型构建训练模块具体用于：
57.计算所述说话人音频片段的真实频谱图，通过所述混合语音片段和所述说话人音频片段计算得到真实掩码图；
58.将所述混合语音片段和所述说话人视频片段输入视听语音分离模型，得到预测掩码图，由视觉特征反卷积得到预测频谱图；
59.计算所述真实掩码图与所述预测掩码图的差值二范式值作为视听掩码预测损失；
60.计算所述预测频谱图和所述真实频谱图的差值二范式值作为无声视频声音重构损失；
61.根据所述视听掩码预测损失和所述无声视频声音重构损失构建所述视听语音分离模型的损失函数；
62.根据预设深度学习规划，对所述损失函数求梯度进行反向传播更新参数，直至所
述损失函数收敛至预设损失值或完成预设学习轮数的训练，得到训练完成的所述视听语音分离模型。
63.与现有技术相比，本发明的有益效果为：
64.首先，通过提取面部特征与唇部运动特征帮助模型直接从说话人数未知的混合音频中提取出目标音频，解决了传统语音分离任务中关于分离语音排序、需要预设说话人数目等难点，通过进行说话人定位能够指出分离的目标音频所对应画面中的说话人，从而显著提高服务型机器人的服务水平。此外，提出了新的训练模式，得到了超过目前最先进水平的分离效果，且可同时得到具有一定效果的无声视频音频重构模型。
65.其次，参考基于激活的可解释性方法，创新性地提出了适用于视听语音分离特殊输出的可视化解释方法，用于分析唇部与面部原始数据对模型分离结果的影响，以及卷积神经网络不同层的特征激活情况。该方法可用于分析模型不同结构的工作能力和工作效果，同时帮助专家针对好坏案例进行具体分析，从而在数据集收集、模型选择等工作上做出针对性调整。还讨论了跨模态深度学习模型的可视化解释方法设计的原则。
66.最后，基于目标追踪算法bytetrack设计针对实际场景的视听语音分离工作链路，并融合了目前流行的视觉处理、音频处理的框架形成了新的工程方案，使模型能够在更复杂条件下稳定工作。
附图说明
67.图1为本发明一种实施例公开的基于视听语音分离的说话人视觉激活解释方法的流程示意图；
68.图2为本发明一种实施例公开的视听语音分离模型的工作示意图；
69.图3为本发明一种实施例公开的唇部特征提取模型的示意图；
70.图4为本发明一种实施例公开的视听语音分离模型的结构示意图；
71.图5为本发明一种实施例公开的部署视听语音分离模型的原型系统工作模型示意图；
72.图6为本发明一种实施例公开的在不同特征层使用不同激活方法的面部激活情况示意图；
73.图7为本发明一种实施例公开的不同人物针对不同特征层的面部激活情况示意图；
74.图8为本发明一种实施例公开的不同人物针对不同特征层的唇部激活情况示意图；
75.图9为本发明一种实施例公开的在不同时段针对不同特征层的唇部激活情况示意图。
具体实施方式
76.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
77.下面结合附图对本发明做进一步的详细描述：
78.如图1所示，根据本发明提供的一种基于视听语音分离的说话人视觉激活解释方法，包括：
79.由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段；
80.利用基于残差神经网络的深度学习网络，由说话人视频片段中提取唇部运动特征和面部特征；
81.利用基于u-net的编码器网络对混合音频片段进行音频特征提取，并在时域上与唇部运动特征和面部特征对齐，构成多模态深度特征；
82.根据多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的视听语音分离模型；
83.将训练完成的视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入视听语音分离模型；
84.根据视听语音分离模型输出的预测频谱图计算得分函数，并根据得分函数计算视觉模态不同层的贡献度，根据贡献度生成的热力图得到视觉模态激活图。
85.在该实施方式中，通过提取面部特征与唇部运动特征帮助模型直接从说话人数未知的混合音频中提取出目标音频，解决了传统语音分离任务中关于分离语音排序、需要预设说话人数目等难点，通过进行说话人定位能够指出分离的目标音频所对应画面中的说话人，从而显著提高服务型机器人的服务水平。其次，参考基于激活的可解释性方法，创新性地提出了适用于视听语音分离特殊输出的可视化解释方法，用于分析唇部与面部原始数据对模型分离结果的影响，以及卷积神经网络不同层的特征激活情况。最后，基于目标追踪算法bytetrack设计针对实际场景的视听语音分离工作链路，并融合了目前流行的视觉处理、音频处理的框架形成了新的工程方案，使模型能够在更复杂条件下稳定工作。
86.在上述实施方式中，优选地，由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段的具体过程包括：
87.由数据集中随机抽取两段说话人视频片段，随机抽取一段噪声音频片段；
88.由两段说话人视频片段中各抽取预设时长的说话人音频片段，并由噪声音频片段中抽取预设时长的噪声音频片段；
89.求取说话人音频片段与噪声音频片段在时域上的均值，得到混合语音片段。
90.具体地，以预设时长为2.55秒为例，选定了voxceleb2与audioset两个较庞大的数据集(总体积约1.5tb)作为训练集。从voxceleb2数据集随机抽取两段说话人视频(可能会抽取到同一个说话人的不同视频)，从audioset数据集中随机抽取一段噪声音频。从两段说话人视频中各抽取一段说话片段，如果片段时长低于2.55s，则重新抽取，如果超过2.55s，则从中随机截取2.55s的说话人音频片段。噪声音频片段时长若低于2.55s，则重复抽取噪声音频，如果超过2.55s，则从中随机截取2.55s的噪声音频片段。将增强后的说话人音频片段与噪声音频片段通过求时域上均值的方法进行混合，得到混合语音片段。
91.如图2所示，在上述实施方式中，优选地，利用基于残差神经网络的深度学习网络，由说话人视频片段中提取唇部运动特征和面部特征的具体过程包括：
92.根据说话人视频片段的视频质量对应的预设面部检测频率，对说话人视频片段进
行面部检测，两次面部检测的中间帧取检测框线性插值，得到面部特征；
93.对检测得到的面部区域进行人脸关键点检测，获取唇部区域；
94.采用resnet18网络提取面部特征作为唇部区域的唇部运动特征的补充信息；
95.通过前置3d卷积模块初步提取唇部区域的动态信息，以及通过张量压缩变形，得到唇部运动特征。
96.具体地，对不同的视频质量评价(高质量、中质量、低质量)，设定不同的面部检测频率。两次面部检测的中间帧，取检测框线性插值，降低高质量视频的检测性能要求。采用了resnet18网络构建面部特征提取模块，提取面部特征主要作为唇部运动特征的补充信息。面部静态帧中含有人物的年龄、性别等身份信息，这与人物的声纹特点高度相关。输入为通道数(＝3)
×
长
×
宽的一批人脸彩色图片，输出为通道数(＝128)
×1×
1的面部特征。
97.如图3所示，唇部特征提取模块的模型输入为通道数(＝1)
×
帧数
×
88
×
88的一批唇部灰度视频。首先经过前置3d卷积模块(包括3d卷积层、3d批正则化层、非线性激活relu层和3d最大池化层)初步提取唇部动态信息，此时输出为通道数(＝24)
×
帧数
×
22
×
22的唇部特征。接着张量压缩第一维与第三维，变形成(帧数
×
通道数)
×
22
×
22的四维张量，并通过shufflenetv2网络，输出(帧数)
×
通道数(＝1024)
×1×
1的唇部运动特征。
98.如图4所示，在上述实施方式中，优选地，利用基于u-net的编码器网络对混合音频片段进行音频特征提取，并在时域上与唇部运动特征和面部特征对齐，构成多模态深度特征的具体过程包括：
99.将混合音频片段的频谱图输入多层卷积网络的编码器，输出混合音频片段的音频特征；
100.将面部特征中最后一维复制帧数遍形成相应通道数的张量，并与唇部运动特征和音频特征在当前通道维度进行拼接，形成多模态特征；
101.通过反卷积将多模态特征在第三维度进行逐步扩张，并在每次反卷积后将尺寸对应的特征图在当前通道维度拼接后再进行下一次反卷积，同时压缩通道数，使得最终输出与频谱图形状相同的预测掩码图。
102.具体地，编码器的输入为通道数(＝2，也即实部虚部)
×
频域高度
×
时域长度的频谱图，最终输出通道数(＝512)
×1×
帧数的音频特征。将上述技术方案中面部特征的通道数(＝128)
×1×
1的最后一维复制帧数遍，形成通道数(＝128)
×1×
帧数的张量，并与唇部运动特征、音频特征在通道维度拼接，从而形成通道数(＝512+128+512)
×1×
帧数的多模态特征。
103.解码器通过8次反卷积，将多模态特征在第三维度逐步扩张，其中每次反卷积后，都将解码器中卷积后尺寸对应的特征图在通道维度拼接后，再进行反卷积。同时压缩通道数，最终输出与频谱图形状相同的预测掩码矩阵，也即视听语音分离任务的目标输出。
104.在上述实施方式中，优选地，根据多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的视听语音分离模型的具体过程包括：
105.计算说话人音频片段的真实频谱图，通过混合语音片段和说话人音频片段计算得到真实掩码图；
106.将混合语音片段和说话人视频片段输入视听语音分离模型，得到预测掩码图，由
protocol，rtmp)，机器人端观测到的音视频数据将实时直播至云端服务器。rtmp是一种基于传输控制协议(transmission control protocol，tcp)的协议，它可以用于持续信号传输且具有低延迟特点。后续的视听语音分离结果也可基于rtmp向客户端实时直播进行展示。服务器终端调用的ffmpeg库是基于c语言开发的音视频处理库，可用于录制、转换和流式传输音频和视频。其中asr模块为automatic speech recognition自动语音识别模块。
126.在openmmlab实验室开发的mmcv库上编写需要使用的人脸检测模型tinaface、目标追踪模型bytetrack，以及提出的视听语音分离模型的模型文件，并借助mmdeploy库，将算法模型转化为tensorrt格式，实现工程部署。使用窗口移动平均的方法平滑化长片段分离结果。基于上述技术方案中提出的多线程算法，在多图形处理器情况下系统将对重叠的分离结果取平均值作为最终结果。
127.在上述实施方式中，优选地，根据视听语音分离模型输出的预测频谱图计算得分函数，并根据得分函数计算视觉模态不同层的贡献度，根据贡献度生成的热力图得到视觉模态激活图的具体过程包括：
128.对视听语音分离模型输出的预测频谱图上各元素，通过下列公式，取模的相反数并求和，得到模型数据对于当前结果合理性的得分函数：
[0129][0130]
分别表示模型预测的频谱图在第i行、第j列的实部值和虚部值。
[0131]
针对得分函数，采用grad-cam、grad-cam++、xgrad-cam、eigen-cam和eigengrad-cam等权重计算工具，计算视觉模态各特征层各数据点的贡献度；
[0132]
对不同特征层的贡献度生成热力图，并将热力图负采样到原图尺寸，得到视觉模态激活图。
[0133]
根据上述实施方式公开的基于视听语音分离的说话人视觉激活解释方法，在部署视听语音分离模型后的具体实施过程中，resnet18网络的加权激活结果如图6所示，其中，每行为resnet18四个块的最后一层的特征层的加权激活结果，每列为grad-cam、grad-cam++、xgrad-cam、eigen-cam及eigengrad-cam的权重计算方法，由图可以看出，其中四个块分别起到了提取纹理信息、提取轮廓信息、提取面部组件信息和提取全局面部信息的作用。针对不同任务的不同特征层的面部激活情况如图7所示。
[0134]
利用上述实施方式公开的方法，唇部运动特征提取模块的具体提取过程中，不同人物针对不同特征层的唇部激活情况如图8所示。其中，每行为不同人物的唇部图片，每列为shufflenetv2网络15层网络块，使用前述方法获得激活图。可以看出与面部图片类似，在底层网络处模型主要提取了边缘信息，而在中层网络模型提取了整体唇部发声区域信息。与面部特征提取网络不同，shufflenetv2前置了一个短时的3d卷积块，因此在高层部分模型捕捉了跨帧的时间域上的信息。
[0135]
在不同时段针对不同特征层的唇部激活情况如图9所示，其中，每行为连续的8帧唇部图片，每列为shufflenetv2网络15层网络块，使用前述方法获得激活图。在不同时段针对不同特征层的唇部激活情况如图9所示。可以看出，在高层部分，模型重点捕捉的是位移
浮动较大的下巴区域的信息。
[0136]
本发明还提出一种基于视听语音分离的说话人视觉激活解释系统，应用如上述实施方式中任一项公开的基于视听语音分离的说话人视觉激活解释方法，包括：
[0137]
训练语音混合模块，用于由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段；
[0138]
视觉特征提取模块，用于利用基于残差神经网络的深度学习网络，由说话人视频片段中提取唇部运动特征和面部特征；
[0139]
多模特征提取模块，用于利用基于u-net的编码器网络对混合音频片段进行音频特征提取，并在时域上与唇部运动特征和面部特征对齐，构成多模态深度特征；
[0140]
模型构建训练模块，用于根据多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的视听语音分离模型；
[0141]
模型部署实施模块，用于将训练完成的视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入视听语音分离模型；
[0142]
视觉激活解释模块，用于根据视听语音分离模型输出的预测频谱图计算得分函数，并根据得分函数计算视觉模态不同层的贡献度，根据贡献度生成的热力图得到视觉模态激活图。
[0143]
在上述实施方式中，优选地，视觉特征提取模块具体用于：
[0144]
根据说话人视频片段的视频质量对应的预设面部检测频率，对说话人视频片段进行面部检测，两次面部检测的中间帧取检测框线性插值，得到面部特征；
[0145]
对检测得到的面部区域进行人脸关键点检测，获取唇部区域；
[0146]
采用resnet18网络提取面部特征作为唇部区域的唇部运动特征的补充信息；
[0147]
通过前置3d卷积模块初步提取唇部区域的动态信息，以及通过张量压缩变形，得到唇部运动特征。
[0148]
在上述实施方式中，优选地，模型构建训练模块具体用于：
[0149]
计算说话人音频片段的真实频谱图，通过混合语音片段和说话人音频片段计算得到真实掩码图；
[0150]
将混合语音片段和说话人视频片段输入视听语音分离模型，得到预测掩码图，由视觉特征反卷积得到预测频谱图；
[0151]
计算真实掩码图与预测掩码图的差值二范式值作为视听掩码预测损失；
[0152]
计算预测频谱图和真实频谱图的差值二范式值作为无声视频声音重构损失；
[0153]
根据视听掩码预测损失和无声视频声音重构损失构建视听语音分离模型的损失函数；
[0154]
根据预设深度学习规划，对损失函数求梯度进行反向传播更新参数，直至损失函数收敛至预设损失值或完成预设学习轮数的训练，得到训练完成的视听语音分离模型。
[0155]
根据上述实施方式公开的基于视听语音分离的说话人视觉激活解释系统，各模块所要实现的功能与上述实施方式公开的基于视听语音分离的说话人视觉激活解释方法中各步骤分别对应一致，具体实施过程参照上述实施方式进行，在此不再赘述。
[0156]
以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、
等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于视听语音分离的说话人视觉激活解释方法，其特征在于，包括：由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段；利用基于残差神经网络的深度学习网络，由所述说话人视频片段中提取唇部运动特征和面部特征；利用基于u-net的编码器网络对所述混合音频片段进行音频特征提取，并在时域上与所述唇部运动特征和面部特征对齐，构成多模态深度特征；根据所述多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的所述视听语音分离模型；将训练完成的所述视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入所述视听语音分离模型；根据所述视听语音分离模型输出的预测频谱图计算得分函数，并根据所述得分函数计算视觉模态不同层的贡献度，根据所述贡献度生成的热力图得到视觉模态激活图。2.根据权利要求1所述的基于视听语音分离的说话人视觉激活解释方法，其特征在于，所述由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段的具体过程包括：由数据集中随机抽取两段说话人视频片段，随机抽取一段噪声音频片段；由所述两段说话人视频片段中各抽取预设时长的说话人音频片段，并由所述噪声音频片段中抽取所述预设时长的噪声音频片段；求取所述说话人音频片段与所述噪声音频片段在时域上的均值，得到所述混合语音片段。3.根据权利要求1所述的基于视听语音分离的说话人视觉激活解释方法，其特征在于，所述利用基于残差神经网络的深度学习网络，由所述说话人视频片段中提取唇部运动特征和面部特征的具体过程包括：根据所述说话人视频片段的视频质量对应的预设面部检测频率，对所述说话人视频片段进行面部检测，两次面部检测的中间帧取检测框线性插值，得到面部特征；对检测得到的面部区域进行人脸关键点检测，获取唇部区域；采用resnet18网络提取面部特征作为所述唇部区域的唇部运动特征的补充信息；通过前置3d卷积模块初步提取所述唇部区域的动态信息，以及通过张量压缩变形，得到唇部运动特征。4.根据权利要求3所述的基于视听语音分离的说话人视觉激活解释方法，其特征在于，所述利用基于u-net的编码器网络对所述混合音频片段进行音频特征提取，并在时域上与所述唇部运动特征和面部特征对齐，构成多模态深度特征的具体过程包括：将所述混合音频片段的频谱图输入多层卷积网络的编码器，输出所述混合音频片段的音频特征；将所述面部特征中最后一维复制帧数遍形成相应通道数的张量，并与所述唇部运动特征和所述音频特征在当前通道维度进行拼接，形成多模态特征；通过反卷积将所述多模态特征在第三维度进行逐步扩张，并在每次反卷积后将尺寸对应的特征图在当前通道维度拼接后再进行下一次反卷积，同时压缩通道数，使得最终输出
与所述频谱图形状相同的预测掩码图。5.根据权利要求4所述的基于视听语音分离的说话人视觉激活解释方法，其特征在于，所述根据所述多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的所述视听语音分离模型的具体过程包括：计算所述说话人音频片段的真实频谱图，通过所述混合语音片段和所述说话人音频片段计算得到真实掩码图；将所述混合语音片段和所述说话人视频片段输入视听语音分离模型，得到预测掩码图，由视觉特征反卷积得到预测频谱图；计算所述真实掩码图与所述预测掩码图的差值二范式值作为视听掩码预测损失；计算所述预测频谱图和所述真实频谱图的差值二范式值作为无声视频声音重构损失；根据所述视听掩码预测损失和所述无声视频声音重构损失构建所述视听语音分离模型的损失函数；根据预设深度学习规划，对所述损失函数求梯度进行反向传播更新参数，直至所述损失函数收敛至预设损失值或完成预设学习轮数的训练，得到训练完成的所述视听语音分离模型。6.根据权利要求5所述的基于视听语音分离的说话人视觉激活解释方法，其特征在于，所述将训练完成的所述视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入所述视听语音分离模型的具体过程包括：在mmcv库上部署人脸检测模型tinaface、目标追踪模型bytetrack以及所述视听语音分离模型，并借助mmdeploy库对算法模型格式进行转化；调用ffmpeng库函数对接收到的实时音视频数据进行实时解码，并将解码后的音视频流信息输入所述人脸检测模型、所述目标追踪模型及所述视听语音分离模型。7.根据权利要求6所述的基于视听语音分离的说话人视觉激活解释方法，其特征在于，所述根据所述视听语音分离模型输出的预测频谱图计算得分函数，并根据所述得分函数计算视觉模态不同层的贡献度，根据所述贡献度生成的热力图得到视觉模态激活图的具体过程包括：对所述视听语音分离模型输出的预测频谱图上各元素，取模的相反数并求和，得到模型数据对于当前结果合理性的得分函数；针对所述得分函数，采用grad-cam、grad-cam++、xgrad-cam、eigen-cam和eigengrad-cam的权重计算方法，计算视觉模态各特征层各数据点的贡献度；对不同特征层的贡献度生成热力图，并将所述热力图负采样到原图尺寸，得到视觉模态激活图。8.一种基于视听语音分离的说话人视觉激活解释系统，其特征在于，应用如权利要求1至7中任一项所述的基于视听语音分离的说话人视觉激活解释方法，包括：训练语音混合模块，用于由说话人视频片段中抽取得到说话人音频片段，并与噪声音频片段混合得到混合语音片段；视觉特征提取模块，用于利用基于残差神经网络的深度学习网络，由所述说话人视频片段中提取唇部运动特征和面部特征；多模特征提取模块，用于利用基于u-net的编码器网络对所述混合音频片段进行音频
特征提取，并在时域上与所述唇部运动特征和面部特征对齐，构成多模态深度特征；模型构建训练模块，用于根据所述多模态深度特征确定视听语音分离模型的模型组件和损失函数，并在损失函数收敛至预设值时得到训练完成的所述视听语音分离模型；模型部署实施模块，用于将训练完成的所述视听语音分离模型部署至系统中，将接收到的视频流信息解码并输入所述视听语音分离模型；视觉激活解释模块，用于根据所述视听语音分离模型输出的预测频谱图计算得分函数，并根据所述得分函数计算视觉模态不同层的贡献度，根据所述贡献度生成的热力图得到视觉模态激活图。9.根据权利要求8所述的基于视听语音分离的说话人视觉激活解释系统，其特征在于，所述视觉特征提取模块具体用于：根据所述说话人视频片段的视频质量对应的预设面部检测频率，对所述说话人视频片段进行面部检测，两次面部检测的中间帧取检测框线性插值，得到面部特征；对检测得到的面部区域进行人脸关键点检测，获取唇部区域；采用resnet18网络提取面部特征作为所述唇部区域的唇部运动特征的补充信息；通过前置3d卷积模块初步提取所述唇部区域的动态信息，以及通过张量压缩变形，得到唇部运动特征。10.根据权利要求9所述的基于视听语音分离的说话人视觉激活解释系统，其特征在于，所述模型构建训练模块具体用于：计算所述说话人音频片段的真实频谱图，通过所述混合语音片段和所述说话人音频片段计算得到真实掩码图；将所述混合语音片段和所述说话人视频片段输入视听语音分离模型，得到预测掩码图，由视觉特征反卷积得到预测频谱图；计算所述真实掩码图与所述预测掩码图的差值二范式值作为视听掩码预测损失；计算所述预测频谱图和所述真实频谱图的差值二范式值作为无声视频声音重构损失；根据所述视听掩码预测损失和所述无声视频声音重构损失构建所述视听语音分离模型的损失函数；根据预设深度学习规划，对所述损失函数求梯度进行反向传播更新参数，直至所述损失函数收敛至预设损失值或完成预设学习轮数的训练，得到训练完成的所述视听语音分离模型。

技术总结
本发明公开了一种基于视听语音分离的说话人视觉激活解释方法及系统，方法包括：由说话人视频片段抽取说话人音频片段，与噪声音频片段混合得到混合语音片段；基于残差神经网络提取唇部运动特征和面部特征，基于U-net进行音频特征提取，并对齐构成多模态深度特征；确定视听语音分离模型的模型组件和损失函数并完成训练；解码视频流信息并输入部署的视听语音分离模型，并根据输出的预测频谱图计算得分函数，根据得分函数计算视觉模态不同层的贡献度，通过热力图生成视觉模态激活图。通过本发明的技术方案，创新性地提出了适用于视听语音分离特殊输出的可视化解释方法，得到了超过目前最先进水平的分离效果，能够在更复杂条件下稳定工作。稳定工作。稳定工作。

技术研发人员：胡致远沈旭立
受保护的技术使用者：华院计算技术（上海）股份有限公司
技术研发日：2023.03.01
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种量子重力仪用的双向恒流源的制作方法 下一篇：一种三维手物交互姿态估计方法、装置及存储介质

一种基于视听语音分离的说话人视觉激活解释方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于视听语音分离的说话人视觉激活解释方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表