实时通话声纹降噪方法及电子设备和存储介质与流程

未命名 08-13 阅读:165 评论:0


1.本技术实施例涉及语音处理技术领域,特别是涉及一种实时通话声纹降噪方法及电子设备和存储介质。


背景技术:

2.声纹通话降噪顾名思义即是在通话降噪的技术上加上声纹信息,即使身处比较嘈杂的环境,或者是有多个干扰人讲话的复杂场景下都可以提取清晰的主讲人声音信息,过滤掉其他说话人的语音和背景噪声。该技术在实际生产生活中有非常广泛的应用范围。
3.现有技术中,声纹降噪方案包括注册阶段和测试阶段。
4.其中,注册阶段:主讲人先在安静场景根据用户界面(ui,user interface)上的提示注册一段20-30s的音频,用来提取主讲人的声纹信息。由于在真实使用的过程中用户可能说话不太清晰,环境背景噪声比较大,还有注册说话人语速过快,录制的时间过短等都会影响主讲人的信息收集,进而就会影响后面算法的正常使用。为此,在注册阶段对音频的质量是否合格做了限制。具体的,语音的质量:采用语音活动检测(voice activity detection,vad)对注册音频进行检测,根据音频和背景算出注册音频的信噪比;字准:注册音频进行语音识别检测后将识别的文字和正确的文本进行校验;最后就是vad后的音频长度必须要满足一定的长度。达到这些条件后,才能正确注册声纹信息。
5.测试阶段:由于目前市面上大多数pc产品的收音往往不止一个麦克风,多个麦克风组成的麦克风阵列能够更好地对语音信号进行个性化增强。声纹降噪一般要求在笔记本正前方的主讲人进行增强,其他方向的语音信号都进行抑制,同方向的其他干扰他人的语音也要进行抑制,从而会用到以下技术。回声消除、麦克风阵列技术、声纹降噪技术和自动增益控制技术。
6.目前可以拿来体验的设备除了笔记本和手机外其他的产品种类较少且性能不好,其主要缺陷有对注册说话人的声音抑制,主讲人声音忽大忽小甚至出现丢字现象,主要原因是模型把主讲人的声音和干扰人混淆,都进行了抑制;以及对干扰人声抑制不完全,会出现音频的残留,甚至不能消掉干扰人声等。但是根据我们离线处理后的音频效果,发现我们的算法可以很好地保留注册说话人的音频,有效地抑制其他说话人的干扰。
7.声纹降噪和其他降噪同样也会面临主讲人消不干净或主讲人过度消除的问题,但是真实使用的过程中我们会尽可能保证主讲人的声音能够尽可能的保留,即使干扰人会存在一些残留。


技术实现要素:

8.本发明实施例提供了一种实时通话声纹降噪方法以及装置,用于至少解决上述技术问题之一。
9.第一方面,本发明实施例提供了实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与
预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。
10.第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项实时通话声纹降噪方法。
11.第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项实时通话声纹降噪方法。
12.第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项实时通话声纹降噪方法。
13.本技术的方法通过获取实时通话音频、当前说话人第一声纹特征向量与当前说话人注册音频,然后将注册音频输入至他同步训练的声纹特征提取网络获取第二声纹特征向量,再将实时通话音频输入至预训练降噪网络的编码器部分获取第三音频特征向量,最后将第一声纹特征向量、二声纹特征向量和第三音频特征向量进行拼接在输出至预训练降噪网络的其他部分处理,从而使其输出的音频可以更好地保留说话人的音频,有效的抑制其他人声的干扰。
附图说明
14.图1为本发明一实施例提供的一种实时通话声纹降噪方法的流程图;
15.图2为本发明一实施例提供的另一种实时通话声纹降噪方法的流程图;
16.图3为本发明一实施提供的现有技术的一个具体示例的说话人过度消除示意图;
17.图4为本发明一实施提供的现有技术的一个具体示例的干扰人未完全消除示意图;
18.图5为本发明一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪网络框架图;
19.图6为本发明一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪注册阶段流程框架图;
20.图7为本发明一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪测试阶段流程框架图;
21.图8本发明一实施例提供的电子设备的结构示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.请参考图1,其示出了本发明一实施例提供的一种实时通话声纹降噪方法的流程图。
24.如图1所示,在步骤101中,获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;
25.在步骤102中,将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;
26.在步骤103中,将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;
27.在步骤104中,将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。
28.在本实施例中,对于步骤101,获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频,例如,在通话时通过设备获取实时的通话音频,以及获取提前准备好的第一声纹特征向量与注册音频,并且,所获取的第一声纹特征向量与注册音频都属于同一说话人。
29.然后,对于步骤102,将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量,例如,通过预训练降噪网络同步训练的声纹特征提取网络提取注册音频的声纹信息从而获取第二声纹特征向量。
30.然后,对于步骤103,将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分,例如,将设备获取到的实时通话音频输入至预训练降噪网络通过编码器获取到第三声纹特征向量,并且,预训练降噪网络包含了编码部分与其他部分。
31.最后,对于步骤104,将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分,例如,将第一第二第三声纹特征向量拼接,然后将拼接后的声纹特征向量输入预训练降噪网络的其他部分进行处理。
32.本实施例的方法是获取实时通话音频、当前说话人第一声纹特征向量与当前说话人注册音频,然后将注册音频输入至他同步训练的声纹特征提取网络获取第二声纹特征向量,再将实时通话音频输入至预训练降噪网络的编码器部分获取第三音频特征向量,最后将第一声纹特征向量、二声纹特征向量和第三音频特征向量进行拼接在输出至预训练降噪网络的其他部分处理,从而使其输出的音频可以更好地保留说话人的音频,有效的抑制其他人声的干扰。
33.在一些可选的实施例中,所述当前说话人的第一声纹特征向量通过,将当前说话人的注册音频输入至固定的说话人特征提取器进行特征提取操作从而获取第一声纹特征向量,从而提前获取到第一声纹特征向量方便后续操作。
34.进一步请参考图2,其示出了本发明一实施例的另一种实时通话声纹降噪的流程图,该流程图主要是对流程图1“所述预训练降噪网络与所述声纹特征提取网络的同步训练”训练步骤的进一步限定的步骤图。
35.如图2所示,在步骤201中,将带噪音频输入至所述预训练降噪网络的编码部分得
到编码后的结果,其中,所述带噪音频具有对应的干净音频和与所述带噪音频属于同一说话人的注册音频;
36.在步骤202中,至少将所述注册音频经过所述声纹特征提取网络得到的声纹提取结果与所述编码后的结果进行拼接得到拼接后的结果;
37.在步骤203中,将所述拼接后的结果继续输入至所述预训练降噪网络的其他部分进行处理得到所述预训练降噪网络的输出;
38.在步骤204中,计算所述预训练降噪网络的输出和所述干净音频的损失,基于所述损失训练所述预训练降噪网络和所述声纹提取模型。
39.在本实施例中,对于步骤201,将带噪音频输入至所述预训练降噪网络的编码部分得到编码后的结果,其中,所述带噪音频具有对应的干净音频和与所述带噪音频属于同一说话人的注册音频,例如,在训练阶段将以及提前准备好的带噪音频输入进预训练降噪网络通过其编码器进行处理从而获取编码后的结果,并且带噪音频具有与其对应的干净音频以及与带噪音频属于同一说话人的注册音频。
40.然后,对于步骤202,至少将所述注册音频经过所述声纹特征提取网络得到的声纹提取结果与所述编码后的结果进行拼接得到拼接后的结果,例如,注册音频至少需要通过声纹网络获取到声纹提取的结果,在将其声纹提取的结果与编码后的结果拼接从而得到拼接后的结果。
41.然后,对于步骤203,将所述拼接后的结果继续输入至所述预训练降噪网络的其他部分进行处理得到所述预训练降噪网络的输出,例如,在将声纹提取的结果与编码后的结果拼接后输入至预训练降噪网络的其他部分处理后输出得到其输出的音频。
42.最后,对于步骤204,计算所述预训练降噪网络的输出和所述干净音频的损失,基于所述损失训练所述预训练降噪网络和所述声纹提取模型,例如,将预训练降噪网络输出的音频与干净音频进行比对计算,获取到处理后音频的损失,通过音频的损失训练预训练降噪网络和声纹提取模型。
43.本实施例的方法将有对应的干净音频与同一说话人的注册音频的带噪音频输入至预训练声纹特征提取网络的编码器部分获取编码后的结果,然后将注册音频输入至声纹提取器获取提取后的结果,获取声纹提取后的结果后将其与编码后的结果拼接后输入至预训练降噪网络的其他部分处理后输出得到其输出的音频,最后将预训练降噪网络输出的音频与干净音频进行比对计算,获取到处理后音频的损失,通过音频的损失训练预训练降噪网络和声纹提取模型。
44.在一些可以的实施例中,可以先将注册音频输入至固定的说话人特征向量提取器获得固定的提取结果,然后将注册音频输入声纹特征提取网络得到的声纹提取结果,最后将固定的提取结果、声纹特征提取网络提取结果以及编码后的结果进行拼接得到拼接后的结果,从而使其拼接的音频更加准确。
45.在一些可选的实施例中,预训练降噪网络的输出和干净音频的损失是通过尺度不变信噪比(sisnr loss,scale-invariant source-to-noise ratio)损失函数来计算,之所以使用尺度不变信噪比损失函数计算是因为在模型的训练阶段没有添加说话人相关的损失函数,这样可以使该预训练降噪网络只具备消除干扰人声的功能,然后通过尺度不变信噪比将低维声纹信息充分利用,从而达到消除无关声纹信息并且只保留注册说话人声纹信
息的的功能。
46.在一些可选的实施例中,带噪音频是由当前说话人的干净音频与至少一个干扰人音频混合而得到带噪音频,可以直接混合。也可以先将干净音频叠加不同的房间冲击响应混合,并且后续还可以为说话人和干扰人添加不同的信噪比噪音,从而使带噪音频可以更好的模拟真实的通话场景。
47.在一些可选的实施例中,将实时通话音频输入至预训练降噪网络的编码部分之前,需要对实时通话音频进行回声消除(aec,acoustic echo cancellation)和波束成形(bf,beam forming)处理,处理后的音频输入至预训练降噪网络处理经过处理的音频在使用自动增益控制(agc,automatic gain control)进行自动增益,从而使最后输出音频听感更加的舒适平稳。
48.在一些可选的实施例中,第一声纹特征向量、第二声纹特征向量和第三声纹特征向量拼接后经过预训练降噪网络的其他部分处理,从而可以将处理完成的音频发送给实时通话的远端人,也可以输入至语音识别引擎。
49.请参考图3,其示出了本发明一实施例提供的现有技术的一个具体示例的说话人过度消除示意图。
50.如图3所示,mix音频为带噪音频,ref音频为与带噪音频对应的干净音频,降噪后的音频可以看出注册说话人的带噪音频经过降噪网络处理后出现过度消除的音频,这是由于降噪网络将注册说话人的声音与干扰人的声音混淆所造成。
51.请参考图4,其示出了本发明一实施提供的现有技术的一个具体示例的干扰人未完全消除示意图。
52.如图4所示,mix音频为带噪音频,ref音频为与带噪音频对应的干净音频,降噪后的音频可以看出注册说话人的带噪音频经过降噪网络处理后出现对干扰人的音频抑制不完全导致噪音残留。
53.发明人在实现本技术的过程中尝试过以下技术方案:其中一种方案使用固定说话人向量,在模型的训练过程中不对该模块更新,这种方案的结果是其他人的人声消除的不够彻底。另一种方案是,说话人模型和语音增强模型联合训练,该方法在模型训练的过程中较为复杂,并且未能考虑在真实场景使用中实时性的问题。
54.本技术的技术方案主要从以下几个方面入手进行设计和优化:
55.本技术方案的声纹提取包含两个部分,一部提取文本无关声纹识别的嵌入特征(embedding)模块,该模块是模型训练好的,在声纹降噪模型训练的过程中不需要重新训练。
56.另一部分的声纹特征提取是随着声纹降噪模型训练网络权重变化的,这样能够做到尽可能多的提取主讲人的信息从而保证在真实使用的过程主讲人不丢字。
57.在数据准备阶段,先准备好每个说话人的注册音频,长度为30s,每个说话人的测试音频拼接成一条长音频。在模型训练阶段会实时读取数据,每次选择一个主讲人10s的安静音频,干扰人每次可以选择0-3个干扰人。并且为主讲人和干扰人加上不同信噪比的噪声。为了更好的模拟真实场景,我们可以将干净音频叠加不同房间的冲击响应。
58.请参考图5,其示出了本发明一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪网络框架图。
59.如图5所示,我们将语音增强和说话人特征向量提取模型相结合,步骤1:提取emb,其中,emb指的是前面提到的嵌入特征。将准备好的数据,注册音频、干净音频、混合音频均转换成频域,我们这里采用的是汉宁窗、帧长512帧移256,fft的长度为512;
60.步骤2:将带噪音频按照图中右边的降噪网络的流程进行操作,计算网络的输出与干净音频的sisnr loss;
61.步骤3:将注册音频经过特征提取后,输入网络然后在时间维度做进一步处理,然后和噪声音频做相同的操作,并且注册音频经过网络的输出拼接在带噪音频输入网络之后,其中,i-feature指的是将语音从频域转换到时域。
62.请参考图6,其示出了本发明一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪注册阶段流程框架图。
63.如图6所示,步骤1:用户提前注册20-30s左右的注册音频;步骤2对注册音频进行质检;步骤3:提取该说话人的声纹特征1;步骤4:提取该说话人的声纹特征2.其中,声纹特征1由固定的说话人特征提取器提取的固定特征,声纹特征2是由预训练降噪网络同步训练的声纹特征提取网络进行提取。
64.请参考图7,其示出了本发明一实施提供的一种实时通话声纹降噪方法的一个具体示例的实时通话声纹降噪测试阶段流程框架图。
65.如图7所示,步骤1:用户选择人声分离模式。步骤2:麦克风录制混合音频;步骤3:获取混合人声提取其声纹特征;步骤4:使用回声消除(aec,acoustic echo cancellation)处理音频;步骤5:使用波束成形(bf,beam forming)处理音频;步骤6:将音频输入声纹降噪网络处理;
66.步骤7:处理后的音频输入自动增益控制(agc,automatic gain control)对音频进行增益然后输出音频。
67.在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于销售电话的线索标签识别方法;
68.作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
69.获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;
70.将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;
71.将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;
72.将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。
73.非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于销售电话的线索标签识别装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可
选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至用于销售电话的线索标签识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
74.本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项用于实时通话声纹降噪方法。
75.图8是本发明实施例提供的电子设备的结构示意图,如图8所示,该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理器810为例。用于销售电话的线索标签识别方法的设备还可以包括:输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于销售电话的线索标签识别方法。输入装置830可接收输入的数字或字符信息,以及产生与实施例用于销售电话的线索标签识别装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
76.上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
77.作为一种实施方式,上述电子设备应用于用于销售电话的线索标签识别装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
78.获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;
79.将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;
80.将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;
81.将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。
82.本技术实施例的电子设备以多种形式存在,包括但不限于:
83.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
84.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
85.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
86.(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
87.(5)其他具有数据交互功能的电子装置。
88.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
89.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
90.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。2.根据权利要求1所述的方法,其中,所述当前说话人的第一声纹特征向量通过以下方式获得:使用固定的说话人特征提取器对所述当前说话人的注册音频进行特征提取得到所述第一声纹特征向量。3.根据权利要求1所述的方法,其中,所述预训练降噪网络与所述声纹特征提取网络的同步训练方法包括:将带噪音频输入至所述预训练降噪网络的编码部分得到编码后的结果,其中,所述带噪音频具有对应的干净音频和与所述带噪音频属于同一说话人的注册音频;至少将所述注册音频经过所述声纹特征提取网络得到的声纹提取结果与所述编码后的结果进行拼接得到拼接后的结果;将所述拼接后的结果继续输入至所述预训练降噪网络的其他部分进行处理得到所述预训练降噪网络的输出;计算所述预训练降噪网络的输出和所述干净音频的损失,基于所述损失训练所述预训练降噪网络和所述声纹提取模型。4.根据权利要求3所述的方法,其中,所述至少将所述注册音频经过所述声纹特征提取网络得到的声纹提取结果与所述编码后的结果进行拼接得到拼接后的结果包括:将所述注册音频经过所述固定的说话人特征提取器得到的固定提取结果、所述注册音频经过所述声纹特征提取网络得到的声纹提取结果以及所述编码后的结果进行拼接得到拼接后的结果。5.根据权利要求3或4所述的方法,其中,所述计算所述预训练降噪网络的输出和所述干净音频的损失包括:计算所述预训练降噪网络的输出和所述干净音频的尺度不变信噪比损失。6.根据权利要求3所述的方法,其中,所述带噪音频通过以下方式获取:至少将所述当前说话人的干净音频与至少一个干扰人的干扰音频进行混合得到所述带噪音频。7.根据权利要求1所述的方法,其中,在将所述实时通话音频输入至所述预训练降噪网络的编码部分之前,所述方法还包括:对所述实时通话音频进行回声消除处理和波束成形处理;在将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分之后,所述方法还包括:对所述预训练降噪网络的输出进行自动增益控制处理。
8.根据权利要求1或7所述的方法,其中,在将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分之后,所述方法还包括:将所述预训练练降噪网络的输出发送给实时通话的远端人;或将所述预训练练降噪网络的输出送入语音识别引擎。9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

技术总结
实时通话声纹降噪方法、电子设备和存储介质,其中,实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。从而使其输出的音频可以更好地保留说话人的音频,有效的抑制其他人声的干扰。有效的抑制其他人声的干扰。有效的抑制其他人声的干扰。


技术研发人员:赵飞 陈进 周晨 周强
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:2023.04.26
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐