基于人设特征的合成音频识别方法、装置、设备及介质与流程
未命名
08-06
阅读:159
评论:0
1.本发明涉及合成语音领域,具体涉及一种基于人设特征的合成音频识别方法、装置、设备及介质。
背景技术:
2.近年来,随着人工智能的快速发展,语音合成技术也日趋成熟,并在人机交互、智能家居、娱乐、教育等领域得到广泛的应用。现今的语音合成技术合成效果在清晰度和自然度上十分接近真实语音,合成音频的声学参数也很接近真实语音,已能生成与真人相媲美的语音。语音合成技术的发展在给人们带来便利的同时,不良用途的语音合成技术也给人民和社会带来危害,与之对应的语音真假鉴别技术也受到大家的广泛关注。
3.在先技术中,对合成语音的检测主要是依靠单纯的音频进行鉴别,其不仅准确率有限且难以提升。
技术实现要素:
4.有鉴于此,本公开实施例提供一种基于人设特征的合成音频识别方法、装置、设备及介质,至少部分解决现有技术中存在的问题。
5.本发明实施例提供了一种基于人设特征的合成音频识别方法,其包括:
6.获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;
7.利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;
8.利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;
9.对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
10.计算所述第二音频特征向量与所述人设特征向量的相似度;
11.根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。
12.优选地,所述多模态的用户数据还包括用户的图像数据以及人设描述的文本数据;则编码器包括用于对音频数据进行特征提取的wav2vec2.0编码器,用于对图像进行特征提取的vit编码器以及用于对文本数据进行特征提取的bert编码器。
13.优选地,人设描述的文本数据包括年龄、性别、人格、情感。
14.优选地,在利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括音频特征向量之前还包括:
15.获取用于训练的多组多模态的用户数据;
16.对每组多模态的用户数据,分别提取出各个模态的用户数据对应的特征向量;
17.对除音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
18.根据所述人设特征向量与所述音频特征向量进行对比学习,以调整各个编码器的
参数,使得其编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远;其中,在对比学习时,将人设特征向量和其配对的音频特征向量作为正样例,非配对的人设特征向量和音频特征向量作为负样例;对于给定的样例和它对应的正样例以及负样例,采用欧几里得距离来计算向量间的距离;同时定义一个对比损失来拉近正样例间的距离,,其中为欧几里得距离,m用来控制正负样例距离间的偏移量,使模型不需要考虑优化过于简单的负样例。
19.优选地,根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频,具体包括:
20.将所述相似度直接编码后输入transformer神经网络,获得第二音频特征向量和人设特征向量的第一符合程度;其中,所述相似度用第二音频特征向量和所述人设特征向量的欧氏距离表示;
21.将所述第一音频特征向量输入transformer神经网络,获得所述第一音频特征向量与合成音频的第二符合程度;
22.根据第一符合程度以及第二符合程度以及其相应的权重,判断所述音频数据为自然音频或者合成音频。
23.优选地,所述transformer神经网络损失采用交叉熵损失l2,该神经网络总的目标损失计算函数为:
[0024][0025]
其中和为权重。
[0026]
优选地,还包括:
[0027]
采用一个18层的残差网络用于自动生成最佳的和权重。
[0028]
本发明实施例还提供了一种基于人设特征的合成音频识别装置,其包括:
[0029]
用户数据获取单元,用于获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;
[0030]
第一特征提取单元,用于利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;
[0031]
第二特征提取单元,用于利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;
[0032]
拼接单元,用于对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
[0033]
相似度计算单元,用于计算所述第二音频特征向量与所述人设特征向量的相似度;
[0034]
判断单元,用于根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。
[0035]
本发明实施例还提供了一种基于人设特征的合成音频识别设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实
现如上述的基于人设特征的合成音频识别方法。
[0036]
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上述的基于人设特征的合成音频识别方法。
[0037]
综上所述,本实施例在兼顾音频本身的声学特征的基础上,可以通过融合音频外的多种模态(如包含人外貌的图像信息、描述人设特征包括年龄、性别、人格、情感等要素的文本信息)辅助进行音频合成检测。能够有效的解决现今合成音频在声学特征上越来越接近真实音频,从而导致模型对音频合成检测效果难以提升,且本实施例的方法兼具鲁棒性,能够在仅依赖音频或者部分模态缺失的情况下依然能正常进行音频合成检测。
附图说明
[0038]
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0039]
图1为本发明第一实施例的基于人设特征的合成音频识别方法的流程示意图;
[0040]
图2是利用对比学习调整编码器的示意图;
[0041]
图3是利用神经网络判断音频是否为合成语音的示意图;
[0042]
图4为本发明第二实施例的基于人设特征的合成音频识别装置的结构示意图。
具体实施方式
[0043]
下面结合附图对本公开实施例进行详细描述。
[0044]
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0045]
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
[0046]
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0047]
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
[0048]
请参阅图1,本发明第一实施例提供了一种基于人设特征的合成音频识别方法,其可由基于人设特征的合成音频识别设备(以下简称识别设备)来执行,特别的,由所述识别设备内的一个或者多个处理器来执行,以实现如下步骤:
[0049]
s101,获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据。
[0050]
在本实施例中,所述识别设备可为计算机、工作站或者服务器等具有运算处理能力的终端设备,本发明不做具体限定。
[0051]
在本实施例中,在进行识别前,首先需要获取多模态的用户数据。其中,不同的存在形式或者信息来源均可以被称之为一种模态。由两种或两种以上模态组成的数据称之为多模态数据(多模态用来表示不同形态的数据形式,或者同种形态不同的格式,一般表示文本、图片、音频、视频、混合数据)。
[0052]
在本实施例中,特别的,所述多模态的用户数据包括描绘人外貌的图像数据、描述人设特征的文本数据,如包括年龄、性别、人格、情感等要素的文本信息,以及相应的音频数据。当然,还可以包括其他模态的用户数据,例如,指纹数据等,本发明不做具体限定。
[0053]
s102,利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量。
[0054]
s103,利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量。
[0055]
在本实施例中,如图2所示,编码器包括用于对音频数据进行特征提取的wav2vec2.0编码器,用于对图像进行特征提取的vit编码器以及用于对文本数据进行特征提取的bert编码器。
[0056]
其中,在提取第一音频特征向量时,采用的是对比学习调整前的wav2vec2.0编码器,而在提取第二音频特征向量,采用的是对比学习调整后的wav2vec2.0编码器。
[0057]
具体地,对比学习着重于学习同类实例间的共同特征,区分非同类实例之间的不同之处。与生成式学习比较,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。对比学习旨在缩小与正样本间的距离,扩大与负样本间的距离,使正样本与锚点的距离远远小于负样本与锚点的距离,(或使正样本与锚点的相似度远远大于负样本与锚点的相似度),从而达到他们间原有空间分布的真实距离。
[0058]
其中,如图2所示,为了获得对比学习调整后的编码器,则:
[0059]
首先,获取用于训练的多组多模态的用户数据。
[0060]
这里的多组多模态的用户数据包括不同用户的用户数据。
[0061]
然后,对每组多模态的用户数据,分别提取出各个模态的用户数据对应的特征向量。
[0062]
接着,对除音频特征向量外的其他特征向量进行拼接,得到人设特征向量。
[0063]
以上述为例,这里将图像特征向量和文本特征向量进行拼接即可得到人设特征向量(若图像特征向量或者文本特征向量缺省,则用零补齐)。
[0064]
最后,根据所述人设特征向量与所述音频特征向量进行对比学习,以调整各个编
码器的参数,使得其编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远。
[0065]
其中,在对比学习时,将人设特征向量和其配对的音频特征向量作为正样例,非配对的人设特征向量和音频特征向量作为负样例;对于给定的样例和它对应的正样例以及负样例,采用欧几里得距离来计算向量间的距离;同时定义一个对比损失来拉近正样例间的距离,,其中为欧几里得距离,m用来控制正负样例距离间的偏移量,使模型不需要考虑优化过于简单的负样例。
[0066]
在本实施例中,通过不断的调节编码器的参数,使得编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远,即可获得对比学习调整后的编码器。
[0067]
进一步的,在对比学习的过程中,拼接后多种模态间的特征点不同,因此训练过程中网络关注点不同,优势模态会更快收敛,让共享权重变小,这阻止了另一模态的优化。为了充分应用不同模态的信息,采用了一种基于任务的多元属性评估的特征权重自动优化机制,对梯度进行自动优化以确保各特征收敛速度接近。具体如下:
[0068][0069][0070]
其中,优势模态 v 会有ρv》 1,从而会更快收敛。
[0071][0072]
可以通过人为使优势模态的梯度整体变小,减缓优势模态的学习速度。
[0073]
s104,对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量。
[0074]
s105,计算所述第二音频特征向量与所述人设特征向量的相似度。
[0075]
其中,可通过计算所述第二音频特征向量与所述人设特征向量欧几里得距离来获得二者的相似度。
[0076]
s106,根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。
[0077]
具体地:
[0078]
首先,将所述相似度直接编码后输入transformer神经网络,获得第二音频特征向量和人设特征向量的第一符合程度;其中,所述相似度用第二音频特征向量和所述人设特征向量的欧氏距离表示;
[0079]
然后,将所述第一音频特征向量输入transformer神经网络,获得所述第一音频特征向量与合成音频的第二符合程度;
[0080]
最后,根据第一符合程度以及第二符合程度以及其相应的权重,判断所述音频数据为自然音频或者合成音频。
[0081]
其中,如图3所示,在本实施例中,所述transformer神经网络判断音频数据是否为合成语音需经过两个过程,
[0082]
一是根据音频数据的声学特征,判断音频是否为合成音频。将音频通过未经过微调的原始wav2vec 2.0编码器转换为特征向量,其中包含较多的声学特征,将其输入transformer神经网络进行音频合成检测。其损失采用交叉熵损失,记为l1。
[0083]
二是计算第二音频特征向量和人设特征向量是否匹配,将文本特征向量和图像特征向量拼接后与第二音频特征向量计算欧氏距离,将二者的欧氏距离直接编码后输入transformer神经网络得到二者是否匹配。其损失采用交叉熵损失l2。
[0084]
transformer神经网络模型需要计算两个损失,即总的目标损失计算函数为:
[0085][0086]
其中和为权重,为了提升模型的效果,本实施例额外采用了一个18层的残差网络用于自动生成最佳的和权重,即用一个新的神经网络进行决策,决定二者对最终判断结果的影响。
[0087]
综上所述,本实施例在兼顾音频本身的声学特征的基础上,可以通过融合音频外的多种模态(如包含人外貌的图像信息、描述人设特征包括年龄、性别、人格、情感等要素的文本信息)辅助进行音频合成检测。能够有效的解决现今合成音频在声学特征上越来越接近真实音频,从而导致模型对音频合成检测效果难以提升,且本实施例的方法兼具鲁棒性,能够在仅依赖音频或者部分模态缺失的情况下依然能正常进行音频合成检测。
[0088]
请参阅图4,本发明第二实施例还提供了一种基于人设特征的合成音频识别装置,其包括:
[0089]
用户数据获取单元210,用于获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;
[0090]
第一特征提取单元220,用于利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;
[0091]
第二特征提取单元230,用于利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;
[0092]
拼接单元240,用于对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;
[0093]
相似度计算单元250,用于计算所述第二音频特征向量与所述人设特征向量的相似度;
[0094]
判断单元260,用于根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。
[0095]
本发明第三实施例还提供了一种基于人设特征的合成音频识别设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于人设特征的合成音频识别方法。
[0096]
本发明第四实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上述的基于人设特征的合成音频识别方法。
[0097]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种基于人设特征的合成音频识别方法,其特征在于,包括:获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;计算所述第二音频特征向量与所述人设特征向量的相似度;根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。2.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,所述多模态的用户数据还包括用户的图像数据以及人设描述的文本数据;则编码器包括用于对音频数据进行特征提取的wav2vec2.0编码器,用于对图像进行特征提取的vit编码器以及用于对文本数据进行特征提取的bert编码器。3.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,人设描述的文本数据包括年龄、性别、人格、情感。4.根据权利要求1所述的基于人设特征的合成音频识别方法,其特征在于,在利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括音频特征向量之前还包括:获取用于训练的多组多模态的用户数据;对每组多模态的用户数据,分别提取出各个模态的用户数据对应的特征向量;对除音频特征向量外的其他特征向量进行拼接,得到人设特征向量;根据所述人设特征向量与所述音频特征向量进行对比学习,以调整各个编码器的参数,使得其编码的配对的特征向量在特征中间中更为接近,而非配对的特征向量在向量空间距离尽可能远;其中,在对比学习时,将人设特征向量和其配对的音频特征向量作为正样例,非配对的人设特征向量和音频特征向量作为负样例;对于给定的样例和它对应的正样例以及负样例,采用欧几里得距离来计算向量间的距离;同时定义一个对比损失来拉近正样例间的距离,,其中为欧几里得距离,m用来控制正负样例距离间的偏移量,使模型不需要考虑优化过于简单的负样例。5.根据权利要求4所述的基于人设特征的合成音频识别方法,其特征在于,根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频,具体包括:将所述相似度直接编码后输入transformer神经网络,获得第二音频特征向量和人设特征向量的第一符合程度;其中,所述相似度用第二音频特征向量和所述人设特征向量的欧氏距离表示;将所述第一音频特征向量输入transformer神经网络,获得所述第一音频特征向量与合成音频的第二符合程度;根据第一符合程度以及第二符合程度以及其相应的权重,判断所述音频数据为自然音频或者合成音频。
6.根据权利要求5所述的基于人设特征的合成音频识别方法,其特征在于,所述transformer神经网络损失采用交叉熵损失l2,该神经网络总的目标损失计算函数为:其中和为权重。7.根据权利要求6所述的基于人设特征的合成音频识别方法,其特征在于,还包括:采用一个18层的残差网络用于自动生成最佳的和权重。8.一种基于人设特征的合成音频识别装置,其特征在于,包括:用户数据获取单元,用于获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;第一特征提取单元,用于利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;第二特征提取单元,用于利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;拼接单元,用于对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;相似度计算单元,用于计算所述第二音频特征向量与所述人设特征向量的相似度;判断单元,用于根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。9.一种基于人设特征的合成音频识别设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至7任意一项所述的基于人设特征的合成音频识别方法。10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至7任意一项所述的基于人设特征的合成音频识别方法。
技术总结
本公开实施例中提供了一种基于人设特征的合成音频识别方法、装置、设备及介质,方法包括:获取待识别的多模态的用户数据;其中,所述多模态的用户数据至少包括音频数据;利用相应的编码器对所述音频数据进行特征提取获取第一音频特征向量;利用通过对比学习调整后的编码器,对相应模态的用户数据进行特征提取,获取与各个模态对应的特征向量,所述特征向量包括第二音频特征向量;对除第二音频特征向量外的其他特征向量进行拼接,得到人设特征向量;计算所述第二音频特征向量与所述人设特征向量的相似度;根据所述相似度以及所述第一音频特征向量判断所述音频数据为自然音频或者合成音频。本发明能够提高对合成音频的识别准确性。性。性。
技术研发人员:温正棋 陆逸
受保护的技术使用者:中科极限元(杭州)智能科技股份有限公司
技术研发日:2023.04.12
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
