虚拟声音合成方法、装置及相关设备与流程

未命名 07-27 阅读:102 评论:0


1.本技术涉及语音合成技术领域,更具体的说,是涉及一种虚拟声音合成方法、装置及相关设备。


背景技术:

2.语音合成技术是一种将文本转换成语音的智能语音技术,它是实现人机交互的核心技术之一。随着语音合成技术的不断发展和完善,目前语音合成已经广泛应用到社会生活的方方面面,包括公共服务(信息播报、智能客服等)、智能硬件(智能音箱、智能机器人等)、智慧交通(语音导航、智能车载设备等)、教育(智慧课堂、外语学习等)、泛娱乐(有声阅读、影视配音、虚拟ip等)等领域,创造了广泛的经济和社会价值。
3.随着语音合成的应用不断增多,语音合成音库定制需求数以及对音库多样性、个性化的需求不断提升。现有虚拟合成声音方案一般是:首先训练一个多人的语音合成模型,对每个说话人采用一个说话人编码向量进行表征。这个说话人编码向量可以是一个可学习的向量,也可以采用一个已经训练好的声纹识别模型提取的向量作为说话人表征。模型训练完成之后,通过说话人编码向量插值组合构造新的虚拟合成声音。
4.由于说话人编码向量之间不一定连续,导致现有技术通过插值得到的虚拟合成声音质量不好。


技术实现要素:

5.鉴于上述问题,提出了本技术以便提供一种虚拟声音合成方法、装置及相关设备,以解决现有通过说话人编码向量得到虚拟合成音容易存在声音质量不好的问题。具体方案如下:
6.第一方面,提供了一种虚拟声音合成方法,包括:
7.获取预先构建的音色特征空间,所述音色特征空间为,采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,所得到的映射后的平滑连续的隐层空间;
8.从所述音色特征空间进行采样,得到采样的虚拟音色特征向量;
9.基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音。
10.第二方面,提供了一种虚拟声音合成装置,包括:
11.音色特征空间获取单元,用于获取预先构建的音色特征空间,所述音色特征空间为,采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,所得到的映射后的平滑连续的隐层空间;
12.虚拟音色特征向量采样单元,用于从所述音色特征空间进行采样,得到采样的虚拟音色特征向量;
13.虚拟声音合成单元,用于基于待合成文本的文本特征向量及所述虚拟音色特征向
量进行虚拟声音合成,得到合成后的虚拟声音。
14.第三方面,提供了一种电子设备,包括:存储器和处理器;
15.所述存储器,用于存储程序;
16.所述处理器,用于执行所述程序,实现如上虚拟声音合成方法的各个步骤。
17.第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上虚拟声音合成方法的各个步骤。
18.借由上述技术方案,本技术为了生成海量不同音色的虚拟合成声音,预先采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量进行分布建模并经逆变换映射,得到映射后的平滑连续的隐层空间,作为音色特征空间,本技术的目标生成模型为可逆的生成式概率模型,其可以将任意复杂概率分布模型经过逆变换,映射到一个平滑连续的分布空间,鉴于目标生成模型的这种特性,最终得到的音色特征空间是一个平滑连续的空间,在这个空间中采样获得的虚拟音色特征向量是连续的,进而基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音。相比于现有的不连续的说话人编码向量,本技术基于平滑连续的音色特征空间采样得到的虚拟音色特征向量进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。
19.同时,本技术采样目标生成模型基于多个说话人的训练语音所构建的音色特征空间,其包含的音色类型、数目更加丰富,满足虚拟声音合成任务对丰富的合成音库的应用需求。
附图说明
20.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
21.图1为本技术实施例提供的虚拟声音合成方法的一流程示意图;
22.图2为本技术实施例提供的音色特征空间构建过程示意图;
23.图3示例了一种多说话人语音模型的可选结构示意图;
24.图4a-图4b示例了另外两种多说话人语音模型的可选结构示意图;
25.图5为本技术实施例提供的一种虚拟声音合成装置结构示意图;
26.图6为本技术实施例提供的电子设备的结构示意图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.本技术提供了一种虚拟声音合成方法,首先基于目标生成模型对语音的音色特征空间进行建模,进一步基于建模得到的音色特征空间进行虚拟声音的合成。采用本技术的方案,可以在构建的平滑连续的音色特征空间中进行采样,基于采样的虚拟音色特征向量进行虚拟声音的合成,能够即时采样生成海量具有不同音色的合成语音。
29.本技术方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
30.接下来,结合图1所述,本技术的虚拟声音合成方法可以包括如下步骤:
31.步骤s100、获取预先构建的音色特征空间,该空间为采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,所得到的映射后的平滑连续的隐层空间。
32.具体地,本技术可以预先收集多个说话人的训练语音,每个说话人可以至少收集上百句数据,每句话时长在十秒左右。同时收集的说话人数据年龄尽量保证均衡。对于年龄,可以覆盖童声、少年声、青年声、中年声、老年声等。同时对于每个年龄段,保证男女说话人数均衡。
33.其中,收集的说话人的训练语音可以通过发音人录制、有声音频数据搜集等途径获取得到。
34.对于收集的训练语音,通过音色编码得到对应的原始音色特征向量。
35.进一步,采用目标生成模型对各原始音色特征向量分布建模并经逆变换映射,得到一个平滑连续的隐层空间,由该隐层空间作为音色特征空间。
36.其中,目标生成模型可以采用流模型,如glow流模型或nice流模型等。流模型为生成式概率模型,其还是一个可逆模型,能够将任意一个复杂概率分布模型经过流模型的逆变换,投影到一个平滑连续的分布空间。以glow流模型为例,其可以将任意一个复杂概率分布模型经过流模型的逆变换,投影到一个标准正态分布空间。
37.步骤s110、从所述音色特征空间进行采样,得到采样的虚拟音色特征向量。
38.具体地,在音色特征空间采样时,可以采用随机采样的方式,采样得到虚拟音色特征向量。由于音色特征空间是平滑连续分布的,可以即时采样得到海量的虚拟音色特征向量,进而便于后续生成海量的合成虚拟音。
39.步骤s120、基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音。
40.具体地,本技术可以将待合成文本的文本特征向量及所述虚拟音色特征向量送入训练后的多说话人语音合成模型,得到模型合成的虚拟声音。
41.进一步可选的,在进行语音合成时,除了输入待合成文本和虚拟音色特征向量之外,还可以进一步由用户选定目标说话人表征向量,将目标说话人表征向量和待合成文本及虚拟音色特征向量一同输入多说话人语音合成模型。其中,目标说话人表征向量可以是表征不同说话人韵律风格的向量,则用户可以根据想要合成的虚拟声音的韵律风格,在训练集中选取相近韵律风格的目标说话人表征向量。
42.本技术实施例提供的虚拟声音合成方法,为了生成海量不同音色的虚拟合成声音,预先采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模并经逆变换映射,得到映射后的平滑连续的隐层空间,作为音色特征空间,本技术的目标生成模型为可逆的生成式概率模型,其可以将任意复杂概率分布模型经过逆变换,映射到一个平滑连续的分布空间,鉴于目标生成模型的这种特性,最终得到的音色特征空间是一个平滑连续的空间,在这个空间中采样获得的虚拟音色特征向量是连续的,进而基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声
音。相比于现有的不连续的说话人编码向量,本技术基于平滑连续的音色特征空间采样得到的虚拟音色特征向量进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。
43.同时,本技术采样目标生成模型基于多个说话人的训练语音所构建的音色特征空间,其包含的音色类型、数目更加丰富,满足虚拟声音合成任务对丰富的合成音库的应用需求。采用本技术的虚拟声音合成方法,可以合成出一个之前完全不存在的虚拟声音,也可以是仿制现有的声音。
44.在本技术的一些实施例中,对上述实施例中介绍的音色特征空间的构建过程进行介绍,如图2所示,该过程可以包括:
45.步骤s200、获取由多个说话人的训练语音、训练文本及说话人的表征向量组成的训练集。
46.具体地,为了对语音音色特征空间建模,本案收集海量说话人的训练数据建模。收集的训练数据包含了说话人的训练语音、与训练语音对应的训练文本以及说话人的表征向量。
47.其中,说话人的训练语音可以是干净语音数据,训练文本为干净语音数据对应的发音文本信息。
48.说话人的表征向量用于实现对不同说话人的韵律进行区分建模。说话人的表征向量可以采用多种形式,示例如可以采用独热编码的方式,对每个说话人编码得到说话人的表征向量。或者,还可以采用训练后的说话人识别模型提取每个说话人的训练语音的声纹表征,作为每个说话人的表征向量,等。
49.进一步地,为了保证模型的建模效果,本步骤中收集的训练数据可以包括至少上千说话人的数据。每个说话人可以至少收集上百句数据,每句话时长在十秒左右。同时收集的说话人数据年龄尽量保证均衡。对于年龄,可以覆盖童声、少年声、青年声、中年声、老年声等。同时对于每个年龄段,保证男女说话人数均衡。
50.其中,收集的说话人的训练语音可以通过发音人录制、有声音频数据搜集等途径获取得到。
51.步骤s210、利用训练集训练多说话人语音模型,该多说话人语音模型中包括目标生成模型,能够建模得到说话人音色特征空间。
52.具体地,本技术设计的多说话人语音模型可以用于:
53.基于说话人的训练文本及说话人的表征向量,提取与说话人韵律时长相关且与说话人音色无关的目标声学表征向量。对说话人的训练语音进行音色编码得到原始音色特征向量,利用目标生成模型将所述原始音色特征向量逆变换映射到平滑连续的隐层空间,得到映射后的音色隐层特征向量,基于所述音色隐层特征向量和所述目标声学表征向量进行解码,得到解码后的声学信息。
54.由上可知,本技术设计的多说话人语音模型在建模过程,对说话人的韵律风格和音色进行了分离建模,也即,分别提取了与说话人韵律时长相关且与音色无关的目标声学表征向量,以及利用目标生成模型将训练语音的原始音色特征向量逆变换到平滑连续的隐层空间,得到音色隐层特征向量。最终,基于音色隐层特征向量和目标声学表征向量进行解码,得到声学信息。
55.本实施例中,对于多说话人语音模型中的目标生成模型,其可以采用流模型,如
glow流模型或nice流模型等。流模型为生成式概率模型,其还是一个可逆模型,能够将任意一个复杂概率分布模型经过流模型的逆变换,投影到一个平滑连续的分布空间。以glow流模型为例,其可以将任意一个复杂概率分布模型经过流模型的逆变换,投影到一个标准正态分布空间。
56.其中,声学信息可以是原始波形、线性频谱、梅尔频谱等多种不同类型的声学信息。
57.步骤s220、计算声学损失及目标生成模型的损失,并训练多说话人语音模型的网络参数。
58.具体地,基于所述解码后的声学信息及所述说话人的训练语音,可以计算声学损失。
59.以声学信息为频谱特征y为例,声学损失可以表示为l
mel

[0060][0061]
其中,t表示当前训练语音包含的帧数,yi和分别为当前训练语音第i帧真实的频谱特征和模型预测的频谱特征。
[0062]
进一步地,计算所述目标生成模型的损失。
[0063]
以目标生成模型采用glow流模型为例,可以计算glow流模型的对数似然损失函数l
glow

[0064]
l
glow
=log p(z;n(0,1))+log(|det(fg)|-1
)
[0065]
其中,z为当前训练语音经过glow流模型逆变换后得到的音色隐层特征向量,n(0,1)表示标准正态分布,det(fg)为glow流模型的雅克比行列式。
[0066]
在上述计算得到声学损失及目标生成模型的损失之后,由所述声学损失及所述目标生成模型的损失组合为总损失l:
[0067]
l=l
mel

glow
·
l
glow
[0068]
其中,λ
glow
表示glow流模型的损失函数的权重,为负数。
[0069]
以最小化所述总损失l为训练目标,训练所述多说话人语音模型的网络参数,直至达到设定训练结束条件。此时,glow流模型的隐层空间所服从的标准正态分布,即为得到的音色特征空间。
[0070]
步骤s230、将训练后的多说话人语音模型中的所述目标生成模型的隐层空间作为音色特征空间。
[0071]
具体地,在上述对多说话人语音模型进行训练之后,其中目标生成模型的隐层空间即可作为最终的音色特征空间。
[0072]
本技术实施例提供的音色特征空间构建方法,采用直接对音色特征空间建模的方式,而传统的语音合成模型一般采用说话人表征向量对不同说话人数据进行区分表征,但是由于不同说话人的语音在韵律风格和音色上都有不同,因此该说话人表征向量中包含了说话人的韵律风格和音色的综合信息。为了能够学习到语音的音色特征空间分布,区别于传统的语音合成模型,本技术的多说话人语音模型能够基于说话人的训练文本及表征向量,提取与说话人韵律时长相关且与说话人的音色无关的目标声学表征向量,进一步通过对说话人的训练语音进行音色编码得到原始音色特征向量,利用目标生成模型将原始音色
特征向量逆变换映射到平滑连续的隐层空间,得到音色隐层特征向量,并基于音色隐层特征向量和目标声学表征向量进行解码,得到解码后声学信息,也即,本技术的多说话人语音模型在解码得到声学信息的过程中,将说话人的韵律风格和音色进行了解耦分离。并且,本技术通过采用目标生成模型,能够将原始音色特征向量逆变换映射到平滑连续的隐层空间,将训练后的多说话人语音模型中目标生成模型的隐层空间作为音色特征空间,可以显著提升语音合成音库构建效率,丰富语音合成音库音色类型、数目,满足虚拟人、智能硬件等业务对丰富的合成音库的应用需求。
[0073]
同时,本技术的目标生成模型为生成式概率模型,其可以将任意复杂概率分布模型经过逆变换,映射到一个平滑连续的分布空间,鉴于目标生成模型的这种特性,最终得到的音色特征空间是一个平滑连续的空间,在这个空间中采样获得的音色特征是连续的,相比于现有的不连续的说话人编码向量,本技术基于平滑连续的音色特征空间采样得到的音色特征进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。
[0074]
结合图3所示,本实施例中提供了多说话人语音模型的一种可选组成结构。
[0075]
其中,多说话人语音模型可以包括:
[0076]
声学表征向量提取模块、音色空间学习模块及解码模块,其中所述音色空间学习模块包括音色编码模块和目标生成模型。
[0077]
声学表征向量提取模块,用于基于说话人的训练文本及说话人的表征向量,提取与说话人韵律时长相关且与说话人音色无关的目标声学表征向量。
[0078]
具体地,输入至声学表征向量提取模块的可以包括,说话人的训练文本的文本特征x和说话人的表征向量s。文本特征x可以包括音素、声调、韵律层级等信息。
[0079]
声学表征向量提取模块,基于输入的特征可以提取与说话人韵律时长相关且与音色无关的目标声学表征向量h1。
[0080]
其中,输入的说话人的表征向量s用于控制提取的目标声学表征向量h1与说话人的韵律时长相关,进一步通过设计声学表征向量提取模块的结构,可以保证提取的目标声学表征向量h1与说话人的音色无关,以此保证音色空间学习模块能够学习到解耦后的音色特征。
[0081]
将目标声学表征向量h1送入到解码模块,实现韵律控制解码。
[0082]
对于声学表征向量提取模块的结构,本技术后续实施例详细介绍。
[0083]
音色编码模块,用于对说话人的训练语音进行音色编码得到原始音色特征向量。
[0084]
具体地,输入至音色编码模块的可以是说话人的训练语音的声学特征y,声学特征y可以是波形特征、频谱特征等。
[0085]
音色编码模块可以采用随机初始化,也可以采用一个预训练后的说话人分类模型等,本实施例中不做特别约束。
[0086]
这里需要说明的是,在一次训练过程中,输入至声学表征向量提取模块的训练数据,与输入至音色编码模块的数据只要是同一说话人的训练数据即可,不要求输入的训练语音和训练文本必须是配对的。
[0087]
音色编码模块通过对输入的训练语音的声学特征y进行卷积、池化等操作,提取到原始音色特征向量h2。
[0088]
目标生成模型,用于将所述原始音色特征向量逆变换映射到平滑连续的隐层空
间,得到映射后的音色隐层特征向量。
[0089]
具体地,目标生成模型的输入为音色编码模块输出的原始音色特征向量h2,经过目标生成模型的逆变换映射到隐层空间,得到逆变换后的音色隐层特征向量z。将音色隐层特征向量z送入到解码模块,实现音色控制解码。
[0090]
解码模块,用于基于所述音色隐层特征向量和所述目标声学表征向量进行解码,得到解码后的声学信息
[0091]
通过本实施例提供的多说话人语音模型的组成结构,可以实现韵律和音色的分离建模,同时,由训练后的多说话人语音模型中的目标生成模型建模得到的隐层空间,作为音色特征空间,保证该音色特征空间的平滑且连续。
[0092]
基于上述多说话人语音模型的结构,本技术实施例介绍了前述步骤s120,基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音的一种可选实现方式。
[0093]
具体地,可以将上述多说话人语音模型作为虚拟声音合成时的语音合成模型,也即,可以将待合成文本的文本特征向量、选定的目标说话人表征向量及所述虚拟音色特征向量输入上述训练后的多说话人语音模型中,得到多说话人语音模型解码后的目标声学信息。进一步,基于目标声学信息,得到合成后的虚拟声音。
[0094]
在利用训练后的多说话人语音模型进行虚拟声音合成时,无需像训练阶段那样再输入说话人训练语音,可以直接将输入的虚拟音色特征向量送入解码模块,同时,利用声学表征向量提取模块对输入的待合成文本的文本特征向量、选定的目标说话人表征向量进行编码处理,得到与说话人音色无关的目标声学表征向量,最终利用解码模块基于目标说话人表征向量和输入的虚拟音色特征向量进行解码,得到目标声学信息。
[0095]
目标声学信息可以有多种类型,如波形特征、频谱特征或者直接是合成语音数据。基于该目标声学信息,可以得到合成语音。
[0096]
以目标声学信息为频谱特征为例,则可以将频谱特征输入到声码器,从而得到合成语音。
[0097]
本实施例利用训练后的多说话人语音模型,可以合成海量的虚拟声音,由于音色特征空间是一个平滑连续的空间,在这个空间中采样获得的音色特征是连续的,相比于现有的不连续的说话人编码向量,本技术基于平滑连续的音色特征空间采样得到的音色特征进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。且通过在连续的音色特征空间进行采样,可以合成出一个之前完全不存在的虚拟声音,也可以是仿制现有的声音。
[0098]
在本技术的一些实施例中,介绍了上述声学表征向量提取模块的几种可选实现方式。
[0099]
第一种、
[0100]
结合图4a所示,声学表征向量提取模块可以包括:文本编码模块、时长预测模块和时长调整模块。
[0101]
文本编码模块,用于对输入的说话人的训练文本的文本特征x进行编码,得到文本编码向量h0。
[0102]
其中,训练文本的文本特征x可以是音素级文本特征,经过编码后得到的文本编码向量对应的也是音素级文本编码向量h0。
[0103]
时长预测模块,用于基于所述文本编码向量h0及输入的说话人的表征向量s,预测所述训练文本的时长信息d。
[0104]
具体地,训练文本的时长信息可以是训练文本中每个音素的时长d。时长预测模块用来学习输入文本中每个音素的时长d。时长预测模块中输入的说话人的表征向量s用于控制对不同说话人的时长进行区分建模。
[0105]
时长调整模块,用于按照所述训练文本的时长信息,对所述文本编码向量进行展开,得到与说话人韵律时长相关且与说话人音色无关的目标声学表征向量。
[0106]
具体地,经过文本编码模块得到的文本编码向量h0并不包含说话人的韵律信息,为了得到与说话人韵律时长相关的目标声学表征向量,时长调整模块按照时长预测模块输出的训练文本的时长信息d,对文本编码向量h0进行展开,进而得到与说话人韵律时长相关且与说话人音色无关的目标声学表征向量h1。
[0107]
以训练文本的时长信息包括训练文本中每个音素的时长为例,则时长调整模块按照训练文本的时长信息,对文本编码向量进行展开,得到目标声学表征向量的过程,可以包括:
[0108]
时长调整模块将音素级的文本编码向量h0,按照每个音素的时长d进行展开,得到目标声学表征向量h1。
[0109]
其中,对文本编码向量按照音素时长进行展开的方式可以有多种,示例如,对文本编码向量h0中每个音素对应的向量h
0j
,若第j个音素的时长为n帧,则将该音素对应的向量h
0j
,复制n份进行展开,最终得到的展开后的目标声学表征向量h1的长度与训练文本中各音素的时长总和相同。
[0110]
当然,对文本编码向量按照音素时长进行展开的方式不局限于上述复制这种形式,除此之外还可以采用其他展开形式,此处不一一赘述。
[0111]
以图4a所示的多说话人语音模型为例,由于声学表征向量提取模块包含了时长预测模块,该时长预测模块可以单独训练也可以与多说话人语音模型联合训练,在时长预测模块与多说话人语音模型联合训练时,则多说话人语音模型训练时的总损失函数可以进一步包括时长预测损失l
dur

[0112]
时长预测损失l
dur
可以基于预测的所述训练文本的时长信息及所述训练文本标注的真实时长信息计算得到。
[0113][0114]
其中,p为当前训练文本包含的音素个数。dj和分别为当前训练文本中第j个音素的真实和预测时长帧数。
[0115]
最终的总损失l为:
[0116]
l=l
mel
+l
dur

glow
·
l
glow
[0117]
第二种、
[0118]
结合图4b所示,声学表征向量提取模块可以包括:基于注意力机制对时长隐式建模的特征提取模块。
[0119]
该特征提取模块,用于基于输入的说话人的训练文本的文本特征x,及说话人的表征向量s,采用注意力机制,预测与说话人韵律时长相关且与说话人音色无关的目标声学表
征向量h1及停止符i。
[0120]
与图4a示例的声学表征向量提取模块的结构不同的是,图4b示例的特征提取模块采用注意力机制,以预测与说话人韵律时长相关且与说话人音色无关的目标声学表征向量及停止符为目标,通过预测停止符控制目标声学表征向量的长度,实现对时长隐式建模,最终得到与说话人韵律时长相关且与说话人音色无关的目标声学表征向量。
[0121]
以图4b所示的多说话人语音模型为例,由于声学表征向量提取模块包含了基于注意力机制对时长隐式建模的特征提取模块,该特征提取模块可以与多说话人语音模型联合训练,则多说话人语音模型训练时的总损失函数可以进一步包括特征提取模块训练损失l
att

[0122]
l
att
可以基于预测的目标声学表征向量及所述训练文本标注的真实的与说话人音色无关的声学表征向量,以及,基于预测的停止符及所述训练文本标注的真实停止符,计算得到。
[0123][0124]
其中,t为当前训练文本对应的训练语音包含的帧的数量。hi和分别为训练语音中第i帧的真实和预测的与说话人音色无关的目标声学表征向量,和ii分别为训练语音中第i帧预测的停止符标记后验概率和真实的停止符标记,ce(
·
)为交叉熵。
[0125]
最终的总损失l为:
[0126]
l=l
mel
+l
att

glow
·
l
glow
[0127]
下面对本技术实施例提供的虚拟声音合成装置进行描述,下文描述的虚拟声音合成装置与上文描述的虚拟声音合成方法可相互对应参照。
[0128]
参见图5,图5为本技术实施例公开的一种虚拟声音合成装置结构示意图。
[0129]
如图5所示,该装置可以包括:
[0130]
音色特征空间获取单元11,用于获取预先构建的音色特征空间,所述音色特征空间为,采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模并经逆变换映射,所得到的映射后的平滑连续的隐层空间;
[0131]
虚拟音色特征向量采样单元12,用于从所述音色特征空间进行采样,得到采样的虚拟音色特征向量;
[0132]
虚拟声音合成单元13,用于基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音。
[0133]
可选的,本技术的装置还可以包括音色特征空间构建单元,用于构建音色特征空间,该音色特征空间构建单元可以包括:
[0134]
训练集获取单元,用于获取由多个说话人的训练语音、训练文本及说话人的表征向量组成的训练集;
[0135]
模型训练单元,用于利用所述训练集训练多说话人语音模型,其中,所述模型用于:基于说话人的训练文本及说话人的表征向量,提取与说话人韵律时长相关且与说话人音色无关的目标声学表征向量,对说话人的训练语音进行音色编码得到原始音色特征向量,利用目标生成模型将所述原始音色特征向量逆变换映射到平滑连续的隐层空间,得到
映射后的音色隐层特征向量,基于所述音色隐层特征向量和所述目标声学表征向量进行解码,得到解码后的声学信息;基于所述解码后的声学信息及所述说话人的训练语音,计算声学损失,计算所述目标生成模型的损失,由所述声学损失及所述目标生成模型的损失组合为总损失,以最小化所述总损失为训练目标,训练所述多说话人语音模型的网络参数;
[0136]
音色特征空间创建单元,用于将训练后的多说话人语音模型中的所述目标生成模型的隐层空间作为音色特征空间。
[0137]
其中,所述多说话人语音模型可以包括:声学表征向量提取模块、音色空间学习模块及解码模块,所述音色空间学习模块包括音色编码模块和目标生成模型;
[0138]
所述声学表征向量提取模块,用于基于说话人的训练文本及说话人的表征向量,提取与说话人韵律时长相关且与说话人音色无关的目标声学表征向量;
[0139]
所述音色编码模块,用于对说话人的训练语音进行音色编码得到原始音色特征向量;
[0140]
所述目标生成模型,用于将所述原始音色特征向量逆变换映射到平滑连续的隐层空间,得到映射后的音色隐层特征向量;
[0141]
所述解码模块,用于基于所述音色隐层特征向量和所述目标声学表征向量进行解码,得到解码后的声学信息。
[0142]
本技术实施例提供了声学表征向量提取模块的两种可选结构:
[0143]
第一种、声学表征向量提取模块可以包括:文本编码模块、时长预测模块和时长调整模块;
[0144]
所述文本编码模块,用于对输入的说话人的训练文本的文本特征进行编码,得到文本编码向量;
[0145]
所述时长预测模块,用于基于所述文本编码向量及输入的说话人的表征向量,预测所述训练文本的时长信息;
[0146]
所述时长调整模块,用于按照所述训练文本的时长信息,对所述文本编码向量进行展开,得到与说话人韵律时长相关且与说话人音色无关的目标声学表征向量。在此基础上,多说话人语音模型训练时的总损失还可以包括:
[0147]
基于预测的所述训练文本的时长信息及所述训练文本标注的真实时长信息,计算得到的时长预测损失。
[0148]
可选的,所述训练文本的时长信息可以包括:所述训练文本中每个音素的时长。在此基础上,所述时长调整模块按照所述训练文本的时长信息,对所述文本编码向量进行展开,得到目标声学表征向量的过程,可以包括:
[0149]
所述时长调整模块将音素级的文本编码向量,按照每个音素的时长进行展开,得到目标声学表征向量。
[0150]
第二种、声学表征向量提取模块可以包括:基于注意力机制对时长隐式建模的特征提取模块,该特征提取模块,用于基于输入的说话人的训练文本的文本特征,及说话人的表征向量,采用注意力机制,预测与说话人韵律时长相关且与说话人音色无关的目标声学表征向量及停止符。在此基础上,多说话人语音模型训练时的总损失还可以包括:
[0151]
基于预测的目标声学表征向量及所述训练文本标注的真实的与说话人音色无关的声学表征向量,以及,基于预测的停止符及所述训练文本标注的真实停止符,计算得到的
特征提取模块训练损失。
[0152]
可选的,上述训练集获取单元获取的说话人的表征向量,可以包括:
[0153]
采用独热编码的方式,对每个说话人编码得到说话人的表征向量;
[0154]
或,
[0155]
采用训练后的说话人识别模型提取每个说话人的训练语音的声纹表征,作为每个说话人的表征向量。
[0156]
可选的,上述多说话人语音模型中包含的目标生成模型可以是流模型,对应的所述目标生成模型的隐层空间为标准正态分布空间。
[0157]
本技术实施例提供的虚拟声音合成装置可应用于电子设备,如终端:手机、电脑等。可选的,图6示出了电子设备的硬件结构框图,参照图6,电子设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
[0158]
在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
[0159]
处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0160]
存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0161]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于实现前述虚拟声音合成方法的各个步骤。
[0162]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0163]
本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于实现前述虚拟声音合成方法的各个步骤。
[0164]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0165]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0166]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
[0167]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种虚拟声音合成方法,其特征在于,包括:获取预先构建的音色特征空间,所述音色特征空间为,采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,所得到的映射后的平滑连续的隐层空间;从所述音色特征空间进行采样,得到采样的虚拟音色特征向量;基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音。2.根据权利要求1所述的方法,其特征在于,所述音色特征空间的构建过程,包括:获取由多个说话人的训练语音、训练文本及说话人的表征向量组成的训练集;利用所述训练集训练多说话人语音模型,其中,所述模型用于:基于说话人的训练文本及说话人的表征向量,提取与说话人韵律时长相关且与说话人音色无关的目标声学表征向量,对说话人的训练语音进行音色编码得到原始音色特征向量,利用目标生成模型将所述原始音色特征向量逆变换映射到平滑连续的隐层空间,得到映射后的音色隐层特征向量,基于所述音色隐层特征向量和所述目标声学表征向量进行解码,得到解码后的声学信息;基于所述解码后的声学信息及所述说话人的训练语音,计算声学损失,计算所述目标生成模型的损失,由所述声学损失及所述目标生成模型的损失组合为总损失,以最小化所述总损失为训练目标,训练所述多说话人语音模型的网络参数;将训练后的多说话人语音模型中的所述目标生成模型的隐层空间作为音色特征空间。3.根据权利要求2所述的方法,其特征在于,所述多说话人语音模型包括:声学表征向量提取模块、音色空间学习模块及解码模块,所述音色空间学习模块包括音色编码模块和目标生成模型;所述声学表征向量提取模块,用于基于说话人的训练文本及说话人的表征向量,提取与说话人韵律时长相关且与说话人音色无关的目标声学表征向量;所述音色编码模块,用于对说话人的训练语音进行音色编码得到原始音色特征向量;所述目标生成模型,用于将所述原始音色特征向量逆变换映射到平滑连续的隐层空间,得到映射后的音色隐层特征向量;所述解码模块,用于基于所述音色隐层特征向量和所述目标声学表征向量进行解码,得到解码后的声学信息。4.根据权利要求3所述的方法,其特征在于,所述声学表征向量提取模块包括:文本编码模块、时长预测模块和时长调整模块;所述文本编码模块,用于对输入的说话人的训练文本的文本特征进行编码,得到文本编码向量;所述时长预测模块,用于基于所述文本编码向量及输入的说话人的表征向量,预测所述训练文本的时长信息;所述时长调整模块,用于按照所述训练文本的时长信息,对所述文本编码向量进行展开,得到与说话人韵律时长相关且与说话人音色无关的目标声学表征向量;所述总损失还包括:基于预测的所述训练文本的时长信息及所述训练文本标注的真实时长信息,计算得到的时长预测损失。
5.根据权利要求3所述的方法,其特征在于,所述声学表征向量提取模块包括:基于注意力机制对时长隐式建模的特征提取模块;所述特征提取模块,用于基于输入的说话人的训练文本的文本特征,及说话人的表征向量,采用注意力机制,预测与说话人韵律时长相关且与说话人音色无关的目标声学表征向量及停止符;所述总损失还包括:基于预测的目标声学表征向量及所述训练文本标注的真实的与说话人音色无关的声学表征向量,以及,基于预测的停止符及所述训练文本标注的真实停止符,计算得到的特征提取模块训练损失。6.根据权利要求4所述的方法,其特征在于,所述训练文本的时长信息包括:所述训练文本中每个音素的时长;所述时长调整模块按照所述训练文本的时长信息,对所述文本编码向量进行展开,得到目标声学表征向量的过程,包括:所述时长调整模块将音素级的文本编码向量,按照每个音素的时长进行展开,得到目标声学表征向量。7.根据权利要求2-6任一项所述的方法,其特征在于,所述说话人的表征向量,包括:采用独热编码的方式,对每个说话人编码得到说话人的表征向量;或,采用训练后的说话人识别模型提取每个说话人的训练语音的声纹表征,作为每个说话人的表征向量。8.根据权利要求2-6任一项所述的方法,其特征在于,所述目标生成模型为流模型,所述目标生成模型的隐层空间为标准正态分布空间。9.根据权利要求2所述的方法,其特征在于,所述基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音,包括:将待合成文本的文本特征向量、选定的目标说话人表征向量及所述虚拟音色特征向量输入所述训练后的多说话人语音模型中,得到多说话人语音模型解码后的目标声学信息;基于所述目标声学信息,得到合成后的虚拟声音。10.一种虚拟声音合成装置,其特征在于,包括:音色特征空间获取单元,用于获取预先构建的音色特征空间,所述音色特征空间为,采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,所得到的映射后的平滑连续的隐层空间;虚拟音色特征向量采样单元,用于从所述音色特征空间进行采样,得到采样的虚拟音色特征向量;虚拟声音合成单元,用于基于待合成文本的文本特征向量及所述虚拟音色特征向量进行虚拟声音合成,得到合成后的虚拟声音。11.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~9任一项所述的虚拟声音合成方法的各个步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9任一项所述的虚拟声音合成方法的各个步骤。

技术总结
本申请公开了一种虚拟声音合成方法、装置及相关设备,本申请预先采用目标生成模型对由多个说话人的训练语音提取的原始音色特征向量分布建模,并经逆变换映射,得到映射后的平滑连续的隐层空间作为音色特征空间,目标生成模型可以将任意复杂概率分布模型经过逆变换,映射到一个平滑连续的分布空间,也即本申请得到的音色特征空间是一个平滑连续的空间,在这个空间中采样获得的虚拟音色特征向量是连续的,基于待合成文本的文本特征向量及采样的虚拟音色特征向量进行虚拟声音合成。相比于现有的不连续的说话人编码向量,本申请基于平滑连续的音色特征空间采样得到的虚拟音色特征向量进行虚拟音合成时,所得到的合成语音的质量更好,鲁棒性更高。鲁棒性更高。鲁棒性更高。


技术研发人员:刘利娟 潘嘉 刘聪 刘庆峰
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2022.11.08
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐