一种语音合成方法、装置、电子设备及介质与流程
未命名
08-07
阅读:129
评论:0
1.本技术涉及语音处理领域,具体而言,涉及一种语音合成方法、装置、电子设备及介质。
背景技术:
2.语音合成技术主要是将文字信息转化为可听的声音信息,近几年来,随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展,促进了人机交互方式的极大转变,同时也伴随着越来越多的商业化产品的落地。语音交互作为一种新型模式,不仅带来了崭新的用户体验,也扩大了各个产品设计思路及应用场景。语音合成系统作为语音交互闭环的核心系统之一,如何让合成语音包含更丰富的情感和风格是个性化语音合成及提高语音合成表现力的重要因素。然而,现有的情感语音合成方式需要获取多说话人的情感语音数据,或者每一个说话人的多情感语音数据,或者分阶段的进行训练,从而导致语音合成系统构建成本高,系统音色的可拓展性低,普适性较差,合成语音的质量低。
技术实现要素:
3.有鉴于此,本技术的目的在于提供一种语音合成方法、装置、电子设备及介质,所述方法能够实现跨语言、多风格及任意情绪的情感语音合成。
4.本技术实施例提供的一种语音合成方法,所述方法包括:
5.获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;
6.将所述待合成文本跨语言转换为目标语言的目标语言特征表示;
7.基于所述目标语言特征表示和目标语音信息确定目标语音学特征;
8.基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。
9.在一些实施例中,还提供一种语音合成装置,所述装置包括:
10.获取模块,用于获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;
11.转换模块,用于将所述待合成文本跨语言转换为目标语言的目标语言特征表示;
12.确定模块,用于基于所述目标语言特征表示和目标语音信息确定目标语音学特征;
13.合成模块,用于基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。
14.在一些实施例中,还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的语音合成方法的步骤。
15.在一些实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的语音合成方法的步骤。
16.本技术实施例中提供一种语音合成方法、装置、电子设备及介质,所述方法获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,所述方法能够支持多语言、任意情绪、多风格扩展的情感语音合成,该方法中先根据跨语言的统一语言特征表示扩展出目标情感和风格的语音学特征,再基于统一语言特征表示、说话人音色信息以及语音学特征合成目标情绪、风格和目标音色的语音数据;由于与情感和风格相关的语音学特征和说话人音色信息在不同阶段发挥作用,因此,执行本方法的语音合成系统不需要每一说话人都具有情感语音数据、情感语音业务性进行情绪标注、不需要跨语言语料即可实现相关功能,后续新风格语料的构建也不要求单一说话人,而可以收集大量说话人相似风格的语音作为迁移学习素材;而基于说话人音色信息合成语音阶段需要使用情感风格迁移阶段的语音学特征和相同的语言特征表示,保证了不同合成阶段的连续性,保证了合成的语音的质量。
附图说明
17.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
18.图1示出了本技术实施例所述语音合成方法的方法流程图;
19.图2示出了本技术实施例所述输出不同类型的目标语音学特征的方法流程示意图;
20.图3示出了本技术实施例所述基于情绪标识进行语音合成的方法流程示意图;
21.图4示出了本技术实施例所述训练不同风格的语音学特征预测模型的方法流程示意图;
22.图5示出了本技术实施例所述基于风格标识合成目标风格的语音数据的方法流程示意图;
23.图6示出了本技术实施例所述基于情感参考语音合成语音的方法流程示意图;
24.图7示出了本技术实施所述训练语音合成系统的方法流程示意图;
25.图8示出了本技术实施例所述语音合成装置的结构示意图;
26.图9本技术实施例所述电子设备的结构示意图。
具体实施方式
27.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附
图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
28.另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.需要说明的是,本技术实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
30.语音合成技术主要是将文字信息转化为可听的声音信息,近几年来,随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展,促进了人机交互方式的极大转变,同时也伴随着越来越多的商业化产品的落地。语音交互作为一种新型模式,不仅带来了崭新的用户体验,也扩大了各个产品设计思路及应用场景。语音合成系统作为语音交互闭环的核心系统之一,如何让合成语音包含更丰富的情感和风格是个性化语音合成及提高语音合成表现力的重要因素。然而,现有的情感语音合成方式需要获取多说话人的情感语音数据,或者每一个说话人的多情感语音数据,或者分阶段的进行训练,从而导致语音合成系统构建成本高,系统音色的可拓展性低,普适性较差,合成语音的质量低。
31.具体来说,现有的情感语音合成包括以下几种方式:
32.一、构造单说话人多种情感的语音合成系统,收集同一个说话人不同情感的语音数据构造语音合成系统,使用时同时输入文本及情感标签给语音合成系统进行合成,得到最后的情感语音。可以预想到,该系统只能让单一说话人具有情感语音合成能力,难以拓展到其他说话人,如果需要拓展到多说话人则需要重复录制多说话人的情感语音数据,会大大降低语音交互的服务体验同时加大了系统构建的成本;
33.二、使用多人少量情感语音数据结合语音转换技术来构造多人情感语音合成系统,收集目标说话人不同情感的少量语音数据构造语音转换系统,将目标说话人中立情感的语音转换为其他情感类型的语音,从而实现多情感的语音合成系统。显而易见的是,该系统需要针对每一个目标说话人收集多情感语音数据,但大大提高了数据收集的成本及难度,说话人的情感表现能力也会影响情感语音合成系统合成语音的质量;同时具有情感演绎能力的说话人也极大地限制了该系统音色的可拓展性,普适性较差。
34.三、使用单人情感语音数据及迁移学习技术来构造情感语音合成系统,收集同一个说话人不同情感的语音数据构造情感识别模型,多说话人语音数据构造多说话人语音合成模型,使用预训练好的情感识别模型提取情感特征,加入到多说话人语音合成模型中进行迁移学习得到多说话人情感语音合成模型。显而易见的是,该系统需要分阶段训练,情感识别模型和多阶段的迁移学习大大提高了该深度学习系统构建的复杂度及难度;同时由于两个阶段的训练使用不同类型的数据集,也会影响语音合成系统合成语音的质量。
35.四、使用单人情感语音数据及生成式对抗网络来构造情感语音合成系统,收集同一个说话人不同情感的语音数据构造情感识别模型,多说话人语音数据构造多说话人语音
合成模型,使用预训练的情感识别模型作为判别器,基于对抗式训练技术得到每个目标说话人多种情感的语音合成模型,该系统针对不同情感需要使用独立的模型,普适性较差;多阶段的训练方式同样会提高了该深度学习系统构建的复杂度及难度;同时由于两个阶段的训练使用不同类型的数据集,也会影响语音合成系统合成语音的质量。
36.五、基于梯度反传层对抗训练或者信息解耦方式的情感语音合成方法,基于多个说话人的自然朗读语音数据以及单说话人情感语音数据构造一套多说话人情感语音合成系统,该方法的问题是系统只使用了单语言语料,不具备跨语言语音合成能力,且后续新风格语音的生成需要收集对应风格单一说话人的语料,一方面是成本的增加,一方面是部分风格的定义虽然能被人为感知但得到对应风格的语音有较大难度。
37.基于此,本技术实施例中提供一种语音合成方法、装置、电子设备及介质,所述方法获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,所述方法能够支持多语言、任意情绪、多风格扩展的情感语音合成,该方法中先根据跨语言的统一语言特征表示扩展出目标情感和风格的语音学特征,再基于统一语言特征表示、说话人音色信息以及语音学特征合成目标情绪、风格和目标音色的语音数据;由于与情感和风格相关的语音学特征和说话人音色信息在不同阶段发挥作用,因此,执行本方法的语音合成系统不需要每一说话人都具有情感语音数据、情感语音业务性进行情绪标注、不需要跨语言语料即可实现相关功能,后续新风格语料的构建也不要求单一说话人,而可以收集大量说话人相似风格的语音作为迁移学习素材;而基于说话人音色信息合成语音阶段需要使用情感风格迁移阶段的语音学特征和相同的语言特征表示,保证了不同合成阶段的连续性,保证了合成的语音的质量。
38.请参照图1,图1示出了本技术实施例所述语音合成方法的方法流程图;具体的,所述语音合成方法包括以下步骤s101-s104;
39.s101、获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;
40.s102、将所述待合成文本跨语言转换为目标语言的目标语言特征表示;
41.s103、基于所述目标语言特征表示和目标语音信息确定目标语音学特征;
42.s104、基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。
43.在所述步骤s101中,获取待合成文本、目标语音信息和目标音色信息。
44.具体的,所述待合成文本,可以为多种预设语言中的任意一种语言;所述多种预设语言包括英文、德文、日文、西班牙文等等。
45.所述待合成文本,可以为英文、德文、日文、西班牙文、中文等等。
46.所述待合成文本中还可能包括多种语言,例如中英文混合、中日文混合等。
47.且所述待合成文本可以包括特殊字符,例如阿拉伯数字、希腊字母、罗马数字等。
48.在所述步骤s102中,将所述待合成文本跨语言转换为目标语言的目标语言特征表示。
49.具体的,将所述待合成文本跨语言转换为目标语言的目标语言特征表示;包括:
50.根据预设的不同语言文本内容与统一字符之间的映射关系,将所述待合成文本转换成采用统一字符表示的文本字符集合;
51.基于所述文本字符集合得到所述目标语言特征表示。
52.具体的,本技术实施例所述的语音合成方法中,将所述待合成文本跨语言转换为目标语言的目标语言特征表示,包括:
53.将所述待合成文本输入预先训练的文本处理模型,以通过所述文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示。
54.所述文本处理模型,用于对不同语言文本中的数字等特殊字符进行处理,并将不同语言的文本转换为统一的字符表示,以实现跨语言语音合成。
55.也就是说,所述目标语言的目标语言特征表示,即为统一的字符表示。
56.所述预先训练的文本处理模型,是通过以下方法训练的:
57.获取多种语言的文本样本;
58.对多种语言的文本样本进行文本处理,得到每种语言的文本样本的目标语言特征表示;
59.利用每种语言的文本样本的目标语言特征表示进行模型训练,以得到所述文本处理模型。
60.所述文本处理模型在技术上可以有多种实现方式,本技术实施例中的文本处理模型将单一语言的文本基于字典等方式映射成对应语言的音素,进而转化为对应的数字序列表示。
61.在所述步骤s101中,所述目标语音信息为:目标情绪信息和/或目标风格信息;
62.其中,目标情绪信息为目标情绪标识或目标情绪参考语音;
63.目标风格信息为目标风格标识或目标风格参考语音。
64.其中,所述目标情绪参考语音和所述目标风格参考语音可以为同一条语音,也可以为不同语音。目标情绪参考语音和所述目标风格参考语音为同一条语音时,该条语音称之为情绪风格参考语音。
65.这里,所述不同的情绪标识对应不同的情绪类别,所述情绪类别为喜怒哀惧等基本情绪。
66.所述不同的风格标识对应不同的风格类别,所述风格类别为新闻风格、说唱风格、rap风格、游戏风格、朗诵风格等。
67.风格类别和情绪风格可以组合,同一种风格可以出现多种情绪的语音,例如:朗诵风格的生气语音,朗诵风格的悲伤语音等;同一种情绪可以出现多种风格的语音,悲伤情绪的游戏语音,悲伤风格的朗诵语音等。
68.本技术实施例中,所述目标语音信息可以包括情绪信息、风格信息,情绪信息+风格信息。
69.具体的,目标语音信息包括目标情绪信息和/或目标风格信息,而情绪信息和风格信息又可以通过标识或者参考语音确定,目标情绪参考语音和目标风格参考语音又可以为同一条语音或者不同语音。基于此,目标语音信息可以为以下之一:目标情绪标识、目标风格标识、目标情绪标识+目标风格标识;目标情绪参考语音、目标风格参考语音、目标情绪参
考语音、目标风格参考语音、目标情绪参考语音+目标风格参考语音、情绪风格参考语音、目标情绪标识+目标风格参考语音、目标风格参考语音+目标风格标识。
70.在一些实施例中,所述目标语音信息中还可以不包括情绪信息和风格信息,也就是说,所述目标语音信息表征的情绪类别为无情绪、表征的风格类别为无风格;这种情况下,合成的语音信息只跟说话人音色相关。
71.基于此,可以看到,本技术实施例所述语音合成方法引入了信息解耦来将情绪、风格和情感说话人音色信息进行解耦,从而支持分别单独控制情绪扩展、风格扩展及说话人音色,丰富了同一个语音合成系统的使用方法。
72.这里,所述语音合成系统tts(text to speech,tts),是一套能够将计算机可理解的文字、字符等文本表示转换成语音的系统。
73.本技术实施例中,所述语音合成系统包括文本处理模型、语音学特征预测模型和语音合成模型。
74.在所述步骤s103中,基于所述目标语言特征表示和目标语音信息确定目标语音学特征。
75.具体的,基于所述目标语言特征表示和目标语音信息确定目标语音学特征,包括:
76.基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征。
77.本技术实施例中,所述目标情绪信息中,所述目标情绪标识用于搜索与所述目标情绪标识匹配的目标情绪特征表示,所述目标情绪参考语音用于提取出目标情绪特征表示;
78.所述目标风格信息中,所述目标风格标识用于确定与所述目标风格标识匹配的目标语音学特征预测模型,所述目标风格参考语音用于提取出目标风格特征表示,以基于所述目标风格特征表示和语音学特征预测模型得到目标风格的语音学特征预测模型。
79.也就是说,所述目标情绪特征表示可以基于情绪标识确定,也可以基于目标情绪参考语音,不管通过哪种方式确定,所述目标情绪特征表示与待合成文本和语音学特征预测模型无关,是独立于待合成文本和语音学特征预测模型的;目标情绪特征表示能够表征目标情绪在语音学上的特征。
80.对于所述目标风格信息而言,由于风格相对于情绪而言,是一种更细粒度的情感,在由词语和短语组成的句子中,在表达基本语义和思想感情时,不是简单的处于同一个地位上,而是需要通过语气、韵律、发音轻重、语速,表达出不同的风格。例如同样是朗诵风格,“一个丁香一样的、结着愁怨的姑娘”和“西北望、射天狼”,其语感完全不同。再例如,在朗诵风格的同一首诗中,由于句子长度不同,句子中名词数量不同,其朗诵时的风格和语速则不相同。因此,目标风格特征表示并不能直接表征这种风格的特征,目标风格特征表示只能表征该段语音的风格特征;需要基于所述目标风格特征表示训练所述语音学特征预测模型,才能得到目标风格的语音学特征预测模型,通过目标风格的语音学特征预测模型直接预测得到待合成文本的目标风格的语音学特征,语音学特征表征了语音对应的音高、能量、时长等信息,能够更准确的表征风格。
81.本技术实施例中语音合成系统能够基于实际获取的目标语音信息实现情绪、风格和说话人音色的解耦,其具体原因在于,同一语音学特征预测模型基于目标语音信息是否
包括情绪信息、风格信息,输出不同类型的目标语音学特征:
82.所述目标语音学特征的类型至少为以下之一:只包括风格的目标语音学特征、只包括情绪的目标语音学特征、同时包括情绪和风格的目标语音学特征、情绪和风格均不包括的目标语音学特征。
83.请参照图2,本技术实施例中,同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征,包括以下步骤s201-s205:
84.s201、同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,确定是否使用通用的情绪特征表示或通用的风格特征表示;
85.s202、若只包括风格信息,则该语音学特征预测模型使用通用的情绪特征表示,输出只包括风格的目标语音学特征;
86.s203、若只包括情绪信息,则该语音学特征预测模型使用通用的风格特征表示,输出只包括情绪的目标语音学特征;
87.s204、若同时包括情绪信息和风格信息,则语音学特征预测模型不使用通用的情绪特征表示、通用的风格特征表示,输出同时包括情绪和风格的目标语音学特征;
88.s205、若不包括情绪信息、风格信息,若语音学特征预测模型同时使用通用的情绪特征表示、通用的风格特征表示,输出通用的目标语音学特征。
89.这里,所述语音学特征预测模型基于通用的情绪特征表示和/或通用的风格特征表示,输出不同类型的目标语音学特征。
90.这里,所述通用的情绪特征表示,表示无情绪,可以为表征各种情绪的情绪特征表示的均值;可以为预先设定的标准情绪特征表示,例如机器朗读时的情绪特征表示。
91.同样的,所述通用的风格特征表示,表示无风格,可以为预先设定的标准情绪特征表示,例如机器朗读时的情绪特征表示。
92.本技术实施例所述的语音合成方法中,基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征,包括以下之一:
93.确定所述目标情绪信息对应的目标情绪特征表示;
94.基于所述目标语言特征表示、目标情绪特征表示和无风格的语音学特征预测模型确定目标语音学特征;
95.或者,确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
96.基于所述目标语言特征表示、目标风格的语音学特征预测模型确定目标语音学特征;
97.或者,确定所述目标情绪信息对应的目标情绪特征表示,以及确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
98.基于所述目标语言特征表示、目标情绪特征表示、目标风格的语音学特征预测模型确定目标语音学特征。
99.本技术实施例中,确定所述目标情绪信息对应的目标情绪特征表示,包括:
100.基于预先确定的、多种情绪标识和多种情绪特征表示的映射关系,搜索确定与目标情绪标识匹配的目标情绪特征表示;
101.或者,基于独立的情绪样本语音预先训练的情绪特征提取模块,提取出目标情绪
参考语音的目标情绪特征表示。
102.具体的,本技术实施例中,所述基于预先确定的、多种情绪标识和多种情绪特征表示的映射关系,搜索确定与目标情绪标识匹配的目标情绪特征表示,包括:
103.将所述目标情绪标识输入至情绪特征搜索模块,以通过情绪特征搜索模块确定目标情绪特征表示;所述情绪特征搜索模块表征多种情绪标识和多种情绪特征表示的映射关系。
104.当根据情绪标识进行情绪扩展,不进行风格扩展时,请参照图3,图3示出了本技术实施例所述基于情绪标识进行语音合成的方法流程图,具体的,所述语音合成方法包括:
105.获取待合成文本、目标情绪标识和目标音色信息;这里,所述目标音色信息为音色标识;
106.将待合成文本输入至文本处理模型,通过文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示;文本处理模型输出所述目标语言特征表示;
107.将所述目标情绪标识输入情绪特征搜索模块,情绪特征搜索模块确定目标情绪特征表示,并输出目标情绪特征表示;
108.一方面,所述目标语言特征表示输入至目标语言学特征预测模块,所述目标情绪特征表示也输入至目标语言学特征预测模块,目标语言学特征预测模块处理所述目标语言特征表示、目标情绪特征表示,得到待合成文本的目标语音学特征;
109.另一方面,所述目标语言特征表示输入至语音合成模块,所述目标语音学特征输入至语音合成模块,所述音色标识输入至语音合成模块,所述语音合成模块基于所述目标语言特征表示、目标语音学特征、音色标识进行语音合成,得到待合成文本的目标语音数据。
110.这里,所述目标语音数据只进行了情绪扩展。
111.本技术实施例所述的语音合成方法,确定所述目标风格信息对应的、目标风格的语音学特征预测模型,包括:
112.基于预先建立的风格标识和不同风格的语音学特征预测模型的关联关系,确定所述目标风格标识关联的、目标风格的目标语音学特征预测模型;
113.或者,基于独立的风格样本语音预先训练的风格特征提取模块,提取出目标风格参考语音的目标风格特征表示;
114.将所述目标风格特征表示输入至语音学特征预测模型,得到目标风格的语音学特征预测模型。
115.本技术实施例中,所述不同风格的语音学特征预测模型,是通过以下方法训练的:
116.提取样本风格语音的第一样本风格特征表示;其中,所述样本风格特征表示包括样本风格语音在第一粒度上的子样本情绪特征表示、在第二粒度上的子样本风格特征表示;
117.提取样本风格语音的第一样本语音学特征;
118.利用所述第一样本风格特征表示、第一样本语音学特征进行模型训练,得到语音学特征预测模型;其中,样本风格语音的风格不同,所述语音学特征预测模型的风格不同。
119.这里,所述提取样本风格语音的第一样本风格特征表示,包括通过子情绪特征提取模块提取样本风格语音在第一粒度上的子样本情绪特征表示,通过子风格特征提取模块
提取在第二粒度上的子样本风格特征表示。也就是说,所述风格特征提取模块包括子风格特征提取模块、子情绪特征提取模块。
120.所述风格特征提取模块基于输入语音提取得到隐式的、第二粒度上的样本风格特征表示,目的支持后续拓展生成更多风格的语音。
121.所述子风格特征提取模块基于输入语音提取得到隐式的、第二粒度上的子样本风格特征表示。
122.所述情绪特征提取模块基于输入语音提取得到隐式的情绪特征表示,目的是支持后续拓展生成更多情绪的语音;需要说明的是,这里的子情绪特征提取模块提取的子样本情绪特征表示并非如同目标情绪特征表示一样明确为哀乐喜等具体的风格,而是对于风格的补充表示。
123.所述样本风格语音的第一样本风格特征表示包括第一粒度上的子样本情绪特征表示、第二粒度上的子样本风格特征表示,是因为情绪是大粒度上的情感,风格是更细粒度上的情感,通过子样本情绪特征表示,能够更为准确的表示风格。
124.换句话说,风格中通常包括有情绪,但是情绪中不一定有风格;例如朗诵风格的“雨巷”包括哀的情绪,但是哀的情绪语音不一定是朗诵风格。
125.本技术实施例中,利用所述第一样本风格特征表示、第一样本语音学特征进行模型训练,得到语音学特征预测模型时,具体包括:
126.将样本风格语音对应的第一样本语音文字转换为第一样本语言特征表示;
127.利用所述第一样本风格特征表示、第一样本语音学特征,以及样本风格语音的第一样本语音文字进行模型训练,得到语音学特征预测模型;其中,样本风格语音的风格不同,所述语音学特征预测模型的风格不同。
128.具体的,请参照图4,图4示出了训练不同风格的语音学特征预测模型的方法流程图;所述样本风格语音分别输入至子情绪特征提取模块、子风格特征提取模块,得到子样本情绪特征表示和子样本风格特征表示;所述样本风格语音的第一样本语言文字输入至文本处理模块,得到第一样本语言特征表示;将所述子样本情绪特征表示和子样本风格特征表示输入至待训练的语音学特征预测模型,训练得到样本风格的语音学特征预测模型,将所述样本风格的语音学特征预测模型与该样本风格的风格标识关联。
129.基于预先建立的风格标识和不同风格的语音学特征预测模型的关联关系,确定所述目标风格标识关联的、目标风格的目标语音学特征预测模型,基于所述目标风格的目标语音学特征预测模型和语音合成模块,得到目标风格的语音数据。
130.具体的,请参照图5,图5示出了基于风格标识合成目标风格的语音数据的方法流程示意图;基于风格标识选择目标风格的语音学特征预测模型;
131.将待合成文本输入至文本处理模型,通过文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示;文本处理模型输出所述目标语言特征表示;
132.一方面,所述目标语言特征表示输入至目标风格的语音学特征预测模型,目标风格的语音学特征预测模型输出待合成文本的、目标风格的目标语音学特征;
133.另一方面,所述目标语言特征表示输入至语音合成模块,所述目标语音学特征输入至语音合成模块,所述音色标识输入至语音合成模块,所述语音合成模块基于所述目标语言特征表示、目标风格的目标语音学特征、音色标识进行语音合成,得到待合成文本的、
目标风格的目标语音数据。
134.这里,所述目标语音数据只进行了风格扩展。若需要同时进行情绪扩展,则将目标情绪的情绪特征表示同时输入至目标风格的语音学特征预测模型即可。
135.由此可见,目标情绪的情绪特征表示是基于情绪特征搜索模块确定的,也就是说,训练不同风格的语音学特征预测模型时,不需要收集各种情绪的说话人语音,只需要收集不同说话人相似风格的语音作为迁移学习素材即可。
136.同样的,训练不同风格的语音学特征预测模型时,也不需要收集对应风格的单一说话人语料。
137.这样,本技术实施例所述语音合成方法能够在通过收集多个单语言说话人的自然朗读语音数据以及不带标签的情感语音数据构造一套多说话人多语言任意情绪的语音合成系统,后续通过收集不同风格的语音对系统进行迁移学习实现多风格扩展,该方法的创新型在于系统不需要每一说话人都具有情感语音数据、情感语音业务性进行情绪标注、不需要跨语言语料即可实现相关功能,后续新风格语料的构建也不要求单一说话人,而可以收集大量说话人相似风格的语音作为迁移学习素材。
138.本技术实施例中,既可以使用风格标识、情绪标识确定待合成语音的情绪和风格,还可以基于目标情绪参考语音、目标风格参考语音,确定待合成语音的情绪和风格。
139.示例性的,本技术实施例中,以同时包括情绪和风格的情感参考语音为例,说明语音合成流程。请参照图6,图6示出了本技术实施例所述基于情感参考语音合成语音的方法流程示意图。
140.具体的,请参照图6,所述方法包括:
141.获取待合成文本、情感参考语音和目标音色信息;这里,所述目标音色信息为音色标识;
142.将待合成文本输入至文本处理模型,通过文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示;文本处理模型输出所述目标语言特征表示;
143.将情感参考语输入情绪特征提取模型和风格特征提取模块,情绪特征提取模型提取出目标情绪特征表示,并输出目标情绪特征表示;风格特征提取模型提取出目标风格特征表示,并输出目标风格特征表示;
144.一方面,所述目标语言特征表示输入至目标语言学特征预测模块,所述目标情绪特征表示、目标风格特征表示也输入至目标语言学特征预测模块,目标语言学特征预测模块处理所述目标语言特征表示、目标情绪特征表示,得到待合成文本的目标语音学特征;
145.另一方面,所述目标语言特征表示输入至语音合成模块,所述目标语音学特征输入至语音合成模块,所述音色标识输入至语音合成模块,所述语音合成模块基于所述目标语言特征表示、目标语音学特征、音色标识进行语音合成,得到待合成文本的目标语音数据。
146.本技术实施例中所述的语音合成方法,所述目标音色信息包括音色标识;
147.相应的,基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,包括:
148.基于预先确定的、多种音色标识和多种音色特征表示的映射关系,搜索确定与目标音色标识匹配的目标音色特征表示;
149.将所述目标语言特征表示、目标语音学特征和所述目标音色特征表示输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
150.在一些实施中,所述语音合成模型对应一说话人模块,所述说话人模块中记录了多种音色标识和多种音色特征表示的映射关系;因此,在训练时,可以直接输入音色标识进行训练。
151.或者,所述语音合成模型能够根据音色标识确定目标音色特征表示,这样,基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,包括:
152.将所述目标语言特征表示、目标语音学特征和所述目标音色信息输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
153.本技术实施例中,所述音色标识为说话人id,所述说话人id可以为编号,例如001,002等;也可以为说话人姓名,例如张三、李四、王五等。
154.所述语音合成模型,用于基于语音学特征和音色信息进行语音合成,生成对应风格的情感语音。
155.同时由于两个阶段的训练使用不同类型的数据集,也会影响语音合成系统合成语音的质量,本技术实施例所述的语音合成方法应用于语音合成系统,所述语音合成系统包括语言学特征预测模型和语音合成模型;
156.所述语音合成系统,是通过以下方法训练的:
157.获取样本文本的样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征;
158.利用样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征训练语言学特征预测模型;
159.同时,利用所述样本语言特征表示、第二样本语音学特征、样本音色信息训练语音合成模型。
160.也就是说,本技术虽然通过多阶段的迁移学习支持多风格、多情绪的情感语音合成,且不需要收集对应风格单一说话人的语料,而是通过收集不同说话人相似风格的语音作为迁移学习素材,但是对于整个语音合成系统而言,语音合成模型和语言学特征预测模型所使用的样本语言特征表示、样本语音学特征是统一的,一定程度上解决了不同阶段的训练使用不同类型的数据集影响语音合成系统合成语音的质量的问题。
161.请参照图7,图7示出了本技术实施所述训练语音合成系统的方法流程示意图;请参照图7,获取样本文本、与样本文本匹配的情绪样本语音和风格样本语音,以及语言音色信息;
162.将样本文本输入至文本处理模型,通过文本处理模型将所述样本文本跨语言转换为目标语言的样本语言特征表示;文本处理模型输出所述样本语言特征表示;
163.将风格样本语音输入风格特征提取模块和语音学特征提取模块,风格特征提取模型提取出第二风格特征表示,并输出第二风格特征表示;语音学特征提取模块提取出第二样本语音学特征;
164.将情绪样本语音输入情绪特征提取模块,提取出第二情绪特征表示,并输出目标情绪特征表示;
165.一方面,所述样本语言特征表示输入至语言学特征预测模块,所述第二风格特征表示、第二情绪特征表示、第二样本语音学特征也输入至语言学特征预测模块,以训练所述语言学特征预测模块;
166.另一方面,所述样本语言特征表示输入至语音合成模块,所述第二样本语音学特征、样本音色信息和样本目标语音也输入至语音合成模块,以训练所述语音合成模块。
167.需要说明的是,图7中所示的情绪样本语音和风格样本语音虽然是用于分别提取情绪特征表示和风格特征表示,但是,第一,风格样本语音通常包括一定的情绪,例如“雨巷”包括哀的情绪;通常情况下,所述情绪特征提取模块输出的第二情绪特征表示应符合“哀”的情绪,才能更好的训练语言学特征预测模型。第二:情绪样本语音和风格样本语音可以为同一条语音。
168.基于同一发明构思,本技术实施例中还提供了与语音合成方法对应的语音合成装置,由于本技术实施例中的装置解决问题的原理与本技术实施例语音合成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
169.请参照图8,图8示出了本技术实施例所述语音合成装置的结构示意图;具体的,所述语音合成装置包括:
170.获取模块801,用于获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;
171.转换模块802,用于将所述待合成文本跨语言转换为目标语言的目标语言特征表示;
172.确定模块803,用于基于所述目标语言特征表示和目标语音信息确定目标语音学特征;
173.合成模块804,用于基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。
174.本技术实施例中提供一种语音合成装置,获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,所述方法能够支持多语言、任意情绪、多风格扩展的情感语音合成,该方法中先根据跨语言的统一语言特征表示扩展出目标情感和风格的语音学特征,再基于统一语言特征表示、说话人音色信息以及语音学特征合成目标情绪、风格和目标音色的语音数据;由于与情感和风格相关的语音学特征和说话人音色信息在不同阶段发挥作用,因此,执行本方法的语音合成系统不需要每一说话人都具有情感语音数据、情感语音业务性进行情绪标注、不需要跨语言语料即可实现相关功能,后续新风格语料的构建也不要求单一说话人,而可以收集大量说话人相似风格的语音作为迁移学习素材;而基于说话人音色信息合成语音阶段需要使用情感风格迁移阶段的语音学特征和相同的语言特征表示,保证了不同合成阶段的连续性,保证了合成的语音的质量。
175.在一些实施例中,所述的语音合成装置中,所述目标语音信息为:目标情绪信息和/或目标风格信息;
176.其中,目标情绪信息为目标情绪标识或目标情绪参考语音;
177.目标风格信息为目标风格标识或目标风格参考语音。
178.在一些实施例中,所述的语音合成装置中的转换模块,在将所述待合成文本跨语言转换为目标语言的目标语言特征表示时,具体用于:
179.根据预设的不同语言文本内容与统一字符之间的映射关系,将所述待合成文本转换成采用统一字符表示的文本字符集合;
180.基于所述文本字符集合得到所述目标语言特征表示。
181.在一些实施例中,所述的语音合成装置中的转换模块,在将所述待合成文本跨语言转换为目标语言的目标语言特征表示时,具体用于:
182.将所述待合成文本输入预先训练的文本处理模型,以通过所述文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示。
183.在一些实施例中,所述的语音合成装置中的确定模块,在基于所述目标语言特征表示和目标语音信息确定目标语音学特征时,具体用于:
184.基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征。
185.在一些实施例中,所述的语音合成装置中的确定模块中,所述目标情绪信息中,所述目标情绪标识用于搜索与所述目标情绪标识匹配的目标情绪特征表示,所述目标情绪参考语音用于提取出目标情绪特征表示;
186.所述目标风格信息中,所述目标风格标识用于确定与所述目标风格标识匹配的目标语音学特征预测模型,所述目标风格参考语音用于提取出目标风格特征表示,以基于所述目标风格特征表示和语音学特征预测模型得到目标风格的语音学特征预测模型。
187.在一些实施例中,所述的语音合成装置中的确定模块,用于通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征:
188.所述目标语音学特征的类型至少为以下之一:只包括风格的目标语音学特征、只包括情绪的目标语音学特征、同时包括情绪和风格的目标语音学特征、情绪和风格均不包括的目标语音学特征。
189.在一些实施例中,所述的语音合成装置中的确定模块,在通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征,具体用于:
190.通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,确定是否使用通用的情绪特征表示或通用的风格特征表示;
191.若只包括风格信息,则该语音学特征预测模型使用通用的情绪特征表示,输出只包括风格的目标语音学特征;
192.若只包括情绪信息,则该语音学特征预测模型使用通用的风格特征表示,输出只包括情绪的目标语音学特征;
193.若同时包括情绪信息和风格信息,则语音学特征预测模型不使用通用的情绪特征表示、通用的风格特征表示,输出同时包括情绪和风格的目标语音学特征;
194.若不包括情绪信息、风格信息,若语音学特征预测模型同时使用通用的情绪特征表示、通用的风格特征表示,输出通用的目标语音学特征。
195.在一些实施例中,所述的语音合成装置中的确定模块,在基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征时,具体用于以下之一:
196.确定所述目标情绪信息对应的目标情绪特征表示;
197.基于所述目标语言特征表示、目标情绪特征表示和无风格的语音学特征预测模型确定目标语音学特征;
198.或者,确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
199.基于所述目标语言特征表示、目标风格的语音学特征预测模型确定目标语音学特征;
200.或者,确定所述目标情绪信息对应的目标情绪特征表示,以及确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
201.基于所述目标语言特征表示、目标情绪特征表示、目标风格的语音学特征预测模型确定目标语音学特征。
202.在一些实施例中,所述的语音合成装置中的确定模块,在用于确定所述目标情绪信息对应的目标情绪特征表示时,具体用于:
203.基于预先确定的、多种情绪标识和多种情绪特征表示的映射关系,搜索确定与目标情绪标识匹配的目标情绪特征表示;
204.或者,基于独立的情绪样本语音预先训练的情绪特征提取模块,提取出目标情绪参考语音的目标情绪特征表示。
205.在一些实施例中,所述的语音合成装置中的确定模块,再确定所述目标风格信息对应的、目标风格的语音学特征预测模型时,具体用于:
206.基于预先建立的风格标识和不同风格的语音学特征预测模型的关联关系,确定所述目标风格标识关联的、目标风格的目标语音学特征预测模型;
207.或者,基于独立的风格样本语音预先训练的风格特征提取模块,提取出目标风格参考语音的目标风格特征表示;
208.将所述目标风格特征表示输入至语音学特征预测模型,得到目标风格的语音学特征预测模型。
209.在一些实施例中,所述的语音合成装置中还包括第一训练模块,所述第一训练模块用于通过以下方法训练不同风格的语音学特征预测模型:
210.提取样本风格语音的第一样本风格特征表示;其中,所述样本风格特征表示包括提取样本风格语音在第一粒度上的子样本情绪特征表示、在第二粒度上的子样本风格特征表示;
211.提取样本风格语音的第一样本语音学特征;
212.利用所述第一样本风格特征表示、第一样本语音学特征,以及样本风格语音的第一样本语音文字进行模型训练,得到语音学特征预测模型;其中,样本风格语音的风格不同,所述语音学特征预测模型的风格不同。
213.在一些实施例中,所述的语音合成装置中,所述目标音色信息包括音色标识;
214.相应的,所述合成模块,在基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据时,具体用于:
215.基于预先确定的、多种音色标识和多种音色特征表示的映射关系,搜索确定与目标音色标识匹配的目标音色特征表示;
216.将所述目标语言特征表示、目标语音学特征和所述目标音色特征表示输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
217.在一些实施例中,所述的语音合成装置中的合成模块,基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,包括:
218.将所述目标语言特征表示、目标语音学特征和所述目标音色信息输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
219.在一些实施例中,所述的语音合成装置还包括第二训练模块,所述第二训练模块,用于训练语音合成系统,所述语音合成系统包括语言学特征预测模型和语音合成模型;
220.具体的,所述第二训练模块在训练语音合成系统时,具体用于:
221.获取样本文本的样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征;
222.利用样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征训练语言学特征预测模型;
223.同时,利用所述样本语言特征表示、第二样本语音学特征、样本音色信息训练语音合成模型。
224.基于同一发明构思,本技术实施例中还提供了与语音合成方法对应的电子设备,由于本技术实施例中的电子设备解决问题的原理与本技术实施例语音合成方法相似,因此电子设备的实施可以参见方法的实施,重复之处不再赘述。
225.请参照图9,图9示出了本技术实施例所述电子设备的结构示意图;具体的,所述电子设备900包括:处理器902、存储器901和总线,所述存储器901存储有所述处理器902可执行的机器可读指令,当电子设备900运行时,所述处理器902与所述存储器901之间通过总线通信,所述机器可读指令被所述处理器902执行,具体的,所述处理器902执行机器可读指令时执行以下步骤:
226.获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;
227.将所述待合成文本跨语言转换为目标语言的目标语言特征表示;
228.基于所述目标语言特征表示和目标语音信息确定目标语音学特征;
229.基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。
230.本技术实施例中提供一种电子设备,所述电子设备的处理器执行机器可读指令时,获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,所述方法能够支持多语言、任意情绪、多风格扩展的情感语音合成,该方法中先根据跨语言的统一语言特征表示扩展出目标情感和风格的语音学特征,再基于统一语言特征表示、说话
人音色信息以及语音学特征合成目标情绪、风格和目标音色的语音数据;由于与情感和风格相关的语音学特征和说话人音色信息在不同阶段发挥作用,因此,执行本方法的语音合成系统不需要每一说话人都具有情感语音数据、情感语音业务性进行情绪标注、不需要跨语言语料即可实现相关功能,后续新风格语料的构建也不要求单一说话人,而可以收集大量说话人相似风格的语音作为迁移学习素材;而基于说话人音色信息合成语音阶段需要使用情感风格迁移阶段的语音学特征和相同的语言特征表示,保证了不同合成阶段的连续性,保证了合成的语音的质量。
231.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令时,所述目标语音信息为:目标情绪信息和/或目标风格信息;
232.其中,目标情绪信息为目标情绪标识或目标情绪参考语音;
233.目标风格信息为目标风格标识或目标风格参考语音。
234.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现将所述待合成文本跨语言转换为目标语言的目标语言特征表示时,具体执行:
235.根据预设的不同语言文本内容与统一字符之间的映射关系,将所述待合成文本转换成采用统一字符表示的文本字符集合;
236.基于所述文本字符集合得到所述目标语言特征表示。
237.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现将所述待合成文本跨语言转换为目标语言的目标语言特征表示时,具体执行:
238.将所述待合成文本输入预先训练的文本处理模型,以通过所述文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示。
239.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现基于所述目标语言特征表示和目标语音信息确定目标语音学特征时,具体执行:
240.基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征。
241.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令时,所述目标情绪信息中,所述目标情绪标识用于搜索与所述目标情绪标识匹配的目标情绪特征表示,所述目标情绪参考语音用于提取出目标情绪特征表示;
242.所述目标风格信息中,所述目标风格标识用于确定与所述目标风格标识匹配的目标语音学特征预测模型,所述目标风格参考语音用于提取出目标风格特征表示,以基于所述目标风格特征表示和语音学特征预测模型得到目标风格的语音学特征预测模型。
243.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征;
244.所述目标语音学特征的类型至少为以下之一:只包括风格的目标语音学特征、只包括情绪的目标语音学特征、同时包括情绪和风格的目标语音学特征、情绪和风格均不包括的目标语音学特征。
245.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征时,具体执行:
246.通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,确定是否使用通用的情绪特征表示或通用的风格特征表示;
247.若只包括风格信息,则该语音学特征预测模型使用通用的情绪特征表示,输出只包括风格的目标语音学特征;
248.若只包括情绪信息,则该语音学特征预测模型使用通用的风格特征表示,输出只包括情绪的目标语音学特征;
249.若同时包括情绪信息和风格信息,则语音学特征预测模型不使用通用的情绪特征表示、通用的风格特征表示,输出同时包括情绪和风格的目标语音学特征;
250.若不包括情绪信息、风格信息,若语音学特征预测模型同时使用通用的情绪特征表示、通用的风格特征表示,输出通用的目标语音学特征。
251.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征时,具体执行以下之一:
252.确定所述目标情绪信息对应的目标情绪特征表示;
253.基于所述目标语言特征表示、目标情绪特征表示和无风格的语音学特征预测模型确定目标语音学特征;
254.或者,确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
255.基于所述目标语言特征表示、目标风格的语音学特征预测模型确定目标语音学特征;
256.或者,确定所述目标情绪信息对应的目标情绪特征表示,以及确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
257.基于所述目标语言特征表示、目标情绪特征表示、目标风格的语音学特征预测模型确定目标语音学特征。
258.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令时实现确定所述目标情绪信息对应的目标情绪特征表示时,具体执行:
259.基于预先确定的、多种情绪标识和多种情绪特征表示的映射关系,搜索确定与目标情绪标识匹配的目标情绪特征表示;
260.或者,基于独立的情绪样本语音预先训练的情绪特征提取模块,提取出目标情绪参考语音的目标情绪特征表示。
261.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令时实现确定所述目标风格信息对应的、目标风格的语音学特征预测模型时,具体执行:
262.基于预先建立的风格标识和不同风格的语音学特征预测模型的关联关系,确定所述目标风格标识关联的、目标风格的目标语音学特征预测模型;
263.或者,基于独立的风格样本语音预先训练的风格特征提取模块,提取出目标风格参考语音的目标风格特征表示;
264.将所述目标风格特征表示输入至语音学特征预测模型,得到目标风格的语音学特征预测模型。
265.在一些实施例中,所述电子设备中的处理器还执行以下训练不同风格的语音学特征预测模型的步骤;
266.具体的,提取样本风格语音的第一样本风格特征表示;其中,所述样本风格特征表示包括提取样本风格语音在第一粒度上的子样本情绪特征表示、在第二粒度上的子样本风格特征表示;
267.提取样本风格语音的第一样本语音学特征;
268.利用所述第一样本风格特征表示、第一样本语音学特征,以及样本风格语音的第一样本语音文字进行模型训练,得到语音学特征预测模型;其中,样本风格语音的风格不同,所述语音学特征预测模型的风格不同。
269.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令时,所述目标音色信息包括音色标识;
270.相应的,在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据时,具体执行:
271.基于预先确定的、多种音色标识和多种音色特征表示的映射关系,搜索确定与目标音色标识匹配的目标音色特征表示;
272.将所述目标语言特征表示、目标语音学特征和所述目标音色特征表示输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
273.在一些实施例中,在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据时,具体执行:
274.将所述目标语言特征表示、目标语音学特征和所述目标音色信息输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
275.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令时还执行训练语音合成系统的步骤,所述语音合成系统包括语言学特征预测模型和语音合成模型;
276.具体的,所述电子设备中的处理器执行所述机器可读指令实现执行训练语音合成系统的步骤,具体执行:
277.获取样本文本的样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征;
278.利用样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征训练语言学特征预测模型;
279.同时,利用所述样本语言特征表示、第二样本语音学特征、样本音色信息训练语音合成模型。
280.基于同一发明构思,本技术实施例中还提供了与语音合成方法对应的计算机可读存储介质,由于本技术实施例中的计算机可读存储介质解决问题的原理与本技术实施例语音合成方法相似,因此计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
281.本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时,所述处理器执行以下步骤:
282.获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;
283.将所述待合成文本跨语言转换为目标语言的目标语言特征表示;
284.基于所述目标语言特征表示和目标语音信息确定目标语音学特征;
285.基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。
286.本技术实施例中提供一种计算机可读存储介质,所述计算机可读存储介质被处理器执行时,获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,所述方法能够支持多语言、任意情绪、多风格扩展的情感语音合成,该方法中先根据跨语言的统一语言特征表示扩展出目标情感和风格的语音学特征,再基于统一语言特征表示、说话人音色信息以及语音学特征合成目标情绪、风格和目标音色的语音数据;由于与情感和风格相关的语音学特征和说话人音色信息在不同阶段发挥作用,因此,执行本方法的语音合成系统不需要每一说话人都具有情感语音数据、情感语音业务性进行情绪标注、不需要跨语言语料即可实现相关功能,后续新风格语料的构建也不要求单一说话人,而可以收集大量说话人相似风格的语音作为迁移学习素材;而基于说话人音色信息合成语音阶段需要使用情感风格迁移阶段的语音学特征和相同的语言特征表示,保证了不同合成阶段的连续性,保证了合成的语音的质量。
287.在一些实施例中,所述目标语音信息为:目标情绪信息和/或目标风格信息;
288.其中,目标情绪信息为目标情绪标识或目标情绪参考语音;
289.目标风格信息为目标风格标识或目标风格参考语音。
290.在一些实施例中,在一些实施例中,所述处理器,执行所述机器可读指令实现将所述待合成文本跨语言转换为目标语言的目标语言特征表示时,具体执行:
291.根据预设的不同语言文本内容与统一字符之间的映射关系,将所述待合成文本转换成采用统一字符表示的文本字符集合;
292.基于所述文本字符集合得到所述目标语言特征表示。
293.在一些实施例中,所述处理器,执行将所述待合成文本跨语言转换为目标语言的目标语言特征表示时,具体执行:
294.将所述待合成文本输入预先训练的文本处理模型,以通过所述文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示。
295.在一些实施例中,所述电子设备中的处理器执行所述机器可读指令实现基于所述目标语言特征表示和目标语音信息确定目标语音学特征时,具体执行:
296.基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征。
297.在一些实施例中,所述目标情绪信息中,所述目标情绪标识用于搜索与所述目标情绪标识匹配的目标情绪特征表示,所述目标情绪参考语音用于提取出目标情绪特征表示;
298.所述目标风格信息中,所述目标风格标识用于确定与所述目标风格标识匹配的目标语音学特征预测模型,所述目标风格参考语音用于提取出目标风格特征表示,以基于所
述目标风格特征表示和语音学特征预测模型得到目标风格的语音学特征预测模型。
299.在一些实施例中,在一些实施例中,所述处理器,还执行通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征;
300.所述目标语音学特征的类型至少为以下之一:只包括风格的目标语音学特征、只包括情绪的目标语音学特征、同时包括情绪和风格的目标语音学特征、情绪和风格均不包括的目标语音学特征。
301.在一些实施例中,所述处理器,执行通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征时,具体执行:
302.通过同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,确定是否使用通用的情绪特征表示或通用的风格特征表示;
303.若只包括风格信息,则该语音学特征预测模型使用通用的情绪特征表示,输出只包括风格的目标语音学特征;
304.若只包括情绪信息,则该语音学特征预测模型使用通用的风格特征表示,输出只包括情绪的目标语音学特征;
305.若同时包括情绪信息和风格信息,则语音学特征预测模型不使用通用的情绪特征表示、通用的风格特征表示,输出同时包括情绪和风格的目标语音学特征;
306.若不包括情绪信息、风格信息,若语音学特征预测模型同时使用通用的情绪特征表示、通用的风格特征表示,输出通用的目标语音学特征。
307.在一些实施例中,所述处理器,执行基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征时,具体执行以下之一:
308.确定所述目标情绪信息对应的目标情绪特征表示;
309.基于所述目标语言特征表示、目标情绪特征表示和无风格的语音学特征预测模型确定目标语音学特征;
310.或者,确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
311.基于所述目标语言特征表示、目标风格的语音学特征预测模型确定目标语音学特征;
312.或者,确定所述目标情绪信息对应的目标情绪特征表示,以及确定所述目标风格信息对应的、目标风格的语音学特征预测模型;
313.基于所述目标语言特征表示、目标情绪特征表示、目标风格的语音学特征预测模型确定目标语音学特征。
314.在一些实施例中,所述处理器,执行所述机器可读指令时实现确定所述目标情绪信息对应的目标情绪特征表示时,具体执行:
315.基于预先确定的、多种情绪标识和多种情绪特征表示的映射关系,搜索确定与目标情绪标识匹配的目标情绪特征表示;
316.或者,基于独立的情绪样本语音预先训练的情绪特征提取模块,提取出目标情绪参考语音的目标情绪特征表示。
317.在一些实施例中,所述处理器,执行确定所述目标风格信息对应的、目标风格的语音学特征预测模型时,具体执行:
318.基于预先建立的风格标识和不同风格的语音学特征预测模型的关联关系,确定所述目标风格标识关联的、目标风格的目标语音学特征预测模型;
319.或者,基于独立的风格样本语音预先训练的风格特征提取模块,提取出目标风格参考语音的目标风格特征表示;
320.将所述目标风格特征表示输入至语音学特征预测模型,得到目标风格的语音学特征预测模型。
321.在一些实施例中,所述处理器,还执行以下训练不同风格的语音学特征预测模型的步骤;
322.具体的,提取样本风格语音的第一样本风格特征表示;其中,所述样本风格特征表示包括提取样本风格语音在第一粒度上的子样本情绪特征表示、在第二粒度上的子样本风格特征表示;
323.提取样本风格语音的第一样本语音学特征;
324.利用所述第一样本风格特征表示、第一样本语音学特征,以及样本风格语音的第一样本语音文字进行模型训练,得到语音学特征预测模型;其中,样本风格语音的风格不同,所述语音学特征预测模型的风格不同。
325.在一些实施例中,所述目标音色信息包括音色标识;
326.相应的,在一些实施例中,所述处理器,执行所述机器可读指令实现基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据时,具体执行:
327.基于预先确定的、多种音色标识和多种音色特征表示的映射关系,搜索确定与目标音色标识匹配的目标音色特征表示;
328.将所述目标语言特征表示、目标语音学特征和所述目标音色特征表示输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
329.在一些实施例中,在一些实施例中,所述处理器,执行所述机器可读指令实现基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据时,具体执行:
330.将所述目标语言特征表示、目标语音学特征和所述目标音色信息输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。
331.在一些实施例中,所述处理器,还执行训练语音合成系统的步骤,所述语音合成系统包括语言学特征预测模型和语音合成模型;
332.具体的,所述处理器,执行所述机器可读指令实现执行训练语音合成系统的步骤,具体执行:
333.获取样本文本的样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征;
334.利用样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征训练语言学特征预测模型;
335.同时,利用所述样本语言特征表示、第二样本语音学特征、样本音色信息训练语音合成模型。
336.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统
和装置的具体工作过程,可以参考方法实施例中的对应过程,本技术中不再赘述。在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
337.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
338.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
339.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
340.以上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。2.根据权利要求1所述的语音合成方法,其特征在于,所述目标语音信息为:目标情绪信息和/或目标风格信息;其中,目标情绪信息为目标情绪标识或目标情绪参考语音;目标风格信息为目标风格标识或目标风格参考语音。3.根据权利要求1所述的语音合成方法,其特征在于,将所述待合成文本跨语言转换为目标语言的目标语言特征表示;包括:根据预设的不同语言文本内容与统一字符之间的映射关系,将所述待合成文本转换成采用统一字符表示的文本字符集合;基于所述文本字符集合得到所述目标语言特征表示。4.根据权利要求2或3所述的语音合成方法,其特征在于,将所述待合成文本跨语言转换为目标语言的目标语言特征表示,包括:将所述待合成文本输入预先训练的文本处理模型,以通过所述文本处理模型将所述待合成文本跨语言转换为目标语言的目标语言特征表示。5.根据权利要求2所述的语音合成方法,其特征在于,基于所述目标语言特征表示和目标语音信息确定目标语音学特征,包括:基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征。6.根据权利要求2或5所述的语音合成方法,其特征在于,所述目标情绪信息中,所述目标情绪标识用于搜索与所述目标情绪标识匹配的目标情绪特征表示,所述目标情绪参考语音用于提取出目标情绪特征表示;所述目标风格信息中,所述目标风格标识用于确定与所述目标风格标识匹配的目标语音学特征预测模型,所述目标风格参考语音用于提取出目标风格特征表示,以基于所述目标风格特征表示和语音学特征预测模型得到目标风格的语音学特征预测模型。7.根据权利要求6所述的语音合成方法,其特征在于,同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征:所述目标语音学特征的类型至少为以下之一:只包括风格的目标语音学特征、只包括情绪的目标语音学特征、同时包括情绪和风格的目标语音学特征、情绪和风格均不包括的目标语音学特征。8.根据权利要求7所述的语音合成方法,其特征在于,同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,输出不同类型的目标语音学特征,包括:同一语音学特征预测模型基于目标语音信息是否包括情绪信息、风格信息,确定是否使用通用的情绪特征表示或通用的风格特征表示;
若只包括风格信息,则该语音学特征预测模型使用通用的情绪特征表示,输出只包括风格的目标语音学特征;若只包括情绪信息,则该语音学特征预测模型使用通用的风格特征表示,输出只包括情绪的目标语音学特征;若同时包括情绪信息和风格信息,则语音学特征预测模型不使用通用的情绪特征表示、通用的风格特征表示,输出同时包括情绪和风格的目标语音学特征;若不包括情绪信息、风格信息,若语音学特征预测模型同时使用通用的情绪特征表示、通用的风格特征表示,输出通用的目标语音学特征。9.根据权利要求6所述的语音合成方法,其特征在于,基于所述目标语言特征表示、所述目标情绪信息和/或目标风格信息、预先训练的语音学特征预测模型确定目标语音学特征,包括以下之一:确定所述目标情绪信息对应的目标情绪特征表示;基于所述目标语言特征表示、目标情绪特征表示和无风格的语音学特征预测模型确定目标语音学特征;或者,确定所述目标风格信息对应的、目标风格的语音学特征预测模型;基于所述目标语言特征表示、目标风格的语音学特征预测模型确定目标语音学特征;或者,确定所述目标情绪信息对应的目标情绪特征表示,以及确定所述目标风格信息对应的、目标风格的语音学特征预测模型;基于所述目标语言特征表示、目标情绪特征表示、目标风格的语音学特征预测模型确定目标语音学特征。10.根据权利要求9所述的语音合成方法,其特征在于,确定所述目标情绪信息对应的目标情绪特征表示,包括:基于预先确定的、多种情绪标识和多种情绪特征表示的映射关系,搜索确定与目标情绪标识匹配的目标情绪特征表示;或者,基于独立的情绪样本语音预先训练的情绪特征提取模块,提取出目标情绪参考语音的目标情绪特征表示。11.根据权利要求9所述的语音合成方法,其特征在于,确定所述目标风格信息对应的、目标风格的语音学特征预测模型,包括:基于预先建立的风格标识和不同风格的语音学特征预测模型的关联关系,确定所述目标风格标识关联的、目标风格的目标语音学特征预测模型;或者,基于独立的风格样本语音预先训练的风格特征提取模块,提取出目标风格参考语音的目标风格特征表示;将所述目标风格特征表示输入至语音学特征预测模型,得到目标风格的语音学特征预测模型。12.根据权利要求11所述的语音合成方法,其特征在于,所述不同风格的语音学特征预测模型,是通过以下方法训练的:提取样本风格语音的第一样本风格特征表示;其中,所述样本风格特征表示包括提取样本风格语音在第一粒度上的子样本情绪特征表示、在第二粒度上的子样本风格特征表示;
提取样本风格语音的第一样本语音学特征;利用所述第一样本风格特征表示、第一样本语音学特征,以及样本风格语音的第一样本语音文字进行模型训练,得到语音学特征预测模型;其中,样本风格语音的风格不同,所述语音学特征预测模型的风格不同。13.根据权利要求1所述的语音合成方法,其特征在于,所述目标音色信息包括音色标识;相应的,基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,包括:基于预先确定的、多种音色标识和多种音色特征表示的映射关系,搜索确定与目标音色标识匹配的目标音色特征表示;将所述目标语言特征表示、目标语音学特征和所述目标音色特征表示输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。14.根据权利要求1所述的语音合成方法,其特征在于,基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,包括:将所述目标语言特征表示、目标语音学特征和所述目标音色信息输入至预先训练好的语音合成模型,以得到待合成文本的目标语音数据。15.根据权利要求1所述的语音合成方法,其特征在于,所述方法应用于语音合成系统,所述语音合成系统包括语言学特征预测模型和语音合成模型;所述语音合成系统,是通过以下方法训练的:获取样本文本的样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征;利用样本语言特征表示、第二样本情绪特征表示、第二样本风格特征表示、第二样本语音学特征训练语言学特征预测模型;同时,利用所述样本语言特征表示、第二样本语音学特征、样本音色信息训练语音合成模型。16.一种语音合成装置,其特征在于,所述装置包括:获取模块,用于获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;转换模块,用于将所述待合成文本跨语言转换为目标语言的目标语言特征表示;确定模块,用于基于所述目标语言特征表示和目标语音信息确定目标语音学特征;合成模块,用于基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据。17.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至15任意一项所述的语音合成方法的步骤。18.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至15任意一项所述的语音合成方法的步骤。
技术总结
本申请提供了本申请实施例中提供一种语音合成方法、装置、电子设备及介质,所述方法获取待合成文本、目标语音信息和目标音色信息;其中,所述目标语音信息表征情绪类别和/或风格类别;将所述待合成文本跨语言转换为目标语言的目标语言特征表示;基于所述目标语言特征表示和目标语音信息确定目标语音学特征;基于所述目标语言特征表示、目标语音学特征和所述目标音色信息进行语音合成,得到待合成文本的目标语音数据,从而支持多语言、任意情绪、多风格扩展的情感语音合成。格扩展的情感语音合成。格扩展的情感语音合成。
技术研发人员:詹皓粤 余心远 林悦
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2023.06.08
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
