语音生成模型构建方法、语音生成方法、设备及存储介质
未命名
08-15
阅读:100
评论:0
1.本技术涉及自然语言处理领域,尤其涉及语音生成模型构建方法、语音生成方法、设备及存储介质。
背景技术:
2.近年来,基于深度学习的方法在朗读风格的语音合成已经能达到很高的质量,然而在口语(自发)风格的语音合成上还没有达到足够的效果。目前主流的口语对话语音合成工作,体现在对语音中丰富的自发现象(例如嗯、啊这种停顿、延长、笑声、呼吸声)进行建模。然而现有的建模方法需要对自发现象提供显式的标签,获取高质量的自发风格数据集和手动标注自发现象,都需要耗费巨大的成本,目前也没有足够的高质量带标签的语料。导致现有口语对话语音合成效果不甚理想。
技术实现要素:
3.本技术公开的一种语音生成模型构建方法、语音生成方法、设备及存储介质,解决现有的基于口语对话语音合成工作中难以获取高质量的自发风格数据集和手动标注自发现象需要耗费大量成本的问题。
4.第一方面,本技术提供了一种语音生成模型训练方法,待构建的所述语音生成模型包括音素编码器、标签预测器、可变信息适配器以及解码器;所述方法包括:获取多个文本信息及其对应的语音信息,从所述语音信息中提取出频谱信息 ,将所述文本信息作为训练样本;基于所述训练样本获取音素信息,将所述音素信息输入至音素编码器中,获取关于所述训练样本的第一表征信息,基于所述第一表征信息获取第一编码信息 ;将所述第一编码信息输入至所述标签预测器 ,获取关于所述训练样本的标签信息;将所述第一编码信息和标签信息输入至所述可变信息适配器中,获取所述训练样本的时长信息、基频信息和能量信息;将所述时长信息、基频信息和能量信息输入至所述解码器中,获取预测频谱信息,计算所述预测频谱信息与所述频谱信息的损失函数;若所述损失函数满足预设收敛条件,停止训练,得到所述语音生成模型。
5.第二方面,本技术提供了一种语音生成方法,所述方法包括:获取文本信息;将所述文本信息输入至语音生成模型,获取频谱信息;其中,所述语音生成模型采用本技术任一实施例所提供的语音生成模型构建方法构建得到;基于所述频谱信息获取语音信息。
6.第三方面,本技术提供了一种计算机设备,所述计算机设备包括:存储器和处理器;
其中,所述存储器与所述处理器连接,用于存储程序;所述处理器用于通过运行所述存储器中存储的程序,实现如本技术任一实施例所提供的语音生成模型构建方法的步骤,或,实现如本技术任一实施例所提供的语音生成方法的步骤。
7.第四方面,本技术实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本技术任一实施例所提供的语音生成模型构建方法的步骤,或,实现如本技术任一实施例所提供的语音生成方法的步骤。
8.本技术提供了一种语音生成模型构建方法、语音生成方法、设备及存储介质,待构建的语音生成模型包括音素编码器、标签预测器、可变信息适配器以及解码器,所提供的方法通过获取多个文本信息及其对应的语音信息,从语音信息中提取出频谱信息 ,将文本信息作为训练样本;基于训练样本获取音素信息,将音素信息输入至音素编码器中,获取关于训练样本的第一表征信息,基于第一表征信息获取第一编码信息;将第一编码信息输入至标签预测器 ,获取关于训练样本的标签信息;将第一编码信息和标签信息输入至可变信息适配器中,获取训练样本的时长信息、基频信息和能量信息;将时长信息、基频信息和能量信息输入至解码器中,获取预测频谱信息,计算预测频谱信息与频谱信息的损失函数;若损失函数满足预设收敛条件,停止训练,得到语音生成模型。通过基于文本信息输入至待构建的语音生成模型中,再对文本信息提取出对应的第一编码信息后由标签预测器对训练样本的标签信息进行预测,进而能够提升最终得到的预测频谱信息的口语化程度。所提供的方法通过标签预测器对标签信息进行预测的方法提供了高质量的自发风格数据集,并且无需对数据集进行手动标注自发现象,大幅节约了对数据集处理过程所耗费的成本,提升了模型合成自发现象的自然性以及预测合理自发现象的能力。
9.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
10.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1是本技术实施例所提供的语音生成模型构建方法的步骤示意流程图;图2是本技术实施例提供的一种语音生成模型的结构示意图;图3是本技术实施例提供的一种语言学感知编码器的结构示意图;图4是本技术实施例提供的一种标签预测器的结构示意框图;图5是本技术实施例提供的一种可变信息适配器的结构示意框图;图6是本技术实施例提供的一种语音生成方法的步骤示意流程图;图7是本技术实施例提供的一种计算机设备的示意性框图。
12.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
具体实施方式
13.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
14.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
15.应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
16.应当理解,为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一编码信息和第二编码信息仅仅是为了区分不同的编码信息,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
17.还应当进理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
18.为便于理解本技术实施例,下面对本技术实施例中涉及到的一些词汇作简单说明。
19.1. fastspeech2:近年来,以 fastspeech 为代表的非自回归语音合成(text to speech, tts)模型相比传统的自回归模型(如 tacotron 2)能极大提升合成速度,提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律),同时达到相匹配的语音合成质量。但是,fastspeech 还面临以下几点问题:fastspeech 依赖 teacher-student 的知识蒸馏框架,训练流程比较复杂;由于知识蒸馏,fastspeech 的训练目标相比真实语音存在信息损失,同时从 teacher 模型获得的时长(duration)信息不够准确,两者都会影响合成语音质量。
20.为了解决上述问题,微软亚洲研究院和微软 azure 语音团队联合浙江大学提出了fastspeech 的改进版 fastspeech 2,它抛弃了 teacher-student 知识蒸馏框架降低训练复杂度,直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(pitch)和音量(energy)等)来提高合成的语音质量。基于 fastspeech 2,我们还提出了加强版 fastspeech 2s 以支持完全端到端的从文本到语音波形的合成,省略了梅尔频谱的生成过程。实验结果表明,fastspeech 2 和 2s 在语音质量方面优于 fastspeech,同时大大简化了训练流程减少了训练时间,还加快了合成的速度。
21.2.音素编码器:音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节啊(
ā
)只有一个音素,爱(
à
i)有两个音素,代(d
à
i)有三个音素等。而用于对文本进行音素提取的即为音素编码器。
22.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
23.语音合成旨在从文本中合成出可理解和自然的语音。今年来,基于深度学习的方法在语音领域取得了令人瞩目的成就。目前,朗读风格的语音合成已经能达到很高的质量,然而在口语(自发)风格的语音合成上还没有达到足够的效果。
24.目前主流的口语对话语音合成工作,体现在对语音中丰富的自发现象(例如嗯、啊这种filled pause、延长、笑声、呼吸声)进行建模。这些自发现象能够提升语音的自然度,让合成的语音更加口语化。比较有效的自发现象建模方法是对这些现象提供显式的标签,然而获取高质量的自发风格数据集和手动标注自发现象,都需要耗费巨大的成本,目前也没有足够的高质量带标签的语料。之前的工作证明了引入对话上下文信息能提升合成语音的自然度,主要是从历史对话信息的语义信息出发。然而,对话中的语言学信息并没有很好地被利用,其中包括对话中各个句子之间的关系。
25.为解决上述问题,本技术提出了一种语音生成模型构建方法,待构建的语音生成模型包括音素编码器、标签预测器、可变信息适配器以及解码器。请参照图1,图1是本技术实施例所提供的语音生成模型构建方法的步骤示意流程图。
26.如图1所示,所提供的语音生成模型构建方法包括步骤s101至s10+。
27.s101. 获取多个文本信息及其对应的语音信息,从语音信息中提取出频谱信息 ,将所述文本信息作为训练样本。
28.具体地,为使得语音生成模型能够获取高质量的自发风格数据集,对于训练样本的来源需要有一定的要求,通过在高质量的有标签自发数据集,例如中文对话式语音数据集 (magicdata-ramc),能增加自发现象的建模和预测能力。而将文本信息对应的语音信息中的频谱信息进行提取,例如梅尔频谱图,能够为后续验证模型的训练效果做准备。
29.s102. 基于训练样本获取音素信息,将音素信息输入至音素编码器中,获取关于训练样本的第一表征信息,基于第一表征信息获取第一编码信息。
30.具体地,文本信息中包括字级别以及音素级别的嵌入标注,通过音素编码器对训练样本在音素级别提取音素嵌入表征,即对训练样本进行音素嵌入(phoneme embedding)操作。进而能够获取关于训练样本的第一表征信息,再基于第一表征信息进行音素编码(phoneme encoder)操作,能够获取训练样本的第一编码信息。为后续模型的自发现象的建模和预测能力的训练做好准备工作。
31.在一些实施例中,在将音素信息输入至音素编码器中之前,还包括:对音素信息进行位置编码 ,用于将编码后的音素信息输入至所述音素编码器。通过对音素信息进行位置编码(positional encoding),由于文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义,而通过位置编码,能够调整训练样本中词与词之间的顺序关系,提升训练样本的质量。
32.在一些实施例中,如图2所示,图2是本技术实施例提供的一种语音生成模型的结构示意图。请参照图2,语音生成模型还包括语言学感知编码器(linguistics-aware encoder),在将第一编码信息输入至标签预测器之前,还包括:将第一表征信息以及多个文本信息输入至语言学感知编码器,获取关于训练样本的语言学信息;基于第一表征信息以及语言学信息获取第一编码信息。
33.由于文本信息中的语言学信息并没有很好地被利用,其中包括对话中各个句子之间的关系。因此本技术提供采用语言学感知编码器,将基于训练样本进行音素嵌入后提取的第一表征信息以及多个文本信息输入至语言学感知编码器中,例如训练样本中包括1至10共10个文本信息,当前基于第5个文本信息提取出对应的第一表征信息,即将该第一表征信息与10个文本信息同时输入至语言学感知编码器中,能够更为全面的获取与第一表征信息对应的语言学信息,进一步提升训练样本的质量。
34.示例性的,在一些实施例中,如图3所示,图3是本技术实施例提供的一种语言学感知编码器的结构示意图。请参照图3,语言学感知编码器包括文本编码器(conversation text encoder)和具有多头注意力机制的对话编码器(multi-head attention),将第一表征信息以及字符信息输入至语言学感知编码器,获取关于训练样本的语言学信息,包括: 将文本信息输入至文本编码器,获取文本表征信息和关联信息,关联信息为文本信息与多个文本信息中其他文本信息的关联信息。将第一表征信息以及关联信息输入至对话编码器,获取第二编码信息;基于第二编码信息以及文本表征信息获取语言学信息。
35.文本编码器用于对文本信息进行特征提取,例如fastspeech 2中的文本编码器,通过将文本信息输入至文本编码器,例如训练样本中包括1至10共10个文本信息,即将10个文本信息输入至文本编码器中,获取文本表征信息和关联信息,关联信息为文本信息与多个文本信息中其他文本信息的关联信息,例如当前的第一表征信息为10个文本信息中第5个文本信息所提取的,则关联信息为第5个文本信息与其余9个文本信息之间的关联性。通过基于关联信息以及文本信息获取对应的语言学信息,能够很好的将文本信息中各个句子之间的关系加以应用,进一步提升了训练样本的质量。
36.需要说明的是,在一些实施例中,如图2所示,待构建的语音生成模型还包括历史文本编码器(conversation history encoder);在将第一编码信息输入至标签预测器之前,还包括: 将历史文本信息输入至历史文本编码器中,获取第二表征信息,用于将第一表征信息以及第二表征信息获取所述第一编码信息。通过使用历史话语的嵌入来获取历史文本信息中更丰富的语义信息,进一步提升了第一编码信息的质量。
37.s103. 将第一编码信息输入至标签预测器,获取关于所述训练样本的标签信息。
38.通过对第一编码信息进行标签预测,在无需手动对文本信息中的自发现象进行标注的情况下即可完成,例如对填充暂停和延长现象进行预测(表示暂停和犹豫),能够经标签预测器对训练样本中的自发现象完成预测,进而获取高质量带标签的语料,提升对模型的训练效果。
39.在一些实施例中,如图4所示,图4是本技术实施例提供的一种标签预测器的结构示意框图。请参照图4,待训练的标签预测器包括第一预设神经网络、字符编码器以及第二预设神经网络。在将第一编码信息输入至标签预测器之前,还包括:获取文本信息对应的标签信息;基于训练样本获取字符信息;将频谱信息输入至第一预设神经网络,获取频谱表征信息;将字符信息输入至字符编码器,获取字符表征信息;将频谱表征信息以及字符表征信息输入至第二预设神经网络,生成预测标签信息,计算预设标签信息与标签信息的损失函数;若损失函数满足预设收敛条件,停止训练,得到标签预测器。
40.通过在带有对文本信息中的自发现象进行标注的数据库,例如中文对话式语音数据集 (magicdata-ramc),获取到文本信息对应的标签信息,并对训练样本进行字级别的嵌
入获取字符信息(character sequence)。再将基于训练样本对应的语音信息所提取出的频谱信息,例如梅尔频谱图,输入至第一预设神经网络,例如卷积神经网络(convolutional neural network,cnn)中,获取频谱表征信息。将字符信息输入至字符编码器(character embedding)中获取对应的字符表征信息。将频谱表征信息以及字符表征信息输入至第二预设神经网络,例如由双向长短期记忆(blstm)和全连接层组成的多层神经网络,进而能获取对训练样本的预测标签信息。再计算预测标签信息与文本信息对应的标签信息的损失函数,直至损失函数收敛,例如损失函数值小于预设阈值,停止对标签预测器的训练,训练完成的标签预测器能完成对自发现象的预测。
41.示例性的,预测标签信息与标签信息的损失函数计算采用曼哈顿距离(l1距离)计算,表达式如下:其中表示预测标签信息与标签信息的损失值,与分别表示预测标签信息与标签信息的标签集,表示标签的个数,与表示第k个标签值,。
42.s104. 将第一编码信息和标签信息输入至可变信息适配器中,获取训练样本的时长信息、基频信息和能量信息。
43.通过可变信息适配器(variance adaptor)基于第一编码信息和所获取的标签信息,能够分别对时长信息、基频信息和能量信息的轮廓进行粗粒度的预测,基于时长信息、基频信息和能量信息能够生成对应的预测频谱信息。
44.在一些实施例中,如图5所示,图5是本技术实施例提供的一种可变信息适配器的结构示意框图。请参照图5,可变信息适配器包括时长预测器、基频预测器以及能量预测器; 将第一编码信息以及标签信息输入至可变信息适配器中,获取训练样本的时长信息、基频信息以及能量信息,包括:将第一编码信息以及标签信息输入至时长预测器,获取时长信息;将第一编码信息、标签信息以及时长信息信输入至基频预测器获取基频信息;将第一编码信息、标签信息以及时长信息输入至能量预测器获取能量信息。进而能将第一编码信息和标签信息转化为语音信息做好准备。
45.s105. 将时长信息、基频信息和能量信息输入至解码器中,获取预测频谱信息,计算预测频谱信息与频谱信息的损失函数。
46.通过对时长信息、基频信息和能量信息进行解码,获取对应的预测频谱信息,再将预测频谱信息与训练样本对应的频谱信息进行损失函数的计算,能验证所生成的语音生成模型的训练效果。
47.在一些实施例中,在将时长信息、基频信息以及能量信息输入至解码器中之前,还包括:对时长信息、基频信息以及能量信息进行位置编码,用于将编码后的所述时长信息、基频信息以及能量信息输入至所述解码器。通过对时长信息、基频信息以及能量信息进行位置编码(positional encoding),由于文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义,而通过位置编码,能够调整训练样本中词与词之间的顺序关系,提升最
终所生成的频谱信息的质量。
48.s106. 若损失函数满足预设收敛条件,停止训练,得到语音生成模型。
49.具体地,损失函数可以采用任意损失函数,例如l1距离损失函数、均方根(mse)误差损失函数,当损失函数满足预设收敛条件,例如迭代次数达到预设次数、损失函数值小于预设阈值,均能完成对语音生成模型的训练,采用所提供的语音生成模型训练方法,在合成自发现象和预测合理自发现象方面都能得到大幅提升。
50.本技术提供了一种语音生成模型构建方法,所提供的方法通过基于文本信息输入至待构建的语音生成模型中,再对文本信息提取出对应的第一编码信息后由标签预测器对训练样本的标签信息进行预测,进而能够提升最终得到的预测频谱信息的口语化程度。所提供的方法通过标签预测器对标签信息进行预测的方法提供了高质量的自发风格数据集,并且无需对数据集进行手动标注自发现象,大幅节约了对数据集处理过程所耗费的成本。
51.请参照图6,图6是本技术实施例提供的一种语音生成方法的步骤示意流程图。
52.如图6所示,所提供的语音生成方法包括步骤s201至s203.s201.获取文本信息。
53.具体地,通过获取当前待生成为语音信息的文本信息,采用所提供的语音生成方法对该文本信息进行转换。
54.s202.将文本信息输入至语音生成模型,获取频谱信息;其中,语音生成模型采用本技术任一实施例所提供的语音生成模型构建方法构建得到。
55.具体地,通过将文本信息输入至本技术任一实施例所构建的语音生成模型中,能够获取基于文本信息对应的频谱信息,例如文本信息对应的梅尔频谱图。
56.s203.基于所述频谱信息获取语音信息。
57.具体地,基于频谱信息能够转换为对应的语音信息,完成对文本信息的转换。
58.本技术提供了一种语音生成方法,所提供的方法通过基于待转换的文本信息输入至构建的语音生成模型中,最终得到的语音信息的口语化程度得到大幅提升。
59.本技术提供了一种计算机设备。如图7所示,图7是本技术实施例提供的一种计算机设备的示意性框图。
60.其中,该计算机设备可以包括处理器、存储器和网络接口。处理器、存储器和网络接口通过系统总线连接,该系统总线比如为i2c(inter-integrated circuit)总线。
61.具体地,处理器可以是微控制单元(micro-controller unit,mcu)、中央处理单元 (central processing unit,cpu)或数字信号处理器 (digital signal processor,dsp)等。
62.具体地,存储器可以是flash芯片、只读存储器 (rom,read-only memory)磁盘、光盘、u盘或移动硬盘等。
63.该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的终端设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
64.其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现本技术实施例提供的语音生成模型的构建方法任一项中相应的步骤,或,实现
上述实施例提供的语音生成方法的步骤。
65.示例性的所提供的计算机设备的处理器用于如下步骤:获取多个文本信息及其对应的语音信息,从所述语音信息中提取出频谱信息 ,将所述文本信息作为训练样本;基于所述训练样本获取音素信息,将所述音素信息输入至音素编码器中,获取关于所述训练样本的第一表征信息,基于所述第一表征信息获取第一编码信息;将所述第一编码信息输入至所述标签预测器 ,获取关于所述训练样本的标签信息;将所述第一编码信息和标签信息输入至所述可变信息适配器中,获取所述训练样本的时长信息、基频信息和能量信息;将所述时长信息、基频信息和能量信息输入至所述解码器中,获取预测频谱信息,计算所述预测频谱信息与所述频谱信息的损失函数;若所述损失函数满足预设收敛条件,停止训练,得到所述语音生成模型。
66.在一些实施例中,所述语音生成模型还包括语言学感知编码器;在所述将所述第一编码信息输入至所述标签预测器之前,还实现:将所述第一表征信息以及多个文本信息输入至所述语言学感知编码器,获取关于所述训练样本的语言学信息;基于所述第一表征信息以及语言学信息获取所述第一编码信息。
67.在一些实施例中,所述语言学感知编码器包括文本编码器和具有多头注意力机制的对话编码器;所述将所述第一表征信息以及字符信息输入至所述语言学感知编码器,获取关于所述训练样本的语言学信息,具体实现:将所述文本信息输入至所述文本编码器,获取文本表征信息和关联信息,所述关联信息为所述文本信息与多个所述文本信息中其他文本信息的关联信息;将所述第一表征信息以及所述关联信息输入至所述对话编码器,获取第二编码信息;基于所述第二编码信息以及文本表征信息获取所述语言学信息。
68.在一些实施例中,待构建的所述语音生成模型还包括历史文本编码器;在所述将所述第一编码信息输入至所述标签预测器之前,还实现:将历史文本信息输入至所述历史文本编码器中,获取第二表征信息,用于将所述第一表征信息以及第二表征信息获取所述第一编码信息。
69.在一些实施例中,待训练的所述标签预测器包括第一预设神经网络、字符编码器以及第二预设神经网络;在所述将所述第一编码信息输入至所述标签预测器之前,还实现:获取所述文本信息对应的标签信息;基于所述训练样本获取字符信息;将所述频谱信息输入至所述第一预设神经网络,获取频谱表征信息;将所述字符信息输入至所述字符编码器,获取字符表征信息;将所述频谱表征信息以及所述字符表征信息输入至所述第二预设神经网络,生成预测标签信息,计算所述预测标签信息与所述标签信息的损失函数;若所述损失函数满足预设收敛条件,停止训练,得到所述标签预测器。
70.在一些实施例中,所述可变信息适配器包括时长预测器、基频预测器以及能量预测器;所述将所述第一编码信息以及标签信息输入至所述可变信息适配器中,获取所述训练样本的时长信息、基频信息以及能量信息,具体实现:将所述第一编码信息以及标签信息输入至所述时长预测器,获取所述时长信息;将所述第一编码信息、标签信息以及时长信息输入至所述基频预测器获取所述基频信息;将所述第一编码信息、标签信息以及时长信息输入至所述能量预测器获取所述能量信息。
71.在一些实施例中,所述将所述音素信息输入至音素编码器中之前,还实现:对所述
音素信息进行位置编码,用于将编码后的所述音素信息输入至所述音素编码器。
72.在一些实施例中,在所述将所述时长信息、基频信息以及能量信息输入至所述解码器中之前,还实现: 对所述时长信息、基频信息以及能量信息进行位置编码,用于将编码后的所述时长信息、基频信息以及能量信息输入至所述解码器。
73.需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述语音生成模型构建方法实施例中的对应过程,在此不再赘述。
74.示例性的所提供的计算机设备的处理器用于如下步骤:获取文本信息;将所述文本信息输入至语音生成模型,获取频谱信息;其中,所述语音生成模型采用本技术任一实施例所提供的语音生成模型构建方法构建得到;基于所述频谱信息获取语音信息。
75.需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的计算机设备的具体工作过程,可以参考前述语音生成方法实施例中的对应过程,在此不再赘述。
76.本技术的实施例中还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现上述实施例提供的语音生成模型构建方法的步骤,或,实现上述实施例提供的语音生成方法的步骤。
77.其中,存储介质可以是前述实施例的计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储介质也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
78.由于该存储介质中所存储的计算机程序,可以执行本技术实施例所提供的任一种语音生成模型的构建方法以及语音生成方法,因此,可以实现本技术实施例所提供的任一种语音生成模型的构建方法以及语音生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
79.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅是本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种语音生成模型训练方法,其特征在于,待构建的所述语音生成模型包括音素编码器、标签预测器、可变信息适配器以及解码器;所述方法包括:获取多个文本信息及其对应的语音信息,从所述语音信息中提取出频谱信息,将所述文本信息作为训练样本;基于所述训练样本获取音素信息,将所述音素信息输入至音素编码器中,获取关于所述训练样本的第一表征信息,基于所述第一表征信息获取第一编码信息;将所述第一编码信息输入至所述标签预测器,获取关于所述训练样本的标签信息;将所述第一编码信息和标签信息输入至所述可变信息适配器中,获取所述训练样本的时长信息、基频信息和能量信息;将所述时长信息、基频信息和能量信息输入至所述解码器中,获取预测频谱信息,计算所述预测频谱信息与所述频谱信息的损失函数;若所述损失函数满足预设收敛条件,停止训练,得到所述语音生成模型。2.根据权利要求1所述的语音生成模型训练方法,其特征在于,所述语音生成模型还包括语言学感知编码器;在所述将所述第一编码信息输入至所述标签预测器之前,还包括:将所述第一表征信息以及多个文本信息输入至所述语言学感知编码器,获取关于所述训练样本的语言学信息;基于所述第一表征信息以及语言学信息获取所述第一编码信息。3.根据权利要求2所述的语音生成模型训练方法,其特征在于,所述语言学感知编码器包括文本编码器和具有多头注意力机制的对话编码器;所述将所述第一表征信息以及字符信息输入至所述语言学感知编码器,获取关于所述训练样本的语言学信息,包括:将所述文本信息输入至所述文本编码器,获取文本表征信息和关联信息,所述关联信息为所述文本信息与多个所述文本信息中其他文本信息的关联信息;将所述第一表征信息以及所述关联信息输入至所述对话编码器,获取第二编码信息;基于所述第二编码信息以及文本表征信息获取所述语言学信息。4.根据权利要求1所述的语音生成模型训练方法,其特征在于,待构建的所述语音生成模型还包括历史文本编码器;在所述将所述第一编码信息输入至所述标签预测器之前,还包括:将历史文本信息输入至所述历史文本编码器中,获取第二表征信息,用于将所述第一表征信息以及第二表征信息获取所述第一编码信息。5.根据权利要求1所述的语音生成模型训练方法,其特征在于,待训练的所述标签预测器包括第一预设神经网络、字符编码器以及第二预设神经网络;在所述将所述第一编码信息输入至所述标签预测器之前,还包括:获取所述文本信息对应的标签信息;基于所述训练样本获取字符信息;将所述频谱信息输入至所述第一预设神经网络,获取频谱表征信息;将所述字符信息输入至所述字符编码器,获取字符表征信息;将所述频谱表征信息以及所述字符表征信息输入至所述第二预设神经网络,生成预测标签信息,计算所述预测标签信息与所述标签信息的损失函数;若所述损失函数满足预设收敛条件,停止训练,得到所述标签预测器。
6.根据权利要求1所述的语音生成模型训练方法,其特征在于,所述可变信息适配器包括时长预测器、基频预测器以及能量预测器;所述将所述第一编码信息以及标签信息输入至所述可变信息适配器中,获取所述训练样本的时长信息、基频信息以及能量信息,包括:将所述第一编码信息以及标签信息输入至所述时长预测器,获取所述时长信息;将所述第一编码信息、标签信息以及时长信息输入至所述基频预测器获取所述基频信息;将所述第一编码信息、标签信息以及时长信息输入至所述能量预测器获取所述能量信息。7.根据权利要求1所述的语音生成模型训练方法,其特征在于,在所述将所述音素信息输入至音素编码器中之前,还包括:对所述音素信息进行位置编码,用于将编码后的所述音素信息输入至所述音素编码器;在所述将所述时长信息、基频信息以及能量信息输入至所述解码器中之前,还包括:对所述时长信息、基频信息以及能量信息进行位置编码,用于将编码后的所述时长信息、基频信息以及能量信息输入至所述解码器。8.一种语音生成方法,其特征在于,所述方法包括:获取文本信息;将所述文本信息输入至语音生成模型,获取频谱信息;其中,所述语音生成模型采用权利要求1-7任一项所述的语音生成模型构建方法构建得到;基于所述频谱信息获取语音信息。9.一种计算机设备,其特征在于,所述计算机设备包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器用于通过运行所述存储器中存储的程序,实现如权利要求1-7任一项所述语音生成模型构建方法的步骤,或,实现如权利要求8中所述的语音生成方法的步骤。10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7任一项所述语音生成模型构建方法的步骤,或,实现如权利要求8中所述的语音生成方法的步骤。
技术总结
本申请提供了一种语音生成模型构建方法、语音生成方法、设备及存储介质,待构建的模型包括音素编码器、标签预测器、可变信息适配器以及解码器,方法通过获取多个文本信息及其对应的语音信息,从语音信息中提取频谱信息,将文本信息作为训练样本;基于训练样本获取音素信息输入至音素编码器中,获取关于训练样本的第一编码信息输入至标签预测器,获取关于训练样本的标签信息;将第一编码信息和标签信息输入至可变信息适配器中,获取训练样本的时长信息、基频信息和能量信息输入至解码器中,获取预测频谱信息,计算预测频谱信息与频谱信息的损失函数至满足预设收敛条件。提升了模型合成自发现象的自然性以及预测合理自发现象的能力。力。力。
技术研发人员:黄浩智 李伟钦 吴志勇
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2023.07.05
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
