重读可控语音合成方法、装置、电子设备及存储介质与流程

未命名 10-17 阅读：110 评论：0

1.本公开涉及一种重读可控语音合成方法、装置、电子设备及存储介质。

背景技术：

2.随着语音合成技术的发展，修改音频中特定文本重读程度的重度语音合成技术得到了广泛应用。目前，多数重读可控的语音合成方法通过在文本中插入重读标签来实现，这种方法需要训练一个单独的模型用于文本中重读标签的预测，该模型需要大量的重读标注数据才能学习合适的风格表示，而重读标注数据需大量人力来根据音频对文本进行重读标签的标注，存在诸多不确定性、耗时费力并且标注数据量难以保障，导致模型的精度、可靠性等均难以达标。因此，如何在不降低语音合成质量的前提下省时省力地实现合成音频的重读控制，是亟待解决的问题。

技术实现要素：

3.为了解决上述技术问题中的至少一个，本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。
4.根据本公开的第一方面，提供了一种重读可控语音合成方法，包括：
5.获取用户提供的第一文本；
6.通过语音合成模型中的文本编码器获取第一文本的文本编码状态；
7.获取重读特征，所述重读特征包括第一重读特征和/或第二重读特征，所述第一重读特征由用户设置，所述第二重读特征通过所述语音合成模型中的重音预测器基于所述第一文本的文本编码状态得到；
8.至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频。
9.根据本公开的一种可能的实现方式，所述第一重读特征通过如下方式之一得到：
10.根据第一用户提供的重读标识信息生成所述第一重读特征，所述重读标识信息指示用户指定的重读音素的位置及其重读程度；
11.从用户提供的参考音频提取得到所述第一重读特征。
12.根据本公开的一种可能的实现方式，所述至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频，包括：
13.将所述重读特征与所述第一文本的文本编码状态相加以获得第一文本的重读文本编码状态；
14.所述第一文本的重读文本编码状态依次经所述语音合成模型的时长预测器和流模块处理得到第一文本的声学序列特征；
15.通过所述解码器对所述第一文本的声学序列特征处理得到所述第一文本的合成音频。
16.根据本公开的一种可能的实现方式，所述语音合成模型通过如下步骤训练得到：
17.获取第二文本及其原始音频；
18.利用第二文本的原始音频获取第二文本的真实重音特征；
19.利用所述第二文本经所述语音合成模型中的文本编码器和重音预测器处理得到所述第二文本的文本编码状态和第二重读特征；
20.利用语音合成模型的解码器基于来自输入线性谱的声学隐状态得到第二文本的合成音频；
21.根据第二文本的第二重读特征和真实重读特征得到第一损失，根据第二文本的合成音频和原始音频得到第二损失，并根据第一损失和第二损失调整所述语音合成模型的参数。
22.根据本公开的一种可能的实现方式，所述第一损失根据均方差损失函数计算得到。
23.根据本公开的一种可能的实现方式，所述利用第二文本的原始音频获取第二文本的真实重音特征，包括：对所述第二文本和所述原始音频进行强制对齐以获得时长对齐信息；通过时长对齐信息和所述第二文本的原始音频提取所述原始音频中的重音值以形成所述真实重音特征。
24.根据本公开的一种可能的实现方式，所述语音合成模型的训练步骤还包括：所述第二文本的真实重音特征与所述第二文本的文本编码状态经语音合成模型中合成模块的相加处理后与经语音合成模型中流模块处理的声学隐状态进行单调对齐搜索得到每帧文本的时长信息。
25.根据本公开的一个方面，提供了一种重读可控语音合成装置，包括：
26.文本获取单元，用于获取用户提供的第一文本；
27.文本编码单元，用于通过语音合成模型中的文本编码器获取第一文本的文本编码状态；
28.重读特征获取单元，用于获取重读特征，所述重读特征包括第一重读特征和/或第二重读特征，所述第一重读特征由用户设置，所述第二重读特征通过所述语音合成模型中的重音预测器基于所述第一文本的文本编码状态得到；
29.合成音频单元，用于至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频。
30.根据本公开的一个方面，提供了一种电子设备，包括：
31.存储器，所述存储器存储执行指令；以及
32.处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述的重读可控语音合成方法。
33.根据本公开的一个方面，提供了一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的重读可控语音合成方法。
34.本公开实施例能够在不降低语音合成质量的前提下实现语音合成的重读可控。
附图说明
35.附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本
说明书的一部分。
36.图1是根据本公开的一些实施方式的重读可控语音合成方法的流程示意图。
37.图2是根据本公开的一些实施方式的语音合成模型架构及其通过该语音合成模型实现重读可控语音合成的示意图。
38.图3是根据本公开的一些实施方式的语音合成模型的训练过程示意图。
39.图4是本公开的一个实施方式的采用处理系统的硬件实现方式的重读可控语音合成装置的结构示意框图。
具体实施方式
40.下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。
41.需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
42.除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
43.在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。
44.当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。
45.本文使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
46.术语解释：
47.第一文本：待合成音频的文本；
48.第二文本：用于训练语音合成模型的文本。
49.图1示出了本公开实施例提供的重读可控语音合成方法的流程示意图。如图1所示，重读可控语音合成方法可以包括如下步骤：
50.步骤s102，获取用户提供的第一文本；
51.第一文本是待进行语音合成的任意文本。例如，文章、对话等。对于第一文本的长度、语言等细节，本公开实施例不作限制。
52.第一文本可以是用户自行编辑并输入重读可控语音合成方法的执行主体(例如，下文的电子设备)，也可以由重读可控语音合成方法的执行主体根据用户提供的第一文本的源地址来自动获取。对于第一文本的获取方式，本公开实施例不作限制。
53.第一文本可以包含一个文本或者多个文本。第一文本中包含多个文本时，这多个文本可以并行执行重读可控语音合成，也可以串行执行重读可控语音合成。对于第一文本的内容及其具体执行方式，本公开实施例不作限制。
54.在步骤s102之后，可以对第一文本进行预处理以将第一文本以字词或音素为单位转换为预定格式的字符数据，以便将这些字符数据输入语音合成模型执行后续步骤s104～步骤s108的处理。
55.步骤s104，通过语音合成模型中的文本编码器获取第一文本的文本编码状态；
56.步骤s106，获取重读特征，重读特征包括第一重读特征和/或第二重读特征，第一重读特征由用户设置，第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到；
57.一些实施方式中，可以根据第一用户提供的重读标识信息生成第一重读特征，该重读标识信息可以指示用户指定的重读音素的位置及其重读程度。例如，重读标识信息可以是与文本编码状态维度相同的高维数据，重读标识信息中的元素与文本编码状态中的元素一一对应，用户可以通过选定重读标识信息中的对应元素来设定哪些位置是重读音素并将重读标识信息中这些元素的取值设置为相应重读音素的重读值从而调高或调低相应重读因素的重读程度。
58.具体应用中，可以通过提供人机交互界面向用户提供初始的重读标识信息，用户可以根据可视提示或者经验在人机交互界面上展示的重读标识信息中进行重读因素的选择及其重读值设置。或者，可以向用户提供人机对话界面，用户可以通过人机对话将自己指定的重读因素及其重读值提供给重读可控语音合成方法的执行主体，由该执行主体完成重读标识信息的配置。
59.对于重读标识信息的数据表征方式、获取方式、具体内容等，本公开实施例均不作限制。
60.一些实施方式中，可以从用户提供的参考音频中提取得到第一重读特征。例如，可以使用诸如使用wavelet prosody toolkit工具等开源工具对用户提供的参考音频进行处理以提取到第一重读特征。
61.具体应用中，参考音频优选为表现力较强、语调起伏较大的音频。参考音频可以由用户提供，与前述的重读标识信息类似，参考音频可以通过提供人机交互界面来获取，也可以通过人机对话等方式来获取。对于参考音频的获取方式、具体内容、音频格式、内容长度
等，本公开实施例均不作限制。
62.本公开实施例通过加入第一重读特征，可以实现人为输入数值等方式调节重读程度，从而实现合成音频的重读可控，有效解决相关技术中语音合成重读无法灵活显示控制的问题。
63.第二重读特征由语音合成模型的重读预测器自动生成。一些实施方式中，第二重读特征可以是与文本编码状态维度相同的数据格式，以便合成模块直接处理。例如，文本编码状态是宽度为w、高度为h、通道数为c的三维数据时，第二重读特征可以设定为宽度为w、高度为h、通道数为c的三维数据。
64.步骤s108，至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。
65.一些实施方式中，本公开实施例的语音合成模型可以通过端到端神经网络模型来实现。例如，vits等。vits(variational inference with adversarial learning for end-to-end text-to-speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型，以vits为基础实现本公开实施例的支持重音可控的语音合成模型可以在实现重读可控的同时提高合成语音的表现力。
66.图2示出了本公开实施例提供的语音合成模型的结构及其执行语音合成的过程的示意图。参见图2，本公开实施例的语音合成模型可以包括：文本编码器202、重读预测器204、合成模块206、时长预测器208、流模块(flow)210和解码器212。图2的示例中，语音合成模型以vits为基础，通过在vits中加入重音预测器204来实现重音特征的自动预测，同时还通过在vits中加入重音特征与文本编码状态的合成模块206方便地将用户设置的第一重音特征和/或重音预测器自动预测得到的第二重音特征添加到文本编码状态中，从而实现合成语音的重音可控。
67.一些实施方式中，重读预测器204可以采用但不限于卷积层、卷积神经网络或其他类似的模型架构。
68.图2的示例中，文本编码器、时长预测器、流模块(flow)和解码器的结构及其功能，可以采用vits中的相应模块来实现。例如，文本编码器还可称为先验编码器，其可以通过多层的transformer encoder形成；解码器可以是但不限于声码器hifi-gan v1的生成器，该生成器主要由多组转置卷积来实现；flow是标准化流，可以将文本编码器输出的简单分布转换为复杂分布；时长预测器可以采用vits中的随机时长预测器(stochastic duration predictor，sdp)，其输入数据是文本编码器的输出结果、输出数据可以是音素时长的对数。此外，时长预测器还可以基于语音合成模型训练时得到的最优对齐矩阵来预测出每个音素的时长以便将文本的长度扩充到音频长度。
69.可以理解的是，本公开实施例中语音合成模型中的文本编码器、时长预测器、流模块和解码器还可通过改进vits中的相关网络模型来实现，对于这些模块的网络架构及其具体实现方式，本公开实施例不作限制。
70.具体地，参见图2，待合成音频的第一文本经语音合成模型的文本编码器处理得到文本编码状态，文本编码状态通过重读预测器预测得到第二重读特征，用户输入要控制重读的值形成第一重读特征，通过语音合成模型的合成模块将第一重读特征和/或第二重读特征加到文本编码状态上得到重读文本编码状态，重读文本编码状态被送入时长预测器进
行上采样，再经过flow后送入解码器最终得到第一文本的合成音频并输出。
71.图3示出了语音合成模型的训练过程示意图。图3中的箭头指向为数据流方向。结合图3，语音合成模型可以通过如下步骤训练得到：
72.步骤a1，获取第二文本及其原始音频；
73.步骤a2，利用第二文本的原始音频获取第二文本的真实重音特征；
74.步骤a3，利用第二文本经语音合成模型中的文本编码器和重音预测器处理得到第二文本的文本编码状态和第二重读特征；
75.步骤a4，利用语音合成模型的解码器基于来自输入线性谱的声学隐状态得到第二文本的合成音频；
76.步骤a5，根据第二文本的第二重读特征和真实重读特征得到第一损失，根据第二文本的合成音频和原始音频得到第二损失，并根据第一损失和第二损失调整语音合成模型的参数。
77.与前述通过语音合成模型执行重音可控语音合成方法的过程相似，在训练过程中，步骤a1后，可以对第二文本进行预处理以将第二文本以字词或音素为单位转换为预定格式的字符数据，以便将这些字符数据输入语音合成模型执行其训练过程。
78.具体应用中，语音合成模型的上述训练过程迭代执行，直到满足预先设定的收敛条件。收敛条件可以是但不限于迭代次数达到预先设定的迭代次数上限等。对于迭代次数、收敛条件等细节，本公开实施例不作限制。
79.一些实施方式中，步骤a2中，可以使用开源的wavelet prosody toolkit工具通过时长对齐信息和真实音频来提取真实音频中每个词的重读值(即，连续值)，真实音频中每个词的重读值即可形成真实音频的真实重读特征。当然，还可采用其他工具，对于提取重读值的具体实现方式和具体的开源工具，本公开实施例不作限制。
80.步骤a4中，输入线性谱经后验编码器得到声学隐状态，声学隐状态切片送入解码器，经过解码器处理得到第二文本的合成音频。
81.步骤a5之前或步骤a5之后还可以包括：第二文本的真实重音特征与第二文本的文本编码状态经过语音合成模型中合成模块的相加处理后与经语音合成模型中flow处理的声学隐状态进行单调对齐搜索(monotonic alignment search，mas)得到每帧文本的时长信息，在迭代训练过程中可以基于每帧文本的时长信息通过动态规划(dp)算法做优化计算出文本和序列的最优对齐矩阵，该最优对齐矩阵可用于基于语音合成模型执行重音可控语音合成方法中文本和序列的对齐。
82.一些实施方式中，步骤a5中，可以使用开源的montreal forced aligner工具对音频和文本进行强制对齐以获得时长对齐信息。当然，还可采用其他工具，对于强制对齐的方式及工具，本公开实施例不作限制。
83.一些实施方式中，步骤a5中，第一损失可以根据均方差损失函数计算得到。第二损失可以采用类似于vits损失的计算方式来得到。对于第一损失与第二损失的具体计算方式，本公开实施例不作限制。
84.本公开实施例的重读可控语音合成方法，能够在语音合成中对重读韵律进行建模，可以对第一文本进行细粒度的重读控制，还可支持语音合成重读的灵活显示控制，在不降低合成语音质量的前提下提高了语音合成的韵律和表现力。
85.本公开实施例的语音合成模型，采用例如wavelet prosody toolkit等开源的重读标注工具来实现语音合成模型的训练，操作性强，无需对语音合成模型的训练文本进行人工韵律标注，也无需单独训练重读模型，能够在保证模型性能的前提下有效降低语音合成模型的复杂度和减少语音合成模型训练所需的数据量，从而降低模型成本。
86.图4是本公开的一个实施方式的采用处理系统的硬件实现方式的重音可控语音合成装置的结构示意框图。
87.该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
88.该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线500将包括一个或多个处理器600、存储器700和/或硬件模块的各种电路连接到一起。总线500还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路800连接。
89.总线500可以是工业标准体系结构(isa，industry standard architecture)总线、外部设备互连(pci，peripheral component)总线或扩展工业标准体系结构(eisa，extended industry standard component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。
90.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。
91.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。
92.就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式只读存储器(cdrom)。另
外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。
93.应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
94.本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。
95.此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。
96.图4是根据本公开的一个实施方式的重读可控语音合成装置400的一种结构示意图。如图4所示，根据本公开实施例的重读可控语音合成装置400可以包括：
97.文本获取单元402，用于获取用户提供的第一文本；
98.文本编码单元404，用于通过语音合成模型中的文本编码器获取第一文本的文本编码状态；
99.重读特征获取单元406，用于获取重读特征，重读特征包括第一重读特征和/或第二重读特征，第一重读特征由用户设置，第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到；
100.合成音频单元408，用于至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。
101.本公开实施例的重读可控语音合成装置400的其他技术细节可参见前文方法部分，此处不再赘述。
102.本公开还提供了一种电子设备，包括：存储器，存储器存储执行指令；以及处理器或其他硬件模块，处理器或其他硬件模块执行存储器存储的执行指令，使得处理器或其他硬件模块执行上述的重读可控语音合成方法。
103.本公开还提供了一种可读存储介质，可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的重读可控语音合成方法。
104.在本说明书的描述中，参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式/方式或示例中。在本说明书中，对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结
合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
105.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
106.本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

技术特征：
1.一种重读可控语音合成方法，其特征在于，包括：获取用户提供的第一文本；通过语音合成模型中的文本编码器获取第一文本的文本编码状态；获取重读特征，所述重读特征包括第一重读特征和/或第二重读特征，所述第一重读特征由用户设置，所述第二重读特征通过所述语音合成模型中的重音预测器基于所述第一文本的文本编码状态得到；至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频。2.根据权利要求1所述的重读可控语音合成方法，其特征在于，所述第一重读特征通过如下方式之一得到：根据第一用户提供的重读标识信息生成所述第一重读特征，所述重读标识信息指示用户指定的重读音素的位置及其重读程度；从用户提供的参考音频提取得到所述第一重读特征。3.根据权利要求1所述的重读可控语音合成方法，其特征在于，所述至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频，包括：将所述重读特征与所述第一文本的文本编码状态相加以获得第一文本的重读文本编码状态；所述第一文本的重读文本编码状态依次经所述语音合成模型的时长预测器和流模块处理得到第一文本的声学序列特征；通过所述解码器对所述第一文本的声学序列特征处理得到所述第一文本的合成音频。4.根据权利要求1所述的重读可控语音合成方法，其特征在于，所述语音合成模型通过如下步骤训练得到：获取第二文本及其原始音频；利用第二文本的原始音频获取第二文本的真实重音特征；利用所述第二文本经所述语音合成模型中的文本编码器和重音预测器处理得到所述第二文本的文本编码状态和第二重读特征；利用语音合成模型的解码器基于来自输入线性谱的声学隐状态得到第二文本的合成音频；根据第二文本的第二重读特征和真实重读特征得到第一损失，根据第二文本的合成音频和原始音频得到第二损失，并根据第一损失和第二损失调整所述语音合成模型的参数。5.根据权利要求4所述的重读可控语音合成方法，其特征在于，所述第一损失根据均方差损失函数计算得到。6.根据权利要求4所述的重读可控语音合成方法，其特征在于，所述利用第二文本的原始音频获取第二文本的真实重音特征，包括：对所述第二文本和所述原始音频进行强制对齐以获得时长对齐信息；通过时长对齐信息和所述第二文本的原始音频提取所述原始音频中的重音值以形成所述真实重音特征。7.根据权利要求4所述的重读可控语音合成方法，其特征在于，所述语音合成模型的训
练步骤还包括：所述第二文本的真实重音特征与所述第二文本的文本编码状态经语音合成模型中合成模块的相加处理后与经语音合成模型中流模块处理的声学隐状态进行单调对齐搜索得到每帧文本的时长信息。8.一种重读可控语音合成装置，其特征在于，包括：文本获取单元，用于获取用户提供的第一文本；文本编码单元，用于通过语音合成模型中的文本编码器获取第一文本的文本编码状态；重读特征获取单元，用于获取重读特征，所述重读特征包括第一重读特征和/或第二重读特征，所述第一重读特征由用户设置，所述第二重读特征通过所述语音合成模型中的重音预测器基于所述第一文本的文本编码状态得到；合成音频单元，用于至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频。9.一种电子设备，其特征在于，包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行权利要求1至7中任一项所述的重读可控语音合成方法。10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的重读可控语音合成方法。

技术总结
本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。本公开实施例的重读可控语音合成方法包括：获取用户提供的第一文本；通过语音合成模型中的文本编码器获取第一文本的文本编码状态；获取重读特征，重读特征包括第一重读特征和/或第二重读特征，第一重读特征由用户设置，第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到；至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。本公开实施例能够在不降低语音合成质量的前提下实现语音合成的重读可控。可控。可控。

技术研发人员：史文婧江明奇陈云琳
受保护的技术使用者：上海墨百意信息科技有限公司
技术研发日：2023.07.31
技术公布日：2023/10/11

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种电子作战任务执行方法、主无人艇、介质及电子设备与流程 下一篇：一种环保防霉纸及其制造设备的制作方法

重读可控语音合成方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

重读可控语音合成方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表