歌唱合成数据的标注方法、装置、计算机设备及存储介质与流程

未命名 10-08 阅读：140 评论：0

1.本公开涉及计算机处理领域，具体涉及歌唱合成数据的标注方法、装置、计算机设备及存储介质。

背景技术：

2.歌唱合成(singing voice synthesis，svs)是根据歌词和乐谱信息合成歌唱。在歌唱合成技术中，基于深度学习的歌唱语音合成方法是目前歌唱合成的主流方法，该方法使用深度神经网络替换了决策树聚类上下文相关的马尔科夫模型。由于该方法的合成歌声质量取决于训练数据，歌声合成数据的标注质量和效率成为歌声制作的瓶颈之一。由于歌唱合成数据的标注包括音乐和语音学信息，分别需要音乐背景和语言学背景的人员标注，流程复杂且校对困难，从而导致歌唱合成数据的标注效率较低。

技术实现要素：

3.有鉴于此，本公开提供了一种歌唱合成数据的标注方法、装置、计算机设备及存储介质，以解决标注效率较低的问题。
4.第一方面，本公开提供了一种歌唱合成数据的标注方法，所述方法包括：
5.获取样本音频以及所述样本音频的歌词文本内容，所述歌词文本内容是通过预设插件标注得到的；
6.基于所述样本音频的时间信息，在同一界面显示所述歌词文本内容以及所述样本音频；
7.基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，所述语音边界是通过所述预设插件标注得到的，所述音乐信息通过数字音频工作站得到的。
8.第二方面，本公开提供了一种歌唱合成数据的标注装置，所述装置包括：
9.第一获取模块，用于获取样本音频以及所述样本音频的歌词文本内容，所述歌词文本内容是通过预设插件标注得到的；
10.显示模块，用于基于所述样本音频的时间信息，在同一界面显示所述歌词文本内容以及所述样本音频；
11.第二获取模块，用于基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，所述语音边界是通过所述预设插件标注得到的，所述音乐信息通过数字音频工作站得到的。
12.第三方面，本公开提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的歌唱合成数据的标注方法。
13.第四方面，本公开提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的
歌唱合成数据的标注方法。
14.本公开实施例提供的歌唱合成数据的标注方法，利用样本音频的时间信息将样本音频与语音内容进行对齐，同时结合时间信息以及预设插件，在同一界面上显示歌词文本内容以及样本音频，去除了重复标注歌词的环节，实现音乐与语音标注的整合，提高了歌唱合成数据的标注效率。
附图说明
15.为了更清楚地说明本公开具体实施方式或相关技术中的技术方案，下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1是相关技术中歌唱合成数据的标注示意图；
17.图2是根据本公开实施例的一个歌唱合成数据的标注方法的流程示意图；
18.图3是根据本公开实施例的又一歌唱合成数据的标注方法的流程示意图；
19.图4是根据本公开实施例的再一歌唱合成数据的标注方法的流程示意图；
20.图5是根据本公开实施例的歌唱合成数据的标注示意图；
21.图6是根据本公开实施例的歌唱合成数据的标注装置的结构框图；
22.图7是本公开实施例的计算机设备的硬件结构示意图。
具体实施方式
23.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
24.歌唱合成数据的标注信息分为音乐信息与语音信息，其中，音乐信息需要标注旋律、节奏和歌词，以产出乐谱文件，例如musicxml文件。语音信息需标注演唱内容与语音边界信息，一般包括句子、字、音节、音素四层信息，以产出语言文件，例如textgrid文件。
25.在相关技术中，如图1所示，歌唱合成数据的标注包括4个步骤，即语音信息标注，音乐信息标注，标注对齐以及标注数据清洗处理。具体地，语音信息标注包括内容标注与边界标注，内容标注包括文本标注、断句切分、音素精标三个步骤，准确标注实际演唱内容；边界标注用于对语音边界进行划分，也称为音素切分，准确标注实际演唱内容的时长信息。音乐信息标注包括乐器数字接口(musical instrument digital interface，简称midi)标注以及歌词标注，midi标注是用于标注实际演唱内容的音高以及节奏信息，歌词标注是用于标注实际演唱内容，仅到音节级别。标注对齐包括算法人员对齐musicxml文件与textgrid文件中共有的歌词信息跑出错误日志，以及音乐标注人员根据错误日志，对报出的地方进行人工判断与修改，保证两个文件共有信息完全一致。标注数据清洗处理是指算法人员从musicxml文件与textgrid文件分别提取音乐与语音的标注信息，整合成用于训练歌唱合成数据的标注文件。
26.在上述技术方案中，由于音乐信息和语音信息在标注阶段没有整合，导致音乐和
语音两批标注人员对彼此的标注内容不了解，标注错误率较高。为了实现音乐、语音标注信息的对齐，两方面人员均需标注歌词信息，造成工作量增加。在标注文件对齐阶段，标注人员需要打开两个软件，分别定位到错误乐句进行信息修改，这个阶段需要耗费大量人力，导致标注效率较低。
27.基于此，本公开实施例提供的歌唱合成数据的标注方法，通过预设插件与数字音频工作站(daw)的配合，在标注阶段实现音乐信息与语音信息的整合，且音乐信息与语音信息(包括歌词文本内容以及语音边界)使用绝对时间进行对齐，从而无需进行两次歌词信息的标注，提高标注效率以及准确性。其中，数字音频工作站是用来录音、混音的音频处理软件。它基于计算机的数据处理能力，把计算机硬盘作为主要存储单元，使用音频卡或数字信号处理器，在软件的支持下，实现录音、编辑、播放、混音、压缩及音频信号可视化等功能。
28.根据本公开实施例，提供了一种歌唱合成数据的标注方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
29.在本实施例中提供了一种歌唱合成数据的标注方法，可用于上述的计算机设备，如电脑、移动终端等，图2是根据本公开实施例的歌唱合成数据的标注方法的流程图，如图2所示，该流程包括如下步骤：
30.步骤s201，获取样本音频以及样本音频的歌词文本内容。
31.其中，所述歌词文本内容是通过预设插件进行预标注得到的。
32.样本音频为歌唱的原始清唱录音样本，歌声单独一个音轨，仅收集干声得到样本音频。歌手在录音时，提供辅助音频以保证发音稳定性和调准。歌声录制的歌曲可以依据如下规则进行选取：不选择歌曲中存在非中文字符的歌曲，计算剩余歌曲的每分钟节拍，优先选择节拍相对较低的歌曲，保证所选歌曲的音素和音素组合覆盖率。需要说明的是，上述仅仅是获取样本音频的一种方式，并不限定本公开的保护范围，具体获取方式是根据实际需求设置的，在此对其并不做任何限定。
33.样本音频的歌词文本内容是通过预设插件进行预标注得到的，歌词文本内容的标注包括文本标注，断句切分以及音素精标。
34.文本标注是对样本音频的歌词进行填充与校正，在一些可选的实施方式中，将歌词文本填入对应的间隔中，每个间隔对应一句完整唱词，每句时长不超过15秒。若样本音频的演唱内容与歌词内容不一致，以实际演唱内容进行文本校正，不得有错字、漏字、多字的错误，通过文本正则化，并在语法断句的地方添加标点符号。
35.断句切分是对样本音频的歌词进行断句切分，包括断句标注以及文件切割。断句标注时每句前后需保留静音段，例如，150ms～300ms，若句子前后静音段过长，则需要切出空的间隔。有效音素必须切分完整，不能将间隔边界置于音素中间，吸气音应完整放到前一句的末尾，句子开头不能有吸气音。文件切割是使用脚本，根据标注的间隔对音频和断句标注的结果进行文件切割，将完整的歌曲拆分成若干短句。
36.音素精标是对音库的语音标注文件进行文本、拼音、休止停顿的检查。音素精标包括音素转写、音素检查以及添加休止停顿。音素转写是使用前端词典，对文本进行音素转写，生成含有三层信息的文件。三层信息包括句子层、文字层以及音素转写层。音素检查是
检查音素与文本信息是否与实际演唱内容对应，并根据实际演唱内容进行修正。在语音标注中，休止停顿使用预设字符表示，例如，使用sil表示长停顿，只在句首句尾出现，使用rest表示短停顿，可对应音乐标注中的休止符。若句间有吸气音，则必须标注rest。句中若有明显停顿，也需标注rest。
37.预设插件是用于实现标注功能，能够在插件层面保存用户标注的内容与时间边界值并展示在界面上，同时支持与外设动作的交互。其中，外设的动作包括但不限于鼠标拖拽，点击以及键盘快捷键等等。
38.作为预设插件的一种可选的实现方式，预设插件借助juce框架，以label类组件作为存储每段标注信息的基本结构，从而实现内容的标注保存与修改，同时继承mouselister类监听鼠标动作，实现预设插件与频繁鼠标动作的交互。
39.步骤s202，基于样本音频的时间信息，在同一界面显示歌词文本内容以及样本音频。
40.样本音频的时间信息是指样本音频在播放时对应的时间，例如，一个样本音频的时长为2分钟，在在第一次播放到歌词“雨天”其对应的时间为25秒，这些时间即为样本音频的时间信息。
41.样本音频在显示时是以波形和频谱的形式展示的，基于此，将上述步骤s201得到的歌词文本内容与样本音频的波形和频谱一并显示在同一界面。在显示时将歌词文本内容与样本音频进行对齐显示的，以保证歌词文本内容与样本音频的同步。
42.步骤s203，基于界面的显示信息，获取包括样本音频的歌词文本内容、语音边界以及音乐信息的标注文件。
43.其中，所述语音边界是通过所述预设插件标注得到的，所述音乐信息通过数字音频工作站得到的。
44.在同一界面上显示歌词文本内容以及样本音频，从而保证语音信息和音乐信息的标注整合，且在同一绝对时间下进行标注。样本音频的歌词文本内容是在上述步骤s201中获得的，语音边界以及音乐信息是基于步骤s202中同一界面显示内容标注得到的。
45.通过在同一界面上分别通过预设插件以及数字音频工作站标注得到语音边界以及音乐信息，是在自动预标注的基础上，结合用户的标注交互确定出语音边界以及音乐信息。
46.本实施例提供的歌唱合成数据的标注方法，利用样本音频的时间信息将样本音频与语音内容进行对齐。同时，在同一界面上显示歌词文本内容以及样本音频，去除了重复标注歌词的环节，实现音乐与语音标注的整合，提高了歌唱合成数据的标注效率。
47.在本实施例中提供了一种歌唱合成数据的标注方法，可用于上述的计算机设备，如电脑、移动终端等，图3是根据本公开实施例的歌唱合成数据的标注方法的流程图，如图3所示，该流程包括如下步骤：
48.步骤s301，获取样本音频以及样本音频的歌词文本内容。
49.其中，所述歌词文本内容是通过预设插件标注得到的。详细请参见图2所示实施例的步骤s201，在此不再赘述。
50.步骤s302，基于样本音频的时间信息，在同一界面显示歌词文本内容以及样本音频。
51.具体地，上述步骤s302包括：
52.步骤s3021，在数字音频工作站的工程开头位置导入样本音频，并在样本音频的轨道上加载预设插件。
53.数字音频工作站是根据实际需求进行选择的，在此对其并不做任何限定。在数字音频工作站中导入样本音频，并在轨道上加载预设插件，以参考数字音频工作站中的频谱对音素进行切分。其中，对音素的切分可以是自动实现的，也可以是由用户切分交互实现。
54.步骤s3022，将歌词文本内容与样本音频进行对齐显示。
55.由于歌词文本内容是由预设插件标注得到的，样本音频是导入数字音频工作站后进行音乐信息的标注，这两者是通过不同的对象(即，预设插件以及数字音频工作站)得到的。具体是将杨音频导入到数字音频工作站的工程开头位置，确保音频在工作站内的起始时间为0：00，实现样本音频与歌词文本内容的对齐显示，在标注融合的情况下实现语音信息与音乐信息的标注。
56.步骤s303，基于界面的显示信息，获取包括样本音频的歌词文本内容、语音边界以及音乐信息的标注文件。
57.其中，所述语音边界是通过所述预设插件标注得到的，所述音乐信息通过数字音频工作站得到的。
58.在一些可选的实施方式中，上述步骤s303包括：
59.步骤a1，预设插件从数字音频工作站中读取播放时间。
60.步骤a2，预设插件基于播放时间将歌词文本内容、语音边界以及音乐信息进行对齐显示。
61.预设插件需要实现与数字音频工作站的走带同步，其不仅需要从数字音频工作站单向获取信息，还要能够像数字音频工作站主动传递信息。即，在预设插件上进行播放时间切换，时间区间选择，要能够同步反映到数字音频工作站的界面上，这也是预设插件能够整合音乐信息与语音信息标注流程，提升标注效率的关键所在。
62.在相关技术中，用于标注的插件是在实时信号块上运行的，这些信号块可以在每次渲染调用之间进行处理。这也意味着插件无法在正常的实时音频时间限制以外从数字音频工作站中读取音频样本，也就无法实现预设插件所需的同步功能。
63.预设插件是基于ara(audio random access)技术实现上述的同步功能，ara为已建立的插件标准的扩展，允许数字音频工作站和插件交换有关音频文件、速度、音高、节奏和其他许多信息的信息，从而更紧密地协同工作大幅改进数字音频工作站集成插件。它使的插件能够从数字音频工作站中读取音频样本，从而使它们能够实现更复杂的处理算法，这在之前绑定到单独的实时缓冲区是难以实现的。借助juce框架与ara，预设插件实现了从数字音频工作站中读取正常实时音频时间限制之外的音频采样，不受单个实时缓冲区的束缚，像采样编辑器一样操作，并与数字音频工作站实时同步播放时间点与选择区间，将音乐信息与语音信息对齐。
64.具体地，预设插件从数字音频工作站中读取样本音频的播放时间，利用该播放时间控制语音信息以及音乐信息的显示，从而实现语音信息以及音乐信息的对齐显示。
65.预设插件实现了从数字音频工作站中读取播放时间，该读取方式不受单个实时缓冲区的束缚，通过与数字音频工作站实时同步播放时间，将语音信息与音乐信息进行对齐。
66.其余详细请参见图2所示实施例的步骤s203，在此不再赘述。
67.本实施例提供的歌唱合成数据的标注方法，将预设插件与数字音频工作站结合，用于实现语言标注与音乐标注的整合，由于样本音频的时间为绝对时间，通过绝对时间实现语音信息与音乐信息的对齐，能够保证对齐的准确性。
68.在本实施例中提供了一种歌唱合成数据的标注方法，可用于上述的计算机设备，如电脑、移动终端等，图4是根据本公开实施例的歌唱合成数据的标注方法的流程图，如图4所示，该流程包括如下步骤：
69.步骤s401，获取样本音频以及样本音频的歌词文本内容。
70.其中，所述歌词文本内容是通过预设插件标注得到的。详细请参见图2所示实施例的步骤s201，在此不再赘述。
71.步骤s402，基于样本音频的时间信息，在同一界面显示歌词文本内容以及样本音频。详细请参见图3所示实施例的步骤s302，在此不再赘述。
72.步骤s403，基于界面的显示信息，获取包括样本音频的歌词文本内容、语音边界以及音乐信息的标注文件。
73.具体地，上述步骤s403包括：
74.步骤s4031，基于界面上显示的样本音频，获取对歌词文本内容进行音素边界的划分结果，得到语音边界。
75.其中，语音边界是基于预设插件的标注得到的。
76.语音边界是通过对歌词文本内容进行音素切分得到，例如，在界面上同时显示有样本音频的频谱以及歌词文本内容，依据预设切分规则，对歌词文本内容的音素边界进行划分后得到；或者，在界面上同时显示有样本音频的频谱，用户通过与该界面进行交互得到语音边界等等。
77.在一些可选的实施方式中，上述步骤s4031包括：
78.步骤b1，获取歌词文本内容的音素预标注。
79.步骤b2，基于界面上显示的样本音频的频谱，获取预设插件对音素预标注的调整结果，得到语音边界。
80.在歌唱合成领域，预标注技术能够自动标注韵律边界，为歌唱的各种语音特征提供初始标注。例如，利用样本数据训练预标注模型，以便为新数据提供韵律和边界预测。在得到歌词文本内容之后，利用训练得到的预标注模型对歌词文本内容的音素边界进行预测，得到音素预标注。
81.在得到音素预标注之后，标注人员再结合界面上显示的样本音频的频谱对音素预标注结果进行调整，从而得到准确的语音边界。
82.音素预标注的存在，为歌唱的各种语音特征提供初始标注，在此基础上进行调整后得到语音边界，不仅能大幅度降低标准成本，还能提高数据整体质量，从而帮助生成更高质量的合成歌声。
83.步骤s4032，显示语音边界，并获取对样本音频进行音乐信息的标注结果，得到音乐信息。
84.其中，所述音乐信息是通过数字音频工作站的标注得到的。
85.得到语音边界之后，将其也显示在界面上，以便标注实际演唱的音乐信息。具体
地，通过界面上显示的语音边界，用户利用数字音频工作站实现帧级别的准确标注。只有在音高信息的韵母上进行标注，塞擦音等无音高信息的声母不标注音高。经过该标注得到音乐信息。
86.在一些可选的实施方式中，音乐信息可以是先利用训练得到的标注模型，对音乐信息进行预标注，并将预标注的音乐信息在界面上进行显示。用户结合界面上显示的语音边界以及预标注的音乐信息，利用数字音频工作站对预标注的音乐信息进行调整，得到准确的音乐信息。
87.步骤s4033，将音乐信息导入预设插件中。
88.步骤s4034，利用预设插件将音乐信息中各个标注单元的音符进行转换，得到样本音频的音高信息。
89.在标注文件中还包括有音高层信息，音高层信息是通过预设插件得到的。具体地，将数字音频工作站输出的音乐信息导入到预设插件中，得到音高层信息。
90.数字音频工作站输出的音乐信息包括多个标注单元，每个标注单元包括起始时间、结束时间以及标注单元的音符。由于数字音频工作站输出的文件格式固定，为了得到音高层信息需要对标注单元中的音符进行转换，最终得到音高层信息。利用预设插件在标注文件内生成音高信息，进一步丰富了所得到的标注文件的内容。
91.在一些可选的实施方式中，上述步骤s4034包括：
92.步骤c1，获取包含歌词文本内容、语音边界以及音乐信息的初始标注文件以及各个标注单元的时间段。
93.步骤c2，在初始标注文件中新增空白层，并将时间段映射至空白层。
94.步骤c3，将各个标注单元中音符的音高转换为乐器数字接口编码。
95.步骤c4，将乐器数字接口编码填充到空白层的对应时间单元中，其中，不连续的时间区间使用预设符号填充，得到样本音频的音高信息。
96.初始标注文件中的音乐信息是数字音频工作站的输出的，在音乐信息中包括多个标注单元，每个标注单元均对应有起止时间，相应地，每个标注单元具有对应的时间段。
97.在初始标注文件内增加一层空白层，将标注单元中音符(即，note)的音高转换为乐器数字接口(即，midi)编码并填充对应的时间单元中，其中，不连续的时间区间内使用"rest"符号填充，由此在textgrid内生成音高层信息。
98.由于数字音频工作站输出的midi文件格式固定，每个midi标注单元包含起始时间、结束时间以及音符信息，通过初始空白文件中新增空白层，将midi标注单元中音符的音高转换为midi编码，并将其填充至空白层对应的时间单元中，从而在初始标注文件中生成音高信息，产出含有音高信息的标注文件。
99.步骤s4035，输出包括歌词文本内容、语音边界以及音乐信息的标注文件。
100.经过上述的标注处理，得到样本音频的歌词文本内容、语音边界以及音乐信息，这些信息存在与同一标注文件，通过输出该标注文件即可用于后续训练歌唱合成模型。
101.本实施例提供的歌唱合成数据的标注方法，在得到语音边界的基础上，对音乐信息进行标注，从而能够得到准确表征实际演唱的音乐。
102.作为本公开实施例的一个具体应用实例，如图5所示，在电脑上进行歌唱合成数据的标注。首先获取到样本音频，对其进行音高校正后，利用预设插件对于歌词文本内容进行
标注，包括句子、字、音节以及音素。其次，依据样本音频的时间信息，将歌词文本内容与样本音频在同一界面上进行对齐显示，用户通过与该界面交互，在标注融合的基础上利用预设插件实现语音边界以及利用数字音频工作站实现音乐信息的标注。进一步地，将数字音频工作站得到的音乐信息导入预设插件中输出音高信息。基于此，能够输出包括歌词文本内容，语音边界，音乐信息以及音高信息的标注文件。该标注文件可以用于后续歌唱合成模型的训练。
103.在本实施例中还提供了一种歌唱合成数据的标注装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
104.本实施例提供一种歌唱合成数据的标注装置，如图6所示，包括：
105.第一获取模块601，用于获取样本音频以及样本音频的歌词文本内容，歌词文本内容是通过预设插件标注得到的。
106.显示模块602，用于基于样本音频的时间信息，在同一界面显示歌词文本内容以及样本音频。
107.第二获取模块603，用于基于界面的显示信息，获取包括样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，语音边界是通过预设插件标注得到的，音乐信息是通过数字音频工作站得到的。
108.在一些可选的实施方式中，显示模块602包括：
109.音频导入单元，用于在所述数字音频工作站的工程开头位置导入所述样本音频，并在所述样本音频的轨道上加载所述预设插件；
110.对齐显示单元，用于基于所述样本音频的时间信息，将所述歌词文本内容与所述样本音频进行对齐显示。
111.在一些可选的实施方式中，第二获取模块603包括：
112.读取单元，用于所述预设插件从所述数字音频工作站中读取播放时间；
113.对齐单元，用于所述预设插件基于所述播放时间将所述歌词文本内容与所述样本音频进行对齐显示。
114.在一些可选的实施方式中，第二获取模块603包括：
115.边界获取单元，用于基于所述界面上显示的样本音频，获取所述预设插件对所述歌词文本内容进行音素边界的划分结果，得到所述语音边界；
116.边界显示单元，用于显示所述语音边界，并获取所述数字音频工作站对所述样本音频进行音乐信息的标注结果，得到所述音乐信息；
117.输出单元，用于输出包括所述歌词文本内容、所述语音边界以及所述音乐信息的标注文件。
118.在一些可选的实施方式中，第二获取模块603包括：
119.预标注获取单元，用于获取所述歌词文本内容的音素预标注；
120.调整单元，用于基于所述界面上显示的样本音频的频谱，获取所述预设插件对所述音素预标注的调整结果，得到所述语音边界。
121.在一些可选的实施方式中，第二获取模块603还包括：
122.音乐信息导入单元，用于将所述音乐信息导入所述预设插件中；
123.转换单元，用于利用所述预设插件将所述音乐信息中各个标注单元的音符的音高进行转换，得到所述样本音频的音高信息，所述标注文件中包括所述音高信息。
124.在一些可选的实施方式中，转换单元包括：
125.获取子单元，用于获取包含所述歌词文本内容、所述语音边界以及所述音乐信息的初始标注文件以及各个所述标注单元的时间段；
126.映射子单元，用于在所述初始标注文件中新增空白层，并将所述时间段映射至所述空白层；
127.转换子单元，用于将各个标注单元中音符的音高转换为乐器数据接口编码；
128.填充子单元，用于将乐器数据接口编码填充到所述空白层的对应时间单元中，其中，不连续的时间区间使用预设符号填充，得到所述样本音频的音高信息。
129.本实施例中的歌唱合成数据的标注装置是以功能单元的形式来呈现，这里的单元是指asic电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。
130.上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。
131.本公开实施例还提供一种计算机设备，具有上述图7所示的歌唱合成数据的标注装置。
132.请参阅图7，图7是本公开可选实施例提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。
133.处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。
134.其中，所述存储器20存储有可由至少一个处理器10执行的指令，以使所述至少一个处理器10执行实现上述实施例示出的方法。
135.存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
136.存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。
137.该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图7中以通过总线连接为例。
138.输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。
139.本公开实施例还提供了一种计算机可读存储介质，上述根据本公开实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。
140.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法实施例而言，由于其基本相似于设备及系统实施例，所以描述的比较简单，相关之处参见设备及系统实施例的部分说明即可。
141.可以理解的是，在本公开的具体实施方式中，涉及到音频等相关的数据，当本公开以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
142.虽然结合附图描述了本公开的实施例，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

技术特征：
1.一种歌唱合成数据的标注方法，其特征在于，所述方法包括：获取样本音频以及所述样本音频的歌词文本内容，所述歌词文本内容是通过预设插件进行预标注得到的；基于所述样本音频的时间信息，在同一界面显示所述歌词文本内容以及所述样本音频；基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，所述语音边界是通过所述预设插件标注得到的，所述音乐信息通过数字音频工作站得到的。2.根据权利要求1所述的方法，其特征在于，所述基于所述样本音频的时间信息，在同一界面显示所述歌词文本内容以及所述样本音频，包括：在所述数字音频工作站的工程开头位置导入所述样本音频，并在所述样本音频的轨道上加载所述预设插件；将所述歌词文本内容与所述样本音频进行对齐显示。3.根据权利要求1所述的方法，其特征在于，所述基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，包括：所述预设插件从所述数字音频工作站中读取播放时间；所述预设插件基于所述播放时间将所述歌词文本内容、语音边界以及所述音乐信息进行对齐显示。4.根据权利要求1所述的方法，其特征在于，所述基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，包括：基于所述界面上显示的样本音频，获取所述预设插件对所述歌词文本内容进行音素边界的划分结果，得到所述语音边界；显示所述语音边界，并获取所述数字音频工作站对所述样本音频进行音乐信息的标注结果，得到所述音乐信息；输出包括所述歌词文本内容、所述语音边界以及所述音乐信息的标注文件。5.根据权利要求4所述的方法，其特征在于，所述基于所述界面上显示的样本音频，获取所述预设插件对所述歌词文本内容进行音素边界的划分结果，得到所述语音边界，包括：获取所述歌词文本内容的音素预标注；基于所述界面上显示的样本音频的频谱，获取所述预设插件对所述音素预标注的调整结果，得到所述语音边界。6.根据权利要求1所述的方法，其特征在于，所述基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件还包括：将所述音乐信息导入所述预设插件中；利用所述预设插件将所述音乐信息中各个标注单元的音符的音高进行转换，得到所述样本音频的音高信息，所述标注文件中包括所述音高信息。7.根据权利要求6所述的方法，其特征在于，所述利用所述预设插件将所述音乐信息中各个标注单元的音符的音高进行转换，得到所述样本音频的音高信息，包括：获取包含所述歌词文本内容、所述语音边界以及所述音乐信息的初始标注文件以及各个所述标注单元的时间段；
在所述初始标注文件中新增空白层，并将所述时间段映射至所述空白层；将各个标注单元中音符的音高转换为乐器数字接口编码；将乐器数字接口编码填充到所述空白层的对应时间单元中，其中，不连续的时间区间使用预设符号填充，得到所述样本音频的音高信息。8.一种歌唱合成数据的标注装置，其特征在于，所述装置包括：第一获取模块，用于获取样本音频以及所述样本音频的歌词文本内容，所述歌词文本内容是通过预设插件进行预标注得到的；显示模块，用于基于所述样本音频的时间信息，在同一界面显示所述歌词文本内容以及所述样本音频；第二获取模块，用于基于所述界面的显示信息，获取包括所述样本音频的歌词文本内容、语音边界以及音乐信息的标注文件，所述语音边界是通过所述预设插件标注得到的，所述音乐信息通过数字音频工作站得到的。9.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的歌唱合成数据的标注方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的歌唱合成数据的标注方法。

技术总结
本公开涉及计算机处理技术领域，公开了歌唱合成数据的标注方法、装置、计算机设备及存储介质，本公开提供的方法包括，获取样本音频以及样本音频的歌词文本内容，其中语音内容是通过预设插件预标注得到的；基于样本音频的时间信息，在同一界面显示语音内容以及样本音频；基于界面的显示信息，获取包括样本音频的语音内容、语音边界以及音乐信息的标注文件，语音边界是通过预设插件标注得到的，音乐信息是通过数字音频工作站得到的。利用样本音频的时间信息将样本音频与语音内容进行对齐，同时结合时间信息以及预设插件，在同一界面上显示语音内容以及样本音频，去除了重复标注歌词的环节，提高了歌唱合成数据的标注效率。提高了歌唱合成数据的标注效率。提高了歌唱合成数据的标注效率。

技术研发人员：宋世奇朱清琳曹荣田煦春涂欣宇马泽君
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：2023.05.16
技术公布日：2023/10/6

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：多域纯IPv6网络中业务流量的交互方法、装置、设备和介质与流程 下一篇：一种基于老化模型的抗故障注入传感器设计方法

歌唱合成数据的标注方法、装置、计算机设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

歌唱合成数据的标注方法、装置、计算机设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表