语音标签样本生成方法、装置、设备和存储介质与流程

未命名 10-09 阅读：96 评论：0

1.本发明涉及人工智能及数字医疗技术领域，尤其涉及语音标签样本生成方法、装置、设备和存储介质。

背景技术：

2.语音是实现人机交互的重要媒介，近些年来，需要对语音进行情感识别来提高人机交互质量，例如智能语音客服随时掌握客户的情绪，有助于更好的推进沟通；家用机器人可以根据主人的情感动向，实时提供情绪价值等。或者在医疗领域，通过对患者语音的情感进行自动识别可以支持疾病辅助诊断、健康管理、远程会诊等功能。
3.相关技术中，训练语音合成模型使用到的语音样本中包含情感信息，需要大量的标注情感信息的语音数据作为训练样本。一些技术中，利用人工对语音数据标注情感信息，这种方式收集成本较高，实际得到训练样本量不足，导致语音情感识别模型出现过拟合。因此一些技术中，将语音数据划分得到多个小片段，将每个小片段作为一个训练样本，小片段的情感信息继承整句的情感信息。但是由于一句话中的情感信息不是恒定不变的，这种方式得到的语音样本的情感信息并不准确。因此，如何准确生成语音样本的参考标签并扩充语音样本，提升语音情感识别准确性，成为了亟待解决的技术问题。

技术实现要素：

4.本技术实施例的主要目的在于提出语音标签样本生成方法、装置、设备和存储介质，准确生成语音样本的参考标签扩充语音样本，以提升语音情感识别准确性。
5.为实现上述目的，本技术实施例的第一方面提出了一种语音标签样本生成方法，所述语音标签标注模型包括：标签预测子模型和标签修正子模型，所述方法包括：
6.对获取的音频样本进行分段，得到多个分段音频；
7.利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签；
8.利用所述标签修正子模型根据预设类别集合和预设特征数量序列选取每个语音类别的参考音频；所述预设类别集合包括多个语音类别，每个所述语音类别包括多个参考音频，每个所述参考音频包括参考标签；
9.利用所述标签修正子模型选取每个语音类别的参考音频，每个所述参考音频包括参考标签；
10.利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度；
11.根据所述标签相似度对所述分段音频进行相似度选取，得到所述分段音频的修正标签；
12.获取目标音频，将所述目标音频输入至调整参数后的所述语音标签标注模型，得到所述目标音频的多个目标分段音频样本。
13.在一实施例中，所述利用所述标签修正子模型选取每个语音类别的参考音频，包括：
14.获取预设类别集合；所述预设类别集合包括多个语音类别的音频子集，每个所述语音类别包括多个参考音频；
15.基于预设特征数量序列得到每个所述语音类别的特征数量；
16.在每个所述语音类别的音频子集中选取所述特征数量的参考音频，构成音频集合。
17.在一实施例中，所述标签修正子模型包括第一特征提取器，所述利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签之前，包括：
18.获取所述音频集合；
19.利用所述第一特征提取器对所述音频集合中每个所述参考音频进行特征提取，得到所述音频集合中所述参考音频的第一特征向量。
20.在一实施例中，所述标签预测子模型包括第二特征提取器，所述利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签，包括：
21.利用所述第二特征提取器对所述分段音频进行特征提取，得到所述分段音频的第二特征向量；
22.对所述第二特征向量进行类别识别，得到所述预测标签。
23.在一实施例中，所述利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度，包括：
24.获取所述分段音频的所述第二特征向量；
25.计算所述第二特征向量和每个所述第一特征向量的所述标签相似度。
26.在一实施例中，利用所述标签修正子模型根据所述标签相似度对所述分段音频进行相似度选取，得到所述分段音频的修正标签，包括：
27.基于预设选取原则根据所述标签相似度选取预设相似度；
28.选取所述预设相似度的所述第一特征向量作为目标特征向量；
29.选取所述目标特征向量的所述参考音频作为相似音频；
30.将所述相似音频的参考标签作为所述分段音频的修正标签。
31.在一实施例中，所述对获取的音频样本进行分段，得到多个分段音频，包括：
32.获取音频样本；
33.按照预设分段数量和预设分段长度对所述音频样本进行分段，得到对应于所述预设分段数量的所述分段音频。
34.为实现上述目的，本技术实施例的第二方面提出了一种语音标签样本生成装置，所述语音标签标注模型包括：标签预测子模型和标签修正子模型，所述装置包括：
35.音频分段单元，用于对获取的音频样本进行分段，得到多个分段音频；
36.标签预测单元，用于利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签；
37.参考音频选取单元，用于利用所述标签修正子模型根据预设类别集合和预设特征数量序列选取每个语音类别的参考音频；所述预设类别集合包括多个语音类别，每个所述语音类别包括多个参考音频，每个所述参考音频包括参考标签；
38.标签相似度计算单元，用于利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度；
39.标签修正单元，用于利用所述标签修正子模型根据所述标签相似度对所述分段音频进行相似度选取，得到所述分段音频的修正标签；
40.参数调整单元，用于根据所述预测标签和所述修正标签的标签损失值调整所述标签预测子模型和所述标签修正子模型的模型参数；
41.语音样本生成单元，用于获取目标音频，将所述目标音频输入至调整参数后的所述语音标签标注模型，得到所述目标音频的多个目标分段音频样本。
42.为实现上述目的，本技术实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
43.为实现上述目的，本技术实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。
44.本技术实施例提出的语音标签样本生成方法、装置、设备和存储介质，通过对获取的音频样本进行分段，得到多个分段音频，然后利用标签预测子模型对分段音频进行标签预测，得到预测标签，利用标签修正子模型选取每个语音类别的参考音频，然后计算每个分段音频和参考音频的标签相似度，根据标签相似度得到分段音频的修正标签，根据预测标签和修正标签调整语音标签标注模型的参数，并利用训练好的语音标签标注模型获取目标音频的多个目标分段音频样本。本技术实施例利用语音标签标注模型根据每个音频样本得到多个分段音频样本，每个分段音频样本有合适的参考标签，能够有效降低音频样本标注的难度和成本，由于每种语音类别均选取多个参考音频，使得分段音频样本的标签标注准确性更高，有效提高包含标签的语音样本的生成数量和质量，进而提升语音情感识别模型的预测准确度，并避免语音情感识别模型出现过拟合现象。
附图说明
45.图1是本发明实施例提供的语音标签样本生成方法的流程图。
46.图2是本发明实施例提供的语音标签样本生成方法的语音标签标注模型结构示意图。
47.图3是图1中的步骤s110的流程图。
48.图4是本发明实施例提供的语音标签样本生成方法的标签预测子模型结构示意图。
49.图5是图1中的步骤s120的流程图。
50.图6是图1中的步骤s130的流程图。
51.图7是本发明实施例提供的语音标签样本生成方法的标签修正子模型结构示意图。
52.图8是本发明又一实施例提供的语音标签样本生成方法的流程图。
53.图9是图1中的步骤s140的流程图。
54.图10是图1中的步骤s150的流程图。
55.图11是本发明又一实施例提供的语音标签样本生成方法的语音标签标注模型结构示意图。
56.图12是本发明又一实施例提供的语音标签样本生成装置结构框图。
57.图13是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
58.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
59.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。
60.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。
61.首先，对本发明中涉及的若干名词进行解析：
62.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
63.卷积神经网络(convolutional neural networks,cnn)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。一种常见的卷积神经网络结构是输入层-卷积层-池化层-全连接层-输出层。
64.深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。
65.梅尔谱(mel spectrogram)：即梅尔频谱，是通过对声学信号进行傅立叶变换以后，再经过梅尔尺度进行变换得到的频谱。声谱图往往是很大的一张图，为了得到合适大小的声音特征，可将把声谱图通过梅尔尺度滤波器组之后变换为梅尔频谱。在梅尔频域内，语音的梅尔频率和人对音调的感知能力之间呈线性关系，梅尔谱由梅尔频率倒谱和语谱图结合得到。
66.语音是实现人机交互的重要媒介，近些年来，需要对语音进行情感识别来提高人机交互质量，例如智能语音客服随时掌握客户的情绪，有助于更好的推进沟通；家用机器人可以根据主人的情感动向，实时提供情绪价值等。
67.申请人发现，相关技术的：训练语音合成模型使用到的语音样本中包含情感信息，需要大量的标注情感信息的语音数据作为训练样本。目前可供训练鲁棒的语音情感识别模型的公共数据集比较少，同时这些数据集都是以话语级来进行标注的。一些技术中，利用人工对语音数据标注情感信息，这种方式收集成本较高，实际得到训练样本量不足，导致语音情感识别模型出现过拟合。
68.因此一些技术中，针对训练数据集不够多的情况，采用计算机视觉领域的随机切割方法，将语音数据划分得到多个小片段，将每个小片段作为一个训练样本，用这些小片段作为训练的单元，这样可以数十倍地扩充原来的数据量，小片段的情感信息继承整句的情感信息。但是在一句话中情感信息并不是恒定不变的，不同时间帧对这句话的情感贡献值不同，这种方式得到的语音样本的情感信息并不准确，即扩充后的数据集中，有部分分段音频实际的情感分类和继承得到的整句的标签不一致，例如高兴的歌曲中间会有平淡的过度，而非全程都是高兴的情感。因此，如何准确生成语音样本的参考标签并扩充语音样本，提升语音情感识别准确性，成为了亟待解决的技术问题。
69.基于此，本发明实施例提供一种语音标签样本生成方法、装置、设备和存储介质，通过对获取的音频样本进行分段，得到多个分段音频，然后利用标签预测子模型对分段音频进行标签预测，得到预测标签，再基于预设类别集合和预设特征数量序列，利用标签修正子模型选取每个语音类别的参考音频，然后计算每个分段音频和参考音频的标签相似度，根据标签相似度得到分段音频的修正标签，根据预测标签和修正标签调整语音标签标注模型的参数，并利用训练好的语音标签标注模型获取目标音频的多个目标分段音频样本。
70.本技术实施例利用语音标签标注模型根据每个音频样本得到多个分段音频样本，每个分段音频样本有合适的参考标签，能够有效降低音频样本标注的难度和成本，由于每种语音类别均选取多个参考音频，使得分段音频样本的标签标注准确性更高，有效提高包含标签的语音样本的生成数量和质量，进而提升语音情感识别模型的预测准确度，并避免语音情感识别模型出现过拟合现象。
71.本发明实施例提供语音标签样本生成方法、装置、设备和存储介质，具体通过如下实施例进行说明，首先描述本发明实施例中的语音标签样本生成方法。
72.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
73.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
74.本发明实施例提供的语音标签样本生成方法，涉及人工智能技术领域，尤其涉及数据挖掘技术领域。本发明实施例提供的语音标签样本生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的计算机程序。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(native)应用程序(app，application)，即需要在操作系统中安装才能运行的程序，如支持语音标签样本生成的客户端，也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意app中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。其中，终端通过网络与服务器进行通信。该语音标签样本生成方法可以由终端或服务器执行，或由终端和服务器协同执行。
75.在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器；也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(p2p，peer to peer)网络，p2p协议是一个运行在传输控制协议(tcp，transmission control protocol)协议之上的应用层协议。服务器上可以安装语音标签样本生成系统的服务端，通过该服务端可以与终端进行交互，例如服务端上安装对应的软件，软件可以是实现语音标签样本生成方法的应用等，但并不局限于以上形式。终端与服务器之间可以通过蓝牙、usb(universal serial bus，通用串行总线)或者网络等通讯连接方式进行连接，本实施例在此不做限制。
76.本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
77.为了便于理解本技术实施例，下面首先结合具体应用场景的例子对样本标注和语音情感识别的概念进行简单介绍。
78.语音数据中包含情感信息，如在聊到某件事时，表达出与高兴相关的情感(高兴、平淡、悲伤)，如接收到别人道歉时，表达出与原谅相关的情感(原谅、不置可否、不原谅)等，都属于情感信息。语音情感识别就是将语音数据中的情感信息提取出来，将其按照预设的分类标准划分成不同的语音情感分类结果。预设的分类标准可以是高兴、悲伤、难过或愤怒等，可根据实际的使用场景设定不同的分类标准。
79.在一客服场景中：为了保证服务质量，需要有专门的客服质检员对服务记录进行抽查监听及评分，并形成质量报告反馈于业务人员和客服人员。其中，识别客服通话过程中的语音数据，识别客服和用户的情绪状态，能够有效监测服务质量情况。
80.输入：客服通话过程中的语音数据；
81.输出：语音数据对应的情感信息。
82.样本标注是在训练语音情感识别模型过程中为使用到的语音样本进行标签标注，例如[语音样本1，愤怒]、[语音样本2，平和]等，使用大量的标注样本进行训练，能够提升语音情感识别模型对输入语音的情感识别的准确性。
[0083]
下面描述本发明实施例中的语音标签样本生成方法。
[0084]
图1是本发明实施例提供的语音标签样本生成方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤s110至步骤s170。同时可以理解的是，本实施例对图1中步骤s110至步骤s170的顺序不做具体限定，可以根据实际需求调整步骤顺序或者减少、增加某些步骤。
[0085]
步骤s110：对获取的音频样本进行分段，得到多个分段音频。
[0086]
在一实施例中，音频样本包括语音内容和语音标签，这里的语音标签可以是语音情感标签。语音情感标签是根据预设分类标准将情感信息进行分类得到的。例如在聊到某件事时，表达出与高兴相关的情感(高兴、平淡、悲伤)，如接收到别人道歉时，表达出与原谅相关的情感(原谅、不置可否、不原谅)等，如情绪高涨时，表现出来的与激动相关的情感，些都属于情感信息。在一实施例中，预设分类标准可以是高兴、悲伤、难过或愤怒等。本实施例对预设分类标准不做具体限定，可根据实际的使用场景设定不同的分类标准，得到不同的语音情感标签。例如，在客服服务评价系统中，需要判断客服在服务过程中是否出现愤怒情绪，则可以将该需识别的情感类型设为愤怒。
[0087]
在一实施例中，语音内容是一种以波(wave)形式表示语音信号的波文件、以频率形式表示波文件的声谱图(spectrogram)或以梅尔频率倒谱系数(mel-frequency cepstral coefficient，mfcc)表示的文件，本实施例在此不对语音内容的表现形式做限制。该实施例中，语音内容可以从语音客户端提取，如在终端上获取用户通过音频输入设备(如麦克风)输入的一段音频作为语音内容，或者由汇总了多个语音内容的数据库中获得。例如，在客服服务系统中，通过获取客服与用户之间的通话内容，得到语音内容；或者在保险服务场景中，通过获取保险代理人与用户之间的通话内容，得到语音内容，本实施例对语音内容的获取方式不做具体限定。
[0088]
在一实施例中，参照图2，语音标签标注模型10包括：标签预测子模型100和标签修正子模型200。
[0089]
在一实施例中，参照图3，是一实施例示出的步骤s110的一种具体实现流程图，在本实施例中对获取的音频样本进行分段，得到多个分段音频的步骤s110，包括：
[0090]
步骤s111：获取音频样本。
[0091]
在一实施例中，音频样本中语音内容可以是一个整句，语音标签为整句的情感信息相关的标签。
[0092]
步骤s112：按照预设分段数量和预设分段长度对音频样本进行分段，得到对应于预设分段数量的分段音频。
[0093]
在一实施例中，为了得到的分段音频较为完整，不同音频样本的预设分段数量可以不同，不同的分段音频的预设分段长度也可以不同。
[0094]
在一实施例中，首先对语音内容进行语音识别，得到语音内容对应的识别文本，然后提取识别文本的分段特征，预先构建分段相关的模型，利用提取的分段特征以及预先构
建的模型，对语音内容对应的识别文本进行分段检测，以确定需要分段的位置，得到该语音内容的预设分段数量和每个分段音频对应的预设分段长度。按照预设分段数量和每个分段音频对应的预设分段长度对语音内容的语音帧进行分段，提升分段语音的完整性。可以理解的是，预设分段数量和每个分段音频对应的预设分段长度也可以根据实际应用得到先验值。本实施例对预设分段数量和每个分段音频对应的预设分段长度不做具体限定，根据实际需求即可。
[0095]
由上述可知，将音频样本通过分段的方式得到多个分段音频，极大的扩充了样本数量，避免样本训练时出现过拟合现象。
[0096]
步骤s120：利用标签预测子模型对分段音频进行标签预测，得到预测标签。
[0097]
在一实施例中，参照图4，标签预测子模型100的结构包括：第二特征提取器110、全连接层120和类别预测层130。其中，第二特征提取器110接收输入的分段音频，第二特征提取器110与全连接层120连接，全连接层120与类别预测层130连接，类别预测层130输出分段音频的预测标签。
[0098]
在一实施例中，参照图5，是一实施例示出的步骤s120的一种具体实现流程图，在本实施例中对获取的音频样本进行分段，得到多个分段音频的步骤s120，包括：
[0099]
步骤s121：利用第二特征提取器对分段音频进行特征提取，得到分段音频的第二特征向量。
[0100]
在一实施例中，特征提取过程提取的是高维的频域特征，频域特征提取通常被用来发现分段音频中的周期性特性，频域分析主要使用傅里叶变换计算，将原始信号转换为频域序列，序列中的值对应于时间区域中频率的能量值。其中，频域特征提取方式，包括梅尔频率倒谱系数、色度特征、短时平均过零率、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽和频谱多项式系数等。
[0101]
在一实施例中，第二特征提取器首先从分段音频中提取第一音频特征，第一音频特征为低层的音频特征。在一实施例中，第一音频特征可以包括：短时平均过零率、梅尔频率倒谱系数、频谱均方根值、频谱中心矩、频谱单调值、频谱带宽、频谱多项式系数等频谱相关的特征值，在此不作具体限制。
[0102]
在一实施例中，第二特征提取器为resnet网络，去掉最后一层全连接层。其中，第二特征提取器是一种基于深度学习的卷积神经网络。因此将上述第一音频特征与卷积核相乘，然后抽象波形序列，来学习分段音频的空间关系和时序关系，同时也对分段音频的第一音频特征进行数据降维。利用学习到的空间关系和时序关系构成分段音频的第二特征向量。可以理解的是，第二特征提取器包含多个卷积核，且卷积核的参数靠反向传播梯度下降自动学习得到。
[0103]
由上述可知，结合图4，第二特征提取器110能够提对分段音频进行特征提取，得到分段音频的第二特征向量。
[0104]
步骤s122：对第二特征向量进行类别识别，得到预测标签。
[0105]
在一实施例中，结合图4，第二特征向量输入至全连接层120进行全连接操作，全连接操作是将学到的第二特征向量表示映射到分段音频的分类空间，类别预测层130得到各分段音频对应的语音类别，也就是语音情感类别，将得到的语音类别作为预测标签。
[0106]
在一实施例中，全连接层120通过softmax函数将提取到的第二特征向量的各个特
征值映射到0到1的区间，得到映射值，输出值有非负性和归一性，也即概率分布，因此映射值可以理解成一种概率值，预测为每个语音类别的概率，其中最高值即为这个分段音频最终预测的语音类别。然后将映射值输入类别预测层130得到预测标签。
[0107]
在一应用实例中，例如语音类别包括正常和愤怒两类，音频样本分段后得到3个分段音频，分别是：分段音频1、分段音频2和分段音频3，每个分段音频的映射值分别如下表：
[0108][0109][0110]
由上式表可知，分段音频1的正常概率值大于愤怒概率值，因此分段音频1的预测标签为：正常；分段音频2的愤怒概率值大于正常概率值，因此分段音频1的预测标签为：愤怒；分段音频2的愤怒概率值大于正常概率值，因此分段音频1的预测标签为：愤怒。
[0111]
由上述可知，本技术实施例利用标签预测子模型对分段音频进行标签预测，得到预测标签。
[0112]
步骤s130：利用标签修正子模型选取每个语音类别的参考音频。
[0113]
在一实施例中，预设类别集合包括多个语音类别，每个语音类别包括多个参考音频，每个参考音频包括参考标签，即利用参考标签来表征该语音类别。
[0114]
在一实施例中，首先获取预设类别集合，预设类别集合是一种音频数据样本集，其中，音频数据样本集包括多个每种语音类别的参考音频。参考音频的类型可以包括：歌曲、说唱、聊天、催眠、乐曲、会话等类别。为了保证语音标签标注模型能够兼顾音频之间的关联性和差异性，这些参考音频的长度可以各不相同，并尽量确保每个参考音频的内容均不相同，通过收集这些参考音频组成预设类别集合。
[0115]
在一实施例中，每个语音类别中均包括多个参考音频，每个参考音频包括参考标签，即利用参考标签来表征该语音类别。
[0116]
在一实施例中，为了得到更多的参考音频，可以将参考音频作为原始音频对其进行扩充。具体地，扩充处理的方式包括以下方式中的一种或者多种组合：音频序列剪裁、音频序列重复、音频序列旋转、音频音调提高、音频音调降低、音频高斯噪声、音频数据压缩、音频数据扩展等，可以理解的是，扩充处理操作不会改变参考音频的情感信息。该实施例利用前述扩充处理方式对原始音频进行扩充，得到该原始音频对应的扩充样本。该实施例中，扩充样本的标签继承参考音频的标签。
[0117]
在一实施例中，参照图6，是一实施例示出的步骤s130的一种具体实现流程图，在本实施例中利用标签修正子模型选取每个语音类别的参考音频的步骤s130，包括：
[0118]
步骤s131：获取预设类别集合。
[0119]
在一实施例中，预设类别集合包括多个语音类别的音频子集，每个音频子集包括多个参考音频。
[0120]
步骤s132：基于预设特征数量序列得到每个语音类别的特征数量。
[0121]
在一实施例中，针对不同的语音类别，需要选取不同数量的参考音频，将每个语音类别的特征数量的集合称为预设特征数量序列。在一实施例中，利用随机方式，在每个语音
类别的音频子集中选取大于1个的参考音频，即每个语音类别的特征数量均大于1，这样做的目的是为了避免只选取一个作为参考音频时，误差可能会较大，选取多个参考音频能够进一步提升选取合理性，从而提升语音标签标注的准确率。
[0122]
步骤s133：在每个语音类别的音频子集中选取特征数量的参考音频，构成音频集合。
[0123]
在一实施例中，如上述可知，根据每个语音类别中的参考音频构建每个语音类别的音频子集，该音频子集中包括对应语音类别的所有参考语音，然后按照每个语音类别对应的特征数量，在每个音频子集中选取对应数量的参考音频，构成音频集合。可以理解的是该音频集合中包含每个语音类别下的多个参考音频。
[0124]
在一实施例中，参照图7，标签修正子模型200的结构包括：第一特征提取器210和相似度计算器220，第一特征提取器210的输出与相似度计算器220的输入连接。
[0125]
在一实施例中，步骤s130之后还包括对参考语音进行操作的步骤，在一实施例中，参照图8，是一实施例示出的上述步骤的一种具体实现流程图，在本实施例中对参考语音进行操作，包括：
[0126]
步骤s810：获取音频集合。
[0127]
步骤s820：利用第一特征提取器对音频集合中每个参考音频进行特征提取，得到音频集合中参考音频的第一特征向量。
[0128]
在一实施例中，参照图7，利用第一特征提取器210对音频集合中每个参考音频进行特征提取，得到每个参考音频的第一特征向量。
[0129]
在一实施例中，参照图4和图7，第一特征提取器210和第二特征提取器110的模型架构相同，模型参数相同，两者可以为同一个特征提取器。因此特征提取的过程见上述第二特征提取器的特征提取，目的是提取的分段音频和参考音频的特征是相关的，能够进行后续的比较。可以理解的是，两者的参数也可以根据实际需求进行微调，本实施例对此不做具体限定。
[0130]
由上述可知，第一特征提取器能够得到每个参考音频的第一特征向量。
[0131]
步骤s140：利用标签修正子模型计算分段音频和每个参考音频的标签相似度。
[0132]
在一实施例中，参照图7，标签修正子模型200利用相似度计算器220计算每个分段音频和参考音频之间两两的标签相似度。
[0133]
一实施例中，参照图9，是一实施例示出的步骤s140的一种具体实现流程图，在本实施例中利用标签修正子模型计算分段音频和每个参考音频的标签相似度的步骤s140，包括：
[0134]
步骤s141：获取分段音频的第二特征向量。
[0135]
在一实施例中，参照图7，结合步骤s121，可以利用第一特征提取器210对分段音频进行特征提取，得到分段音频的第二特征向量。
[0136]
步骤s142：计算第二特征向量和每个第一特征向量的标签相似度。
[0137]
在一实施例中，标签相似度为第二特征向量和第一特征向量之间的向量相似度值。在一实施例中，向量相似度值为余弦相似度值，具体是向量空间中两个向量夹角的余弦值，即利用余弦相似度计算方法计算得到向量相似度值，衡量两个向量之间的差异大小。
[0138]
标签相似度表示为：cos〈a，b〉＝(a，b)/|a||b|，其中，(，)表示内积，绝对值表示取
模运算。
[0139]
可以理解的是，可以利用其他表示两个向量相似度的方法进行比较，得到上述标签相似度，本技术实施例对标签相似度的具体计算方式不做限定。
[0140]
步骤s150：根据标签相似度对分段音频进行相似度选取，得到分段音频的修正标签。
[0141]
在一实施例中，预设相似度对应的参考语音的参考标签为分段音频的修正标签。
[0142]
一实施例中，参照图10，是一实施例示出的步骤s150的一种具体实现流程图，在本实施例中利用标签修正子模型根据标签相似度对分段音频进行相似度选取，得到分段音频的修正标签的步骤s150，包括：
[0143]
步骤s151：基于预设选取原则根据标签相似度选取预设相似度。
[0144]
在一实施例中，预设选取原则为最大值原则。可以理解的是，分段音频和每个参考标签得到的两两标签相似度的数量与参考标签的数量一致。因此该实施例的最大值原则指在所有的标签相似度中选取相似度值最大的作为预设相似度。
[0145]
步骤s152：选取预设相似度的第一特征向量作为目标特征向量。
[0146]
在一实施例中，将预设相似度对应的第一特征向量作为目标特征向量，该目标特征向量与分段音频的标签有关系。
[0147]
步骤s153：选取目标特征向量的参考音频作为相似音频。
[0148]
在一实施例中，将目标特征向量对应的参考音频作为相似音频。
[0149]
步骤s154：将相似音频的参考标签作为分段音频的修正标签。
[0150]
在一实施例中，将相似音频的参考标签作为对分段音频进行标签修正的到的修正标签。
[0151]
由上述可知，标签修正子模型在多个参考音频下得到最能表征分段音频语音类别的修正标签。
[0152]
步骤s160：根据预测标签和修正标签的标签损失值调整标签预测子模型和标签修正子模型的模型参数。
[0153]
在一实施例中，训练语音标签标注模型时：将预测标签和修正标签，进行比较计算得到标签损失值，这里的标签损失值可以是交叉熵损失值s，由修正标签y
′
和预测标签y分别和网络输出进行交叉熵损失，将两部分加权得到总损失，交叉熵损失值s表示为：
[0154]
s＝(1-α)y+αy
′
[0155]
其中，s表示交叉熵损失值，α表示超参数，y
′
表示预测标签，y表示修正标签。
[0156]
在一实施例中，根据上述得到的交叉熵损失值调整语音标签标注模型的参数，即调整标签预测子模型和标签修正子模型的模型参数，如果满足预设收敛条件，则语音标签样本生成完成。可以理解的是预设收敛条件可以是交叉熵损失值小于一个阈值或者达到预设的收敛次数，本实施例对预设收敛条件不做具体限定。
[0157]
步骤s170：获取目标音频，将目标音频输入至调整参数后的语音标签标注模型，得到目标音频的多个目标分段音频样本。
[0158]
在一实施例中，目标分段音频样本均包含对应的标签。
[0159]
在一实施例中，对于训练好的语音标签标注模型来说，预测标签和修正标签之间的相似度较高，因此预测标签也能非常好的表征分段音频的情感信息。可以理解的是，在应
用过程中比较预测标签和修正标签，如果两者存在较大差异，则需要重新训练语音标签标注模型的模型参数。
[0160]
由上述可知，本技术实施例通过对获取的音频样本进行分段，得到多个分段音频，然后利用标签预测子模型对分段音频进行标签预测，得到预测标签，再基于预设类别集合和预设特征数量序列，利用标签修正子模型选取每个语音类别的参考音频，然后计算每个分段音频和参考音频的标签相似度，根据标签相似度得到分段音频的修正标签，根据预测标签和修正标签调整语音标签标注模型的参数，并利用训练好的语音标签标注模型获取目标音频的多个目标分段音频样本。
[0161]
在一实施例中，参照图11，为本技术实施例中语音标签标注模型示意图，其中语音标签标注模型10包括：标签预测子模型100和标签修正子模型200，标签预测子模型100的结构包括：第二特征提取器110、全连接层120和类别预测层130，标签修正子模型200的结构包括：第一特征提取器210和相似度计算器220。其中，相似度计算器220中包括：每个语音类别的音频子集221，并且第二特征提取器110和第一特征提取器210之间进行参数共享。
[0162]
下面结合图11，描述本技术实施例中语音标签样本生成方法的整体流程。
[0163]
该实施例中音频样本d0＝{x0,y0}，其中x0是语音内容，y0是语音标签为整句的情感信息相关的标签。经过通过分段的方式得到多个分段音频，表示为d＝{s,f}＝{(s1,f1),
…
,(sn,fn)}，其中，分段音频的数量为n，(s1,f1)表示第一个分段音频，s1表示第一个分段音频的语音内容，f1表示第一个分段音频的预测标签，以此类推。
[0164]
输入分段音频x，利用标签修正子模型200的第一特征提取器210得到第二特征向量，在相似度计算器220中计算第二特征向量与音频集合中的每个参考音频的第一特征向量两两的标签相似度，其中，每个参考音频的第一特征向量构成第一特征集合，将标签相似度构成相似性矩阵，相似性矩阵中得分最高的标签相似度就是预设相似度，将预设相似度的第一特征向量作为目标特征向量，然后选取目标特征向量的参考音频作为相似音频，将相似音频的参考标签作为分段音频的修正标签，根据修正标签和参考标签得到标签损失值。可以理解的是，训练语音标签标注模型时，迭代过程中需要更新分段音频的预测和整个语音标签标注模型的网络参数，其不同于传统深度学习范式只更新模型参数，本实施例的语音标签标注模型训练过程能够得到更新变化的分段音频的预测标签，以及能够得到预测精度更高的语音标签标注模型。
[0165]
进一步地，得到训练后的语音标签标注模型后，将分段之后的每个分段音频进行段级预测，经过众数投票得到最终的话语级的预测标签。该实施例中，众数投票就是将一个音频中所有的分段音频进行预测得到多个分段音频的预测标签，根据一个音频中所有的预测标签，将频数最高预测标签作为话语级音频的预测语音类别。不仅对分段音频的预测标签进行标签自优化，提升分段音频预测标签的预测准确率，同时提升整句的话语级的预测准确度。
[0166]
本技术实施例在语音情感标注样本稀少的背景下，利用现有的话语级音频标注信息来做数据增强。并且，不同于对每个语音类别求均值得到参考音频，本实施例中每个语音类别的特征数量均大于1，这样做的目的是为了避免只选取一个作为参考音频时，误差可能会较大，选取多个参考音频能够进一步提升选取合理性，从而提升语音标签标注的准确率。本发明实施例提供的技术方案，通过对获取的音频样本进行分段，得到多个分段音频，然后
利用标签预测子模型对分段音频进行标签预测，得到预测标签，再基于预设类别集合和预设特征数量序列，利用标签修正子模型选取每个语音类别的参考音频，然后计算每个分段音频和参考音频的标签相似度，根据标签相似度得到分段音频的修正标签，根据预测标签和修正标签调整语音标签标注模型的参数，并利用训练好的语音标签标注模型获取目标音频的多个目标分段音频样本。本技术实施例利用语音标签标注模型根据每个音频样本得到多个分段音频样本，每个分段音频样本有合适的参考标签，能够有效降低音频样本标注的难度和成本，由于每种语音类别均选取多个参考音频，使得分段音频样本的标签标注准确性更高，有效提升包含标签的语音样本的生成数量和质量，提升语音情感识别模型利用语音样本进行情感识别的预测准确度，并避免语音情感识别模型出现过拟合现象。
[0167]
本技术实施例的语音标签样本方法可以用在医疗领域，音频样本是在患者知情同意下采集的患者语音，然后利用本技术实施例的语音标签样本方法训练样本，从而得到适用于医疗场景的情感分类模型。下面描述情感分类模型在数字医疗领域中的应用场景进行说明。
[0168]
在医疗场景中，可以通过分析患者语音信号中的情感变化，判断患者的心理状态是否稳定，并提供更为个性化的治疗服务。例如，一些患有精神疾病的患者可能会出现数据波动或情绪突变，而情感分类模型可以监测这种波动并及时提醒医生进行调整。这对于治疗抑郁症、焦虑症等心理问题非常有用，并可以帮助医疗工作者做出更好的治疗决策。同时对患者语音的情感进行分类能够为医生提供更多预测和推荐信息，医生可以利用这些信息更好地了解患者病情并为其提供必要的辅助治疗，从而制定更为有效的治疗方案。
[0169]
本发明实施例还提供一种语音标签样本生成装置，可以实现上述语音标签样本生成方法，语音标签标注模型包括：标签预测子模型和标签修正子模型，参照图12，该装置包括：
[0170]
音频分段单元1210，用于对获取的音频样本进行分段，得到多个分段音频。
[0171]
标签预测单元1220，用于利用标签预测子模型对分段音频进行标签预测，得到预测标签。
[0172]
参考音频选取单元1230，用于利用标签修正子模型根据预设类别集合和预设特征数量序列选取每个语音类别的参考音频；预设类别集合包括多个语音类别，每个语音类别包括多个参考音频，每个参考音频包括参考标签。
[0173]
标签相似度计算单元1240，用于利用标签修正子模型计算分段音频和每个参考音频的标签相似度。
[0174]
标签修正单元1250，用于利用标签修正子模型根据标签相似度对分段音频进行相似度选取，得到分段音频的修正标签。
[0175]
参数调整单元1260，用于根据预测标签和修正标签的标签损失值调整标签预测子模型和标签修正子模型的模型参数。
[0176]
语音样本生成单元1270，用于获取目标音频，将目标音频输入至调整参数后的语音标签标注模型，得到目标音频的多个目标分段音频样本。
[0177]
本实施例的语音标签样本生成装置的具体实施方式与上述语音标签样本生成方法的具体实施方式基本一致，在此不再赘述。
[0178]
本发明实施例还提供了一种电子设备，包括：
[0179]
至少一个存储器；至少一个处理器；至少一个程序；
[0180]
所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本发明实施上述的语音标签样本生成方法。该电子设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，简称pda)、车载电脑等任意智能终端。
[0181]
请参阅图13，图13示意了另一实施例的电子设备的硬件结构，电子设备包括：
[0182]
处理器1301，可以采用通用的cpu(centralprocessingunit，中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本发明实施例所提供的技术方案；存储器1302，可以采用rom(readonlymemory，只读存储器)、静态存储设备、动态存储设备或者ram(randomaccessmemory，随机存取存储器)等形式实现。存储器1302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1302中，并由处理器1301来调用执行本发明实施例的语音标签样本生成方法；输入/输出接口1303，用于实现信息输入及输出；通信接口1304，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信；和总线1305，在设备的各个组件(例如处理器1301、存储器1302、输入/输出接口1303和通信接口1304)之间传输信息；其中处理器1301、存储器1302、输入/输出接口1303和通信接口1304通过总线1305实现彼此之间在设备内部的通信连接。
[0183]
本技术实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述语音标签样本生成方法。
[0184]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0185]
本发明实施例提出的语音标签样本生成方法、语音标签样本生成装置、电子设备、存储介质，通过对获取的音频样本进行分段，得到多个分段音频，然后利用标签预测子模型对分段音频进行标签预测，得到预测标签，再基于预设类别集合和预设特征数量序列，利用标签修正子模型选取每个语音类别的参考音频，然后计算每个分段音频和参考音频的标签相似度，根据标签相似度得到分段音频的修正标签，根据预测标签和修正标签调整语音标签标注模型的参数，并利用训练好的语音标签标注模型获取目标音频的多个目标分段音频样本。本技术实施例利用语音标签标注模型根据每个音频样本得到多个分段音频样本，每个分段音频样本有合适的参考标签，能够有效降低音频样本标注的难度和成本，由于每种语音类别均选取多个参考音频，使得分段音频样本的标签标注准确性更高，有效提升包含标签的语音样本的生成数量和质量，提升语音情感识别模型利用语音样本进行情感识别的预测准确度，并避免语音情感识别模型出现过拟合现象。
[0186]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变
和新应用场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
[0187]
本领域技术人员可以理解的是，图中示出的技术方案并不构成对本技术实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
[0188]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0189]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0190]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0191]
应当理解，在本技术中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
[0192]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0193]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0194]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0195]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可
以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
[0196]
以上参照附图说明了本技术实施例的优选实施例，并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本技术实施例的权利范围之内。

技术特征：
1.一种语音标签样本生成方法，其特征在于，语音标签标注模型包括：标签预测子模型和标签修正子模型，所述方法包括：对获取的音频样本进行分段，得到多个分段音频；利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签；利用所述标签修正子模型选取每个语音类别的参考音频，每个所述参考音频包括参考标签；利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度；根据所述标签相似度对所述分段音频进行相似度选取，得到所述分段音频的修正标签；根据所述预测标签和所述修正标签的标签损失值调整所述标签预测子模型和所述标签修正子模型的模型参数；获取目标音频，将所述目标音频输入至调整参数后的所述语音标签标注模型，得到所述目标音频的多个目标分段音频样本。2.根据权利要求1所述的语音标签样本生成方法，其特征在于，所述利用所述标签修正子模型选取每个语音类别的参考音频，包括：获取预设类别集合；所述预设类别集合包括多个语音类别的音频子集，每个所述音频子集包括多个参考音频；基于预设特征数量序列得到每个所述语音类别的特征数量；在每个所述语音类别的音频子集中选取所述特征数量的参考音频，构成音频集合。3.根据权利要求2所述的语音标签样本生成方法，其特征在于，所述标签修正子模型包括第一特征提取器，所述利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签之前，包括：获取所述音频集合；利用所述第一特征提取器对所述音频集合中每个所述参考音频进行特征提取，得到所述音频集合中所述参考音频的第一特征向量。4.根据权利要求3所述的语音标签样本生成方法，其特征在于，所述标签预测子模型包括第二特征提取器，所述利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签，包括：利用所述第二特征提取器对所述分段音频进行特征提取，得到所述分段音频的第二特征向量；对所述第二特征向量进行类别识别，得到所述预测标签。5.根据权利要求4所述的一种语音标签样本生成方法，其特征在于，所述利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度，包括：获取所述分段音频的所述第二特征向量；计算所述第二特征向量和每个所述第一特征向量的所述标签相似度。6.根据权利要求5所述的语音标签样本生成方法，其特征在于，利用所述标签修正子模型根据所述标签相似度对所述分段音频进行相似度选取，得到所述分段音频的修正标签，包括：基于预设选取原则根据所述标签相似度选取预设相似度；
选取所述预设相似度的所述第一特征向量作为目标特征向量；选取所述目标特征向量的所述参考音频作为相似音频；将所述相似音频的参考标签作为所述分段音频的修正标签。7.根据权利要求1至6任一项所述的语音标签样本生成方法，其特征在于，所述对获取的音频样本进行分段，得到多个分段音频，包括：获取音频样本；按照预设分段数量和预设分段长度对所述音频样本进行分段，得到对应于所述预设分段数量的所述分段音频。8.一种语音标签样本生成装置，其特征在于，所述语音标签标注模型包括：标签预测子模型和标签修正子模型，所述装置包括：音频分段单元，用于对获取的音频样本进行分段，得到多个分段音频；标签预测单元，用于利用所述标签预测子模型对所述分段音频进行标签预测，得到预测标签；参考音频选取单元，用于利用所述标签修正子模型选取每个语音类别的参考音频，每个所述参考音频包括参考标签；标签相似度计算单元，用于利用所述标签修正子模型计算所述分段音频和每个所述参考音频的标签相似度；标签修正单元，用于根据所述标签相似度对所述分段音频进行相似度选取，得到所述分段音频的修正标签；参数调整单元，用于根据所述预测标签和所述修正标签的标签损失值调整所述标签预测子模型和所述标签修正子模型的模型参数；语音样本生成单元，用于获取目标音频，将所述目标音频输入至调整参数后的所述语音标签标注模型，得到所述目标音频的多个目标分段音频样本。9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音标签样本生成方法。10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音标签样本生成方法。

技术总结
本发明实施例提供语音标签样本生成方法、装置、设备和存储介质，涉及人工智能及数字医疗技术领域。该方法包括：对音频样本进行分段得到多个分段音频，再利用标签修正子模型得到每个分段音频与参考音频的标签相似度，基于标签相似度从参考音频的参考标签中选取得到每个分段音频的修正标签，结合分段音频的预测标签调整损失值，直至得到参数合适的语音标签标注模型。本申请实施例得到的语音标签标注模型对每个分段音频样本生成合适的参考标签，有效降低音频样本标注的难度和成本，并且分段音频样本的标签标注准确性更高，有效提升包含标签的语音样本的生成数量和质量。的语音样本的生成数量和质量。的语音样本的生成数量和质量。

技术研发人员：张旭龙王健宗程宁孙一夫
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2023.05.31
技术公布日：2023/10/8

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种模拟层状围岩受冲击破坏的试验装置及其使用方法 下一篇：一种石墨烯生产用的智能装置及其控制方法与流程

语音标签样本生成方法、装置、设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音标签样本生成方法、装置、设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表