一种噪声识别模型的训练方法和装置与流程
未命名
08-13
阅读:86
评论:0
1.本发明涉及大数据技术领域,尤其涉及一种噪声识别模型的训练方法和装置。
背景技术:
2.在智能语音客服机器人系统中,需要通过噪音识别模型对音频数据进行音频前置预处理,噪声识别模型的评价标准为从语音和噪声两个维度分别统计各自的准确率。目前噪声识别模型的训练方法为,基于人工打标生成训练数据,通过训练数据对噪声识别模型进行训练。
3.在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
4.人工打标的主观性大,并且无法同时兼顾语音和噪声维度的识别效果,从而噪声识别模型的训练效果和识别准确率较差。
技术实现要素:
5.有鉴于此,本发明实施例提供一种噪声识别模型的训练方法和装置,通过划分交互场景,针对不同的交互场景的打标规则进行打标,生成训练数据以对噪声识别模型进行训练,能够提高打标的准确性,同时兼顾语音和噪声维度的识别效果,提高噪声识别模型的训练效果和识别准确率。
6.为实现上述目的,根据本发明实施例的一个方面,提供了一种噪声识别模型的训练方法。
7.一种噪声识别模型的训练方法,包括:根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据所述音频片段的交互场景获取对应的打标规则,并根据所述打标规则对所述音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训练特征集;基于所述训练特征集进行模型训练,生成噪声识别模型,所述噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。
8.可选地,所述根据交互场景划分规则,确定获取的音频片段所对应的交互场景之前,还包括:确定所述音频片段包括用户语音音频,并且所述用户语音音频的长度与所述音频片段的长度的比值大于预设阈值。
9.可选地,所述交互场景包括客服说话过程中用户获取话语权的打断场景;在所述打断场景的情况下,所述根据所述打标规则对所述音频片段进行打标,包括:在所述音频片段包括背景噪声音频或者背景用户语音音频的情况下,将所述音频片段标记为噪音。
10.可选地,所述对打标后的每个音频片段进行特征提取,包括:对于每个打标后的音频片段,提取所述音频片段中的纯语音音频片段,并按照预设的音频片段长度阈值,对所述纯语音音频片段进行分割,得到多个音频分割片段;分别对每个音频分割片段进行特征提取,生成特征信息。
11.可选地,所述交互场景包括对用户语音进行有效性识别的过滤场景;在所述过滤场景的情况下,所述根据所述打标规则对所述音频片段进行打标,包括:在所述音频片段包
括背景用户语音音频的情况下,将所述音频片段标记为语音。
12.可选地,所述对打标后的每个音频片段进行特征提取,包括:对于每个打标后的音频片段,提取所述音频片段中的纯语音音频片段,并对所述纯语音音频片段进行特征提取,生成特征信息。
13.可选地,所述训练特征集包括特征信息和标记结果,所述特征信息具有多个维度特征;所述基于所述训练特征集进行模型训练,生成噪声识别模型,包括:将所述特征信息作为训练输入,以所述标记结果作为训练目标,进行模型训练得到模型参数,并生成多个维度特征的重要性排序;根据所述重要性排序,对所述模型参数进行调整,并重新基于所述训练特征集进行模型训练,直到模型的识别准确率满足预设要求,将识别准确率满足预设要求的模型作为所述噪声识别模型。
14.根据本发明实施例的另一方面,提供了一种噪声识别模型的训练装置。
15.一种噪声识别模型的训练装置,包括:交互场景确定模块,用于根据交互场景划分规则,确定获取的音频片段所对应的交互场景;打标模块,用于对于每个音频片段,根据所述音频片段的交互场景获取对应的打标规则,并根据所述打标规则对所述音频片段进行打标;训练特征集生成模块,用于对打标后的每个音频片段进行特征提取,以得到训练特征集;模型训练模块,用于基于所述训练特征集进行模型训练,生成噪声识别模型,所述噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。
16.可选地,还包括音频片段确定模块,用于:确定所述音频片段包括用户语音音频,并且所述用户语音音频的长度与所述音频片段的长度的比值大于预设阈值。
17.可选地,所述交互场景包括客服说话过程中用户获取话语权的打断场景;在所述打断场景的情况下,所述打标模块还用于:在所述音频片段包括背景噪声音频或者背景用户语音音频的情况下,将所述音频片段标记为噪音。
18.可选地,所述训练特征集生成模块还用于:对于每个打标后的音频片段,提取所述音频片段中的纯语音音频片段,并按照预设的音频片段长度阈值,对所述纯语音音频片段进行分割,得到多个音频分割片段;分别对每个音频分割片段进行特征提取,生成特征信息。
19.可选地,所述交互场景包括对用户语音进行有效性识别的过滤场景;在所述过滤场景的情况下,所述打标模块还用于:在所述音频片段包括背景用户语音音频的情况下,将所述音频片段标记为语音。
20.可选地,所述训练特征集生成模块还用于:对于每个打标后的音频片段,提取所述音频片段中的纯语音音频片段,并对所述纯语音音频片段进行特征提取,生成特征信息。
21.可选地,所述训练特征集包括特征信息和标记结果,所述特征信息具有多个维度特征;所述模型训练模块还用于:将所述特征信息作为训练输入,以所述标记结果作为训练目标,进行模型训练得到模型参数,并生成多个维度特征的重要性排序;根据所述重要性排序,对所述模型参数进行调整,并重新基于所述训练特征集进行模型训练,直到模型的识别准确率满足预设要求,将识别准确率满足预设要求的模型作为所述噪声识别模型。
22.根据本发明实施例的又一方面,提供了一种电子设备。
23.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发
明实施例所提供的噪声识别模型的训练方法。
24.根据本发明实施例的又一方面,提供了一种计算机可读介质。
25.一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所提供的噪声识别模型的训练方法。
26.上述发明中的一个实施例具有如下优点或有益效果:通过根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训练特征集;基于训练特征集进行模型训练,生成噪声识别模型,噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别的技术方案,通过划分交互场景,针对不同的交互场景的打标规则进行打标,生成训练数据以对噪声识别模型进行训练,能够提高打标的准确性,同时兼顾语音和噪声维度的识别效果,提高噪声识别模型的训练效果和识别准确率。
27.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
28.附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
29.图1是根据本发明一个实施例的噪声识别模型的训练方法的主要步骤示意图;
30.图2是根据本发明一个实施例的打断场景的交互示意图;
31.图3是根据本发明一个实施例的过滤场景的交互示意图;
32.图4是根据本发明一个实施例的音频片段打标的示意图;
33.图5是根据本发明一个实施例的噪声识别模型的训练方法的流程示意图;
34.图6是根据本发明一个实施例的噪声识别模型的训练装置的主要模块示意图;
35.图7是本发明实施例可以应用于其中的示例性系统架构图;
36.图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
37.以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
38.需要说明的是,本发明的技术方案中,所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
39.智能语音客服领域在近年来伴随人工智能语音和自然语言处理技术的快速迭代,在替代传统人工客服及解决大量话单、外呼等核心交互场景中的重用性愈发突出。智能语音客服机器人系统的语音识别的结果通常需要经过一系列音频前置预处理,来提升系统的
识别准确率。其中在音频前置预处理过程中,通过信号处理技术做音频增强,而音频增强中降噪技术的核心为噪声识别模型,因此,噪声识别模型的准确率将直接决定整个智能语音对话交互过程是否可以正常进行。
40.目前针对噪声模型的效果调优,分为两个方向进行迭代更新:一种较为普遍的做法是基于声学模型及神经网络引擎实现的噪音置信度打分方法,通过给出每一帧音频的置信度得分,判别当前帧音频是否为语音或者噪声,给出对应帧的置信度得分;另一种较为可靠的方案是基于噪声模型做后处理,即在噪声模型算出得分后加入更多类特征信息,对结果进行重新打分和预测,以此实现不同场景下的进一步效果优化。
41.然而无论是哪一种方案,都需要基于对噪声模型评价的标准,即需要从语音和噪声两个维度分别统计各自的准确率/召回率,并综合评价模型整体效果。无论从哪种方案进行技术迭代和演进,始终难以解决噪声模型调优时“顾此失彼”的难题,即语音指标提升后,噪声指标往往会伴随着下降的问题,即使通过阈值调整,也很难对整体指标有较大提升。如果想要同时兼顾语音和噪声的结果,就需要引入更多的数据,但可能导致训练参数过拟合的问题。
42.其中,无法同时兼顾语音/噪声效果的根本原因是噪声模型训练的数据集标注时,会存在部分难以界定的标注标准,涉及到音频跟标注之间的不确定性会导致模型训练时产生负向影响。因此,本发明所要解决的问题,为针对无法同时兼顾语音/噪声效果的技术难题,提出一种基于多场景分类标注的模型训练方法。
43.图1是根据本发明一个实施例的噪声识别模型的训练方法的主要步骤示意图。
44.如图1所示,本发明一个实施例的噪声识别模型的训练方法主要包括如下的步骤s101至步骤s104。
45.步骤s101:根据交互场景划分规则,确定获取的音频片段所对应的交互场景。其中,交互场景可以包括客服说话过程中用户获取话语权的打断场景,以及对用户语音进行有效性识别的过滤场景。
46.具体地,打断场景为智能语音客服说话过程中,用户侧(正在讲电话的人)想要获取话语权的场景;过滤场景为对用户侧说话内容有效性的识别场景。
47.在语音客服说话过程中,用户可以随时打断客服正在进行的说话内容,插入用户想要表达的说话内容。这一类场景在智能人机对话中被称为“打断场景”,即在智能机器人播报话术过程中,用户侧强行打断系统播报的行为。
48.在语音客服说话完成后,会等待用户这一侧的讲话,并根据用户说话内容进行下一轮回执。在智能人机对话中,用户这一侧的讲话有效性会影响到自然语言理解和意图识别,因此在用户讲话过程中需要判断当前用户说话内容是否有意义、当前用户侧说话内容是否为主说话人在讲话、或者当前用户侧是否为背景噪音。对于这一类用户侧讲话内容识别场景,被称为“过滤场景”。
49.在一个实施例中,根据交互场景划分规则,确定获取的音频片段所对应的交互场景之前,还可以包括:确定音频片段包括用户语音音频,并且用户语音音频的长度与音频片段的长度的比值大于预设阈值。
50.具体地,判断音频片段中是否包含用户语音音频(即人声音频),在音频片段中包含用户语音音频的情况下,若用户语音音频与的长度与音频片段的长度的比值大于预设阈
值(如10%),则将该音频片段标记为语音,在用户语音音频与的长度与音频片段的长度的比值没有达到预设阈值,或者音频片段中不包含用户语音音频的情况下,将该音频片段标记为噪音。在vad(voice activity detection,音频活性检测)算法中,如果音频片段中包含了大量无声静默区,则vad并不会将大多数的静音区都截取到音频片段中,因此对于音频片段标注时,需要预先按照音频中的用户语音音频占比进行区分。
51.步骤s102:对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标。
52.图2是根据本发明一个实施例的打断场景的交互示意图。
53.如图2所示,在打断场景中,在智能客服机器人播报语音的过程中,用户侧此时如果发出声音,则需要通过噪声识别模型来对当前用户侧的声音进行识别,判断是否为用户真实的讲话声音和意图。如果此时噪声识别模型判断为语音,则表明用户想要打断智能客服机器人的说话;如果噪声识别模型判断为噪音,则表明当前只是环境背景噪音或者用户周围有较大的嘈杂人声,并不代表用户想要打断客服的讲话。因此,在打断场景中,如果噪声识别模型将噪音判断为语音,会导致客服讲话频繁被打断,这种情况是不可接受的,应尽量避免;如果噪声识别模型将语音判断为噪音,只会导致用户侧的的部分语音无法打断客服的播报,此时用户并无真正的打断意图,这种情况在打断场景中是可以接受的。所以对于打断场景,优化重点是提升噪声识别模型对于语音的预测准确率。
54.在打断场景的情况下,根据打标规则对音频片段进行打标,可以包括:在音频片段包括背景噪声音频或者背景用户语音音频的情况下,将音频片段标记为噪音。
55.具体地,由于在标注过程中,各音频片段包括多种复杂情况,其中对于含有背景噪声和背景人声这两类问题需要再做细化。在语音机器人打断场景中,由于频繁的误打断对于系统交互的影响较大,因此在生成偏向于打断场景的训练数据时,需要将包括背景噪声和非主说话人的背景人声(即背景用户语音音频)的音频片段的标注修改为噪音。
56.图3是根据本发明一个实施例的过滤场景的交互示意图。
57.如图3所示,在过滤场景中,用户进行当前这一轮的讲话后,噪声识别模型需要对用户侧这一轮发出的声音进行识别,判断当前用户是否真正在说话。如果噪声识别模型判断为语音,则表明用户当前这一轮对话是正常进行的,需要针对客服的提问进行回答;如果噪声识别模型判断为噪音,则表明用户侧当前的声音并非真实的人声讲话,而是背景噪音所致。因此,在过滤场景中,如果噪声识别模型将语音预测为噪音,则会导致当前用户说的语音无法通过asr(automatic speech recognition,自动语音识别)转写成文本,导致nlp(natural language processing,自然语言处理)后续的意图识别出现严重问题,这种情况是不可接受的,应尽量避免;如果噪声识别模型将噪音判断为语音时,当前这一轮即便用户没有真实在讲话,在asr转写成文本后可以被nlu(natural language understanding,自然语言理解)意图理解当作无意义的情况过滤掉,不影响系统的正常交互。所以对于过滤场景,优化重点是提升噪声识别模型对于噪音的预测准确率。
58.在过滤场景的情况下,根据打标规则对音频片段进行打标,可以包括:在音频片段包括背景用户语音音频的情况下,将音频片段标记为语音。
59.具体地,由于误检测往往会导致用户说话被误判为噪音,导致机器人交互过程中缺少用户讲话输入,导致交互不顺畅,因此需要将包括背景用户语音音频(即背景人声)的
音频片段的标注修改为语音。
60.在一个实施例中,用户语音音频、背景噪声音频、背景用户语音音频,可以分别对应一个或多个音频标注类型,其中,音频标注类型包括:主说话人的方言数据、主说话人能听清的声音、主说话人的声音听不清、主说话人的声音为重口音、主说话人数据丢帧、背景噪声、次说话人的声音听不清、次说话人数据丢帧、次说话人能听清的声音、同时间段里多人同时说话、客服人员语音、合成语音。例如,用户语音音频可以对应主说话人的方言数据、主说话人能听清的声音;背景噪声音频可以对应背景噪声;背景用户语音音频可以对应次说话人的声音听不清、次说话人能听清的声音、同时间段里多人同时说话。
61.步骤s103:对打标后的每个音频片段进行特征提取,以得到训练特征集。其中,训练特征集可以包括特征信息和标记结果。
62.特征信息可以具有多个维度特征,特征信息可以包括:噪音置信度、语言模型得分、声学模型得分、贝叶斯最小风险置信度得分、候选词结果、音频信号状态、音频开始和结束时间中的一种或多种维度特征。其中,噪音置信度通过mfcc(梅尔频率倒谱系数)进行提取,语言模型得分、声学模型得分、贝叶斯最小风险置信度得分、候选词结果通过asr(自动语音识别)进行提取,音频信号状态、音频开始和结束时间通过vad(音频活性检测)进行提取。
63.图4是根据本发明一个实施例的音频片段打标的示意图。
64.如图4所示,通过vad(音频活性检测)得到的音频片段一般不会非常精确,音频片段中包括静默区和纯净语音区,静默区通常在音频的开头和结尾(如图4中的静默区1和静默区2),因此,需要将音频片段中的纯净语音进行提取,得到纯语音音频片段。其中,可以通过识别出的第一个字的时间和最后一个字的时间得到纯语音音频片段(如图4中的“您好请问一下现在我的快递到哪里了”)。
65.在一个实施例中,在打断场景的情况下,对打标后的每个音频片段进行特征提取,可以包括:对于每个打标后的音频片段,提取音频片段中的纯语音音频片段,并按照预设的音频片段长度阈值,对纯语音音频片段进行分割,得到多个音频分割片段;分别对每个音频分割片段进行特征提取,生成特征信息。
66.具体地,打断场景中对于用户语音的检测较为敏感,需要尽可能减少音频流片段中的数据长度,为了保证噪音识别模型的效果,需要对音频片段的长度进行合理化设置。在提取音频片段中的纯语音音频片段之后,按照预设的音频片段长度阈值(inter-pausal unit,即图4中的打断场景粒度,可以设置为200ms),对纯语音音频片段进行分割,得到多个音频分割片段(如图4中的ipu 1、ipu 2......ipu n)。分别对每个音频分割片段进行特征提取,生成各个音频分割片段对应的特征信息,并且,各个音频分割片段的标记为该音频片段的标记。
67.在一个实施例中,在过滤场景的情况下,对打标后的每个音频片段进行特征提取,可以包括:对于每个打标后的音频片段,提取音频片段中的纯语音音频片段,并对纯语音音频片段进行特征提取,生成特征信息。
68.具体地,在过滤场景中,由于是对整段说话人的讲话内容进行噪音检测,需要获取整段说话中纯语音的部分,进行特征提取,即过滤场景粒度为整个纯语音音频片段,在提取音频片段中的纯语音音频片段之后,直接对纯语音音频片段进行特征提取。
69.步骤s104:基于训练特征集进行模型训练,生成噪声识别模型,噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。
70.在一个实施例中,基于训练特征集进行模型训练,生成噪声识别模型,可以包括:将特征信息作为训练输入,以标记结果作为训练目标,进行模型训练得到模型参数,并生成多个维度特征的重要性排序;根据重要性排序,对模型参数进行调整,并重新基于训练特征集进行模型训练,直到模型的识别准确率满足预设要求,将识别准确率满足预设要求的模型作为噪声识别模型。
71.具体地,训练特征集可以包括训练音频片段的特征信息和标记结果,其中,训练音频片段为音频分割片段或纯语音音频片段。模型训练方法使用基于梯度下降算法实现的xgboost(一种机器学习算法),xgboost在模型稳定性上通常具有更好的性能表现,且模型训练过程较为简单。通过导入训练特征集,使用xgboostsavemodel(即保存训练后的终极梯度迭代决策树)进行训练和保存。模型训练过程中的模型参数主要可以包括max_depth(构建树的深度,越大越容易过拟合)、num_round(迭代次数,越多则训练过程越慢)、min_child_weight(子节点中最小的样本权重和,如果一个叶子节点的权重和小于该值,则拆分过程结束)。
72.分别将训练完成的多组模型与训练特征集进行准确率统计和计算,对模型稳定性进行验证,同时将模型训练过程中的维度特征的重要性进行保存。经过模型实验,维度特征的重要性排序依次为:语言模型分数≈声学模型分数》贝叶斯得分≈候选词长度》噪音置信度》语音信号起止时间。按照重要性排序,对模型参数进行调整,并重新基于训练特征集进行模型训练,直到模型的识别准确率满足预设要求(如识别准确率达到90%),将识别准确率满足预设要求的模型作为噪声识别模型。
73.本发明实施例能够有效提升噪声识别模型的鲁棒性,从而提升智能语音客服对话系统的整体交互体验。
74.图5是根据本发明一个实施例的噪声识别模型的训练方法的流程示意图。
75.如图5所示,本发明实施例提出了基于多场景的噪声识别模型效果优化的整体实现方案,在不同场景下的噪声识别模型特征选取、优化策略和模型训练方法。根据交互场景划分规则,确定获取的音频片段所对应的交互场景,获取交互场景对应的打标规则,并根据打标规则对音频片段进行打标。对打标后的每个音频片段进行多个维度特征的特征提取,得到训练特征集。基于训练特征集进行模型训练,生成噪声识别模型。
76.图6是根据本发明一个实施例的噪声识别模型的训练装置的主要模块示意图。
77.如图6所示,本发明一个实施例的噪声识别模型的训练装置600主要包括:交互场景确定模块601、打标模块602、训练特征集生成模块603、模型训练模块604。
78.交互场景确定模块601,用于根据交互场景划分规则,确定获取的音频片段所对应的交互场景。
79.打标模块602,用于对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标。
80.训练特征集生成模块603,用于对打标后的每个音频片段进行特征提取,以得到训练特征集。
81.模型训练模块604,用于基于训练特征集进行模型训练,生成噪声识别模型,噪声
识别模型用于对语音交互过程中生成的音频片段进行噪声识别。
82.在一个实施例中,还可以包括音频片段确定模块(图中未示出),用于:确定音频片段包括用户语音音频,并且用户语音音频的长度与音频片段的长度的比值大于预设阈值。
83.在一个实施例中,交互场景可以包括客服说话过程中用户获取话语权的打断场景;在打断场景的情况下,打标模块602具体用于:在音频片段包括背景噪声音频或者背景用户语音音频的情况下,将音频片段标记为噪音。
84.在一个实施例中,训练特征集生成模块603具体用于:对于每个打标后的音频片段,提取音频片段中的纯语音音频片段,并按照预设的音频片段长度阈值,对纯语音音频片段进行分割,得到多个音频分割片段;分别对每个音频分割片段进行特征提取,生成特征信息。
85.在一个实施例中,交互场景可以包括对用户语音进行有效性识别的过滤场景;在过滤场景的情况下,打标模块602具体用于:在音频片段包括背景用户语音音频的情况下,将音频片段标记为语音。
86.在一个实施例中,训练特征集生成模块603具体用于:对于每个打标后的音频片段,提取音频片段中的纯语音音频片段,并对纯语音音频片段进行特征提取,生成特征信息。
87.在一个实施例中,训练特征集可以包括特征信息和标记结果,特征信息可以具有多个维度特征;模型训练模块604具体用于:将特征信息作为训练输入,以标记结果作为训练目标,进行模型训练得到模型参数,并生成多个维度特征的重要性排序;根据重要性排序,对模型参数进行调整,并重新基于训练特征集进行模型训练,直到模型的识别准确率满足预设要求,将识别准确率满足预设要求的模型作为噪声识别模型。
88.另外,在本发明实施例中噪声识别模型的训练装置的具体实施内容,在上面噪声识别模型的训练方法中已经详细说明了,故在此重复内容不再说明。
89.图7示出了可以应用本发明实施例的噪声识别模型的训练方法或噪声识别模型的训练装置的示例性系统架构700。
90.如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
91.用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如噪声识别类应用、语音交互应用、智能客服类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
92.终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
93.服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的噪声识别类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的噪声识别模型的训练请求等数据进行根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训
练特征集;基于训练特征集进行模型训练,生成噪声识别模型,噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别等处理,并将处理结果(例如噪声识别模型的训练结果
‑‑
仅为示例)反馈给终端设备。
94.需要说明的是,本发明实施例所提供的噪声识别模型的训练方法一般由服务器705执行,相应地,噪声识别模型的训练装置一般设置于服务器705中。
95.应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
96.下面参考图8,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统800的结构示意图。图8示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
97.如图8所示,计算机系统800包括中央处理单元(cpu)801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram 803中,还存储有系统800操作所需的各种程序和数据。cpu 801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
98.以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
99.特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu)801执行时,执行本发明的系统中限定的上述功能。
100.需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于
由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
101.附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
102.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括交互场景确定模块、打标模块、训练特征集生成模块、模型训练模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,交互场景确定模块还可以被描述为“用于根据交互场景划分规则,确定获取的音频片段所对应的交互场景的模块”。
103.作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训练特征集;基于训练特征集进行模型训练,生成噪声识别模型,噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。
104.根据本发明实施例的技术方案,根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训练特征集;基于训练特征集进行模型训练,生成噪声识别模型,噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。通过划分交互场景,针对不同的交互场景的打标规则进行打标,生成训练数据以对噪声识别模型进行训练,能够提高打标的准确性,同时兼顾语音和噪声维度的识别效果,提高噪声识别模型的训练效果和识别准确率。
105.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
技术特征:
1.一种噪声识别模型的训练方法,其特征在于,包括:根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据所述音频片段的交互场景获取对应的打标规则,并根据所述打标规则对所述音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训练特征集;基于所述训练特征集进行模型训练,生成噪声识别模型,所述噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。2.根据权利要求1所述的方法,其特征在于,所述根据交互场景划分规则,确定获取的音频片段所对应的交互场景之前,还包括:确定所述音频片段包括用户语音音频,并且所述用户语音音频的长度与所述音频片段的长度的比值大于预设阈值。3.根据权利要求1所述的方法,其特征在于,所述交互场景包括客服说话过程中用户获取话语权的打断场景;在所述打断场景的情况下,所述根据所述打标规则对所述音频片段进行打标,包括:在所述音频片段包括背景噪声音频或者背景用户语音音频的情况下,将所述音频片段标记为噪音。4.根据权利要求3所述的方法,其特征在于,所述对打标后的每个音频片段进行特征提取,包括:对于每个打标后的音频片段,提取所述音频片段中的纯语音音频片段,并按照预设的音频片段长度阈值,对所述纯语音音频片段进行分割,得到多个音频分割片段;分别对每个音频分割片段进行特征提取,生成特征信息。5.根据权利要求1所述的方法,其特征在于,所述交互场景包括对用户语音进行有效性识别的过滤场景;在所述过滤场景的情况下,所述根据所述打标规则对所述音频片段进行打标,包括:在所述音频片段包括背景用户语音音频的情况下,将所述音频片段标记为语音。6.根据权利要求5所述的方法,其特征在于,所述对打标后的每个音频片段进行特征提取,包括:对于每个打标后的音频片段,提取所述音频片段中的纯语音音频片段,并对所述纯语音音频片段进行特征提取,生成特征信息。7.根据权利要求1所述的方法,其特征在于,所述训练特征集包括特征信息和标记结果,所述特征信息具有多个维度特征;所述基于所述训练特征集进行模型训练,生成噪声识别模型,包括:将所述特征信息作为训练输入,以所述标记结果作为训练目标,进行模型训练得到模型参数,并生成多个维度特征的重要性排序;根据所述重要性排序,对所述模型参数进行调整,并重新基于所述训练特征集进行模型训练,直到模型的识别准确率满足预设要求,将识别准确率满足预设要求的模型作为所述噪声识别模型。8.一种噪声识别模型的训练装置,其特征在于,包括:交互场景确定模块,用于根据交互场景划分规则,确定获取的音频片段所对应的交互
场景;打标模块,用于对于每个音频片段,根据所述音频片段的交互场景获取对应的打标规则,并根据所述打标规则对所述音频片段进行打标;训练特征集生成模块,用于对打标后的每个音频片段进行特征提取,以得到训练特征集;模型训练模块,用于基于所述训练特征集进行模型训练,生成噪声识别模型,所述噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
技术总结
本发明公开了一种噪声识别模型的训练方法和装置,涉及大数据技术领域。该方法的一具体实施方式包括:根据交互场景划分规则,确定获取的音频片段所对应的交互场景;对于每个音频片段,根据音频片段的交互场景获取对应的打标规则,并根据打标规则对音频片段进行打标;对打标后的每个音频片段进行特征提取,以得到训练特征集;基于训练特征集进行模型训练,生成噪声识别模型,噪声识别模型用于对语音交互过程中生成的音频片段进行噪声识别。该实施方式通过划分交互场景,针对不同的交互场景的打标规则进行打标,以对噪声识别模型进行训练,能够提高打标的准确性,同时兼顾语音和噪声维度的识别效果,提高噪声识别模型的训练效果和识别准确率。识别准确率。识别准确率。
技术研发人员:崔午阳
受保护的技术使用者:京东科技信息技术有限公司
技术研发日:2023.04.27
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:磷酸一铵提纯方法与流程 下一篇:基于人工智能照度补偿的智慧路灯单灯控制器的制作方法
