基于人工智能的情感分类方法、装置、计算机设备及介质与流程
未命名
08-03
阅读:95
评论:0
1.本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的情感分类方法、装置、计算机设备及介质。
背景技术:
2.目前,随着人工智能技术的快速发展,针对语音的情感分类技术已广泛应用于金融服务平台中,金融服务平台可以是保险系统、银行系统、交易系统、订单系统等,金融服务平台可以支持购物、社交、互动游戏、资源转移等功能,还可以具有申请贷款、信用卡或者购买保险、理财产品等功能。
3.情感分类技术可以应用于金融服务平台中的智能交互场景中,以使得用户在通过电话等方式与金融服务平台的智能机器客服进行沟通交互时,智能机器客服能够而根据用户的实时情感调整话术,现有语音情感分类通常采用卷积神经网络模型来提取语音频谱的特征后再进行情感分类,根据情感分类结果辅助智能交互过程,提高智能交互场景的智能化,使得用户在应用金融服务平台时,能够获得较好的用户体验,降低金融服务平台被投诉的概率。
4.但是,仅依靠语音频谱提供特征信息会导致情感分类的准确率较低,现有方法通常是使用语音内容额外提供语义特征信息,然而在实际使用时,语音频谱往往难以与语音内容准确对齐,反而进一步降低了情感分类的准确率,因此,如何提高情感分类的准确率成为亟待解决的问题。
技术实现要素:
5.有鉴于此,本发明实施例提供了一种基于人工智能的情感分类方法、装置、计算机设备及介质,以解决情感分类的准确率较低的问题。
6.第一方面,本发明实施例提供一种基于人工智能的情感分类方法,所述情感分类方法包括:
7.对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果;
8.将所述拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征;
9.将所述音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别;
10.将所述音频特征、所述参考说话人和所述参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征所述原始音频的情感类别的分类结果。
11.第二方面,本发明实施例提供一种基于人工智能的情感分类装置,所述情感分类装置包括:
12.预处理模块,用于对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果;
13.特征提取模块,用于将所述拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征;
14.特征分类模块,用于将所述音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别;
15.情感分类模块,用于将所述音频特征、所述参考说话人和所述参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征所述原始音频的情感类别的分类结果。
16.第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的情感分类方法。
17.第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的情感分类方法。
18.本发明实施例与现有技术相比存在的有益效果是:
19.对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果,将拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征,将音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别,将音频特征、参考说话人和参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征原始音频的情感类别的分类结果,通过原始音频的多模态表示拼接作为输入量,能够提供更加丰富的音频信息,进而提高情感分类准确率,而且额外进行说话人和性别分类,将分类得到的参考说话人和参考性别作为参考信息与音频特征拼接,提高了对原始音频进行情感分类处理时的泛化能力,进而提高了情感分类的准确率,使得用户在应用金融服务平台时,能够获得较好的用户体验,降低金融服务平台被投诉的概率。
附图说明
20.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明实施例一提供的一种基于人工智能的情感分类方法的一应用环境示意图;
22.图2是本发明实施例一提供的一种基于人工智能的情感分类方法的流程示意图;
23.图3是本发明实施例二提供的一种基于人工智能的情感分类装置的结构示意图;
24.图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
25.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
26.应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
27.还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
28.如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0029]
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0030]
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0031]
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0032]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0033]
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0034]
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
[0035]
本发明实施例一提供的一种基于人工智能的情感分类方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,umpc)、上网本、云端终端设备、个人数字助理(personaldigital assistant,pda)等计算机设备。服务端可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服
务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0036]
客户端和服务端可以部署于金融服务平台中,金融服务平台可以是保险系统、银行系统、交易系统、订单系统等,金融服务平台可以支持购物、社交、互动游戏、资源转移等功能,还可以具有申请贷款、信用卡或者购买保险、理财产品等功能,情感分类技术可以应用于金融服务平台中的智能交互场景中,提高智能交互场景的智能化,使得用户在通过电话等方式与金融服务平台的机器客服进行沟通时,能够而根据用户的实时情感调整话术,进而使得用户在应用金融服务平台时,能够获得较好的用户体验,降低金融服务平台被投诉的概率。
[0037]
参见图2,是本发明实施例一提供的一种基于人工智能的情感分类方法的流程示意图,上述情感分类方法可以应用于图1中的客户端,客户端对应的计算机设备与服务端连接,以从服务端获取原始音频,原始音频可以是指需要进行情感分类的音频,客户端对应的计算机设备内部署有训练好的情感分类模型,训练好的情感分类模型可以包括训练好的自注意力层、训练好的卷积层、训练好的说话人分类器、训练好的性别分类器和训练的情感分类器,训练好的情感分类模型可以用于对输入的原始音频进行情感分类。如图2所示,该情感分类方法可以包括以下步骤:
[0038]
步骤s201,对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果。
[0039]
其中,原始音频可以是指需要进行情感分类处理的音频,在本实施例中,应用于金融服务平台中,则原始音频可以是指客户进行金融服务咨询的音频、客户进行金融服务产品购买的音频等,原始音频的表示形式可以是音频信号,预处理可以用于去除原始音频中的噪声部分,以提高原始音频的信号强度,短时傅里叶变换频谱可以是指原始音频对应的音频信号经过短时傅里叶变换得到的频谱信息,梅尔频谱可以用于表征符合人耳听觉的关键音频信息,梅尔频率倒谱系数可以是指非线性表示的音频特征。
[0040]
具体地,本实施例可以应用于智能交互、人机对话等应用场景中,以获取目标对象语音音频的情感类别信息,从而能够根据情感类别信息辅助确定交互语句,其中目标对象语音音频可以是指上述服务器从目标对象处采集到的原始音频。
[0041]
可选的是,对获取的原始音频进行预处理包括:
[0042]
对原始音频进行短时傅里叶变换,得到短时傅里叶变换频谱;
[0043]
采用预设映射函数对短时傅里叶频谱进行映射,确定映射结果为梅尔频谱;
[0044]
对梅尔频谱进行离散余弦变换,得到梅尔频率倒谱系数。
[0045]
其中,短时傅里叶变换可以是指对原始音频对应的音频信号进行加窗后,对每个窗分别进行傅里叶变换,得到短时傅里叶变换频谱,短时傅里叶变换频谱可以用于表征原始音频的频域信息。
[0046]
预设映射函数可以是指梅尔刻度的映射函数,预设映射函数包含短时傅里叶频谱和梅尔频谱的映射关系,也即短时傅里叶频谱中的频率与梅尔频谱中的梅尔刻度的映射关系。
[0047]
离散余弦变换可以用于去除音频信号各个频率维度之间的相关性,将音频信号映射到低维空间,也即对语音音频进行增强。
[0048]
具体地,在对原始音频进行短时傅里叶变换时,加窗处理时单个窗长度可以由实施者自行设置,在本实施例中,单个窗对应的时间长度可以设置为0.5s。
[0049]
上述梅尔映射函数可以表示为:
[0050][0051]
其中,f可以是指短时傅里叶频谱中的频率,m可以是指梅尔频谱中的梅尔刻度。
[0052]
本实施例对原始音频进行梅尔倒谱分析,并保留梅尔倒谱分析过程中的多模态表征,多模态表征也即短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数,以便于后续对原始音频的多模态表征进行整合,以获取更丰富的原始音频的音频特征信息。
[0053]
可选的是,对原始音频进行短时傅里叶变换包括:
[0054]
将原始音频输入预设滤波器中进行滤波处理,将滤波结果按照预设帧长进行分帧处理,得到n个初始帧;
[0055]
采用预设的窗函数对每个初始帧进行加窗处理,对加窗处理结果进行短时傅里叶变换。
[0056]
其中,预设滤波器可以是指高通滤波器,预设滤波器可以用于对原始音频进行预加重处理,预加重处理可以用于原始音频对应的信号变得更平坦以便于后续处理。
[0057]
分帧处理可以是指根据音频信号的短时平稳特性,将音频信号以帧为单位进行处理,预设帧长可以是指分帧处理时一帧的时间长度,对滤波结果分帧处理后得到n个分帧结果,也即n个初始帧,n为大于零的整数。
[0058]
预设的窗函数可以选用矩形窗、汉明窗和汉宁窗等窗函数,加窗处理可以用于消除各个初始帧两端出现的信号不连续情况。
[0059]
具体地,由于目标对象在说话时的发生过程中声带和嘴唇震动,会导致原始音频中高频共振峰的振幅低于低频共振峰的振幅,因此需要对原始音频进行预加重处理,也即采用高通滤波器进行滤波处理,以消除声带和嘴唇震动影响,对原始音频的高频部分进行补偿。
[0060]
在本实施例中,预设帧长可以设置为32ms,实施者可根据实际情况调整该预设帧长的取值,需要说明的是,为了避免后续加窗处理时对音频信号遗漏,需要设置帧叠,帧叠也即两个相邻初始帧之间的重叠部分,在本实施例中,帧叠的长度设置为16ms,也即取预设帧长的二分之一作为帧叠的长度,从而避免相邻初始帧之间的信号特性变化过大。
[0061]
在本实施例中,预设的窗函数采用汉明窗,采用汉明窗分别对n个初始帧进行加窗处理,得到n个加窗处理结果,再对n个加窗处理结果分别进行短时傅里叶变换。
[0062]
本实施例对原始音频进行预加重、分帧以及加窗处理后,再进行短时傅里叶变换,从而能够消除原始音频的噪声影响,提高后续短时傅里叶变换得到的短时傅里叶变换频谱对原始音频的表征能力,使得后续以短时傅里叶变换频谱为基础提取的多模态表征能够为情感分类任务提供更有效的信息,进而提高情感分类的准确率。
[0063]
上述对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果的步骤,通过预处理获取原始音频的多模态表征,并将多模态表征拼接,使得拼接结果更充分地表征出原始音频的信息,从而使得以拼接结果为输入的情感分类模型输出更为准确的分类结果,提高情感分类的准确率。
[0064]
步骤s202,将拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征。
[0065]
其中,训练好的自注意力层可以用于提取自注意力层的输入量不同部分之间的相关性,自注意力层输入量也即拼接结果,训练好的自注意力层的输出量为注意力向量,注意力向量可以用于表征自注意力层输入量不同部分之间的相关程度。
[0066]
训练好的卷积层可以用于对卷积层的输入量进行特征提取,以获取深层特征,训练好的卷积层的输入量为注意力向量与拼接结果相乘计算结果,训练好的卷积层的输出量为音频特征。
[0067]
具体地,训练好的自注意力层可以采用1*1卷积的方式实现自注意力机制,在注意力向量与拼接结果相乘时,注意力向量起到权重的作用,使得后续训练好的卷积层进行特征提取时,能更好地关注关键信息。
[0068]
在一实施方式中,训练好的自注意力层还可以选用transformer模型中的注意力层部分来实现自注意力机制。
[0069]
可选的是,将拼接结果输入训练好的自注意力层中进行特征映射包括:
[0070]
将拼接结果输入训练好的第一前馈网络层进行特征聚合,得到第一特征聚合结果;
[0071]
将第一特征聚合结果和拼接结果叠加后,输入训练好的自注意力层中进行特征映射。
[0072]
其中,训练好的第一前馈网络层可以用作特征聚合,其本质上也是进行卷积计算,但是与上述训练好的卷积层不同,训练好的第一前馈网络层仅具备浅层特征的计算能力,而训练好的卷积层包含多层的卷积处理,能够获取较为深层的特征。
[0073]
第一特征聚合结果可以是指将拼接结果输入训练好的第一前馈网络层后的输出结果。
[0074]
具体地,训练好的第一前馈网络层包括层归一化处理、线性映射处理、激活函数处理和随机丢弃处理,拼接结果在输入训练好的第一前馈网络层后,首先进行层归一化处理,层归一化处理的目的可以是避免梯度爆炸,防止梯度消失。
[0075]
在层归一化处理后,在进行线性映射,线性映射也即上述的卷积计算过程,将层归一化处理结果与训练好的第一前馈网络层中的参数进行卷积计算,得到线性映射结果,采用激活函数对线性映射结果进行激活函数处理,以提高激活函数处理结果的非线性表征能力,在本实施例中,激活函数可以采用swish函数,swish函数可以表示为f(x)=x*σ(x),其中,x可以是指激活函数的输入量,也即线性映射结果,σ(x)可以是指sigmoid函数,具体地,sigmoid函数可以表示为
[0076]
随机丢弃处理可以是指将第一前馈网络层中的参数按照预设比例进行随机屏蔽,预设比例在本实施例中可以设置为0.5,也即将训练好的第一前馈网络层中一半参数屏蔽,屏蔽可以是指置零操作,随机丢弃处理可以用于提高模型的泛化能力。
[0077]
第一特征聚合结果和拼接结果叠加可以采用加权相加的方式,在本实施例中,将第一特征聚合结果和拼接结果叠加时,由第一特征聚合结果的二分之一和拼接结果相加,
得到相加结果后,将相加结果输入训练好的自注意力层中进行特征映射。
[0078]
本实施例中,在拼接结果输入训练好的自注意力层中进行特征映射前,采用训练好的第一前馈神经网络对拼接结果进行初步处理,以得到拼接结果的聚合特征,再将聚合特征和拼接结果叠加后,作为训练好的自注意力的输入,从而确保了特征的可重用性,以避免情感分类模型出现退化问题,进而提高了情感分类模型的准确率。
[0079]
可选的是,将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征包括:
[0080]
将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,将特征提取结果输入训练好的第二前馈网络层进行特征聚合,得到第二特征聚合结果;
[0081]
确定特征提取结果和第二特征聚合结果之和为音频特征。
[0082]
其中,训练好的第二前馈网络层也可以用作特征聚合,第二特征聚合结果可以是指将特征提取结果输入训练好的第二前馈网络层后的输出结果。
[0083]
具体地,训练好的第二前馈网络层也包括层归一化处理、线性映射处理、激活函数处理和随机丢弃处理,特征提取结果在输入训练好的第二前馈网络层后,首先进行层归一化处理,在层归一化处理后,在进行线性映射,采用激活函数对线性映射结果进行激活函数处理,以提高激活函数处理结果的非线性表征能力,将第二前馈网络层中的参数按照预设比例进行随机屏蔽。
[0084]
计算第二特征聚合结果和特征提取结果之和可以采用加权相加的方式,在本实施例中,将第二特征聚合结果和特征提取结果相加时,由第二特征聚合结果的二分之一和特征提取结果相加,得到相加结果后,将相加结果作为音频特征。
[0085]
本实施例中,在训练好的卷积层得到特征提取结果后,采用训练好的第二前馈神经网络对特征提取结果进行后处理,以得到特征提取结果的聚合特征,再将该聚合特征和特征提取结果相加,作为音频特征,从而确保了特征的可重用性,以避免情感分类模型出现退化问题,进而提高了情感分类模型的准确率。
[0086]
可选的是,训练好的注意力层包括训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵;
[0087]
将拼接结果输入训练好的自注意力层中进行特征映射包括:
[0088]
将拼接结果与训练好的第一嵌入矩阵相乘,得到查询向量,将拼接结果与训练好的第二嵌入矩阵相乘,得到键值向量,将拼接结果与训练好的第三嵌入矩阵相乘,得到值向量;
[0089]
将查询向量和键值向量的转置相乘,采用归一化指数函数对相乘结果进行归一化处理,将归一化处理结果和值向量相乘,确定相乘结果为特征映射结果。
[0090]
其中,训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵均可以是指训练好的注意力层的参数,训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵均可以用于对输入的拼接结果进行线性变换。
[0091]
具体地,训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵的矩阵尺寸一致,因此,得到的查询向量、键值向量和值向量的尺寸均一致,根据向量的运算法则,最终得到的特征映射结果与查询向量、键值向量和值向量三者的尺寸一致。
[0092]
由于查询向量与键值向量的尺寸一致,因此,在查询向量和键值向量交互时,需要
对键值向量进行转置处理,将查询向量和键值向量的转置相乘,得到的相乘结果包括拼接结果中每个部分对所有部分的注意力权重,所有部分包括该部分自身,其中单个部分可以是指单个初始帧对应的音频信息。
[0093]
需要说明的是,在得到注意力权重后,需要对注意力权重进行放缩处理,放缩处理也即将注意力权重与预设值作比,在本实施例中,预设值可以采用n的平方根,以缩小相乘结果的范围,确定后续归一化函数处理的梯度稳定性。
[0094]
归一化指数函数的目的是保证注意力权重的非负性并增加注意力权重的非线性。
[0095]
本实施例中,采用查询向量、键值向量和值向量的形式计算得到特征映射结果,能够有效捕捉输入量长距离依赖关系,从而提高后续情感分类的准确率。
[0096]
上述将拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征的步骤,将训练好的注意力层和训练好的卷积层串联,使得情感分类模型能够依靠训练好的注意力层有效捕捉长距离依赖关系的同时,也依靠训练好的卷积层获取表征能力更强的深层特征,从而提高情感分类模型进行情感分类的准确率。
[0097]
步骤s203,将音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别。
[0098]
其中,训练好的说话人分类器可以用于对音频特征进行说话人类别预测,说话人类别可以是指说话人的身份标识,训练好的性别分类器可以用于对音频特征进行说话人性别预测,说话人性别可以包括男性和女性,参考说话人可以是指说话人类别的预测结果,参考性别可以是指说话人性别的预测结果。
[0099]
具体地,在情感分类模型中额外添加说话人分类器和性别分类器,使得训练好的情感分类模型所获取的音频特征能够包含说话人的身份信息和性别信息,从而提高音频特征的表征能力。
[0100]
需要说明的是,在情感分类模型中额外添加说话人分类器和性别分类器后,在情感分类模型的训练过程中,损失函数包括情感分类损失、说话人分类损失和性别分类损失,也即额外增加了说话人分类损失和性别分类损失,从而使得情感分类模型能够关注音频特征对说话人的身份信息和性别信息的表征能力。
[0101]
可选的是,将音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别包括:
[0102]
将音频特征输入训练好的说话人分类器进行特征分类,得到对应每个预设说话人类别的第一预测概率,确定所有第一预测概率及其对应的预设说话人类别组成第一概率分布;
[0103]
将音频特征输入训练好的性别分类器进行特征分类,得到对应每个预设性别类别的第二预测概率,确定所有第二预测概率及其对应的预设性别类别组成第二概率分布;
[0104]
确定第一概率分布中最大的第一预测概率对应的预设说话人类别为参考说话人,确定第二概率分布中最大的第二预测概率对应的预设性别类别为参考性别;
[0105]
相应地,将音频特征、参考说话人和参考性别拼接后,输入训练好的情感分类器中进行分类包括:
[0106]
将音频特征、参考说话人、参考性别、第一概率分布和第二概率分布拼接后,输入
训练好的情感分类器中进行分类。
[0107]
其中,预设的说话人类别可以是指说话人的身份标识,身份标识可以采用序号、id等方式表示,第一预测概率可以是指音频特征属于一预设说话人类别的概率,第一概率分布可以是指音频特征属于各个预设说话人类别的概率分布,预设性别类别可以包括男性类别和女性类别,第二预测概率可以是指音频特征属于一预设性别类别的概率,第二概率分布可以是指音频特征属于各个预设性别类别的概率分布。
[0108]
具体地,设预设的说话人类别有c个,则训练好的说话人分类器的输出为对应预设说话人类别的c个第一预测概率,同样地,训练好的性别分类器的输出为对应预设性别类别的两个第二预测概率。
[0109]
本实施例中将第一概率分布和第二概率分布也联合作为训练好的情感分类器的输入,使得情感分类模型在面对未处理过的说话人对应的音频数据时拥有更好的泛化性,从而提高情感分类的准确率。
[0110]
上述将音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别的步骤,能够为后续情感分类任务提供说话人属性信息,使得训练好的情感分类器的输入更加丰富,进而提高情感分类的准确率。
[0111]
步骤s204,将音频特征、参考说话人和参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征原始音频的情感类别的分类结果。
[0112]
其中,训练好的情感分类器可以采用全连接层、决策树等模型实现,分类结果可以是指原始音频的情感类别,情感类别可以包括开心、难过、生气、平静等类别。
[0113]
具体地,训练好的情感分类器输出各个预设情感类别的预测值,采用归一化指数函数对所有预测值进行归一化处理,确定归一化处理结果中的最大值对应的预设情感类别为分类结果。
[0114]
上述将音频特征、参考说话人和参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征原始音频的情感类别的分类结果的步骤,将参考说话人和参考性别与音频特征融合,从而训练好的情感分类器的输入更加丰富,进而提高情感分类的准确率。
[0115]
本实施例通过原始音频的多模态表示拼接作为输入量,能够提供更加丰富的音频信息,进而提高情感分类准确率,而且额外进行说话人和性别分类,将分类得到的参考说话人和参考性别作为参考信息与音频特征拼接,提高了对原始音频进行情感分类处理时的泛化能力,进而提高了情感分类的准确率,使得用户在应用金融服务平台时,能够获得较好的用户体验,降低金融服务平台被投诉的概率。
[0116]
对应于上文实施例的基于人工智能的情感分类方法,图3示出了本发明实施例二提供的基于人工智能的情感分类装置的结构框图,上述情感分类装置应用于客户端,客户端对应的计算机设备与服务端连接,以从服务端获取原始音频,原始音频可以是指需要进行情感分类的音频,客户端对应的计算机设备内部署有训练好的情感分类模型,训练好的情感分类模型可以包括训练好的自注意力层、训练好的卷积层、训练好的说话人分类器、训练好的性别分类器和训练的情感分类器,训练好的情感分类模型可以用于对输入的原始音频进行情感分类。为了便于说明,仅示出了与本发明实施例相关的部分。
[0117]
参见图3,该情感分类装置包括:
[0118]
预处理模块31,用于对获取的原始音频进行预处理,将预处理得到的短时傅里叶
变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果;
[0119]
特征提取模块32,用于将拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征;
[0120]
特征分类模块33,用于将音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别;
[0121]
情感分类模块34,用于将音频特征、参考说话人和参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征原始音频的情感类别的分类结果。
[0122]
可选的是,上述预处理模块31包括:
[0123]
第一变换单元,用于对原始音频进行短时傅里叶变换,得到短时傅里叶变换频谱;
[0124]
频谱映射单元,用于采用预设映射函数对短时傅里叶频谱进行映射,确定映射结果为梅尔频谱,映射函数包含短时傅里叶频谱和梅尔频谱的映射关系;
[0125]
第二变换单元,用于对梅尔频谱进行离散余弦变换,得到梅尔频率倒谱系数。
[0126]
可选的是,上述第一变换单元包括:
[0127]
分帧子单元,用于将原始音频输入预设滤波器中进行滤波处理,将滤波结果按照预设帧长进行分帧处理,得到n个初始帧;
[0128]
加窗子单元,用于采用预设的窗函数对每个初始帧进行加窗处理,对加窗处理结果进行短时傅里叶变换。
[0129]
可选的是,上述特征提取模块32包括:
[0130]
第一前馈单元,用于将拼接结果输入训练好的前馈网络层进行特征聚合,得到第一特征聚合结果;
[0131]
特征映射单元,用于将第一特征聚合结果和拼接结果叠加后,输入训练好的自注意力层中进行特征映射。
[0132]
可选的是,上述特征提取模块32包括:
[0133]
第二前馈单元,用于将注意力向量与拼接结果相乘,输入训练好的卷积层进行特征提取,将特征提取结果输入训练好的前馈网络层进行特征聚合,得到第二特征聚合结果;
[0134]
特征确定单元,用于确定特征提取结果和第二特征聚合结果之和为音频特征。
[0135]
可选的是,训练好的注意力层包括训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵;
[0136]
上述特征提取模块32包括:
[0137]
矩阵计算单元,用于将拼接结果与训练好的第一嵌入矩阵相乘,得到查询向量,将拼接结果与训练好的第二嵌入矩阵相乘,得到键值向量,将拼接结果与训练好的第三嵌入矩阵相乘,得到值向量;
[0138]
归一化单元,用于将查询向量和键值向量的转置相乘,采用归一化指数函数对相乘结果进行归一化处理,将归一化处理结果和值向量相乘,确定相乘结果为特征映射结果。
[0139]
可选的是,上述特征分类模块33包括:
[0140]
第一分布确定单元,用于将音频特征输入训练好的说话人分类器进行特征分类,得到对应每个预设说话人类别的第一预测概率,确定所有第一预测概率及其对应的预设说话人类别组成第一概率分布;
[0141]
第二分布确定单元,用于将音频特征输入训练好的性别分类器进行特征分类,得到对应每个预设性别类别的第二预测概率,确定所有第二预测概率及其对应的预设性别类别组成第二概率分布;
[0142]
类别确定单元,用于确定第一概率分布中最大的第一预测概率对应的预设说话人类别为参考说话人,确定第二概率分布中最大的第二预测概率对应的预设性别类别为参考性别;
[0143]
相应地,上述情感分类模块34包括:
[0144]
分布拼接单元,用于将音频特征、参考说话人、参考性别、第一概率分布和第二概率分布拼接后,输入训练好的情感分类器中进行分类。
[0145]
需要说明的是,上述模块、单元、子单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0146]
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个情感分类方法实施例中的步骤。
[0147]
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
[0148]
所称处理器可以是cpu,该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specificintegrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0149]
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0150]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模
块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(read-onlymemory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0151]
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
[0152]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0153]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0154]
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0155]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0156]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于人工智能的情感分类方法,其特征在于,所述情感分类方法包括:对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果;将所述拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征;将所述音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别;将所述音频特征、所述参考说话人和所述参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征所述原始音频的情感类别的分类结果。2.根据权利要求1所述的情感分类方法,其特征在于,所述对获取的原始音频进行预处理包括:对所述原始音频进行短时傅里叶变换,得到所述短时傅里叶变换频谱;采用预设映射函数对所述短时傅里叶频谱进行映射,确定映射结果为所述梅尔频谱,所述映射函数包含所述短时傅里叶频谱和所述梅尔频谱的映射关系;对所述梅尔频谱进行离散余弦变换,得到所述梅尔频率倒谱系数。3.根据权利要求2所述的情感分类方法,其特征在于,所述对所述原始音频进行短时傅里叶变换包括:将所述原始音频输入预设滤波器中进行滤波处理,将滤波结果按照预设帧长进行分帧处理,得到n个初始帧;采用预设的窗函数对每个初始帧进行加窗处理,对加窗处理结果进行短时傅里叶变换。4.根据权利要求1所述的情感分类方法,其特征在于,所述将所述拼接结果输入训练好的自注意力层中进行特征映射包括:将所述拼接结果输入训练好的第一前馈网络层进行特征聚合,得到第一特征聚合结果;将所述第一特征聚合结果和所述拼接结果叠加后,输入所述训练好的自注意力层中进行特征映射。5.根据权利要求4所述的情感分类方法,其特征在于,所述将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征包括:将所述注意力向量与所述拼接结果相乘,输入所述训练好的卷积层进行特征提取,将特征提取结果输入所述训练好的第二前馈网络层进行特征聚合,得到第二特征聚合结果;确定所述特征提取结果和所述第二特征聚合结果之和为所述音频特征。6.根据权利要求1所述的情感分类方法,其特征在于,所述训练好的注意力层包括训练好的第一嵌入矩阵、训练好的第二嵌入矩阵和训练好的第三嵌入矩阵;所述将所述拼接结果输入训练好的自注意力层中进行特征映射包括:将所述拼接结果与所述训练好的第一嵌入矩阵相乘,得到查询向量,将所述拼接结果与所述训练好的第二嵌入矩阵相乘,得到键值向量,将所述拼接结果与所述训练好的第三嵌入矩阵相乘,得到值向量;
将所述查询向量和所述键值向量的转置相乘,采用归一化指数函数对相乘结果进行归一化处理,将归一化处理结果和所述值向量相乘,确定相乘结果为所述特征映射结果。7.根据权利要求1至6任一项所述的情感分类方法,其特征在于,所述将所述音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别包括:将所述音频特征输入所述训练好的说话人分类器进行特征分类,得到对应每个预设说话人类别的第一预测概率,确定所有第一预测概率及其对应的预设说话人类别组成第一概率分布;将所述音频特征输入所述训练好的性别分类器进行特征分类,得到对应每个预设性别类别的第二预测概率,确定所有第二预测概率及其对应的预设性别类别组成第二概率分布;确定所述第一概率分布中最大的第一预测概率对应的预设说话人类别为所述参考说话人,确定所述第二概率分布中最大的第二预测概率对应的预设性别类别为所述参考性别;相应地,所述将所述音频特征、所述参考说话人和所述参考性别拼接后,输入训练好的情感分类器中进行分类包括:将所述音频特征、所述参考说话人、所述参考性别、所述第一概率分布和所述第二概率分布拼接后,输入训练好的情感分类器中进行分类。8.一种基于人工智能的情感分类装置,其特征在于,所述情感分类装置包括:预处理模块,用于对获取的原始音频进行预处理,将预处理得到的短时傅里叶变换频谱、梅尔频谱和梅尔频率倒谱系数拼接,得到拼接结果;特征提取模块,用于将所述拼接结果输入训练好的自注意力层中进行特征映射,确定特征映射结果为注意力向量,将所述注意力向量与所述拼接结果相乘,输入训练好的卷积层进行特征提取,得到音频特征;特征分类模块,用于将所述音频特征分别输入训练好的说话人分类器和训练好的性别分类器进行特征分类,得到参考说话人和参考性别;情感分类模块,用于将所述音频特征、所述参考说话人和所述参考性别拼接后,输入训练好的情感分类器中进行分类,得到表征所述原始音频的情感类别的分类结果。9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的情感分类方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的情感分类方法。
技术总结
本发明涉及人工智能技术领域,尤其涉及一种本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的情感分类方法、装置、计算机设备及介质。该方法对原始音频进行预处理,将预处理结果拼接后输入自注意力层,得到注意力向量,将注意力向量与拼接结果相乘,输入卷积层得到音频特征,将音频特征分别输入说话人分类器和性别分类器,得到参考说话人和参考性别,将音频特征、参考说话人和参考性别拼接后,输入情感分类器中进行分类,得到分类结果,能够提供更加丰富的音频信息,提高了情感分类的泛化能力,进而提高了情感分类的准确率,使得用户在应用金融服务平台时,能够获得较好的用户体验,降低金融服务平台被投诉的概率。降低金融服务平台被投诉的概率。降低金融服务平台被投诉的概率。
技术研发人员:张旭龙 王健宗 程宁 赵嘉豪
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
