语音情绪识别方法、装置、设备和介质与流程

未命名 07-27 阅读：116 评论：0

1.本公开涉及人工智能领域，更具体地，涉及一种语音情绪识别方法、装置、设备、介质和程序产品。

背景技术：

2.语音作为语言的第一属性，在语言中起决定性的支撑作用，不仅包含说话人所要表达的文本内容，也包含说话人所要表达的情绪信息。情绪是一种综合了人类行为、思乡和感觉的现象，语音情绪是指从语音信号中获取相应情绪信息。
3.相关技术中，一般基于某个单独的深度学习算法进行语音信号分析，得到情绪识别结果。
4.在实现本公开发明构思的过程中，发明人发现，采用单独某种深度学习算法进行语音信号分析，存在着准确率不高的问题，导致情绪识别结果不准确。

技术实现要素：

5.鉴于上述问题，本公开提供了语音情绪识别方法、装置、设备、介质和程序产品。
6.本公开实施例的一个方面，提供了一种语音情绪识别方法，包括：基于用户的第一语音信号提取出语音情绪特征；将所述语音情绪特征分别输入至n个情绪识别模型，获得所述n个情绪识别模型一一输出的n个情绪识别结果，n大于或等于2；根据所述用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与m种业务场景一一对应地m个投票机制，m大于或等于2；根据所述目标投票机制和所述n个情绪识别结果，确定最终情绪识别结果。
7.根据本公开的实施例，所述语音情绪识别方法应用于远程电话银行系统，在所述基于用户的第一语音信号提取出语音情绪特征之前，所述方法还包括：响应于所述用户使用所述远程电话银行系统与客服进行通话，采集所述第一语音信号。
8.根据本公开的实施例，提供滤波设备与所述客服的通讯设备连接，所述滤波设备包括dsp芯片，基于用户的第一语音信号提取出语音情绪特征包括：基于所述dsp芯片对所述第一语音信号进行滤波；以及基于滤波后的所述第一语音信号提取梅尔倒谱系数。
9.根据本公开的实施例，所述m种业务场景包括至少一种金融业务场景和至少一种非金融业务场景，所述m个投票机制中每个投票机制包括所述n个情绪识别模型各自的权重，任一个投票机制与其他至少一个投票机制之间具有至少一个不同的权重。
10.根据本公开的实施例，在确定所述目标投票机制之前，所述方法还包括：基于所述第一语音信号识别第一说话内容，和/或，基于除用户以外的至少一个人的第二语音信号识别第二说话内容；根据所述第一说明内容和/或所述第二说话内容确定所述当前业务场景。
11.根据本公开的实施例，所述目标投票机制包括所述n个情绪识别模型各自的权重，所述n个情绪识别结果包括n个情绪识别类别及各自对应的语音属性值；根据所述目标投票机制和所述n个情绪识别结果，确定最终情绪识别结果包括：将所述n个情绪识别模型各自
的权重分别与所述n个情绪识别结果各自对应的语音属性值相乘；对所述相乘的结果求和，得到最终语音属性值；根据所述最终语音属性值确定所述最终情绪识别结果。
12.根据本公开的实施例，根据所述最终语音属性值确定所述最终情绪识别结果包括：将所述最终语音属性值与s个情绪类别标准范围进行对比，s大于或等于1；根据对比结果确定所述最终情绪识别结果。
13.根据本公开的实施例，在获得所述n个情绪识别结果之前，所述方法还包括：根据所述m种业务场景确定一一对应地m个训练集，其中每个训练集包括对应业务场景中的语音情绪特征样本及情绪标签；利用所述每个训练集对待训练的n个情绪识别模型及对应的投票机制进行训练，每个投票机制包括n个情绪识别模型各自的可学习权重，所述训练包括调整n个情绪识别模型的模型参数和所述可学习权重；获得经训练的n个情绪识别模型和所述m个投票机制，n和m皆大于或等于2。
14.本公开实施例的另一方面提供了一种语音情绪识别装置，包括：特征提取模块，用于基于用户的第一语音信号提取出语音情绪特征；情绪识别模块，用于将所述语音情绪特征分别输入至n个情绪识别模型，获得所述n个情绪识别模型一一输出的n个情绪识别结果，n大于或等于2；机制确定模块，用于根据所述用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与m种业务场景一一对应地m个投票机制，m大于或等于2；最终识别模块，用于根据所述目标投票机制和所述n个情绪识别结果，确定最终情绪识别结果。
15.所述装置包括分别用于执行如上所述任意一项所述的方法的各个步骤的模块。
16.本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。
17.本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。
18.本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。
19.上述一个或多个实施例具有如下有益效果：相较于使用单独某种深度学习算法进行语音信号分析的方式，提供了多个情绪识别模型输出多个情绪识别结果，并结合具体的业务场景提供对应的投票机制。能够根据用户的当前业务场景，确定该业务场景对应的目标投票机制，从而确定出最终情绪识别结果，将多个情绪识别模型较好的融合一起，相对于其他采用单一分类算法的语音情绪分析，具有较高的准确率与鲁棒性。
附图说明
20.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
21.图1示意性示出了根据本公开实施例的语音情绪识别方法的应用场景图；
22.图2示意性示出了根据本公开实施例的语音情绪识别方法的流程图；
23.图3示意性示出了根据本公开实施例的若干个情绪识别结果的示意图；
24.图4示意性示出了根据本公开实施例的提取语音情绪特征的流程图；
25.图5示意性示出了根据本公开实施例的维纳滤波的示意图；
26.图6示意性示出了根据本公开实施例的提取梅尔倒谱系数的流程图；
27.图7示意性示出了根据本公开实施例的确定当前业务场景的流程图；
28.图8示意性示出了根据本公开实施例的确定最终情绪识别结果的流程图；
29.图9示意性示出了根据本公开实施例的预先获得投票机制的流程图；
30.图10示意性示出了根据本公开另一实施例的语音情绪识别方法的流程图；
31.图11示意性示出了根据本公开实施例的语音情绪识别装置的结构框图；以及
32.图12示意性示出了根据本公开实施例的适于实现语音情绪识别方法的电子设备的方框图。
具体实施方式
33.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
34.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
35.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
36.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
37.在目前银行业务广泛的实践中，通过远程电话语音形式办理业务的用户占据着相当大的一部分比例。例如银行用户经理通过与用户语音交谈过程中，了解用户通过语音反映出的用户情绪特征，可以更好的提升对用户的服务水平，提高金融产品营销成功率。在遇到用户紧急求助过程中，也能提前发现用户的异常行为，在第一时间进行干预与跟进。但是，相关技术中采用单独某种深度学习算法进行语音信号分析，存在着准确率不高的问题，导致情绪识别结果不准确。
38.本公开一些实施例提供了一种语音情绪识别方法，相较于使用单独某种深度学习算法进行语音信号分析的方式，提供了多个情绪识别模型输出多个情绪识别结果，并结合具体的业务场景提供对应的投票机制。能够根据用户的当前业务场景，确定该业务场景对应的目标投票机制，从而确定出最终情绪识别结果，将多个情绪识别模型较好的融合一起，相对于其他采用单一分类算法的语音情绪分析，具有较高的准确率与鲁棒性。
39.在本公开的技术方案中，在获取或采集用户个人信息(如包括语音信号)之前，均获取了用户的授权或同意。所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公
开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。
40.图1示意性示出了根据本公开实施例的语音情绪识别方法的应用场景图。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
41.如图1所示，根据该实施例的应用场景100可以包括用户110，网络120和客服系统130。网络120用以在用户110和客服系统130之间提供通讯或通信链路的介质。网络120可以包括各种连接类型，例如基站、有线、无线通信链路或者光纤电缆等等。
42.用户110可以使用通讯设备通过网络120与客服系统130交互，以取得客服人员的帮助。客服系统130例如可以包括多个客服人员131、132和133。具体地，用户1 10可以与多个客服人员中的一个客服人员进行语音通话，客服人员也可以使用通讯设备进行语音通话。用户110或客服人员可以使用手机拨号的方式进行通话，也可以使用具有语音功能的应用(如微信、qq等)进行通话。
43.需要说明的是，本公开实施例所提供的语音情绪识别一般可以由部署有客服系统130的服务器执行，也可以由每个客服的通讯设备执行，通讯设备可以是具有通话功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
44.应该理解，图1中的用户或客服的数目仅仅是示意性的。可以同时有多个用户接入客服系统，分别与多个用户通话。图1示出的客服场景，例如可以用于银行、酒店、乘车、订票、通讯业务或其他售前售后场景等用户服务中，如用户与客服实时通话，或仅是用户单方语音，而无需人工客服的智能客服系统。上述仅是示例性地，并不构成限制，例如还可以用于对语音信号进行实时情绪识别或异步情绪识别的其他场景中。
45.以下将基于图1描述的场景，通过图2～图10对本公开实施例的语音情绪识别方法进行详细描述。
46.图2示意性示出了根据本公开实施例的语音情绪识别方法的流程图。
47.如图2所示，该实施例的语音情绪识别方法包括操作s210～操作s240。
48.在操作s210，基于用户的第一语音信号提取出语音情绪特征。
49.在一些实施例中，语音情绪识别方法可以应用于远程电话银行系统，在基于用户的第一语音信号提取出语音情绪特征之前，可以响应于用户使用远程电话银行系统与客服进行通话，采集第一语音信号。例如实现电话音频采集并且分离双方音频信号，在客服通话中实时采集用户电话音频。
50.示例性地，语音情绪特征可以包括帧能量、帧强度、临界频带谱、倒谱系数、听觉谱、线性预测系数、基础频率和过零率等一个或多个。这些特征可以有效表示语音信号中与情绪相关的各种变化。
51.在操作s220，将语音情绪特征分别输入至n个情绪识别模型，获得n个情绪识别模型一一输出的n个情绪识别结果，n大于或等于2。
52.示例性地，n个情绪识别模型例如包括支持向量机分类器、决策树分类器、神经网络分类器等等。每个情绪识别模型都可以预先训练好，具体地，每个情绪识别模型都是预先基于训练样本的特征集合和不同情绪类别集合在语音情绪类别识别的训练过程中基于大量的语音信号样本的基础上训练好的。
53.其中，当向一个情绪识别模型输入语音情绪特征，该模型可以基于预先训练好的
模型参数预测输出一个情绪类别作为情绪识别结果。故每个情绪识别模型都将输出一个情绪类别，共得到n个情绪识别结果，其中任一个结果可与其他结果相同或不同。
54.情绪类别可以包括例如高兴、急迫、不耐烦、悲伤等等，本领域技术人员可以根据实际需求对情绪类别的种类和数目进行设置。
55.在操作s230，根据用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与m种业务场景一一对应地m个投票机制，m大于或等于2。
56.在一些实施例中，m种业务场景包括至少一种金融业务场景和至少一种非金融业务场景，m个投票机制中每个投票机制包括n个情绪识别模型各自的权重，任一个投票机制与其他至少一个投票机制之间具有至少一个不同的权重。
57.示例性地，至少一种金融业务场景可以包括存款、取款、转账、贷款、汇款、理财或支付等金融业务场景。至少一种非金融业务场景包括售后、咨询、投诉、预订、登记或退款等非金融业务场景。
58.由于每种业务场景中用户的需求不一致，且业务内容也不一致，故每个业务场景具有对应投票机制，具体地可以是根据各个情绪识别模型擅长的特征处理类型分配不同的权重，或是根据各个情绪识别模型输出的结果分配不同的权重。例如用户在投诉时，往往带有不耐烦甚至愤怒的情绪，该场景中则可以增加不耐烦或愤怒的权重，而降低如高兴的权重。
59.在操作s240，根据目标投票机制和n个情绪识别结果，确定最终情绪识别结果。
60.例如，有3个情绪识别模型：
61.模型1：基于语音能量特征和基础频率特征，擅长识别激动和平静情绪。
62.模型2：基于倒谱系数特征，擅长识别生气和厌恶情绪。
63.模型3：基于线性预测系数特征，擅长识别高兴和悲伤情绪。
64.在投诉场景下，目标投票机制为
65.模型1：权重0.3，它擅长的激动情绪较相关，平静情绪权重较低。
66.模型2：权重0.5，它擅长的生气和厌恶情绪较相关，较高权重。
67.模型3：权重0.2，它擅长的高兴和悲伤情绪在此场景下较不相关，较低权重。
68.然后将3个模型的识别结果进行加权求和，权重高的模型结果贡献更大，最终获得投诉场景下的情绪分类结果。
69.在加权求和过程中，使用多模型加权融合分类方法，该方法包括将每个模型的输出进行softmax归一化、根据业务场景分配权重、加权求和各模型输出的各情绪置信度以及对加权求和结果再进行softmax处理，最终得到与业务场景匹配的情绪分类结果。
70.因此可以根据各个模型擅长的特征类型，为不同业务场景分配不同的权重，实现场景自适应的多模型情绪识别与决策。
71.确定最终情绪识别结果例如是害怕。在判断出用户的情绪是害怕的情况下，将该结果实时展示给人工客服，使其能够及时领会，或是继续引导用户获得更多信息，最终判断用户是否处于危险境地。另一些实施例中，也可以由系统自动记录，并交由相关部门处理。
72.可以理解，操作s220和操作s230可以同时执行，也可以顺序执行。可以先执行操作s220后执行操作s230，也可以先执行操作s230后执行操作s220。
73.根据本公开的实施例，相较于使用单独某种深度学习算法进行语音信号分析的方
式，提供了多个情绪识别模型输出多个情绪识别结果，并结合具体的业务场景提供对应的投票机制。能够根据用户的当前业务场景，确定该业务场景对应的目标投票机制，从而确定出最终情绪识别结果，将多个情绪识别模型较好的融合一起，相对于其他采用单一分类算法的语音情绪分析，具有较高的准确率与鲁棒性。
74.在操作s220的其中一个实施例，n个情绪识别模型可以均为浅层网络，由于网络层数相对较少，可以较大程度减少整体的复杂度。
75.示例性地，对语音信号特征进行分类，由于语音信号存在时域、频域、能量等多种特征，可以运用三种不同的模型进行识别，具体地，n个情绪识别模型包括基于支持向量机的第一识别模型、基于卷积神经网络的第二识别模型和基于循环神经网络的第三识别模型，获得n个情绪识别模型一一输出的n个情绪识别结果包括：
76.获得第一识别模型输出的第一识别结果。
77.svm(支持向量机)具有良好的线性信号分类特征，对于语音信号中差距较大的情绪音频，有着较好的分类。线性计算复杂度低，有着快速分类的效果。图3示意性示出了根据本公开实施例的若干个情绪识别结果的示意图，可以将语音信号特征分为欢快、愤怒、平淡、害怕和悲伤5种类型。
78.获得第二识别模型输出的第二识别结果。
79.例如将mfcc特征根据时间信号，排列组成矩阵输入到第二识别模型，包括用于语音信号特征分类的卷积神经网络，框架为输入层、卷积层、池化层、卷积层、池化层、卷积层、全连接层和softmax输出层。训练时的损失函数采用交叉熵损失函数，激活函数采用relu函数。
80.获得第三识别模型输出的第三识别结果。
81.循环神经网络(recurrent neural network，rnn)是一类具有短期记忆能力的神经网络。在循环神经网络中，神经元不但可以接受其它神经元的信息，也可以接受自身的信息，形成具有环路的网络结构。和卷积神经网络相比，循环神经网络可以更加获取时域信号的特征，在文本与语音信号特征提取中有着广泛的运用。
82.lstm(长短期记忆神经)网络是常用的一种rnn网络，例如根据时间顺序输入mfcc特征，经由lstm门处理，并经由分类层输出结果。
83.图4示意性示出了根据本公开实施例的提取语音情绪特征的流程图。图5示意性示出了根据本公开实施例的维纳滤波的示意图。图6示意性示出了根据本公开实施例的提取梅尔倒谱系数的流程图。
84.如图4所示，在操作s210基于用户的第一语音信号提取出语音情绪特征包括操作s410～操作s420。其中，提供滤波设备与客服的通讯设备连接，滤波设备包括dsp芯片。
85.示例性地，滤波设备可以是通过usb接口以热插拔的形式插入到通讯设备使用，从而提供滤波功能，并可以不对通讯设备做出较大改进，节省改造成本。
86.在操作s410，基于dsp芯片对第一语音信号进行滤波。
87.可以运用硬件dsp芯片实现维纳滤波，对噪声进行过滤，从而将采集信号中的噪声进行滤除。语音通话中主要干扰是非稳态噪声，主要包括开关门的声音、背景的人声、门铃声等等，且非稳态噪声的统计特性随时间而变化。维纳滤波能够把实际信号从带有噪声的观测量中提取出来，可以用于非稳态噪声滤波。参照图5，其中y(t)为实时语音信号，w(t)为
语音通话者实时语音，n(t)为实时噪声信号。通过维纳滤波h(t)，获取过滤后的信号x(t)。
88.在操作s420，基于滤波后的第一语音信号提取梅尔倒谱系数。
89.基于通过dsp芯片处理获取到的滤波信号，进行第一语音信号中的特征提取。在语音信号分析方面，语音情绪特征包括梅尔倒谱系数(mel-scale frequency cepstral coefficients，简称mfcc)。
90.参照图6，提取mfcc特征的过程包括：输入滤波后的第一语音信号(操作s601)。先进行预加重、分帧和加窗(操作s602)，预加重和加窗也有滤波的效果。然后对每一个短时分析窗，通过fft(快速傅里叶变换)得到对应的频谱(操作s603)。接着将上面的频谱取绝对值或平方值(操作s604)，再通过mel滤波器组得到mel频谱(操作s605)。在mel频谱上面进行倒谱分析，取对数(操作s606)，做逆变换，实际逆变换一般是通过dct离散余弦变换来实现，取dct后的第2个到第13个系数作为mfcc系数(操作s607)，获得mel频率倒谱系数mfcc，这帧语音的特征包括这个mfcc特征向量(操作s608)。
91.根据本公开的实施例，采用dsp芯片实现信号处理，具有快速处理数字信号特征，减少在整体系统中滤波损耗的时间的效果，提取出准确的梅尔倒谱系数。
92.在另一些实施例中，用户的第一语音信号是通过滤波得到的，实际上用户端还有其他声音，当确定最终情绪识别结果是害怕，则用户可能遭受到威胁，该情况下，对用户端的声音重新滤波，确定除第一语音信号以外的第三语音信号，并对第三语音信号识别说话内容，或提取语音情绪特征。在用户周围的环境中，该第三语音信号可能来自对用户做出威胁的人，也可能是与用户处于相同境地的人，能够提供更多的信息辅助判断。其中，对第三语音信号的说话内容或情绪识别可以与第一语音信号相同，在此不再赘述。
93.图7示意性示出了根据本公开实施例的确定当前业务场景的流程图。
94.在确定目标投票机制之前，如图7所示，该实施例的确定当前业务场景包括操作s710～操作s720。
95.在操作s710，基于第一语音信号识别第一说话内容，和/或，基于除用户以外的至少一个人的第二语音信号识别第二说话内容。
96.例如，除用户以外的至少一个人可以包括客服，或该用户旁边的其他人的声音。另外，还可以提取系统提示音的第三语音信号。
97.在操作s720，根据第一说明内容和/或第二说话内容确定当前业务场景。
98.例如基于用户的第一说话内容“您好，我想进行存款业务”，基于客服的第二说话内容“您好，请告诉我您的卡号和存款金额”。根据用户的语音，判断出当前业务场景是“存款”。根据客服的语音，系统进一步确认当前业务场景是“存款”。通过识别用户和客服双方的多轮语音交互，系统成功判断出当前业务场景是存款业务。通过识别不同人的多段语音，理解语义，并根据语音交互判断出存款的业务场景，实现了基于人与人对话的业务场景判断。
99.图8示意性示出了根据本公开实施例的确定最终情绪识别结果的流程图。
100.如图8所示，在操作s240确定最终情绪识别结果包括操作s810～操作s830。目标投票机制包括n个情绪识别模型各自的权重，n个情绪识别结果包括n个情绪识别类别及各自对应的语音属性值。语音属性值可以包括基准频率或振幅等的值。
101.在操作s810，将n个情绪识别模型各自的权重分别与n个情绪识别结果各自对应的
语音属性值相乘。
102.在操作s820，对相乘的结果求和，得到最终语音属性值。
103.例如，根据上述第一识别模型、第二识别模型和第三识别模型，由于在不同场景中，各个模型的效果各有优势。提出针对不同的业务场景设置分类器输出权重值，进行同维度相加。例如第一识别结果中类别为欢快，语音属性值为第一预测频率，第二识别结果中类别为欢快，语音属性值为第二预测频率，第三识别结果中类别为平淡，语音属性值为第三预测频率。各预测频率即对应情绪下的基准频率。
104.金融业务场景中针对金融业务办理，用户的时域信号特征不显著，设置：
105.result＝0.3*a+0.4*b+0.3*c。
106.非金融业务场景中针对非金融业务办理，用户的咨询语序前后时域信号特征较为显著，设置：
107.result＝0.3*a+0.3*b+0.4*c。
108.上述result为最终属性值，a、b和c分别为第一预测频率、第二预测频率和第三预测频率。与各频率相乘的值分别为各自的权重。
109.在操作s830，根据最终语音属性值确定最终情绪识别结果。
110.在一些实施例中，设计投票机制浅层神经网络，包括输入层、隐藏层和softmax输出层。将最终语音属性值送入神经网络输入层，通过softmax输出层将预测结果情绪概率最大的值进行输出。
111.在另一些实施例中，将最终语音属性值与s个情绪类别标准范围进行对比，s大于或等于1。根据对比结果确定最终情绪识别结果。
112.最终语音属性值作为基准频率值，s个情绪类别标准范围包括预置的s种情绪类别对应的标准基准频率范围。例如：高兴为180-220hz，生气为150-180hz，厌恶为140-160hz，悲伤为110-130hz，激动为200-250hz，平静为90-110hz。尤其说明，上述各个情绪类别对应的范围仅为示例，本领域技术人员可以根据实际范围进行设置，也可以灵活调整范围区间大小。
113.例如最终语音属性值为185hz，则与各情绪类别标准属性范围进行对比，根据对比结果，系统判断语音信号的最终情绪识别结果为“高兴”。
114.根据本公开的实施例，通过最终属性值与标准范围的比较，直接得出语音情绪的判断，无需训练投票机制浅层神经网络，节省了训练成本。
115.在另一些实施例中，投票机制可以是少数服从多数的机制，例如假设使用5个情绪识别模型来识别第一语音信号的情绪类别。在一种情况下，假设其中三个情绪识别模型都输出同一情绪类别(例如，高兴)，而其中一个情绪识别模型输出另一种不同的情绪类别(例如，不耐烦)，其中一个情绪识别模型输出又一种不同的情绪类别(例如，悲伤)，那么根据这5个情绪识别模型的投票，将识别出唯一的情绪类别，即高兴。在这种情况下，将高兴这个情绪类别作为由多个情绪识别模型识别出的最终情绪类别。
116.在另一些实施例中，投票机制可以是少数服从多数的机制，而不同业务场景下，投票机制之间设置各个模型的权重不同，即不同的模型在不同业务场景下具有不同的票数。假设上述输出高兴的3个情绪识别模型的权重分别为1、1和2，输出不耐烦的1个情绪识别模型的权重为3，输出悲伤的1个情绪识别模型的权重为3。高兴的票数为4，其将作为由多个情
绪识别模型识别出的最终情绪类别。如果两种情绪类别的票数相同，则重新识别。
117.图9示意性示出了根据本公开实施例的预先获得投票机制的流程图。
118.在获得n个情绪识别结果之前，如图9所示，该实施例的预先获得投票机制包括操作s910～操作s930。
119.在操作s910，根据m种业务场景确定一一对应地m个训练集，其中每个训练集包括对应业务场景中的语音情绪特征样本及情绪标签。
120.示例性地，如存款、取款、转账、贷款、汇款、理财或支付等，其中每个金融业务场景对应一个训练集，该训练集包括多个情绪类别的语音情绪特征样本及情绪标签。如售后、咨询、投诉、预订、登记或退款等，其中每个非金融业务场景对应一个训练集，该训练集包括多个情绪类别的语音情绪特征样本及情绪标签。
121.在操作s920，利用每个训练集对待训练的n个情绪识别模型及对应的投票机制进行训练，每个投票机制包括n个情绪识别模型各自的可学习权重，训练包括调整n个情绪识别模型的模型参数和可学习权重。
122.例如每个业务场景下单独训练，对于每个语音情绪特征样本，根据n个情绪识别模型输出的n个情绪识别结果，利用对应的投票机制得到最终情绪识别结果，然后计算与该样本的情绪标签之间的损失函数值。根据损失函数值的大小，运行反向传播算法调整n个情绪识别模型的模型参数和可学习权重。
123.在操作s930，获得经训练的n个情绪识别模型和m个投票机制，n和m皆大于或等于2。
124.在该实施例中，执行操作s210～操作s240过程中，可以先执行操作s230确定业务场景，然后调用基于该业务场景下训练得到的n个情绪识别模型和投票机制。即每个业务场景可以对应一套经训练的n个情绪识别模型和投票机制。
125.根据本公开的实施例，在特定业务场景中，用户的语音和情绪呈现出共性规律，针对该场景训练的模型能更好地学习到这些规律，从而在该场景下有更高的识别性能。使得投票机制更加符合场景需求，不同业务场景对应的用户情绪关注重点不同，投票机制可以针对场景做出贡献不同的权重设定，以得到用户在该场景下真实的情绪体验。
126.图10示意性示出了根据本公开另一实施例的语音情绪识别方法的流程图。
127.参照图10，在语音客服交谈中，用户语音信号输入(操作s1010)。接着进行音频采集，将用户模拟信号转换为数字信号(操作s1020)。获取用户数字信号后，使用dsp芯片进行维纳滤波，去除噪声信号(操作s1030)。去噪后的信号进行语音情绪特征提取(操作s1040)。信号特征完成提取后，进行语音情绪特征分类，获取语音情绪分类判断初步结果(操作s1050)。接着进入投票阶段，通过当前业务场景的投票机制将用户语音情绪判断结果输出(操作s1060)。除dsp芯片为硬件外，音频采集、语音情绪特征提取、语音情绪特征分类、业务场景识别和投票机制可以分别对应有各自的软件系统。
128.基于上述语音情绪识别方法，本公开还提供了一种语音情绪识别装置。以下将结合图11对该装置进行详细描述。
129.图11示意性示出了根据本公开实施例的语音情绪识别装置的结构框图。
130.如图11所示，该实施例的语音情绪识别装置1100包括特征提取模块1110、情绪识别模块1120、机制确定模块1130和最终识别模块1140。
131.特征提取模块1110可以执行操作s210，用于基于用户的第一语音信号提取出语音情绪特征。
132.在一些实施例中，特征提取模块1110可以执行操作s410～操作s420，在此不再赘述。
133.情绪识别模块1120可以执行操作s220，用于将语音情绪特征分别输入至n个情绪识别模型，获得n个情绪识别模型一一输出的n个情绪识别结果，n大于或等于2。
134.机制确定模块1130可以执行操作s230，用于根据用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与m种业务场景一一对应地m个投票机制，m大于或等于2。
135.最终识别模块1140可以执行操作s240，用于根据目标投票机制和n个情绪识别结果，确定最终情绪识别结果。
136.在一些实施例中，最终识别模块1140可以执行操作s810～操作s830，在此不再赘述。
137.在一些实施例中，语音情绪识别装置1100可以包括场景确认模块，用于执行操作s710～操作s720，在此不再赘述。
138.在一些实施例中，语音情绪识别装置1100可以包括训练模块，用于执行操作s910～操作s930，在此不再赘述。
139.需要说明的是，语音情绪识别装置1100包括分别用于执行如上图2～图10描述的任意一个实施例的各个步骤的模块。装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。
140.根据本公开的实施例，特征提取模块1110、情绪识别模块1120、机制确定模块1130和最终识别模块1140中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。
141.根据本公开的实施例，特征提取模块1110、情绪识别模块1120、机制确定模块1130和最终识别模块1140中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，特征提取模块1110、情绪识别模块1120、机制确定模块1130和最终识别模块1140中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
142.图12示意性示出了根据本公开实施例的适于实现语音情绪识别方法的电子设备的方框图。
143.如图12所示，根据本公开实施例的电子设备1200包括处理器1201，其可以根据存储在只读存储器(rom)1202中的程序或者从存储部分1208加载到随机访问存储器(ram)1 203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如
cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
144.在ram 1203中，存储有电子设备1200操作所需的各种程序和数据。处理器1201、rom 1202以及ram 1203通过总线1204彼此相连。处理器1201通过执行rom 1202和/或ram 1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除rom 1202和ram1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
145.根据本公开的实施例，电子设备1200还可以包括输入/输出(i/o)接口1205，输入/输出(i/o)接口1205也连接至总线1204。电子设备1200还可以包括连接至i/o接口1205的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1206。包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1207。包括硬盘等的存储部分1208。以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
146.本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的。也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
147.根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 1202和/或ram 1203和/或rom 1202和ram 1203以外的一个或多个存储器。
148.本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。
149.在该计算机程序被处理器1201执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
150.在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1209被下载和安装，和/或从可拆卸介质1211被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
151.在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安
装，和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
152.根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c++，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
153.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
154.本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
155.以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

技术特征：
1.一种语音情绪识别方法，包括：基于用户的第一语音信号提取出语音情绪特征；将所述语音情绪特征分别输入至n个情绪识别模型，获得所述n个情绪识别模型一一输出的n个情绪识别结果，n大于或等于2；根据所述用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与m种业务场景一一对应地m个投票机制，m大于或等于2；根据所述目标投票机制和所述n个情绪识别结果，确定最终情绪识别结果。2.根据权利要求1所述的方法，其中，所述语音情绪识别方法应用于远程电话银行系统，在所述基于用户的第一语音信号提取出语音情绪特征之前，所述方法还包括：响应于所述用户使用所述远程电话银行系统与客服进行通话，采集所述第一语音信号。3.根据权利要求2所述的方法，其中，提供滤波设备与所述客服的通讯设备连接，所述滤波设备包括dsp芯片，基于用户的第一语音信号提取出语音情绪特征包括：基于所述dsp芯片对所述第一语音信号进行滤波；以及基于滤波后的所述第一语音信号提取梅尔倒谱系数。4.根据权利要求2所述的方法，其中，所述m种业务场景包括至少一种金融业务场景和至少一种非金融业务场景，所述m个投票机制中每个投票机制包括所述n个情绪识别模型各自的权重，任一个投票机制与其他至少一个投票机制之间具有至少一个不同的权重。5.根据权利要求1所述的方法，其中，在确定所述目标投票机制之前，所述方法还包括：基于所述第一语音信号识别第一说话内容，和/或，基于除用户以外的至少一个人的第二语音信号识别第二说话内容；根据所述第一说明内容和/或所述第二说话内容确定所述当前业务场景。6.根据权利要求5所述的方法，其中，所述目标投票机制包括所述n个情绪识别模型各自的权重，所述n个情绪识别结果包括n个情绪识别类别及各自对应的语音属性值；根据所述目标投票机制和所述n个情绪识别结果，确定最终情绪识别结果包括：将所述n个情绪识别模型各自的权重分别与所述n个情绪识别结果各自对应的语音属性值相乘；对所述相乘的结果求和，得到最终语音属性值；根据所述最终语音属性值确定所述最终情绪识别结果。7.根据权利要求6所述的方法，其中，根据所述最终语音属性值确定所述最终情绪识别结果包括：将所述最终语音属性值与s个情绪类别标准范围进行对比，s大于或等于1；根据对比结果确定所述最终情绪识别结果。8.根据权利要求1所述的方法，其中，在获得所述n个情绪识别结果之前，所述方法还包括：根据所述m种业务场景确定一一对应地m个训练集，其中每个训练集包括对应业务场景中的语音情绪特征样本及情绪标签；利用所述每个训练集对待训练的n个情绪识别模型及对应的投票机制进行训练，每个
投票机制包括n个情绪识别模型各自的可学习权重，所述训练包括调整n个情绪识别模型的模型参数和所述可学习权重；获得经训练的n个情绪识别模型和所述m个投票机制，n和m皆大于或等于2。9.一种语音情绪识别装置，包括：特征提取模块，用于基于用户的第一语音信号提取出语音情绪特征；情绪识别模块，用于将所述语音情绪特征分别输入至n个情绪识别模型，获得所述n个情绪识别模型一一输出的n个情绪识别结果，n大于或等于2；机制确定模块，用于根据所述用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与m种业务场景一一对应地m个投票机制，m大于或等于2；最终识别模块，用于根据所述目标投票机制和所述n个情绪识别结果，确定最终情绪识别结果。10.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～8中任一项所述的方法。11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～8中任一项所述的方法。12.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～8中任一项所述的方法。

技术总结
本公开提供了一种语音情绪识别方法，涉及人工智能领域。该方法包括：基于用户的第一语音信号提取出语音情绪特征；将所述语音情绪特征分别输入至N个情绪识别模型，获得所述N个情绪识别模型一一输出的N个情绪识别结果，N大于或等于2；根据所述用户的当前业务场景，确定该业务场景对应的目标投票机制，其中，预先提供与M种业务场景一一对应地M个投票机制，M大于或等于2；根据所述目标投票机制和所述N个情绪识别结果，确定最终情绪识别结果。本公开还提供了一种语音情绪识别装置、设备、存储介质和程序产品。程序产品。程序产品。

技术研发人员：肖湘粤张琪王竟成郑天文
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2023.05.05
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：中药提取液、制备方法及其在口服液中的应用与流程 下一篇：一种高储能密度PLZT四方相反铁电陶瓷及其制备方法

语音情绪识别方法、装置、设备和介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音情绪识别方法、装置、设备和介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表