一种基于鲁棒性特征的外呼客户识别方法及系统与流程
未命名
07-13
阅读:124
评论:0
1.本发明涉及安全信息认证及数据自动化处理技术领域,尤其涉及一种基于鲁棒性特征的外呼客户识别方法及系统。
背景技术:
2.智能外呼技术在金融行业具有广泛的应用。智能外呼技术使用合成的机器人语音与客户进行通话,用于代替工作人员进行电话回访,节省了大量人力。同时,智能外呼采集的音频可用于进行声纹比对,以发现潜在的黑中介等“不法分子”。
3.但是,受技术限制,当前智能外呼场景保存的音频通常为单通道音频,由于音频中同时包含外呼机器人和客户的声音,因此在进行声纹比对之前需要先使用分割聚类技术从音频中分离出客户声音和外呼机器人声音,然后选择客户对应的声音进行声纹比对。
4.为了改善声纹比对的技术效果,现有研究给出了多方面的尝试。例如,公布号为cn108416592a、名称为一种高速语音识别方法的发明专利申请,以及公布号为cn108550368a、名称为一种语音数据的处理方法的发明专利申请,针对pos机场景下的基于语音识别的身份认证方法,为了提升pos机场景身份信息认证的安全性,通过pos机终端采集语音,然后使用pos机客户端通过语音识别技术进行用户身份验证,并生成密钥传递至支付平台。但在实际处理中,对于音频文件等的处理需要依赖于pos机终端、客户端和支付平台的交互,并完全依赖于语音识别技术的可靠性,判断准确性和安全性以及执行效率均存在不足。
5.公布号为cn113111759a、名称为双录数据质检中的客户确认检测方法及装置的发明专利申请,公开了一种销售金融产品场景下的双录质检方法,用于提升质检通过率。该方法首先通过获取双录数据,然后分解为视频数据和音频数据,对视频数据和音频数据分别进行动作检测和文本匹配,生成客户确认检测结果。但是在使用中,该技术方案需要同时涉及使用动作检测技术和文本匹配技术,即需要同时使用视频数据和音频数据,对适用场景造成了较大限制,使用成本偏高。
6.公布号为cn114822550a、名称为人工客服电话监控方法、装置、电子设备及存储介质的发明专利申请,公开了一种用于监控客服通话是否正常的技术方案,特别是通过实时获取客服通话数据,并根据文本匹配方法和音素特征匹配方法判断通话状态。根据其公开的内容,该方法属于一种典型的两阶段匹配判断方法,即先进行文本匹配,若文本匹配提示不正常,再进行音素匹配。在实际应用中,文本匹配与音素匹配之间并未提供必须的关联性,而仅作为判断手段的双重保险,实质上任一种匹配方式成功均能独立输出匹配正常结果,导致其在匹配判断过程中的准确性与安全性存在不足。
7.公布号为cn107221333a、名称为一种身份认证的方法和装置的发明专利申请,公开了一种基于声纹匹配和文本匹配的身份认证方法,特别是通过提取音频的声纹特征和文本特征进行匹配以确定客户身份。但是,该技术方案并未针对现实中获得的音频数据所存在的复杂噪声特性进行针对性处理,使其得到的特征缺乏鲁棒性,抗干扰能力较差,因此模
型的准确率较低,不适用于重要领域的广泛应用。类似的,公布号为cn109242492a、名称为针对声音模仿的声纹识别支付信息防伪方法的发明专利申请,同样存在特征缺乏鲁棒性,抗干扰能力较差的技术问题。
8.由此可知,由于现实中的音频数据普遍存在着信道特性差异大,扬声器和输入设备之间的差异大,以及环境噪声等问题,虽然现有技术已经有公开基于声纹匹配和文本匹配的技术用于身份识别等相关领域,在一定程度上能够实现身份识别的技术效果,但是现有技术普遍存在缺乏鲁棒性、抗干扰能力差、识别准确率较低的技术问题,不能完全满足广泛使用的技术需求。
技术实现要素:
9.为解决现有技术的不足,本发明提出一种基于鲁棒性特征的外呼客户识别方法及系统,针对智能外呼音频的客户识别问题,采用了声纹匹配和文本匹配双模态结合的方法,通过提取鲁棒性的声纹特征和文本特征,使得模型抗干扰能力更强,具有更高的准确率,相比于单独使用声纹匹配或者文本匹配的情况来说,抗噪声干扰能力更强,准确率更高。在实际使用中,可以通过应用本发明代替人工自动化识别音频是否为客户,极大地节省了人力成本和时间成本。
10.为实现以上目的,本发明所采用的技术方案包括:
11.一种基于鲁棒性特征的外呼客户识别方法,其特征在于,包括:
12.s1、获取源音频数据,对源音频数据执行预处理获得第一音频文件;
13.s2、使用k种预设的语音增强算法分别对第一音频文件进行增强处理,获得第二音频文件集合,所述k大于等于2;
14.s3、对第二音频文件集合执行声纹特征提取操作,获得第二声纹特征集合;
15.s4、对第二声纹特征集合依次使用多头注意力层、归一化处理层和多层感知机层进行处理,并使用隐马尔可夫模型计算得到对应的第三声纹特征,所述多头注意力层包括式1,
16.multihead(q,k,v)=concat(head1,...,headh)wo[0017][0018][0019]
其中,查询项q∈[f0,f1,f2,...,fk],值项v∈[f0,f1,f2,...,fk],键项k∈[f0,f1,f2,...,fk],和wo分别为可学习参数矩阵,dk为查询项q的维度;
[0020]
s5、对第一音频文件执行文本特征提取操作,获得文本特征图;
[0021]
s6、对文本特征图执行文本内容识别操作,获得文本内容,所述文本内容识别操作包括变分信息瓶颈处理,所述变分信息瓶颈处理包括式2,
[0022]
vib=fc(mean(fc (x))+var(fc(x))
·
n) 式2
[0023]
其中,fc表示全连接层,mean表示均值,var表示方差,n为(0,mean)范围内的随机数;
[0024]
s7、计算第三声纹特征与预设外呼机器人声纹特征之间的声纹余弦相似度,计算
文本内容与预设标准文本之间的文本余弦相似度;
[0025]
s8、使用预设权重加权组合声纹余弦相似度与文本余弦相似度,获得评价相似度,判断评价相似度是否大于预设评价阈值,当判断评价相似度大于预设评价阈值时输出外呼机器人评价结果,当判断评价相似度不大于预设评价阈值时输出客户评价结果。
[0026]
进一步地,所述预处理包括:
[0027]
对源音频数据执行重采样操作;
[0028]
切除重采样后源音频数据中静音片段;
[0029]
组合处理后的音频数据获得第一音频文件。
[0030]
进一步地,所述步骤s3包括:
[0031]
提取第二音频文件集合中各音频文件对应的频域特征;
[0032]
对频域特征执行卷积操作与池化操作,采样得到第二声纹特征集合。
[0033]
进一步地,所述步骤s5包括:
[0034]
提取第一音频文件对应的频域特征;
[0035]
将频域特征输入带残差连接的卷积层得到文本特征图。
[0036]
进一步地,所述文本内容识别操作包括:
[0037]
将文本特征图划分为g个特征子空间;
[0038]
分别对各特征子空间应用逐通道卷积和逐点卷积,并连接各特征子空间获得更新后的第二文本特征图;
[0039]
使用池化层对第二文本特征图进行特征聚合,并执行变分信息瓶颈处理,获得文本特征;
[0040]
对文本特征使用隐马尔可夫模型处理得到文本内容。
[0041]
进一步地,所述语音增强算法包括音量增强、速度增强、音调增强、移动增强、自然噪声增强、人工噪声增强、时域遮掩和频域遮掩。
[0042]
本发明还涉及一种基于鲁棒性特征的外呼客户识别系统,其特征在于,包括:
[0043]
音频预处理模块,用于对源音频数据执行预处理获得第一音频文件;
[0044]
音频增强处理模块,用于使用k种预设的语音增强算法分别对第一音频文件进行增强处理,获得第二音频文件集合;
[0045]
声纹特征提取模块,用于对第二音频文件集合执行声纹特征提取操作,获得第二声纹特征集合;
[0046]
声纹特征计算模块,用于对第二声纹特征集合依次使用多头注意力层、归一化处理层和多层感知机层进行处理,并使用隐马尔可夫模型计算得到对应的第三声纹特征;
[0047]
文本特征提取模块,用于对第一音频文件执行文本特征提取操作,获得文本特征图;
[0048]
文本内容识别模块,用于对文本特征图执行文本内容识别操作,获得文本内容;
[0049]
相似度计算模块,用于计算第三声纹特征与预设外呼机器人声纹特征之间的声纹余弦相似度,计算文本内容与预设标准文本之间的文本余弦相似度;
[0050]
判断模块,用于使用预设权重加权组合声纹余弦相似度与文本余弦相似度,获得评价相似度,判断评价相似度是否大于预设评价阈值,当判断评价相似度大于预设评价阈值时输出外呼机器人评价结果,当判断评价相似度不大于预设评价阈值时输出客户评价结
果。
[0051]
本发明还涉及一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
[0052]
本发明还涉及一种电子设备,其特征在于,包括处理器和存储器;
[0053]
所述存储器,用于存储第三声纹特征、外呼机器人声纹特征、文本内容和标准文本;
[0054]
所述处理器,用于通过调用第三声纹特征、外呼机器人声纹特征、文本内容和标准文本,执行上述的方法。
[0055]
本发明还涉及一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现上述方法的步骤。
[0056]
本发明的有益效果为:
[0057]
采用本发明所述基于鲁棒性特征的外呼客户识别方法及系统,针对智能外呼音频的客户识别问题,采用了声纹匹配和文本匹配双模态结合的方法,通过提取鲁棒性的声纹特征和文本特征,使得模型抗干扰能力更强,具有更高的准确率,相比于单独使用声纹匹配或者文本匹配的情况来说,抗噪声干扰能力更强,准确率更高。在实际使用中,可以通过应用本发明代替人工自动化识别音频是否为客户,极大地节省了人力成本和时间成本。
附图说明
[0058]
图1为本发明基于鲁棒性特征的外呼客户识别方法流程示意图。
[0059]
图2为本发明基于鲁棒性特征的外呼客户识别系统结构示意图。
具体实施方式
[0060]
为了更清楚的理解本发明的内容,将结合附图和实施例详细说明。
[0061]
本发明第一方面涉及一种步骤流程如图1所示的基于鲁棒性特征的外呼客户识别方法,包括:
[0062]
s1、获取源音频数据,对源音频数据执行预处理获得第一音频文件。
[0063]
具体的,读取原始音频x,对音频进行预处理,包括重采样和静音片段切除,得到预处理之后的音频x0。
[0064]
s2、使用k种预设的语音增强算法分别对第一音频文件进行增强处理,获得第二音频文件集合,所述k大于等于2。其中,语音增强算法可以优选的包括音量增强、速度增强、音调增强、移动增强、自然噪声增强、人工噪声增强、时域遮掩和频域遮掩中任意多个适合的增强处理过程。
[0065]
例如,音频x0经过k种语音增强算法,得到音频x1,x2,...,xk。
[0066]
s3、对第二音频文件集合执行声纹特征提取操作,包括提取第二音频文件集合中各音频文件对应的频域特征,对频域特征执行卷积操作与池化操作,获得第二声纹特征集合。
[0067]
具体的,音频x0,x1,x2,...,xk经过预加重、分帧、加窗、短时傅里叶变换和梅尔滤波,得到各个音频对应的fbank特征。
[0068]
s4、对第二声纹特征集合依次使用多头注意力层、归一化处理层和多层感知机层
进行处理,并使用隐马尔可夫模型计算得到对应的第三声纹特征,所述多头注意力层包括式1,
[0069]
multihead(q,k,v)=concat(head1,...,headh)wo[0070][0071][0072]
其中,查询项q∈[f0,f1,f2,...,fk],值项v∈[f0,f1,f2,...,fk],键项k∈[f0,f1,f2,...,fk],和wo分别为可学习参数矩阵,dk为查询项q的维度。
[0073]
多头注意力机制可以从k种语音增强算法中学习到抗噪声干扰能力最强的一种,使得提取的声纹特征鲁棒性较好。
[0074]
s5、对第一音频文件执行文本特征提取操作,获得文本特征图。
[0075]
具体的,提取第一音频文件对应的频域特征;将频域特征输入带残差连接的卷积层得到文本特征图。
[0076]
例如,对所述预处理之后的音频x0经过预加重、分帧、加窗、短时傅里叶变换和梅尔滤波,得到fbank特征,然后将fbank特征输入带残差连接的卷积层得到特征图f
r0
。
[0077]
s6、对文本特征图执行文本内容识别操作,获得文本内容,所述文本内容识别操作包括变分信息瓶颈处理,所述变分信息瓶颈处理包括式2,
[0078]
vib=fc(mean(fc (x))+var(fc(x))
·
n) 式2
[0079]
其中,fc表示全连接层,mean表示均值,var表示方差,n为(0,mean)范围内的随机数。
[0080]
其中,文本内容识别操作包括:将文本特征图划分为g个特征子空间;分别对各特征子空间应用逐通道卷积和逐点卷积,并连接各特征子空间获得更新后的第二文本特征图;使用池化层对第二文本特征图进行特征聚合,并执行变分信息瓶颈处理,获得文本特征;对文本特征使用隐马尔可夫模型处理得到文本内容。
[0081]
具体的,将特征图划分为g个互斥组,例如,g个特征子空间,每个组包含g个特征图。对每个特征子空间使用逐通道卷积和逐点卷积,再连接每个特征子空间得到新的特征图f
r1
。使用池化层对特征图f
r1
进行特征聚合,再使用vib(variational information bottleneck)减少无关信息,得到特征fr,再使用hmm(隐马尔科夫)得到文本内容tr。
[0082]
特征图划分、逐通道卷积和逐点卷积方式在每个特征子空间学习不同的注意力图。在不同的注意力图中分配不同的权重来学习不同的重要性,从而生成多尺度、多频的特征。vib可以减少噪声干扰信息,提取的特征鲁棒性较好。
[0083]
s7、计算第三声纹特征与预设外呼机器人声纹特征之间的声纹余弦相似度,计算文本内容与预设标准文本之间的文本余弦相似度。
[0084]
具体的,对声纹特征fv和预提取智能外呼机器人语音的声纹特征f
vr
通过式3所示计算余弦相似度s1,f
vr
的的提取方式与前述步骤中fv的提取方式一致。将所述文本数据tr编码为特征向量u,将预设标准文本(例如,“这里是xx银行”)使用相同的编码方式编码为向量v,编码方式包括使用深度学习模型进行编码,例如sbert、vsm或gpt等,通过式4所示计算u,v的余弦相似度s2。
·
表示向量乘积,||f
vr
||2表示f
vr
的l2范数,同理,||fr||2表示fr的l2范
数,||u||2表示u的l2范数,||v||2表示v的l2范数。
[0085][0086][0087]
s8、使用预设权重加权组合声纹余弦相似度与文本余弦相似度,获得评价相似度,判断评价相似度是否大于预设评价阈值,当判断评价相似度大于预设评价阈值时输出外呼机器人评价结果,当判断评价相似度不大于预设评价阈值时输出客户评价结果。
[0088]
具体的,涉及权重的评价相似度s计算可以采用如式5所示方式执行,权重值w1与w2可以根据语音内容和源声音数据进行针对性调整。
[0089]
s=w1s1+w2s2ꢀꢀꢀ
式5
[0090]
采用上述方法对语音通话内容进行身份识别,可以从音频中提取更加鲁棒性的特征,极大地减少噪声的干扰,提升识别准确率。
[0091]
本发明另一方面还涉及一种基于鲁棒性特征的外呼客户识别系统,其结构如图2所示,包括:
[0092]
音频预处理模块,用于对源音频数据执行预处理获得第一音频文件;
[0093]
音频增强处理模块,用于使用k种预设的语音增强算法分别对第一音频文件进行增强处理,获得第二音频文件集合;
[0094]
声纹特征提取模块,用于对第二音频文件集合执行声纹特征提取操作,获得第二声纹特征集合;
[0095]
声纹特征计算模块,用于对第二声纹特征集合依次使用多头注意力层、归一化处理层和多层感知机层进行处理,并使用隐马尔可夫模型计算得到对应的第三声纹特征;
[0096]
文本特征提取模块,用于对第一音频文件执行文本特征提取操作,获得文本特征图;
[0097]
文本内容识别模块,用于对文本特征图执行文本内容识别操作,获得文本内容;
[0098]
相似度计算模块,用于计算第三声纹特征与预设外呼机器人声纹特征之间的声纹余弦相似度,计算文本内容与预设标准文本之间的文本余弦相似度;
[0099]
判断模块,用于使用预设权重加权组合声纹余弦相似度与文本余弦相似度,获得评价相似度,判断评价相似度是否大于预设评价阈值,当判断评价相似度大于预设评价阈值时输出外呼机器人评价结果,当判断评价相似度不大于预设评价阈值时输出客户评价结果。
[0100]
通过使用该系统,能够执行上述的运算处理方法并实现对应的技术效果。
[0101]
本发明的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。
[0102]
本发明的实施例还提供一种用于执行上述方法的电子设备,作为该方法的实现装置,所述电子设备至少具备有处理器和存储器,特别是该存储器上存储有执行方法所需的数据和相关的计算机程序,例如第三声纹特征、外呼机器人声纹特征、文本内容和标准文本
等,并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤,并获得对应的技术效果。
[0103]
优选的,该电子设备可以包含有总线架构,总线可以包括任意数量的互联的总线和桥,总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件,即收发机,提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理,而存储器可以被用于存储处理器在执行操作时所使用的数据。
[0104]
额外的,所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器接收输入并控制电子设备的各个部件的操作;存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种,可储存上述有关的数据信息,此外还可存储执行有关信息的程序,并且处理器可执行该存储器存储的该程序,以实现信息存储或处理等;输入单元用于向处理器提供输入,例如可以为按键或触摸输入装置;电源用于向电子设备提供电力;显示器用于进行图像和文字等显示对象的显示,例如可为lcd显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风,以经由扬声器提供音频输出,并接收来自麦克风的音频输入,从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器还耦合到中央处理器,从而使得可以通过麦克风能够在本机上录音,且使得可以通过扬声器来播放本机上存储的声音。
[0105]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0106]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
[0107]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0108]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0109]
以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
技术特征:
1.一种基于鲁棒性特征的外呼客户识别方法,其特征在于,包括:s1、获取源音频数据,对源音频数据执行预处理获得第一音频文件;s2、使用k种预设的语音增强算法分别对第一音频文件进行增强处理,获得第二音频文件集合,所述k大于等于2;s3、对第二音频文件集合执行声纹特征提取操作,获得第二声纹特征集合;s4、对第二声纹特征集合依次使用多头注意力层、归一化处理层和多层感知机层进行处理,并使用隐马尔可夫模型计算得到对应的第三声纹特征,所述多头注意力层包括式1,其中,查询项q∈[f0,f1,f2,...,f
k
],值项v∈[f0,f1,f2,...,f
k
],键项k∈[f0,f1,f2,...,f
k
],和w
o
分别为可学习参数矩阵,d
k
为查询项q的维度;s5、对第一音频文件执行文本特征提取操作,获得文本特征图;s6、对文本特征图执行文本内容识别操作,获得文本内容,所述文本内容识别操作包括变分信息瓶颈处理,所述变分信息瓶颈处理包括式2,vib=fc(mean(fc(x))+var(fc(x))
·
n) 式2其中,fc表示全连接层,mean表示均值,var表示方差,n为(0,mean)范围内的随机数;s7、计算第三声纹特征与预设外呼机器人声纹特征之间的声纹余弦相似度,计算文本内容与预设标准文本之间的文本余弦相似度;s8、使用预设权重加权组合声纹余弦相似度与文本余弦相似度,获得评价相似度,判断评价相似度是否大于预设评价阈值,当判断评价相似度大于预设评价阈值时输出外呼机器人评价结果,当判断评价相似度不大于预设评价阈值时输出客户评价结果。2.如权利要求1所述的方法,其特征在于,所述预处理包括:对源音频数据执行重采样操作;切除重采样后源音频数据中静音片段;组合处理后的音频数据获得第一音频文件。3.如权利要求1所述的方法,其特征在于,所述步骤s3包括:提取第二音频文件集合中各音频文件对应的频域特征;对频域特征执行卷积操作与池化操作,采样得到第二声纹特征集合。4.如权利要求1所述的方法,其特征在于,所述步骤s5包括:提取第一音频文件对应的频域特征;将频域特征输入带残差连接的卷积层得到文本特征图。5.如权利要求1所述的方法,其特征在于,所述文本内容识别操作包括:将文本特征图划分为g个特征子空间;分别对各特征子空间应用逐通道卷积和逐点卷积,并连接各特征子空间获得更新后的第二文本特征图;
使用池化层对第二文本特征图进行特征聚合,并执行变分信息瓶颈处理,获得文本特征;对文本特征使用隐马尔可夫模型处理得到文本内容。6.如权利要求1所述的方法,其特征在于,所述语音增强算法包括音量增强、速度增强、音调增强、移动增强、自然噪声增强、人工噪声增强、时域遮掩和频域遮掩。7.一种基于鲁棒性特征的外呼客户识别系统,其特征在于,包括:音频预处理模块,用于对源音频数据执行预处理获得第一音频文件;音频增强处理模块,用于使用k种预设的语音增强算法分别对第一音频文件进行增强处理,获得第二音频文件集合;声纹特征提取模块,用于对第二音频文件集合执行声纹特征提取操作,获得第二声纹特征集合;声纹特征计算模块,用于对第二声纹特征集合依次使用多头注意力层、归一化处理层和多层感知机层进行处理,并使用隐马尔可夫模型计算得到对应的第三声纹特征;文本特征提取模块,用于对第一音频文件执行文本特征提取操作,获得文本特征图;文本内容识别模块,用于对文本特征图执行文本内容识别操作,获得文本内容;相似度计算模块,用于计算第三声纹特征与预设外呼机器人声纹特征之间的声纹余弦相似度,计算文本内容与预设标准文本之间的文本余弦相似度;判断模块,用于使用预设权重加权组合声纹余弦相似度与文本余弦相似度,获得评价相似度,判断评价相似度是否大于预设评价阈值,当判断评价相似度大于预设评价阈值时输出外呼机器人评价结果,当判断评价相似度不大于预设评价阈值时输出客户评价结果。8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。9.一种电子设备,其特征在于,包括处理器和存储器;所述存储器,用于存储第三声纹特征、外呼机器人声纹特征、文本内容和标准文本;所述处理器,用于通过调用第三声纹特征、外呼机器人声纹特征、文本内容和标准文本,执行权利要求1至6中任一项所述的方法。10.一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
技术总结
本发明涉及一种基于鲁棒性特征的外呼客户识别方法及系统,通过引入多头注意力层处理和变分信息瓶颈处理分别执行并获得具有较强鲁棒性的声纹特征与文本内容,并组合判断识别外呼客户语音,针对智能外呼音频的客户识别问题,采用了声纹匹配和文本匹配双模态结合的方法,通过提取鲁棒性的声纹特征和文本特征,使得模型抗干扰能力更强,具有更高的准确率,相比于单独使用声纹匹配或者文本匹配的情况来说,抗噪声干扰能力更强,准确率更高。在实际使用中,可以通过应用本发明代替人工自动化识别音频是否为客户,极大地节省了人力成本和时间成本。成本。成本。
技术研发人员:冉佳 陈文 赵子豪 陈晓铭
受保护的技术使用者:中信银行股份有限公司
技术研发日:2023.03.31
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:基于目标匹配追踪的继电器触动时间分析方法 下一篇:烟气余热利用设备的制作方法
