一种振铃音类型识别方法及装置与流程
未命名
09-07
阅读:140
评论:0
1.本技术涉及语音识别技术领域,尤其涉及一种振铃音类型识别方法及装置。
背景技术:
2.智能外呼系统是一种用于执行对客户的呼叫任务的平台。在实际应用中,智能外呼系统可以自动拨打用户电话,将预先录制好的语音通过电脑播放给用户,还可以与客户进行人机对话。在实际外呼过程中,通常会遇到电话未能接通的情况,通话未能接通有诸多原因,原因不同产生的通话音频也不同。例如,如果被呼叫用户正在通话中,那么该通电话是未接通的状态,且通话音频为重复播放的“您好,您拨打的电话正在通话中”,这种重复播放的内容一般被称为振铃音。为了分析通话未能接通的原因,进而对用户分类、分析客户意向等,需要对未接通话的振铃音类型进行识别。
3.一般的振铃音类型识别方法是,将未接通话的通话音频输入至自动语音识别(automatic speech recognition,asr)模型中,利用模型将音频转换为对应的文字内容,之后将asr模型识别出的文字内容输入至自然语言理解(natural language understanding,nlu)模型,利用nlu模型对文字内容进行文本分类,确定文字内容对应的振铃音类型,最终确定未接通话的振铃音类型。
4.但是,该种方法至少依赖于两个模型才可以确定振铃音类型,模型涉及的运算步骤多,运算量大,并且振铃音识别过程中输入模型的数据量也比较大,最终导致识别速度很慢。可见,该种振铃音识别方法不仅识别成本大,还存在效率较差的问题。
技术实现要素:
5.本技术实施例提供一种振铃音类型识别方法及装置,以解决传统振铃音类型识别方法效率较差的问题。
6.第一方面,本技术实施例提供一种振铃音类型识别方法,包括:获取待识别音频信号,待识别音频信号为待识别未接通话的通话录音;对待识别音频信号进行特征提取,得到多种音频特征;将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应;基于模型输出结果确定待识别音频信号对应的目标振铃音标签;基于目标振铃音标签确定待识别未接通话对应的振铃音类型。
7.在一种可实现的方式中,音频数据集包括原始音频数据集及第一文件,其中,原始音频数据集中包括多通未接通话的通话录音;第一文件中记录有原始音频数据集中每一通未接通话的振铃音标签。
8.在一种可实现的方式中,方法还包括:将原始音频数据集输入至自动语音识别模型,得到原始音频数据集中每一通未接通话对应的第一文本内容;将第一文本内容输入至第二分类模型,得到每一通未接通话的振铃音标签。
9.在一种可实现的方式中,将原始音频数据集输入至自动语音识别模型,得到原始音频数据集中每一通未接通话对应的第一文本内容之后,还包括:基于第一文本内容对原始音频数据集中每一通未接通话进行关键词匹配,得到每一通未接通话对应的目标关键词;其中,关键词是从每种振铃音类型对应的第二文本内容中提取到的;振铃音类型至少包括忙线状态振铃音、空号状态振铃音、号码有误状态振铃音、关机状态振铃音、不在服务区状态振铃音、无法接通状态振铃音以及无人接听状态振铃音;基于目标关键词,确定每一通未接通话的振铃音标签。
10.在一种可实现的方式中,对待识别音频信号进行特征提取,得到多种音频特征之前,还包括:按预设时间长度对待识别音频信号进行截取,得到目标音频信号。
11.在一种可实现的方式中,音频特征包括语谱图特征;对待识别音频信号进行特征提取,得到多种音频特征包括:对目标音频信号进行预加重处理;按预设帧长度对预加重处理后的目标音频信号进行分帧处理,得到多帧目标音频信号;对每一帧目标音频信号进行加窗处理;对加窗后的每一帧目标音频信号进行快速傅里叶变换,得到每一帧目标音频信号的频谱;将频谱中的幅值替换为幅值的平方,得到每一帧目标音频信号的功率谱;计算功率谱的第一对数能量;基于第一对数能量,确定待识别音频信号的语谱图特征。
12.在一种可实现的方式中,音频特征还包括滤波器组特征;对待识别音频信号进行特征提取,得到多种音频特征还包括:对目标音频信号进行预加重处理;按预设帧长度对预加重处理后的目标音频信号进行分帧处理,得到多帧目标音频信号;对每一帧目标音频信号进行加窗处理;对加窗后的每一帧目标音频信号进行快速傅里叶变换,得到每一帧目标音频信号的频谱;将频谱中的幅值替换为幅值的平方,得到每一帧目标音频信号的功率谱;将功率谱输入至梅尔滤波器组,得到滤波器输出结果;对滤波器输出结果进行对数运算,得到第二对数能量;基于第二对数能量,确定待识别音频信号的滤波器组特征。
13.在一种可实现的方式中,音频特征还包括梅尔频率倒谱系数特征;对待识别音频信号进行特征提取,得到多种音频特征还包括:对目标音频信号进行预加重处理;按预设帧长度对预加重处理后的目标音频信号进行分帧处理,得到多帧目标音频信号;对每一帧目标音频信号进行加窗处理;对加窗后的每一帧目标音频信号进行快速傅里叶变换,得到每一帧目标音频信号的频谱;将频谱中的幅值替换为幅值的平方,得到每一帧目标音频信号的功率谱;将功率谱输入至梅尔滤波器组,得到滤波器输出结果;对滤波器输出结果进行对数运算,得到第二对数能量;对第二对数能量进行离散余弦变换,得到梅尔频率倒谱系数特征。
14.在一种可实现的方式中,输入分支包括第一分支、第二分支及第三分支,第一分支、第二分支及第三分支均包括依次连接的第一二维卷积层、第一最大值池化层、第二二维卷积层、第二最大值池化层、随机失活层及展平层;第一分支的展平层、第二分支的展平层及第三分支的展平层均与连接层的输入端连接,连接层的输出端与第一稠密层的输入端连接,第一稠密层的输出端与第二稠密层的输入端连接,第二稠密层的输出维度等于振铃音类型的类型数量;将多种音频特征分别输入至第一分类模型的多个输入分支,包括:将语谱图特征输入至第一分支的输入端,将滤波器组特征输入至第二分支的输入端,将梅尔频率倒谱系数特征输入至第三分支的输入端。
15.第二方面,本技术实施例还提供一种振铃音类型识别装置,包括:获取模块,用于
获取待识别音频信号,待识别音频信号为待识别未接通话的通话录音;特征提取模块,用于对待识别音频信号进行特征提取,得到多种音频特征;输入模块,用于将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应;标签确定模块,用于基于模型输出结果确定音频信号对应的目标振铃音标签;类型确定模块,用于基于目标振铃音标签确定待识别未接通话对应的振铃音类型。
16.由以上技术方案可知,本技术实施例提供一种振铃音类型识别方法及装置,该方法包括获取待识别音频信号;对待识别音频信号进行特征提取,得到多种音频特征;将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应;基于模型输出结果确定待识别音频信号对应的目标振铃音标签;基于目标振铃音标签确定待识别未接通话对应的振铃音类型。本技术实施例提供的方法可以融合音频的多种特征,基于特征进行模型预测,得到振铃音类型,计算量小,在保证准确性的同时可以提升识别效率。
附图说明
17.图1为本技术实施例适用的一种场景示意图;
18.图2为本技术实施例提供的振铃音识别方法的流程示意图;
19.图3为本技术实施例提供的第一文件的示意图;
20.图4为本技术实施例提供的构建音频数据集的流程示意图;
21.图5a为本技术实施例提供的提取语谱图特征的流程示意图;
22.图5b为本技术实施例提供的提取滤波器组特征的流程示意图;
23.图5c为本技术实施例提供的提取梅尔频率倒谱系数特征的流程示意图;
24.图6为本技术实施例提供的特征提取的整体流程示意图;
25.图7为本技术实施例提供的第一分类模型的结构示意图;
26.图8为本技术实施例提供的振铃音类型识别装置的结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
28.图1为本技术实施例适用的一种场景示意图。
29.如图1所示,该场景包括呼叫中心10、服务器20以及被叫用户30,呼叫中心10是智能呼叫系统的其中一个模块,可以执行呼叫任务,对被叫用户30执行呼叫任务,不论呼叫是否接通,呼叫中心10都会对通话进行录音,形成录音文件。进一步的,服务器20可以访问呼叫中心10,获取录音文件,并对录音文件进行一系列处理,例如通话内容识别、振铃音识别
等。之后,服务器20可以将识别结果反馈至呼叫中心10,以使呼叫中心10可以进一步掌握被叫用户30的实际情况。
30.在一些实现方式中,该场景还可以包括存储平台40,呼叫中心10可以将录音文件保存至存储平台40。之后服务器20可以访问存储平台40获取录音文件,存储平台40例如可以是基于云存储的平台,本技术实施例对此不做具体限定。
31.图2为本技术实施例提供的振铃音识别方法的流程示意图。
32.如图2所示,本技术实施例提供的振铃音类型识别方法包括以下步骤s100-s500。
33.s100:获取待识别音频信号,待识别音频信号为待识别未接通话的通话录音。
34.其中,待识别音频信号可以为.wav格式的文件,待识别音频信号具体形成过程可以是:录音设备以预设采样率对呼叫中心10外呼的通话进行采样,得到待识别音频信号。预设采样率例如可以是8000hz、16000hz或者32000hz,本技术实施例对此不做具体限定。
35.s200:对待识别音频信号进行特征提取,得到多种音频特征。音频特征的种类可以是预设的。
36.可以理解的是,当一通通话未能接通时,通话呼叫端可以听到连续的振铃音,以提示通话呼叫端通话未能接通。具体而言,振铃音具有音频特征和语义信息,用于使人耳可以辨别振铃音所表达的内容,以使自然的人可以了解通话状态,理解通话未接通原因。相应的,对于机器识别而言,也可以分析振铃音的音频特征,基于音频特征明确语义信息,最终确定振铃音所表达的内容。
37.本技术实施例考虑到每种振铃音均具有各种音频特征,且不同的振铃音的同一种音频特征之间存在差异,因此,本技术实施例可以对待识别音频信号进行特征提取,之后基于特征对进行振铃音类型识别,这样,可以减小计算量,提升识别效率。
38.进一步的,本技术实施例识别的音频特征优选为频谱(spectrogram)特征、滤波器组(filter banks)特征及梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)特征。这三种特征不仅涉及的计算量比较小,并且面对不同的振铃音类型时,这三种特征可以表现出明显的差异,可以在保证识别准确的同时减小工作量,提升识别效率。进一步的,本技术实施例选取了三种不同的音频特征,增加了特征之间的互补性,提升了识别的准确率。
39.s300:将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果。第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应。
40.其中,振铃音标签与振铃音类型一一对应,也就是说,基于第一分类模型确定带识别语音信号的振铃音标签之后,即可确定未接通话的振铃音类型。
41.示例性的,振铃音类型可以包括忙线状态振铃音,对应的振铃音标签为01。还包括空号状态振铃音,对应的振铃音标签为02。还包括号码有误状态振铃音,对应的振铃音标签为03。还包括关机状态振铃音,对应的振铃音标签为04。还包括不在服务区状态振铃音,对应的振铃音标签为05。还包括无法接通状态振铃音,对应的振铃音标签为06。还包括无人接听状态振铃音,对应的振铃音标签为07。可以理解的是,上述振铃音类型及对应的振铃音标签仅为示例性介绍,此处不对振铃音类型做一一列举。
42.进一步的,第一分类模型可以是基于音频特征构建的分类模型,具体工作步骤为:对一个待识别音频信号的多种音频特征进行融合,融合后进行预测,得出上述多种音频特征对应于每种振铃音标签的概率,最终将概率最大的振铃音标签对应的振铃音类型,确定为待识别音频信号的振铃音类型。
43.可以理解的是,分类模型是一种基于监督学习构建的模型,模型可以基于监督数据进行学习,学习的过程即为监督学习,也可以称为利用监督数据进行模型训练的过程。
44.本技术实施例中,监督学习是指为模型提供已知的输入变量和输出变量,之后使模型学习如何从输入变量映射到输出变量,已知的输入变量和输出变量即为监督数据。监督学习结束后可以得到上述第一分类模型,将新的输入变量输入到第一分类模型中,第一分类模型可以预测输入变量对应于各种输出变量的概率。进一步的,监督数据是一组具有标签的数据集,标签即为输出变量,也是模型最终要预测的事物。
45.本技术实施例可以按照以下步骤构建监督数据:首先构建带有振铃音标签的音频数据集,带有振铃音标签的音频数据集包括原始音频数据集和第一文件,原始音频数据集中包括多通未接通话的通话录音,第一文件中记录有原始音频数据集中每一通未接通话的振铃音标签。
46.示例性的,第一文件可以为.txt格式的文件,第一文件中包括有未接通话的名称,以及未接通话的振铃音标签。
47.图3为本技术实施例提供的第一文件的示意图。
48.如图3所示,对于原始音频数据集中的其中一条未接通话,对应的名称为,振铃音标签为07,“07”对应的振铃音类型例如可以是无人接听状态振铃音,本技术实施例不对“07”实际代表的振铃音类型做具体限定。
49.需要说明的是,图3中所示出的未接通话的名称仅为示例性描述,不对本技术实施例产生任何限定。
50.进一步的,对原始音频数据集中的每一通未接通话进行特征提取,得到每一通未接通话的特征,本技术实施例中,提取的特征优选为语谱图特征、滤波器组特征及梅尔频率倒谱系数特征。上述特征即为监督数据中的输入变量,振铃音标签即为输出变量,对于每一通未接通话,输入变量与输出变量之间具有映射关系。
51.基于带有振铃音标签的音频数据集训练第一分类模型的步骤可以包括:将监督数据输入模型中,以使模型进行学习,在模型达到预设学习精度之后,结束学习,得到第一分类模型。
52.进一步的,本技术实施例中第一分类模型的模型结构包括多个输入分支,一个输入分支对应于一种音频特征。例如,第一分类模型可以包括第一分支、第二分支及第三分支,第一分支对应于语谱图特征,第二分支对应于滤波器组特征,第三分支对应于梅尔频率倒谱系数特征。这样,有利于对多种特征进行融合,使得模型具有特征互补能力,且具有良好的并行处理能力。
53.需要补充说明的是,振铃音标签例如可以为9种,本技术实施例对此不做具体限定。
54.第一分类模型的具体模型结构将在下文详述,此处不做赘述。
55.s400:基于模型输出结果确定待识别音频信号对应的目标振铃音标签。
56.本技术实施例中,第一分类模型的模型输出结果可以为概率值数组,数组中的数值个数等于振铃音标签的个数,并且数组中的数值求和等于1。
57.例如,模型输出结果为[0.02453,0.03512,0.01453,0.14862,0.65241,0.05421,0.00031,0.04963,0.02064],那么可以确定待识别音频信号对应的目标振铃音标签为第五种振铃音标签。本技术实施例对各个振铃音标签的顺序不做具体限定,可以基于实际情况做调整。
[0058]
s500:基于目标振铃音标签确定待识别未接通话对应的振铃音类型。
[0059]
可以理解的是,可以确定待识别未接通话的振铃音类型为目标振铃音标签对应的类型。
[0060]
由以上技术方案可知,本技术实施例提供一种振铃音类型识别方法,该方法包括获取待识别音频信号;对待识别音频信号进行特征提取,得到多种音频特征;将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应;基于模型输出结果确定待识别音频信号对应的目标振铃音标签;基于目标振铃音标签确定待识别未接通话对应的振铃音类型。本技术实施例提供的方法可以融合音频的多种特征,基于特征进行模型预测,得到振铃音类型,计算量小,在保证准确性的同时可以提升识别效率。
[0061]
图4为本技术实施例提供的构建音频数据集的流程示意图。
[0062]
如图4所示,本技术实施例还包括以下步骤s601-s602:
[0063]
s601:将原始音频数据集输入至自动语音识别模型,得到原始音频数据集中每一通未接通话对应的第一文本内容。
[0064]
其中,原始音频数据集可以是在外呼中心10中收集的以往未接通话的通话录音。原始音频数据集中包括的每一通未接通话的通话录音均可以为.wav格式的文件。示例性的,为了保证模型训练的精度,原始音频数据集中可以包括至少五千通未接通话的通话录音。
[0065]
进一步的,本技术实施例提供的自动语音识别(automatic speech recognition,asr)模型是一种用于将人的语音转换为文本的模型,基于自动语音识别模型,可以到原始音频数据集中每一通未接通话对应的第一文本内容。申请实施例不对自动语音识别模型的具体结构、所应用的算法及训练过程做具体限定。
[0066]
s602:将第一文本内容输入至第二分类模型,得到每一通未接通话的振铃音标签。
[0067]
其中,可以将原始音频数据集中每一通未接通话所对应的第一文本内容分别输入至第二分类模型,之后第二分类模型可以对输入的第一文本内容做映射,得到第一文本内容对应于每种振铃音标签的概率,最终将概率最大的振铃音标签确定为第一文本内容对应的振铃音类型。本技术实施例不对第二分类模型的具体结构、所应用的算法及训练过程做具体限定。
[0068]
继续参见图4,本技术实施例还可以提供另一种确定振铃音标签的方法,具体包括如下步骤s603-s604。
[0069]
s603:基于第一文本内容对原始音频数据集中每一通未接通话进行关键词匹配,得到每一通未接通话对应的目标关键词。
[0070]
其中,关键词是从每种振铃音类型对应的第二文本内容中提取到的。示例性的,对于号码有误状态振铃音,其文本内容为“对不起,您拨打的号码有误,请查证后再拨”,该种振铃音对应的关键词可以包括“号码有误”、“查证”。对于关机状态振铃音,其文本内容为“您好,您拨打的用户已关机,请稍后再拨”,该种振铃音对应的关键词可以包括“关机”。每种振铃音类型关键词的选择都可以基于实际情况确定,本技术实施例对此不做具体限定。
[0071]
s604:基于目标关键词,确定每一通未接通话的振铃音标签。
[0072]
可以理解的是,在确定未接通话的目标关键词后,即可确定目标关键词对应的振铃音类型,进而可以为每一通未接通话添加振铃音标签。
[0073]
在一些实现方式中,也可以采用人工的方式为原始音频数据集中的未接通话添加振铃音标签,本技术实施例对此不做具体限定。
[0074]
进一步的,本技术实施例还包括对信号进行截取的步骤,具体的:
[0075]
s700:按预设时间长度对待识别音频信号进行截取,得到目标音频信号。
[0076]
可以理解的是,未接通话的通话录音可以具有以下两种情况。第一种:对于被叫用户30未接通的通话,如果主叫端不主动挂断电话,那么通话将循环播放振铃音,例如循环播放“对不起,您所拨打的号码已关机”或者“对不起,您拨打的号码有误,请查证后再拨”等等,具体循环播放的内容由通话未接通原因决定。在这种情况下,通话内容是重复的,且该通通话产生的通话录音的时间跨度会非常的大,例如可能超过1分钟。第二种:运营商限制了振铃音循环播放的时长,到达限制时长后通话会自动挂断。
[0077]
可见,不论是哪一种情况,未接通话产生的通话录音的数据量都较大且内容均是循环的振铃音。因此,本技术实施例可以对通话录音进行了截取。这样,可以避免识别重复的内容,可以提升识别效率。
[0078]
具体截取方式可以是按照预设时间长度,从待识别音频信号的结尾向前进行截取,预设时间长度例如可以为5s。由于一通未接通话的振铃音响起前具有一定时间长度的空音频,从结尾截取的方式可以将待识别音频信号中开头位置的空音频去除,进而提升识别准确性。示例性的,如果一通未接通话对应的待识别音频信号的时间跨度为0s-15s,那么可以截取第10s到第15s的数据,作为目标音频信号。预设时间长度还可以是其他数值,例如8s或者10s等,本技术实施例对此不做具体限定。
[0079]
在一些实现方式中,截取方式也可以是按照预设时间长度,从待识别音频信号的开头或者中间位置进行截取,本技术实施例对此不做具体限定。
[0080]
在一些实现方式中,也可以从待识别音频信号的起始位置或者中间位置开始截取,本技术实施例对此不做具体限定。
[0081]
图5a为本技术实施例提供的提取语谱图特征的流程示意图。
[0082]
图6为本技术实施例提供的特征提取的整体流程示意图。
[0083]
如图5a及图6所示,步骤s200可以包括以下步骤s201-s207。
[0084]
s201:对目标音频信号进行预加重处理。
[0085]
预加重的具体步骤是使目标音频信号通过一个高通滤波器。这是由于语音容易受到口唇辐射的影响,导致音频信号中的高频部分受到抑制。预加重可以补偿高频部分的损失,突出高频部分的共振峰,从而保证音频信号中从低频到高频的整个频带中可以用同样的信噪比求频谱。
[0086]
本技术实施例不对高通滤波器中的预加重系数等参数做具体限定。
[0087]
s202:按预设帧长度对预加重处理后的目标音频信号进行分帧处理,得到多帧目标音频信号。
[0088]
可以理解的是,音频信号是非平稳参数信号,由于音频信号在短时范围内特征变化较小,因此,可以将短时范围内的音频信号作为准稳态过程来处理。具体的,可以把音频信号切成多个小段,每一小段称为一帧。之后可以对每小段进行傅里叶变换,这样可以得到音频信号随时间变化的频谱。
[0089]
进一步的,可以将n个采样点集合成一个观测单位,称为一帧。也就是说,在本技术实施例中,预设帧长度可以包括目标音频信号中的n个采样点。示例性的,n的值可以为256或512,这样,一帧目标音频信号涵盖的时间约为20~30ms左右,本技术实施例对此不做具体限定。
[0090]
进一步的,为了避免相邻两帧的变化过大,两相邻帧之间可以有一段重叠区域。也就是说,在对预加重处理后的目标音频信号进行分帧处理时,相邻两帧之间包括的采样点包括一定重叠,具体重叠的采样点的数量为m个,m例如可以等于n的1/2或1/3,本技术实施例对此不做具体限定。
[0091]
s203:对每一帧目标音频信号进行加窗处理。
[0092]
为了增加每一帧目标音频信号左端及右端的连续性,同时为了避免在频谱分析时产生能量泄漏(spectral leakage),需要对每一帧目标音频信号乘上窗函数,这个过程通常被称为“加窗”。窗函数例如可以为方窗、汉明窗或者汉宁窗等,本技术实施例优选汉明窗。
[0093]
s204:对加窗后的每一帧目标音频信号进行快速傅里叶变换,得到每一帧目标音频信号的频谱。
[0094]
其中,进行快速傅里叶变换(fast fourier transform,fft),可以得到每一帧目标音频信号的频谱。音频信号在频域上表现出的不同的能量分布,可以代表不同的音频的特征。因此可以基于频谱对目标音频信号进行分析,得到音频特征。
[0095]
s205:将频谱中的幅值替换为幅值的平方,得到每一帧目标音频信号的功率谱。
[0096]
本技术实施例中,求解功率谱的目的在于求解语谱图,以在语谱图中更加清晰的观察音素(phones)信息。
[0097]
s206:对功率谱进行对数运算,得到第一对数能量。
[0098]
其中,对数运算可以使得因素信息的观察更为容易。
[0099]
s207:基于第一对数能量,确定待识别音频信号的语谱图特征。
[0100]
图5b为本技术实施例提供的提取滤波器组特征的流程示意图。
[0101]
如图5b及图6所示,步骤s200还可以包括以下步骤s201-s205,以及s208-s210。
[0102]
s201:对目标音频信号进行预加重处理。
[0103]
s202:按预设帧长度对预加重处理后的目标音频信号进行分帧处理,得到多帧目标音频信号。
[0104]
s203:对每一帧目标音频信号进行加窗处理。
[0105]
s204:对加窗后的每一帧目标音频信号进行快速傅里叶变换,得到每一帧目标音频信号的频谱。
[0106]
s205:将频谱中的幅值替换为幅值的平方,得到每一帧目标音频信号的功率谱。
[0107]
s208:将功率谱输入至梅尔滤波器组,得到滤波器输出结果。
[0108]
由于人耳只关注某些特定的频率分量,因此本技术实施例可以利用梅尔滤波器组模拟人耳,得到滤波器组特征。滤波器组例如可以是多个带宽不等的三角滤波器组。
[0109]
s209:对滤波器输出结果进行对数运算,得到第二对数能量。
[0110]
s210:基于第二对数能量,确定待识别音频信号的滤波器组特征。
[0111]
图5c为本技术实施例提供的提取梅尔频率倒谱系数特征的流程示意图。
[0112]
如图5c及图6所示,步骤s200还可以包括以下步骤s201-s205、s208-s209以及s211。
[0113]
s201:对目标音频信号进行预加重处理。
[0114]
s202:按预设帧长度对预加重处理后的目标音频信号进行分帧处理,得到多帧目标音频信号。
[0115]
s203:对每一帧目标音频信号进行加窗处理。
[0116]
s204:对加窗后的每一帧目标音频信号进行快速傅里叶变换,得到每一帧目标音频信号的频谱。
[0117]
s205:将频谱中的幅值替换为幅值的平方,得到每一帧目标音频信号的功率谱。
[0118]
s208:将功率谱输入至梅尔滤波器组,得到滤波器输出结果。
[0119]
s209:对滤波器输出结果进行对数运算,得到第二对数能量。
[0120]
s211:对第二对数能量进行离散余弦变换(discrete cosine transform,dct),得到梅尔频率倒谱系数特征。
[0121]
离散余弦变换具有去相关性,可以对梅尔滤波器组中的滤波器系数去相关。进一步的,离散余弦变换可以使得能量集中在低频部分,有利于提取梅尔频率倒谱系数特征。
[0122]
可以理解的是,对语谱图特征、滤波器组特征及梅尔频率倒谱系数特征的提取可以顺次进行的。
[0123]
图7为本技术实施例提供的第一分类模型的结构示意图。
[0124]
如图7所示,本技术实施例提供的第一分类模型的输入分支包括第一分支、第二分支及第三分支,第一分支、第二分支及第三分支均可以包括依次连接的输入层、第一二维卷积层(conv2d)、第一最大值池化层(max_pooing)、第二二维卷积层、第二最大值池化层、随机失活层(dropout)及展平层(flatten)。
[0125]
其中,各个输入分支用于对输入其中的音频特征进行编码。具体的,随机失活层可以使得模型的泛化能力更强,展平层用于进行展平操作。本技术实施例不对二维卷积层、最大值池化层、随机失活层以及展平层的输出维度做具体限定。
[0126]
进一步的,第一分支的展平层、第二分支的展平层及第三分支的展平层均与连接层(concatenate)的输入端连接。这样,全连接层可以对不同特征的编码结果进行融合,达到多特征融合的目的。
[0127]
进一步的,连接层的输出端与第一稠密层(dense)的输入端连接,第一稠密层的输出端与第二稠密层的输入端连接。
[0128]
本技术实施例可以将第一稠密层的每一个节点都与连接层的节点相连接,可以形成全连接。第一稠密层可以用于提取特征之间的关联,并对模型特征进行分类。
[0129]
进一步的,第二稠密层的每一个节点可以均与第一稠密层的每一个节点连接,形成全连接。第二稠密层可以对第一稠密层的节点输出结果进行进一步分类,得到最终的模型结果。第二稠密层的输出维度等于振铃音类型的数量。这样,第二稠密层的输出结果可以与振铃音类型相对应。例如,在振铃音类型包括九种时,振铃音标签有九种,第二稠密层的输出维度等于九,每一维度对应于一种振铃音类型。
[0130]
进一步的,步骤s300包括以下步骤s301:将语谱图特征输入至第一分支的输入端,将滤波器组特征输入至第二分支的输入端,将梅尔频率倒谱系数特征输入至第三分支的输入端。
[0131]
可以理解的是,输入分支的具体数量等于用于进行振铃音类型识别的音频特征的种类。在实际应用中,可以对音频特征的种类进行增多或减小,相应的,输入分支的数量也随之增多或减小。本技术实施例不对音频特征的实际数量做限定。
[0132]
需要补充说明的是,本技术实施例基于音频信号的音频特征进行振铃音识别,在实际应用中,用于识别的音频类型不限于语谱图特征、滤波器组特征和/或梅尔频率倒谱系数,还可以基于实际情况选取其他特征,例如感知线性预测特征(perceptual linear predict ive,plp)、倒谱特征(constant q cepstral coefficients,cqcc),本技术实施例对此不做具体限定。
[0133]
图8为本技术实施例提供的振铃音类型识别装置的结构示意图。
[0134]
如图8所示,本技术实施例还提供一种振铃音类型识别装置,该装置包括:
[0135]
获取模块1001,用于获取待识别音频信号,待识别音频信号为待识别未接通话的通话录音。
[0136]
特征提取模块1002,用于对待识别音频信号进行特征提取,得到多种音频特征。
[0137]
输入模块1003,用于将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应。
[0138]
标签确定模块1004,用于基于模型输出结果确定音频信号对应的目标振铃音标签。
[0139]
类型确定模块1005,用于基于目标振铃音标签确定待识别未接通话对应的振铃音类型。
[0140]
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的振铃音识别方法的各实施例中的部分或全部步骤。的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:rom)或随机存储记忆体(英文:random access memory,简称:ram)等。
[0141]
容易理解的是,本领域技术人员在本技术提供的几个实施例的基础上,可以对本技术的实施例进行结合、拆分、重组等得到其他实施例,这些实施例均没有超出本技术的保护范围。
[0142]
以上的具体实施方式,对本技术实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本技术实施例的具体实施方式而已,并不用于限定本技术实施例的保护范围,凡在本技术实施例的技术方案的基础之上,所做的任何修改、等同
替换、改进等,均应包括在本技术实施例的保护范围之内。
技术特征:
1.一种振铃音类型识别方法,其特征在于,包括:获取待识别音频信号,所述待识别音频信号为待识别未接通话的通话录音;对所述待识别音频信号进行特征提取,得到多种音频特征;将所述多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;所述第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个所述输入分支对应于一种所述音频特征,所述振铃音标签用于区分不同的振铃音类型,所述振铃音标签与所述振铃音类型一一对应;基于所述模型输出结果确定所述待识别音频信号对应的目标振铃音标签;基于所述目标振铃音标签确定所述待识别未接通话对应的所述振铃音类型。2.根据权利要求1所述的振铃音类型识别方法,其特征在于,所述音频数据集包括原始音频数据集及第一文件,其中,所述原始音频数据集中包括多通未接通话的通话录音;所述第一文件中记录有所述原始音频数据集中每一通未接通话的所述振铃音标签。3.根据权利要求2所述的振铃音类型识别方法,其特征在于,所述方法还包括:将所述原始音频数据集输入至自动语音识别模型,得到所述原始音频数据集中每一通所述未接通话对应的第一文本内容;将所述第一文本内容输入至第二分类模型,得到每一通所述未接通话的所述振铃音标签。4.根据权利要求3所述的振铃音类型识别方法,其特征在于,所述将所述原始音频数据集输入至自动语音识别模型,得到所述原始音频数据集中每一通所述未接通话对应的第一文本内容之后,还包括:基于所述第一文本内容对所述原始音频数据集中每一通所述未接通话进行关键词匹配,得到每一通所述未接通话对应的目标关键词;其中,所述关键词是从每种所述振铃音类型对应的第二文本内容中提取到的;所述振铃音类型至少包括忙线状态振铃音、空号状态振铃音、号码有误状态振铃音、关机状态振铃音、不在服务区状态振铃音、无法接通状态振铃音以及无人接听状态振铃音;基于所述目标关键词,确定每一通所述未接通话的所述振铃音标签。5.根据权利要求1所述的振铃音类型识别方法,其特征在于,所述对所述待识别音频信号进行特征提取,得到多种音频特征之前,还包括:按预设时间长度对所述待识别音频信号进行截取,得到目标音频信号。6.根据权利要求5所述的振铃音类型识别方法,其特征在于,所述音频特征包括语谱图特征;所述对所述待识别音频信号进行特征提取,得到多种音频特征包括:对所述目标音频信号进行预加重处理;按预设帧长度对预加重处理后的所述目标音频信号进行分帧处理,得到多帧所述目标音频信号;对每一帧所述目标音频信号进行加窗处理;对加窗后的每一帧所述目标音频信号进行快速傅里叶变换,得到每一帧所述目标音频信号的频谱;
将所述频谱中的幅值替换为幅值的平方,得到每一帧所述目标音频信号的功率谱;对所述功率谱进行对数运算,得到第一对数能量;基于所述第一对数能量,确定所述待识别音频信号的所述语谱图特征。7.根据权利要求5所述的振铃音类型识别方法,其特征在于,所述音频特征还包括滤波器组特征;所述对所述待识别音频信号进行特征提取,得到多种音频特征还包括:对所述目标音频信号进行预加重处理;按预设帧长度对预加重处理后的所述目标音频信号进行分帧处理,得到多帧所述目标音频信号;对每一帧所述目标音频信号进行加窗处理;对加窗后的每一帧所述目标音频信号进行快速傅里叶变换,得到每一帧所述目标音频信号的频谱;将所述频谱中的幅值替换为幅值的平方,得到每一帧所述目标音频信号的功率谱;将所述功率谱输入至梅尔滤波器组,得到滤波器输出结果;对所述滤波器输出结果进行对数运算,得到第二对数能量;基于所述第二对数能量,确定所述待识别音频信号的所述滤波器组特征。8.根据权利要求5所述的振铃音类型识别方法,其特征在于,所述音频特征还包括梅尔频率倒谱系数特征;所述对所述待识别音频信号进行特征提取,得到多种音频特征还包括:对所述目标音频信号进行预加重处理;按预设帧长度对预加重处理后的所述目标音频信号进行分帧处理,得到多帧所述目标音频信号;对每一帧所述目标音频信号进行加窗处理;对加窗后的每一帧所述目标音频信号进行快速傅里叶变换,得到每一帧所述目标音频信号的频谱;将所述频谱中的幅值替换为幅值的平方,得到每一帧所述目标音频信号的功率谱;将所述功率谱输入至梅尔滤波器组,得到滤波器输出结果;对所述滤波器输出结果进行对数运算,得到第二对数能量;对所述第二对数能量进行离散余弦变换,得到所述梅尔频率倒谱系数特征。9.根据权利要求1所述的振铃音类型识别方法,其特征在于,所述输入分支包括第一分支、第二分支及第三分支,所述第一分支、所述第二分支及所述第三分支均包括依次连接的第一二维卷积层、第一最大值池化层、第二二维卷积层、第二最大值池化层、随机失活层及展平层;所述第一分支的所述展平层、所述第二分支的所述展平层及所述第三分支的所述展平层均与连接层的输入端连接,所述连接层的输出端与第一稠密层的输入端连接,所述第一稠密层的输出端与第二稠密层的输入端连接,所述第二稠密层的输出维度等于所述振铃音类型的数量;所述将所述多种音频特征分别输入至第一分类模型的多个输入分支,包括:将语谱图特征输入至所述第一分支的输入端,将滤波器组特征输入至所述第二分支的
输入端,将梅尔频率倒谱系数特征输入至所述第三分支的输入端。10.一种振铃音类型识别装置,其特征在于,包括:获取模块,用于获取待识别音频信号,所述待识别音频信号为待识别未接通话的通话录音;特征提取模块,用于对所述待识别音频信号进行特征提取,得到多种音频特征;输入模块,用于将所述多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;所述第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个所述输入分支对应于一种所述音频特征,所述振铃音标签用于区分不同的振铃音类型,所述振铃音标签与所述振铃音类型一一对应;标签确定模块,用于基于所述模型输出结果确定所述音频信号对应的目标振铃音标签;类型确定模块,用于基于所述目标振铃音标签确定所述待识别未接通话对应的所述振铃音类型。
技术总结
本申请实施例提供一种振铃音类型识别方法及装置,方法包括获取待识别音频信号;对待识别音频信号进行特征提取,得到多种音频特征;将多种音频特征分别输入至第一分类模型的多个输入分支,得到模型输出结果;第一分类模型是基于带有振铃音标签的音频数据集训练后得到的,一个输入分支对应于一种音频特征,振铃音标签用于区分不同的振铃音类型,振铃音标签与振铃音类型一一对应;基于模型输出结果确定待识别音频信号对应的目标振铃音标签;基于目标振铃音标签确定待识别未接通话对应的振铃音类型。本申请实施例提供的方法可以融合音频的多种特征,基于特征进行模型预测,得到振铃音类型,计算量小,在保证准确性的同时可以提升识别效率。提升识别效率。提升识别效率。
技术研发人员:姚树杰 先永春
受保护的技术使用者:鼎富智能科技有限公司
技术研发日:2023.07.11
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
