对象识别方法、对象识别装置、电子设备及存储介质与流程

未命名 09-17 阅读:109 评论:0


1.本技术涉及金融科技技术领域,尤其涉及一种对象识别方法、对象识别装置、电子设备及存储介质。


背景技术:

2.由于大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴,每个业务范畴通常都需要同客户进行沟通,沟通的方式有多种(例如电话沟通或者面对面沟通等)。在进行沟通之前,对客户的身份进行验证成为保证业务安全的重要组成部分。为了满足业务的实时性需求,金融公司常常需要在不同的场景下来对客户的身份进行分析验证。
3.身份认证方案应用在金融机构(如银行等)时,可以通过唯一标识如证件号码、证件照片等对个人或企业进行实名认证。还可以通过对象的语音数据进行身份验证。
4.目前,在针对说话人识别过程中,相关技术常常通过对获取到的声音信息进行特征提取,得到说话人的声音特征,再将这些特征与预设模板进行对比,实现说话人的身份验证。而当没有预设模板或者预设模板的信息不完整时,这一方式会导致说话对象的识别准确性不高,因此,如何提高说话对象的识别准确性,成为了亟待解决的技术问题。


技术实现要素:

5.本技术实施例的主要目的在于提出一种对象识别方法、对象识别装置、电子设备及存储介质,旨在提高说话对象的识别准确性。
6.为实现上述目的,本技术实施例的第一方面提出了一种对象识别方法,所述方法包括:
7.获取原始语音数据;
8.对所述原始语音数据进行特征转换,得到所述原始语音数据的梅尔倒谱特征;
9.将所述梅尔倒谱特征输入至预设的语音识别模型中,其中,所述语音识别模型包括语音评估网络、特征重构网络以及神经声码器;
10.基于所述语音评估网络对所述梅尔倒谱特征进行参数估计,得到目标评估数据,其中,所述目标评估数据用于表征所述原始语音数据来源于目标对象或者用于表征所述原始语音数据不是来源于所述目标对象;
11.若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则基于所述特征重构网络对所述梅尔倒谱特征进行特征重构,得到重构频谱特征;
12.基于所述神经声码器对所述重构频谱特征进行内容提取,得到音频内容数据;
13.基于所述音频内容数据,生成语音反馈数据。
14.在一些实施例,所述语音评估网络包括线性层和transformer编码器,所述基于所述语音评估网络对所述梅尔倒谱特征进行参数估计,得到目标评估数据,包括:
15.对所述梅尔倒谱特征进行特征分割,得到多个初步频谱特征片段;
16.对所述初步频谱特征片段进行嵌入处理,得到初步频谱嵌入向量;
17.基于所述线性层对所述初步频谱嵌入向量进行特征映射,得到目标频谱嵌入向量;
18.基于所述transformer编码器对所述目标频谱嵌入向量进行参数估计,得到音频偏移参数;
19.基于所述音频偏移参数和预设的偏移阈值,得到所述目标评估数据。
20.在一些实施例,所述transformer编码器包括编码层、平均池化层和全连接层,所述基于所述transformer编码器对所述目标频谱嵌入向量进行参数估计,得到音频偏移参数,包括:
21.基于所述编码层对所述目标频谱嵌入向量进行声学特征提取,得到初步声学编码特征;
22.基于所述池化层对所述初步声学编码特征进行采样处理,得到目标声学编码特征;
23.基于所述全连接层对所述目标声学编码特征进行特征映射,得到所述音频偏移参数。
24.在一些实施例,所述基于所述音频偏移参数和预设的偏移阈值,得到所述目标评估数据,包括:
25.比对所述音频偏移参数和所述偏移阈值;
26.若所述音频偏移参数大于所述偏移阈值,则所述目标评估数据表示所述原始语音数据不是来源于所述目标对象;
27.若所述音频偏移参数不大于所述偏移阈值,则所述目标评估数据表示所述原始语音数据来源于所述目标对象。
28.在一些实施例,所述若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则基于所述特征重构网络对所述梅尔倒谱特征进行特征重构,得到重构频谱特征,包括:
29.若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则提取所述目标评估数据中的音频偏移参数,并将所述音频偏移参数和所述梅尔倒谱特征输入至所述特征重构网络中,所述特征重构网络包括非因果卷积层、激活层和残差块;
30.基于所述非因果卷积层对所述音频偏移参数和所述梅尔倒谱特征进行卷积处理,得到初步频谱特征图;
31.基于所述激活层对所述初步频谱特征图进行激活处理,得到激活频谱特征图;
32.基于所述残差块对所述激活频谱特征图进行残差处理,得到所述重构频谱特征。
33.在一些实施例,所述基于所述神经声码器对所述重构频谱特征进行内容提取,得到音频内容数据,包括:
34.基于所述神经声码器对所述重构频谱特征进行格式转换,得到语音波形特征;
35.对所述语音波形特征进行内容识别,得到所述音频内容数据。
36.在一些实施例,所述对所述原始语音数据进行特征转换,得到所述原始语音数据的梅尔倒谱特征,包括:
37.基于预设的短时傅里叶算法对所述原始语音数据进行傅里叶变换,得到语音频域数据;
38.对所述语音频域数据进行滤波处理,得到所述梅尔倒谱特征。
39.为实现上述目的,本技术实施例的第二方面提出了一种对象识别装置,所述装置包括:
40.语音获取模块,用于获取原始语音数据;
41.特征转换模块,用于对所述原始语音数据进行特征转换,得到所述原始语音数据的梅尔倒谱特征;
42.输入模块,用于将所述梅尔倒谱特征输入至预设的语音识别模型中,其中,所述语音识别模型包括语音评估网络、特征重构网络以及神经声码器;
43.参数估计模块,用于基于所述语音评估网络对所述梅尔倒谱特征进行参数估计,得到目标评估数据,其中,所述目标评估数据用于表征所述原始语音数据来源于目标对象或者用于表征所述原始语音数据不是来源于所述目标对象;
44.特征重构模块,用于若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则基于所述特征重构网络对所述梅尔倒谱特征进行特征重构,得到重构频谱特征;
45.内容提取模块,用于基于所述神经声码器对所述重构频谱特征进行内容提取,得到音频内容数据;
46.反馈数据生成模块,用于基于所述音频内容数据,生成语音反馈数据。
47.为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
48.为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
49.本技术提出的对象识别方法、对象识别装置、电子设备及存储介质,其通过获取原始语音数据;对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征,能够提高频谱特征的质量。进一步地,将梅尔倒谱特征输入至预设的语音识别模型中,其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据,其中,目标评估数据用于表征原始语音数据来源于目标对象或者用于表征原始语音数据不是来源于目标对象,能够较为方便地进行对象识别,提高对象识别的准确性。进一步地,若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征,能够提高重构频谱特征的特征质量,实现对语音数据的高精度恢复。最后,基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;基于音频内容数据,生成语音反馈数据,能够提高语音处理的准确性和及时性,还能有效地根据原始语音数据来对对象进行身份验证,提高对象在保险、投资等金融业务中的交易安全性和支付安全性,减小其他对象伪装成目标对象进行金融交易带来的风险。
附图说明
50.图1是本技术实施例提供的对象识别方法的流程图;
51.图2是图1中的步骤s102的流程图;
52.图3是图1中的步骤s104的流程图;
53.图4是图3中的步骤s304的流程图;
54.图5是图3中的步骤s305的流程图;
55.图6是图1中的步骤s105的流程图;
56.图7是图1中的步骤s106的流程图;
57.图8是本技术实施例提供的对象识别装置的结构示意图;
58.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
59.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
60.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
61.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
62.首先,对本技术中涉及的若干名词进行解析:
63.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
64.自然语言处理(natural language processing,nlp):nlp用计算机来处理、理解以及运用人类语言(如中文、英文等),nlp属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
65.信息抽取(information extraction,ner):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本
信息抽取技术所抽取的信息可以是各种类型的信息。
66.由于大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴,每个业务范畴通常都需要同客户进行沟通,沟通的方式有多种(例如电话沟通或者面对面沟通等)。在进行沟通之前,对客户的身份进行验证成为保证业务安全的重要组成部分。为了满足业务的实时性需求,金融公司常常需要在不同的场景下来对客户的身份进行分析验证。
67.目前,身份认证方案应用在金融机构(如银行等)时,可以通过唯一标识如证件号码、证件照片等对个人或企业进行实名认证。还可以通过对象的语音数据进行身份验证。
68.在针对说话人识别过程中,相关技术常常通过对获取到的声音信息进行特征提取,得到说话人的声音特征,再将这些特征与预设模板进行对比,实现说话人的身份验证。而当没有预设模板或者预设模板的信息不完整时,这一方式会导致说话对象的识别准确性不高,因此,如何提高说话对象的识别准确性,成为了亟待解决的技术问题。
69.基于此,本技术实施例提供了一种对象识别方法、对象识别装置、电子设备及存储介质,旨在提高对象识别的准确性。
70.本技术实施例提供的对象识别方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的对象识别方法。
71.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
72.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
73.本技术实施例提供的对象识别方法,涉及人工智能技术领域。本技术实施例提供的对象识别方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现对象识别方法的应用等,但并不局限于以上形式。
74.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据、用户语音数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
75.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置
顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
76.图1是本技术实施例提供的对象识别方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤s101至步骤s107。
77.步骤s101,获取原始语音数据;
78.步骤s102,对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征;
79.步骤s103,将梅尔倒谱特征输入至预设的语音识别模型中,其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;
80.步骤s104,基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据,其中,目标评估数据用于表征原始语音数据来源于目标对象或者用于表征原始语音数据不是来源于目标对象;
81.步骤s105,若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征;
82.步骤s106,基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;
83.步骤s107,基于音频内容数据,生成语音反馈数据。
84.本技术实施例所示意的步骤s101至步骤s107,通过获取原始语音数据;对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征,能够提高频谱特征的质量。进一步地,将梅尔倒谱特征输入至预设的语音识别模型中,其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据,其中,目标评估数据用于表征原始语音数据来源于目标对象或者用于表征原始语音数据不是来源于目标对象,能够较为方便地进行对象识别,提高对象识别的准确性。进一步地,若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征,能够提高重构频谱特征的特征质量,实现对语音数据的高精度恢复。最后,基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;基于音频内容数据,生成语音反馈数据,能够提高语音处理的准确性和及时性。
85.在一些实施例的步骤s101中,可以通过网络爬虫对预设数据源进行数据爬取,得到原始语音数据,或者以录音等方式获取原始语音数据,还可以基于预设的接口调用对象上传至目标平台的原始语音数据,不做限制。该原始语音数据可以包括对象的说话内容或者演唱内容等等,不做限制。
86.由于不同对象的音色特点会存在差异,因此,来源于不同对象的原始语音数据的音高会存在区别。而在日常生活中,网络用户能够利用音频处理等技术修改最初的语音数据的音高信息等,得到原始语音数据,即利用音频处理技术来将某个语音数据的说话对象修改为另一个对象,因此需要对原始语音数据进行对象识别,以降低语音修改带来的威胁。
87.请参阅图2,在一些实施例中,步骤s102可以包括但不限于包括步骤s201至步骤s202:
88.步骤s201,基于预设的短时傅里叶算法对原始语音数据进行傅里叶变换,得到语音频域数据;
89.步骤s202,对语音频域数据进行滤波处理,得到梅尔倒谱特征。
90.在一些实施例的步骤s201中,利用短时傅里叶变换等对原始语音数据进行频谱变换,将原始语音数据由时域空间转换到频域空间,得到语音频域数据。例如,对原始语音数据进行信号分帧加窗处理,再对每一帧原始语音数据进行短时傅里叶变换,将原始语音数据的时域特征转换为频域特征,最后,在时间维度上将每一帧频谱特征进行堆叠处理,得到语音频域数据。
91.在一些实施例的步骤s202中,利用预设滤波器对语音频域数据进行滤波处理,得到梅尔倒谱特征,其中,预设滤波器可以是梅尔倒谱滤波器等等,不做限制。以64维的梅尔倒谱滤波器为例,先利用梅尔倒谱滤波器对语音频域数据进行对数运算,得到初始对数谱,再对初始对数谱进行傅里叶反变换处理,得到目标梅尔倒谱图。进一步地,对目标频谱图进行特征提取,得到梅尔倒谱特征。
92.上述步骤s201至步骤s202能够较为方便地将原始语音数据由时域特征转换为频谱特征,并对频域特征进行滤波处理,能够提高获取到的梅尔倒谱特征的特征质量。
93.在一些实施例的步骤s103中,可以通过预设的脚本程序将梅尔倒谱特征输入至预设的语音识别模型中。其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器,语音评估网络包括线性层和transformer编码器,语音评估网络用于直接利用原始语音数据的梅尔倒谱特征进行参数估计,来确定原始语音数据的音频偏差参数,该音频偏差参数能够较为清楚地反映该原始语音数据被修改的程度;特征重构网络可以基于生成对抗模型构建而成,包括生成器和鉴别器,生成器主要由多个残差块构成,用于根据音频偏差参数对原始语音数据的梅尔倒谱特征进行高质量恢复,得到重构频谱特征,鉴别器可以是多尺度鉴别器,用于判断重构频谱特征是否符合要求;神经声码器可以是diff wave神经声码器,用于将重构频谱特征转换为波形特征,得到原始语音数据对应的未经过音频修改的音频数据。
94.请参阅图3,在一些实施例中,语音评估网络包括线性层和transformer编码器,步骤s104可以包括但不限于包括步骤s301至步骤s305:
95.步骤s301,对梅尔倒谱特征进行特征分割,得到多个初步频谱特征片段;
96.步骤s302,对初步频谱特征片段进行嵌入处理,得到初步频谱嵌入向量;
97.步骤s303,基于线性层对初步频谱嵌入向量进行特征映射,得到目标频谱嵌入向量;
98.步骤s304,基于transformer编码器对目标频谱嵌入向量进行参数估计,得到音频偏移参数;
99.步骤s305,基于音频偏移参数和预设的偏移阈值,得到目标评估数据。
100.在一些实施例的步骤s301中,可以根据预设的特征长度对梅尔倒谱特征进行特征分割,将梅尔倒谱特征分成多个等长度的初步频谱特征片段,也可以是对梅尔倒谱特征进行随机分割,得到多个长度不等的初步频谱特征片段。
101.例如,上述的梅尔倒谱特征是特征图的形式,因此可以将尺寸为512
×
512梅尔倒谱特征分割成多个尺寸为16
×
16的切片,将切片作为初步频谱特征片段。
102.在一些实施例的步骤s302中,在对初步频谱特征进行嵌入处理时,可以对初步频谱特征进行展平,将初步频谱特征平铺成一维嵌入向量,得到初步频谱嵌入向量。
103.在一些实施例的步骤s303中,基于线性层对初步频谱嵌入向量进行特征映射时,先基于线性层将初步频谱嵌入向量映射到固定维度的向量空间,在该向量空间对每个初步频谱嵌入向量进行特征编码,得到每个初步频谱嵌入向量对应的位置编码嵌入向量,需要说明的是,该特征编码过程可以是相对位置编码也可以是绝对位置编码,不做限制。最后,将每个初步频谱嵌入向量与其对应的位置编码嵌入向量进行拼接,得到目标频谱嵌入向量,其中,该拼接过程可以是对初步频谱嵌入向量与其对应的位置编码嵌入向量进行向量连接或者向量相加,不做限制。
104.在一些实施例的步骤s304中,transformer编码器包括编码层、平均池化层和全连接层,在基于transformer编码器对目标频谱嵌入向量进行参数估计时,先利用编码层对目标频谱嵌入向量进行声学特征提取,得到初步声学编码特征,再利用池化层对初步声学编码特征进行采样处理,得到目标声学编码特征,其中,目标声学编码特征包含该原始语音数据的伪装特征信息,该伪装特征信息能够表征为均值和方差等形式;最后,利用全连接层对目标声学编码特征进行特征映射,实现目标声学编码特征中的伪装特征信息的评分,将评分情况量化成音频偏移参数,该音频偏移参数为数值数据。
105.在一些实施例的步骤s305中,在基于音频偏移参数和预设的偏移阈值,得到目标评估数据时,可以采用阈值比较的方式来评估原始语音数据是否来源于目标对象。具体地,首先,比对音频偏移参数和偏移阈值,音频偏移参数的大小能够较为清楚地反映出该原始语音数据与目标对象的真实语音之间的差异程度,因此,可以根据音频偏移参数与偏移阈值的大小关系,识别出原始语音数据是否来源于目标对象。若音频偏移参数大于偏移阈值,则目标评估数据表示原始语音数据不是来源于目标对象;若音频偏移参数不大于偏移阈值,则目标评估数据表示原始语音数据来源于目标对象。
106.通过上述步骤s301至步骤s305能够较为方便地对原始语音数据的音频伪装特征信息进行提取,基于音频伪装特征信息来衡量该原始语音数据被修改的程度,并将该音频伪装特征信息量化为音频偏移参数,基于音频偏移参数能够清楚地反映出该原始语音数据是否被严重修改,也能够清楚地反映出该原始语音数据是否来源于目标对象,能够有效地提高对象识别的准确性。相较于传统技术,本技术并不需要引入目标对象的真实语音数据中的声学特征作为参考特征,能够解决在没有参考特征或者参考特征不完整的场景下的对象识别,具备较好地普适性。
107.请参阅图4,在一些实施例中,transformer编码器包括编码层、平均池化层和全连接层,步骤s304可以包括但不限于包括步骤s401至步骤s403:
108.步骤s401,基于编码层对目标频谱嵌入向量进行声学特征提取,得到初步声学编码特征;
109.步骤s402,基于池化层对初步声学编码特征进行采样处理,得到目标声学编码特征;
110.步骤s403,基于全连接层对目标声学编码特征进行特征映射,得到音频偏移参数。
111.在一些实施例的步骤s401中,transform编码器的嵌入维度可以为768,在基于编码层对目标频谱嵌入向量进行声学特征提取时,能够基于目标频谱嵌入向量提取浅层声学
信息和深层声学信息,并根据浅层声学信息和深层声学信息的融合,得到初步声学编码特征,其中,在信息融合阶段,能够利用transform编码器的注意力机制对不同声学信息对对象识别任务的重要程度,赋予不同声学信息以不同的权重,根据权重来对声学信息进行信息融合,从而形成具备重要性偏向的初步声学编码特征。
112.在一些实施例的步骤s402中,池化层会对初步声学编码特征进行平均池化式的采样处理,计算初步声学编码特征的特征元素的均值和方差,并根据均值和方差来筛选特征元素,将选取的特征元素构成目标声学特征,构成目标声学特征的特征元素对评估伪装参数(即音频偏移参数)更为有用,而被过滤的特征元素则对评估伪装参数(即音频偏移参数)意义不大。
113.在一些实施例的步骤s403中,利用全连接层将目标声学编码特征映射到固定向量空间,该向量空间一般为一维空间,在该向量空间中利用softmax函数或者sigmoid函数对目标声学特征进行特征评分,将评分结果作为音频偏移参数,该音频偏移参数主要用于表征原始语音数据的音高偏移程度,该音频偏移参数的取值范围为[0,1]。
[0114]
通过上述步骤s401至步骤s403能够较为方便地对原始语音数据的音频伪装特征信息进行提取,提高特征提取的准确性和效率,利用transform表密码器进行伪装参数估计,能够提高推断效率和推断精度,使得生成的音频偏移参数更为准确、合理。
[0115]
请参阅图5,在一些实施例中,步骤s305可以包括但不限于包括步骤s501至步骤s503:
[0116]
步骤s501,比对音频偏移参数和偏移阈值;
[0117]
步骤s502,若音频偏移参数大于偏移阈值,则目标评估数据表示原始语音数据不是来源于目标对象;
[0118]
步骤s503,若音频偏移参数不大于偏移阈值,则目标评估数据表示原始语音数据来源于目标对象。
[0119]
在一些实施例的步骤s501中,偏移阈值的具体数值可以根据实际业务需求设置,不做限制。在一些实际场景下,当偏移阈值越小,则表明原始语音数据的声学特征更贴近于目标对象,因此,一般将偏移阈值设置为0。具体地,比对音频偏移参数与偏移阈值,音频偏移参数的大小能够较为清楚地反映出该原始语音数据与目标对象的真实语音之间的差异程度,因此,可以根据音频偏移参数与偏移阈值的大小关系,识别出原始语音数据是否来源于目标对象,其中,目标对象可以是拥有某一些权限的网络用户、消费者或者工作人员等等,不做限制。
[0120]
例如,在金融交易场景中,目标对象可以是在银行办理储蓄业务的用户,目标对象也可以是对某一些基金产品、证券产品有交易权限的网络用户。
[0121]
在一些实施例的步骤s502中,若音频偏移参数大于偏移阈值,表明该原始语音数据与目标对象的真实语音之间的声学特征存在较大,原始语音数据来源于目标对象的可能性较小,原始语音数据可能是通过音频伪装技术等制作的,用于假装成目标对象的音频数据,或者原始语音数据是其他对象的真实语音。因此,目标评估数据会表示原始语音数据不是来源于目标对象。
[0122]
在一些实施例的步骤s503中,若音频偏移参数小于或者偏移阈值,表明该原始语音数据与目标对象的真实语音之间的声学特征基本没有差异,原始语音数据没有经过音频
伪装技术等进行修改,原始语音数据来源于目标对象的可能性较大。因此,目标评估数据会表示原始语音数据来源于目标对象。
[0123]
通过上述步骤s501至步骤s503能够较为方便地利用音频偏移参数来量化原始语音数据是经过音频处理技术制作和修改的可能性,根据音频偏移参数来判断原始语音数据是否来源于目标对象,能够有效地提高对象识别的准确性和对象识别效率。
[0124]
在一些具体实施例中,若目标评估数据表示原始语音数据不是来源于目标对象,则表明原始语音数据是不符合要求的,因此,服务器会生成验证结果为验证不通过,表明输入该原始语音数据的对象不具备相应的权限,需要对当前对象以及原始语音数据包含的内容信息进行审核,来确定获取当前对象输入该原始语音数据的意图,从而采取相应的防护措施,从而实现对网上交易对象的身份验证,以提高各个对象的网上交易的安全性和可靠性,降低其他对象以非正当的手段合成语音进行交易带来的风险。
[0125]
请参阅图6,在一些实施例,步骤s105包括但不限于包括步骤s601至步骤s604:
[0126]
步骤s601,若目标评估数据表示原始语音数据来源于目标对象,则提取目标评估数据中的音频偏移参数,并将音频偏移参数和梅尔倒谱特征输入至特征重构网络中,特征重构网络包括非因果卷积层、激活层和残差块;
[0127]
步骤s602,基于非因果卷积层对音频偏移参数和梅尔倒谱特征进行卷积处理,得到初步频谱特征图;
[0128]
步骤s603,基于激活层对初步频谱特征图进行激活处理,得到激活频谱特征图;
[0129]
步骤s604,基于残差块对激活频谱特征图进行残差处理,得到重构频谱特征。
[0130]
在一些实施例的步骤s601中,若目标评估数据表示原始语音数据来源于目标对象,则提取目标评估数据中的音频偏移参数,利用预设的脚本程序将音频偏移参数和梅尔倒谱特征输入至特征重构网络中,特征重构网络包括非因果卷积层、激活层和残差块,非因果卷积层用于对输入数据进行特征提取,激活层用于对非因果卷积层的输出进行去线性化处理,残差块用于对激活层的输出进行映射处理。
[0131]
在一些实施例的步骤s602中,基于非因果卷积层对梅尔倒谱特征进行卷积处理,能够较好地挖掘到每一时刻的特征信息之前的特征信息以及之后的特征信息,基于挖掘到的特征信息和音频偏移参数对梅尔倒谱特征进行调整,得到初步频谱特征图。
[0132]
在一些实施例的步骤s603中,基于激活层的激活函数对初步频谱特征图进行激活处理,对初步频谱特征图进行去线性化,得到激活频谱特征图,其中,激活函数可以包括relu激活函数等等,不做限制。
[0133]
在一些实施例的步骤s604中,利用残差块对激活频谱特征图进行残差处理,将激活频谱特征图映射到预设的特征空间,得到重构频谱特征。
[0134]
通过上述步骤s601至步骤s604能够较好地对原始语音数据的梅尔倒谱特征进行重建,得到真实且高质量的重构频谱特征,能够实现对原始语音数据的高精度恢复,提高恢复后的语音内容信息的完整性和准确性。
[0135]
请参阅图7,在一些实施例中,步骤s106可以包括但不限于包括步骤s701至步骤s702:
[0136]
步骤s701,基于神经声码器对重构频谱特征进行格式转换,得到语音波形特征;
[0137]
步骤s702,对语音波形特征进行内容识别,得到音频内容数据。
[0138]
在一些实施例的步骤s701中,基于神经声码器对重构频谱特征进行反卷积处理,实现对重构频谱特征的上采样,并对经过上采样的重构频谱特征进行时间长度和时间周期的预测,得到语音预测时长和语音预测周期,基于语音预测时长和语音预测周期对重构频谱特征进行格式转换,得到语音波形特征。
[0139]
在一些实施例的步骤s702中,利用预设的自动语音识别技术(automatic speech recognition)将语音波形特征由语音数据转换为文本数据,并利用命名实体算法等对文本进行内容提取,得到音频内容数据。
[0140]
通过上述步骤s701至步骤s702能够基于特征质量较好的重构频谱特征对原始语音数据进行高精度恢复,提高恢复后的语音波形特征的完整性和准确性,有利于将原始语音数据恢复成真实性较高的音频数据,有助于提取该原始语音数据对应的音频内容信息,能够极大地改善语音识别和语音处理的效果。
[0141]
在一些实施例的步骤s107中,该音频内容数据可以包括各种具体内容,例如,在利用原始语音数据进行业务查询时,基于音频内容数据对预设的数据库进行内容查询,得到目标文本、目标音视频等等,将获取到的目标文本和目标音视频作为语音反馈数据反馈至该目标对象。或者,在利用原始语音数据进行对象身份验证时,基于音频内容数据开放访问权限、编辑权限、查询权限等对象权限,并将权限开通提醒信息作为语音反馈数据反馈给目标对象。基于不同的实际业务场景,音频内容数据和语音反馈数据可以根据实际情况确定,不做限制。
[0142]
本技术实施例的对象识别方法,其通过获取原始语音数据;对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征,能够提高频谱特征的质量。进一步地,将梅尔倒谱特征输入至预设的语音识别模型中,其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据,其中,目标评估数据用于表征原始语音数据来源于目标对象或者用于表征原始语音数据不是来源于目标对象,能够较为方便地进行对象识别,提高对象识别的准确性。进一步地,若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征,能够提高重构频谱特征的特征质量,实现对语音数据的高精度恢复。最后,基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;基于音频内容数据,生成语音反馈数据,能够提高语音处理的准确性和及时性。本技术实施例基于音频偏移参数能够清楚地反映出该原始语音数据是否被严重修改,也能够清楚地反映出该原始语音数据是否来源于目标对象,能够有效地提高对象识别的准确性。相较于传统技术,本技术并不需要引入目标对象的真实语音数据中的声学特征作为参考特征,能够解决在没有参考特征或者参考特征不完整的场景下的对象识别,具备较好地普适性,还能有效地根据原始语音数据来对对象进行身份验证,提高对象在保险、投资等金融业务中的交易安全性和支付安全性,减小其他对象伪装成目标对象进行金融交易带来的风险。
[0143]
请参阅图8,本技术实施例还提供一种对象识别装置,可以实现上述对象识别方法,该装置包括:
[0144]
语音获取模块801,用于获取原始语音数据;
[0145]
特征转换模块802,用于对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征;
[0146]
输入模块803,用于将梅尔倒谱特征输入至预设的语音识别模型中,其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;
[0147]
参数估计模块804,用于基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据,其中,目标评估数据用于表征原始语音数据来源于目标对象或者用于表征原始语音数据不是来源于目标对象;
[0148]
特征重构模块805,用于若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征;
[0149]
内容提取模块806,用于基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;
[0150]
反馈数据生成模块807,用于基于音频内容数据,生成语音反馈数据。
[0151]
该对象识别装置的具体实施方式与上述对象识别方法的具体实施例基本相同,在此不再赘述。
[0152]
本技术实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述对象识别方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
[0153]
请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
[0154]
处理器901,可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案;
[0155]
存储器902,可以采用只读存储器(readonlymemory,rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory,ram)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本技术实施例的对象识别方法;
[0156]
输入/输出接口903,用于实现信息输入及输出;
[0157]
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信;
[0158]
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
[0159]
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
[0160]
本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述对象识别方法。
[0161]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络
连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0162]
本技术实施例提供的对象识别方法、对象识别装置、电子设备及计算机可读存储介质,其通过获取原始语音数据;对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征,能够提高频谱特征的质量。进一步地,将梅尔倒谱特征输入至预设的语音识别模型中,其中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据,其中,目标评估数据用于表征原始语音数据来源于目标对象或者用于表征原始语音数据不是来源于目标对象,能够较为方便地进行对象识别,提高对象识别的准确性。进一步地,若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征,能够提高重构频谱特征的特征质量,实现对语音数据的高精度恢复。最后,基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;基于音频内容数据,生成语音反馈数据,能够提高语音处理的准确性和及时性。本技术实施例基于音频偏移参数能够清楚地反映出该原始语音数据是否被严重修改,也能够清楚地反映出该原始语音数据是否来源于目标对象,能够有效地提高对象识别的准确性。相较于传统技术,本技术并不需要引入目标对象的真实语音数据中的声学特征作为参考特征,能够解决在没有参考特征或者参考特征不完整的场景下的对象识别,具备较好地普适性,还能有效地根据原始语音数据来对对象进行身份验证,提高对象在保险、投资等金融业务中的交易安全性和支付安全性,减小其他对象伪装成目标对象进行金融交易带来的风险。
[0163]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
[0164]
本领域技术人员可以理解的是,图1-7中示出的技术方案并不构成对本技术实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
[0165]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0166]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0167]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0168]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字
符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0169]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0170]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0171]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0172]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序的介质。
[0173]
以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。

技术特征:
1.一种对象识别方法,其特征在于,所述方法包括:获取原始语音数据;对所述原始语音数据进行特征转换,得到所述原始语音数据的梅尔倒谱特征;将所述梅尔倒谱特征输入至预设的语音识别模型中,其中,所述语音识别模型包括语音评估网络、特征重构网络以及神经声码器;基于所述语音评估网络对所述梅尔倒谱特征进行参数估计,得到目标评估数据,其中,所述目标评估数据用于表征所述原始语音数据来源于目标对象的概率;若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则基于所述特征重构网络对所述梅尔倒谱特征进行特征重构,得到重构频谱特征;基于所述神经声码器对所述重构频谱特征进行内容提取,得到音频内容数据;基于所述音频内容数据,生成语音反馈数据。2.根据权利要求1所述的对象识别方法,其特征在于,所述语音评估网络包括线性层和transformer编码器,所述基于所述语音评估网络对所述梅尔倒谱特征进行参数估计,得到目标评估数据,包括:对所述梅尔倒谱特征进行特征分割,得到多个初步频谱特征片段;对所述初步频谱特征片段进行嵌入处理,得到初步频谱嵌入向量;基于所述线性层对所述初步频谱嵌入向量进行特征映射,得到目标频谱嵌入向量;基于所述transformer编码器对所述目标频谱嵌入向量进行参数估计,得到音频偏移参数;基于所述音频偏移参数和预设的偏移阈值,得到所述目标评估数据。3.根据权利要求2所述的对象识别方法,其特征在于,所述transformer编码器包括编码层、平均池化层和全连接层,所述基于所述transformer编码器对所述目标频谱嵌入向量进行参数估计,得到音频偏移参数,包括:基于所述编码层对所述目标频谱嵌入向量进行声学特征提取,得到初步声学编码特征;基于所述池化层对所述初步声学编码特征进行采样处理,得到目标声学编码特征;基于所述全连接层对所述目标声学编码特征进行特征映射,得到所述音频偏移参数。4.根据权利要求2所述的对象识别方法,其特征在于,所述基于所述音频偏移参数和预设的偏移阈值,得到所述目标评估数据,包括:比对所述音频偏移参数和所述偏移阈值;若所述音频偏移参数大于所述偏移阈值,则所述目标评估数据表示所述原始语音数据不是来源于所述目标对象;若所述音频偏移参数不大于所述偏移阈值,则所述目标评估数据表示所述原始语音数据来源于所述目标对象。5.根据权利要求1所述的对象识别方法,其特征在于,所述若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则基于所述特征重构网络对所述梅尔倒谱特征进行特征重构,得到重构频谱特征,包括:若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则提取所述目标评估数据中的音频偏移参数,并将所述音频偏移参数和所述梅尔倒谱特征输入至所述特征重
构网络中,所述特征重构网络包括非因果卷积层、激活层和残差块;基于所述非因果卷积层对所述音频偏移参数和所述梅尔倒谱特征进行卷积处理,得到初步频谱特征图;基于所述激活层对所述初步频谱特征图进行激活处理,得到激活频谱特征图;基于所述残差块对所述激活频谱特征图进行残差处理,得到所述重构频谱特征。6.根据权利要求1所述的对象识别方法,其特征在于,所述基于所述神经声码器对所述重构频谱特征进行内容提取,得到音频内容数据,包括:基于所述神经声码器对所述重构频谱特征进行格式转换,得到语音波形特征;对所述语音波形特征进行内容识别,得到所述音频内容数据。7.根据权利要求1至6任一项所述的对象识别方法,其特征在于,所述对所述原始语音数据进行特征转换,得到所述原始语音数据的梅尔倒谱特征,包括:基于预设的短时傅里叶算法对所述原始语音数据进行傅里叶变换,得到语音频域数据;对所述语音频域数据进行滤波处理,得到所述梅尔倒谱特征。8.一种对象识别装置,其特征在于,所述装置包括:语音获取模块,用于获取原始语音数据;特征转换模块,用于对所述原始语音数据进行特征转换,得到所述原始语音数据的梅尔倒谱特征;输入模块,用于将所述梅尔倒谱特征输入至预设的语音识别模型中,其中,所述语音识别模型包括语音评估网络、特征重构网络以及神经声码器;参数估计模块,用于基于所述语音评估网络对所述梅尔倒谱特征进行参数估计,得到目标评估数据,其中,所述目标评估数据用于表征所述原始语音数据来源于目标对象的概率;特征重构模块,用于若所述目标评估数据表示所述原始语音数据来源于所述目标对象,则基于所述特征重构网络对所述梅尔倒谱特征进行特征重构,得到重构频谱特征;内容提取模块,用于基于所述神经声码器对所述重构频谱特征进行内容提取,得到音频内容数据;反馈数据生成模块,用于基于所述音频内容数据,生成语音反馈数据。9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的对象识别方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的对象识别方法。

技术总结
本申请实施例提供了一种对象识别方法、对象识别装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取原始语音数据;对原始语音数据进行特征转换,得到原始语音数据的梅尔倒谱特征;将梅尔倒谱特征输入至预设的语音识别模型中,语音识别模型包括语音评估网络、特征重构网络以及神经声码器;基于语音评估网络对梅尔倒谱特征进行参数估计,得到目标评估数据;若目标评估数据表示原始语音数据来源于目标对象,则基于特征重构网络对梅尔倒谱特征进行特征重构,得到重构频谱特征;基于神经声码器对重构频谱特征进行内容提取,得到音频内容数据;基于音频内容数据,生成语音反馈数据。本申请实施例能够提高对象识别的准确性。性。性。


技术研发人员:张旭龙 王健宗 程宁 赵金凤
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐