一种语音唤醒方法、装置、设备及介质与流程

未命名 08-26 阅读:142 评论:0


1.本发明涉及电子智能化领域,特别涉及一种语音唤醒方法、装置、设备及介质。


背景技术:

2.目前,智能音箱和手机中均含有语音唤醒功能,用来和自带的语音助手功能模块进行交互,该功能均为硬件厂商提供,集成后进行售卖。厂商可根据智能音箱和手机中的麦克风和音频解码相关硬件进行全方位的适配。随着电竞酒店蓬勃发展,部分商家也提供了在电脑端运行的数字人助手等功能。为了方便玩家,尤其在游戏过程中和数字人助手进行交互,语音唤醒是最合适的交互入口。
3.电竞酒店的电脑可能存在多种配置和组装方案,并且大多数通过外接耳麦的方式来完成音频信号的采集。电脑硬件和额外接耳麦的品牌和种类繁多,且无法提前获取相关信息,无法针对性地进行优化。麦克风的差异直接影响到搜集的音频信号的质量以及数据的增幅大小,从而影响到特征信息的提取,给后续的语音唤醒算法带来了巨大挑战,极大影响唤醒算法的精度和适用性。除此之外,环境背景的差异、使用者的人声差异以及音量大小也会对模型的稳定性造成影响。并且,由于唤醒算法在用户的pc上运行,电竞酒店的客户大多在pc上进行游戏等活动,对机器的性能较为敏感。语音唤醒需要尽量减少对硬件的资源占用,减少对用户游戏体验的影响。另外,由于用户在游戏开黑过程中,会频繁进行沟通交流。这种密集和近距离的人声数据对语音唤醒算法对唤醒词的判别能力要求较高,模型发生误判的概率增大。误唤醒会严重干扰用户的使用体验,也需要尽量进行避免。
4.由上可见,在现有的语音唤醒过程中,如何避免出现由于语音设备差异、环境背景差异、使用者人声差异以及音量大小差异导致干扰语音唤醒模型的稳定性是本领域有待解决的问题。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种语音唤醒方法、装置、设备及介质,提供一种数据过滤操作,根据用户的音量来进行数据筛选,减少一部分数据进行进入唤醒算法,一方面可以降低硬件资源的占用,另一方面可以减少由于各种实施环境下的差异导致语音唤醒模型的稳定性弱的情况,并且降低算法误判误唤醒的风险。其具体方案如下:
6.第一方面,本技术公开了一种语音唤醒方法,包括:
7.可选的,所述基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,包括:
8.基于所述第一音频数据中的音量信息与预设初始语音唤醒音量阈值,利用预设阈值计算公式计算第一语音唤醒音量阈值。
9.可选的,所述在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据之后,还包括:
10.利用预设数据特征提取算法确定所述第一音频数据对应的第一数据特征,并确定
所述第一数据特征对应的第一特征参数;
11.相应的,所述语音唤醒方法,还包括:
12.在所述预设音频采集时间段后,基于所述第一特征参数与预设初始特征参数确定第二特征参数,并将所述第二数据参数更新至已训练完成的语音唤醒判定模型中。
13.可选的,所述第一特征参数、所述第二特征参数以及所述预设初始特征参数中均包括音频数据的均值和方差。
14.可选的,所述的语音唤醒方法,还包括:
15.设定预设初始语音唤醒音量阈值;其中,所述预设初始语音唤醒音量阈值为利用预先采集的样本数据中的音量信息计算四分位数,并基于所述四分位数确定并设定的阈值。
16.可选的,所述基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,包括:
17.计算第一音频数据中的全分贝刻度信息;
18.基于所述全分贝刻度信息,利用预设计算规则计算第一语音唤醒音量阈值。
19.可选的,所述基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,包括:
20.基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值,并利用预设滑动平均算法确定第二语音唤醒音量阈值。
21.第二方面,本技术公开了一种语音唤醒装置,包括:
22.第一阈值计算模块,用于在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值;
23.第二阈值计算模块,用于在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中;
24.语音唤醒模块,用于当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。
25.第三方面,本技术公开了一种电子设备,包括:
26.存储器,用于保存计算机程序;
27.处理器,用于执行所述计算机程序,以实现前述的语音唤醒方法。
28.第四方面,本技术公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的语音唤醒方法的步骤。
29.本技术先在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,然后在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中。当所述语音唤醒判定模型判定所述
目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。这样一来,通过一种根据用户的音量来进行数据筛选的数据过滤操作,减少了一部分数据进行进入唤醒算法,一方面可以降低硬件资源的占用,另一方面可以减少由于各种实施环境下的差异导致语音唤醒模型的稳定性弱的情况,并且降低算法误判误唤醒的风险。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
31.图1为本技术提供的一种语音唤醒方法流程图;
32.图2为本技术提供的一种语音唤醒流程图;
33.图3为本技术提供的一种具体的语音唤醒方法流程图;
34.图4为本技术提供的一种参数替换流程示意图;
35.图5为本技术提供的一种语音唤醒装置结构示意图;
36.图6为本技术提供的一种电子设备结构图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.现有技术中,由于语音设备差异、环境背景差异、使用者人声差异以及音量大小差异导致干扰语音唤醒模型的稳定性。在本技术中,提供一种数据过滤操作,根据用户的音量来进行数据筛选,减少一部分数据进行进入唤醒算法,一方面可以降低硬件资源的占用,另一方面可以减少由于各种实施环境下的差异导致语音唤醒模型的稳定性弱的情况,并且降低算法误判误唤醒的风险。
39.本发明实施例公开了一种语音唤醒方法,应用于电子设备,参见图1所述,该方法包括:
40.步骤s11:在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值。
41.本实施例中的语音唤醒方法优选于应用于电竞酒店的pc(即personal computer)端。在计算机设备开机后的预设音频采集时间段内首先记录音频输入设备采集的第一音频数据,所述预设音频采集时间优选为10分钟,所述音频输入设备优选为与pc端外接的麦克风,即在具体的实施方式中,在计算机设备开机后的10分钟内记录外接麦克风采集的第一音频数据。
42.在具体的实施方式中,也可以在开机后语音唤醒程序启动后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据。
43.在记录所述第一音频数据后,可以基于第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值。在具体的实施方式中,所述基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,可以包括:基于所述第一音频数据中的音量信息与预设初始语音唤醒音量阈值,利用预设阈值计算公式计算第一语音唤醒音量阈值。
44.在具体的实施方式中,所述预设初始语音唤醒音量阈值可以预先基于以下步骤得到:
45.(1)、搜集预设第一数量条1.5s的人声音频数据以及预设第二数量条在多个年龄段进行采集的含有唤醒词的目标音频数据,音频数据可以在多个场景下录制,所述场景包括但不限于会议室内、酒店、室外、网吧等,在此不做限定。其中,所述人声音频数据的内容为日常交谈对话,所述第一数量优选为100000,所述预设第二数量优选为20000。
46.(2)、使用步骤1中的人声音频数据与目标音频数据,分别计算每条数据的音量大小。
47.(3)、统计(2)计算得到的音量数据,计算四分位数。根据四分位数,设置初始音量筛选阈值t。具体计算规则优选为:a1、a2、a3分别为第一四分位数、第二四分位数、第三四分位数,若a2-a1《=a3-a2-2,则初始音量筛选阈值为a2+2。否则初始音量筛选阈值为a1+1。
48.本实施例中,所述的语音唤醒方法,还可以包括:设定预设初始语音唤醒音量阈值;其中,所述预设初始语音唤醒音量阈值为利用预先采集的样本数据中的音量信息计算四分位数,并基于所述四分位数确定并设定的阈值。
49.本实施例中,所述基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,可以包括:计算第一音频数据中的全分贝刻度信息;基于所述全分贝刻度信息,利用预设计算规则计算第一语音唤醒音量阈值。也即,本发明中可以利用计算dbfs(即decibels full scale,全分贝刻度)的方式确定第一音频数据中的音量信息。同理,在上述步骤(2)中,也可以利用dbfs的方式计算每条数据的音量大小。
50.步骤s12:在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中。
51.本实施例中,在设备开机后所述预设音频采集时间段后,可以基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值。即在具体的实施方式中,若预设音频采集时间段为开机后的十分钟,则在开机十分钟后,基于所述第一语音唤醒音量阈值t1与预设初始语音唤醒音量阈值t确定第二语音唤醒音量阈值t2。
52.本实施例中,所述基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,可以包括:基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值,并利用预设滑动平均算法确定第二语音唤醒音量阈值。
53.具体的,在基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值的过程中,可以根据第一音频数据的音量信息,使用上述步骤s11中的步骤(3)中的计算规则,重新计算阈值,得到阈值t1,然后根据滑动平均法计算新的阈值t2,t2=0.1*t+(1-0.1)*t1。
54.另外,在步骤s11中的步骤(1)之后,还可以包括:使用卷积神经网络,将(1)中的人声音频数据与目标音频数据分为正负样本进行训练,得到语音唤醒判定模型(此处得到的语音唤醒判定模型即为本步骤中所述已训练完成的语音唤醒判定模型)。
55.需要指出的是,本实施例中,语音唤醒判定模型在开机后的预设音频采集时间段内使用默认的预设初始语音唤醒音量阈值t来进行数据筛选,未达到阈值t的数据直接反馈无唤醒响应,达到音量阈值t的数据传入语音唤醒算法进行唤醒词的判定;语音唤醒判定模型在开机后的预设音频采集时间段后,确定第二语音唤醒音量阈值t2,在后续时间段内使用第二语音唤醒音量阈值来进行数据筛选,未达到阈值t2的数据直接反馈无唤醒响应,达到音量阈值t2的数据传入语音唤醒算法进行唤醒词的判定。
56.步骤s13:当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。
57.当所述训练后的语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。
58.如图2所示为本发明提出的一种语音唤醒流程图,目标语音数据实时传入唤醒算法中时,若通过所述唤醒算法,则执行唤醒响应的操作;若不通过所述换新观法,则执行无唤醒响应的操作。
59.每次开机后,通过记录当前一段时间内的音频数据,按照设定的方式进行计算处理。根据这段时间内的音频数据特征进行分析,计算出相应的参数,利用这些参数对语音唤醒算法的数据处理步骤进行调整,通过这种方式,分别针对不同的硬件设备、使用者以及背景环境因素单独进行处理,减少了这部分差异对语音唤醒算法带来的影响,并且通过数据过滤的原则减少对硬件的资源占用。
60.本实施例中,先在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,然后在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中。当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。这样一来,通过一种根据用户的音量来进行数据筛选的数据过滤操作,减少了一部分数据进行进入唤醒算法,一方面可以降低硬件资源的占用,另一方面可以减少由于各种实施环境下的差异导致语音唤醒模型的稳定性弱的情况,并且降低算法误判误唤醒的风险。
61.图3为本技术实施例提供的一种具体的语音唤醒方法流程图。参见图3所示,该方法包括:
62.步骤s21:在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,并利用预设数据特征提取算法确定所述第一音频数据对应的第一数据特征,然后确定所述第一数据特征对应的第一特征参数。
63.本实施例中,在确定第一语音唤醒音量阈值的同时,还会利用预设数据特征提取算法确定所述第一音频数据对应的第一数据特征,并确定所述第一数据特征对应的第一特
征参数。可以理解的是,在开机后的预设音频采集时间段内均持续记录所述数据特征。所述特征参数包括但不限于均值和方差。
64.步骤s22:在所述预设音频采集时间段后,基于所述第一特征参数与预设初始特征参数确定第二特征参数,并将所述第二数据参数更新至已训练完成的语音唤醒判定模型中,并基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入所述已训练完成的语音唤醒判定模型中。
65.本实施例中,所述第一特征参数、所述第二特征参数以及所述预设初始特征参数中均可以包括音频数据的均值和方差。具体的,在步骤s11中的步骤(1)获取到人声音频数据和目标音频数据后,可以计算其均值和方差,作为默认的数据标准化参数m和s。相应的,在所述预设音频采集时间段后,基于所述第一特征参数与预设初始特征参数确定第二特征参数过程中,若第一特征参数计算数据为均值m1和方差s1,则可以利用以下计算规则计算第二特征参数:
66.m2=0.1*m+(1-0.1)*m1;
67.s2=0.1*s+(1-0.1)*s1;
68.可以理解的是,其中m2和s2分别为第二特征参数中的均值和方差。
69.本实施例中,在预设音频采集时间段后,基于所述第一特征参数与预设初始特征参数确定第二特征参数,并将所述第二数据参数更新至已训练完成的语音唤醒判定模型中,然后继续完成后续的语音唤醒过程。上述过程可以理解为一种参数替换过程,如图4所示为一种参数替换流程示意图,在开机或语音唤醒算法启动后,语音唤醒判定模型以默认的参数运行,开机后的预设音频采集时间段中记录音频数据,计算用于替换默认参数的参数,在预设音频采集时间段后替换默认参数,并继续运行。
70.步骤s23:当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。
71.另外,本发明还可以预先设置预设调整周期,用于周期性地对语音唤醒判定模型中的参数以及音量阈值进行调整。具体的,可以设定每经过1小时,重新进行所述预设音频采集时间段的音频数据的音量以及数据特征的记录,记录后完成音量阈值、以及数据标准化参数的计算。使用滑动平均法计算新的音量阈值,并且将新得到的特征参数进行替换。
72.本实施例中同时记录音频音量与音频的数据特征,可以极大程度减少由于音频采集设备的差异以及外部环境音差异对算法造成的干扰;可以很好的提升算法模型的适用性,不需要针对特定的几种设备去进行单独优化。使得语音唤醒算法可以在电竞酒店等硬件种类繁多,背景环境复杂的场景中进行使用;可以适用不同的环境噪音场景,随着环境场景的改变动态的进行调整,过滤掉部分无关数据以及减少唤醒数据被过滤的概率;充分考虑了场景变换以及环境差异带来的影响,可以根据环境的变化来进行自适应的调整,充分利用各种先验信息,使得数据筛选策略更加精准。通过上述改进,本发明具备了较强的鲁棒性,可以在多种不同的硬件设备,以及和嘈杂环境下运行。极大的提升了在电竞酒店pc端用户的使用体验。
73.参见图5所示,本技术实施例公开了一种语音唤醒装置,具体可以包括:
74.第一阈值计算模块11,用于在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值;
75.第二阈值计算模块12,用于在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中;
76.语音唤醒模块13,用于当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。
77.本实施例中,先在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,然后在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中。当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。这样一来,通过一种根据用户的音量来进行数据筛选的数据过滤操作,减少了一部分数据进行进入唤醒算法,一方面可以降低硬件资源的占用,另一方面可以减少由于各种实施环境下的差异导致语音唤醒模型的稳定性弱的情况,并且降低算法误判误唤醒的风险。
78.进一步的,本技术实施例还公开了一种电子设备,图6是根据示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
79.图6为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、显示屏24、输入输出接口25、通信接口26和通信总线27。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的语音唤醒方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
80.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口26能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
81.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及虚拟机数据223等,虚拟机数据223可以包括各种各样的数据。存储方式可以是短暂存储或者永久存储。
82.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的语音唤醒方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
83.进一步的,本技术还公开了一种计算机可读存储介质,这里所说的计算机可读存
储介质包括随机存取存储器(random access memory,ram)、内存、只读存储器(read-only memory,rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中,所述计算机程序被处理器执行时实现前述公开的语音唤醒方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
84.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
85.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
86.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
87.以上对本发明所提供的语音唤醒方法、装置、设备、存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种语音唤醒方法,其特征在于,应用于电子设备,包括:在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值;在所述预设音频采集时间段后,基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中;当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。2.根据权利要求1所述的语音唤醒方法,其特征在于,所述基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,包括:基于所述第一音频数据中的音量信息与预设初始语音唤醒音量阈值,利用预设阈值计算公式计算第一语音唤醒音量阈值。3.根据权利要求1所述的语音唤醒方法,其特征在于,所述在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据之后,还包括:利用预设数据特征提取算法确定所述第一音频数据对应的第一数据特征,并确定所述第一数据特征对应的第一特征参数;相应的,所述语音唤醒方法,还包括:在所述预设音频采集时间段后,基于所述第一特征参数与预设初始特征参数确定第二特征参数,并将所述第二数据参数更新至已训练完成的语音唤醒判定模型中。4.根据权利要求3所述的语音唤醒方法,其特征在于,所述第一特征参数、所述第二特征参数以及所述预设初始特征参数中均包括音频数据的均值和方差。5.根据权利要求1所述的语音唤醒方法,其特征在于,还包括:设定预设初始语音唤醒音量阈值;其中,所述预设初始语音唤醒音量阈值为利用预先采集的样本数据中的音量信息计算四分位数,并基于所述四分位数确定并设定的阈值。6.根据权利要求1所述的语音唤醒方法,其特征在于,所述基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值,包括:计算第一音频数据中的全分贝刻度信息;基于所述全分贝刻度信息,利用预设计算规则计算第一语音唤醒音量阈值。7.根据权利要求1至6任一项所述的语音唤醒方法,其特征在于,所述基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,包括:基于所述第一语音唤醒音量阈值与预设初始语音唤醒音量阈值,并利用预设滑动平均算法确定第二语音唤醒音量阈值。8.一种语音唤醒装置,其特征在于,包括:第一阈值计算模块,用于在开机后的预设音频采集时间段内记录用于采集声音的音频输入设备采集的第一音频数据,并基于所述第一音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值;第二阈值计算模块,用于在所述预设音频采集时间段后,基于所述第一语音唤醒音量
阈值与预设初始语音唤醒音量阈值确定第二语音唤醒音量阈值,并从所述音频输入设备实时采集的第二音频数据中确定大于所述第二语音唤醒音量阈值的目标语音数据,然后将所述目标语音数据输入已训练完成的语音唤醒判定模型中;语音唤醒模块,用于当所述语音唤醒判定模型判定所述目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。9.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的语音唤醒方法。10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音唤醒方法。

技术总结
本申请公开了一种语音唤醒方法、装置、设备及介质,涉及电子智能化领域,该方法应用于电子设备,包括:在开机后的预设时间段内记录音频输入设备采集的第一音频数据,并基于音频数据中的音量信息,利用预设计算规则计算第一语音唤醒音量阈值;在预设时间段后,基于第一语音唤醒音量阈值与预设初始语音唤醒音量阈值确定第二阈值,并从实时采集的第二音频数据中确定大于第二阈值的目标语音数据,然后将目标语音数据输入已训练完成的语音唤醒判定模型中;当模型判定目标语音数据满足目标唤醒条件时,则执行相应的唤醒操作。本发明可以降低语音唤醒功能对于硬件资源的占用,增强语音唤醒模型的稳定性,降低误判误唤醒的风险。降低误判误唤醒的风险。降低误判误唤醒的风险。


技术研发人员:罗梦研 李鹏举 师艳伟
受保护的技术使用者:杭州顺网科技股份有限公司
技术研发日:2023.06.26
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐