用于听力系统中自身语音检测的系统和方法与流程
未命名
08-17
阅读:121
评论:0
用于听力系统中自身语音检测的系统和方法
1.背景信息
2.听力设备可以被配置为提供音频内容的经处理版本以增强用户的听力。然而,如果音频内容包括用户自身声音(自身语音内容),则以与其他检测到的音频内容相同的方式放大和/或处理此类内容可能会产生对用户听起来不自然或不利的输出。此外,对于其他音频内容或自身语音内容,可能需要或优选不同的处理策略。因此,识别音频内容中自身语音内容对于听力设备的最佳性能很重要。
3.us20080189107a1描述了一种尝试使用直达声音部分和混响声音部分之间的信号能量比来识别自身语音内容的方法。
4.us10025668b2描述了一种具有左听力设备以及右听力设备的听力系统,左听力设备以及右听力设备中的每个听力设备都包括耳后麦克风、耳内麦克风和自适应滤波器,用于尝试检测听力设备的佩戴者的声音。
5.us10616694b2描述了一种听力设备,其针对与自身语音声音类型的对应程度来分析声音。取决于声音与自身语音的对应程度,将声音识别为自身语音。
6.这些用于检测自身语音内容的传统方法中的每种方法都不利地需要专门的组件和/或复杂的处理。
附图说明
7.附图示出了各种实施例并且是说明书的一部分。图示的实施例仅仅是示例并且不限制本公开内容的范围。在所有附图中,相同或相似的附图标记表示相同或相似的元件。
8.图1-图2示出了根据本文描述的原理的示例性听力系统。
9.图3-图4示出了根据本文描述的原理的用于自身语音检测的示例性图。
10.图5-图6示出了根据本文描述的原理的示例性听力设备。
11.图7示出了根据本文描述的原理的用于自身语音检测的示例性图。
12.图8示出了根据本文描述的原理的用于自身语音检测的示例性流程图。
13.图9示出了根据本文描述的原理的示例性计算设备。
14.图10示出了根据本文描述的原理的示例性方法。
具体实施方式
15.本文描述了用于听力系统中自身语音检测的示例性系统和方法。例如,听力系统可以包括:同侧麦克风,其与用户的同侧耳朵相关联(例如,位于其附近)并被配置为:检测表示音频内容的同侧音频信号;对侧麦克风,其与用户的对侧耳朵相关联(例如,位于其附近)并被配置为:检测表示音频内容的对侧音频信号;以及与同侧耳朵相关联的听力设备(例如,被配置为向同侧耳朵提供音频内容的经处理版本)。听力设备可以被配置为:确定同侧音频信号的第一频谱部分的第一声压级(spl);确定同侧音频信号的第二频谱部分的第二spl;确定第一spl比第二spl至少大阈值spl量;以及确定同侧音频信号和对侧音频信号之间的对称水平至少为阈值对称水平。基于确定第一spl比第二spl至少大阈值spl量,以及
确定对称水平至少为阈值对称水平,听力设备可以被配置为:确定音频内容包括表示用户的语音的自身语音内容。
16.本文描述的系统和方法可以有利地为听力设备的用户提供许多好处。例如,本文描述的听力设备可以提供音频信号,这些音频信号比传统听力系统更准确地复制包括正常听力所感知的自身语音内容的音频内容。此外,与传统听力系统相比,本文描述的系统和方法可以在不需要额外组件的情况下更准确地检测自身语音内容。此外,本文所述的系统和方法可以更可靠和快速地检测自身语音内容,同时与传统听力系统相比使用更低的计算功率。此外,在一些实施方式中,本文描述的系统和方法可以使用机器学习算法来动态调整本文描述的阈值中的一个或多个,从而允许本文描述的系统和方法的自身的语音检测能力随着时间的推移而提高。至少出于这些原因,与传统的听力系统相比,本文描述的系统和方法可以有利地为听力设备用户提供附加功能和/或特征。本文所述的系统和方法的这些和其他益处将在本文中变得显而易见。
17.图1示出了可用于向用户传送声音的示例性听力系统100。听力系统100包括第一听力设备102-1和第二听力设备102-2(统称为“听力设备102”)。如图1中听力设备102相对于虚线104的定位所示,并且从听力设备102-1的角度来看,听力设备102-1与用户的同侧耳朵相关联,并且听力设备102-2与用户的对侧耳朵相关联。例如,如果听力设备102-1与用户的左耳相关联,则听力设备102-2与用户的右耳相关联。或者,如果听力设备102-1与用户的右耳相关联,则听力设备102-2与用户的左耳相关联。如本文所使用的,听力设备通过被配置为佩戴在特定耳朵上或特定耳朵内和/或通过为特定耳朵提供听力能力而与特定耳朵“相关联”。
18.听力设备102可以通过通信链路106相互通信,通信链路106可以是可以用于特定实施方式的有线的或无线通信链路。
19.听力设备102中的每个可以由被配置为提供或增强听力系统100的用户的听力的任何类型的听力设备来实现。例如,听力设备102中的每个可以由以下各项来实现:被配置为向用户施加放大的音频内容的助听器、被配置为向用户施加表示音频内容的电刺激的耳蜗植入系统中包括的声音处理器、被配置为向用户施加电-声刺激的电-声刺激系统中包括的声音处理器、头戴式耳机、耳戴式耳塞、可听设备、智能耳机或任何其他合适的听力设备。在一些示例中,听力设备102-1具有与听力设备102-2不同的类型。例如,听力设备102-1可以是助听器并且听力设备102-2可以是人工耳蜗系统中包括的声音处理器。作为另一个示例,听力设备102-1可以是单侧助听器并且听力设备102-2可以是信号对侧路由(cros)助听器-交联助听器。
20.如图所示,听力设备102-1可以包括处理器108-1、存储器110-1、麦克风112-1和输出换能器114-1。同样,听力设备102-2可以包括处理器108-2、存储器110-2、麦克风112-2和输出换能器114-2。听力设备102可以包括可以用于特定实施方式的附加或替代组件。
21.处理器108(例如,处理器108-1和处理器108-2)被配置为执行各种处理操作,例如处理由听力设备102接收的音频内容并向彼此发送数据。处理器108中的每个处理器可由硬件和软件的任何合适的组合来实现。本文对由听力设备(例如,听力设备102-1)执行的操作的任何引用可被理解为由听力设备的处理器(例如,处理器108-1)执行。
22.存储器110(例如,存储器110-1和存储器110-2)可由任何合适类型的非暂时性计
算机可读存储介质实现,并且可以保存(例如,存储)处理器108使用的数据。例如,存储器110可以存储表示操作程序的数据,该操作程序指定每个处理器108如何处理音频内容并将音频内容传送给用户。为了说明,如果听力设备102-1是助听器,则存储器110-1可以保存表示操作程序的数据,该操作程序指定由处理器108-1用来向用户传送声学内容的音频放大方案(例如,放大水平等)。作为另一示例,如果听力设备102-1是包括在人工耳蜗系统中的声音处理器,则存储器110-1可以保存表示操作程序的数据,该操作程序指定听力设备102-1使用的刺激方案,用于指导人工耳蜗向用户施加表示声学内容的电刺激。
23.麦克风112(例如,麦克风112-1和麦克风112-2)可以由任何合适的音频检测设备实现并且被配置为检测呈现给听力设备102的用户的音频信号。如图1所示,麦克风112可以包括在(例如,嵌入在其内、在其表面上或以其他方式位于)听力设备102中。麦克风112中的一个或二者可以可替代地与其相应的听力设备102分离并且通信地耦合至它们相应的听力设备102。例如,麦克风112-1可以可移除地附接到听力设备102-1。
24.麦克风112-1在本文中可被称为与用户的同侧耳朵相关联的同侧麦克风。同样,麦克风112-2在本文中可被称为与用户的对侧耳朵相关联的对侧麦克风。麦克风可以通过相对靠近特定耳朵定位而与特定耳朵“相关联”,使得麦克风检测呈现给特定耳朵的音频信号。例如,麦克风112-1可以被配置为检测呈现给同侧耳朵的音频信号(因此,该音频信号在本文中可以被称为“同侧音频信号”)。同样,麦克风112-2可以被配置为检测呈现给对侧耳朵的音频信号(因此,该音频信号在本文中可以被称为“对侧音频信号”)。同侧音频信号和对侧音频信号可以表示相同音频内容(例如,音乐、声音、噪声、自身语音内容等),但是由于麦克风112的不同定位可以具有不同的特性。
25.输出换能器114可由任何合适的音频输出设备来实现。例如,输出换能器114可以由听力设备的扬声器(也被称为接收机)或人工耳蜗系统的一个或多个电极来实现。
26.图2示出了可以根据本文描述的系统和方法使用的替代听力系统200。听力系统200与听力系统100的相似之处在于听力系统200包括与用户的同侧耳朵相关联的听力设备102-1。然而,如图所示,听力系统200不包括与用户的对侧耳朵相关联的第二听力设备。而是,听力系统200包括与用户的对侧耳朵相关联并且通过通信链路204通信地耦合至听力设备102-1的对侧麦克风202,其可以是有线或无线的,可以服务于特定实施方式。
27.如本文所述,听力设备(例如,听力设备102-1和/或听力设备102-2)可以被配置为:确定分别由同侧麦克风和对侧麦克风检测到的同侧音频信号和对侧音频信号表示的音频内容何时包括自身语音内容。如现在将要描述的,这可以至少部分地基于对同侧音频信号的不同频谱部分的spl的比较来执行。
28.图3示出了示例性图300,图300示出了包括自身语音内容的音频信号的spl。图300包括表示相对spl的y轴302和表示相对距离的x轴304。例如,x轴304示出了两个位置,位置306表示用户嘴巴处的位置,而位置308表示用户耳朵处的位置。实线310描绘了音频信号的第一频谱部分的spl,而虚线312描绘了音频信号的第二频谱部分的spl。第一频谱部分与包括音频信号的低频范围的频率相对应,而第二频谱部分与包括音频信号的高频范围的频率相对应。
29.第一频谱部分的频率范围可以是低于音频信号的剩余频率范围的任何合适的频率范围。例如,低频范围可以是以任何合适的相对较低的音频频率(例如,500hz至2khz)为
中心的任何合适宽度(例如,10赫兹(hz)至2khz)的频带。例如,低频范围可以是800hz至1200hz、975hz至1025hz或任何其他合适的范围。频谱部分的spl可以是与频谱部分相关联的任何合适的spl,例如平均spl、中值spl、最大spl、最小spl等。第二频谱部分的频率范围可以是高于音频信号的低频率范围的任何合适的频率范围。例如,高频范围可以是以任何合适的相对较高的音频频率(例如,4khz至10khz)为中心的任何合适宽度(例如,10赫兹(hz)至2khz)的频带。例如,高频范围可以是4khz至7khz、5khz至6khz或任何其他合适的范围。
30.当音频内容包括自身语音内容时,音频信号可以针对低频范围和高频范围以相对相似的spl离开用户的嘴巴,如位置306处所示。然而,低频范围和高频范围可以采用不同的声学路径到达耳朵。音频信号的低频范围(或音频信号的低频范围的至少一部分)可以经由通过用户的头部的直接传导从嘴巴发送到耳朵。然而,音频信号的高频范围可能无法通过头部传导,而是可能通过嘴巴和耳朵之间的非直接路径被发送(包括经由其他表面的反射)。因此,当音频信号从嘴巴行进到耳朵时,低频范围的spl与高频范围的spl相比可能衰减的更少,如位置308处所示。
31.图4示出了示例性图400,其进一步示出了表示包括自身语音内容的音频内容的音频信号的spl。图400包括表示spl的y轴402相对于表示频率的x轴404。虚线406表示音频信号的源处的音频信号。在该示例中,音频信号可以在音频信号的源处的音频信号的频谱上具有相同的spl,并且因此虚线406在所有频率值上具有相同的spl值。
32.如果音频信号表示自身语音内容,则实线408表示音频信号向用户的耳朵的传输。如针对图300所描述的,当音频信号表示自身语音内容时,音频信号的低频范围与音频信号的高频范围相比可能衰减的更少。相反,如果音频信号表示不包括自身语音内容的音频内容,则虚线410表示音频信号向用户耳朵的传输(在相同的距离上)。如图所示,当音频内容不包括自身语音内容时,音频信号的低频范围衰减与高频范围相对相似的量,因为这两个频率范围从音频内容源到用户耳朵的行进了相似的声学路径。
33.具有自身语音内容的音频信号和没有自身语音内容的音频信号的对比由箭头412和414突出显示,这示出:在低频范围内,与具有自身语音内容的音频信号(箭头412)相比,针对没有自身语音内容的音频信号(箭头414)的spl下降更大。同时,箭头416和418示出:在高频范围内,针对没有自身语音内容的音频信号(箭头416)和具有自身语音的音频信号(箭头418)的spl下降的差异较小。而是,如该示例中所示,在特定频率级别,具有自身语音内容的音频信号可以比不具有自身语音内容的音频信号衰减得更多。在用户的耳朵处(例如,靠近用户耳朵)检测到的音频信号的频谱部分的spl之间的这些差异可以是听力设备(例如,听力设备102-1)在确定音频信号是否表示包括自身语音内容的音频内容时可以考虑的一个因素。
34.图5示出了听力设备102的示例性配置500,其可以表示本文描述的听力设备102-1或102-2。如图所示,听力设备102接收同侧音频信号502-1和对侧音频信号502-2(统称为音频信号502)。如所述,同侧音频信号502-1可由同侧麦克风(例如,麦克风112-1)检测,而对侧音频信号502-2可由对侧麦克风(例如,麦克风112-2或麦克风202)检测。
35.听力设备102可以对音频信号502执行各种操作以确定音频信号502是否包括自身语音内容,如分析功能504-510所表示的。例如,如图所示,听力设备102可以针对同侧音频
信号502-1和/或对侧音频信号502-2执行频谱spl分析504、方向分析506、总spl分析508和/或声音内容分析510,以确定这些音频信号是否包括自身语音内容。听力设备102可以使用这些分析功能504-510中的一个或多个功能的任何组合而可以服务于特定实施方式。例如,在一些情况下,听力设备102可以单独或结合总spl分析508和/或声音内容分析510,基于频谱spl分析504和方向分析506来确定同侧音频信号502-1和/或对侧音频信号502-2包括自身语音内容。基于使用分析功能504-510中的一个或多个分析功能对同侧音频信号502-1和/或对侧音频信号502-2的处理,听力设备102可以输出指示音频信号502是否包括自身语音内容的自身语音确定数据512。本文中描述了分析功能504-510中的每个分析功能。
36.听力设备102可以以任何合适的方式执行频谱spl分析504。例如,听力设备102可以确定同侧音频信号的第一频谱部分的第一spl。第一频谱部分可以具有包括在第一频率范围内的频率。听力设备102还可以确定同侧音频信号的第二频谱部分的第二spl。第二频谱部分可以具有包括在比第一频率范围更高的第二频率范围内的频率。听力设备102还可以确定第一spl是否比第二spl至少大阈值spl量。阈值量可以是任何合适的阈值spl量。例如,不包括自身语音内容的音频内容的同侧音频信号的平均第一spl可以比第二spl高大约10分贝(db)。相反,包括自身语音内容的音频内容的同侧音频信号的平均第一spl可以比第二spl高大约30db。因此,可以针对平均差值之间的值(例如,15db、20db、25db等)来设置阈值spl量。
37.附加地或替代地,听力设备102可以通过确定第一spl和第二spl之间的比以及确定该比是否高于与阈值spl量相关联的阈值比,来确定第一spl是否比第二spl至少大阈值量。阈值spl比可以是任何合适的spl比,其指示第一频谱部分比第二频谱部分的衰减少阈值spl量。因此,阈值spl比可以指示第一频谱部分的spl比第二频谱部分的spl至少大阈值spl量。例如,阈值比可以在25和35之间(例如,在28和32之间,被设置为30,或25和35之间的任何其他阈值,等等)或者任何其他合适的比。
38.听力设备102可以以任何合适的方式执行方向分析506。例如,听力设备102(例如,听力设备102的方向/空间分类器)可以确定同侧音频信号502-1和对侧音频信号502-2之间的对称水平并将该对称水平与阈值对称水平进行比较。听力设备102还可以使用头部相关传递函数来确定音频信号502相对于用户到来的方向。由于嘴巴位于用户耳朵的前方,因此由嘴巴生成的音频信号可能看起来像是来自用户前方(和/或可能被物体反射而实际上来自用户前方)。
39.来自用户前方的音频信号可以是相对对称的,如左耳和右耳所检测到的。因此,听力设备102可以确定同侧音频信号502-1和对侧音频信号502-2之间的对称水平。可以以任何合适的方式确定对称水平,例如比较音频信号502的spl、音频信号502的波形等。听力设备102可以确定对称水平是否至少为阈值对称水平。阈值对称水平可以是任何合适的阈值对称水平。另外,听力设备102还可以确定相对对称的音频信号是看起来来自用户前方还是来自用户后方,因为来自用户后方的音频信号也可能是相对对称的。可以以任何合适的方式执行这样的确定,例如使用头部相关的传递函数。
40.听力设备102可以以任何合适的方式执行总spl分析508。例如,听力设备102可以确定同侧音频信号502的spl(例如,跨大多数频率或所有频率)。具有自身语音内容的音频信号的spl总体上通常高于不具有自身语音内容的音频信号的spl,因为自身语音内容的来
源是用户的嘴巴,并且因此与用户的耳朵有固定的距离。另一方面,没有自身语音内容的音频信号通常来自距离用户耳朵比用户嘴巴更远的源,并且因此总spl通常较低。听力设备102可以将总spl与阈值spl进行比较以确定音频内容是否可以包括自身语音内容。阈值spl可以是任何合适的spl。
41.听力设备102可以以任何合适的方式执行声音内容分析510。自身语音内容通常可以包括声音内容,并且因此声音内容的检测可以是用于确定音频内容是否包括自身语音内容的另一个因素。此外,通常较高的总spl对于表示包括声音内容的音频内容的音频信号可能尤其如此。
42.听力设备102可以提供基于这些分析中的一个或多个分析的自身语音确定的输出512。在一些示例中,机器学习算法可用于基于这些因素和其他因素来优化对自身语音内容的检测。在一些示例中,自身语音确定还可以基于对侧听力设备的自身语音确定。基于分析函数504-510,同侧听力设备和对侧听力设备二者都应该对音频信号是否包括自身语音内容做出相同的确定。因此,每个设备还可以将其相应的自身语音确定基于另一听力设备的自身语音确定。
43.图6示出了听力设备102的示例性配置600,包括被配置为实施此类机器学习算法的机器学习模块602。配置600将听力设备102示为在配置500中添加了机器学习模块602。机器学习模块602可以使用任何合适的机器学习算法来实现,例如神经网络(例如,人工神经网络(ann)、卷积神经网络(cnn)、深度神经网络(dnn)和/或递归神经网络(rnn)等)、强化学习、线性回归等。机器学习模块602可以针对听力设备102分析的音频信号502的各种特性确定最佳参数、权重等。例如,机器学习模块602可以确定用于频谱spl分析504的最佳阈值、用于频谱spl分析504的最佳频率范围、用于定向分析506的对称水平的阈值、用于总spl分析508的阈值,等等。可以用任何合适的方式训练机器学习模块602。例如,机器学习模块602可以被配置为:基于音频信号502是否包括自身语音内容的确定来更新阈值。在本文中描述了这样的优化。附加地或替代地,可以用监督方式来训练机器学习模块602,例如使用根据音频信号是否包括自身语音内容和/或当音频信号包含(或不包含)自身语音内容时接收来自用户的输入来标记的音频信号的初始数据集。
44.虽然配置600示出了机器学习模块602包括在听力设备102中,但替代地,机器学习模块可以被远程实现并通信耦合至听力设备102(例如,在智能手机、服务器等上)。附加地或替代地,分析功能504-510中的任何一个也可以在通信地耦合至听力设备102的远程设备上执行。
45.图7示出了示例性图700,其示出了表示具有自身语音内容的和不具有自身语音内容的音频内容的音频信号的spl比。图700包括表示spl比的y轴702和表示针对其确定了样本spl比的八个对象的x轴704。对于每个对象,s1-s8,针对具有自身语音内容和没有自身语音内容的音频信号的频率范围测量了spl,并基于spl确定了spl比。
46.实线706示出了对象s1-s8的具有自身语音内容的音频信号的spl比,而虚线708示出对象s1-s8的不具有自身语音内容的音频信号的spl比。例如,实线706-1示出了针对对象s1的具有自身语音内容的音频信号的高频范围的spl和针对对象s1的具有自身语音内容的音频信号的低频范围的spl之间的spl比约为36。虚线708-1示出了针对对象s1的没有自身语音内容的音频信号的高频范围的spl和针对对象s1的没有自身语音内容的音频信号的低
频范围的spl之间的spl比约为27。
47.在实线706和虚线708之间的是虚线710,其可以是具有自身语音内容的音频信号和没有自身语音内容的音频信号的spl比之间的示例阈值。例如,虚线710-1示出了大约31的spl比,其可以用作针对对象s1的阈值spl比。附加地或替代地,虚线712示出了基于针对对象s1-s8的阈值spl比确定的平均阈值spl比(例如,大约30的spl比)。平均阈值spl比可用作默认阈值spl比(例如,在28-32之间的spl比),然后可基于本文所述的单独的spl比对其进行调整。
48.图8示出了用于由听力设备(例如,听力设备102)确定自身语音内容的示例性流程图800。听力设备102可以接收同侧音频信号和对侧音频信号,并且在操作802处,确定针对包括同侧音频信号的低频范围的第一频谱部分的spl。可以以任何合适的方式确定spl。在操作804处,听力设备102可以确定包括同侧音频信号的高频范围的第二频谱部分的spl。
49.在操作806处,听力设备102可以确定低频范围的spl和高频范围的spl之间的spl比。可以以本文描述的任何方式来确定spl比。例如,低频范围的spl可以除以高频范围的spl。附加地或替代地,在频域中,可以从低频范围的spl中减去高频范围的spl。附加地或替代地,可以基于spl差和频率范围的差来确定斜率。
50.在操作808处,听力设备102可以确定同侧音频信号和对侧音频信号之间的对称水平。可以以本文描述的任何方式来确定对称水平。
51.在操作810处,听力设备102可以基于对称水平来确定音频信号是否看起来来自用户前方。在一些示例中,该确定还可以基于头部相关的传递函数,如本文所述。如果听力设备102确定音频信号似乎不是来自用户前方(否,操作810),则听力设备102可以在操作812处确定由音频信号表示的音频内容不包括自身语音内容。
52.在一些示例中,听力设备102还可以在操作812处更新分析参数。例如,听力设备102可以使用音频信号的特性来确定和/或调整阈值,将附加音频信号与该阈值进行比较以确定自身语音内容。例如,音频信号的特性可以包括总spl、spl比、音频信号的不同频谱部分的spl(例如,用于调整频谱部分的频率范围),等等。基于这样的特性,听力设备102可以调整阈值spl量、总spl阈值、第一频谱部分和第二频谱部分的频率范围、阈值对称水平和/或用于检测自身语音内容的任何其他阈值。如结合图7所描述的,在一些示例中,机器学习模块702可以用于执行这些调整。附加地或替代地,可以使用任何其他合适的过程来执行调整。
53.在一些示例中,听力设备102还可以在操作814处确定音频内容是否包括声音内容。听力设备102可以以任何合适的方式来分析音频信号以检测声音内容。如果听力设备102确定音频内容不包括声音内容(否,操作814),则听力设备102可以执行操作812,确定音频信号不表示自身语音内容,并基于音频信号的特性相应地更新分析参数。如果听力设备102确定音频内容确实包括声音内容(是,操作814),则听力设备102可以执行操作816。
54.如果在操作810处,听力设备102确定音频信号看起来确实来自用户前方(是,操作810),则听力设备102可以在操作816处确定在操作806处确定的spl比是否至少为阈值spl比。如果听力设备102确定spl比小于阈值spl比(否,操作816),则听力设备102可以执行操作812,确定音频信号不表示自身语音内容,并基于音频信号的特性相应地更新分析参数。因此,听力设备102可以基于同侧音频信号的spl比不满足阈值spl比,确定同侧音频信号不
包括自身语音内容,尽管同侧音频信号和对侧音频信号具有至少阈值对称水平。相反,听力设备102可以基于同侧音频信号和对侧音频信号不满足阈值对称水平来确定同侧音频信号不包括自身语音内容,尽管至少具有阈值spl比。
55.如果听力设备102确定spl比至少是阈值spl比(是,操作816),则听力设备102可以在操作818处确定音频信号表示自身语音内容。因此,确定音频信号表示自身语音内容是基于确定spl比至少是spl比(是,操作816)和确定音频信号看起来自用户前方(是,操作810)。
56.听力设备102可以以任何合适的方式使用对自身语音内容的这种确定。例如,可以用与不包括自身语音内容的音频信号不同的方式处理包括自身语音内容的音频信号。此类处理可以被配置为以对用户来说听起来更自然的方式向用户提供用户的自身语音,以改进关键字检测、遮挡控制等。例如,听力设备102可以包括各种声音处理程序,其中一些可以被配置用于处理自身语音内容。可以基于音频信号包括自身语音内容的确定来选择和/或调整此类程序。附加地或替代地,可以以任何合适的方式使用自身语音内容,例如提供给电话以供传输、用于混合电话的侧音,等等。
57.此外,听力设备102还可以使用音频信号的特性,基于确定音频信号表示自身语音内容来更新分析参数。例如,虽然与高频范围相比低频范围的衰减通常可以遵循可识别的模式,但是该模式可以基于每个特定用户而变化。此外,即使对于每个特定用户,特性(以及因此,最佳阈值)也可以基于声音内容以及用户的情绪、音量、健康、活动、声学环境等而变化。因此,听力设备102还可以基于确定音频信号表示自身语音内容来进一步更新分析参数。同样可以使用任何合适的机器学习算法。在一些示例中,可以使用机器算法基于特定用户的简档、特性、模型和/或语音样本来对听力设备102的分析参数值进行初始编程和/或训练。
58.图9示出了示例性计算设备900,其可以被具体配置为执行本文描述的一个或多个过程。本文描述的任何系统、单元、计算设备和/或其他组件可由计算设备900实现。
59.如图9所示,计算设备900可以包括通信接口902、处理器904、存储设备906以及输入/输出(“i/o”)模块908,它们经由通信基础设施910彼此通信连接。尽管在图9中示出了示例性计算设备900,但图9中所示的组件并非意在是限制性的。在其他实施例中可以使用附加或替代的组件。现在将更详细地描述图9中所示的计算设备900的组件。
60.通信接口902可以被配置为与一个或多个计算设备通信。通信接口902的示例包括但不限于有线网络接口(例如网络接口卡)、无线网络接口(例如无线网络接口卡)、调制解调器、音频/视频连接以及任何其他合适的接口。
61.处理器904通常表示任何类型或形式的处理单元,其能够处理数据和/或解释、执行和/或指导执行本文描述的一个或多个指令、过程和/或操作。处理器904可以通过执行存储在存储设备906中的计算机可执行指令912(例如,应用、软件、代码和/或其他可执行数据实例)来执行操作。
62.存储设备906可以包括一个或多个非暂时性计算机可读数据存储介质、设备或配置,并且可以采用数据存储介质和/或设备的任何类型、形式和组合。例如,存储设备906可以包括但不限于本文描述的非易失性介质和/或易失性介质的任何组合。电子数据,包括本文所述的数据,可以暂时和/或永久地存储在存储设备906中。例如,表示被配置为指导处理器904执行本文描述的任何操作的计算机可执行指令912的数据可以被存储在存储设备906
内。在一些示例中,数据可以布置在驻留在存储设备906内的一个或多个数据库中。
63.i/o模块908可以包括一个或多个i/o模块,该i/o模块被配置为接收用户输入和提供用户输出。i/o模块908可以包括支持输入和输出能力的任何硬件、固件、软件或者它们的组合。例如,i/o模块908可以包括用于捕获用户输入的硬件和/或软件,包括但不限于键盘或小键盘、触摸屏组件(例如,触摸屏显示器)、接收机(例如,rf或红外接收机)、运动传感器和/或一个或多个输入按钮。
64.i/o模块908可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动器(例如,显示驱动器),一个或多个音频扬声器,以及一个或多个音频驱动器。在某些实施例中,i/o模块908被配置为向显示器提供图形数据以呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实现的任何其他图形内容。
65.图10示出了一种示例性方法1000。图10所示的一个或多个操作可由本文所述的任何听力设备执行。虽然图10示出了根据一个实施例的示例性操作,但其他实施例可以省略、添加、重新排序和/或修改图10中所示的任何操作。图10中所示的每个操作可以以本文描述的任何方式执行。
66.在操作1002处,与同侧耳朵相关联的听力设备确定同侧音频信号的第一频谱部分的第一声压级(spl),第一频谱部分具有第一频率范围中包括的频率。
67.在操作1004处,听力设备确定同侧音频信号的第二频谱部分的第二spl,第二频谱部分具有比第一频率范围更高的第二频率范围中包括的频率。
68.在操作1006处,听力设备确定第一spl比第二spl至少大阈值spl量。
[0069][0070]
在操作1008处,听力设备确定同侧音频信号和对侧音频信号之间的对称水平至少为阈值对称水平。
[0071]
在操作1010处,听力设备确定音频内容包括声音内容。
[0072]
在操作1012处,听力设备基于确定第一spl比第二spl至少大阈值spl量,以及确定对称水平至少为阈值对称水平,以及确定音频内容包括声音内容,来确定音频内容包括表示用户的语音的自身语音内容。
[0073]
在前面的描述中,已经参考附图描述了各种示例性实施例。然而,将显而易见的是,在不背离所附权利要求书中阐述的本发明的范围的前提下,可以对其进行各种修改和改变,并且可以实施额外的实施例。例如,本文描述的一个实施例的某些特征可以与本文描述的另一实施例的特征组合或替代。因此,应当认为本说明书和附图是说明性而非限制性的。
技术特征:
1.一种听力系统,包括:同侧麦克风,其与用户的同侧耳朵相关联并被配置为:检测表示音频内容的同侧音频信号;对侧麦克风,其与所述用户的对侧耳朵相关联并被配置为:检测表示所述音频内容的对侧音频信号;以及听力设备,其与所述同侧耳朵相关联并且被配置为:确定所述同侧音频信号的第一频谱部分的第一声压级(spl),所述第一频谱部分具有第一频率范围中包括的频率;确定所述同侧音频信号的第二频谱部分的第二spl,所述第二频谱部分具有比所述第一频率范围更高的第二频率范围中包括的频率;确定所述第一spl比所述第二spl至少大阈值spl量;确定所述同侧音频信号和所述对侧音频信号之间的对称水平至少为阈值对称水平;以及基于确定所述第一spl比所述第二spl至少大所述阈值spl量,以及确定所述对称水平至少为所述阈值对称水平,而确定所述音频内容包括表示所述用户的语音的自身语音内容。2.根据权利要求1所述的听力系统,其中,确定所述第一spl比所述第二spl至少大所述阈值spl量包括:确定所述第一spl和所述第二spl之间的比;以及确定所述比高于与所述阈值spl量相关联的阈值比。3.根据权利要求2所述的听力系统,其中,所述第一频率范围在800赫兹(hz)和1200hz之间,所述第二频率范围在4千赫兹(khz)和7khz之间,并且所述阈值比在25和35之间。4.根据权利要求1所述的听力系统,其中:所述听力设备还被配置为确定所述同侧音频信号的总spl;以及确定所述音频内容包括自身语音内容还基于所述同侧音频信号的所述总spl。5.根据权利要求1所述的听力系统,其中:所述听力设备还被配置为:基于所述同侧音频信号确定所述音频内容包括声音内容;并且确定所述音频内容包括自身语音内容还基于确定所述音频内容包括声音内容。6.根据权利要求1所述的听力系统,其中:所述同侧麦克风被配置为:检测表示附加音频内容的附加同侧音频信号;所述对侧麦克风被配置为:检测表示所述附加音频内容的附加对侧音频信号;并且所述听力设备还被配置为:确定所述附加同侧音频信号与所述附加对侧音频信号之间的附加对称水平小于所述阈值对称水平;以及基于确定所述附加对称水平小于所述阈值对称水平,而确定所述附加音频内容不包括所述自身语音内容。7.根据权利要求6所述的听力系统,其中,所述听力设备还被配置为:确定所述附加同侧音频信号的所述第一频谱部分的第三spl;
确定所述附加同侧音频信号的所述第二频谱部分的第四spl;以及基于确定所述附加音频内容不包括所述自身语音内容,而基于所述第三spl和所述第四spl之间的差来调整所述阈值spl量。8.根据权利要求7所述的听力系统,其中,调整所述阈值spl量包括使用机器学习算法。9.根据权利要求1所述的听力系统,其中:所述同侧麦克风被配置为:检测表示附加音频内容的附加同侧音频信号;所述对侧麦克风被配置为:检测表示所述附加音频内容的附加对侧音频信号;并且所述听力设备还被配置为:确定所述附加同侧音频信号的所述第一频谱部分的第三spl;确定所述附加同侧音频信号的所述第二频谱部分的第四spl;确定所述第三spl比所述第四spl大的量小于所述阈值spl量;以及基于确定所述第三spl比所述第四spl大的量小于所述阈值spl量,而确定所述附加音频内容不包括所述自身语音内容。10.根据权利要求9所述的听力系统,其中:所述听力设备还被配置为:确定所述附加同侧音频信号与所述附加对侧音频信号之间的附加对称水平至少为所述阈值对称水平;以及尽管确定所述附加对称水平至少是所述阈值对称水平,仍确定所述附加音频内容不包括所述自身语音内容。11.根据权利要求9所述的听力系统,其中,所述听力设备还被配置为:基于所述第三spl和所述第四spl之间的差来调整所述阈值spl量。12.根据权利要求11所述的听力系统,其中,调整所述阈值spl量包括使用机器学习算法。13.根据权利要求1所述的听力系统,其中,所述听力设备包括所述同侧麦克风。14.根据权利要求1所述的听力系统,还包括与所述对侧耳朵相关联的并且包括所述对侧麦克风的附加听力设备。15.一种系统,包括:第一听力设备和第二听力设备,所述第一听力设备与用户的同侧耳朵相关联,并且包括第一麦克风,所述第一麦克风被配置为检测表示音频内容的同侧音频信号;并且所述第二听力设备与所述用户的对侧耳朵相关联,并且包括第二麦克风,所述第二麦克风被配置为检测表示所述音频内容的对侧音频信号;其中,所述第一听力设备被配置为:确定所述同侧音频信号的第一频谱部分的第一声压级(spl),所述第一频谱部分具有第一频率范围中包括的频率;确定所述同侧音频信号的第二频谱部分的第二spl,所述第二频谱部分具有比所述第一频率范围更高的第二频率范围中包括的频率;确定所述第一spl比所述第二spl至少大阈值spl量;确定所述同侧音频信号和所述对侧音频信号之间的对称水平至少为阈值对称水平;以及
基于确定所述第一spl比所述第二spl至少大所述阈值spl量,以及确定所述对称水平至少为所述阈值对称水平,而确定所述音频内容包括表示所述用户的语音的自身语音内容。16.根据权利要求15所述的系统,其中,所述第二听力设备被配置为:确定所述对侧音频信号的第一频谱部分的第三spl;确定所述对侧音频信号的第二频谱部分的第四spl;确定所述第三spl比所述第四spl至少大所述阈值spl量;确定所述同侧音频信号和所述对侧音频信号之间的所述对称水平至少为所述阈值对称水平;以及基于确定所述第三spl比所述第四spl至少大所述阈值spl量,以及确定所述对称水平至少为所述阈值对称水平,确定所述音频内容包括表示所述用户的语音的自身语音内容。17.根据权利要求15所述的系统,其中:所述第一麦克风被配置为:检测表示附加音频内容的附加同侧音频信号;所述第二麦克风被配置为:检测表示所述附加音频内容的附加对侧音频信号;并且所述第一听力设备还被配置为:确定所述附加同侧音频信号与所述附加对侧音频信号之间的附加对称水平小于所述阈值对称水平;以及基于确定所述附加对称水平小于所述阈值对称水平,而确定所述附加音频内容不包括所述自身语音内容。18.根据权利要求17所述的系统,其中,所述第一听力设备还被配置为:确定所述附加同侧音频信号的所述第一频谱部分的第三spl;确定所述附加同侧音频信号的所述第二频谱部分的第四spl;以及基于确定所述附加音频内容不包括所述自身语音内容,而基于所述第三spl和所述第四spl之间的差来调整所述阈值spl量。19.根据权利要求15所述的系统,其中:所述第一麦克风被配置为:检测表示附加音频内容的附加同侧音频信号;所述第二麦克风被配置为:检测表示所述附加音频内容的附加对侧音频信号;并且所述第一听力设备还被配置为:确定所述附加同侧音频信号的所述第一频谱部分的第三spl;确定所述附加同侧音频信号的所述第二频谱部分的第四spl;确定所述第三spl比所述第四spl大的量小于所述阈值spl量;以及基于确定所述第三spl比所述第四spl大的量小于所述阈值spl量,而确定所述附加音频内容不包括所述自身语音内容。20.一种方法,包括:通过与用户的同侧耳朵相关联的听力设备确定表示音频内容的同侧音频信号的第一频谱部分的第一声压级(spl),所述第一频谱部分具有第一频率范围中包括的频率;通过所述听力设备确定所述同侧音频信号的第二频谱部分的第二spl,所述第二频谱部分具有比所述第一频率范围更高的第二频率范围中包括的频率;通过所述听力设备确定所述第一spl比所述第二spl至少大阈值spl量;
通过所述听力设备确定所述同侧音频信号和表示所述音频内容的对侧音频信号之间的对称水平至少为阈值对称水平;以及基于确定所述第一spl比所述第二spl至少大所述阈值spl量,以及确定所述对称水平至少为所述阈值对称水平,而确定所述音频内容包括表示所述用户的语音的自身语音内容。
技术总结
一种示例性听力设备被配置为:分别确定表示音频内容的同侧音频信号的第一频谱部分和第二频谱部分的第一声压级SPL和第二SPL。所述第一频谱部分和第二频谱部分具有分别包括在第一频率范围和第二频率范围内的频率,其中,所述第二频率范围高于所述第一频率范围。所述设备还可以确定所述第一SPL比所述第二SPL至少大阈值SPL量,并且确定所述同侧音频信号和对侧音频信号之间的对称水平至少为阈值对称水平。基于这些确定,所述听力设备可以确定所述音频内容包括自身语音内容。述音频内容包括自身语音内容。述音频内容包括自身语音内容。
技术研发人员:H
受保护的技术使用者:索诺瓦公司
技术研发日:2020.11.30
技术公布日:2023/8/16
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:显示装置的制造方法以及显示装置与流程 下一篇:元件补给方法及管理装置与流程
