语音识别方法、装置、电子设备和存储介质与流程

未命名 07-26 阅读:97 评论:0


1.本技术属于人工智能技术领域,具体涉及一种语音识别方法、装置、电子设备和存储介质。


背景技术:

2.在相关技术中,语音识别主要通过如n-gram语言模型进行识别,由于n-gram语言模型是一个概率模型,终端侧部署的语言模型一般较为简单,对语音的识别准确率低。


技术实现要素:

3.本技术实施例的目的是提供一种语音识别方法、装置、电子设备和存储介质,能够解决对语音的识别准确率低的问题。
4.第一方面,本技术实施例提供了一种语音识别方法,包括:
5.获取语音信号,和语音信号对应的脑电信号;
6.对语音信号进行特征向量提取,得到声学特征向量;
7.对脑电信号进行特征向量提取,得到脑电信号特征向量;
8.对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量;
9.根据融合特征向量和语音识别网络,识别语音信号对应的信息。
10.第二方面,本技术实施例提供了一种语音识别装置,包括:
11.获取模块,用于获取语音信号,和语音信号对应的脑电信号;
12.提取模块,用于对语音信号进行特征向量提取,得到声学特征向量;以及
13.对脑电信号进行特征向量提取,得到脑电信号特征向量;
14.融合模块,用于对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量;
15.识别模块,用于根据融合特征向量和语音识别网络,识别语音信号对应的信息。
16.第三方面,本技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
17.第四方面,本技术实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的方法的步骤。
18.第五方面,本技术实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面的方法的步骤。
19.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面的方法。
20.在本技术实施例中,在进行语音识别的场景下,在通过手机等电子设备获取用户的语音信号的同时,通过具有脑机交互功能的可穿戴设备,如带有脑电信号识别功能的智能耳机、智能眼镜、智能头戴显示器等设备,获取用户说话时的脑电信号,并对用户语音信
号的声学特征向量和脑电信号特征向量进行融合,由于用户在说出不同的话语时,用户的脑电信号不同,因此提取出的用户说话时的脑电信号特征向量,能够在原有的声学特征维度上,增加脑电信号维度的特征,因此通过脑电信号特征向量辅助基于声学特征向量的语音识别,能够提高对语音识别准确率。
附图说明
21.图1示出了本技术实施例的语音识别方法的流程图;
22.图2示出了本技术实施例的脑电信号的信号波示意图;
23.图3示出了本技术实施例的第二特征向量提取网络的网络结构示意图;
24.图4示出了本技术实施例的第一特征向量提取网络的处理流程示意图;
25.图5示出了本技术实施例的前馈型序列记忆网络的网络结构示意图;
26.图6示出了本技术实施例的存储模块的网络结构示意图;
27.图7示出了本技术实施例的unet网络的网络结构示意图;
28.图8示出了本技术实施例的语音识别方法的解码流程示意图;
29.图9示出了本技术实施例的语音识别装置的结构框图;
30.图10示出了本技术实施例的电子设备的结构框图;
31.图11为实现本技术实施例的一种电子设备的硬件结构示意图。
具体实施方式
32.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
33.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
34.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的语音识别方法、装置、电子设备和存储介质进行详细地说明。
35.在本技术的一些实施例中,提供了一种语音识别方法,图1示出了本技术实施例的语音识别方法的流程图,如图1所示,该语音识别方法包括:
36.步骤102,获取语音信号,和语音信号对应的脑电信号;
37.步骤104,对语音信号进行特征向量提取,得到声学特征向量;
38.步骤106,对脑电信号进行特征向量提取,得到脑电信号特征向量;
39.步骤108,对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量;
40.步骤110,根据融合特征向量和语音识别网络,识别语音信号对应的信息。
41.在本技术实施例中,语音识别方法可以由手机、平板电脑等电子设备执行,其中,
电子设备通过麦克风等拾音设备,采集用户的语音信息,并处理得到对应的语音信号。电子设备还可以与智能眼镜、智能耳机、智能头戴显示器等可穿戴设备配对连接,这些可穿戴设备上设置有能够获取脑电信号(脑电波)的传感器,传感器通过与用户头部皮肤的接触获取用户的脑电信号,具体为获取用户说出语音信息时的脑电信号。
42.可穿戴设备在采集脑电信号的同时,记录采集到脑电信号的时间信息,并将采集到的脑电信号和时间信息发送给电子设备。示例性地,电子设备通过与可穿戴设备之间的无线网络连接或有线数据连接来获取可穿戴设备采集到的脑电信号和采集时间。
43.电子设备在获取到脑电信号和脑电信号的采集时间后,根据脑电信号的采集时间,和自身记录的采集到用户语音信息的时间,将脑电信号和语音信号在时间维度上进行对齐,从而保证语音信号和脑电信号在时间维度上的一致。
44.其中,在通过麦克风得到用户说话的语音信号后,可以通过fbank(filterbank,一种前端处理算法)算法来提取声学特征向量。
45.脑电信号具体为人脑工作时产生的自发性电生理活动现象,图2示出了本技术实施例的脑电信号的信号波示意图,如图2所示,脑电信号包括四个波段,具体为β波(beta)、α波(alpha)、θ波(theta)和δ波(delta),不同的波段能够反应不同的脑部活动状态。
46.经研究表明,大脑在思考不同信息内容时,能够采集到的脑电信号也不同。因此,用户在说话时,采集到的用户的脑电信号能够反映出用户的思想,也即用户的语义。
47.电子设备在采集语音信号的同时,获取可穿戴设备采集到的用户说出语音信息时的脑电信号,并分别根据语音信号得到声学特征向量,和根据脑电信号得到脑电信号特征向量,在通过声学特征向量进行语音识别的基础上,通过深度神经学习网络提取能够辅助语音识别的脑电信号特征向量,能够在声学维度的基础上增加用户语义的维度。
48.通过将脑电信号特征向量与声学特征向量进行融合,就能得到既包含用户语音特征,也包含结合文本上下文的语义特征的融合特征向量。根据该融合特征向量对用户的语音信号进行语音识别,能够同时考虑语音和语义差异,因此能够有效提高语音识别准确率。
49.在本技术的一些实施例中,对脑电信号进行特征向量提取,得到脑电信号特征向量的步骤,包括:
50.根据脑电信号和第一特征向量提取网络,确定目标特征向量,其中,目标特征向量为包含文本上下文信息的特征向量;
51.根据目标特征向量和第二特征向量提取网络,确定脑电信号特征向量,其中,第二特征向量提取网络用于提取目标特征向量中表征文本信息的局部特征。
52.在本技术实施例中,通过可穿戴设备获取的脑电信号具体是一种数字信号,脑电信号的特征属于频率特征,其频率特征具体如图2所示。本技术实施例通过第一特征向量提取网络提取能够表征文本相关信息的局部特征的特征向量,记为目标特征向量。
53.示例性地,第一特征向量提取网络可以是前馈型序列记忆网络,通过前馈型序列记忆网络来提取表征文本相关信息的局部特征的特征向量。
54.具体地,第一特征向量提取网络包括存储模块(memory block),在存储模块中存储有一定数量的历史文本信息,该历史文本信息是根据用户的语音信息确定的,这些历史文本信息形成n个“过去记忆”,过去记忆也即用户在说出当前这句话之前的语音,即“上文”。这些“过去”的信息在引入时延网络后,通过时延网络能够得到“未来”的信息,从而在
存储模块中形成部分“未来记忆”,该未来记忆也即网络模型预测的,用户可能说出的下一句话,也即“下文”。
55.因此,通过根据过去记忆确定的上文和未来通过记忆预测的下文,第一特征向量提取网络能够在脑电信号的数字特征中,提取出文本上下文信息。
56.该文本上下文信息能够表示出用户语言的内容,声学特征向量能够表征用户语言的声音,结合内容和声音,就能更加准确地判断出用户的真实语言。举例来说,用户语言发音为“nanfang”,一般来说有“南方”和“男方”两种情况,此时如果是单纯的声学网络无法判别两种情况。
57.而在结合了脑电信号特征向量后,也即得到上下文信息后,如果上下文中包括了“女方”的信息时,则可以结合上下文信息,判断出用户发音的“nanfang”应该为“男方”而非“南方”。
58.因此,通过第一特征向量提取网络提取到的上下文信息能够辅助基于声学特征向量的声学网络解决无法区分相同发音、不同含义的语言的问题。
59.因此,在得到目标特征向量后,将目标特征向量输入至第二特征向量提取网络,具体地,图3示出了本技术实施例的第二特征向量提取网络的网络结构示意图,如图3所示,第二特征向量提取网络为simp-vgg-lstm结构,其中包括vgg-6网络和1层lstm(feed-forward sequen memory network,前馈型序列记忆网络)。
60.其中,vgg-6网络能够给后续的向量融合步骤预留一定的特征向量提取的空间,能够避免因为网络过深而导致的丢失高层次文本上下文信息的问题。
61.目标特征向量经过vgg-6网络结构中conv网络不同的感受野,可以提取目标特征向量中不同视野的局部特征,并在这些局部特征中,提取出能够表征文本信息的管件局部特征。
62.其中,第二特征向量提取网络的损失函数的设计目的是获取更好的语音识别准确率,因此vgg-6网络在训练过程中也会向能够更好的提取表征文本信息的特征的方向进行迭代学习。
63.如图3所示,在vgg-6网络后,第二特征向量提取网络的末端增加了一层lstm网络,由于lstm网络具备很强的文本上下文信息建模能力,因此能够提取更能表征文本上下文信息的特征向量,得到能够体现语义的脑电信号特征向量。
64.本技术实施例能够有效提取出能够表征文本上下文信息的脑电信号特征向量,从而辅助基于学特征向量的语音识别,提高语音识别准确率。
65.在本技术的一些实施例中,第一特征向量提取网络还包括第一前馈型序列记忆网络和第二前馈型序列记忆网络;
66.根据脑电信号和第一特征向量提取网络,确定目标特征向量的步骤,包括:
67.通过第一前馈型序列记忆网络,提取脑电信号中的α波信号对应的特征向量;
68.通过第二前馈型序列记忆网络,提取脑电信号中的β波信号对应的特征向量;
69.对α波信号对应的特征向量和β波信号对应的特征向量进行相加处理,得到目标特征向量。
70.在本技术实施例中,第一特征向量提取网络具体包括第一前馈型序列记忆网络(fsmn层1)和第二前馈型序列记忆网络(fsmn层2),通过fsmn层1和fsmn层2构成multi

fsmn
层。
71.如图2所示,目标特征向量包括四个波段,具体为β波(beta)、α波(alpha)、θ波(theta)和δ波(delta),对于本技术的语音识别场景,主要用到的是β波频段和α波频段。
72.具体地,图4示出了本技术实施例的第一特征向量提取网络的处理流程示意图,如图4所示,分别采用第一前馈型序列记忆网络(fsmn层1)和第二前馈型序列记忆网络(fsmn层2)来提取α波信号对应的特征向量和β波信号对应的特征向量。
73.在得到α波信号对应的特征向量和β波信号对应的特征向量后,对α波信号对应的特征向量和β波信号对应的特征向量进行相加处理,得到能够表征文本相关信息的局部特征的目标特征向量。
74.示例性地,可以将α波信号对应的特征向量和β波信号对应的特征向量进行按点逐位相加处理(point-wise addition)。
75.示例性地,可以将α波信号对应的特征向量和β波信号对应的特征向量进行向量拼接处理,其中,向量拼接处理可以是将β波信号对应的特征向量拼接到α波信号对应的特征向量的尾部。
76.具体地,图5示出了本技术实施例的前馈型序列记忆网络的网络结构示意图,如图5所示,由于fsmn网络在input layer和output layer之间的hidden layer中引入了memory block,在memory block中存储了n个“过去记忆”。这些“过去”的信息在引入时延网络后,通过时延网络能够得到“未来”的信息,从而使memory block可以存储部分“未来记忆”,从而使fsmn层能够具备提取脑点信号的数字特征中的文本上下文信息的能力。
77.本技术实施例通过设计multi

fsmn网络结构,能够有效提取出能够表征文本相关信息的局部特征的目标特征向量,进而辅助基于声学特征的语音识别,提高语音识别的准确率。
78.在本技术的一些实施例中,第一特征向量提取网络包括有限长单位冲激响应滤波器模块;
79.在对α波信号对应的特征向量和β波信号对应的特征向量进行相加处理,得到目标特征向量的步骤之前,语音识别方法还包括:
80.通过有限长单位冲激响应滤波器模块,对α波信号对应的特征向量和β波信号对应的特征向量进行滤波处理。
81.在本技术实施例中,对通过multi

fsmn网络结构提取得到的α波信号对应的特征向量和β波信号对应的特征向量进行滤波处理,能够提高特征向量的纯净度,最终提高语音识别效果。
82.具体地,如图5所示,fsmn网络引入了memory block模块,也即存储模块,图6示出了本技术实施例的存储模块的结构示意图,如图6所示,存储模块,也即memory block模块能够等效为图6所示的有限长单位冲激响应滤波器(finite impulse response,fir)模块。
83.其中,fir滤波器可以在保证任意幅频特性的同时具有严格线性相频特性,因此能够满足对脑信号数字特征中α波信号和β波信号的滤波作用。在本技术实施例中,通过调整fsmn网络的参数即可实现不同频段的等效fir滤波器设计。
84.本技术通过memory block模块等效模拟fir滤波器模块,使得第一特征向量提取网络输出的目标特征向量为经过滤波的特征向量,因此能够提高通过脑电信号特征向量和
声学特征向量进行语音识别的准确率。
85.在本技术的一些实施例中,对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量的步骤,包括:
86.将脑电信号特征向量拼接至声学特征向量的尾部,得到拼接特征向量;
87.对拼接特征向量进行规整化处理,得到规整特征向量;
88.对规整特征向量进行滤波处理,得到融合特征向量。
89.在本技术实施例中,将脑电信号特征向量拼接到声学特征向量的尾端,能够减少对原始的语音信号的声学特征向量产生的影响。
90.由于声学特征向量和脑电信号特征向量不在同一个特征空间,因此对拼接后得到的拼接特征向量进行规整化处理,使得处理后的规整特征向量整体处于同一个目标特征空间。
91.示例性地,可以通过instancenorm网络来对拼接特征向量进行规整化处理。
92.在得到规整化处理后的规整特征向量后,对规整特征向量进行进一步地滤波处理,从而减少噪声干扰。
93.示例性地,可以通过unet网络对规整特征向量进行滤波处理。图7示出了本技术实施例的unet网络的网络结构示意图,如图7所示,将声学特征向量和脑电信号特征向量进行拼接后,将拼接特征向量输入到instancenorm网络来进行规整化处理。
94.将进行规整化处理后的规整特征向量输入到unet网络,unet网络将规整特征向量进行更高层特征提取并进行下采样,在该过程中,特征向量不断减小。进一步地,下采样的特征向量进行上采样处理,将特征向量恢复至与滤波前的规整特征向量相同的大小,上述上采样和下采样的过程相当于对规整特征向量进行滤波处理,并通过后续的两层linear层输出最后的经过了滤波和提纯后的融合特征向量。
95.本技术实施例通过在声学特征向量的尾部拼接含有文本上下文信息的脑电信号特征向量,并进行规整处理,并将规整处理后的特征向量通过unet网络进行滤波,输出能够更好表征含有文本上下文信息的融合特征向量,将融合特征向量输入到语音识别网络(decoder网络),能够提升语音识别的准确率。
96.在本技术的一些实施例中,图8示出了本技术实施例的语音识别方法的解码流程示意图,如图8所示,通过融合了脑电信号特征向量的融合特征向量来进行语音识别,能够有效解决无法准确有效识别出同音不同义的语言的问题。
97.示例性地,如图8所示,以识别语言信息“我和他在喝茶”为例,词id向量初始输入是语音识别起始符号“《s》”对应的词id,decoder端到端网络结合声学向量得分和语言模型得分,可以输出下一时刻的最佳词id候选。
98.假如第二个输入词id向量的最佳候选是“我”,则重复上述的流程。
99.假如第三个输入的词id向量最佳候选是“和”,依然重复上述流程,则下一个输出的最佳候选可能是“他”或者“她”。
100.由于用户在说“我和他在喝茶”和“我和她在喝茶”时的思考内容是不同的,这个不同能够表现为脑电信号的特征差异上。
101.同坐在的声学特征向量中融合包含具有文本上下文信息的脑电信号特征向量,从而使得在融合特征向量中包含了“我和他在喝茶”和“我和她在喝茶”的差异性信息,因此能
够准确地识别出用户的真实语义,得到更加准确的语音识别结果。
102.对于不同的语音识别场景,可以不断重复上述过程,最后在所有的解码路径中选择出一条最佳的路径,从而输出最终的语音识别结果。能够理解的是,原始输出的路径是词id排列,通过词典映射即可输出最终的语音识别结果。
103.本技术实施例提供的语音识别方法,执行主体可以为语音识别装置。本技术实施例中以语音识别装置执行语音识别的方法为例,说明本技术实施例提供的语音识别的装置。
104.在本技术的一些实施例中,提供了一种语音识别装置,图9示出了本技术实施例的语音识别装置的结构框图,如图9所示,语音识别装置900包括:
105.获取模块902,用于获取语音信号,和语音信号对应的脑电信号;
106.提取模块904,用于对语音信号进行特征向量提取,得到声学特征向量;对脑电信号进行特征向量提取,得到脑电信号特征向量;
107.融合模块906,用于对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量;
108.识别模块908,用于根据融合特征向量和语音识别网络,识别语音信号对应的信息。
109.本技术实施例通过将脑电信号特征向量与声学特征向量进行融合,就能得到既包含用户语音特征,也包含结合文本上下文的语义特征的融合特征向量。根据该融合特征向量对用户的语音信号进行语音识别,能够同时考虑语音和语义差异,因此能够有效提高对如“他”和“她”这样的同音不同义的语言的识别准确率。
110.在本技术的一些实施例中,语音识别装置还包括:
111.确定模块,用于根据脑电信号和第一特征向量提取网络,确定目标特征向量,其中,目标特征向量为包含文本上下文信息的特征向量;根据目标特征向量和第二特征向量提取网络,确定脑电信号特征向量,其中,第二特征向量提取网络用于提取目标特征向量中表征文本信息的局部特征。
112.本技术实施例能够有效提取出能够表征文本上下文信息的脑电信号特征向量,从而辅助基于学特征向量的语音识别,提高语音识别准确率。
113.在本技术的一些实施例中,第一特征向量提取网络包括第一前馈型序列记忆网络和第二前馈型序列记忆网络;
114.提取模块,具体用于通过第一前馈型序列记忆网络,提取脑电信号中的α波信号对应的特征向量;通过第二前馈型序列记忆网络,提取脑电信号中的β波信号对应的特征向量;
115.语音识别装置还包括:
116.处理模块,用于对α波信号对应的特征向量和β波信号对应的特征向量进行相加处理,得到目标特征向量。
117.本技术实施例通过设计multi

fsmn网络结构,能够有效提取出能够表征文本相关信息的局部特征的目标特征向量,进而辅助基于声学特征的语音识别,提高语音识别的准确率。
118.在本技术的一些实施例中,第一特征向量提取网络还包括有限长单位冲激响应滤
波器模块;
119.语音识别装置还包括:
120.滤波模块,用于通过有限长单位冲激响应滤波器模块,对α波信号对应的特征向量和β波信号对应的特征向量进行滤波处理。
121.本技术通过memory block模块等效模拟fir滤波器模块,使得第一特征向量提取网络输出的目标特征向量为经过滤波的特征向量,因此能够提高通过脑电信号特征向量和声学特征向量进行语音识别的准确率。
122.在本技术的一些实施例中,语音识别装置还包括:
123.拼接模块,用于将脑电信号特征向量拼接至声学特征向量的尾部,得到拼接特征向量;
124.处理模块,还用于对拼接特征向量进行规整化处理,得到规整特征向量;对规整特征向量进行滤波处理,得到融合特征向量。
125.本技术实施例通过在声学特征向量的尾部拼接含有文本上下文信息的脑电信号特征向量,并进行规整处理,并将规整处理后的特征向量通过unet网络进行滤波,输出能够更好表征含有文本上下文信息的融合特征向量,将融合特征向量输入到语音识别网络(decoder网络),能够提升语音识别的准确率。
126.本技术实施例中的语音识别装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
127.本技术实施例中的语音识别装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
128.本技术实施例提供的语音识别装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。
129.可选地,本技术实施例还提供一种电子设备,图10示出了本技术实施例的电子设备的结构框图,如图10所示,电子设备1000包括处理器1002,存储器1004,存储在存储器1004上并可在处理器1002上运行的程序或指令,该程序或指令被处理器1002执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
130.需要说明的是,本技术实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
131.图11为实现本技术实施例的一种电子设备的硬件结构示意图。
132.该电子设备1100包括但不限于:射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储
器1109以及处理器1110等部件。
133.本领域技术人员可以理解,电子设备1100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
134.其中,处理器1110用于获取语音信号,和语音信号对应的脑电信号;对语音信号进行特征向量提取,得到声学特征向量;对脑电信号进行特征向量提取,得到脑电信号特征向量;对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量;根据融合特征向量和语音识别网络,识别语音信号对应的信息。
135.本技术实施例通过将脑电信号特征向量与声学特征向量进行融合,就能得到既包含用户语音特征,也包含结合文本上下文的语义特征的融合特征向量。根据该融合特征向量对用户的语音信号进行语音识别,能够同时考虑语音和语义差异,因此能够有效提高对如“他”和“她”这样的同音不同义的语言的识别准确率。
136.可选地,处理器1110还用于根据脑电信号和第一特征向量提取网络,确定目标特征向量,其中,目标特征向量为包含文本上下文信息的特征向量;根据目标特征向量和第二特征向量提取网络,确定脑电信号特征向量,其中,第二特征向量提取网络用于提取目标特征向量中表征文本信息的局部特征。
137.本技术实施例能够有效提取出能够表征文本上下文信息的脑电信号特征向量,从而辅助基于学特征向量的语音识别,提高语音识别准确率。
138.可选地,第一特征向量提取网络包括第一前馈型序列记忆网络和第二前馈型序列记忆网络;
139.处理器1110还用于通过第一前馈型序列记忆网络,提取脑电信号中的α波信号对应的特征向量;通过第二前馈型序列记忆网络,提取脑电信号中的β波信号对应的特征向量;对α波信号对应的特征向量和β波信号对应的特征向量进行相加处理,得到目标特征向量。
140.本技术实施例通过设计multi

fsmn网络结构,能够有效提取出能够表征文本相关信息的局部特征的目标特征向量,进而辅助基于声学特征的语音识别,提高语音识别的准确率。
141.可选地,第一特征向量提取网络还包括有限长单位冲激响应滤波器模块;
142.处理器1110还用于通过有限长单位冲激响应滤波器模块,对α波信号对应的特征向量和β波信号对应的特征向量进行滤波处理。
143.本技术通过memory block模块等效模拟fir滤波器模块,使得第一特征向量提取网络输出的目标特征向量为经过滤波的特征向量,因此能够提高通过脑电信号特征向量和声学特征向量进行语音识别的准确率。
144.可选地,处理器1110还用于将脑电信号特征向量拼接至声学特征向量的尾部,得到拼接特征向量;对拼接特征向量进行规整化处理,得到规整特征向量;对规整特征向量进行滤波处理,得到融合特征向量。
145.本技术实施例通过在声学特征向量的尾部拼接含有文本上下文信息的脑电信号
特征向量,并进行规整处理,并将规整处理后的特征向量通过unet网络进行滤波,输出能够更好表征含有文本上下文信息的融合特征向量,将融合特征向量输入到语音识别网络(decoder网络),能够提升语音识别的准确率。
146.应理解的是,本技术实施例中,输入单元1104可以包括图形处理器(graphics processing unit,gpu)11041和麦克风11042,图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072中的至少一种。触控面板11071,也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
147.存储器1109可用于存储软件程序以及各种数据。存储器1109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1109可以包括易失性存储器或非易失性存储器,或者,存储器1109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器1109包括但不限于这些和任意其它适合类型的存储器。
148.处理器1110可包括一个或多个处理单元;可选的,处理器1110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。
149.本技术实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
150.其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
151.本技术实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
152.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
153.本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
154.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
155.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
156.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。

技术特征:
1.一种语音识别方法,其特征在于,包括:获取语音信号,和所述语音信号对应的脑电信号;对所述语音信号进行特征向量提取,得到声学特征向量;对所述脑电信号进行特征向量提取,得到脑电信号特征向量;对所述声学特征向量和所述脑电信号特征向量进行向量融合,得到融合特征向量;根据所述融合特征向量和语音识别网络,识别所述语音信号对应的信息。2.根据权利要求1所述的语音识别方法,其特征在于,所述对所述脑电信号进行特征向量提取,得到脑电信号特征向量的步骤,包括:根据所述脑电信号和第一特征向量提取网络,确定目标特征向量,其中,所述目标特征向量为包含文本上下文信息的特征向量;根据所述目标特征向量和第二特征向量提取网络,确定所述脑电信号特征向量,其中,所述第二特征向量提取网络用于提取所述目标特征向量中表征文本信息的局部特征。3.根据权利要求2所述的语音识别方法,其特征在于,所述第一特征向量提取网络包括第一前馈型序列记忆网络和第二前馈型序列记忆网络;所述根据所述脑电信号和第一特征向量提取网络,确定目标特征向量的步骤,包括:通过所述第一前馈型序列记忆网络,提取所述脑电信号中的α波信号对应的特征向量;通过所述第二前馈型序列记忆网络,提取所述脑电信号中的β波信号对应的特征向量;对所述α波信号对应的特征向量和所述β波信号对应的特征向量进行相加处理,得到所述目标特征向量。4.根据权利要求3所述的语音识别方法,其特征在于,所述第一特征向量提取网络还包括有限长单位冲激响应滤波器模块;在所述对所述α波信号对应的特征向量和所述β波信号对应的特征向量进行相加处理,得到所述目标特征向量的步骤之前,所述语音识别方法还包括:通过所述有限长单位冲激响应滤波器模块,对所述α波信号对应的特征向量和所述β波信号对应的特征向量进行滤波处理。5.根据权利要求1所述的语音识别方法,其特征在于,所述对所述声学特征向量和所述脑电信号特征向量进行向量融合,得到融合特征向量的步骤,包括:将所述脑电信号特征向量拼接至所述声学特征向量的尾部,得到拼接特征向量;对所述拼接特征向量进行规整化处理,得到规整特征向量;对所述规整特征向量进行滤波处理,得到所述融合特征向量。6.一种语音识别装置,其特征在于,包括:获取模块,用于获取语音信号,和所述语音信号对应的脑电信号;提取模块,用于对所述语音信号进行特征向量提取,得到声学特征向量;以及对所述脑电信号进行特征向量提取,得到脑电信号特征向量;融合模块,用于对所述声学特征向量和所述脑电信号特征向量进行向量融合,得到融合特征向量;识别模块,用于根据所述融合特征向量和语音识别网络,识别所述语音信号对应的信息。7.根据权利要求6所述的语音识别装置,其特征在于,还包括:
确定模块,用于根据所述脑电信号和第一特征向量提取网络,确定目标特征向量,其中,所述目标特征向量为包含文本上下文信息的特征向量;以及根据所述目标特征向量和第二特征向量提取网络,确定所述脑电信号特征向量,其中,所述第二特征向量提取网络用于提取所述目标特征向量中表征文本信息的局部特征。8.根据权利要求7所述的语音识别装置,其特征在于,所述第一特征向量提取网络包括第一前馈型序列记忆网络和第二前馈型序列记忆网络;所述提取模块,具体用于通过所述第一前馈型序列记忆网络,提取所述脑电信号中的α波信号对应的特征向量;以及通过所述第二前馈型序列记忆网络,提取所述脑电信号中的β波信号对应的特征向量;所述语音识别装置还包括:处理模块,用于对所述α波信号对应的特征向量和所述β波信号对应的特征向量进行相加处理,得到所述目标特征向量。9.根据权利要求8所述的语音识别装置,其特征在于,所述第一特征向量提取网络还包括有限长单位冲激响应滤波器模块;所述语音识别装置还包括:滤波模块,用于通过所述有限长单位冲激响应滤波器模块,对所述α波信号对应的特征向量和所述β波信号对应的特征向量进行滤波处理。10.根据权利要求6所述的语音识别装置,其特征在于,还包括:拼接模块,用于将所述脑电信号特征向量拼接至所述声学特征向量的尾部,得到拼接特征向量;处理模块,用于对所述拼接特征向量进行规整化处理,得到规整特征向量;以及对所述规整特征向量进行滤波处理,得到所述融合特征向量。11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述方法的步骤。12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。

技术总结
本申请公开了一种语音识别方法、装置、电子设备和存储介质,属于人工智能技术领域。其中,语音识别方法包括:获取语音信号,和语音信号对应的脑电信号;对语音信号进行特征向量提取,得到声学特征向量;对脑电信号进行特征向量提取,得到脑电信号特征向量;对声学特征向量和脑电信号特征向量进行向量融合,得到融合特征向量;根据融合特征向量和语音识别网络,识别语音信号对应的信息。识别语音信号对应的信息。识别语音信号对应的信息。


技术研发人员:姜超
受保护的技术使用者:维沃移动通信有限公司
技术研发日:2023.04.21
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐