一种基于人工智能的语音识别方法与流程
未命名
08-15
阅读:126
评论:0
1.本发明涉及语音识别领域,具体涉及一种基于人工智能的语音识别方法。
背景技术:
2.随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。随着语音识别技术的快速发展,越来越多的终端能够实现语音识别,消除了人机交互的障碍,但现有的语音识别技术效率低、准确度低,用户的使用体验并不好。
技术实现要素:
3.本发明的目的是为了解决上述问题,设计了一种基于人工智能的语音识别方法。
4.本发明第一方面提供一种基于人工智能的语音识别方法,所述基于人工智能的语音识别方法包括以下步骤:采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图;获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,关联多个所述音频帧的特征信息,得到待识别数据;将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容;对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果。
5.可选的,在本发明第一方面的第一种实现方式中,所述采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图,包括:接收用户的语音录制请求,响应于所述语音录制请求,对用户的录音过程进行采集,得到语音音频信息;对所述语音音频信息进行加窗与周期延拓,得到有效录音数据;将所述有效录音数据归入到待处理队列中,将所述到待处理队列中的所述有效录音数据拆分为多组待处理数据;将多组待处理数据依次进行快速傅立叶变换处理,以将所述语音音频信息转换为音频频谱图。
6.可选的,在本发明第一方面的第二种实现方式中,所述对所述语音音频信息进行加窗与周期延拓,得到有效录音数据,包括:对所述语音音频信息进行模数转换,得到时间和幅度对应的第一离散数据信息;对所述第一离散数据信息进行预加重,以所述第一离散数据信息中高频部分进行提升,得到第二离散数据信息;采用重叠分段方式对所述第二离散数据信息进行分帧处理,得到语音波形数据;对所述语音波形数据的起始点和结束点进行端点检测,经检测后得到有效录音数据。
7.可选的,在本发明第一方面的第三种实现方式中,所述获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,包括:获取所述音频频谱图中的音频帧,对所述音频帧进行滤波,计算滤波后所述音频帧对应的对数能量;对所述对数能量进行离散余弦变换,得到所述音频帧对应的梅尔频率倒谱系数;计算所述音频帧的零交叉点比例数均值,并将所述梅尔频率倒谱系数和零交叉点比例数均值进行融合,得到特征参数;通过fcbf算法根据所述特征参数岁所述音频帧进行特征选择,以提取所述音频帧中的特征信息。
8.可选的,在本发明第一方面的第四种实现方式中,所述关联多个所述音频帧的特征信息,得到待识别数据,包括:获取多个所述音频帧的特征信息,并将多个特征信息生成特征数据集,确定卷积神经网络模型的卷积网络层数和全连接网络层数;分别计算卷积神经网络模型中任一卷积网络层和任一全连接网络层的输出数据,采用拼接函数对卷积网络层的输出数据和全连接网络层的输出数据进行拼接,得到深层表征;对所述深层表征进行融合,得到融合数据,根据所述融合数据和激活函数,计算卷积神经网络模型的输出结果,其中采用softmax函数为最后一层神经网络的激活函数;采用交叉熵函数作为损失函数,基于所述卷积神经网络模型的输出结果通过过随机梯度下降最小化损失函数更新模型参数,得到特征融合模型;将所述特征数据集输入所述特征融合模型中,根据所述特征融合模型的输出结果进行特征关联,得到待识别数据。
9.可选的,在本发明第一方面的第五种实现方式中,所述语音识别模型包括声学子模型、语义子模型和语法子模型,采用所述声学子模型作为所述语音识别模型的前端,所述语义子模型和语法子模型作为所述语音识别模型的后端。
10.可选的,在本发明第一方面的第六种实现方式中,所述将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容,包括:获取所述待识别数据中的多个音素,根据多个音素生成音素序列,将所述音素序列输入所述语音识别模型中,采用所述声学子模型对所述音素序列进行转化,得到发音基元序列;将所述声学子模型输出的所述音素序列输入所述语义子模型中进行搜索,得到所述发音基元序列对应的的转录文本序列;将所述语义子模型输出的所述转录文本序列输入所述语法子模型中,对所述转录文本序列进行增补,得到识别文本;对所述识别文本进行整理,生成所述语音音频信息对应的语音内容。
11.可选的,在本发明第一方面的第七种实现方式中,所述将所述声学子模型输出的所述音素序列输入所述语义子模型中进行搜索,得到所述发音基元序列对应的的转录文本序列,包括:设置所述音素序列长度中最大词长度阈值、词频阈值、最小互信息阈值;
计算每个单独字的出现概率,根据所述单独字的出现概率计算互相关信息值;当所述互相关信息值大于所述最小互信息阈值时,基于所述最大词长度阈值输出语义词;根据所述语义词确定对应的词频,当所述词频大于词频阈值时,将所述语义词确定为重点词,以得到所述发音基元序列对应的的转录文本序列。
12.可选的,在本发明第一方面的第八种实现方式中,所述将所述语义子模型输出的所述转录文本序列输入所述语法子模型中,对所述转录文本序列进行增补,得到识别文本,包括:接收所述转录文本序列,提取所述转录文本序列中的待识别项;基于所述待识别项从预设的语料库中查询语言语句进行语法识别,得到识别结果;从所述识别结果中确定缺失部分,对所述缺失部分进行增补,得到增补词;基于所述增补词,对所述转录文本序列进行语序调整,以得到识别文本。
13.可选的,在本发明第一方面的第九种实现方式中,所述对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果,包括:获取所述语音识别模型输出的语音内容,建立文字信息与语音内容的映射关系,对所述语音内容进行降维处理;对降维后的所述语音内容进行进行上下文语义关联分析,检验所述语音内容是否准确;若是,则得到语音识别结果,并输出所述语音识别结果;若否,则返回进行上下文语义关联分析,直至所述语音内容准确。
14.本发明提供的技术方案中,通过采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图;获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,关联多个所述音频帧的特征信息,得到待识别数据;将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容;对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果;本发明利用人工智能方法进行语音识别,能够提高便利性,同时提高了语音识别效率和准确度,提升了用户的使用体验。
附图说明
15.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
16.图1为本发明实施例提供的基于人工智能的语音识别方法的第一个实施例示意图;图2为本发明实施例提供的基于人工智能的语音识别方法的第二个实施例示意图;图3为本发明实施例提供的基于人工智能的语音识别方法的第三个实施例示意图;图4为本发明实施例提供的基于人工智能的语音识别方法的第四个实施例示意
图;图5为本发明实施例提供的基于人工智能的语音识别方法的第五个实施例示意图。
具体实施方式
17.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、设备、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
18.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1本发明实施例提供的一种基于人工智能的语音识别方法的第一个实施例示意图,该方法具体包括以下步骤:步骤101、采集用户录入的语音音频信息,将语音音频信息转换为音频频谱图;步骤102、获取音频频谱图中的多个音频帧,提取每个音频帧中的特征信息,关联多个音频帧的特征信息,得到待识别数据;步骤103、将待识别数据输入语音识别模型中,确定语音音频信息对应的语音内容;本实施例中,语音识别模型包括声学子模型、语义子模型和语法子模型,采用声学子模型作为语音识别模型的前端,语义子模型和语法子模型作为语音识别模型的后端。
19.本实施例中,语音识别模型采用隐马尔可夫模型为基础模型,也可以采用其他模型,本发明不作具体限制;隐马尔可夫模型 (hidden markov modelq,hmm) 是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步的分析,例如模式识别。hmm模型解决的问题一般都包含两个特征:(1)问题是基于序列的,比如时间序列; (2) 问题中包含两种状态属性,一种是我们可以观测到的状态序列,称为可见状态序列或者观测序列,一种是隐藏的状态序列,称为隐含序列,有的地方也叫状态序列;马尔可夫链是一组具有马尔可夫性质的离散随机变量的集合,而马尔可夫性质指的是一个时刻一个事件的发生概率,只与其前一刻的随机变量的概率相关。
20.步骤104、对语音内容进行内容校验,以得到语音识别结果,并输出语音识别结果。
21.本实施例中,获取语音识别模型输出的语音内容,建立文字信息与语音内容的映射关系,对语音内容进行降维处理;对降维后的语音内容进行进行上下文语义关联分析,检验语音内容是否准确;若是,则得到语音识别结果,并输出语音识别结果;若否,则返回进行上下文语义关联分析,直至语音内容准确。
22.本发明实施例中,通过采集用户录入的语音音频信息,将语音音频信息转换为音频频谱图;获取音频频谱图中的多个音频帧,提取每个音频帧中的特征信息,关联多个音频帧的特征信息,得到待识别数据;将待识别数据输入语音识别模型中,确定语音音频信息对
应的语音内容;对语音内容进行内容校验,以得到语音识别结果,并输出语音识别结果;本发明利用人工智能方法进行语音识别,能够提高便利性,同时提高了语音识别效率和准确度,提升了用户的使用体验。
23.请参阅图2,本发明实施例提供的一种基于人工智能的语音识别方法的第二个实施例示意图,该方法包括:步骤201、接收用户的语音录制请求,响应于语音录制请求,对用户的录音过程进行采集,得到语音音频信息;步骤202、对语音音频信息进行加窗与周期延拓,得到有效录音数据;本实施例中,对语音音频信息进行模数转换,得到时间和幅度对应的第一离散数据信息;对第一离散数据信息进行预加重,以第一离散数据信息中高频部分进行提升,得到第二离散数据信息;采用重叠分段方式对第二离散数据信息进行分帧处理,得到语音波形数据;对语音波形数据的起始点和结束点进行端点检测,经检测后得到有效录音数据。
24.步骤203、将有效录音数据归入到待处理队列中,将到待处理队列中的有效录音数据拆分为多组待处理数据;步骤204、将多组待处理数据依次进行快速傅立叶变换处理,以将语音音频信息转换为音频频谱图。
25.本发明实施例中,接收用户的语音录制请求,响应于语音录制请求,对用户的录音过程进行采集,得到语音音频信息;对语音音频信息进行加窗与周期延拓,得到有效录音数据;将有效录音数据归入到待处理队列中,将到待处理队列中的有效录音数据拆分为多组待处理数据;将多组待处理数据依次进行快速傅立叶变换处理,以将语音音频信息转换为音频频谱图;本发明通过对有效录音数据进行分组处理,降低了快速傅立叶变换处理的耗时,提高了语音识别的效率。
26.请参阅图3,本发明实施例提供的一种基于人工智能的语音识别方法的第三个实施例示意图,该方法包括:步骤301、获取音频频谱图中的音频帧,对音频帧进行滤波,计算滤波后音频帧对应的对数能量;步骤302、对对数能量进行离散余弦变换,得到音频帧对应的梅尔频率倒谱系数;本实施例中,离散余弦变换是一种与傅立叶变换紧密相关的数学运算。在傅立叶级数展开式中,如果被展开的函数式是偶函数,那么其傅立叶级数中只包含余弦项,再将其离散化可导出余弦变换,因此称之为离散余弦变换。时间域中信号需要许多数据点表示;在x轴表示时间,在y轴表示幅度。信号一旦用傅立叶变换转换到频率域,就只需要几点就可以表示这个相同的信号。如已经看到的那样,原因就是信号只含有少量的频率成分。这允许在频率域中只用几个数据点就可以表示信号,而在时间域中表示则需要大量数据点。
27.步骤303、计算音频帧的零交叉点比例数均值,并将梅尔频率倒谱系数和零交叉点比例数均值进行融合,得到特征参数;本实施例中,在声音处理领域中,梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换,梅尔频率倒谱系数 就是组成梅尔频率倒谱的系数,它衍生自音讯片段的倒频谱,倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听
觉系统;由于能量频谱中还存在大量的无用讯息,尤其人耳无法分辨高频的频率变化,因此让频谱通过梅尔滤波器。梅尔滤波器,也就是一组20个非线性分布的三角带通滤波器,能求得每一个滤波器输出的对数能量。必须注意的是:这 20 个三角带通滤波器在''梅尔刻度''的频率上是平均分布的,梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的。
28.步骤304、通过fcbf算法根据特征参数岁音频帧进行特征选择,以提取音频帧中的特征信息。
29.本实施例中,fcbf算法是一种快速过滤的特征选择算法,基于快速关联的过滤算法 fcbf 是一种典型的启发式序列后向消除方法,算法核心思想是采用对称不确定性作为度量标准来衡量两个特征的相关性。如果一个特征与类别之间的不确定性程度高,且与其他已选特征之间的不确定性程度低,则将该特征标记为重要特征。fcbf 算法的主要思想是采用后向顺序搜索策略快速有效寻找最优特征子集,通过最大相关系数和对称不确定性(symmetric uncertainty,su)作为衡量特征之间的相关度量,fcbf 算法包括对无关特征的去除和冗余特征的筛选两个步骤,(1) 去除无关特征:计算待选特征的 su 值通过设置阙值,去除无关的特征,最后根据 su 的大小进行降序排列,记为相关子集;(2) 去除元余特征:记fj为相关子集的第一个元素,fi为下一个元素,若 su
i,j
大于 su
i,c
则认为i是冗余的,从相关子集中移除,再判断下一个元素直到最后一个特征。然后以相关子集的第二个元素记为fj,重复上面过程,直到结束。
30.本发明实施例中,获取音频频谱图中的音频帧,对音频帧进行滤波,计算滤波后音频帧对应的对数能量;对对数能量进行离散余弦变换,得到音频帧对应的梅尔频率倒谱系数;计算音频帧的零交叉点比例数均值,并将梅尔频率倒谱系数和零交叉点比例数均值进行融合,得到特征参数;通过fcbf算法根据特征参数岁音频帧进行特征选择,以提取音频帧中的特征信息;本发明通过特征提取提高了语音识别效率和准确度,提升了用户的使用体验。
31.请参阅图4,本发明实施例提供的一种基于人工智能的语音识别方法的第四个实施例示意图,该方法包括:步骤401、获取多个音频帧的特征信息,并将多个特征信息生成特征数据集,确定卷积神经网络模型的卷积网络层数和全连接网络层数;本实施例中,卷积神经网络是一种深层前馈神经网络.用不同的卷积核对同一个图像进行卷积其实就是用卷积核对图像进行滤波以提取不同的特征;所以卷积神经网络模型也是自动提取特征的模型,附带分类功能。假设卷积层的输入神经元个数为m,卷积大小为k,步长为s,在输入两端各填补p个0,那么该卷积层的神经元数量为(m-k+2p)/s+1。
32.步骤402、分别计算卷积神经网络模型中任一卷积网络层和任一全连接网络层的输出数据,采用拼接函数对卷积网络层的输出数据和全连接网络层的输出数据进行拼接,得到深层表征;本实施例中,全连接层的每个神经元与前一池化层的所有神经元进行连接,全连接层整合卷积和池化层的分类特征并加以区分。每人神经元的激励函数使用relu函数,最后一层的输出值被传递到softmax逻辑回归进行分类,更新全连接层的参数使用两种方式:前向传播和反向传播。
33.步骤403、对深层表征进行融合,得到融合数据,根据融合数据和激活函数,计算卷积神经网络模型的输出结果,其中采用softmax函数为最后一层神经网络的激活函数;本实施例中,softmax函数,又称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的k维向量z“压缩”到另一个k维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1;softmax就是将在负无穷到正无穷上的预测结果案子按照两步转换为概率的,一步为将预测结果转化为非负数,另一步各种预测结果概率之和等于1。
34.步骤404、采用交叉熵函数作为损失函数,基于卷积神经网络模型的输出结果通过随机梯度下降最小化损失函数更新模型参数,得到特征融合模型;本实施例中,梯度下降中梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,随机梯度下降算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
35.步骤405、将特征数据集输入特征融合模型中,根据特征融合模型的输出结果进行特征关联,得到待识别数据。
36.本发明实施例中,获取多个音频帧的特征信息,并将多个特征信息生成特征数据集,确定卷积神经网络模型的卷积网络层数和全连接网络层数;分别计算卷积神经网络模型中任一卷积网络层和任一全连接网络层的输出数据,采用拼接函数对卷积网络层的输出数据和全连接网络层的输出数据进行拼接,得到深层表征;对深层表征进行融合,得到融合数据,根据融合数据和激活函数,计算卷积神经网络模型的输出结果,其中采用softmax函数为最后一层神经网络的激活函数;采用交叉熵函数作为损失函数,基于卷积神经网络模型的输出结果通过过随机梯度下降最小化损失函数更新模型参数,得到特征融合模型;将特征数据集输入特征融合模型中,根据特征融合模型的输出结果进行特征关联,得到待识别数据;本发明通过卷积神经网络进行特征关联,提高了语音识别效率和准确度,提升了用户的使用体验。
37.请参阅图5,本发明实施例提供的一种基于人工智能的语音识别方法的第五个实施例示意图,该方法包括:步骤501、获取待识别数据中的多个音素,根据多个音素生成音素序列,将音素序列输入语音识别模型中,采用声学子模型对音素序列进行转化,得到发音基元序列;步骤502、将声学子模型输出的音素序列输入语义子模型中进行搜索,得到发音基元序列对应的的转录文本序列;本实施例中,设置音素序列长度中最大词长度阈值、词频阈值、最小互信息阈值;计算每个单独字的出现概率,根据单独字的出现概率计算互相关信息值;当互相关信息值大于最小互信息阈值时,基于最大词长度阈值输出语义词;根据语义词确定对应的词频,当词频大于词频阈值时,将语义词确定为重点词,以得到发音基元序列对应的的转录文本序列。
38.步骤503、将语义子模型输出的转录文本序列输入语法子模型中,对转录文本序列进行增补,得到识别文本;本实施例中,接收转录文本序列,提取转录文本序列中的待识别项;基于待识别项
从预设的语料库中查询语言语句进行语法识别,得到识别结果;从识别结果中确定缺失部分,对缺失部分进行增补,得到增补词;基于增补词,对转录文本序列进行语序调整,以得到识别文本。
39.步骤504、对识别文本进行整理,生成语音音频信息对应的语音内容。
40.本发明实施例中,获取待识别数据中的多个音素,根据多个音素生成音素序列,将音素序列输入语音识别模型中,采用声学子模型对音素序列进行转化,得到发音基元序列;将声学子模型输出的音素序列输入语义子模型中进行搜索,得到发音基元序列对应的的转录文本序列;将语义子模型输出的转录文本序列输入语法子模型中,对转录文本序列进行增补,得到识别文本;对识别文本进行整理,生成语音音频信息对应的语音内容;本发明通过语音识别模型能够提高便利性,同时提高了语音识别效率和准确度,提升了用户的使用体验。
41.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
技术特征:
1.一种基于人工智能的语音识别方法,其特征在于,所述基于人工智能的语音识别方法包括以下步骤:采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图;获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,关联多个所述音频帧的特征信息,得到待识别数据;将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容;对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果。2.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图,包括:接收用户的语音录制请求,响应于所述语音录制请求,对用户的录音过程进行采集,得到语音音频信息;对所述语音音频信息进行加窗与周期延拓,得到有效录音数据;将所述有效录音数据归入到待处理队列中,将所述到待处理队列中的所述有效录音数据拆分为多组待处理数据;将多组待处理数据依次进行快速傅立叶变换处理,以将所述语音音频信息转换为音频频谱图。3.如权利要求2所述的一种基于人工智能的语音识别方法,其特征在于,所述对所述语音音频信息进行加窗与周期延拓,得到有效录音数据,包括:对所述语音音频信息进行模数转换,得到时间和幅度对应的第一离散数据信息;对所述第一离散数据信息进行预加重,以所述第一离散数据信息中高频部分进行提升,得到第二离散数据信息;采用重叠分段方式对所述第二离散数据信息进行分帧处理,得到语音波形数据;对所述语音波形数据的起始点和结束点进行端点检测,经检测后得到有效录音数据。4.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,包括:获取所述音频频谱图中的音频帧,对所述音频帧进行滤波,计算滤波后所述音频帧对应的对数能量;对所述对数能量进行离散余弦变换,得到所述音频帧对应的梅尔频率倒谱系数;计算所述音频帧的零交叉点比例数均值,并将所述梅尔频率倒谱系数和零交叉点比例数均值进行融合,得到特征参数;通过fcbf算法根据所述特征参数岁所述音频帧进行特征选择,以提取所述音频帧中的特征信息。5.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述关联多个所述音频帧的特征信息,得到待识别数据,包括:获取多个所述音频帧的特征信息,并将多个特征信息生成特征数据集,确定卷积神经网络模型的卷积网络层数和全连接网络层数;分别计算卷积神经网络模型中任一卷积网络层和任一全连接网络层的输出数据,采用拼接函数对卷积网络层的输出数据和全连接网络层的输出数据进行拼接,得到深层表征;对所述深层表征进行融合,得到融合数据,根据所述融合数据和激活函数,计算卷积神
经网络模型的输出结果,其中采用softmax函数为最后一层神经网络的激活函数;采用交叉熵函数作为损失函数,基于所述卷积神经网络模型的输出结果通过过随机梯度下降最小化损失函数更新模型参数,得到特征融合模型;将所述特征数据集输入所述特征融合模型中,根据所述特征融合模型的输出结果进行特征关联,得到待识别数据。6.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述语音识别模型包括声学子模型、语义子模型和语法子模型,采用所述声学子模型作为所述语音识别模型的前端,所述语义子模型和语法子模型作为所述语音识别模型的后端。7.如权利要求6所述的一种基于人工智能的语音识别方法,其特征在于,所述将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容,包括:获取所述待识别数据中的多个音素,根据多个音素生成音素序列,将所述音素序列输入所述语音识别模型中,采用所述声学子模型对所述音素序列进行转化,得到发音基元序列;将所述声学子模型输出的所述音素序列输入所述语义子模型中进行搜索,得到所述发音基元序列对应的的转录文本序列;将所述语义子模型输出的所述转录文本序列输入所述语法子模型中,对所述转录文本序列进行增补,得到识别文本;对所述识别文本进行整理,生成所述语音音频信息对应的语音内容。8.如权利要求7所述的一种基于人工智能的语音识别方法,其特征在于,所述将所述声学子模型输出的所述音素序列输入所述语义子模型中进行搜索,得到所述发音基元序列对应的的转录文本序列,包括:设置所述音素序列长度中最大词长度阈值、词频阈值、最小互信息阈值;计算每个单独字的出现概率,根据所述单独字的出现概率计算互相关信息值;当所述互相关信息值大于所述最小互信息阈值时,基于所述最大词长度阈值输出语义词;根据所述语义词确定对应的词频,当所述词频大于词频阈值时,将所述语义词确定为重点词,以得到所述发音基元序列对应的的转录文本序列。9.如权利要求7所述的一种基于人工智能的语音识别方法,其特征在于,所述将所述语义子模型输出的所述转录文本序列输入所述语法子模型中,对所述转录文本序列进行增补,得到识别文本,包括:接收所述转录文本序列,提取所述转录文本序列中的待识别项;基于所述待识别项从预设的语料库中查询语言语句进行语法识别,得到识别结果;从所述识别结果中确定缺失部分,对所述缺失部分进行增补,得到增补词;基于所述增补词,对所述转录文本序列进行语序调整,以得到识别文本。10.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果,包括:获取所述语音识别模型输出的语音内容,建立文字信息与语音内容的映射关系,对所述语音内容进行降维处理;对降维后的所述语音内容进行进行上下文语义关联分析,检验所述语音内容是否准
确;若是,则得到语音识别结果,并输出所述语音识别结果;若否,则返回进行上下文语义关联分析,直至所述语音内容准确。
技术总结
本发明涉及语音识别领域,公开了一种基于人工智能的语音识别方法,该方法包括以下步骤:通过采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图;获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,关联多个所述音频帧的特征信息,得到待识别数据;将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容;对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果;本发明利用人工智能方法进行语音识别,能够提高便利性,同时提高了语音识别效率和准确度,提升了用户的使用体验。用户的使用体验。用户的使用体验。
技术研发人员:欧玉霞
受保护的技术使用者:合肥朗永智能科技有限公司
技术研发日:2023.07.14
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
