语音纠正方法及装置、计算机存储介质及终端与流程

未命名 08-27 阅读：98 评论：0

1.本技术涉及语音识别技术领域，尤其涉及一种语音纠正方法及装置、计算机可读存储介质及终端。

背景技术：

2.在外语的学习过程中，口语是最重要、也是最基础的部分。在口语的训练中，可能会存在难以把握正确发音的情况，又无专业人士进行指导，会导致口语学习的不便。而通过线上语音纠正的技术，使用移动设备便可进行口语的纠正与学习。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.本技术的目的在于提供一种语音纠正方法及装置、计算机可读存储介质及终端，至少一定程度上提高口语学习的效率。
5.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
6.根据本技术的第一个方面，提供一种语音纠正方法，上述方法包括：将待测语音输入至语音识别模型，根据上述语音识别模型的输出确定上述待测语音对应的待测音标以及上述待测音标对应的发音标签，上述发音标签为发音准确或所存在的第k发音问题，k为正整数；在上述待测音标对应的发音标签为所存在的第k发音问题的情况下，确定上述第k发音问题对应的解决策略；输出上述第k发音问题和上述第k发音问题对应的解决策略，上述第k发音问题对应的解决策略为解决上述第k发音问题的对策。
7.在本技术一个实施例中，上述确定m个特征对应的第一向量，包括：将上述m个特征中的第i特征输入共享嵌入层，得到上述第i特征对应的第i向量，其中，i取值为1至m的每一个正整数；通过上述共享嵌入层将每个上述第i向量进行合并，得到上述m个特征对应的第一向量。
8.在本技术一个实施例中，上述方法还包括：对上述语音识别模型的训练；上述对上述语音识别模型的训练，包括：获取n个训练样本，其中，第i训练样本为根据第i语音确定的第i标注数据，n为正整数，i为小于等于n的正整数；对上述第i标注数据进行特征提取，得到m个语音特征向量，其中，m为正整数；将上述m个语音特征向量输入语音识别模型，以通过上述语音识别模型对每个语音特征向量进行语音识别处理，得到上述语音识别模型输出的m个音标向量；根据上述m个音标向量和上述m个语音特征向量，确定上述第i训练样本对应的损失函数；根据上述损失函数优化上述语音识别模型的参数。
9.在本技术一个实施例中，上述根据第i语音确定的第i标注数据，包括：根据上述第i语音，确定上述第i语音中每个音标的发音标签，得到上述第i语音对应的第i标注数据。
10.在本技术一个实施例中，上述根据上述m个音标向量和上述m个语音特征向量，确
定上述第i训练样本对应的损失函数，包括：通过上述第m特征向量和上述第m音标向量确定第m概率；根据上述第m音标向量和上述第m概率确定第m损失函数。
11.在本技术一个实施例中，上述第m概率的计算方法为：p(x,y)＝ln(σp(ym|xm))，其中，p(x,y)为上述第m概率，x为上述m个特征向量，y为上述m个音标向量，ym为上述第m音标向量，xm为上述第m特征向量，p(ym|xm)为在上述第m特征向量的条件下上述第m音标向量出现的概率值。
12.在本技术一个实施例中，上述第m损失函数的计算方法为：lm＝-ymlog(pm)-(1-ym)log(1-pm)，其中，lm为上述第m损失函数，ym为上述第m音标向量，pm为上述第m概率。
13.在本技术一个实施例中，上述语音识别模型包括：频谱增强层、卷积采样层、线性层、防过拟合层以及卷积增强层；其中，上述频谱增强层用于，对上述m个特征向量进行随机掩蔽处理，得到第一输出；上述卷积采样层用于，对上述第一输出进行卷积处理，得到第二输出；上述线性层用于，对上述第二输出进行线性变换处理，得到第三输出；上述防过拟合层用于，对上述第三输出进行随机的特征丢弃，得到第四输出；上述卷积增强层用于，对上述第四输出进行卷积增强处理，得到上述m个音标向量。
14.根据本技术的第二个方面，提供一种语音纠正装置，上述装置包括：识别模块，用于：将待测语音输入至语音识别模型，根据上述语音识别模型的输出确定上述待测语音对应的待测音标以及上述待测音标对应的发音标签，上述发音标签为发音准确或所存在的第k发音，k为正整数；确定模块，用于：在上述待测音标对应的发音标签为所存在的第k发音问题的情况下，确定上述第k发音问题对应的解决策略；输出模块，用于：输出上述第k发音问题和上述第k发音问题对应的解决策略，上述第k发音问题对应的解决策略为解决上述第k发音问题的对策。
15.根据本技术的第三个方面，提供一种终端，包括：存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现上述第一个方面所述的语音纠正方法。
16.根据本技术的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述第一个方面所述的语音纠正方法。
17.本技术的实施例所提供的语音纠正方法及装置、计算机可读存储介质及终端，具备以下技术效果：
18.在本技术实施例提供的语音纠正过程中，将待测语音输入至语音识别模型后，可以根据语音识别模型的输出来确定待测语音对应的待测音标以及待测音标对应的发音标签。其中，发音标签为发音准确或所存在的第k发音问题。在待测音标对应的发音标签为所存在的第k发音问题的情况下，确定第k发音问题对应的解决策略，并输出第k发音问题和第k发音问题对应的解决策略，第k发音问题对应的解决策略为解决第k发音问题的对策。本技术方案能够于错误数据收集，分析出常见的口语发音错误，通过语音识别模型可自动识别出在学生练习口语的过程中发音错误的原因，并自动提示正确的发音口型，能够辅助口语的学习，从而用户可以通过自纠的方式来提高准确率与学习效率。
19.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1示出了本技术一示例性的实施例提供的语音纠正方法的流程图；
22.图2示出了本技术一示例性的实施例提供的语音识别模型的训练方法的流程图；
23.图3示出了声波数据的示意图；
24.图4示出了mfcc特征频谱的示意图；
25.图5示出了语音识别模型的示意图；
26.图6示意性示出了本技术一实施例提供的语音纠正装置的结构图；
27.图7示意性示出了本技术另一实施例提供的语音纠正装置的结构图；
28.图8示意性示出了本技术一实施例提供的一种终端的框图。
具体实施方式
29.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施例方式作进一步地详细描述。
30.下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
31.在本技术的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术中的具体含义。此外，在本技术的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
32.中小学生在学习外语初期，容易由于口腔发音部位运用不准确而产生口音不纯正等问题，这时通常需要有专业的教师帮忙纠正，但在没有专业的教师时，会存在口语学习效率低下的问题。
33.针对上述问题，提出本说明书实施例提供的方案。下面，将结合附图及实施例对本示例实施方式中的语音纠正方法的各个步骤进行更详细的说明。
34.其中，图1示意性示出了根据本技术一示例性的实施例中语音纠正方法的流程图。
35.以下对图1所示实施例进行详细介绍：
36.s101，将待测语音输入至语音识别模型，根据语音识别模型的输出确定待测语音对应的待测音标以及待测音标对应的发音标签，发音标签为发音准确或所存在的第k发音问题，k为正整数。
37.示例性地，在用户朗读单词时，生成的音频即为上述待测语音，语音识别模型获取到待测语音后，会对待测语音中每个单词的待测音标进行评判。通常，发音问题会由多种原
因引起，例如口型、舌位、气流、发音时长等等。语音识别模型会对具体的待测音标存在的问题(即上述第k问题)来标注标签，示例性地，用户朗读了单词“hard”(困难的；坚硬的)，它的正确音标为/'h
ɑ
:d/，以长元音/
ɑ
:/为例，发音时应嘴巴张大为圆形，舌身后缩，舌后部稍抬高，发音稍长。若用户朗读地非常标准，即待测音标是标准发音，则可将此待测音标的标签标注为：《h》《a-std》《d》；若用户朗读时的口型过小，没有将嘴巴张大，记此问题为第1问题，则可将此待测音标的标签标注为：《h》《a-err1》《d》；若用户朗读时将舌头翘得过高，记此问题为第2问题，则可将此待测音标的标签标注为：《h》《a-err2》《d》。在实际情况中，音标发音规则繁多，发音问题的原因也不一，本实施例中所描述的上述情况仅作为示例，具体的标签种类和数量可根据实际情况进行制定。
38.s102，在待测音标对应的发音标签为所存在的第k发音问题的情况下，确定第k发音问题对应的第k解决策略。
39.s103，输出第k发音问题和第k发音问题对应的解决策略，第k发音问题对应的解决策略为解决第k发音问题的对策。
40.示例性地，在语音识别模型确定待测音标存在的问题后，可以确定出该问题相应的解决策略，即：提示用户哪些单词的音标发音不正确，以及发音不正确的原因，并给出标准发音方式的示范。
41.示例性地，用户a朗读了“i want to go to bed”(我想上床睡觉)一句，该句的标准发音应为：而用户a对于“want”(想要)和“bed”(床)的发音并不标准，读成了：那么语音识别模型会执行步骤s101，识别到“want”和“bed”存在发音问题，并输出所存在的问题以及对应的解决策略。
42.示例性地，假设预测到“want/wλnt/”存在的发音问题为:口型没有张圆(例如记作“第1问题”)，则输出发音问题的同时，还输出上述“口型没有张圆”的第1问题对应的解决策略：“want”发音时口型需张圆。又一示例性地，假设预测到存在的发音问题为：口型没有压扁(例如记作“第2问题”)，则输出发音问题的同时，还输出上述“口型没有压扁”的第2问题对应的解决策略：“bed”发音时口型需压扁。
43.示例性地，本技术提供的语音纠正方法可用于类似语音纠正的系统/应用软件之中，语音识别模型作为系统的一部分，此外，语音纠正系统中还应配置有语音输入和输出模块，以及显示模块。语音输入可用于获取用户的待测语音，语音输出模块可用于输出第k问题以及第k解决策略，即通过语音输出模块将上述原因告知用户，并通过显示模块给出正确的发音示范。
44.示例性的，语音纠正系统识别并预测用户a对于“want”和“bed”存在的发音问题，并确定了对应的解决策略后，便可通过语音输出模块输出发音问题以及解决策略。例如提示用户：“want发音不准确，口型没有张圆”，并通过显示模块以动态示例给出正确的口型及发音示范。
45.用户通过本实施例提供的语音纠正方法可以准确地得知自己的发音存在的问题，并能得到标准的解决方案，从而有效提高口语学习的效率与准确率。
46.图2示意性示出了本技术另一实施例提供的语音识别模型的训练方法的流程图，下面对图2所示实施例进行详细介绍，请参考图2。
47.s201，获取n个训练样本，其中，第i训练样本为根据第i语音确定的第i标注数据，n为正整数，i为小于等于n的正整数。
48.示例性地，收集训练样本以建立样本集时，可以准备2000个常用的外文单词，这些单词覆盖全部的国际音标，并征集1000名初学者，让他们朗读上述2000个单词。朗读过程中，录制发音视频及发音音频。示例性的，通过所录制的发音音频确定相应单词的发音是否标准，在发音不标准的情况下确定发音问题，以及根据所录制的发音视频确定相应单词的口型。例如，可以通过专业教师旁听发音音频并观察发音视频的方式，记录发音方式是否标准以及在发音不标准的情况下对应的口型。
49.示例性的，关于单词hard的训练样本如：
50.{关于hard的音频1，标签标注为：《h》《a-std》《d》；即：发音标准}、
51.{关于hard的音频2，标签标注为《h》《a-err1》《d》；即：存在发音问题1}，以及，
52.{关于hard的音频3，标签标注为《h》《a-err2》《d》；即：存在发音问题2}等等。
53.示例性地，建立样本集后，从样本集中随机选取n个训练样本以对语音识别模型进行训练。在n个训练样本的第i训练样本中，包括上述第i标注数据。示例性地，建立样本集时所录制的音频数据即为上述第i语音；根据专业教师的评判，为第i语音中的音标进行标签标注后，所生成的带有标签的第i语音即为上述第i标注数据，标签的标注方法可参考步骤s101对应的实施例，此处不再赘述。
54.s202，对第i标注数据进行特征提取，得到m个语音特征向量，其中，m为正整数。
55.示例性地，参考图3所示的声波数据的示意图，本实施例中的第i标注数据为waveform(波形格式)的时序数据。图3的波形图为示例性的实验数据中，第i标注数据的波形图，横轴代表第i标注数据的时长，纵轴代表第i标注数据的频率。得到第i标注数据后，为了识别语音中的信息，并丢弃语音中其他不相关的信息，如背景噪声等，需要对第i标注数据进行特征提取的处理。本实施例中所使用的特征提取方法为梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfcc)，mfcc的特征提取方式更加符合人类的听觉原理。参考图4所示的mfcc特征频谱的示意图，横轴同样代表时长，纵轴代表频率，对第i标注数据经过特征提取后，会得到一个39维的mfcc特征。
56.示例性地，在进行mfcc特征提取时，会对语音数据进行分帧处理，也就是将第i标注数据分成固定长度的若干片段，以使每一帧中的语音数据的变化不会太剧烈，方便mfcc特征提取的后续步骤的进行。
57.示例性地，由于对第i标注数据进行了分帧处理，所得到的语音特征向量也是对应于每一帧。在本实施例中，将第i标注数据所分的帧数记为m个，因此得到的语音特征向量也为m个。
58.s203，将m个语音特征向量输入语音识别模型，以通过语音识别模型对每个语音特征向量进行语音识别处理，得到语音识别模型输出的m个音标向量。
59.示例性地，参考图5所示的语音识别模型的示意图，本实施例中采用的语音识别模型为卷积增强的变换神经网络结构，由下至上依次为：频谱增强层、卷积采样层、线性层、防过拟合层以及卷积增强层。
60.示例性地，m个语音特征向量中，首先将其中的每个语音特征向量依次输入至频谱增强层(a simple data augmentation method for automatic speech recognition，
specaug)，频谱增强层会将每个语音特征向量的mfcc频谱看作图片，并对图片中的某行或某列进行随机掩蔽处理，得到每个语音特征向量对应的第一输出，以增强模型的鲁棒性。
61.示例性地，经过频谱增强层后，便进入到卷积采样层(convolution subsampling)，这里是将每个语音特征向量对应的第一输出一同输入至卷积采样层中，经过卷积和采样操作，得到每个语音特征向量对应的第二输出，达到降采样、提升运算效率的目的。
62.示例性地，经过卷积采样层后，进入线性层(linear layer)，又称全连接层(full-connected layer)，同样是将每个语音特征向量对应的第二输出一同输入至线性层中，以对语音特征进行分类，得到每个语音特征向量对应的第三输出。
63.示例性地，经过线性层后，进入防过拟合层(dropout)，同样是将每个语音特征向量对应的第三输出一同输入至防过拟合层中，对语音特征进行随机丢弃处理，得到每个语音特征向量对应的第四输出，以缓解过拟合现象的发生，在一定程度上达到正则化的效果。
64.示例性地，经过防过拟合层后，进入卷积增强层(conformer blocks)，同样是将每个语音特征向量对应的第四输出一同输入至卷积增强层中。卷积增强层是对相关技术中的变换神经网络结构(transformer)的进一步增强，它的结构由两个前馈模块(feed forward module)将多头注意模块(multi-head self attention module)和卷积模块(convolution module)连接起来，最上层接了一个正则层(layernorm)，用于将层进行归一化处理。
65.示例性地，由卷积增强层所得到的输出为m个音标向量，对应于语音识别模型所识别到的每一帧语音数据中的音标。之后，需要对每一帧语音数据对应到某个音标的概率进行计算，以计算语音识别模型的损失函数，对模型进行优化。示例性地，上述概率的计算方法为：
66.p(x,y)＝ln(∑p(ym|xm))
67.其中，对于m个语音特征向量和m个音标向量，ym为其中的第m音标向量，xm为其中的第m语音特征向量。p(ym|xm)计算的是在第m特征向量的条件下，第m音标向量出现的概率值。p(x,y)为联合概率，即上述每一帧语音数据对应到某个音标的概率，x为上述m个特征向量，y为上述m个音标向量。因为联合概率对应于每一个语音特征向量，所以会得到m个联合概率。
68.示例性地，得到联合概率后，即可计算损失函数，计算方法为：
69.lm＝-ymlog(pm)-(1-ym)log(1-pm)
70.其中，ym为第m音标向量，pm为m个联合概率中的第m概率，lm为第m损失函数，即m个特征向量中第m特征向量所对应的损失函数。
71.示例性地，在计算出m个损失函数后，可以它们的总和达到最小为训练目的，来优化语音识别模型的参数。当模型训练至收敛状态，会较准确地预测出所输入的第i语音中包括哪些音标(标准的或错误的)。
72.本实施例提供的语音纠正方法，基于错误数据收集，分析出常见的口语发音错误，通过语音识别模型可自动识别出在学生练习口语的过程中发音错误的原因。
73.本说明书实施例提供的方案中，将单词发音与发音时的口型相结合，即在单词发音存在问题的情况下确定相应的口型存在哪种问题，进而确定处口型的改进方式，也就给出了解决发音问题的方案。
74.示例性的，可以结合发音视频，确定存在发音问题的情况下所对应的实际口型，并将实际口型与标准口型(不存在发音问题时对应的口型)进行比对后确定发音问题对应的解决策略，即：实际口型应该怎么变化为对应的标准口型。进而，可以通过语音提醒等方式输出上述解决策略。还可以通过系统提示正确的发音口型，从而用户可以清楚了解到自身发音存在何种问题，怎么解决该问题，还可以获取到标准发音。将本说明书实施例提供的方案应用至教学场景中能够降低教师工作量，提升学生的学习效率。将本说明书实施例提供的方案应用至自主学习的场景中，能够辅助口语的学习，提高准确率与学习效率。
75.下述为本技术装置实施例，可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
76.其中，图6示出了根据本技术一示例性的实施例中语音纠正装置的结构图。
77.本技术实施例中的语音纠正装置600包括：识别模块601，确定模块602，以及输出模块603，其中：
78.识别模块601，用于：将待测语音输入至语音识别模型，根据语音识别模型的输出确定待测语音对应的待测音标以及待测音标对应的发音标签，发音标签为发音准确或所存在的第k发音问题，k为正整数。
79.确定模块602，用于：在待测音标对应的发音标签为所存在的第k发音问题的情况下，确定第k发音问题对应的解决策略。
80.输出模块603，用于：输出第k发音问题和第k发音问题对应的解决策略，第k发音问题对应的解决策略为解决第k发音问题的对策。
81.图7示意性示出了根据本技术另一示例性的实施例中语音纠正装置的结构图。
82.上述装置还包括：训练模块604。
83.上述训练模块604，包括：获取单元605、特征提取单元606、语音识别单元607、损失函数确定单元608、以及优化单元609。其中，上述获取单元605，用于：获取n个训练样本，其中，第i训练样本为根据第i语音确定的第i标注数据，n为正整数，i为小于等于n的正整数；上述特征提取单元606，用于：对上述第i标注数据进行特征提取，得到m个语音特征向量，其中，m为正整数；上述语音识别单元607，用于：将上述m个语音特征向量输入语音识别模型，以通过上述语音识别模型对每个语音特征向量进行语音识别处理，得到上述语音识别模型输出的m个音标向量；上述损失函数确定单元608，用于：根据上述m个音标向量和上述m个语音特征向量，确定上述第i训练样本对应的损失函数；上述优化单元609，用于：根据上述损失函数优化上述语音识别模型的参数。
84.上述获取单元605，包括：发音标签确定子单元610。上述发音标签确定子单元610，用于：根据上述第i语音，确定上述第i语音中每个音标的发音标签，得到上述第i语音对应的第i标注数据。
85.上述损失函数确定单元608，包括：概率确定子单元611、以及损失函数确定子单元612。其中，上述概率确定子单元611，用于：通过上述第m特征向量和上述第m音标向量确定第m概率；上述损失函数确定子单元612，用于：根据上述第m音标向量和上述第m概率确定第m损失函数。
86.在示例性的实施例中，基于前述方案，第m概率的计算方法为：p(x,y)＝ln(∑p(ym|xm))，其中，p(x,y)为上述第m概率，x为上述m个特征向量，y为上述m个音标向量，ym为上述
第m音标向量，xm为上述第m特征向量，p(ym|xm)为在上述第m特征向量的条件下上述第m音标向量出现的概率值。
87.在示例性的实施例中，基于前述方案，上述第m损失函数的计算方法为：lm＝-ymlog(pm)-(1-ym)log(1-pm)，其中，lm为上述第m损失函数，ym为上述第m音标向量，pm为上述第m概率。
88.在示例性的实施例中，基于前述方案，上述语音识别模型包括：频谱增强层、卷积采样层、线性层、防过拟合层以及卷积增强层；其中，上述频谱增强层用于，对上述m个特征向量进行随机掩蔽处理，得到第一输出；上述卷积采样层用于，对上述第一输出进行卷积处理，得到第二输出；上述线性层用于，对上述第二输出进行线性变换处理，得到第三输出；上述防过拟合层用于，对上述第三输出进行随机的特征丢弃，得到第四输出；上述卷积增强层用于，对上述第四输出进行卷积增强处理，得到上述m个音标向量。
89.需要说明的是，上述实施例提供的语音纠正装置在执行语音纠正方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音纠正装置与语音纠正方法实施例属于同一构思，因此对于本技术装置实施例中未披露的细节，请参照本技术上述的语音纠正方法的实施例，这里不再赘述。
90.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
91.本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、dvd、cd-rom、微型驱动器以及磁光盘、rom、ram、eprom、eeprom、dram、vram、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器ic)，或适合于存储指令和/或数据的任何类型的媒介或设备。
92.本技术实施例还提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例方法的步骤。
93.图8示意性示出了根据本技术一示例性的实施例中终端的结构图。请参见图8所示，终端800包括有：处理器801和存储器802。
94.本技术实施例中，处理器801为计算机系统的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gatearray，fpga)、可编程逻辑阵列(programmablelogic array，pla)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(centralprocessing unit，cpu)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
95.在本技术实施例中，上述处理器801具体用于：
96.将待测语音输入至语音识别模型，根据上述语音识别模型的输出确定上述待测语音对应的待测音标以及上述待测音标对应的发音标签，上述发音标签为发音准确或所存在的第k发音问题，k为正整数；在上述待测音标对应的发音标签为所存在的第k发音问题的情
况下，确定上述第k发音问题对应的解决策略；输出上述第k发音问题和上述第k发音问题对应的解决策略，上述第k发音问题对应的解决策略为解决上述第k发音问题的对策。
97.进一步地，在本技术一个实施例中，还包括：对上述语音识别模型的训练；上述对上述语音识别模型的训练，包括：获取n个训练样本，其中，第i训练样本为根据第i语音确定的第i标注数据，n为正整数，i为小于等于n的正整数；对上述第i标注数据进行特征提取，得到m个语音特征向量，其中，m为正整数；将上述m个语音特征向量输入语音识别模型，以通过上述语音识别模型对每个语音特征向量进行语音识别处理，得到上述语音识别模型输出的m个音标向量；根据上述m个音标向量和上述m个语音特征向量，确定上述第i训练样本对应的损失函数；根据上述损失函数优化上述语音识别模型的参数。
98.可选的，上述根据第i语音确定的第i标注数据，包括：根据上述第i语音，确定上述第i语音中每个音标的发音标签，得到上述第i语音对应的第i标注数据。
99.可选的，上述根据上述m个音标向量和上述m个语音特征向量，确定上述第i训练样本对应的损失函数，包括：通过上述第m特征向量和上述第m音标向量确定第m概率；根据上述第m音标向量和上述第m概率确定第m损失函数。
100.可选的，上述第m概率的计算方法为：p(x,y)＝ln(∑p(ym|xm))，其中，p(x,y)为上述第m概率，x为上述m个特征向量，y为上述m个音标向量，ym为上述第m音标向量，xm为上述第m特征向量，p(ym|xm)为在上述第m特征向量的条件下上述第m音标向量出现的概率值。
101.可选的，上述第m损失函数的计算方法为：lm＝-ymlog(pm)-(1-ym)log(1-pm)，其中，lm为上述第m损失函数，ym为上述第m音标向量，pm为上述第m概率。
102.可选的，上述语音识别模型包括：频谱增强层、卷积采样层、线性层、防过拟合层以及卷积增强层；其中，上述频谱增强层用于，对上述m个特征向量进行随机掩蔽处理，得到第一输出；上述卷积采样层用于，对上述第一输出进行卷积处理，得到第二输出；上述线性层用于，对上述第二输出进行线性变换处理，得到第三输出；上述防过拟合层用于，对上述第三输出进行随机的特征丢弃，得到第四输出；上述卷积增强层用于，对上述第四输出进行卷积增强处理，得到上述m个音标向量。
103.存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储终端、闪存存储终端。在本技术的一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本技术实施例中的方法。
104.一些实施例中，终端800还包括有：外围终端接口803和至少一个外围终端。处理器801、存储器802和外围终端接口803之间可以通过总线或信号线相连。各个外围终端可以通过总线、信号线或电路板与外围终端接口803相连。具体地，外围终端包括：显示屏804、摄像头805和音频电路807中的至少一种。
105.外围终端接口803可被用于将输入/输出(input/output，i/o)相关的至少一个外围终端连接到处理器801和存储器802。在本技术的一些实施例中，处理器801、存储器802和外围终端接口803被集成在同一芯片或电路板上；在本技术的一些其他实施例中，处理器801、存储器802和外围终端接口803中的任意一个或两个可以在单独的芯片或电路板上实现。本技术实施例对此不作具体限定。
106.显示屏804用于显示用户界面(userinterface，ui)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏804是触摸显示屏时，显示屏804还具有采集在显示屏804的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏804还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在本技术的一些实施例中，显示屏804可以为一个，设置终端800的前面板；在本技术的另一些实施例中，显示屏804可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在本技术的再一些实施例中，显示屏804可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏804还可以设置成非矩形的不规则图形，也即异形屏。显示屏804可以采用液晶显示屏(liquid crystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode,oled)等材质制备。
107.摄像头805用于采集图像或视频。可选地，摄像头805包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(virtualreality，vr)拍摄功能或者其它融合拍摄功能。在本技术的一些实施例中，摄像头805还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
108.音频电路806可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
109.电源808用于为终端800中的各个组件进行供电。电源807可以是交流电、直流电、一次性电池或可充电电池。当电源807包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
110.本技术实施例中示出的终端结构框图并不构成对终端800的限定，终端800可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
111.在本技术中，术语“第一”、“第二”等仅用于描述的目的，而不能理解为指示或暗示相对重要性或顺序；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本技术中的具体含义。
112.本技术的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本技术的限制。
113.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵
盖在本技术的保护范围之内。因此，依本技术权利要求所作的等同变化，仍属本技术所涵盖的范围。

技术特征：
1.一种语音纠正方法，其特征在于，包括：将待测语音输入至语音识别模型，根据所述语音识别模型的输出确定所述待测语音对应的待测音标以及所述待测音标对应的发音标签，所述发音标签为发音准确或所存在的第k发音问题，k为正整数；在所述待测音标对应的发音标签为所存在的第k发音问题的情况下，确定所述第k发音问题对应的解决策略；输出所述第k发音问题和所述第k发音问题对应的解决策略，所述第k发音问题对应的解决策略为解决所述第k发音问题的对策。2.根据权利要求1所述的语音纠正方法，其特征在于，所述方法还包括：对所述语音识别模型的训练；所述对所述语音识别模型的训练，包括：获取n个训练样本，其中，第i训练样本为根据第i语音确定的第i标注数据，n为正整数，i为小于等于n的正整数；对所述第i标注数据进行特征提取，得到m个语音特征向量，其中，m为正整数；将所述m个语音特征向量输入语音识别模型，以通过所述语音识别模型对每个语音特征向量进行语音识别处理，得到所述语音识别模型输出的m个音标向量；根据所述m个音标向量和所述m个语音特征向量，确定所述第i训练样本对应的损失函数；根据所述损失函数优化所述语音识别模型的参数。3.根据权利要求2所述的语音纠正方法，其特征在于，所述根据第i语音确定的第i标注数据，包括：根据所述第i语音，确定所述第i语音中每个音标的发音标签，得到所述第i语音对应的第i标注数据。4.根据权利要求2所述的语音纠正方法，其特征在于，所述根据所述m个音标向量和所述m个语音特征向量，确定所述第i训练样本对应的损失函数，包括：通过所述第m特征向量和所述第m音标向量确定第m概率；根据所述第m音标向量和所述第m概率确定第m损失函数。5.根据权利要求4所述的语音纠正方法，其特征在于，所述第m概率的计算方法为：p(x，y)＝ln(∑p(y
m
|x
m
))其中，p(x，y)为所述第m概率，x为所述m个特征向量，y为所述m个音标向量，y
m
为所述第m音标向量，x
m
为所述第m特征向量，p(y
m
|x
m
)为在所述第m特征向量的条件下所述第m音标向量出现的概率值。6.根据权利要求4所述的语音纠正方法，其特征在于，所述第m损失函数的计算方法为：l
m
＝-y
m
log(p
m
)-(1-y
m
)log(1-p
m
)其中，l
m
为所述第m损失函数，y
m
为所述第m音标向量，p
m
为所述第m概率。7.根据权利要求2至6中任意一项所述的语音纠正方法，其特征在于，所述语音识别模型包括：频谱增强层、卷积采样层、线性层、防过拟合层以及卷积增强层；其中，所述频谱增强层用于，对所述m个特征向量进行随机掩蔽处理，得到第一输出；所述卷积采样层用于，对所述第一输出进行卷积处理，得到第二输出；
所述线性层用于，对所述第二输出进行线性变换处理，得到第三输出；所述防过拟合层用于，对所述第三输出进行随机的特征丢弃，得到第四输出；所述卷积增强层用于，对所述第四输出进行卷积增强处理，得到所述m个音标向量。8.一种语音纠正装置，其特征在于，包括：识别模块，用于：将待测语音输入至语音识别模型，根据所述语音识别模型的输出确定所述待测语音对应的待测音标以及所述待测音标对应的发音标签，所述发音标签为发音准确或所存在的第k发音问题，k为正整数；确定模块，用于：在所述待测音标对应的发音标签为所存在的第k发音问题的情况下，确定所述第k发音问题对应的解决策略；输出模块，用于：输出所述第k发音问题和所述第k发音问题对应的解决策略，所述第k发音问题对应的解决策略为解决所述第k发音问题的对策。9.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语音纠正方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音纠正方法。

技术总结
本申请提供了一种语音纠正方法及装置、介质及终端，涉及语音识别技术领域。该方法包括：将待测语音输入至语音识别模型，根据语音识别模型的输出确定待测语音对应的待测音标以及待测音标对应的发音标签，发音标签为发音准确或所存在的第k发音问题；在待测音标对应的发音标签为所存在的第k发音问题的情况下，确定第k发音问题对应的解决策略；输出第k发音问题和第k发音问题对应的解决策略，第k发音问题对应的解决策略为解决第k发音问题的对策。本技术方案能够于错误数据收集，分析出常见的口语发音错误，通过语音识别模型自动识别出在学生练习口语的过程中发音错误的原因，并自动提示正确的发音口型，辅助口语的学习，提高准确率与学习效率。与学习效率。与学习效率。

技术研发人员：李波
受保护的技术使用者：广州视睿电子科技有限公司
技术研发日：2022.02.11
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

语音纠正方法及装置、计算机存储介质及终端与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音纠正方法及装置、计算机存储介质及终端与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表