数据处理方法、装置、设备及计算机可读存储介质与流程
未命名
07-27
阅读:110
评论:0
1.本技术属于人工智能技术领域,尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。
背景技术:
2.相关技术中,语音到文本翻译的方法,一般基于自动语音识别模型与机器翻译模型直接组成的级联系统,即级联模型实现,模型训练过程涉及到的参数调整量较大,模型训练的速度较慢,训练效率较低。
技术实现要素:
3.本技术实施例提供一种与相关技术不同的实现方案,以解决相关技术中,在训练用于根据语音确定文本翻译结果的级联模型时,模型训练过程涉及到的参数调整量较大,模型训练的速度较慢,训练效率较低的技术问题。
4.第一方面,本技术提供一种数据处理方法,包括:
5.获取样本语音信息与所述样本语音信息对应的样本文本信息;
6.通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;
7.通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;
8.通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;
9.基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;
10.其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
11.所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
12.所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
13.第二方面,本技术提供一种数据处理装置,包括:
14.获取单元,用于获取样本语音信息与所述样本语音信息对应的样本文本信息;
15.处理单元,用于通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;
16.所述处理单元,还用于通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;
17.所述处理单元,还用于通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;
18.训练单元,用于基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;
19.其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
20.所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
21.所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
22.第三方面,本技术提供一种电子设备,包括:
23.处理器;以及
24.存储器,用于存储所述处理器的可执行指令;
25.其中,所述处理器配置为经由执行所述可执行指令来执行第一方面或第一方面各可能的实施方式中的任一方法。
26.第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第一方面各可能的实施方式中的任一方法。
27.第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或第一方面各可能的实施方式中的任一方法。
28.本技术提供的方案,在预训练好的模型,即声学模型与翻译模型的原本参数固定的情况下,在各自的自注意力机制单元中添加了前缀向量,并基于prefix-tuning进行训练,本技术的方案对预训练好的模型中作用比较关键的结构中添加了额外的信息,能够基于较少的参数调整,较快的训练出翻译质量较好的目标识别模型,在对较小的参数量进行调整的条件下,实现高性能的目标识别模型的训练,提高了目标识别模型的训练效率。
附图说明
29.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
30.图1为本技术一实施例提供的系统的结构示意图;
31.图2a为本技术一实施例提供的数据处理方法的流程示意图;
32.图2b为本技术一实施例提供的通过第二数据处理层处理数据的流程示意图;
33.图2c为本技术另一实施例提供的通过第二数据处理层处理数据的流程示意图;
34.图2d为本技术一实施例提供的初始识别模型的结构示意图;
35.图2e为通过本技术的方案训练目标识别模型与通过相关技术中的其他方法训练出的模型的翻译质量对比的曲线图;
36.图3为本技术一实施例提供的数据处理装置的结构示意图;
37.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
38.下面详细描述本技术的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
39.本技术实施例的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术实施例的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
40.首先,下面对本技术实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
41.注意力机制其实是源自于人对于外部信息的处理能力。由于人每一时刻接受的信息都是无比的庞大且复杂,远远超过人脑的处理能力,因此人在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤,这种处理方式被称为注意力机制。
42.前馈神经网络,是一种最简单的神经网络,各神经元分层排列,每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层,各层间没有反馈。
43.声学特征,指声学模型(神经网络)输出的高维向量表示。
44.下面以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
45.图1为本技术一示例性实施例提供的一种系统的结构示意图,该结构包括:翻译设备10与模型训练设备20,其中,模型训练设备20用于:获取样本语音信息与所述样本语音信息对应的样本文本信息;通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
46.所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
47.所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
48.其中,翻译设备10用于在目标识别模型训练完成后,获取待识别语音信息;通过所述目标识别模型识别出所述待识别语音信息的文本翻译结果。
49.在一些实施例中,翻译设备10与模型训练设备20还可以为同一设备。
50.本系统实施例中的各功能模块的执行原理及交互过程可参见如下各方法实施例的描述。
51.图2a为本技术一示例性实施例提供的一种数据处理方法的流程示意图,该方法的执行主体可以为前述模型训练设备20,该方法至少包括以下步骤s201-s205:
52.s201、获取样本语音信息与所述样本语音信息对应的样本文本信息;
53.可选地,样本语音信息为未翻译的某语言的语音信息,样本文本信息为该样本语音信息未被翻译的文本信息。
54.s202、通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;
55.可选地,声学模型可以为wav2vec2.0。
56.可选地,声学模型是基于无标注语音数据训练得到的。
57.s203、通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;
58.可选地,翻译模型用于对输入的待翻译信息进行翻译,得到翻译结果。
59.s204、通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;
60.s205、基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;
61.其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
62.所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
63.所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
64.在一些实施例中,所述声学模型与所述翻译模型还满足以下条件中的至少一个:
65.所述至少一个第二数据处理层中的第一前馈神经网络的输入与输出之间连接有第一处理单元,所述第一处理单元包括两层全联接层和非线性激活函数;
66.所述至少一个第四数据处理层中的第二前馈神经网络的输入与输出之间连接有第二处理单元;所述第二处理单元包括两层全联接层和非线性激活函数。
67.在一些实施例中,前述s202中,通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息,包括:
68.针对声学模型中所述多个第一数据处理层中的各第一处理数据层,通过所述第一数据处理层对所述第一数据处理层的第一输入信息进行处理,得到所述第一数据处理层的第一输出信息;
69.其中,任一第一数据处理层的输出为相邻的下一第一数据处理层的输入,首个第一数据处理层的输入为所述样本语音信息,最后一个第一数据处理层的第一输出信息为声学特征信息。
70.在一些实施例中,声学模型包括第一卷积神经网络。
71.在一些实施例中,通过第一数据处理层处理的样本语音信息为已经过第一卷积神经网络处理后的样本语音信息。
72.在一些实施例中,所述第一数据处理层包含有第一自注意力机制单元、第一归一化单元、第一前馈神经网络,以及第二归一化单元;针对所述第二数据处理层,可参见图2b所示,通过所述第二数据处理层对所述第二数据处理层的第二输入信息进行处理,得到所述第二数据处理层的第二输出信息,包括以下s1-s4:
73.s1、通过所述第二数据处理层中的第一自注意力机制单元对所述第二输入信息进行处理,得到第一处理结果;
74.其中,第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
75.具体地,图2b中的pk为第一前缀向量,pk为第二前缀向量。
76.s2、通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果;
77.在一些实施例中,s2中,通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果,包括:
78.通过所述第一归一化单元对所述第一处理结果与第二输入信息进行求和处理,并对相应的求和结果进行归一化处理,得到第一归一化结果。
79.s3、通过所述第二数据处理层中的第一前馈神经网络对所述第一归一化结果进行处理,得到第二处理结果;
80.s4、通过所述第二归一化单元对所述第一归一化结果与所述第二处理结果进行处理,得到所述第二数据处理层的第二输出信息。
81.在一些实施例中,s4中,通过所述第二归一化单元对所述第一归一化结果与所述第二处理结果进行处理,得到所述第二数据处理层的第二输出信息,包括:
82.通过所述第二归一化单元对所述第一归一化结果与所述第二处理结果进行求和处理,得到第一求和结果;并对所述第一求和结果进行归一化处理,得到所述第二数据处理层的第二输出信息。
83.在另一些实施例中,针对所述第二数据处理层,可参见图2c所示,通过所述第二数据处理层对所述第二数据处理层的第二输入信息进行处理,得到所述第二数据处理层的第
二输出信息,包括以下s01-s05:
84.s01、通过所述第二数据处理层中的第一自注意力机制单元对所述第二输入信息进行处理,得到第一处理结果;
85.其中,第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
86.具体地,图2c中的pk为第一前缀向量,pk为第二前缀向量。
87.s02、通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果;
88.在一些实施例中,s02中,通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果,包括:
89.通过所述第一归一化单元对所述第一处理结果与第二输入信息进行求和处理,并对相应的求和结果进行归一化处理,得到第一归一化结果。
90.s03、通过所述第二数据处理层中的第一前馈神经网络对所述第一归一化结果进行处理,得到第二处理结果;
91.s04、通过所述第一处理单元对所述第一归一化结果进行处理,得到第三处理结果;
92.其中,第一处理单元可包括用于对第一归一化结果进行归一化的归一化单元,用于对归一化单元的输出进行降维处理的降维处理单元,该降维处理单元为全连接层;用于对降维结果进行处理的非线性激活函数;用于对非线性激活函数的输出做升维处理的升维处理单元。其中,升维处理单元的输出则为第三处理结果。其中,升维处理单元为全连接层。
93.s05、通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行处理,得到所述第二数据处理层的第二输出信息。
94.在一些实施例中,s05中,通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行处理,得到所述第二数据处理层的第二输出信息,包括:
95.通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行求和处理,得到第一求和结果;并对所述第一求和结果进行归一化处理,得到所述第二数据处理层的第二输出信息。
96.在一些实施例中,前述s203中,通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果,包括:
97.针对所述多个第三数据处理层中的各第三处理数据层,通过所述第三数据处理层对所述第三数据处理层的第三输入信息进行处理,得到所述第三数据处理层的第三输出信息;
98.其中,任一第三数据处理层的输出为相邻的下一第三数据处理层的输入,首个第三数据处理层的输入为所述声学特征信息,最后一个第三数据处理层的第三输出信息为第一预测翻译结果。
99.在一些实施例中,所述第三数据处理层包含有第二自注意力机制单元、第三归一化单元、第二前馈神经网络,以及第四归一化单元;针对所述第四数据处理层,通过所述第四数据处理层对所述第四数据处理层的第四输入信息进行处理,得到所述第四数据处理层
的第四输出信息,包括以下s11-s15:
100.s11、通过所述第四数据处理层中的第二自注意力机制单元对所述第四输入信息进行处理,得到第四处理结果;
101.s12、通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果;
102.在一些实施例中,s12中,通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果,包括:
103.通过所述第三归一化单元对所述第四处理结果与第四二输入信息进行求和处理,并对相应的求和结果进行归一化处理,得到第二归一化结果。
104.s13、通过所述第四数据处理层中的第二前馈神经网络对所述第二归一化结果进行处理,得到第五处理结果;
105.s14、通过所述第四归一化单元对所述第二归一化结果与所述第五处理结果进行处理,得到所述第四数据处理层的第四输出信息。
106.在一些实施例中,s14中,通过所述第四归一化单元对所述第二归一化结果与第五处理结果进行处理,得到所述第四数据处理层的第四输出信息,包括:
107.通过所述第四归一化单元对所述第二归一化结果与所述第五处理结果进行求和处理,得到相应的求和结果,并对该求和结果进行归一化处理,得到所述第四数据处理层的第四输出信息。
108.在另一些实施例中,针对所述第四数据处理层,通过所述第四数据处理层对所述第四数据处理层的第四输入信息进行处理,得到所述第四数据处理层的第四输出信息,包括以下s001-s005:
109.s001、通过所述第四数据处理层中的第二自注意力机制单元对所述第四输入信息进行处理,得到第四处理结果;
110.s002、通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果;
111.在一些实施例中,s002中,通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果,包括:
112.通过所述第三归一化单元对所述第四处理结果与第四二输入信息进行求和处理,并对相应的求和结果进行归一化处理,得到第二归一化结果。
113.s003、通过所述第四数据处理层中的第二前馈神经网络对所述第二归一化结果进行处理,得到第五处理结果;
114.s004、通过所述第二处理单元对所述第二归一化结果进行处理,得到第六处理结果;
115.其中,第二处理单元可包括用于对第二归一化结果进行归一化的归一化单元,用于对归一化单元的输出进行降维处理的降维处理单元,该降维处理单元为全连接层;用于对降维结果进行处理的非线性激活函数;用于对非线性激活函数的输出做升维处理的升维处理单元。其中,升维处理单元的输出则为第三处理结果。其中,升维处理单元为全连接层。
116.s005、通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行处理,得到所述第四数据处理层的第四输出信息。
117.在一些实施例中,s005中,通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行处理,得到所述第四数据处理层的第四输出信息,包括:
118.通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行求和处理,得到相应的求和结果,并对该求和结果进行归一化处理,得到所述第四数据处理层的第四输出信息。
119.在一些实施例中,前述s204中,通过初始识别模型中的翻译模型对所述样本文本信息进行处理,得到所述样本文本信息对应的第二预测翻译结果,包括:
120.针对所述多个第三数据处理层中的各第三处理数据层,通过所述第三数据处理层对所述第三数据处理层的第三输入信息进行处理,得到所述第三数据处理层的第三输出信息;
121.其中,任一第三数据处理层的输出为相邻的下一第三数据处理层的输入,首个第三数据处理层的输入为所述样本文本信息,最后一个第三数据处理层的第三输出信息为第二预测翻译结果。
122.在一些实施例中,在第四数据处理层用于处理样本文本信息时,该第四数据处理层中的第二自注意力机制单元中的第二k向量拼接的第三前缀向量,与第四数据处理层用于处理声学特征信息时,该第四数据处理层中的第二自注意力机制单元中的第二k向量拼接的第三前缀向量不同。
123.在一些实施例中,在第四数据处理层用于处理样本文本信息时,该第四数据处理层中的第二自注意力机制单元中的第二v向量拼接的第四前缀向量,与第四数据处理层用于处理声学特征信息时,该第四数据处理层中的第二自注意力机制单元中的第二v向量拼接的第四前缀向量不同。
124.在一些实施例中,在第四数据处理层用于处理样本文本信息时,该第四数据处理层中的第二前馈神经网络的输入与输出之间连接的第二处理单元,与在第四数据处理层用于处理声学特征信息时,该第四数据处理层中的第二前馈神经网络的输入与输出之间连接的第二处理单元不同。
125.在一些实施例中,通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果之前,所述方法还包括:对所述声学特征信息进行下采样处理,得到处理后的声学特征信息。
126.通过该方式,可进一步减少数据处理量,进一步提高目标识别模型的训练效率。
127.具体地,可参见图2d所示,具体可通过卷积神经网络对所述声学特征信息进行下采样处理,得到处理后的声学特征信息。本技术中的翻译模型的结构可以是transformer-encoder(如图2d中的第二编码单元)和transformer decoder(如图2d中的解码单元)。前述第四数据处理层,可以为第二编码单元中的第三数据处理层,也可以为解码单元中的第三数据处理层。
128.在一些实施例中,声学模型的结构可以是cnn和transformer encoder(如图2d中的第一编码单元)。
129.需要说明的是,本技术中的第二数据处理层为多个第一数据处理层中的其中一个,第四数据处理层为第三数据处理层中的其中一个。
130.需要说明的是,本技术中的声学模型与翻译模型还包括相关技术中的其他单元,本技术不再赘述。
131.在一些实施例中,前述s205中,基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,包括s2051-s2055:
132.s2051、获取所述第一预测翻译结果对应的第一目标标签,以及所述第二预测翻译结果对应的第二目标标签;
133.在一些实施例中,第一目标标签与第二目标标签可以由相关人员设定。
134.s2052、利用预设的损失函数与所述第一预测翻译结果确定所述第一预测翻译结果对应的第一损失信息;
135.s2053、利用所述损失函数与所述第二预测翻译结果确定所述第二预测翻译结果对应的第二损失信息;
136.在一些实施例中,本技术中的损失函数可以为交叉熵函数。
137.s2054、根据所述第一损失信息与所述第二损失信息确定目标损失信息;
138.在一些实施例中,前述根据所述第一损失信息与所述第二损失信息确定目标损失信息可包括:将所述第一损失信息与所述第二损失信息的和作为目标损失信息。
139.s2055、若所述目标损失信息小于预设阈值,则将所述初始识别模型作为目标识别模型;若否,则根据所述目标损失信息对以下任一个或多个中的参数进行调整:所述第一前缀向量、所述第二前缀向量、所述第一处理单元、第三前缀向量、所述第四前缀向量,以及所述第二处理单元,并返回执行通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息。在一些实施例中,还可以根据所述目标损失信息对以下任一个或多个中的参数进行调整:第一规一化单元、第二归一化单元、第三归一化单元,以及第四归一化单元。
140.在一些实施例中,所述方法还包括:获取待识别语音信息;通过所述目标识别模型识别出所述待识别语音信息的文本翻译结果。
141.表1为基于语音翻译中常用的mustc数据集来测试通过本技术的方案训练目标识别模型与通过相关技术中的其他方法训练出的模型的翻译质量对比。由表1可知,通过本技术的方案可在调节较少参数的情况下,训练出目标识别模型翻译质量可以超越通过相关技术中的模型训练方法训练出的模型的翻译水平。
142.表1:通过本技术的方案训练目标识别模型与通过相关技术中的其他方法训练出的模型的翻译质量对比
[0143][0144]
进一步地,可参见图2e所示,图2e为通过本技术的方案训练目标识别模型与通过相关技术中的其他方法训练出的模型的翻译质量对比的曲线图,其中,第一相关模型与第
二相关模型都未引入本方案中的各前缀向量,且都不包含第一处理单元或第二处理单元,其中,第一相关模型的数据处理层的数量小于第二相关模型的数据处理层的数量。由图2e可知,本技术的方案相对于相关模型而言,翻译质量较高。
[0145]
通过本技术的方案,在预训练好的模型,即声学模型与翻译模型的原本参数固定的情况下,添加参数高效的组件(如第一处理单元,和/或第二处理单眼单元)实现基于预训练模型的语音翻译迁移学习。针对transformer block中的attention,本方案在k向量与v向量拼接了前缀向量,基于prefix-tuning进行训练。对于transformer encoder接受不同模态即声音特征信息与样本文本信息的输入。本技术的方案对预训练好的模型中作用比较关键的结构中添加了额外的处理单元,能够基于较少的参数调整,较快的训练出翻译质量较好的目标识别模型。其次,本方案还可以对参数量较小的:预训练好的声学模型中的归一化单元,和/或预训练好的翻译模型中的归一化单元的参数进行调整,实现在较小对参数量条件下,实现高性能的目标识别模型的训练。本技术的方案在低资源设置下具有更好的数据高效性,在数据极度稀缺时,仍具有不错的性能。
[0146]
图3为本技术一示例性实施例提供的一种数据处理装置的结构示意图,该数据处理装置包括:
[0147]
获取单元31,用于获取样本语音信息与所述样本语音信息对应的样本文本信息;
[0148]
处理单元32,用于通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;
[0149]
所述处理单元32,还用于通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;
[0150]
所述处理单元32,还用于通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;
[0151]
训练单元33,用于基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;
[0152]
其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
[0153]
所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
[0154]
所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
[0155]
在一些实施例中,所述声学模型与所述翻译模型还满足以下条件中的至少一个:
[0156]
所述至少一个第二数据处理层中的第一前馈神经网络的输入与输出之间连接有第一处理单元,所述第一处理单元包括两层全联接层和非线性激活函数;
[0157]
所述至少一个第四数据处理层中的第二前馈神经网络的输入与输出之间连接有第二处理单元;所述第二处理单元包括两层全联接层和非线性激活函数。
[0158]
在一些实施例中,前述装置在用于通过初始识别模型中的声学模型对所述样本语
音信息进行处理,得到声学特征信息时,具体用于:
[0159]
针对声学模型中所述多个第一数据处理层中的各第一处理数据层,通过所述第一数据处理层对所述第一数据处理层的第一输入信息进行处理,得到所述第一数据处理层的第一输出信息;
[0160]
其中,任一第一数据处理层的输出为相邻的下一第一数据处理层的输入,首个第一数据处理层的输入为所述样本语音信息,最后一个第一数据处理层的第一输出信息为声学特征信息。
[0161]
在一些实施例中,所述第一数据处理层包含有第一自注意力机制单元、第一归一化单元、第一前馈神经网络,以及第二归一化单元;针对所述第二数据处理层,前述装置在用于通过所述第二数据处理层对所述第二数据处理层的第二输入信息进行处理,得到所述第二数据处理层的第二输出信息时,具体用于:
[0162]
通过所述第二数据处理层中的第一自注意力机制单元对所述第二输入信息进行处理,得到第一处理结果;
[0163]
通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果;
[0164]
通过所述第二数据处理层中的第一前馈神经网络对所述第一归一化结果进行处理,得到第二处理结果;
[0165]
通过所述第一处理单元对所述第一归一化结果进行处理,得到第三处理结果;
[0166]
通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行处理,得到所述第二数据处理层的第二输出信息。
[0167]
在一些实施例中,前述转置在用于通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果时,具体用于:
[0168]
针对所述多个第三数据处理层中的各第三处理数据层,通过所述第三数据处理层对所述第三数据处理层的第三输入信息进行处理,得到所述第三数据处理层的第三输出信息;
[0169]
其中,任一第三数据处理层的输出为相邻的下一第三数据处理层的输入,首个第三数据处理层的输入为所述声学特征信息,最后一个第三数据处理层的第三输出信息为第一预测翻译结果。
[0170]
在一些实施例中,所述第三数据处理层包含有第二自注意力机制单元、第三归一化单元、第二前馈神经网络,以及第四归一化单元;前述装置在用于针对所述第四数据处理层,通过所述第四数据处理层对所述第四数据处理层的第四输入信息进行处理,得到所述第四数据处理层的第四输出信息时,具体用于:
[0171]
通过所述第四数据处理层中的第二自注意力机制单元对所述第四输入信息进行处理,得到第四处理结果;
[0172]
通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果;
[0173]
通过所述第四数据处理层中的第二前馈神经网络对所述第二归一化结果进行处理,得到第五处理结果;
[0174]
通过所述第二处理单元对所述第二归一化结果进行处理,得到第六处理结果;
[0175]
通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行处理,得到所述第四数据处理层的第四输出信息。
[0176]
在一些实施例中,前述装置在用于通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果之前,还用于:
[0177]
对所述声学特征信息进行下采样处理,得到处理后的声学特征信息。
[0178]
在一些实施例中,前述装置在用于基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型时,具体用于:
[0179]
获取所述第一预测翻译结果对应的第一目标标签,以及所述第二预测翻译结果对应的第二目标标签;
[0180]
利用预设的损失函数与所述第一预测翻译结果确定所述第一预测翻译结果对应的第一损失信息;
[0181]
利用所述损失函数与所述第二预测翻译结果确定所述第二预测翻译结果对应的第二损失信息;
[0182]
根据所述第一损失信息与所述第二损失信息确定目标损失信息;
[0183]
若所述目标损失信息小于预设阈值,则将所述初始识别模型作为目标识别模型;若否,则根据所述目标损失信息对以下任一个或多个中的参数进行调整:所述第一前缀向量、所述第二前缀向量、所述第一处理单元、第三前缀向量、所述第四前缀向量,以及所述第二处理单元,并返回执行通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息。
[0184]
在一些实施例中,前述装置还用于:
[0185]
获取待识别语音信息;
[0186]
通过所述目标识别模型识别出所述待识别语音信息的文本翻译结果。
[0187]
本装置实施例对应的具体实现细节可参见前述内容,此处不再赘述。
[0188]
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,该装置可以执行上述方法实施例,并且该装置中的各个模块的前述和其它操作和/或功能分别为了上述方法实施例中的各个方法中的相应流程,为了简洁,在此不再赘述。
[0189]
上文中结合附图从功能模块的角度描述了本技术实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本技术实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本技术实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
[0190]
图4是本技术实施例提供的电子设备的示意性框图,该电子设备可包括:
[0191]
存储器401和处理器402,该存储器401用于存储计算机程序,并将该程序代码传输给该处理器402。换言之,该处理器402可以从存储器401中调用并运行计算机程序,以实现本技术实施例中的方法。
[0192]
例如,该处理器402可用于根据该计算机程序中的指令执行上述方法实施例。
[0193]
在本技术的一些实施例中,该处理器402可以包括但不限于:
[0194]
通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
[0195]
在本技术的一些实施例中,该存储器401包括但不限于:
[0196]
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,dr ram)。
[0197]
在本技术的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器401中,并由该处理器402执行,以完成本技术提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
[0198]
如图4所示,该电子设备还可包括:
[0199]
收发器403,该收发器403可连接至该处理器402或存储器401。
[0200]
其中,处理器402可以控制该收发器403与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器403可以包括发射机和接收机。收发器403还可以进一步包括天线,天线的数量可以为一个或多个。
[0201]
应当理解,该电子设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
[0202]
本技术还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本技术实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
[0203]
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站
站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,dvd))、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
[0204]
根据本技术的一个或多个实施例,提供一种数据处理方法,包括:
[0205]
获取样本语音信息与所述样本语音信息对应的样本文本信息;
[0206]
通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;
[0207]
通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;
[0208]
通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;
[0209]
基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;
[0210]
其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
[0211]
所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
[0212]
所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
[0213]
根据本技术的一个或多个实施例,所述声学模型与所述翻译模型还满足以下条件中的至少一个:
[0214]
所述至少一个第二数据处理层中的第一前馈神经网络的输入与输出之间连接有第一处理单元,所述第一处理单元包括两层全联接层和非线性激活函数;
[0215]
所述至少一个第四数据处理层中的第二前馈神经网络的输入与输出之间连接有第二处理单元;所述第二处理单元包括两层全联接层和非线性激活函数。
[0216]
根据本技术的一个或多个实施例,通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息,包括:
[0217]
针对声学模型中所述多个第一数据处理层中的各第一处理数据层,通过所述第一数据处理层对所述第一数据处理层的第一输入信息进行处理,得到所述第一数据处理层的第一输出信息;
[0218]
其中,任一第一数据处理层的输出为相邻的下一第一数据处理层的输入,首个第一数据处理层的输入为所述样本语音信息,最后一个第一数据处理层的第一输出信息为声学特征信息。
[0219]
根据本技术的一个或多个实施例,所述第一数据处理层包含有第一自注意力机制
单元、第一归一化单元、第一前馈神经网络,以及第二归一化单元;针对所述第二数据处理层,通过所述第二数据处理层对所述第二数据处理层的第二输入信息进行处理,得到所述第二数据处理层的第二输出信息,包括:
[0220]
通过所述第二数据处理层中的第一自注意力机制单元对所述第二输入信息进行处理,得到第一处理结果;
[0221]
通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果;
[0222]
通过所述第二数据处理层中的第一前馈神经网络对所述第一归一化结果进行处理,得到第二处理结果;
[0223]
通过所述第一处理单元对所述第一归一化结果进行处理,得到第三处理结果;
[0224]
通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行处理,得到所述第二数据处理层的第二输出信息。
[0225]
根据本技术的一个或多个实施例,通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果,包括:
[0226]
针对所述多个第三数据处理层中的各第三处理数据层,通过所述第三数据处理层对所述第三数据处理层的第三输入信息进行处理,得到所述第三数据处理层的第三输出信息;
[0227]
其中,任一第三数据处理层的输出为相邻的下一第三数据处理层的输入,首个第三数据处理层的输入为所述声学特征信息,最后一个第三数据处理层的第三输出信息为第一预测翻译结果。
[0228]
根据本技术的一个或多个实施例,所述第三数据处理层包含有第二自注意力机制单元、第三归一化单元、第二前馈神经网络,以及第四归一化单元;针对所述第四数据处理层,通过所述第四数据处理层对所述第四数据处理层的第四输入信息进行处理,得到所述第四数据处理层的第四输出信息,包括:
[0229]
通过所述第四数据处理层中的第二自注意力机制单元对所述第四输入信息进行处理,得到第四处理结果;
[0230]
通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果;
[0231]
通过所述第四数据处理层中的第二前馈神经网络对所述第二归一化结果进行处理,得到第五处理结果;
[0232]
通过所述第二处理单元对所述第二归一化结果进行处理,得到第六处理结果;
[0233]
通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行处理,得到所述第四数据处理层的第四输出信息。
[0234]
根据本技术的一个或多个实施例,通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果之前,所述方法还包括:
[0235]
对所述声学特征信息进行下采样处理,得到处理后的声学特征信息。
[0236]
根据本技术的一个或多个实施例,基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,包括:
[0237]
获取所述第一预测翻译结果对应的第一目标标签,以及所述第二预测翻译结果对
应的第二目标标签;
[0238]
利用预设的损失函数与所述第一预测翻译结果确定所述第一预测翻译结果对应的第一损失信息;
[0239]
利用所述损失函数与所述第二预测翻译结果确定所述第二预测翻译结果对应的第二损失信息;
[0240]
根据所述第一损失信息与所述第二损失信息确定目标损失信息;
[0241]
若所述目标损失信息小于预设阈值,则将所述初始识别模型作为目标识别模型;若否,则根据所述目标损失信息对以下任一个或多个中的参数进行调整:所述第一前缀向量、所述第二前缀向量、所述第一处理单元、第三前缀向量、所述第四前缀向量,以及所述第二处理单元,并返回执行通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息。
[0242]
根据本技术的一个或多个实施例,所述方法还包括:
[0243]
获取待识别语音信息;
[0244]
通过所述目标识别模型识别出所述待识别语音信息的文本翻译结果。
[0245]
根据本技术的一个或多个实施例,提供一种数据处理装置,包括:
[0246]
获取单元,用于获取样本语音信息与所述样本语音信息对应的样本文本信息;
[0247]
处理单元,用于通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;
[0248]
所述处理单元,还用于通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;
[0249]
所述处理单元,还用于通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;
[0250]
训练单元,用于基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;
[0251]
其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:
[0252]
所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;
[0253]
所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。
[0254]
根据本技术的一个或多个实施例,前述装置在用于通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息时,具体用于:
[0255]
针对声学模型中所述多个第一数据处理层中的各第一处理数据层,通过所述第一数据处理层对所述第一数据处理层的第一输入信息进行处理,得到所述第一数据处理层的第一输出信息;
[0256]
其中,任一第一数据处理层的输出为相邻的下一第一数据处理层的输入,首个第
一数据处理层的输入为所述样本语音信息,最后一个第一数据处理层的第一输出信息为声学特征信息。
[0257]
根据本技术的一个或多个实施例,所述第一数据处理层包含有第一自注意力机制单元、第一归一化单元、第一前馈神经网络,以及第二归一化单元;针对所述第二数据处理层,前述装置在用于通过所述第二数据处理层对所述第二数据处理层的第二输入信息进行处理,得到所述第二数据处理层的第二输出信息时,具体用于:
[0258]
通过所述第二数据处理层中的第一自注意力机制单元对所述第二输入信息进行处理,得到第一处理结果;
[0259]
通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果;
[0260]
通过所述第二数据处理层中的第一前馈神经网络对所述第一归一化结果进行处理,得到第二处理结果;
[0261]
通过所述第一处理单元对所述第一归一化结果进行处理,得到第三处理结果;
[0262]
通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行处理,得到所述第二数据处理层的第二输出信息。
[0263]
根据本技术的一个或多个实施例,前述转置在用于通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果时,具体用于:
[0264]
针对所述多个第三数据处理层中的各第三处理数据层,通过所述第三数据处理层对所述第三数据处理层的第三输入信息进行处理,得到所述第三数据处理层的第三输出信息;
[0265]
其中,任一第三数据处理层的输出为相邻的下一第三数据处理层的输入,首个第三数据处理层的输入为所述声学特征信息,最后一个第三数据处理层的第三输出信息为第一预测翻译结果。
[0266]
根据本技术的一个或多个实施例,所述第三数据处理层包含有第二自注意力机制单元、第三归一化单元、第二前馈神经网络,以及第四归一化单元;前述装置在用于针对所述第四数据处理层,通过所述第四数据处理层对所述第四数据处理层的第四输入信息进行处理,得到所述第四数据处理层的第四输出信息时,具体用于:
[0267]
通过所述第四数据处理层中的第二自注意力机制单元对所述第四输入信息进行处理,得到第四处理结果;
[0268]
通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果;
[0269]
通过所述第四数据处理层中的第二前馈神经网络对所述第二归一化结果进行处理,得到第五处理结果;
[0270]
通过所述第二处理单元对所述第二归一化结果进行处理,得到第六处理结果;
[0271]
通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行处理,得到所述第四数据处理层的第四输出信息。
[0272]
根据本技术的一个或多个实施例,前述装置在用于通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果之前,
还用于:
[0273]
对所述声学特征信息进行下采样处理,得到处理后的声学特征信息。
[0274]
根据本技术的一个或多个实施例,前述装置在用于基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型时,具体用于:
[0275]
获取所述第一预测翻译结果对应的第一目标标签,以及所述第二预测翻译结果对应的第二目标标签;
[0276]
利用预设的损失函数与所述第一预测翻译结果确定所述第一预测翻译结果对应的第一损失信息;
[0277]
利用所述损失函数与所述第二预测翻译结果确定所述第二预测翻译结果对应的第二损失信息;
[0278]
根据所述第一损失信息与所述第二损失信息确定目标损失信息;
[0279]
若所述目标损失信息小于预设阈值,则将所述初始识别模型作为目标识别模型;若否,则根据所述目标损失信息对以下任一个或多个中的参数进行调整:所述第一前缀向量、所述第二前缀向量、所述第一处理单元、第三前缀向量、所述第四前缀向量,以及所述第二处理单元,并返回执行通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息。
[0280]
根据本技术的一个或多个实施例,前述装置还用于:
[0281]
获取待识别语音信息;
[0282]
通过所述目标识别模型识别出所述待识别语音信息的文本翻译结果。
[0283]
根据本技术的一个或多个实施例,提供一种电子设备,包括:
[0284]
处理器;以及
[0285]
存储器,用于存储所述处理器的可执行指令;
[0286]
其中,所述处理器配置为经由执行所述可执行指令来执行前述各方法。
[0287]
根据本技术的一个或多个实施例,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述各方法。
[0288]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0289]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0290]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
例如,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
[0291]
以上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以该权利要求的保护范围为准。
技术特征:
1.一种数据处理方法,其特征在于,包括:获取样本语音信息与所述样本语音信息对应的样本文本信息;通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。2.根据权利要求1所述的方法,其特征在于,所述声学模型与所述翻译模型还满足以下条件中的至少一个:所述至少一个第二数据处理层中的第一前馈神经网络的输入与输出之间连接有第一处理单元,所述第一处理单元包括两层全联接层和非线性激活函数;所述至少一个第四数据处理层中的第二前馈神经网络的输入与输出之间连接有第二处理单元;所述第二处理单元包括两层全联接层和非线性激活函数。3.根据权利要求1所述的方法,其特征在于,通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息,包括:针对声学模型中所述多个第一数据处理层中的各第一处理数据层,通过所述第一数据处理层对所述第一数据处理层的第一输入信息进行处理,得到所述第一数据处理层的第一输出信息;其中,任一第一数据处理层的输出为相邻的下一第一数据处理层的输入,首个第一数据处理层的输入为所述样本语音信息,最后一个第一数据处理层的第一输出信息为声学特征信息。4.根据权利要求3所述的方法,其特征在于,所述第一数据处理层包含有第一自注意力机制单元、第一归一化单元、第一前馈神经网络,以及第二归一化单元;针对所述第二数据处理层,通过所述第二数据处理层对所述第二数据处理层的第二输入信息进行处理,得到所述第二数据处理层的第二输出信息,包括:通过所述第二数据处理层中的第一自注意力机制单元对所述第二输入信息进行处理,得到第一处理结果;通过所述第二数据处理层中的第一归一化单元对所述第一处理结果以及所述第二输入信息进行处理,得到第一归一化结果;通过所述第二数据处理层中的第一前馈神经网络对所述第一归一化结果进行处理,得
到第二处理结果;通过第一处理单元对所述第一归一化结果进行处理,得到第三处理结果;通过所述第二归一化单元对所述第一归一化结果、所述第二处理结果,以及所述第三处理结果进行处理,得到所述第二数据处理层的第二输出信息。5.根据权利要求1所述的方法,其特征在于,通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果,包括:针对所述多个第三数据处理层中的各第三处理数据层,通过所述第三数据处理层对所述第三数据处理层的第三输入信息进行处理,得到所述第三数据处理层的第三输出信息;其中,任一第三数据处理层的输出为相邻的下一第三数据处理层的输入,首个第三数据处理层的输入为所述声学特征信息,最后一个第三数据处理层的第三输出信息为第一预测翻译结果。6.根据权利要求5所述的方法,其特征在于,所述第三数据处理层包含有第二自注意力机制单元、第三归一化单元、第二前馈神经网络,以及第四归一化单元;针对所述第四数据处理层,通过所述第四数据处理层对所述第四数据处理层的第四输入信息进行处理,得到所述第四数据处理层的第四输出信息,包括:通过所述第四数据处理层中的第二自注意力机制单元对所述第四输入信息进行处理,得到第四处理结果;通过所述第四数据处理层中的第三归一化单元对所述第四处理结果以及所述第四输入信息进行处理,得到第二归一化结果;通过所述第四数据处理层中的第二前馈神经网络对所述第二归一化结果进行处理,得到第五处理结果;通过第二处理单元对所述第二归一化结果进行处理,得到第六处理结果;通过所述第四归一化单元对所述第二归一化结果、所述第五处理结果,以及所述第六处理结果进行处理,得到所述第四数据处理层的第四输出信息。7.根据权利要求1所述的方法,其特征在于,通过初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果之前,所述方法还包括:对所述声学特征信息进行下采样处理,得到处理后的声学特征信息。8.根据权利要求2所述的方法,其特征在于,基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,包括:获取所述第一预测翻译结果对应的第一目标标签,以及所述第二预测翻译结果对应的第二目标标签;利用预设的损失函数与所述第一预测翻译结果确定所述第一预测翻译结果对应的第一损失信息;利用所述损失函数与所述第二预测翻译结果确定所述第二预测翻译结果对应的第二损失信息;根据所述第一损失信息与所述第二损失信息确定目标损失信息;若所述目标损失信息小于预设阈值,则将所述初始识别模型作为目标识别模型;若否,则根据所述目标损失信息对以下任一个或多个中的参数进行调整:所述第一前缀向量、所
述第二前缀向量、所述第一处理单元、第三前缀向量、所述第四前缀向量,以及所述第二处理单元,并返回执行通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待识别语音信息;通过所述目标识别模型识别出所述待识别语音信息的文本翻译结果。10.一种数据处理装置,其特征在于,包括:获取单元,用于获取样本语音信息与所述样本语音信息对应的样本文本信息;处理单元,用于通过初始识别模型中的声学模型对所述样本语音信息进行处理,得到声学特征信息;所述处理单元,还用于通过所述初始识别模型中的翻译模型对所述声学特征信息进行处理,得到所述样本语音信息对应的第一预测翻译结果;所述处理单元,还用于通过所述翻译模型对所述样本文本信息进行处理,得到所述所述样本文本信息对应的第二预测翻译结果;训练单元,用于基于所述第一预测翻译结果与所述第二预测翻译结果对所述初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于根据输入的待识别语音信息,识别出所述待识别语音信息的文本翻译结果;其中,所述声学模型和/或所述翻译模型为预训练后的模型,且所述声学模型与所述翻译模型满足以下条件中的至少一个:所述声学模型中包含的多个第一数据处理层中的至少一个第二数据处理层中的第一自注意力机制单元中的第一k向量与第一v向量分别拼接有第一前缀向量与第二前缀向量;所述翻译模型中包含的多个第三数据处理层中的至少一个第四数据处理层中的第二自注意力机制单元中的第二k向量与第二v向量分别拼接有第三前缀向量与第四前缀向量。11.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-9中任一项所述的方法。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。
技术总结
本申请公开了一种数据处理方法、装置、设备及计算机可读存储介质,方法包括:获取样本语音信息与样本文本信息;通过初始识别模型中的声学模型对样本语音信息进行处理得到声学特征信息;通过初始识别模型中的翻译模型对声学特征信息与样本文本信息进行处理,分别得到第一预测翻译结果与第二预测翻译结果;基于第一预测翻译结果与第二预测翻译结果对初始识别模型进行训练,得到目标识别模型;声学模型中的K向量与V向量拼接有前缀向量和/或翻译模型中的K向量与V向量拼接有前缀向量。实现了提高目标识别模型的训练效率的作用。高目标识别模型的训练效率的作用。高目标识别模型的训练效率的作用。
技术研发人员:董倩倩 赵云龙 高汝霆 王明轩
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2023.03.21
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
