文本纠错模型训练方法、文本纠错方法、设备及存储介质与流程
未命名
08-15
阅读:173
评论:0
1.本发明涉及文本纠错技术领域,尤其涉及一种文本纠错模型训练方法、文本纠错方法、电子设备及计算机可读存储介质。
背景技术:
2.中文拼写错误纠正是一项重要任务。该任务旨在纠正文本或字符层面的拼写错误,这是一项具有挑战性的重要任务。拼写错误纠正需要对词的相似性、语言建模和推理进行全面的掌握,因此文本纠错成为了自然语言处理中最具挑战性的任务之一。与英文文本纠错不同,中文文本纠错难度更大。这项技术在各种自然语言处理应用中发挥着重要作用,如搜索优化、机器翻译和词条注释。
3.传统的中文文本纠错(csc)方法首先通过语言模型检测拼写错误的字符并生成候选字符,然后利用语言模型或规则过滤错误的候选字符,最终得到一个模型认为正确的字符,最后将该字符替换掉原本的错字。然而,csc也非常具有挑战性,因为它主要受到混淆字符的困扰,例如音近字和形近字这类错误。
4.目前诸如bert的预训练语言模型(plm)已被用于csc任务,并成为主流选择的一种解决方案。然而,已经训练好的plm与csc任务目标之间依然存在显著差距。plm从语义的角度提供信息表示,但如果仅考虑csc中的语义,那么就会有多个适当的字符作为纠正的候选词。而且,在预训练过程中mask机制,在没有语音和视觉相似性约束的情况下,plm很容易预测语义正确或常见的字符,但是这些字符并不一定是真正正确的字符。
5.因此,如何能够提升训练模型的纠错准确度成为本领域技术人员亟待解决的技术问题。
技术实现要素:
6.本发明提供了一种文本纠错模型训练方法、文本纠错方法、电子设备及计算机可读存储介质,解决相关技术中存在的纠错准确度低的问题。
7.作为本发明的第一个方面,提供一种文本纠错模型训练方法,其中,包括:
8.获取训练数据集,所述训练数据集包括原始语句和目标语句;
9.对所述训练数据集进行预处理获得输入序列;
10.根据所述输入序列对初始纠错模型进行训练,获得所述输入序列中每个字符的预测概率,所述预测概率表示所述每个字符被预测为该字符所对应的候选集中其他字符的概率,每个字符均对应一个候选集,所述候选集包括与所对应的字符具有多模态关联特征的字符的集合;
11.根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本;
12.根据所述负样本数据集和所述正样本对所述初始纠错模型进行优化,获得目标纠错模型。
13.进一步地,根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本数据集,包括:
14.将预测概率大于预设概率阈值且实际字符与正确字符不符合的字符所对应的集合作为负样本数据集;
15.将所述正确字符作为正样本。
16.进一步地,将预测概率大于预设概率阈值且实际字符与正确字符不符合的字符所对应的集合作为负样本数据集,包括:
17.将每个字符的预测概率均与预设概率阈值进行比较;
18.若当前字符的预测概率大于预设概率阈值,则将当前字符与所述目标语句中的正确字符进行比对;
19.若当前字符不符合所述目标语句中的正确字符,则将当前字符所对应的所述候选集中的多个候选字符作为负样本数据集。
20.进一步地,根据所述负样本数据集和所述正样本对所述初始纠错模型进行优化,获得目标纠错模型,包括:
21.分别获取所述负样本数据集的预测概率和所述正样本的预测概率;
22.根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型。
23.进一步地,根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型,包括:
24.根据所述负样本数据集的预测概率和所述正样本的预测概率构建优化损失函数,其中所述优化损失函数用于增加所述正样本的预测概率以及降低所述负样本数据集的预测概率,且用于使得所述负样本数据集的预测概率和所述正样本的预测概率的差值达到最大;
25.根据所述优化损失函数训练所述初始纠错模型,获得目标纠错模型。
26.进一步地,根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型,还包括:
27.根据所述优化损失函数和所述初始纠错模型所对应的初始损失函数确定目标损失函数;
28.根据所述目标损失函数训练所述初始纠错模型,获得目标纠错模型。
29.进一步地,根据所述输入序列对初始纠错模型进行训练,获得所述输入序列中每个字符的预测概率,包括:
30.将所述输入序列以及输入序列中根据每个字符的多模态关联特征均输入至检错网络,以对所述输入序列中每个字符进行错误概率预测,获得与所述输入序列对应的错误概率矩阵,其中所述多模态关联特征包括语义信息、字音信息和字形信息;
31.将所述错误概率矩阵输入至纠错网络进行训练,获得所述输入序列中每个字符的预测概率。
32.作为本发明的另一个方面,提供一种文本纠错方法,其中,包括:
33.获取待纠错文本所对应的输入序列;
34.将所述待纠错文本所对应的输入序列输入至文本纠错模型,获得文本纠错预测结
果,其中所述文本纠错模型为根据前文所述的文本纠错模型训练方法获得的;
35.对所述文本纠错预测结果进行解码,获得所述待纠错文本对应的目标文本。
36.作为本发明的另一个方面,提供一种电子设备,其中,包括:处理器和存储器,所述存储器用于存储计算机指令,所述处理器用于加载并执行所述计算机执行,以实现前文所述的文本纠错模型训练方法,或者,实现前文所述的文本纠错方法。
37.作为本发明的另一个方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质用于存储计算机指令,当所述计算机指令被处理器加载并执行时以实现前文所述的文本纠错模型训练方法,或者,实现前文所述的文本纠错方法。
38.本发明提供的文本纠错模型训练方法,通过初始纠错模型训练后获得每个字符的预测概率,进而构建正负样本对初始纠错模型进行优化,从而获得目标纠错模型,这种训练方法能够正确引导模型进行准确的预测,从而提升训练模型的纠错准确度。
附图说明
39.附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。
40.图1为本发明提供的文本纠错模型训练方法的流程图。
41.图2为本发明提供的获得每个字符的预测概率的流程图。
42.图3a为本发明提供的文本纠错模型的整体结构框图。
43.图3b为本发明提供的gbert模型结构图。
44.图4为本发明提供的正负样本构建的流程图。
45.图5为本发明提供的目标纠错模型获得的流程图。
46.图6为本发明提供的文本纠错方法的流程图。
47.图7为本发明提供的电子设备的结构框图。
具体实施方式
48.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互结合。下面将参考附图并结合实施例来详细说明本发明。
49.为了使本领域技术人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
50.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包括,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
51.在本实施例中提供了一种文本纠错模型训练方法,图1是根据本发明实施例提供的文本纠错模型训练方法的流程图,如图1所示,包括:
52.s100、获取训练数据集,所述训练数据集包括原始语句和目标语句;
53.在本发明实施例中,准备训练数据集,该训练数据集具体可以包括原始语句和目标语句,如表1所示,为本发明实施例的具体训练数据集的示例。
54.s200、对所述训练数据集进行预处理获得输入序列;
55.对所述训练数据集进行预处理,具体包括去除句子中的无效字符,并将句子转化为特定的向量,具体向量的维度根据模型的需要进行设定,此处不作限定。另外,针对文本转换为向量的具体过程为本领域技术人员所熟知,此处不再赘述。
56.s300、根据所述输入序列对初始纠错模型进行训练,获得所述输入序列中每个字符的预测概率,所述预测概率表示所述每个字符被预测为该字符所对应的候选集中其他字符的概率,每个字符均对应一个候选集,所述候选集包括与所对应的字符具有多模态关联特征的字符的集合;
57.在本发明实施例中,所述初始纠错模型具体可以包括检错网络和纠错网络,其中所述检错网络先对输入序列中的每个字符是否为错误字符进行检查,纠错网络则对输入序列所形成的错误概率矩阵进行训练,获得每个字符的预测概率。
58.应当理解的是,例如,针对输入的内容“今天天气很好”,则会输出该句子中每个字符的预测概率。
59.具体地,如图2所示,根据所述输入序列对初始纠错模型进行训练,获得所述输入序列中每个字符的预测概率,包括:
60.s310、将所述输入序列以及输入序列中根据每个字符的多模态关联特征均输入至检错网络,以对所述输入序列中每个字符进行错误概率预测,获得与所述输入序列对应的错误概率矩阵,其中所述多模态关联特征包括语义信息、字音信息和字形信息;
61.如图3a为文本纠错模型的整体结构框图,图3b为gbert模型结构图。其中,gbert模型具体可以包括检错网络gru网络和纠错网络bert网络。
62.接收到嵌入层的embedding向量,首先将得到的embedding向量作为gru网络的输入,通过gru网络去预测每个字符错误的概率,得到的概率同时考虑到输入序列的语义信息、字音信息、字形信息三部分。
63.应当理解的是,图3a所示的文本纠错模型会对输入的序列进行判断,以确定哪个部分错误的概率最大,然后对错误的部分使用合适的候选字进行替换。
64.s320、将所述错误概率矩阵输入至纠错网络进行训练,获得所述输入序列中每个字符的预测概率。
65.将上述得到的错误概率矩阵作为纠错网络的输入,bert纠错网络根据gru的结果预测序列中的每个字符,得到每个字符基于字音字形特征的概率。具体预测概率的计算公式为:,
66.其中,表示输入序列x中第个字符被预测为词汇表vocab中的第个字符,表示输入序列x中第个字符被预测为词汇表vocab中的第个字符的条件概率,w∈和b∈都是可训练得到的参数,vocab表示词汇表的大小,
hidden是隐藏状态的大小,∈为第个字符的模型的隐藏状态输出。
67.在本发明实施例中,所述词汇表vocab具体可以理解为是针对每个字所对应的候选字,例如,“天”,在候选集中所对应的可以为“填”、“添”、“田”等。
68.s400、根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本;
69.在本发明实施例中,如图4所示,具体可以包括:
70.s410、将预测概率大于预设概率阈值且实际字符与正确字符不符合的字符所对应的集合作为负样本数据集;
71.具体地,包括:
72.将每个字符的预测概率均与预设概率阈值进行比较;
73.若当前字符的预测概率大于预设概率阈值,则将当前字符与所述目标语句中的正确字符进行比对;
74.若当前字符不符合所述目标语句中的正确字符,则将当前字符所对应的所述候选集中的多个候选字符作为负样本数据集。
75.s420、将所述正确字符作为正样本。
76.需要说明的是,负样本数据集定义为在优化过程之前被plm错误地分配了高预测概率的常见字符。根据观察,可以与上下文形成常见搭配或短语的负样本往往被赋予比正确的字(golden character)更高的概率,从而导致模型做出错误更正。因此,在本发明实施例中,通过计算每个字符的预测概率来确定在下一阶段使用的负样本数据集。基于模型原始预测概率(即每个字符的预测概率),如果模型对输入字符进行错误校正,那就为输入字符选择负样本数据集。从候选集t中选择负样本集合neg:t={t| t∈v and t≠},neg =argmax ,,,
77.其中,和分别表示的是正样本和负样本,负样本是从预测概率在词汇v的前k个字符中选择的,输入序列x中第i个字符被预测为负样本的概率,y
i’表示输入序列x中第i个字符被预测为负样本,并且根据经验选择k的最佳值定为5, 表示候选集的子集。正样本的选择则是将数据集中带有标签的正确的字符作为正样本。
78.例如,原始语句为“我吃了早菜了”,目标语句为“我吃了早餐了”。在原始语句中通过计算每个字符的错误概率,形成错误概率矩阵,进而计算预测概率。其中由于“菜”计算得到的预测概率为95%,大于预设概率阈值75%,则将“菜”与目标语句中的“餐”进行比对,确定了“菜”不符合目标语句中的正确字符,则将“菜”所对应的候选集中的多个候选字符“餐”、“残”、“才”、“踩”、“惨”作为负样本数据集,而将“餐”作为正样本数据集。
79.s500、根据所述负样本数据集和所述正样本对所述初始纠错模型进行优化,获得目标纠错模型。
80.在本发明实施例中,在获得的负样本数据集以及正样本的基础上,对初始纠错模型进行不断优化,以获得目标纠错模型。
81.具体地,如图5所示,根据所述负样本数据集和所述正样本对所述初始纠错模型进行优化,获得目标纠错模型,包括:
82.s510、分别获取所述负样本数据集的预测概率和所述正样本的预测概率;
83.s520、根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型。
84.进一步具体地,根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型,包括:
85.根据所述负样本数据集的预测概率和所述正样本的预测概率构建优化损失函数,其中所述优化损失函数用于增加所述正样本的预测概率以及降低所述负样本数据集的预测概率,且用于使得所述负样本数据集的预测概率和所述正样本的预测概率的差值达到最大;
86.根据所述优化损失函数训练所述初始纠错模型,获得目标纠错模型。
87.应当理解的是,在获得正/负样本及其相应的预测概率后,通过对比概率优化(cpo)目标训练模型,该目标定义为:,
88.其中, n 表示单次用于训练的数据样本大小,k 是选定的负样本大小, 是负样本数据集neg 中的第 k 个负样本,表示输入序列x中第i个字符被预测为正样本的概率,表示输入序列x中第i个字符被预测为正样本,表示输入序列x中第i个字符被预测为负样本中第k个负样本的概率,表示输入序列x中第i个字符被预测为负样本中第k个负样本。cpo目标旨在教导模型增加正样本的预测概率,并将负样本的预测概率降低,并使得这两者的原始概率之差的最大。
89.为了保持模型的泛化性能,根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型,还包括:
90.根据所述优化损失函数和所述初始纠错模型所对应的初始损失函数确定目标损失函数;
91.根据所述目标损失函数训练所述初始纠错模型,获得目标纠错模型。
92.应当理解的是,在原始目标和上述优化cpo目标的基础上,可以获得目标损失函数:,
93.其中,和是两个目标的加权因子,当它们都为1的时候效果最好,在实验中使用交叉熵损失函数作为模型的原始损失函数。
94.通过上述优化,最终获得目标纠错模型。
95.综上,本发明实施例提供的文本纠错模型训练方法,通过初始纠错模型训练后获得每个字符的预测概率,进而构建正负样本对初始纠错模型进行优化,从而获得目标纠错模型,这种训练方法能够正确引导模型进行准确的预测,从而提升训练模型的纠错准确度。
96.下面结合具体示例描述上述文本纠错模型训练方法的实现过程。
97.首先,准备训练数据集,将文本形式的数据集转换成向量形式,然后输入至模型中
进行训练。训练数据由来自三个公开数据集sighna13、sighna14、sighna15的手动注释样本以及使用基于asr和ocr自动生成的271k个样本共同组成。一共是281k个样本,每条数据由一个原始句子与目标句子组成。如下表1所示:
98.表1 中文拼写纠错训练数据样例
99.测试数据集:使用sighan13、sighan14和sighan15测试集进行评估,所用数据集的统计数据如表2所示。sighan原始数据集采用繁体中文,为了方便测试,采用opencc4将其全部转换为简体中文。
100.表2 数据集的统计信息
101.在上述数据集的基础上进行训练获得目标纠错模型。
102.为了进一步验证本章提出的方法的有效性,在signha数据集上分别与目前主流的一些方法进行对比分析评价指标均采用p、r、f三个值。表3说明了所提出的方法和对比模型的性能,给出了的模型的结果。
103.其中评价指标p表示准确度(precision)、r表示召回率(recall)和f表示得分(f
1-score
)。
104.,,,
105.在上式中,tp,fp,fn分别表示预测为正确文本实际也为正确文本的数量、预测为正确文本实际为错误文本的数量以及预测为错误文本实际为正确文本的数量。
106.表3在数据集signha15上基于字符级纠错任务的不同方法的性能比较
107.将本发明实施例的方法(gbert(cpo))与spellgcn和realise进行比较,从实验结果可知,本发明实施例的方法在字符级和句子级纠错上表现是优于realise和spellgcn。在三个评价指标上都超过了这两种方法,这个提升不光是在检测网络,在纠错网络中也同样明显。
108.综合上述结果,本发明实施例加入了多模态特征之后模型能够应对多错误类型,再次基础之上将对比概率优化加入到模型中,有效缩小了预训练模型与实际中文拼写纠错任务之间的差距,提升了模型的效果。经实验可知该方法在句子级中文拼音纠错任务方面表现优异。
109.作为本发明的另一实施例,提供一种文本纠错方法,其中,如图6所示,包括:
110.s610、获取待纠错文本所对应的输入序列;
111.s620、将所述待纠错文本所对应的输入序列输入至文本纠错模型,获得文本纠错预测结果,其中所述文本纠错模型为根据前文所述的文本纠错模型训练方法获得的;
112.s630、对所述文本纠错预测结果进行解码,获得所述待纠错文本对应的目标文本。
113.本发明实施例提供的文本纠错方法,通过前文的文本纠错模型训练方法,能够获得精确的文本纠错模型,因而能够提升文本纠错准确度。
114.关于本发明实施例提供的文本纠错方法的具体实现过程可以参照前文的文本纠错训练方法的描述,此处不再赘述。
115.作为本发明的另一实施例,提供一种电子设备,其中,包括:处理器和存储器,所述存储器用于存储计算机指令,所述处理器用于加载并执行所述计算机执行,以实现前文所述的文本纠错模型训练方法,或者,实现前文所述的文本纠错方法。
116.如图7所示,该电子设备可以包括:至少一个处理器71,例如cpu(central processing unit,中央处理器),至少一个通信接口73,存储器74,至少一个通信总线72。其中,通信总线72用于实现这些组件之间的连接通信。其中,通信接口73可以包括显示屏(display)、键盘(keyboard),可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速ram存储器(random access memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中,存储器74中存储应用程序,且处理器71调用存储器74中存储的程序代码,以用于执行上述任一方法步骤。
117.其中,通信总线72可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
118.其中,存储器74可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固态硬盘(英文:solid-state drive,缩写:ssd);存储器74还可以包括上述种类的存储器的组合。
119.其中,处理器71可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
120.其中,处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:asic),可编程逻辑器件(英文:programmable logic device,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:fpga),通用阵列逻辑(英文:generic arraylogic, 缩写:gal)或其任意组合。
121.可选地,存储器74还用于存储程序指令。处理器71可以调用程序指令,实现如本发明图1实施例中所示的文本纠错模型训练方法,或实现如本发明图6实施例中所示的文本纠错方法。
122.作为本发明的另一实施例,提供一种计算机可读存储介质,其中,所述计算机可读存储介质用于存储计算机指令,当所述计算机指令被处理器加载并执行时以实现前文所述的文本纠错模型训练方法,或者,实现前文所述的文本纠错方法。
123.在本发明实施例中,提供了一种非暂态计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本纠错模型训练方法,或,文本纠错方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
124.可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
技术特征:
1.一种文本纠错模型训练方法,其特征在于,包括:获取训练数据集,所述训练数据集包括原始语句和目标语句;对所述训练数据集进行预处理获得输入序列;根据所述输入序列对初始纠错模型进行训练,获得所述输入序列中每个字符的预测概率,所述预测概率表示所述每个字符被预测为该字符所对应的候选集中其他字符的概率,每个字符均对应一个候选集,所述候选集包括与所对应的字符具有多模态关联特征的字符的集合;根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本;根据所述负样本数据集和所述正样本对所述初始纠错模型进行优化,获得目标纠错模型。2.根据权利要求1所述的文本纠错模型训练方法,其特征在于,根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本数据集,包括:将预测概率大于预设概率阈值且实际字符与正确字符不符合的字符所对应的集合作为负样本数据集;将所述正确字符作为正样本。3.根据权利要求2所述的文本纠错模型训练方法,其特征在于,将预测概率大于预设概率阈值且实际字符与正确字符不符合的字符所对应的集合作为负样本数据集,包括:将每个字符的预测概率均与预设概率阈值进行比较;若当前字符的预测概率大于预设概率阈值,则将当前字符与所述目标语句中的正确字符进行比对;若当前字符不符合所述目标语句中的正确字符,则将当前字符所对应的所述候选集中的多个候选字符作为负样本数据集。4.根据权利要求1所述的文本纠错模型训练方法,其特征在于,根据所述负样本数据集和所述正样本对所述初始纠错模型进行优化,获得目标纠错模型,包括:分别获取所述负样本数据集的预测概率和所述正样本的预测概率;根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型。5.根据权利要求4所述的文本纠错模型训练方法,其特征在于,根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型,包括:根据所述负样本数据集的预测概率和所述正样本的预测概率构建优化损失函数,其中所述优化损失函数用于增加所述正样本的预测概率以及降低所述负样本数据集的预测概率,且用于使得所述负样本数据集的预测概率和所述正样本的预测概率的差值达到最大;根据所述优化损失函数训练所述初始纠错模型,获得目标纠错模型。6.根据权利要求5所述的文本纠错模型训练方法,其特征在于,根据所述负样本数据集的预测概率与所述正样本的预测概率的对比结果优化所述初始纠错模型,获得目标纠错模型,还包括:根据所述优化损失函数和所述初始纠错模型所对应的初始损失函数确定目标损失函
数;根据所述目标损失函数训练所述初始纠错模型,获得目标纠错模型。7.根据权利要求1所述的文本纠错模型训练方法,其特征在于,根据所述输入序列对初始纠错模型进行训练,获得所述输入序列中每个字符的预测概率,包括:将所述输入序列以及输入序列中根据每个字符的多模态关联特征均输入至检错网络,以对所述输入序列中每个字符进行错误概率预测,获得与所述输入序列对应的错误概率矩阵,其中所述多模态关联特征包括语义信息、字音信息和字形信息;将所述错误概率矩阵输入至纠错网络进行训练,获得所述输入序列中每个字符的预测概率。8.一种文本纠错方法,其特征在于,包括:获取待纠错文本所对应的输入序列;将所述待纠错文本所对应的输入序列输入至文本纠错模型,获得文本纠错预测结果,其中所述文本纠错模型为根据权利要求1至7中任意一项所述的文本纠错模型训练方法获得的;对所述文本纠错预测结果进行解码,获得所述待纠错文本对应的目标文本。9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机指令,所述处理器用于加载并执行所述计算机执行,以实现权利要求1至7中任意一项所述的文本纠错模型训练方法,或者,实现权利要求8所述的文本纠错方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机指令,当所述计算机指令被处理器加载并执行时以实现权利要求1至7中任意一项所述的文本纠错模型训练方法,或者,实现权利要求8所述的文本纠错方法。
技术总结
本发明涉及文本纠错技术领域,具体公开了一种文本纠错模型训练方法、文本纠错方法、设备及存储介质,包括:获取训练数据集;对所述训练数据集进行预处理获得输入序列;根据输入序列对初始纠错模型进行训练,获得输入序列中每个字符的预测概率,预测概率表示每个字符被预测为该字符所对应的候选集中其他字符的概率,每个字符均对应一个候选集,候选集包括与所对应的字符具有多模态关联特征的字符的集合;根据每个字符的预测概率构建该字符对应的负样本数据集,并确定该字符对应的正样本;根据负样本数据集和正样本对初始纠错模型进行优化,获得目标纠错模型。本发明提供的文本纠错模型训练方法能够提高文本纠错的准确度。训练方法能够提高文本纠错的准确度。训练方法能够提高文本纠错的准确度。
技术研发人员:孙俊 田志豪
受保护的技术使用者:匀熵智能科技(无锡)有限公司
技术研发日:2023.07.14
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
