一种文本纠错方法、装置、电子设备及存储介质与流程

未命名 07-13 阅读:111 评论:0


1.本说明书涉及大数据领域,尤其涉及一种文本纠错方法、装置、电子设备及存储介质。


背景技术:

2.相关技术中,机器翻译模型进行纠错文本采用的是“编码器-解码器”框架。编码器为一个rnn(recurrent neural network,循环神经网络),用于将输入的文本转换为对应的字符向量。解码器为另一个rnn,用于对转换的字符向量进行机器翻译,将输入文本对应的字符向量翻译为正确的字符向量,从而得到纠错后的正确文本。然而,机器翻译模型在文本纠错任务中的解码范围过大,容易出现早停(输入长度和输出长度不等)、意外字等情况,从而影响文本纠错的准确度。


技术实现要素:

3.为克服相关技术中存在的问题,本说明书提供了一种文本纠错方法、装置、电子设备及存储介质。
4.根据本说明书实施例的第一方面,提供一种文本纠错方法,所述方法包括:
5.获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;
6.提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;
7.根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。
8.根据本说明书实施例的第二方面,提供一种文本纠错装置,所述装置包括:
9.第一获取单元:获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;
10.提取单元:提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;
11.第一纠错单元:根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。
12.根据本说明书实施例的第三方面,提供一种电子设备,包括:
13.处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为实现上述第一方面的步骤。
14.根据本说明书实施例的第四方面,提供一种计算机可读存储介质,其上储存有可执行指令;其中,该指令被处理器执行时,实现上述第一方面的步骤。
15.本说明书的实施例提供的技术方案可以包括以下有益效果:
16.在本说明书的实施例中,通过提取待纠错文本中每一待纠错字符的字符特征,确定出每一待纠错字符对应的候选字符集合,使得后续可以根据确定出的候选字符集合对待纠错文本中对应的待纠错字符进行文本纠错,限定了候选字符集合的范围,从而减小了解
码器的解码范围,不仅提升了文本纠错的效率,还提高了纠错的准确率。
17.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
19.图1是本说明书实施例中的一种机器翻译模型进行文本纠错的示意图。
20.图2是本说明书实施例中的一种文本纠错方法的流程图。
21.图3是本说明书实施例中的一种提取字符特征的示意图。
22.图4是本说明书实施例中的另一种提取字符特征的示意图。
23.图5是本说明书实施例中的一种纠错模型进行文本纠错的示意图。
24.图6是本说明书实施例中的一种文本纠错的示意图。
25.图7是本说明书实施例中的文本纠错装置所在计算机设备的一种硬件结构图。
26.图8是本说明书实施例中的一种文本纠错装置的框图。
具体实施方式
27.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
28.在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
29.应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
30.接下来对本说明书实施例进行详细说明。
31.相关技术中,通过机器翻译模型对文本进行纠错,将文本纠错该过程视为机器翻译的过程,即将错误文本翻译为正确文本。
32.机器纠错文本采用的是“编码器-解码器”框架。编码器为一个rnn(recurrent neural network,循环神经网络),用于将输入的文本转换为对于的字符向量。解码器为另一个rnn,用于对转换的字符向量进行束搜索。如图1所示,机器翻译模型101中包括编码器102和解码器103。若将待纠错文本104输入至机器翻译模型101中,编码器102可以将待纠错文本104转换为字符向量105,解码器103可以对字符向量进行解码,生成正确文本106。其中,解码器103基于束搜索算法(beam search)进行解码,这里举个例子:
33.假设输入的待纠错文本104为“我是小明”,束搜索算法默认待纠错文本104中的每一字符均为待纠错字符,因此使用预先存储的其他字符分别代替“我”、“是”、“小”、“明”四个字符,并对重组后的文本进行概率预测,将概率最大的文本确定为正确文本。这里首先将“我”用其他字符替代,比如用预先存储的“我”、“吾”和“握”替代,重组后的文本即分别为“我是小明”、“吾是小明”和“握是小明”,这里对这三个文本进行概率预测,得出“我是小明”的概率最高。接着,继续就“是”进行束搜索,直到对待纠错文本中所有字符均完成了概率预测,确定出概率最高的文本,并将其确定为正确文本输出。
34.可以看出,在机器翻译模型101的纠错过程中,将所有预先存储的其他字符作为候选字符集合,这导致搜索范围过大,进而对文本纠错的准确率造成了影响。
35.为解决相关技术中存在的问题,本说明书提出了一种新的文本纠错方法。
36.如图2所示,图2是本说明书根据一示例性实施例示出的一种文本纠错方法的流程图,如图2所示,所述方法至少包括以下步骤:
37.步骤202,获取待纠错文本,所述待纠错文本包含至少一个待纠错字符。
38.待纠错文本可以为计算的一种文档类型,该类文档类型主要用于记载和存储文字信息,而不是图像、声音和格式化数据。待纠错字符为待纠错文本中的任一字符,例如:在待纠错文本为“我是小明”的情况下,带纠错字符即包括“我”、“是”、“小”、“明”四个字符。当然,待纠错字符也可以为中文以外的其他语言的文字,例如:“i am chinese”中的“am”。
39.步骤204,提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合。
40.字符特征为根据待纠错字符确定出的向量特征,例如:待纠错字符的拼音向量、字形向量或者语义向量。
41.候选字符集合为根据待纠错字符的字符特征确定出的与该待纠错字符相对应的候选字符组成的集合,每一待纠错字符都对应有候选字符集合。
42.例如:假设待纠错文本为“我是小明”,将“我”作为待纠错字符,在将待纠错字符的拼音向量作为字符特征的情况下,可以根据字符特征从待定字符集合中确定出与“我”字音最相近的三个候选字符“我、喔、沃”,这三个候选字符组成的集合即为候选字符集合。值得注意的是,每一待纠错字符均对应有一个候选字符集合,例如:待纠错文本“我是小明”中,“我”对应“我、喔、沃”,“是”对应“是、示、视”,“小”对应“小、晓、逍”,“明”对应“明、鸣、名”。
43.步骤206,根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。
44.存在多种文本纠错的方式,例如:可以以候选字符集合为束搜索范围,基于束搜索算法对待纠错文本进行文本纠错;或者,直接使用候选字符集合替代待纠错字符,并对替代后的文本进行概率预测,将概率最高的文本确定为正确文本。本说明书不对文本纠错的具体方式进行限制。
45.该实施例通过提取待纠错文本中每一待纠错字符的字符特征,确定出每一待纠错字符对应的候选字符集合,使得后续可以根据确定出的候选字符集合对待纠错文本中对应的待纠错字符进行文本纠错,限定了候选字符集合的范围,从而减小了解码器的解码范围,不仅提升了文本纠错的效率,还提高了纠错的准确率。
46.在一实施例中,所述基于提取的字符特征确定每一所述待纠错字符对应的候选字
符集合,包括:获取每一所述待纠错字符对应的待定字符集合;基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符之间的关联程度;根据所述关联程度确定候选字符集合。
47.待定字符集合可以为预先设置的字符集合,例如:可以将所有待纠错字符的待定字符集合都设置为包含有全体汉字的集合。本说明书并不对待定字符集合的具体内容进行限制。
48.待定字符与待纠错字符之间的关联程度越高,说明该待定字符是该待纠错字符对应的正确字符的可能性越大。假设:待纠错字符“我”对应的待定字符集合包括待定字符“我、喔、沃”,这三个待定字符中,显然待定字符“我”与待纠错字符“我”的关联程度最高,可以说明待定字符“我”是待纠错字符“我”的正确字符的可能性最大。
49.在确定关联程度后,可以根据关联程度确定候选字符集合。
50.该实施例基于字符特征确定出待定字符与待纠错字符之间的关联程度,并通过关联程度确定候选字符集合,使得确定出的候选字符集合中的候选字符与待纠错字符的关联更加密切,从而提高了基于该候选字符集合进行的文本纠错的准确率。
51.在一实施例中,所述基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符的关联程度,包括:将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;其中,所述关联分数用于表征每一待定字符与对应的待纠错字符之间的关联程度。
52.如前所述,待定字符与待纠错字符之间的关联程度表明了,该待定字符是该待纠错字符对应的正确字符的可能性,关联程度越高,可能性越大。关联程度的高低则可以用关联分数来判断,可以将待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数。假设:待纠错字符为“我”,待定集合包括“我、喔、沃”,分别提取待纠错字符a和待定字符的字符特征b、c、d,那么待定字符对应的关联分数分别为“a
×
b”、“a
×
c”、“a
×
d”。
53.进一步的,所述根据所述关联分数确定每一所述待纠错字符对应的候选字符集合,包括:将所述待定字符集合中所述关联分数靠前的预设数量的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符添加至所述对应的待纠错字符的候选字符集合中;或者,将所述待定字符集合中所述关联分数达到预设阈值的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符添加至所述对应的待纠错字符的候选字符集合中。
54.若将预设数量设置为3个,就是将关联分数排名前三的三个待定字符作为候选字符,并将这三个候选字符添加至候选字符集合中;若将预设阈值设置为60分,就是将关联分数超过60分的待定字符作为候选字符,并将确定的候选字符添加至候选字符集合中。
55.当然,也可以将上述两种方式结合,例如:可以将预设数量设置为3个,将预设阈值设置为60分,若关联分数排名前三的三个待定字符中存在关联分数小于60分的待定字符,则不将该待定字符确定为候选字符。本说明书并不对确定候选字符集合的具体方式进行限制。
56.该实施例通过关联分数,来表征每一待定字符与对应的待纠错字符之间的关联程度,使得关联程度可以直观的反映出来,便于后续对候选字符集合的确定。
57.在一实施例中,所述字符特征包括以下至少之一:语义特征、拼音特征、字形特征;所述语义特征的提取方法,包括:将所述待纠错文本输入至roberta模型,得到所述待纠错文本对应的语义特征;根据每一所述待纠错字符在所述待纠错文本中的字符位置,从所述待纠错文本对应的语义特征中提取每一所述待纠错字符的语义特征。
58.roberta模型(a robustly optimized bert,一种强力优化的bert方法),是一种无监督预训练语言模型。roberta模型包括隐藏层和注意力层,其中,隐藏层用于提取输入文本的语义特征,其可以将整个文本作为输入,根据文本中前后左右的字符信息确定出文本对应的语义特征。如图3所示,将待纠错文本301输入至roberta模型的隐藏层302中,roberta模型的隐藏层302可以对待纠错文本301进行语义特征的提取,得到待纠错文本301对应的语义特征303。关于roberta模型具体的特征提取过程这里不再赘述。可以根据每一待纠错字符在待纠错文本中的位置信息,从语义特征303中提取每一待纠错字符的语义特征。
59.该实施例,先通过roberta模型确定出待纠错文本对应的语义特征,再根据待纠错字符在待纠错文本中的位置信息提取每一待纠错字符的语义特征,为后续确定候选字符集合作铺垫。
60.在一实施例中,在所述字符特征包含多种类型的特征的情况下,所述将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数,包括:将所述多种类型的特征进行层归一化,并将层归一化的结果与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;或者,分别计算所述多种类型的特征与对应的待定字符集合中每一待定字符的字符向量的乘积,并对得到的计算结果进行合并计算,得到所述关联分数。
61.如图3所示,将待纠错文本301分别输入至roberta模型的隐藏层302、字形特征提取模型304、拼音特征提取模型306中,以使roberta模型的隐藏层302提取待纠错文本301中每一待纠错字符的语义特征303,字形特征提取模型304提取待纠错文本301中每一待纠错字符的字形特征305,拼音特征提取模型306提取待纠错文本301中每一待纠错字符的拼音特征307。在得到语义特征303、字形特征305和拼音特征307后,由于这三类特征的维度不相同,因此可以对三类特征进行层归一化,并将层归一化后的特征进行融合,生成每一待纠错字符对应的字符特征308。最后,基于字符特征408确定关联分数309(关联分数309为关联分数集合,包含每一待定字符对应的关联分数),并根据关联分数309确定每一待纠错字符对应的候选字符集合310。
62.或者,如图4所示,将待纠错文本401分别输入至roberta模型的隐藏层402、字形特征提取模型404、拼音特征提取模型406中,以使roberta模型的隐藏层402提取待纠错文本401中每一待纠错字符的语义特征403,字形特征提取模型404提取待纠错文本401中每一待纠错字符的字形特征405,拼音特征提取模型406提取待纠错文本401中每一待纠错字符的拼音特征407。在得到语义特征403、字形特征405和拼音特征407后,分别根据这三种类型的特征计算得到第一关联分数408、第二关联分数409和第三关联分数410(此处的第一关联分数408、第二关联分数409和第三关联分数410为关联分数集合,包含每一待定字符对应的关联分数),并对。第一关联分数408、第二关联分数409和第三关联分数410进行加权求和得到最终关联分数411。最后,根据关联分数411确定每一待纠错字符对应的候选字符集合412。
63.该实施例,一方面,根据多种类型的特征确定每一待纠错字符对应的候选字符集合,相对于单一特征确定出的候选字符集合而言,结合三种特征确定出的候选字符集合符合字形、拼音和语义三种特征信息,准确率更高,从而使得后续根据该候选字符集合进行文本纠错的准确率;另一方面,提供了两种关联分数的计算方法,丰富了确定候选字符集合的手段。
64.在一实施例中,所述根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本,包括:以所述候选字符集合内的元素指示的束宽为约束,基于预设的机器翻译模型对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。
65.进一步的,所述以所述候选字符集合内的元素指示的束宽为约束,基于预设的机器翻译模型对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本,包括:将所述候选字符集合内的元素指示的束宽作为所述预设的机器翻译模型中解码器进行束搜索的束宽;将所述待纠错文本输入至所述机器翻译模型中,以使所述机器翻译模型中的解码器对所述待纠错文本进行束搜索,并将束搜索结果中概率最高的文本作为所述待纠错文本对应的正确文本。
66.以候选字符集合内的元素个数为束宽可以限制束搜索的范围,例如:待纠错文本“我是小明”中每一待纠错字符对应的候选字符集合内的元素个数均为3,其中,“我”对应,那么在进行束搜索时,以3为束宽,使得束搜索的范围仅包括“我、喔、沃”这三个候选字符,提升束搜索的效率,提高文本纠错的准确率。
67.如图5所示,纠错模型50包括字符特征提取子模型51和机器翻译子模型52。将待纠错文本501输入至纠错模型50中,通过所述字符特征提取子模型51对所述待纠错文本501进行特征提取,以得到每一所述待纠错字符的字符特征。根据得到的字符特征确定每一所述待纠错字符对应的候选字符集合502,将所述确定的候选字符集合502和所述待纠错文本501输入至所述机器翻译子模型52,以使所述机器翻译子模型52以所述确定的候选字符集合502内的元素个数为束宽对所述待纠错文本501进行文本纠错。
68.该实施例以确定的候选字符集合内的元素个数为束宽对待纠错文本进行文本纠错,减小了束搜索的范围,提升束搜索的效率,提高文本纠错的准确率。
69.针对于特定场景的文本纠错,待纠错文本中存在两种特殊的错误类型:混淆集错误和专有名词错误。
70.在一实施例中,所述方法还包括:根据所述待纠错文本对应的目标场景获取对应的目标混淆集,所述目标混淆集中记录有所述目标场景对应的易混淆字词集合和与所述易混淆字词集合对应的正确字词集合;从所述至少一个待纠错字符中筛选出与所述易混淆字词集合中任一易混淆字词相同的第一错误字符;根据所述正确字词集合中与所述第一错误字符对应的正确字词对筛选出的第一错误字符进行纠错。
71.表1是本说明书根据一示例性实施例示出的一种司法场景下的混淆集,该混淆集记录有易混淆字词集合和正确字词集合,其中,易混淆字词集合包括“源告”、“元告”、“诉松”和“即成事实”,这四个易混淆字词分别对应于正确字词集合中的“原告”、“原告”、“诉讼”和“既成事实”。该混淆集还标识有场景字段,场景为“司法”,以为易混淆字词和正确字词对应的场景为司法场景。
[0072][0073][0074]
表1
[0075]
可以看出,混淆集中,同一正确字词可以分别对应于多个不同的易混淆字词,但是同一易混淆字词仅对应于一个正确字词。
[0076]
若待纠错文本为“源告姓名是小明”,则可以从该待纠错文本中确定出第一错误字符“源告”。在混淆集中,“源告”与“原告”相对应,那么可以直接将待纠错文本中的“源告”替换为正确“原告”,得到纠错后的文本“原告姓名是小明”。
[0077]
指的注意的是,不同场景下,混淆集中易混淆字词和正确字词可能存在不同的对应情况,例如:“制定”和“制订”,“制定”是在制定完成后可以确定了的,“制订”是在制订完成后还无法确定,因此,在提交计划场景下,“制定”为易混淆字词,“制订”为正确字词;在提交总结报告场景下,“制订”为易混淆字词,“制定”为正确字词。所以,混淆集中的场景字段可以赋予混淆集场景属性,用以不同场景对应的混淆集。
[0078]
该实施例通过根据从待纠错文本中筛选出与所述易混淆字词集合中任一易混淆字词相同的第一错误字符,并根据正确字词集合中与第一错误字符对应的正确字词对筛选出的第一错误字符进行纠错,使得特定场景下的待纠错文本中的易混淆字词得到纠正。
[0079]
在一实施例中,所述方法还包括:根据所述待纠错文本对应的目标场景获取对应的目标专有名词集合,所述专有名词集合中记录有所述目标场景对应的专有名词;从所述至少一个待纠错字符中筛选出与所述专有名词集合中任一专有名词的拼音相近且字形相近的第二错误字符;根据所述专有名词集合中与所述第二错误字符对应的专有名词对筛选出的第二错误字符进行纠错。
[0080]
专有名词(proper noun),是名词的一种,表示特定的、独一无二的人或物(人名、地名、国家名、景观名),与普通名词相对。不同场景下的专有名词不同,例如:医疗场景下,专有名词可以包括:医疗用具名称、手术名称和药物名称等;土木研究场景下,专有名词可以包括:建筑名称和建筑工具等。
[0081]
假设医疗场景下的专有名词集合为{“电疗仪”,“神经刺激”,“医生”},待纠错文本为“医声使用电疗义对患者进行神精刺激”,可以从该待纠错文本中确定出三个第二纠错字符“医声”、“电疗义”和“神精刺激”,这三个第二纠错字符分别对应于专有名词“医生”、“电疗仪”和“神经刺激”,因此可以直接将这三个第二纠错字符替换为正确的专有名词,从而得到正确文本“医生使用电疗仪对患者进行神经刺激”。
[0082]
该实施例通过从待纠错文本中筛选出与专有名词集合中任一专有名词的拼音相近且字形相近的第二错误字符,并根据专有名词集合中与第二错误字符对应的专有名词对筛选出的第二错误字符进行纠错,使得特定场景下待纠错文本中的专有名词错误可以得到
纠正。
[0083]
在一实施例中,可以同时对待纠错文本进行混淆集纠错和专有名词纠错。
[0084]
如图6所示,可以根据混淆集602对待纠错文本601进行混淆集纠错,得到第一文本603,并根据专有名词集合604对第一文本603进行专有名词纠错,得到第二文本605,第二文本605即为待纠错文本601对应的正确文本。
[0085]
图6所示的文本纠错方法是先对待纠错文本进行混淆集纠错,再进行专有名词纠错,两者的顺序也可以倒过来,即先对待纠错文本进行专有名词纠错,再进行混淆集纠错,本说明书并不对此进行限制。
[0086]
该实施例将混淆集纠错和专有名词纠错相结合,同时对待纠错文本进行混淆集纠错和专有名词纠错,提高了文本纠错的准确率。
[0087]
在一实施例中,可以先对待纠错文本的混淆集错误和专有名词错误进行纠错,再将纠错后的文本输入至纠错模型中进行普通字词纠错。
[0088]
如图6所示,纠错模型60包括字符特征提取子模型61和机器翻译子模型62。在结束混淆集纠错和专有名词纠错后,可以将得到的第二文本605输入至纠错模型60,通过字符特征提取子模型61对第二文本605进行特征提取,以得到第二文本605中每一待纠错字符的字符特征。根据得到的字符特征确定每一待纠错字符对应的候选字符集合606,将所述确定的候选字符集合606和第二文本605输入至所述机器翻译子模型62,以使机器翻译子模型62以确定的候选字符集合606内的元素个数为束宽对第二文本605进行文本纠错。
[0089]
图6所示的文本纠错方法是先对待纠错文本进行混淆集纠错,再进行专有名词纠错,再进行普通字词纠错,三者的顺序并不一定是如此,也可以先对待纠错文本进行专有名词纠错,再进行混淆集纠错,再进行普通字词纠错,本说明书并不对此进行限制。
[0090]
该实施例将混淆集错误、专有名词错误和普通字词纠错相结合,同时在对待纠错文本混淆集错误、专有名词错误结束后,通过纠错模型进行普通字词纠错,提高了文本纠错的准确率。
[0091]
与前述方法的实施例相对应,本说明书还提供了装置、电子设备以及存储介质的实施例。
[0092]
本说明书存在相交关系的空间数据的检索装置的实施例可以应用在计算机设备上,装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的存在相交关系的空间数据的检索装置,是通过其处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本说明书实施例中的文本纠错装置所在计算机设备的一种硬件结构图,除了图7所示的处理器710、内存730、网络接口720、以及非易失性存储器740之外,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0093]
如图8所示,图8是本说明书根据一示例性实施例示出的一种文本纠错装置的框图,所述装置包括:
[0094]
第一获取单元802,用于获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;
[0095]
提取单元804,用于提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;
[0096]
第一纠错单元806,用于根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。
[0097]
可选的,所述提取单元804具体用于:
[0098]
获取每一所述待纠错字符对应的待定字符集合;
[0099]
基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符之间的关联程度;
[0100]
根据所述关联程度确定候选字符集合。
[0101]
可选的,所述提取单元804具体用于:
[0102]
将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;其中,所述关联分数用于表征每一待定字符与对应的待纠错字符之间的关联程度。
[0103]
可选的,在所述字符特征包含至少两种类型的特征的情况下,所述提取单元804具体用于:
[0104]
将所述多种类型的特征进行层归一化,并将层归一化的结果与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;或者,
[0105]
分别计算所述多种类型的特征与对应的待定字符集合中每一待定字符的字符向量的乘积,并对得到的计算结果进行合并计算,得到所述关联分数。
[0106]
可选的,所述提取单元804具体用于:
[0107]
将所述待定字符集合中所述关联分数靠前的预设数量的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符添加至所述对应的待纠错字符的候选字符集合中;或者,
[0108]
将所述待定字符集合中所述关联分数达到预设阈值的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符添加至所述对应的待纠错字符的候选字符集合中。
[0109]
可选的,所述字符特征包括以下至少之一:语义特征、拼音特征、字形特征;
[0110]
所述语义特征的提取方法,包括:
[0111]
将所述待纠错文本输入至roberta模型,得到所述待纠错文本对应的语义特征;
[0112]
根据每一所述待纠错字符在所述待纠错文本中的字符位置,从所述待纠错文本对应的语义特征中提取每一所述待纠错字符的语义特征。
[0113]
可选的,所述第一纠错单元806具体用于:
[0114]
以所述候选字符集合内的元素指示的束宽为约束,基于预设的机器翻译模型对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。
[0115]
可选的,所述第一纠错单元806具体用于:
[0116]
将所述候选字符集合内的元素指示的束宽作为所述预设的机器翻译模型中解码器进行束搜索的束宽;
[0117]
将所述待纠错文本输入至所述机器翻译模型中,以使所述机器翻译模型中的解码器对所述待纠错文本进行束搜索,并将束搜索结果中概率最高的文本作为所述待纠错文本对应的正确文本。
[0118]
可选的,所述方法还包括:
[0119]
第二获取单元808,用于根据所述待纠错文本对应的目标场景获取对应的目标混淆集,所述目标混淆集中记录有所述目标场景对应的易混淆字词集合和与所述易混淆字词集合对应的正确字词集合;
[0120]
第一筛选单元810,用于从所述至少一个待纠错字符中筛选出与所述易混淆字词集合中任一易混淆字词相同的第一错误字符;
[0121]
第二纠错单元812,用于根据所述正确字词集合中与所述第一错误字符对应的正确字词对筛选出的第一错误字符进行纠错。
[0122]
可选的,所述方法还包括:
[0123]
第三获取单元814,用于根据所述待纠错文本对应的目标场景获取对应的目标专有名词集合,所述专有名词集合中记录有所述目标场景对应的专有名词;
[0124]
第二筛选单元816,用于从所述至少一个待纠错字符中筛选出与所述专有名词集合中任一专有名词的拼音相近且字形相近的第二错误字符;
[0125]
第三纠错单元818,用于根据所述专有名词集合中与所述第二错误字符对应的专有名词对筛选出的第二错误字符进行纠错。
[0126]
相应的,本说明书还提供一种装置,所述装置包括有处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为实现上述全部方法实施例提供的存在相交关系的空间数据的检索方法的步骤。
[0127]
相应的,本说明书还提供一种计算机可读存储介质,其上存储有可执行的指令;其中,该指令被处理器执行时,实现上述全部方法实施例提供的存在相交关系的空间数据的检索方法的步骤。
[0128]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0129]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0130]
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
[0131]
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限
制。
[0132]
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

技术特征:
1.一种文本纠错方法,其特征在于,所述方法包括:获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。2.根据权利要求1所述的方法,其特征在于,所述基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合,包括:获取每一所述待纠错字符对应的待定字符集合;基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符之间的关联程度;根据所述关联程度确定候选字符集合。3.根据权利要求2所述的方法,其特征在于,所述基于提取的字符特征,确定所述待定字符集合中每一待定字符与对应的待纠错字符的关联程度,包括:将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;其中,所述关联分数用于表征每一待定字符与对应的待纠错字符之间的关联程度。4.根据权利要求3所述的方法,其特征在于,在所述字符特征包含多种类型的特征的情况下,所述将每一所述待纠错字符的字符特征与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数,包括:将所述多种类型的特征进行层归一化,并将层归一化的结果与对应的待定字符集合中每一待定字符的字符向量的乘积作为相应待定字符的关联分数;或者,分别计算所述多种类型的特征与对应的待定字符集合中每一待定字符的字符向量的乘积,并对得到的计算结果进行合并计算,得到所述关联分数。5.根据权利要求3所述的方法,其特征在于,所述根据所述关联分数确定每一所述待纠错字符对应的候选字符集合,包括:将所述待定字符集合中所述关联分数靠前的预设数量的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符添加至所述对应的待纠错字符的候选字符集合中;或者,将所述待定字符集合中所述关联分数达到预设阈值的待定字符确定为对应的待纠错字符的候选字符,并将确定的候选字符添加至所述对应的待纠错字符的候选字符集合中。6.根据权利要求2所述的方法,其特征在于,所述字符特征包括以下至少之一:语义特征、拼音特征、字形特征;所述语义特征的提取方法,包括:将所述待纠错文本输入至roberta模型,得到所述待纠错文本对应的语义特征;根据每一所述待纠错字符在所述待纠错文本中的字符位置,从所述待纠错文本对应的语义特征中提取每一所述待纠错字符的语义特征。7.根据权利要求1-6任意一项所述的方法,其特征在于,所述根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错
文本对应的正确文本,包括:以所述候选字符集合内的元素指示的束宽为约束,基于预设的机器翻译模型对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。8.一种文本纠错装置,其特征在于,所述装置包括:第一获取单元:获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;提取单元:提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;第一纠错单元:根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。9.一种电子设备,包括有处理器;用于存储处理器可执行指令的存储器,其特征在于,所述处理器被配置为实现权利要求1-7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有可执行的指令,其特征在于,该指令被处理器执行时,实现权利要求1-7中任一项所述方法的步骤。

技术总结
本说明书提供一种文本纠错方法、装置、电子设备及存储介质,所述方法包括:获取待纠错文本,所述待纠错文本包含至少一个待纠错字符;提取每一所述待纠错字符的字符特征,并基于提取的字符特征确定每一所述待纠错字符对应的候选字符集合;根据确定的候选字符集合指示的纠错范围对所述待纠错文本中对应的待纠错字符进行文本纠错,以得到所述待纠错文本对应的正确文本。应的正确文本。应的正确文本。


技术研发人员:童建成
受保护的技术使用者:杭州数梦工场科技有限公司
技术研发日:2023.03.01
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐