一种文本纠错方法、系统、电子设备及存储介质与流程

未命名 07-20 阅读:96 评论:0


1.本技术涉及数据分析技术领域,特别是涉及一种文本纠错方法、系统、电子设备及存储介质。


背景技术:

2.随着计算机技术的日渐成熟和普及,在数据分析和处理中,尤其是对自然语言的文本纠错,往往依赖于高质量的词典进行文本纠错。
3.对当前技术的研究和实践过程中,当前技术采用高质量词典进行纠错的方法,容易造成文本出现歧义,影响了文本纠错的准确率。


技术实现要素:

4.本技术主要解决的技术问题是提供一种文本纠错方法、系统、电子设备及存储介质,能够降低文本出现歧义的概率,提高文本纠错的准确率。
5.为解决上述技术问题,本技术采用的一个技术方案是:提供一种文本纠错方法,包括:获取待纠错文本;对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签;其中,所述第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误;基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本;其中,在所述纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。
6.在一些实施例中,所述对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签,包括:将所述待纠错文本输入预设错误检测模型,以获取所述待纠错文本中存在的不同类型的文本错误;其中,不同类型的所述文本错误包括:第一文本错误、第二文本错误以及第三文本错误;对不同类型的所述文本错误设置相应的第一标签,以及对所述正常文本设置第二标签;其中,所述第一标签包括:用于替换的第一错误标签、用于插入的第二错误标签以及用于删除的第三错误标签,第二标签包括正常标签;对所述第一文本错误对应的词组设置所述第一错误标签,对所述第二文本错误对应的词组设置所述第二错误标签,对所述第三文本错误对应的词组设置所述第三错误标签,以及对所述正常文本对应的词组设置所述正常标签;基于所述第一错误标签、所述第二错误标签、所述第三错误标签和所述正常标签构建所述待纠错文本的标签序列。
7.在一些实施例中,在构建所述待纠错文本的标签序列之后,还包括:基于所述标签序列对所述待纠错文本进行编辑,以获取编辑文本;其中,所述正常标签所对应的词组还原为原始文本,所述第一错误标签所对应的词组、所述第二错误标签所对应的词组以及所述第三错误标签所对应的词组被编辑为第三标签;以还原的所述原始文本和所述第三标签确定所述候选目标文本。
8.在一些实施例中,所述基于预设词表对纠错处的词组进行词组评分,以最高评分对应的候选目标文本确定已纠错文本,包括:基于预设词表对于所述候选目标文本中所述第三标签对应的词组进行评分,以获取每一处所述第三标签对应的所述预设词表评分最高的词组;其中,所述预设词表为错误纠正模型进行上下文语义判断的词表;基于评分最高的所述词组替换所述候选目标文本中对应的词组,以获取已纠错文本。
9.在一些实施例中,所述基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本,包括:对所述第一错误标签对应的第一错误文本进行文本替换;对所述第二错误标签对应的第二错误文本进行文本插入;对所述第三错误标签对应的第三错误文本进行文本删除;基于对所述文本错误进行的所述文本替换、所述文本插入以及所述文本删除,确定已纠错文本。
10.在一些实施例中,所述第一标签基于预设的最小编辑距离生成;其中所述最小编辑距离为待纠错文本通过编辑操作转换为已纠错文本所需的最小编辑次数。
11.在一些实施例中,在确定已纠错文本之后,还包括:基于预设混淆集对所述已纠错文本进行匹配评分;其中,所述预设混淆集包括字形混淆集和字音混淆集;对于符合预设混淆集匹配评分的词组增加调整权重;以所述调整权重和预设惩罚系数对所述词组评分进行调整,进而获取调整后的最高所述词组评分对应的候选目标文本确定最终纠错文本。
12.在一些实施例中,所述基于预设混淆集对所述已纠错文本进行匹配评分,包括:基于预设混淆集对所述已纠错文本纠错过的词组进行匹配评分;其中,基于所述字音混淆集获取字音类文本错误的匹配评分,基于所述字形混淆集获取字形类文本错误的匹配评分;所述对于符合预设混淆集匹配评分的词组增加调整权重,包括:对于符合预设混淆集匹配评分的字音类和字形类对应文本错误的词组,增加调整权重,以提高字音类和字形类对应文本错误的匹配评分。
13.为解决上述技术问题,本技术另一技术方案是:提供一种文本纠错系统,该系统包括:获取模块、错误检测模块以及纠错模块;其中,获取模块用于获取待纠错文本;错误检测模块用于对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签;其中,所述第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误;纠错模块基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本;其中,在所述纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。
14.为解决上述技术问题,本技术采用的再一技术方案是:提供一种电子设备,所述电子设备包括存储器以及与所述存储器耦接的处理器,所述存储器存储有至少一计算机程序,所述至少一计算机程序被所述处理器加载并执行时,用于实现如上述的文本纠错方法。
15.为解决上述技术问题,本技术采用的又一技术方案是:提供一种计算机可读存储介质,所述计算机可读存储介质有至少一段程序,所述至少一段程序被处理器加载并执行时,用于实现如上述的文本纠错方法。
16.区别于当前技术,本技术提供的文本纠错方法,包括:获取待纠错文本;对待纠错文本进行错误检测,以获取待纠错文本中存在的不同类型的文本错误,并将不同类型的文本错误设置相应的第一标签;其中,第一标签包含不同类型的错误标签,以对应标记不同类
型的文本错误;基于不同类型的第一标签对不同类型的文本错误进行纠错,以获取已纠错文本;其中,在所述纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。即本技术通过对文本错误分类,对分类后的文本错误构建相应的标签,进而依据标签进行纠错,即通过预设词表对纠错处词组进行评分,以评分最高的候选目标文本确定已纠错文本,基于评分确定已纠错文本,能有效降低文本出现歧义的概率,提高文本纠错的准确率。
附图说明
17.图1是本技术文本纠错方法第一实施例的流程示意图;
18.图2是本技术中步骤s2一实施例的流程示意图;
19.图3是本技术中在构建待纠错文本的标签序列之后一实施例的流程示意图;
20.图4是本技术中步骤s13一实施例的流程示意图;
21.图5是本技术中步骤s14一实施例的流程示意图;
22.图6是本技术文本纠错方法第二实施例的流程示意图;
23.图7是本技术文本纠错系统一实施例的结构示意图;
24.图8是本技术电子设备一实施例的结构示意图;
25.图9是本技术计算机可读存储介质一实施例的结构示意图。
具体实施方式
26.下面结合附图和实施例,对本技术作进一步的详细描述。特别指出的是,以下实施例仅用于说明本技术,但不对本技术的范围进行限定。同样的,以下实施例仅为本技术的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
27.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
28.当前的文本纠错方法,特别是对自然语言的文本纠错,由于依赖于高质量的词典,且不能解决文本中出现的歧义问题以及不能进行文本错误分类,从而导致大量错误召回,影响了文本纠错的准确率。
29.因此,提出一种文本纠错方法,通过对文本错误分类,对分类后的文本错误构建相应的标签,进而依据标签进行纠错,即对纠错处的词组进行评分,以评分最高确定最后的已纠错文本,基于评分确定已纠错文本,能有效降低文本出现歧义的概率,提高文本纠错的准确率。
30.请参阅图1,图1是本技术中文本纠错方法第一实施例的流程示意图。需注意的是,若有实质上相同的结果,本技术的方法并不以图1所示的流程顺序为限。
31.如图1所示,该文本纠错方法包括一下步骤:
32.s11、获取待纠错文本。
33.其中,待纠错文本是指没有经过纠错处理的原始文本,待纠错文本可能存在各类
文本错误问题,又或者不存在文本错误;其中,文本错误包括且不限于缺失词、冗余词、字词错误、词序错误等。
34.s12、对待纠错文本进行错误检测,以获取待纠错文本中存在的不同类型的文本错误,并将不同类型的文本错误设置相应的第一标签;其中,第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误。
35.其中,错误检测是通过文本错误检测方法,对待纠错文本存在的错误检测出来,并根据文本错误的类别进行分类。
36.具体地,在获取待纠错文本后,通过文本纠错检测方法对待纠错文本进行错误检测,对于检测出来的文本错误,依据其文本错误类型进行分类,并且为每一种文本错误类型设置对应类型的错误标签。
37.例如;文本错误类型包括有待替换的文本错误、待插入的文本错误以及待删除的文本错误,经过错误检测之后,获取待纠错文本中所有的待替换的文本错误、待插入的文本错误以及待删除的文本错误,对于所有的待替换的文本错误设置相应待替换的错误标签,对于待插入的文本错误设置相应待插入的错误标签,对于待删除的文本错误设置相应待删除的错误标签。
38.s13、基于不同类型的第一标签对不同类型的文本错误进行纠错,以获取已纠错文本;其中,在纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的词组评分对应的候选目标文本确定为已纠错文本。
39.其中,第一标签包含不同类型的错误标签,即不同类型的第一标签对应不同类型的错误标签;如,待替换的文本错误设置的第一标签对应待替换的错误标签,待插入的文本错误设置的第一标签对应待插入的错误标签,待删除的文本错误设置的第一标签对应待删除的错误标签。预设词表可以指比较常用的词表,如包含5000多中文字和其他字符,总计字符数为20000多的词表;预设词表主要用于对语义是否连贯进行评分,用于对纠错后的文本错误进行纠错处的词组进行评分。
40.具体地,在获取待纠错文本中不同类型的文本错误,并给给文本错误设定相应不同类型的第一标签之后,通过文本错误纠正方法依据第一标签的类型对各不同类型的第一标签处的文本错误进行纠正编辑,以获取已纠错文本。其中,对待纠错文本中存在的不同文本错误,依据其对应的错误标签进行相应的纠错,对于进行过纠错之处,通过预设词表对该纠错之处进行词组评分,获取最高词组评分对应的词组,依据该词组得到一个对应的候选目标文本,进而以该候选目标文本确定为已纠错文本。
41.例如,对于待替换的第一标签对应的文本错误进行相应文本替换,对于待插入的第一标签对应的文本错误进行相应的文本插入,对于待删除的第一标签对于的文本错误进行相应的文本删除。
42.在本实施例中,本技术通过对待纠错文本的文本错误类型进行分类,并依据分类结果设置相应的标签,进而依据标签进行文本纠错,并基于预设词表对纠错处的词组进行词组评分,以最高的词组评分对应的候选目标文本确定为已纠错文本,能有效降低文本出现歧义的概率,提高文本纠错的准确率。
43.在一些实施例中,可以采用语言表示模型对待纠错文本进行文本纠错,如bert,在bert训练分为预训练和微调两个步骤:预训练阶段,模型用无标签数据在不同的预训练任
务上进行训练,因此bert模型包含有大量常识性知识。预训练任务之一是掩码语言建模(masked language modeling),该任务是一种完型填空形式的语言建模任务,要求模型能根据上下文内容选择填入的词。具体地,随机用“[mask]”替换文本中的字,然后用bert模型重建文本、预测被替换的字;在微调中,模型首先基于预训练得到的参数初始化,然后使用来自下游具体任务的标签数据对所有参数进行微调。本技术主要使用bert模型进行微调,使其能够学习到特定领域的知识,如电信诈骗案件中的相关信息。
[0044]
参阅图2,图2是步骤s2一实施例的流程示意图。为了更准确的获取待纠错文本中存在的文本错误,需要对文本错误类型进行分类,如图2所示,包括以下步骤:
[0045]
s121、将待纠错文本输入预设错误检测模型,以获取待纠错文本中存在的不同类型的文本错误;
[0046]
其中,不同类型的文本错误包括:第一文本错误、第二文本错误以及第三文本错误。
[0047]
其中,第一文本错误可以是可提替换的文本错误,第二文本错误可以是可插入的文本错误,第三文本错误可以是可删除的文本错误。
[0048]
具体地,在获取待纠错文本之后,将待纠错文本输入至预设错误检测模型中,预设错误检测模型对待纠错文本进行错误检测,进而获取并定位待纠错文本中存在的不同类型的文本错误。
[0049]
例如,将待纠错文本“潜在潜在投标人须及时查看确认信息”处理为bert模型的输入形式,具体地,按字符粒度进行划分后,在头尾添加“[cls]”、“[sep]”以标记句子的开始和结尾,得到输入序列“[cls]、潜、在、潜、在、投、标、人、须、及、时、查、看、确、认、信、息、[sep]”。将该文本序列输入到文本错误检测模型,得到每个字符对应的标注,即“e、e、e、d、d、e、e、e、r、e、e、e、e、i、e、e、e、e”。
[0050]
在一些实施例中,预设错误检测模型可以是序列标注模型,将待纠错文本输入到预设错误检测模型后,在每个词组的位置输出相应的标签,用于定位待纠错文本中存在的文本错误,以及相应的编辑操作。是基于bert模型构建的序列标注模型,一般来说,错误都发生在语义不连贯的位置,因此bert模型可以高效地识别出来。该模型包含bert词向量编码层和错误检测层两个部分,其中bert词向量编码层可以根据输入文本的不同,生成动态的词向量表征,从而捕获上下文语义;错误检测层是一个多类别分类器,由多层全连接神经网络构成,将动态隐层词向量表征映射到标签空间中,从而进行类别判别,标签即“保持”、“替换”、“插入”、“删除”四种最基本的序列操作。
[0051]
s122、对不同类型的文本错误设置相应的第一标签,以及对正常文本设置第二标签;
[0052]
其中,第一标签包括:用于替换的第一错误标签、用于插入的第二错误标签以及用于删除的第三错误标签,第二标签包括正常标签;对第一文本错误对应的词组设置第一错误标签,对第二文本错误对应的词组设置第二错误标签,对第三文本错误对应的词组设置第三错误标签,以及对正常文本对应的词组设置正常标签。
[0053]
具体地,将待纠错文本输入至预设错误检测模型之后,对于获取待纠错文本中存在的不同类型的文本错误,依据其文本错误的类型,设置相应的第一标签。即有,对可替换的文本错误,设置用于替换的第一错误标签,对于可插入的文本错误,设置用于可插入的第
二错误标签,对于可删除的文本错误,设置用于可删除的第三错误标签;而对于没有文本错误的正常文本,则设置第二标签。
[0054]
例如,第一错误标签为r(replace,指替换对应位置的字),第二错误标签为i(insert,表示在该位置前需要插入若干字),第三错误标签为d(delete,表示删除对应位置的字),第二标签为e(equal,指对应位置的字不作改变),若待纠错文本为“潜在潜在投标人须及时查看确认信息”,已纠错文本为“潜在投标人需及时查看邮件确认信息”,即对于待纠错文本中存在可替换的文本错误,则设置第一错误标签r,对于待纠错文本中存在可插入的文本错误,则设置第二错误标签i,对于待纠错文本中存在可删除的文本错误,则设置第三错误标签d,对于正常文本设置第二标签e,则构建的文本标注序列如下:
[0055]
[cls]潜在潜在投标人须及时查看确认信息[sep]eeeddeeereeeeieeee
[0056]
其中,cls为文本起始位置,sep为文本终止位置。
[0057]
s123、基于第一错误标签、第二错误标签、第三错误标签和正常标签构建待纠错文本的标签序列。
[0058]
其中,在获取第一错误标签、第二错误标签、第三错误标签和正常标签之后,可以精确定位文本错误,为了更方便后续操作,将待纠错文本都采用标签构建标签序列,进行依据标签序列即可快速进行后续操作,同时提高纠错准确率。
[0059]
具体地,以待纠错文本中对应的第一错误标签、第二错误标签、第三错误标签和正常标签,进行拼接组合,构建待纠错文本的标签序列。例如,待纠错文本为“潜在潜在投标人须及时查看确认信息”构建的标签序列为“eeddeeereeeeieee”。
[0060]
本实施例中,通过对不同的文本错误设置不同的标签,进而构建待纠错文本的标签序列,可有效提高纠错效率,同时提高纠错准确率。
[0061]
在一些实施例中,第一标签基于预设的最小编辑距离生成;其中,最小编辑距离指从一个字符串到另一个字符串所需要的编辑次数,包括插入字符,删除字符及替换字符这三种操作。
[0062]
例如,最小编辑距离为待纠错文本通过编辑操作转换为已纠错文本所需的最小编辑次数,其中,最小编辑距离。
[0063]
其中,错误检测模型训练时,数据标签是根据最小编辑距离求取的。通过求取待纠错文本和纠错后文本之间的最小编辑距离、对应的编辑序列,根据编辑序列可以构建检测标签,从而以简单的形式解决所有可能存在的文本错误。
[0064]
例如:以待纠错文本“潜在潜在投标人须及时查看确认信息”和正确的纠错后文本“潜在投标人需及时查看邮件确认信息”为例,这两个文本间的最小编辑距离为5,对应的编辑操作序列为:第一步:删除“潜”,变换为“潜在在投标人须及时查看确认信息”;第二步:删除“在”,变换为“潜在投标人须及时查看确认信息”;第三步:替换“须”为“需”,变换为“潜在投标人需及时查看确认信息”;第四步:插入“邮”,变换为“潜在投标人需及时查看邮确认信息”;第五步:插入“件”,变换为“潜在投标人需及时查看邮件确认信息”,因此,可以构建待纠错文本相应的标签序列。
[0065]
其中,错误检测模型的损失用交叉熵计算,即:
[0066][0067]
其中,l是序列长度,yi是位置处的数据标注,是错误检测模型输出的位置处类别对应的概率,是由函数归一化后得到的:
[0068][0069]
其中,z
ij
是错误检测模型输出的位置i处类别j对应的打分,k是类别数。
[0070]
错误检测模型的输出用于构建错误纠正模型的输入,具体是根据输出编辑操作对输入文本进行编辑。
[0071]
参阅图3,图3是本技术中在构建待纠错文本的标签序列之后一实施例的流程示意图。为了直接依据待纠错文本进行第二次编辑,提高纠错准确率,本实施例直接对待纠错文本进行编辑,如图3所示,包括:
[0072]
s124、基于标签序列对待纠错文本进行编辑,以获取编辑文本;
[0073]
其中,正常标签所对应的词组还原为原始文本,第一错误标签所对应的词组、第二错误标签所对应的词组以及第三错误标签所对应的词组被编辑为第三标签;
[0074]
其中,编辑是对待纠错文本进行编辑,即将待纠错文本中存在错误的词组将相应编辑,或替换、或补充、或删除。
[0075]
具体地,在获取待纠错文本对应的标签序列之后,依据该标签序列对待纠错文本进行相应的文本编辑,对于第三错误标签所对应的词组进行删除,对于第一错误标签和第二错误标签所对应的词组编辑为第三标签,对于第二标签所对应的词组不作改变,进而可以得到一个包含第三标签和正常文本组合而成的编辑文本。
[0076]
s125、以还原的原始文本和第三标签确定候选目标文本。
[0077]
其中,正常标签对应的文本为原始文本,第三标签是在待纠错文本上的标签,基于原始文本和需要纠错之处的第三标签可以确定一个候选目标文本。
[0078]
例如:假设第三标签为mask,以待纠错文本“潜在潜在投标人须及时查看确认信息”和正确的纠错后文本“潜在投标人需及时查看邮件确认信息”为例,则候选目标文本为“潜在投标人[mask]及时查看[mask][mask]确认信息”。
[0079]
本实施例中,通过标签序列对待纠错文本进行编辑,以获取编辑文本,再将原始文本和第三标签进行拼接组合,确定候选目标文本,可以准确获取待纠错文本中哪些地方存在文本错误,并需要再次进行编辑,后续可直接依据候选目标文本进行第二次编辑,提高纠错准确率。
[0080]
参阅图4,图4是本技术中步骤s13一实施例的流程示意图。为了进一步提高纠错准确率,对各标签进行详细设定,如图4所示,包括:
[0081]
s131、对第一错误标签对应的第一错误文本进行文本替换。
[0082]
其中,第一错误标签为可进行文本替换对应的错误标签,因此,对第一错误标签对应的第一错误文本可以进行文本替换。
[0083]
s132、对第二错误标签对应的第二错误文本进行文本插入。
[0084]
其中,第二错误标签为可进行文本插入对应的错误标签,因此,对第二错误标签对
应的第二错误文本可以进行文本插入。
[0085]
s133、对第三错误标签对应的第三错误文本进行文本删除。
[0086]
其中,第三错误标签为可进行文本删除对应的错误标签,因此,对第三错误标签对应的第三错误文本可以进行文本删除。
[0087]
s134、基于对文本错误进行的文本替换、文本插入以及文本删除,确定已纠错文本。
[0088]
其中,分别依据第一错误标签、第二错误标签以及第三错误标签对待纠错文本进行文本替换、文本插入以及文本删除。
[0089]
具体地,依据第一错误标签进行文本替换,依据第二错误标签进行文本插入,以及依据第三错误标签进行文本删除之后,获取的文本即可确定为已纠错文本。
[0090]
在一实施例中,可以采用错误纠正模块进行纠错,错误纠正模型与bert预训练阶段的模型结构一致,包含bert词向量编码层和mlm预测纠正层,可以完全导入预训练权重进行训练,从而有效利用预训练知识,为产生候选词提供了大量有效的先验知识。具体计算过程是将编辑后的待纠错文本输入到模型,然后预测每个“[mask]”对应的输出,该输出是|v|维的向量,向量中每个值表示词表v中对应的词被选中的打分。值得注意的是,由于“插入”操作指定了固定数量的“[mask]”,当预测文本不足以填满所有“[mask]”标记的位置时,用“[empty]”标记填充,错误检测模型同样用交叉熵计算模型损失。
[0091]
模型推断过程与训练时的区别是,需要用文本错误检测模型预测相应的操作序列,根据推断的操作序列对文本进行编辑后再输入到文本纠正模型,预测每个“[mask]”处的字符,从而得到最终结果。
[0092]
本实施例中,依据待纠错文本中不同类型错误对应的不同错误标签,可以有效且准确地对待纠错文本进行文本纠错,有效地提高了纠错准确率。
[0093]
参阅图5,图5是本技术中步骤s134之后一实施例的流程示意图。在获取第三标签之后,为了提高纠错准确率,需要对纠错之处进行词组评分,并以评分最高的词组确定已纠错文本,如图5所示,包括:
[0094]
s135、基于预设词表对于候选目标文本中第三标签对应的词组进行评分,以获取每一处第三标签对应的预设词表评分最高的词组;
[0095]
其中,预设词表可以指比较常用的词表,如包含5000多中文字和其他字符,总计字符数为20000多的词表;预设词表主要用于对语义是否连贯进行评分,用于对纠错后的文本错误进行纠错处的词组进行评分,如预设词表为错误纠正模型进行上下文语义判断的词表。第三标签对应的词组是纠错处的词组,评分是指将词表中的词组与第三标签对应的词组进行上下文语义判断的评分,上下文语义越通顺,则评分越高。
[0096]
具体地,在获取候选目标文本之后,候选目标文本中包含有第三标签,通过预设词表以及上下文语义对第三标签对应的词组进行评分,并对评分结果进行排序,进而获取其中评分最高的词组。
[0097]
s136、基于评分最高的词组替换候选目标文本中对应的词组,以获取已纠错文本。
[0098]
其中,纠错文本需要采用选出来的词组进行替换,进而得到准确率更高的纠错结果。
[0099]
具体地,在获取评分最高的词组之后,将各第三标签对应的词组依据各处对应的
评分最高词组进行替换,进而可以得到已纠错文本。
[0100]
参阅图6,图6是本技术中文本纠错方法第二实施例的流程示意图。为了进一步提高纠错准确率,本实施例通过提高同音字、近音字以及形近字的比重,对词组评分进行调整,以提高纠错准确率,如图6所示,该文本纠错方法包括:
[0101]
s21、获取待纠错文本。
[0102]
s22、对待纠错文本进行错误检测,以获取待纠错文本中存在的不同类型的文本错误,并将不同类型的文本错误设置相应的第一标签;其中,第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误。
[0103]
s23、基于不同类型的第一标签对不同类型的文本错误进行纠错,以获取已纠错文本;其中,在纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。
[0104]
s24、基于预设混淆集对已纠错文本进行匹配评分;其中,预设混淆集包括字形混淆集和字音混淆集;
[0105]
其中,字形混淆集是指与需要进行纠错词组在字形上容易混淆的词组集合,字音混淆集是指与需要进行纠错词组在读音上容易混淆的词组集合。
[0106]
具体地,在获取已纠错文本之后,再通过预设混淆集对已纠错文本的纠错之处依据上下文语义进行匹配评分,以获取匹配评分结果。
[0107]
s25、对于符合预设混淆集匹配评分的词组增加调整权重。
[0108]
其中,调整权重是用于对符合要求的词组进行调整前面获取的词组评分,以使得符合要求的词组获得一个比较合适的词组评分。
[0109]
具体地,在获取匹配评分之后,依据其匹配评分结果进行排序,并与预设混淆集匹配评分进行比较,可以获得相应的符合预设混淆集匹配评分的词组,并根据实际情况增加相应的调整权重,以使得满足预设混淆集匹配评分要求的词组可以得到一个合适的词组评分。
[0110]
s26、以调整权重和预设惩罚系数对词组评分进行调整,进而获取调整后的最高词组评分对应的词组确定最终纠错文本。
[0111]
其中,为了更准确地对词组评分进行调整,还需要增加一个预设惩罚系数,并通过调整预设惩罚系数来调整这个调整权重。
[0112]
具体地,在获取调整权重之后,为了减少字形差异和字音差异所带来的误差,设定一个预设惩罚系数,通过预设惩罚系数对调整权重进行调整,进而获取调整后最高词组评分对应的词组,并确定最终的纠错文本。
[0113]
例如:由于纠正过程中,只能根据上下文语义判断“[mask]”位置处的字,也就是可以产生上下文通顺的结果,解决语义错误。但是输出的词组不一定是最佳的,如“潜在投标人[mask]及时查看”中的“[mask]”处填入“须”、“要”、“请”、“应”等字都是合理的,考虑到文本错别字一般是字音、字形相似导致,因此,从候选结果中输出字音字形相似的结果显然更合理。例如上述结果中“须”与原字符“需”在字音上是一致的,“须”即正确的结果。
[0114]
因此,每个字都定义了字音、字形混淆集,以在纠正过程中加入上述的字音、字形先验。具体的:1)将字转换为拼音,每个字将同音字(如“须”和“需”)、近音字(如“真”和“增”)添加到字音混淆集;2)将字拆解为笔顺,用最小编辑距离评估两个字之间的相似度,
将形近字(如“需”和“雷”)加入到字形混淆集;3)合并字音混淆集和字形混淆集。
[0115]
指定惩罚系数,0《k《1,在纠错模型输出的词组打分向量基础上进行修正,提高混淆集各字符的比重,具体计算如下:
[0116][0117]
其中,si′
为调整权重,k为惩罚系数,s为|v|维打分向量。
[0118]
以“需”为例,该字符被替换为“[mask]”后得到维打分向量,将其混淆集“须,墟,胥,訏,虚,吁,
…”
转换到词表v中,得到对应的索引集合,如“1152,2315,1254,5231,3215,
…”
,其中每个索引值表示字在词表中的位置,如“须”在词表中的位置是“1152”,通过调整惩罚系数来调整权重,如k=0.75,对于“须”的打分s
1152
,用上式提高其权重。处理完所有混淆集内字符对应打分后,从|v|维打分向量中选取打分最高的作为输出结果。
[0119]
本实施例中,为了进一步提高纠错准确率,通过混淆集提高同音字、近音字、以及形近字的比重,并设定预设惩罚系数和调整权重对词组评分进行调整,以使得各词组都有一个更准确的词组评分,进而依据最高词组评分确定最终纠错文本,提高了纠错准确率。
[0120]
在一实施例中,基于预设混淆集对已纠错文本进行匹配评分,包括:基于预设混淆集对所述已纠错文本纠错过的词组进行匹配评分;
[0121]
其中,基于所述字音混淆集获取字音类文本错误的匹配评分,基于所述字形混淆集获取字形类文本错误的匹配评分。
[0122]
在一实施例中,对于符合预设混淆集匹配评分的词组增加调整权重,包括:
[0123]
对于符合预设混淆集匹配评分的字音类和字形类对应文本错误的词组,增加调整权重,以提高字音类和字形类对应文本错误的匹配评分。
[0124]
请参阅图7,图7是本技术中文本纠错系统一实施例的结构示意图。如图所示,该文本纠错系统300包括:获取模块310、错误检测模块320以及纠错模块330。其中,获取模块310用于获取待纠错文本;错误检测模块320用于对待纠错文本进行错误检测,以获取待纠错文本中存在的不同类型的文本错误,并将不同类型的文本错误设置相应的第一标签;其中,第一标签包含不同类型的错误标签,以对应标记不同类型的文本错误;纠错模块330基于不同类型的第一标签对不同类型的文本错误进行纠错,以获取已纠错文本;其中,在纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的词组评分对应的候选目标文本确定为已纠错文本。
[0125]
请参阅图8,图8是本技术电子设备一实施例的结构示意图。该电子设备可以执行上述文本纠错方法中的步骤。该电子设备400包括:存储器410以及与存储器耦接的处理器420,存储器410存储有至少一计算机程序,至少一计算机程序被处理器加载并执行时,用于实现上述的文本纠错方法。
[0126]
请参阅图9,图9是本技术计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质500存储有至少一段程序510,至少一段程序510被处理器加载并执行时,用于实现上述的文本纠错方法。
[0127]
以上方案,一方面,通过对待纠错文本进行文本错误类型的分类并设置相应的标签,进而依据标签进行相应的纠错,可提高纠错准确率;另一方面,依据预设词表对纠错处的词组进行词组评分,并以词组评分最高对应的候选目标文本确定为已纠错文本,进一步
提高了纠错准确率。
[0128]
在本技术所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0129]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0130]
另外,在本技术各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0131]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:获取待纠错文本;对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签;其中,所述第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误;基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本;其中,在所述纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签,包括:将所述待纠错文本输入预设错误检测模型,以获取所述待纠错文本中存在的不同类型的文本错误;其中,不同类型的所述文本错误包括:第一文本错误、第二文本错误以及第三文本错误;对不同类型的所述文本错误设置相应的第一标签,以及对正常文本设置第二标签;其中,所述第一标签包括:用于替换的第一错误标签、用于插入的第二错误标签以及用于删除的第三错误标签,第二标签包括正常标签;对所述第一文本错误对应的词组设置所述第一错误标签,对所述第二文本错误对应的词组设置所述第二错误标签,对所述第三文本错误对应的词组设置所述第三错误标签,以及对所述正常文本对应的词组设置所述正常标签;基于所述第一错误标签、所述第二错误标签、所述第三错误标签和所述正常标签构建所述待纠错文本的标签序列。3.根据权利要求2所述的文本纠错方法,其特征在于,在构建所述待纠错文本的标签序列之后,还包括:基于所述标签序列对所述待纠错文本进行编辑,以获取编辑文本;其中,所述正常标签所对应的词组还原为原始文本,所述第一错误标签所对应的词组、所述第二错误标签所对应的词组以及所述第三错误标签所对应的词组被编辑为第三标签;以还原的所述原始文本和所述第三标签确定所述候选目标文本。4.根据权利要求3所述的文本纠错方法,其特征在于,所述基于预设词表对纠错处的词组进行词组评分,以最高评分对应的候选目标文本确定已纠错文本,包括:基于预设词表对于所述候选目标文本中所述第三标签对应的词组进行评分,以获取每一处所述第三标签对应的所述预设词表评分最高的词组;其中,所述预设词表为错误纠正模型进行上下文语义判断的词表;基于评分最高的所述词组替换所述候选目标文本中对应的词组,以获取已纠错文本。5.根据权利要求3所述的文本纠错方法,其特征在于,所述基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本,包括:对所述第一错误标签对应的第一错误文本进行文本替换;对所述第二错误标签对应的第二错误文本进行文本插入;
对所述第三错误标签对应的第三错误文本进行文本删除;基于对所述文本错误进行的所述文本替换、所述文本插入以及所述文本删除,确定已纠错文本。6.根据权利要求2所述的文本纠错方法,其特征在于,所述第一标签基于预设的最小编辑距离生成;其中所述最小编辑距离为待纠错文本通过编辑操作转换为已纠错文本所需的最小编辑次数。7.根据权利要求1所述的文本纠错方法,其特征在于,在确定已纠错文本之后,还包括:基于预设混淆集对所述已纠错文本进行匹配评分;其中,所述预设混淆集包括字形混淆集和字音混淆集;对于符合预设混淆集匹配评分的词组增加调整权重;以所述调整权重和预设惩罚系数对所述词组评分进行调整,进而获取调整后的最高所述词组评分对应的候选目标文本确定最终纠错文本。8.根据权利要求7所述的文本纠错方法,其特征在于,所述基于预设混淆集对所述已纠错文本进行匹配评分,包括:基于预设混淆集对所述已纠错文本纠错过的词组进行匹配评分;其中,基于所述字音混淆集获取字音类文本错误的匹配评分,基于所述字形混淆集获取字形类文本错误的匹配评分;所述对于符合预设混淆集匹配评分的词组增加调整权重,包括:对于符合预设混淆集匹配评分的字音类和字形类对应文本错误的词组,增加调整权重,以提高字音类和字形类对应文本错误的匹配评分。9.一种文本纠错系统,其特征在于,包括:获取模块,用于获取待纠错文本;错误检测模块,用于对所述待纠错文本进行错误检测,以获取所述待纠错文本中存在的不同类型的文本错误,并将不同类型的所述文本错误设置相应的第一标签;其中,所述第一标签包含不同类型的错误标签,以对应标记不同类型的所述文本错误;纠错模块,基于不同类型的所述第一标签对不同类型的所述文本错误进行纠错,以获取已纠错文本;其中,在所述纠错阶段,基于预设词表对纠错处的词组进行词组评分,并以最高的所述词组评分对应的候选目标文本确定为已纠错文本。10.一种电子设备,其特征在于,所述电子设备包括存储器以及与所述存储器耦接的处理器,所述存储器存储有至少一计算机程序,所述至少一计算机程序被所述处理器加载并执行时,用于实现如权利要求1-8任一项所述的文本纠错方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质有至少一段程序,所述至少一段程序被处理器加载并执行时,用于实现如权利要求1-8任一项所述的文本纠错方法。

技术总结
本申请公开了一种文本纠错方法、系统、电子设备及存储介质,其中,方法包括:获取待纠错文本;对待纠错文本进行错误检测,以获取待纠错文本中存在的不同类型的文本错误,并将不同类型的文本错误设置相应的第一标签;其中,第一标签包含不同类型的错误标签,以对应标记不同类型的文本错误;基于不同类型的第一标签对不同类型的文本错误进行纠错,以获取已纠错文本;其中,在纠错阶段,基于预设词表对纠错处的词组进行词组评分,以最高的词组评分对应的候选目标文本确定为已纠错文本。即本申请通过对文本错误分类并设定相应标签,进而进行文本纠错,即通过预设词表对纠错处词组进行词组评分确定已纠错文本,能够降低文本出现歧义的概率,提高文本纠错准确率。提高文本纠错准确率。提高文本纠错准确率。


技术研发人员:徐耀彬 刘伟棠 陈立力 周明伟 郑燕玲
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2023.02.28
技术公布日:2023/7/19
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐