一种公证文书自动纠错方法、装置、设备及存储介质与流程

未命名 10-18 阅读:101 评论:0


1.本技术涉及人工智能技术领域,具体涉及一种公证文书自动纠错方法、装置、设备及存储介质。


背景技术:

2.当前,人工智能深入各细分领域的发展势头迅猛,大模型时代到来,驱动着人工智能的应用,特别是在语言、文字处理方面,处理性能得到了显著提升。
3.在公证行业,由于行业特性,汇聚了大量跨行跨界的关联数据,其中不乏大量的高附加值的数据。如何利用这些数据为公证行业提升智能化水平,为公证领域数据价值的输出提供助力,成为公证智能化发展的必然趋势。然而,要想利用好这些数据,进而作为智能化开发的语料,首先需要确保这些数据的准确性和可靠性。否则,将错误百出的数据集作为训练样本,将会影响模型的训练效果。因此,为了确保语料的可靠性,前期最关键的一项任务,就是对历史数据进行纠错,从而得到准确的、可用于训练的语料。
4.常见的中文文本错误有输入法联想错误导致输入其他同音词,由此出现的搭配不当;有发音不准导致拼音输错;还有形近字等。面对海量数据,依靠人工手段进行语法、字、词纠错,显然耗费人力物力,甚至由于人们的认知不一致,导致纠错标准不统一,纠错效果不理想。而传统的纠错算法很难形成一套成熟的手段将这些错误一网打尽。


技术实现要素:

5.本技术的目的是提供一种公证文书自动纠错方法、装置、电子设备及存储介质,能够将公证文书中的文本错误快速准确地识别和纠正,确保公证文书的准确性和可靠性。
6.第一方面,本技术实施例提供了一种公证文书自动纠错方法,包括:
7.获取待纠错的目标公证文书;
8.将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;
9.其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。
10.在本技术的一些实施方式中,按照以下方式预先训练所述公证文书纠错模型:
11.获取公证文书的历史数据;
12.对所述公证文书的历史数据进行预处理,形成训练集和验证集;
13.随机从所述训练集中提取第一预设比例的数据进行错误文本生成,从而获得纠错对,每个纠错对中包括错误语句和纠正语句;
14.对样本扩充后的训练集进行向量转化;
15.构建seq2seq模型;
16.将向量转化后的训练集输入到seq2seq模型,进行模型训练,并使用验证集进行验证,得到训练好的公证文书纠错模型。
17.在本技术的一些实施方式中,所述对所述公证文书的历史数据进行预处理,形成训练集和验证集,包括:
18.对所述公证文书的历史数据进行数据清洗,得到公证语料库;
19.按照第二预设比例将所述公证语料库中的全部数据划分为训练集和验证集。
20.在本技术的一些实施方式中,所述对样本扩充后的训练集进行向量转化,包括:
21.对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典;
22.找出未登录词,将未登录词添加到分词字典;
23.对分词字典的每个字、词或子词建立混淆集;
24.对分词字典进行统一编码,并进行向量转化。
25.在本技术的一些实施方式中,所述对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典,包括:
26.采用分词器对样本语料进行分词,在遇到带有标记的命名实体时,跳过该命名实体,继续向后分词,建立分词字典。
27.在本技术的一些实施方式中,所述将向量转化后的训练集输入到seq2seq模型,进行模型训练之前,还包括:
28.在样本语料的每句话的开头插入句首符,在每句话的末尾插入句末符。
29.在本技术的一些实施方式中,所述随机从所述训练集中提取第一预设比例的数据进行错误文本生成,包括:
30.随机从所述训练集中提取第一预设比例的正确语句,作为纠正语句;
31.利用seq2seq模型的初始状态进行对所述纠正语句进行回译,得到对应的错误语句。
32.第二方面,本技术实施例提供了一种公证文书纠错装置,包括:
33.获取模块,用于获取待纠错的目标公证文书;
34.纠错模块,用于将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;
35.其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。
36.在本技术的一些实施方式中,所述装置还包括:模型训练模块,按照以下方式预先训练所述公证文书纠错模型:
37.获取公证文书的历史数据;
38.对所述公证文书的历史数据进行预处理,形成训练集和验证集;
39.随机从所述训练集中提取第一预设比例的数据进行错误文本生成,从而获得纠错对,每个纠错对中包括错误语句和纠正语句;
40.对样本扩充后的训练集进行向量转化;
41.构建seq2seq模型;
42.将向量转化后的训练集输入到seq2seq模型,进行模型训练,并使用验证集进行验证,得到训练好的公证文书纠错模型。
43.在本技术的一些实施方式中,所述模型训练模块,具体用于:
44.对所述公证文书的历史数据进行数据清洗,得到公证语料库;
45.按照第二预设比例将所述公证语料库中的全部数据划分为训练集和验证集。
46.在本技术的一些实施方式中,所述模型训练模块,具体用于:
47.对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典;
48.找出未登录词,将未登录词添加到分词字典中;
49.对分词字典的每个字、词或子词建立混淆集;
50.对分词字典进行统一编码,并进行向量转化。
51.在本技术的一些实施方式中,所述模型训练模块,具体用于:
52.采用分词器对样本语料进行分词,在遇到带有标记的命名实体时,跳过该命名实体,继续向后分词,建立分词字典。
53.在本技术的一些实施方式中,所述模型训练模块,具体用于:
54.在将向量转化后的训练集输入到seq2seq模型,进行模型训练之前,在样本语料的每句话的开头插入句首符,在每句话的末尾插入句末符。
55.在本技术的一些实施方式中,所述模型训练模块,具体用于:
56.随机从所述训练集中提取第一预设比例的正确语句,作为纠正语句;
57.利用seq2seq模型的初始状态进行对所述纠正语句进行回译,得到对应的错误语句。
58.第三方面,本技术提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现如第一方面所述的方法。
59.第四方面,本技术实提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如第一方面所述的方法。
60.相较于现有技术,本技术提供的公证文书自动纠错方法,通过获取待纠错的目标公证文书;将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。可见,本技术的公证文书纠错模型是基于seq2seq模型训练得到的,训练过程中通过制作纠错对对语料库进行扩充,从而使得语料库中能够涵盖公证领域所有文本错误范例,并对应正确文本,训练得到的公证文书纠错模型具有更好的纠错效果,能够将公证文书中的文本错误快速准确地识别和纠正,确保公证文书的准确性和可靠性,实现了对公证文书的智能化纠错,提高了公证文书的纠错效率。
附图说明
61.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
62.图1示出了本技术所提供的一种公证文书自动纠错方法的流程图;
63.图2示出了本技术所提供的一种公证文书纠错模型训练方法的流程图;
64.图3示出了本技术所提供的一种seq2seq模型的训练过程示意图;
65.图4示出了本技术所提供的一种公证文书校对结果的示意图;
66.图5示出了本技术所提供的一种公证文书纠错装置的示意图;
67.图6示出了本技术所提供的一种电子设备的示意图。
具体实施方式
68.下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
69.需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本技术所属领域技术人员所理解的通常意义。
70.另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
71.随着公证信息化的推进,公证行业也逐渐走向无纸化办公,所有工作流程从线下搬到线上执行,所有记录都留存于电脑或网络空间中,为此,为公证数据收集提供了良好的条件。然而,现状是:即使实现了线上办理公证,依然有很多工作需要手工录入,因此,手工录入的部分就可能存在录入错误,常见的录入错误包括:字词错误(因输入时手误,写成形似的错别字)、句法错误(例如,漏词,重复输入)、语义错误(字词混乱)等,本技术主要为了解决手工录入常见的错误。以信息化的公证管理系统为例,通常需要录入的包括人物身份、单位名称、特定物、数量、地址等专有名词;以及访谈笔录中的对话等普通文本语句。因此录入的时候既包含了命名实体录入错误,也包括普通的语法语义错误。因此可以通过结合命名实体识别方法及自然语言处理(natural language processing,nlp)纠错方法将公证领域的中文错误一起扫除。
72.请参考图1,图1是本技术实施例提供的一种公证文书自动纠错方法的流程图,包括以下步骤:
73.s101、获取待纠错的目标公证文书。
74.s102、将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息。
75.其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。
76.将目标公证文书输入到公证文书纠错模型中,经过公证文书纠错模型的检测,找出目标公证文书的文本录入错误内容。还可以调用公证领域知识图谱,通过实体对齐的方式对公证文书中的专有名词进行识别和纠错。经过标识后,展示纠正信息,并提供可选的解决方案,例如提供采纳按钮,则将纠正信息提供的字、词替换到原错误位置或者忽略按钮,则跳过这一则纠错提示。收集纠正结果实例,作为监督学习样本,用于下一次微调该公证文书纠错模型的训练集,对该公证文书纠错模型进行优化。
77.下面介绍如何预先训练得到公证文书纠错模型,具体可以按照以下方式预先训练公证文书纠错模型,如图2所示,包括步骤s201~s203:
78.s201、获取公证文书的历史数据。
79.实际应用中,可以收集线上公证领域公证文书的历史数据,还可以收集ocr文字识别技术提取的纸件公证档案信息。
80.s202、对公证文书的历史数据进行预处理,形成训练集和验证集。
81.具体的,s202可以实施为:对上述收集的公证文书的历史数据进行数据清洗,数据清洗包括:删除无效数据(包括符号)、数据去噪、去重等操作。基于数据清洗后的历史数据整理成公证语料库,从中提取预设比例的样本作为验证集,可选的,可以按照训练集和验证集=8:2的方式进行数据分配,将公证语料库中的全部数据划分为训练集和验证集。
82.s203、随机从所述训练集中提取第一预设比例的数据进行错误文本生成,从而获得纠错pair对,每个纠错pair中包括错误语句和纠正语句。例如“公正是项”和“公证事项”。第一预设比例可以根据实际需要进行设定,例如5%、10%或者15%,本技术不做限定。
83.具体的,步骤s203是为了进行错误样本制作及样本扩充:随机从训练集中提取一定比例的数据,进行错误文本生成,从而获得纠错pair;错误文本生成方法包括回译法、随机制造法。
84.回译法,是用编解码模型对提取的数据进行翻译后再翻译,翻译顺序是将中文翻译成英文,再将英文翻译回中文,并将原始中文与翻译后的中文进行文本对齐,从而生成纠错pair。可选的方法是,直接利用seq2seq模型的初始状态进行回译。由于对于原始seq2seq模型而言,回译的精准度不高,因此容易在回译过程中出错,因此可以将回译后的中文文本作为输入,原始文本作为监督样本。使用这种方法制造训练样本,首先需要对原始文本进行人工审核,确保符合公证领域语法规范,并且不存在中文通用语法和文字错误。
85.随机制造法:由于公证文书中常见的错误通常情况下分为以下几种:字词错误(因输入时手误,写成形似的错别字)、句法错误(例如,漏词,重复输入)、语义错误(字词混乱),为了涵盖该垂直领域的文本错误案例,增强模型的学习水平,还需要通过人工方法补齐所有可能涉及到的错误样本及纠错结果,生成更加完整的纠错pair;具体的,利用人工方法随机插词、漏词、重复词、音形词替换等方法,对提取的数据进行修改,从而生成错误文本;将错误文本与原始文本对齐,从而生成纠错pair。
86.以上步骤s201-s203是对样本数据进行数据加工的过程。
87.s204、对样本扩充后的训练集进行向量转化。
88.上述步骤s204中对样本扩充后的训练集进行向量转化,具体包括:
89.s301、对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典。
90.具体的,可以采用分词器对样本语料进行分词,建立分词字典。可以按照字级分词,也可以按照词级分词,或子词级分词。
91.可选的,可以采用结巴分词器进行分词,在遇到带有标记的命名实体时,跳过该命名实体,继续向后分词。
92.s302、找出未登录词,将未登录词添加到分词字典中;
93.从样本语料中找出所有未登录词,然后将所有未登录词添加到分词字典中,以补全分词字典。
94.s303、对分词字典的每个字、词或子词建立混淆集。
95.对分词字典的每个字、词或子词建立混淆集。
96.混淆集,例如:“说:输税噶皖硕工受书院说蜕锐属叔所蔬话;弟:单低底帝地弗第韦;让:然止比嚷试样......”。
97.可选的,可以调用开源数据集中整理好的字的混淆集。
98.s304、对分词字典进行统一编码,并进行向量转化。向量转化可以将句子转化为向量表示,可以将句子中的每个字、词或子词映射到一个向量空间中的点,从而得到整个句子的向量表示。
99.可选的,可以采用独热编码的方式进行向量转化,该编码方式可以实现词向量降维,可以减少后续模型训练的计算量,提高训练效率。
100.可选的,还可以使用word2vec、fasttext等词向量模型进行向量转化,本技术不做限定。
101.s205、构建seq2seq模型;实例化seq2seq模型。
102.具体的,seq2seq是一种序列到序列的模型,模型结构是encoder-decoder;encoder模型和decoder模型都采用rnn架构作为基础模型,同时采用attention机制。由于循环神经网络rnn的输入控制在10~20个词为效果较佳,因此构建rnn网络时,首先,统计公证文书中一句话最大长度,并以字级分词为基础,计算一次性输入的最大token数;以最大token数为基础设计网络层数。一种可能的方式是:基于经验法则,将总层数控制在20~30层之间。可选的,rnn网络可以选用递归rnn网络,并采用tanh激活函数进行激活。
103.s206、将向量转化后的训练集输入到seq2seq模型,进行模型训练,并使用验证集进行验证,得到训练好的公证文书纠错模型。
104.模型训练过程:
105.将公证文书的训练向量集分批次输入到模型中进行训练。具体的,在样本语料的每句话的开头插入句首符(例如可以是《bos》),在每句话的末尾插入句末符(例如可以是《eos》),通过预先识别《bos》和《eos》标识符,以《bos》为起始,《eos》为终止,每次至少将一句完整的句子作为一次输入。
106.具体的,如图3所示,首先encoder将每个纠错pair中的错误语句作为input的输入;将最后一层隐藏层输出的向量w作为decoder的输入并且将encoder的上下文向量c作为另一个输入分别输入到decoder的每一层神经网络;将每个纠错pair的纠正语句作为decoder的目标输出;对decoder进行模型训练。
107.一种可能的实施方式是:将上下文向量c作为decoder每一层神经网络的输入,直接生成错误的输出结果。这里encoder-decoder的模型结构可以理解成翻译器,将中文翻译成中文,由于将错误语句在encoder端输入,因此获得的上下文向量c必然不是准确的,从而使得decoder端基于该上下文向量c输出的结果与纠错pair原始文本不相同。
108.将decoder的output与纠错pair原始文本进行比较,从而定位出疑似错误位置。将错误位置的字词进行召回。将召回的字词通过混淆集中的其他字、词进行替换,并计算每次替换后句子的困惑度,当困惑度达到一定阈值,则认为已完成纠正,从而实现公证文书纠错。
109.具体的,计算纠错后句子的困惑度,通过句子困惑度的评价值判断替换的词是否更流畅,即符合中文文本习惯。困惑度(perplexity,pp)是评价一个语言模型好坏的常用度量之一。由于句子长短不一,采用困惑度来评价语言模型效果,对于给定的由m个词构成的
句子s=w
1 w2…
wm,其困惑度的计算过程如下公式(1),困惑度越低,即句子的概率越高,说明该句子的词的序列越流畅,越符合正常的书写规范。
[0110][0111]
另一种可能的方式是:将上下文向量c分别作为decoder每一层神经元的输入;此外,将纠错pair的原始文本x0作为decoder的另一个输入,并且将decoder前一层神经元的输出作为下一个神经元的输入,也即:对于decoder,输入包括上下文向量c、前一个神经元的输出y0;以及作为监督样本的原始文本x0,从而最终输出一个序列output。再通过计算output的句子困惑度,判断模型纠错效果。
[0112]
模型生成:调整模型参数,记录每次模型训练的结果及对应的参数,以生成候选纠错模型。
[0113]
模型验证过程:
[0114]
p1:验证样本处理:从验证集中获取验证样本(确保样本有错误);
[0115]
p2:将验证样本输入候选纠错模型,获得纠错后的语句;
[0116]
p3:将纠错后的语句与目标语句进行比较,从而为纠错结果打分。
[0117]
p4:将得分最高的纠错模型作为公证文书纠错模型。
[0118]
通过上述训练过程和验证过程可以得到效果较好的公证文书纠错模型,将公证文书输入到公证文书纠错模型中,可以找出公证文书的文本录入错误。如图4所示,可以显示校对结果,图4中公证文书共有两处错误,“身份证号吗”应该为“身份证号码”,“中画”应该为“中华”,本技术的公证文书纠错模型找出了其中的全部错误,并给出了纠正建议,可以采纳、忽略或者自定义。
[0119]
本技术结合公证领域数据特点提出了上述公证文书自动纠错方法,可以提高公证领域语料质量,为训练出理想的任务模型夯实基础。
[0120]
本技术实施例提供的公证文书自动纠错方法具有以下有益效果:
[0121]
本技术对语料库进行扩充,制作纠错pair,从而使得语料库中能够涵盖公证领域所有文本错误范例,并对应正确文本,即利用垂直领域内的监督学习算法,让公证领域纠错模型具有更好的纠错效果;
[0122]
充分利用seq2seq模型初始状态制作纠错pair,并通过调整模型参数的方式复用该模型进行纠错训练,从而减少模型选用和维护复杂度;
[0123]
由于通常情况下,中文纠错不容易识别专有名词的错误,因此,对于专有名词,本技术采用实体识别的方式对待纠错语句利用实体字典或知识图谱的方式进行预识别及预替换,从而确保专有名词的准确性。
[0124]
在上述的实施例中,提供了一种公证文书自动纠错方法,与之相对应的,本技术还提供一种公证文书纠错装置10。本技术实施例提供的公证文书纠错装置可以实施上述公证文书自动纠错方法,该公证文书纠错装置可以通过软件、硬件或软硬结合的方式来实现。例如,该公证文书纠错装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图5所示,包括:
[0125]
获取模块101,用于获取待纠错的目标公证文书;
[0126]
纠错模块102,用于将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;
[0127]
其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。
[0128]
在本技术的一些实施方式中,所述装置还包括:模型训练模块,按照以下方式预先训练所述公证文书纠错模型:
[0129]
获取公证文书的历史数据;
[0130]
对所述公证文书的历史数据进行预处理,形成训练集和验证集;
[0131]
随机从所述训练集中提取第一预设比例的数据进行错误文本生成,从而获得纠错对,每个纠错对中包括错误语句和纠正语句;
[0132]
对样本扩充后的训练集进行向量转化;
[0133]
构建seq2seq模型;
[0134]
将向量转化后的训练集输入到seq2seq模型,进行模型训练,并使用验证集进行验证,得到训练好的公证文书纠错模型。
[0135]
在本技术的一些实施方式中,所述模型训练模块,具体用于:
[0136]
对所述公证文书的历史数据进行数据清洗,得到公证语料库;
[0137]
按照第二预设比例将所述公证语料库中的全部数据划分为训练集和验证集。
[0138]
在本技术的一些实施方式中,所述模型训练模块,具体用于:
[0139]
对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典;
[0140]
找出未登录词,将未登录词添加到分词字典中;
[0141]
对分词字典的每个字、词或子词建立混淆;
[0142]
对分词字典进行统一编码,并进行向量转化。
[0143]
在本技术的一些实施方式中,所述模型训练模块,具体用于:
[0144]
采用分词器对样本语料进行分词,在遇到带有标记的命名实体时,跳过该命名实体,继续向后分词,建立分词字典。
[0145]
在本技术的一些实施方式中,所述模型训练模块,具体用于:
[0146]
在将向量转化后的训练集输入到seq2seq模型,进行模型训练之前,在样本语料的每句话的开头插入句首符,在每句话的末尾插入句末符。
[0147]
在本技术的一些实施方式中,所述模型训练模块,具体用于:
[0148]
随机从所述训练集中提取第一预设比例的正确语句,作为纠正语句;
[0149]
利用seq2seq模型的初始状态进行对所述纠正语句进行回译,得到对应的错误语句。
[0150]
本技术实施例提供的公证文书纠错装置与本技术实施例提供的公证文书自动纠错方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0151]
本技术实施方式还提供一种与前述实施方式所提供的方法对应的电子设备,所述电子设备可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述公证文书自动纠错方法。
[0152]
请参考图6,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。如图6所示,所述电子设备20包括:处理器200,存储器201,总线202和通信接口203,所述处理
器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本技术前述任一实施方式所提供的公证文书自动纠错方法。
[0153]
其中,存储器201可能包含高速随机存取存储器(ram:randomaccess memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
[0154]
总线202可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本技术实施例任一实施方式揭示的所述公证文书自动纠错方法可以应用于处理器200中,或者由处理器200实现。
[0155]
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
[0156]
本技术实施例提供的电子设备与本技术实施例提供的公证文书自动纠错方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
[0157]
本技术实施方式还提供一种与前述实施方式所提供的公证文书自动纠错方法对应的计算机可读存储介质,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的公证文书自动纠错方法。
[0158]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0159]
本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的公证文书自动纠错方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
[0160]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术
方案的范围,其均应涵盖在本技术的权利要求和说明书的范围当中。

技术特征:
1.一种公证文书自动纠错方法,其特征在于,包括:获取待纠错的目标公证文书;将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。2.根据权利要求1所述的方法,其特征在于,按照以下方式预先训练所述公证文书纠错模型:获取公证文书的历史数据;对所述公证文书的历史数据进行预处理,形成训练集和验证集;随机从所述训练集中提取第一预设比例的数据进行错误文本生成,从而获得纠错对,每个纠错对中包括错误语句和纠正语句;对样本扩充后的训练集进行向量转化;构建seq2seq模型;将向量转化后的训练集输入到seq2seq模型,进行模型训练,并使用验证集进行验证,得到训练好的公证文书纠错模型。3.根据权利要求2所述的方法,其特征在于,所述对所述公证文书的历史数据进行预处理,形成训练集和验证集,包括:对所述公证文书的历史数据进行数据清洗,得到公证语料库;按照第二预设比例将所述公证语料库中的全部数据划分为训练集和验证集。4.根据权利要求2所述的方法,其特征在于,所述对样本扩充后的训练集进行向量转化,包括:对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典;找出未登录词,将未登录词添加到分词字典中;对分词字典的每个字、词或子词建立混淆集;对分词字典进行统一编码,并进行向量转化。5.根据权利要求4所述的方法,其特征在于,所述对样本扩充后的训练集中的每个样本语料进行分词,建立分词字典,包括:采用分词器对样本语料进行分词,在遇到带有标记的命名实体时,跳过该命名实体,继续向后分词,建立分词字典。6.根据权利要求2所述的方法,其特征在于,所述将向量转化后的训练集输入到seq2seq模型,进行模型训练之前,还包括:在样本语料的每句话的开头插入句首符,在每句话的末尾插入句末符。7.根据权利要求2所述的方法,其特征在于,所述随机从所述训练集中提取第一预设比例的数据进行错误文本生成,包括:随机从所述训练集中提取第一预设比例的正确语句,作为纠正语句;利用seq2seq模型的初始状态进行对所述纠正语句进行回译,得到对应的错误语句。8.一种公证文书纠错装置,其特征在于,包括:获取模块,用于获取待纠错的目标公证文书;
纠错模块,用于将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时以实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7任一项所述的方法。

技术总结
本申请提供一种公证文书自动纠错方法、装置、设备及存储介质,涉及人工智能技术领域。其中方法包括:获取待纠错的目标公证文书;将所述目标公证文书输入预先训练的公证文书纠错模型,得到所述目标公证文书中存在的文本录入错误以及对应的纠正信息;其中,所述公证文书纠错模型是基于公证文书的历史数据对seq2seq模型进行训练得到的。可见,本申请的公证文书纠错模型是基于seq2seq模型训练得到的,能够将公证文书中的文本错误快速准确地识别和纠正,确保公证文书的准确性和可靠性,实现了对公证文书的智能化纠错,提高了公证文书的纠错效率。效率。效率。


技术研发人员:陈艳 许静
受保护的技术使用者:法信云(成都)科技有限公司
技术研发日:2023.07.05
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐