一种文本差异率确定方法、装置及电子设备与流程
未命名
07-23
阅读:80
评论:0
1.本发明涉及数据处理技术领域,尤其涉及一种文本差异率确定方法、装置及电子设备。
背景技术:
2.如今,许多企业都需要处理大量的文件,如合同,说明书,标书等等,这类文件在修订不同版本的过程中相似度较高,只有少部分差异,如果评审版和签订版的不一致,可能给企业带来合作上的纠纷甚至不可估量的损失。
3.目前,不同版本文件的审核校验靠工作人员逐页翻阅、查找比对,手工标识差异。另外,目前产生了一些文件对比工具,可以将标准格式文件的文字进行提取,进而使用基于公共序列的方法或者使用语义识别模型进行对比,确定差异内容。
4.然而,上述方法人工审核的方式存在工作量大,效率低,易出错的问题,而采用文件对比工具的方式,通常仅是考虑存在文字字段不同的局部差异,或者仅是基于语义识别模型确定文件之间的全局差异性,无法准确的估量不同版本文件之间的差异。
技术实现要素:
5.本发明提供了一种文本差异率确定方法、装置及电子设备,提高了确定文件差异率的准确性,提升了确定文件差异的效率,减少了出错频率。
6.第一方面,本发明提供了一种文本差异率确定方法,该方法包括:
7.对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容;其中,两个所述待比对文件所对应的实质内容相同,文字有所差异,所述文本内容包括文本段落信息;
8.基于文件差异分析算法对所述第一文本内容和第二文本内容进行处理,确定文本匹配结果;其中,所述文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;
9.基于所述第一文本内容中的文本段落信息,将所述文本匹配结果划分为至少一个子文本序列,并确定与所述至少一个子文本序列相对应的至少一个待验证段落组;
10.基于所述至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与所述目标相似段落组相对应的字符总数;
11.基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、所述目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个所述待比对文件之间的差异率。
12.第二方面,本发明提供了一种文本差异率确定装置,该装置包括:
13.文本内容确定模块,用于对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容;其中,两个所述待比对文件所对应的实质内容相同,文字有所差异,所述文本内容包括文本段落信息;
14.匹配结果确定模块,用于基于文件差异分析算法对所述第一文本内容和第二文本
内容进行处理,确定文本匹配结果;其中,所述文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;
15.段落组确定模块,用于基于所述第一文本内容中的文本段落信息,将所述文本匹配结果划分为至少一个子文本序列,并确定与所述至少一个子文本序列相对应的至少一个待验证段落组;
16.相似段落确定模块,用于基于所述至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与所述目标相似段落组相对应的字符总数;
17.差异率确定模块,用于基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、所述目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个所述待比对文件之间的差异率。
18.第三方面,本发明提供了一种数据处理电子设备,包括:
19.至少一个处理器;以及
20.与至少一个处理器通信连接的存储器;其中,
21.存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的文本差异率确定方法。
22.第四方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的文本差异率确定方法。
23.第五方面,本发明提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本发明任一实施例的文本差异率确定方法。
24.本发明实施例提供的技术方案,通过对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容,其中,两个待比对文件所对应的实质内容相同,文字有所差异,文本内容包括文本段落信息;进而基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果,其中,文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;进一步的,基于第一文本内容中的文本段落信息,将文本匹配结果划分为至少一个子文本序列,并确定与至少一个子文本序列相对应的至少一个待验证段落组,随后基于至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与目标相似段落组相对应的字符总数,从而基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个待比对文件之间的差异率。本发明提供的技术方案,解决了文件审核过程中工作量大,效率低,易出错的问题,提高了确定文件差异率的准确性,提升了确定文件差异的效率,减少了出错频率。
25.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
26.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
27.图1为本发明实施例一提供的一种文本差异率确定方法的流程图;
28.图2为本发明实施例二提供的一种文本差异率确定方法的流程图;
29.图3为本发明实施例三提供的一种文本差异率确定方法的流程图;
30.图4为本发明实施例四提供的一种文本差异率确定装置结构示意图;
31.图5为本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
32.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
33.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一预设条件”、“第二预设条件”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.在介绍本技术方案之前,可以先对应用场景进行示例性说明。现今,许多企业都需要处理大量的文件,如合同,说明书,标书等等,这类文件在不同版本的修订过程中相似度较高,只有少部分差异,如果修订版和签订版的不一致,可能给企业带来合作上的纠纷甚至不可估量的损失,因此需要确定不同版本文件之间的差异性。目前,不同版本文件的审核校验主要靠工作人员逐页翻阅、查找比对,手工标识差异,上述方式存在工作量大,效率低,易出错的问题。另外,目前还有一些文件对比工具,可以将标准格式文件的文字进行提取,进而使用基于公共序列的方法或者使用语义识别模型进行对比,确定文件的差异性,这种自动化确定文件差异的方式通常仅是考虑存在文字字段不同的局部差异,或者仅是基于语义识别模型确定文件之间的全局差异性,无法准确的估量不同版本文件之间的差异,基于此,本发明实施例提供的技术方案可以兼顾字段的局部差异性以及文件的全局差异性,有效提高确定文本差异率的准确性。
35.实施例一
36.图1为本发明实施例一提供的一种文本差异率确定方法的流程图,本实施例可适用于文件的差异进行评估的情形。该方法可以由文本差异率确定装置来执行,该装置可以采用硬件和/或软件的形式实现,该装置可以配置在计算机设备上,该计算机设备可以是笔记本、台式计算机以及智能平板等。如图1所示,该方法包括:
37.s110、对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容。
38.其中,两个待比对文件包括第一文件和第二文件。两个待比对文件所对应的实质内容相同,文字有所差异。示例性的,对于一份合同而言,最初拟定的合同初稿为第一文件,
随后根据实际情况对第一文件的部分内容进行了改动、或者增加、或者少除掉部分内容,此时确定的文件为第二文件。
39.其中,第一文本内容为与第一文件相对应的文字内容、段落信息、顺序信息、版本修订信息;第二文本内容为与第二文件相对应的文字内容、段落信息、顺序信息、版本修订信息。示例性的,第一文件中共有3个自然段,每段有25个字,则第一文本内容包括由75个字构成的字符序列,3个段落标记,每个文字所对应的前后顺序信息,以及批注文字。
40.在上述实施例的基础上,确定第一文本内容和第二文本内容,具体包括:确定两个待比对文件所属的文件类型;根据每个待比对文件以及相应的文件类型进行解析处理,确定与各待比对文件所对应的文本内容。
41.在本实施例中,待对比文件的类型可以包括多种,例如,待对比文件包括但不限于word文档、pdf文档、扫描文档图片等。基于此,首先确定两个待对比文件的文件类型,进而分别采用与文件类型相对应的解析器对文件进行解析处理,从而得到第一文本内容和第二文本内容。
42.示例性的,两个待比对文件包括第一文件和第二文件,第一文件为word文档,可以采用与word文档相对应的第一解析器对第一文件进行解析处理,得到第一文本内容;第二文件为pdf文档,可以采用与pdf文档相对应的第二解析器对第二文件进行解析处理,得到第二文本内容。
43.s120、基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果。
44.其中,文件差异分析算法为预先定义的运算方法。文件差异分析算对通过对第一文本内容和第二文本内容进行运算处理,可以得到文本匹配结果。文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列。
45.具体的,在确定第一文本内容与第二文本内容的基础上,将第一文本内容中的文字内容作为第一序列,将第二文本内容中的文字内容作为第二序列将第一序列和第二序列输入至文件差异分析算法中,经过运算可以确定文本匹配结果。
46.示例性的,若第一文本内容中的文字内容为dabbcd,则第一序列为s1=(d,a,b,b,c,d);第一文本内容中的文字内容为ddbbca,则第二序列为s2=(d,d,b,b,c,a),s1=(d,a,b,b,c,d)和s2=(d,d,b,b,c,a)经过文件差异分析算法进行运算后得到的文本匹配结果为:
47.s=('=,d','-,a','+,d','=,b','=,b','=,c','-,d','+,a')
48.其中,
‘
=’表示两个文本内容的公共字符,
‘‑’
表示第一文本内容独有字符,
‘
+’表示第二文本内容独有字符。
49.s130、基于第一文本内容中的文本段落信息,将文本匹配结果划分为至少一个子文本序列,并确定与至少一个子文本序列相对应的至少一个待验证段落组。
50.其中,将本文匹配结果所对应的长序列划分为多个序列,得到的每个小的序列为子文本序列。待验证段落组为根据子文本序列中的字符重构的两个段落。
51.具体的,第一文本内容中包括与文本内容相对应的段落标记,以段落标记相对应的字符为界可以将文本匹配结果划分为多个子文本序列。例如,第一文本内容中包括3个段落,有2个段落标记,第一个段落标记与第一段的最后一个字符对应,第二个段落标记与第
二段的最后一个字符对应,基于此,只要在文本匹配结果所对应的长序列中找到与段落标记所对应的字符,便可以将一个长序列划分为3个子序列。
52.在上述实施例的基础上,确定与至少一个子文本序列相对应的至少一个待验证段落组,包括:基于子文本序列中的公共字符以及子文本序列中的第一文本内容独有字符,确定第一文本段落;基于子文本序列中的公共字符以及子文本序列中的第二文本内容独有字符,确定第二文本段落;将第一文本段落和第二文本段落作为与至少一个子文本序列相对应的待验证段落组。
53.在本实施例中,以一个子序列为例进行说明,子序列中包含公共字符、第一文本内容独有字符以及第二文本内容独有字符,对子文本序列中的公共字符以及子文本序列中的第一文本内容独有字符按照顺序进行重构,可以确定第一文本段落,对子文本序列中的公共字符以及子文本序列中的第二文本内容独有字符按照顺序进行重构,可以确定第二文本段落,第一文本段落与第二文本段落即为与子文本序列相对应的待验证段落组,在实际应用中,第一文本内容包括几个段落,最终便确定几个待验证段落组。
54.s140、基于至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与目标相似段落组相对应的字符总数。
55.其中,相似判断模型为预先训练好的相似度值确定模型,例如,相似判断模型可以是语义模型,或是大型预料模型。目标相似段落组为相似度值大于预设阈值的待验证段落组。
56.具体的,将待验证段落组所对应的第一文本段落以及第二文本段落作为输入,输入至相似判断模型,首先将第一文本段落以及第二文本段落转化为特定长度的数字向量x=(x1,x2,
…
,xk)和y=(y1,y2,
…
,yk),然后采用余弦距离函数计算的两个数字向量的相似度从而相似判断模型可以输出第一文本段落以及第二文本段落的相似度值,在实际应用中,可以分别计算每个待验证段落组所对应的相似度值,将相似度值大于预设阈值的待验证段落组作为目标相似段落组,进而确定与目标相段落组所对应的子文本序列,并确定子文本序列所包含的字符总数。
57.s150、基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个待比对文件之间的差异率。
58.在本实施例中,预先设置的差异率函数为:
[0059][0060]
其中,α为可选参数,c
l
为第一文本内容独有字符数,cr为第二文本内容独有字符数,ca为公共字符数,cs为目标相似段落组相对应的字符总数。
[0061]
在本实施例中,差异率函数的第一项可以表征两个待对比文件文本之间的局部差异性。而对于差异率函数的第二项其表明只要目标相似段
落组的相似度值大于阈值,则可以表明整个段落的内容是没有差别的,不考虑个别文本存在差异,可以表征文件的全局差异性。
[0062]
在本实施例中,文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列,基于此在确定文本匹配结果的基础上,便可以确定公共字符数、第一文本内容独有字符数、第二文本内容独有字符数,将公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数,分别带入差异率函数便可以确定两个待比对文件之间的差异率。
[0063]
本发明实施例提供的技术方案,通过对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容,其中,两个待比对文件所对应的实质内容相同,文字有所差异,文本内容包括文本段落信息;进而基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果,其中,文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;进一步的,基于第一文本内容中的文本段落信息,将文本匹配结果划分为至少一个子文本序列,并确定与至少一个子文本序列相对应的至少一个待验证段落组,随后基于至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与目标相似段落组相对应的字符总数,从而基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个待比对文件之间的差异率。本发明提供的技术方案,解决了文件审核过程中工作量大,效率低,易出错的问题,提高了确定文件差异率的准确性,提升了确定文件差异的效率,减少了出错频率。
[0064]
在上述是实施例的基础上,还包括:基于至少一个预设关键词汇、第一文本内容以及第二文本内容,确定与预设关键词汇所对应的第一重点字段以及第二重点字段;对第一重点字段以及第二重点字段进行审验,确定重点差异字段,并反馈。
[0065]
在本实施例中,可以预先定义关键词汇,这些关键词汇的邻近位置往往是文件的一些重要信息,例如,预设关键词汇可以是:金额、款项、负责人、法人等。在得到第一文本内容以及第二文本内容的基础上,通过检索的方式查找与预设关键词汇所对应的第一重点字段以及第二重点字段,进而分别对第一重点字段以及第二重点字段进行重点审验,以确定重点差异字段,如果存在重点差异字段,可以及时反馈至工作人员所对应的终端设备。如此一来,对于重点信息进行审验,可以保证重点信息的准确性。
[0066]
示例性的,预设关键词汇为负责人,则将“负责人”作为检索词,分别在第一文本内容以及第二文本内容中进行检索,并确定与预设关键词汇相关联的文本内容,对第一文本内容进行检索得到的结果为:“负责人王工”,对第二文本内容进行检索得到的结果为:“负责人李工”,则第一重点字段为“负责人王工”,第二重点字段为“负责人李工”,通过进一步审验可以确定重点差异字段为“王”及“李”,对这一差异结果进行反馈。
[0067]
实施例二
[0068]
图2为本发明实施例二提供的一种文本差异率确定方法的流程图,本发明实施例在上述实施例的基础上,对本发明实施例s130步骤进行进一步细化,本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。如图2所示,该方法包括:
[0069]
s210、对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容。
[0070]
s220、基于最长公共字符将第一文本内容和第二文本内容划分为至少两个子文本
内容。
[0071]
其中,最长公共字符为由第一文内容与第二文本内容所对应的共有字符的个数最多的字符构成的字符段。
[0072]
示例性的,第一文本内容为adabbcd,第二文本内容为cdbbca,则最长公共字符为bbc,bbc将adabbcd划分为ada和d,bbc将cdbbca划分为cd和a,则ada和d为与第一文本内容相对应的子文本内容,cd和a与第二文本内容相对应的子文本内容。
[0073]
s230、基于两个子文本内容所对应的子最长公共字符将子文本内容再次划分为至少两个子文本内容。
[0074]
在上述示例性的基础上,子文本内容ada与子文本内容cd的子最长公共字符为d,d将子文本内容ada划分为a和a,d将子文本内容cd划分为c和“空格”,其中,用空格表示空字符。
[0075]
s240、重复执行基于子文本内容中的最长公共字符对第一文本内容与第二文本内容进行划分的步骤,直至第一文本内容与第二文本内容无公共字符为止,得到所有公共字符。
[0076]
在上述示例性的基础上,最终确定的公共字符为d、b、b、c。
[0077]
s250、基于第一文本内容以及公共字符,确定第一文本内容独有字符。基于第二文本内容以及公共字符,确定第二文本内容独有字符。
[0078]
在本实施例中,从第一文本内容中的文字内容中剔除公共字符d、b、b、c,最终得到的字符为第一文本内容独有字符a、a、d;从第二文本内容中的文字内容中剔除公共字符d、b、b、c,最终得到的字符为第二文本内容独有字符c和a。需要特别说明的是,在对两个待比对文件分别解析处理的过程中,得到的第一文本内容和第二文本内容中包括各文字对应的前后顺序信息,所以虽然第一文本内容独有字符和第二文本内容独有字符均有a,但是a所对应的位置信息是存才极大差异的。
[0079]
s260、将公共字符、第一文本内容独有字符以及第二文本内容独有字符进行顺序拼接,确定文本匹配结果。
[0080]
在本实施例中,在确定公共字符、第一文本内容独有字符以及第二文本内容独有字符的基础上,根据各字符在原始文件中所对应的顺序信息,对公共字符、第一文本内容独有字符以及第二文本内容独有字符进行顺序拼接,同时,对于公共字符、第一文本内容独有字符以及第二文本内容独有字符分别为其定义用不同的标识进行区分,从而得到文本匹配结果。
[0081]
在上述示例性的基础上,文本匹配结果可以表示为:
[0082]
s=('-,a','+,c”=,d','-,a','=,b','=,b','=,c','-,d','+,a')
[0083]
其中,
‘
=’表示两个文本内容的公共字符,
‘‑’
表示第一文本内容独有字符,
‘
+’表示第二文本内容独有字符。
‘
=’、
‘‑’
、
‘
+’为不同的标识,用于区分公共字符、第一文本内容独有字符以及第二文本内容独有字符。
[0084]
s270、基于第一文本内容中的文本段落信息,将文本匹配结果划分为至少一个子文本序列,并确定与至少一个子文本序列相对应的至少一个待验证段落组。
[0085]
s280、基于至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与目标相似段落组相对应的字符总数。
[0086]
s290、基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个待比对文件之间的差异率。
[0087]
本发明实施例提供的技术方案,在确定文本匹配结果时,基于最长公共字符将第一文本内容和第二文本内容划分为至少两个子文本内容,随后基于两个子文本内容所对应的子最长公共字符将子文本内容再次划分为至少两个子文本内容,重复执行基于子文本内容中的最长公共字符对第一文本内容与第二文本内容进行划分的步骤,直至第一文本内容与第二文本内容无公共字符为止,得到所有公共字符,进一步的,基于第一文本内容以及公共字符,确定第一文本内容独有字符,基于第二文本内容以及公共字符,确定第二文本内容独有字符,从而将公共字符、第一文本内容独有字符以及第二文本内容独有字符进行顺序拼接,确定文本匹配结果,依次根据最长公共字符确定第一文本内容和第二文本内容的公共字符,在确定公共字符的基础上,可以快速便捷的确定第一文本内容独有字符以及第二文本内容独有字符,这种方式可以快速高效的确定文本匹配结果,进而为提升确定文件差异的效率提供支撑。
[0088]
实施例三
[0089]
图3为本发明实施例三提供的一种文本差异率确定方法的流程图,本发明实施例在上述实施例的基础上,对本发明实施例s140步骤进行进一步细化,本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。如图3所示,该方法包括:
[0090]
s310、对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容。
[0091]
s320、基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果。
[0092]
s330、基于第一文本内容中的文本段落信息,将文本匹配结果划分为至少一个子文本序列,并确定与至少一个子文本序列相对应的至少一个待验证段落组。
[0093]
s340、将至少一个待验证段落组输入至预先确定的相似判断模型,确定至少一个待验证段落组对应的相似度值。
[0094]
在本实施例中,将所确定的待验证段落组分别输入至相似判断模型中,相似判断模型输出待验证段落组所对应的相似度值。
[0095]
示例性的,待验证段落组包括待验证段落组1、待验证段落组2和待验证段落组3,将待验证段落组1、待验证段落组2和待验证段落组3所对应的文字内容分别输入至相似判断模型,相似判断模型输出待验证段落组1的相似度值为70%,待验证段落组2的相似度值为96%,待验证段落组3的相似度值为95%。
[0096]
s350、若相似度值大于预设阈值,则将至少一个待验证段落组作为目标相似段落组。
[0097]
在上述示例性的基础上,预设阈值为预先设定的固定值,预设阈值可以在应用过程中进行适应的调节。若预设阈值为96%,则待验证段落组2和待验证段落组3为目标相似段落组。
[0098]
s360、确定与目标相似段落组相对应的子文本序列。
[0099]
在本实施例中,在确定目标相似段落组的基础上,进一步确定与目标相似段落组相对应的子文本序列。
[0100]
s370、将子文本序列包含的字符总数,作为与目标相似段落组相对应的字符总数。
[0101]
在上述示例性的基础上,待验证段落组2和待验证段落组3为目标相似段落组,待验证段落组2所对应的子文本序列包含的字符总数以及待验证段落组3所对应的子文本序列包含的字符总数的总和,即为与目标相似段落组相对应的字符总数。
[0102]
s380、基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个待比对文件之间的差异率。
[0103]
本发明实施例提供的技术方案,在确定与目标相似段落组相对应的字符总数时,将至少一个待验证段落组输入至预先确定的相似判断模型,确定至少一个待验证段落组对应的相似度值,若相似度值大于预设阈值,则将至少一个待验证段落组作为目标相似段落组,进一步确定与目标相似段落组相对应的子文本序列,将子文本序列包含的字符总数,作为与目标相似段落组相对应的字符总数,提供了高效精确确定与目标相似段落组相对应的字符总数的方法,进一步提高了确定文件差异率的准确性,提升了确定文件差异的效率。
[0104]
实施例四
[0105]
图4为本发明实施例四提供的一种文本差异率确定装置的结构示意图,该装置可以执行本发明实施例所提供的文本差异率确定方法。该装置包括:文本内容确定模块410、匹配结果确定模块420、段落组确定模块430、相似段落确定模块440以及差异率确定模块450。
[0106]
文本内容确定模块410,用于对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容;其中,两个所述待比对文件所对应的实质内容相同,文字有所差异,所述文本内容包括文本段落信息;
[0107]
匹配结果确定模块420,用于基于文件差异分析算法对所述第一文本内容和第二文本内容进行处理,确定文本匹配结果;其中,所述文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;
[0108]
段落组确定模块430,用于基于所述第一文本内容中的文本段落信息,将所述文本匹配结果划分为至少一个子文本序列,并确定与所述至少一个子文本序列相对应的至少一个待验证段落组;
[0109]
相似段落确定模块440,用于基于所述至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与所述目标相似段落组相对应的字符总数;
[0110]
差异率确定模块450,用于基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、所述目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个所述待比对文件之间的差异率。
[0111]
在上述各技术方案的基础上,文本内容确定模块410包括:
[0112]
文件类型确定单元,用于确定两个所述待比对文件所属的文件类型;
[0113]
文本内容确定单元,用于根据每个所述待比对文件以及相应的文件类型进行解析处理,确定与各所述待比对文件所对应的文本内容。
[0114]
在上述各技术方案的基础上,匹配结果确定模块420包括:
[0115]
子文本确定单元,用于基于最长公共字符将所述第一文本内容和所述第二文本内容划分为至少两个子文本内容;
[0116]
子文本划分单元,用于基于两个所述子文本内容所对应的子最长公共字符将所述子文本内容再次划分为至少两个子文本内容;
[0117]
公共字符确定单元,用于重复执行基于子文本内容中的最长公共字符对所述第一文本内容与第二文本内容进行划分的步骤,直至所述第一文本内容与第二文本内容无公共字符为止,得到所有公共字符;
[0118]
独有内容确定单元,用于基于所述第一文本内容以及所述公共字符,确定所述第一文本内容独有字符;基于所述第二文本内容以及所述公共字符,确定所述第二文本内容独有字符;
[0119]
匹配结果确定单元,用于将所述公共字符、所述第一文本内容独有字符以及所述第二文本内容独有字符进行顺序拼接,确定所述文本匹配结果。
[0120]
在上述各技术方案的基础上,段落组确定模块430包括:
[0121]
场景分布图获取单元,用于基于所述子文本序列中的公共字符以及所述子文本序列中的第一文本内容独有字符,确定第一文本段落;
[0122]
基于所述子文本序列中的公共字符以及所述子文本序列中的第二文本内容独有字符,确定第二文本段落;
[0123]
将所述第一文本段落和所述第二文本段落作为与所述至少一个子文本序列相对应的待验证段落组。
[0124]
在上述各技术方案的基础上,相似段落确定模块440包括:
[0125]
相似度值确定单元,用于将至少一个待验证段落组输入至预先确定的相似判断模型,确定至少一个待验证段落组对应的相似度值;
[0126]
目标段落组确定单元,用于若相似度值大于预设阈值,则将至少一个待验证段落组作为目标相似段落组。
[0127]
在上述各技术方案的基础上,相似段落确定模块440还包括:
[0128]
子序列确定单元,用于确定与目标相似段落组相对应的子文本序列;
[0129]
相似字符确定单元,用于将子文本序列包含的字符总数,作为与目标相似段落组相对应的字符总数。
[0130]
在上述各技术方案的基础上,文本差异率确定装置还包括:
[0131]
重点字段确定模块,用于基于至少一个预设关键词汇、第一文本内容以及第二文本内容,确定与预设关键词汇所对应的第一重点字段以及第二重点字段;
[0132]
差异字段反馈模块,用于对第一重点字段以及第二重点字段进行审验,确定重点差异字段,并反馈。
[0133]
本发明实施例提供的技术方案,通过对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容,其中,两个待比对文件所对应的实质内容相同,文字有所差异,文本内容包括文本段落信息;进而基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果,其中,文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;进一步的,基于第一文本内容中的文本段落信息,将文本匹配结果划分为至少一个子文本序列,并确定与至少一个子文本序列相对应的至少一个待验证段落组,随后基于至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与目标相似段落组相对应的字符总数,从而基于公共字符数、第一文本内容独有
字符数、第二文本内容独有字符数、目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个待比对文件之间的差异率。本发明提供的技术方案,解决了文件审核过程中工作量大,效率低,易出错的问题,提高了确定文件差异率的准确性,提升了确定文件差异的效率,减少了出错频率。
[0134]
本公开实施例所提供的文本差异率确定装置可执行本公开任意实施例所提供的文本差异率确定方法,具备执行方法相应的功能模块和有益效果。
[0135]
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
[0136]
实施例五
[0137]
图5为本发明实施例五提供的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0138]
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom12以及ram13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0139]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0140]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如文本差异率确定方法。
[0141]
在一些实施例中,文本差异率确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram13并由处理器11执行时,可以执行上文描述的文本差异率确定方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本差异率确定方法。
[0142]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统
的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0143]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程文本差异率确定装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0144]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0145]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0146]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0147]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限
制。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
技术特征:
1.一种文件差异率确定方法,其特征在于,包括:对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容;其中,两个所述待比对文件所对应的实质内容相同,文字有所差异,所述文本内容包括文本段落信息;基于文件差异分析算法对所述第一文本内容和第二文本内容进行处理,确定文本匹配结果;其中,所述文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;基于所述第一文本内容中的文本段落信息,将所述文本匹配结果划分为至少一个子文本序列,并确定与所述至少一个子文本序列相对应的至少一个待验证段落组;基于所述至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与所述目标相似段落组相对应的字符总数;基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、所述目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个所述待比对文件之间的差异率。2.根据权利要求1所述的方法,其特征在于,所述对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容,包括:确定两个所述待比对文件所属的文件类型;根据每个所述待比对文件以及相应的文件类型进行解析处理,确定与各所述待比对文件所对应的文本内容。3.根据权利要求1所述的方法,其特征在于,所述基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果,包括:基于最长公共字符将所述第一文本内容和所述第二文本内容划分为至少两个子文本内容;基于两个所述子文本内容所对应的子最长公共字符将所述子文本内容再次划分为至少两个子文本内容;重复执行基于子文本内容中的最长公共字符对所述第一文本内容与第二文本内容进行划分的步骤,直至所述第一文本内容与第二文本内容无公共字符为止,得到所有公共字符;基于所述第一文本内容以及所述公共字符,确定所述第一文本内容独有字符;基于所述第二文本内容以及所述公共字符,确定所述第二文本内容独有字符;将所述公共字符、所述第一文本内容独有字符以及所述第二文本内容独有字符进行顺序拼接,确定所述文本匹配结果。4.根据权利要求1所述的方法,其特征在于,所述确定与所述至少一个子文本序列相对应的至少一个待验证段落组,包括:基于所述子文本序列中的公共字符以及所述子文本序列中的第一文本内容独有字符,确定第一文本段落;基于所述子文本序列中的公共字符以及所述子文本序列中的第二文本内容独有字符,确定第二文本段落;将所述第一文本段落和所述第二文本段落作为与所述至少一个子文本序列相对应的待验证段落组。
5.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个待验证段落组以及相似判断模型,确定目标相似段落组,包括:将所述至少一个待验证段落组输入至预先确定的相似判断模型,确定所述至少一个待验证段落组对应的相似度值;若所述相似度值大于预设阈值,则将所述至少一个待验证段落组作为目标相似段落组。6.根据权利要求1所述的方法,其特征在于,所述确定与所述目标相似段落组相对应的字符总数,包括:确定与所述目标相似段落组相对应的子文本序列;将所述子文本序列包含的字符总数,作为与所述目标相似段落组相对应的字符总数。7.根据权利要求1所述的方法,其特征在于,所述预先设置的差异率函数为:其中,α为可选参数,c
l
为所述第一文本内容独有字符数,c
r
为所述第二文本内容独有字符数,c
a
为所述公共字符数,c
s
为所述目标相似段落组相对应的字符总数。8.根据权利要求1所述的方法,其特征在于,还包括:基于至少一个预设关键词汇、所述第一文本内容以及所述第二文本内容,确定与所述预设关键词汇所对应的第一重点字段以及第二重点字段;对所述第一重点字段以及所述第二重点字段进行审验,确定重点差异字段,并反馈。9.一种文本差异率确定装置,其特征在于,包括:文本内容确定模块,用于对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容;其中,两个所述待比对文件所对应的实质内容相同,文字有所差异,所述文本内容包括文本段落信息;匹配结果确定模块,用于基于文件差异分析算法对所述第一文本内容和第二文本内容进行处理,确定文本匹配结果;其中,所述文本匹配结果为包括公共字符、第一文本内容独有字符、第二文本内容独有字符的长序列;段落组确定模块,用于基于所述第一文本内容中的文本段落信息,将所述文本匹配结果划分为至少一个子文本序列,并确定与所述至少一个子文本序列相对应的至少一个待验证段落组;相似段落确定模块,用于基于所述至少一个待验证段落组以及相似判断模型,确定目标相似段落组,并确定与所述目标相似段落组相对应的字符总数;差异率确定模块,用于基于公共字符数、第一文本内容独有字符数、第二文本内容独有字符数、所述目标相似段落组所对应的字符总数以及预先设置的差异率函数,确定两个所述待比对文件之间的差异率。10.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8任一项所述的文
本差异率确定方法。
技术总结
本发明公开了一种文本差异率确定方法、装置及电子设备。对两个待比对文件分别解析处理,得到第一文本内容和第二文本内容;基于文件差异分析算法对第一文本内容和第二文本内容进行处理,确定文本匹配结果;基于第一文本内容中的文本段落信息,将文本匹配结果划分为多个子文本序列,并确定与多个子文本序列相对应的待验证段落组;基于待验证段落组以及相似判断模型,确定目标相似段落组,并确定与目标相似段落组相对应的字符总数;基于公共字符数、独有字符数、字符总数和差异率函数,确定差异率,解决了文件审核过程中工作量大,效率低,易出错的问题,提高了确定文件差异率的准确性,提升了确定文件差异的效率,减少了出错频率。率。率。
技术研发人员:康伟 薛景文 刘晨 郝豪红 赵洪洋 黄晨光 王剑龙 王新哲 杨淋淋
受保护的技术使用者:潍柴动力股份有限公司
技术研发日:2023.04.20
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
