文本标准比对方法、装置、设备及介质与流程
未命名
09-07
阅读:105
评论:0
1.本发明涉及数据处理技术领域,尤其涉及一种文本标准比对方法、装置、设备及介质。
背景技术:
2.随着信息技术的快速发展,标准对社会经济发展的作用已经越来越被人们重视,其中,在标准水平的提高和标准体系的日益完善过程中,标准文献信息资源作为国家发展的重要战略资源,已经越来越多地应用在文本数据处理过程中,为了使得文献资源数据更为规范化和标准化,对文献资源数据进行标准比对处理显得尤为重要。
3.目前,相关技术中需要通过专业技术人员从海量的标准文献信息资源中查找相关的标准信息并比对,然而当标准文献信息资源量较大时,该方案需要依赖大量的人工经验,可能存在人为操作失误,导致进行标准比对准确率较低。
技术实现要素:
4.有鉴于此,本发明提供一种文本标准比对方法、装置、设备及介质,至少部分解决现有技术中存在的问题。
5.根据本技术的另一方面,本技术实施例提供了一种文本标准比对方法,该方法包括:获取待处理文本;所述待处理文本包括标准属性信息;基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式;按照所述标准比对方式确定标准文本,并对所述待处理文本进行结构化分析处理,得到待比对内容;将所述待比对内容与所述标准文本进行比对处理,标记差异信息;对所述差异信息进行整理分析,生成比对结果,输出自动比对报告。
6.在其中一个实施例中,基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式,包括:若所述标准属性信息中存在标准文本对应关系时,自动推荐并选择所述标准比对方式为一对一比对方式,支持用户放弃默认比对方式自主选择比对方式;若所述标准属性信息中未存在标准文本对应关系时,获取所述待处理文本与预设文本的相似度,自动推荐并选择基于所述相似度确定所述标准比对方式为一对多比对方式,支持用户放弃默认比对方式,自主选择标准比对方式,并筛选和确定标准文本比对范围。
7.在其中一个实施例中,对所述待处理文本进行结构化分析处理,得到待比对内容,包括:对所述待处理文本进行光学字符识别处理,获取待比对文本;对所述待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系
型数据和图谱型数据;对所述关系型数据和所述图谱型数据进行解析和格式转换处理,得到符合比对要求的待比对内容。
8.在其中一个实施例中,对所述待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系型数据和图谱型数据,包括:对所述待比对文本进行段落抽取处理,得到原子型知识点;对所述待比对文本进行字段抽取处理,得到结构化字段;对所述待比对文本进行可拓展多元组抽取处理,得到可拓展多元组数据;将所述原子型知识点、所述结构化字段和所述可拓展多元组数据进行处理,得到关系型数据和图谱型数据。
9.在其中一个实施例中,将所述待比对内容与所述标准文本进行比对处理,标记差异信息,包括:获取所述标准文本中与所述待比对内容对应的标准内容;计算所述待比对内容与所述标准内容之间的相似度;根据所述相似度,确定所述待处理文本与所述标准文本之间的差异信息;在所述待处理文本和所述标准文本中分别标记差异信息。
10.在其中一个实施例中,对所述差异信息进行整理分析,生成比对结果,包括:基于所述差异信息,确定指标比对信息和内容比对信息;采用可视化展示方式,对所述指标比对信息和内容比对信息进行处理,得到比对结果。
11.在其中一个实施例中,所述待比对内容包括以下至少任意一项:题录信息、术语信息、指标信息、关联关系信息、检测方法信息;所述题录信息包括以下任意一项:主题信息、文内信息、前言信息和封面信息。
12.根据本技术的另一方面,本技术实施例提供了一种文本标准比对装置,该装置包括:获取模块,用于获取待处理文本;所述待处理文本包括标准属性信息;选择模块,用于基于所述标准属性信息,对所述待处理文本选择标准比对方式;结构化处理模块,用于按照所述标准比对方式确定标准文本,并对所述待处理文本进行结构化分析处理,得到待比对内容;比对处理模块,用于将所述待比对内容与所述标准文本进行比对处理,标记差异信息;整理模块,用于对所述差异信息进行整理分析,生成比对结果,输出自动比对报告。
13.根据本技术的另一方面,本技术实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述的文本标准比对方法。
14.根据本技术的另一方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上述的文本标准比对方法。
15.本技术实施例中提供的文本标准比对方法、装置、设备及介质,通过获取待处理文
本,该待处理文本包括标准属性信息,并基于标准属性信息,对待处理文本选择标准比对方式,然后按照标准比对方式确定标准文本,并对待处理文本进行结构化分析处理,得到待比对内容,然后将待比对内容与标准文本进行比对处理,标记差异信息,最后对差异内容进行整理分析,生成比对结果,输出自动比对报告。该技术方案无需依赖人工经验,能够更细粒度地选择标准比对方式,并按照标准比对方式对待处理文本进行结构分析处理,从而精准地确定出待比对内容,进而能够有针对性地将待比对内容与标准文本进行比对,使得更全面地标记出对应的差异信息,生成比对结果,以输出更为精准的自动比对报告,极大地提高了文本标准比对效率。
附图说明
16.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
17.图1为本技术实施例提供的文本标准比对方法的系统架构图;图2为本技术实施例提供的文本标准比对方法的流程示意图;图3为本技术实施例提供的确定符合比对要求的待比对内容方法的过程示意图;图4为本技术实施例提供的对待处理文本进行抽取处理的结构示意图;图5为本技术实施例提供的题录属性信息的结构示意图;图6为本技术实施例提供的待处理文本与标准文本进行比对的差异信息的结构示意图;图7为本技术实施例提供的文本标准比对方法的流程示意图;图8为本技术实施例提供的文本标准比对方法的结构示意图;图9为本技术实施例提供的文本标准比对装置的结构示意图;图10为本技术实施例示提供的一种计算机设备的结构示意图。
具体实施方式
18.下面结合附图对本发明实施例进行详细描述。
19.需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
20.需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
21.如背景技术中提到的,在文本标准比对过程中,相关技术中需要通过专业技术人员从海量的标准文献信息资源中查找相关的标准信息并比对,然而当标准文献信息资源量
较大时,该方案需要依赖大量的人工经验,可能存在人为操作失误,导致进行标准比对准确率较低。
22.基于上述缺陷,本技术提供了一种文本标准比对方法、装置、设备及介质,与现有技术相比,该技术方案无需依赖人工经验,能够更细粒度地选择标准比对方式,并按照标准比对方式对待处理文本进行结构分析处理,从而精准地确定出待比对内容,进而能够有针对性地将待比对内容与标准文本进行更全面地比对,标记出对应的差异信息,生成比对结果,以输出更为精准的自动比对报告,极大地提高了文本标准比对效率。
23.图1是本技术实施例提供的一种文本标准比对方法的实施环境架构图。如图1所示,该实施环境架构包括:终端100和服务器200。
24.终端100可以是各类ai应用场景中的终端设备。例如,终端100可以是智能电视、智能电视机顶盒等智能家居设备,或者终端100可以是智能手机、平板电脑以及电子书阅读器等移动式便携终端,或者,该终端100可以是智能眼镜、智能手表等智能可穿戴设备,本实施例对此不进行具体限定。
25.其中,终端100中可安装有基于自然语言处理的ai应用。比如,该ai应用可以是智能搜索、智能问答等应用。
26.服务器200可以是独立是物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
27.其中,服务器200可以是为上述终端100中安装的ai应用提供后台服务的服务器设备。
28.终端100与服务器200之间通过有线或无线网络建立通信连接。可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(widearea network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
29.为了便于理解和说明,下面通过图2至图10详细说明本技术实施例提供的文本标准比对方法、装置、设备及存储介质。
30.图2为本技术实施例提供的文本标准比对方法的流程示意图,如图2所示,该方法可以应用于计算机设备,该计算机设备可以是服务器或终端,也可以是服务器与终端的组合,该方法包括:s101、获取待处理文本;待处理文本包括标准属性信息。
31.需要说明的是,上述待处理文本是指需要进行文本标准比对的文本。
32.可选的,该待处理文本可以是计算机设备获取的任意文本类型的文本,其中,可以是从用户指定的位置获取的待处理文本,也可以是通过其他外部设备导入的待处理文本,还可以是用户向计算机设备提交的待处理文本,本实施例对此不做限定。该待处理文本可以是一个,也可以是多个,每个待处理文本中可以包括至少一个词。
33.示例性地,该待处理文本中可以是包括某个文献,也可以是某个文献中某篇文章的一段内容,也可以包括文章的多段内容等文本数据。
34.s102、基于标准属性信息,对待处理文本自动推荐并选择默认标准比对方式。
35.可以理解的是,上述标准属性信息可以包括待处理文本要比对的标准文本或文本对应关系。该标准属性信息可以是根据实际业务需求自定义设置的。由于标准文本的文本较多,不同待处理文本需要进行比对的标准文本可能是一个,也可能是多个,因此,需要对待处理文本选择标准比对方式。该标准比对方式可以包括一对一比对方式,也可以包括一对多比对方式,还可以包括标注内容比对方式。
36.在确定出标准属性信息后,判断标准属性信息中是否存在标准文本对应关系,若标准属性信息中存在标准文本对应关系时,表征该待处理文本已经明确了要比对的标准文本或文本对应关系,则确定标准比对方式为一对一对比方式,支持用户放弃默认比对方式自主选择比对方式;若标准属性信息中未存在标准文本对应关系时,表征该待处理文本未明确了要比对的标准文本或文本对应关系,则获取待处理文本与预设文本的相似度,基于相似度确定标准比对方式为一对多比对方式,支持用户放弃默认比对方式,自主选择标准比对方式,并筛选和确定标准文本比对范围。
37.在基于相似度确定标准比对方式为一对多比对方式的过程中,可以是确定出待处理文本与标准文本中各项指标,并计算各项指标的相似度,然后确定出相似度大于预设阈值的对应关系,则确定标准比对方式为一对多比对方式。标准内容比对是指当需要查看相似度大于预设阈值的具体详细内容时,可以标记标准文本和待处理文本中内容相似部分,例如可以是以高亮显示,也可以是以画横线的方式显示。
38.本实施例中通过基于标准属性信息,对待处理文本选择标准比对方式,能够使得后续进行内容比对时更加有针对性,极大地提高了标准比对效率。
39.s103、按照标准比对方式确定标准文本,并对待处理文本进行结构化分析处理,得到待比对内容。
40.需要说明的是,上述标准文本是需要与待处理文本进行比对的文本,当待处理文本为某一文献时,则标准文本也可以是一文献。标准文本可以是按照固定的格式和结构进行编辑的,该标准文本是按照标准属性自定义设置的,在确定出标准比对方式后,可以按照标准比对方式确定需要与待处理文本进行比对的标准文本,并对待处理文本进行结构化分析处理,得到待比对内容。其中,待比对内容包括以下至少任意一项:题录信息、术语信息、指标信息、关联关系信息、检测方法信息。题录信息包括以下任意一项:主题信息、文内信息、前言信息和封面信息。
41.其中,上述标准题录信息用于表征待处理文本的基本信息,可以包括以下任意一项:分类信息、发布结构、发布实施日期、提出归口单位、起草单元、起草人。术语信息用于表征待处理文本中的术语属性信息,可以包括以下任意一项:术语名称、术语定义、术语所在的标准信息、适用范围、术语注释、术语符号、术语图例。上述关联关系信息用于表征待处理文本的不同标准间之间的相互关系,可以包括以下任意一项:代替关系、引用关系和采用关系。
42.作为一种可选的实现方式,请参见图3所示,在对所述待处理文本进行结构化分析处理,得到待比对内容的过程中,该方法可以包括如下步骤:s201、对待处理文本进行光学字符识别处理,获取待比对文本。
43.s202、对待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系
型数据和图谱型数据。
44.s203、对关系型数据和图谱型数据进行解析和格式转换处理,得到符合比对要求的待比对内容。
45.需要说明的是,上述待比对文本是指对待处理文本通过光学字符识别处理后的电子文本。在获取到待处理文本后,可以对对标准文件进行光学字符识别(ocr)扫描,获得待比对的标准文本。由于许多待处理文本采用的是pdf文件的形式存储,需要先将pdf文件进行ocr处理,将其处理为计算机设备可读取的文本内容。光学字符识别(ocr)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
46.其中,在确定出待比对文本后,可以按照标准文献特定结构文本内容进行结构化分析,对待比对文本的题录信息、术语定义、关联引用关系、技术指标信息、检测方法信息进行标引、分类、建立关联关系,构建更方便在当前工具系统形态下使用的数据存储形式。
47.具体地,请参见图4所示,在获取待比对文本后,可以对待比对文本进行段落抽取处理,得到原子型知识点,并对待比对文本进行字段抽取处理,得到结构化字段,并对待比对文本进行可拓展多元组抽取处理,得到可拓展多元组数据,然后将原子型知识点、结构化字段和可拓展多元组数据进行处理,得到关系型数据和图谱型数据。并对关系型数据和图谱型数据进行解析和格式转换处理,得到符合比对要求的待比对内容。
48.可以理解的是,上述原子型知识点是对待比对文本进行段落拆解后得到的各段落内容,结构化字段是指对待比对文本进行字段抽取后得到的字段,根据标准文本特征和用户比对需求,三元组可在补充类型、关系等数据后拓展为四元组或五元组。其中,三元组数据包括实体、属性和值,属性用于表征待比对内容之间的关系,值也可以是实体。上述关系型数据是指依据关系模型来确定的数据,例如可以包括题录信息、术语信息、指标信息等。该关系模型例如可以是“一对一、一对多、多对多”等关系模型。图谱型数据是指基于知识图谱来确定的数据。该知识图谱可以是数据组网形成的图谱。
49.进一步地,请参见图5所示,题录信息可以包括主题信息、文内信息、封面信息和前言信息,其中,主题信息可以包括所属分类、主体对象、主体关键词;文内信息可以包括标准适用范围和附录信息;封面信息可以包括国际标准分类、国家标准分类、标准类型、标准号、标准年代号、标准中文名称、标准发布日期、标准实施日期、标准发布单位、是否密级标准、标准是否强制;前言信息可以包括强制条款、专利信息、标准提出单位、标准归口单位、起草单位、起草人员、历次发布情况等。
50.本实施例中通过对待处理文本进行光学字符识别处理,获取待比对文本,并对待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系型数据和图谱型数据,进行解析和格式转换处理,进而能够精准地得到符合比对要求的待比对内容,便于后续更全面地将待比对内容进行比对处理。
51.s104、将待比对内容与标准文本进行比对处理,标记差异信息。
52.上述差异信息可以是待比对内容与标准文本中存在差异的信息。例如可以包括待比对内容和标准文本的删除、修改、新增等部分。
53.具体地,在确定出待比对内容后,可以获取标准文本中与待比对内容对应的标准内容,并分别计算待比对内容与标准内容之间的字符相似度和语义相似度,然后根据相似度,确定待处理文本与标准文本之间的差异信息,并在待处理文本和标准文本中分别标记差异信息。
54.其中,上述标准内容是标准文本中与待比对内容对应的内容。在计算待比对内容与标准内容之间的相似度的过程中,可以是计算待比对文本与标准文本中题录信息之间的相似度,也可以是计算待比对文本与标准文本中术语信息之间的相似度。字符相似度采取机器比对方式,高亮标准比对不一致内容。语义相似度采取基于transformer编码器的标准文本相似度计算模型,优先计算标准间存在引用关系的标准文本语义相似度s1,进一步补充计算剩余标准文本语义相似度s2,最终相似度s=80%s1+20%s2。
55.本实施例中通过将待比对内容与标准文本进行比对处理,能够全面的评估和判断待比对文本与标准文本之间的相似度,从而精准地标记差异信息。
56.s105、对差异信息进行整理分析,生成比对结果,输出自动比对报告。
57.比对结果可以是对待比对内容和标准内容进行比对处理后得到的结果,可以是以比对分析报告的形式表示。在确定出差异信息后,可以基于差异信息,确定指标比对信息和内容比对信息,并采用可视化展示方式,对指标比对信息和内容比对信息进行处理,得到比对结果。
58.其中,上述可视化展示方式可以是比对表格、高亮对比图、画横线且加粗对比图等方式。本实施例中通过将标注的比对结果生成比对报告的并呈现给用户,以便用户更加直观地了解不同版本文本之间的差异。其中,以标准指标比对和内容比对为例展示可视化效果。标准中指标的比对是评估标准文献相似度的一个重要方面,指标内容的识别抽取采用三元组抽取法,如标准文献中的文字:“试验环境,a) 环境温度:23 ℃
±
5 ℃;b) 相对湿度:15%~90%;c) 大气压力:86kpa~106kpa。”经过三元组抽取后结果可以参见如下表格所示:标准内容文本的直接比对是确认标准相似程度程度和相似内容的直观方法,可以采用左右对照形式,划横线且加粗显示差异信息,请参见图6所示,图6提供了待比对内容和标准文本中标记的差异信息的示意图,其中,左侧为待比对内容,右侧为标准文本中的标准内容,划横线且加粗部分为标记的差异信息。
59.示例性地,请参见图7所示,当待处理文本为文献时,可以获取待处理文本,然后选择基于待处理文本的标准属性信息,对待处理文本选择标准比对方式,并进行标准结构化信息比对处理,先按照标准比对方式确定标准文本,并对待处理文本进行结构化分析处理,得到待比对内容,然后将待比对内容与标准文本进行标准内容比对,标记差异信息,并对差
异信息进行整理分析,生成比对分析报告。
60.请参见图8所示,在选择比对方式时,可以包括标准一对一比对、标准多对多比对,标准内容比对,并在进行标准结构化信息比对过程中,可以是标准对象比对、标准关联引用替代关系比对、标准关键词比对、标准术语定义比对、标准指标比对、标准归口单位、编写单位比对,然后进进行标准内容比对,包括标准全文比对和标准段落内容比对,从而确定差异信息,并生成比对分析报告,该比对分析报告可以包括标准对象相似度、标准关联引用替代关系相似度、标准关键词相似度、标准术语定义相似度、标准指标相似度、标准归口单位、编写单位相似度、标准全文相似度、标准段落内容相似度。其中,比对分析报告能够产生工具系统价值,具体可以包括确认哪些标准相似、确认相似度有多高、确认相似内容是什么。
61.本技术实施例中提供的文本标准比对方法,通过获取待处理文本,该待处理文本包括标准属性信息,并基于标准属性信息,对待处理文本选择标准比对方式,然后按照标准比对方式确定标准文本,并对待处理文本进行结构化分析处理,得到待比对内容,然后将待比对内容与标准文本进行比对处理,标记差异信息,最后对差异内容进行整理分析,生成比对结果,输出自动比对报告。该技术方案无需依赖人工经验,能够更细粒度地选择标准比对方式,并按照标准比对方式对待处理文本进行结构分析处理,从而精准地确定出待比对内容,进而能够有针对性地将待比对内容与标准文本进行更全面地比对,标记出对应的差异信息,生成比对结果,以输出更为精准的自动比对报告,极大地提高了文本标准比对效率。
62.应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
63.另一方面,图9为本技术实施例提供的一种文本标准化处理装置的结构示意图。该装置可以为终端设备或服务器内的装置,如图4所示,该装置700包括:获取模块710,用于获取待处理文本;待处理文本包括标准属性信息;选择模块720,用于基于标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式;结构化处理模块730,用于按照标准比对方式确定标准文本,并对待处理文本进行结构化分析处理,得到待比对内容;比对处理模块740,用于将待比对内容与标准文本进行比对处理,标记差异信息;整理模块750,用于对差异信息进行整理分析,生成比对结果,输出自动比对报告。
64.在一些实施例中,选择模块720,具体用于:若标准属性信息中存在标准文本对应关系时,自动推荐并选择标准比对方式为一对一比对方式,支持用户放弃默认比对方式自主选择比对方式;若标准属性信息中未存在标准文本对应关系时,获取待处理文本与预设文本的相似度,基于相似度自动推荐并选择标准比对方式为一对多比对方式,支持用户放弃默认比对方式,自主选择标准比对方式,并筛选和确定标准文本比对范围。
65.在一些实施例中,结构化处理模块730,具体用于:对待处理文本进行光学字符识别处理,获取待比对文本;对待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系型数
据和图谱型数据;对关系型数据和图谱型数据进行解析和格式转换处理,得到符合比对要求的待比对内容。
66.在一些实施例中,结构化处理模块730,还用于:对待比对文本进行段落抽取处理,得到原子型知识点;对待比对文本进行字段抽取处理,得到结构化字段;对待比对文本进行可拓展多元组抽取处理,得到可拓展多元组数据;将原子型知识点、结构化字段和可拓展多元组数据进行处理,得到关系型数据和图谱型数据。
67.在一些实施例中,比对处理模块740,具体用于:获取标准文本中与待比对内容对应的标准内容;计算待比对内容与标准内容之间的相似度;根据相似度,确定待处理文本与标准文本之间的差异信息;在待处理文本和标准文本中分别标记差异信息。
68.在一些实施例中,整理模块750,具体用于:基于差异信息,确定指标比对信息和内容比对信息;采用可视化展示方式,对指标比对信息和内容比对信息进行处理,得到比对结果。
69.在一些实施例中,待比对内容包括以下至少任意一项:题录信息、术语信息、指标信息、关联关系信息、检测方法信息;题录信息包括以下任意一项:主题信息、文内信息、前言信息和封面信息。
70.综上,本技术实施例中提供的文本标准比对装置,该技术方案无需依赖人工经验,能够更细粒度地选择标准比对方式,并按照标准比对方式对待处理文本进行结构分析处理,从而精准地确定出待比对内容,进而能够有针对性地将待比对内容与标准文本进行更全面地比对,标记出对应的差异信息,生成比对结果,以输出更为精准的自动比对报告,极大地提高了文本标准比对效率。
71.另一方面,本技术实施例提供的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述的文本标准比对方法。
72.下面参考图10,图10为本技术实施例的服务器的计算机系统的结构示意图。
73.如图10所示,计算机系统300包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分303加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram 303中,还存储有系统300操作所需的各种程序和数据。cpu301、rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
74.以下部件连接至i/o接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出
的计算机程序根据需要被安装入存储部分308。
75.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分303从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(cpu)301执行时,执行本技术的系统中限定的上述功能。
76.需要说明的是,本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
77.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
78.描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器,包括:获取模块、选择模块、结构化处理模块、比对处理模块及整理模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,获取模块还可以被描述为“用于获取待处理文本;所述待处理文本包括标准属性信息”。
79.作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个
或者一个以上的处理器用来执行描述于本技术的文本标准比对方法:获取待处理文本;所述待处理文本包括标准属性信息;基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式;按照所述标准比对方式确定标准文本,并对所述待处理文本进行结构化分析处理,得到待比对内容;将所述待比对内容与所述标准文本进行比对处理,标记差异信息;对所述差异信息进行整理分析,生成比对结果,输出自动比对报告。
80.综上所述,本技术实施例中提供的文本标准比对方法、装置、设备及介质,通过获取待处理文本,该待处理文本包括标准属性信息,并基于标准属性信息,对待处理文本选择标准比对方式,然后按照标准比对方式确定标准文本,并对待处理文本进行结构化分析处理,得到待比对内容,然后将待比对内容与标准文本进行比对处理,标记差异信息,最后对差异内容进行整理分析,生成比对结果,输出自动比对报告。该技术方案无需依赖人工经验,能够更细粒度地选择标准比对方式,并按照标准比对方式对待处理文本进行结构分析处理,从而精准地确定出待比对内容,进而能够有针对性地将待比对内容与标准文本进行更全面地比对,标记出对应的差异信息,生成比对结果,以输出更为精准的自动比对报告,极大地提高了文本标准比对效率。
81.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种文本标准比对方法,其特征在于,该方法包括:获取待处理文本;所述待处理文本包括标准属性信息;基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式;按照所述标准比对方式确定标准文本,并对所述待处理文本进行结构化分析处理,得到待比对内容;将所述待比对内容与所述标准文本进行比对处理,标记差异信息;对所述差异信息进行整理分析,生成比对结果,输出自动比对报告。2.根据权利要求1所述的方法,其特征在于,基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式,包括:若所述标准属性信息中存在标准文本对应关系时,自动推荐并选择所述标准比对方式为一对一比对方式,支持用户放弃默认比对方式自主选择比对方式;若所述标准属性信息中未存在标准文本对应关系时,获取所述待处理文本与预设文本的相似度,基于所述相似度自动推荐并选择所述标准比对方式为一对多比对方式,支持用户放弃默认比对方式,自主选择标准比对方式,并筛选和确定标准文本比对范围。3.根据权利要求1所述的方法,其特征在于,对所述待处理文本进行结构化分析处理,得到待比对内容,包括:对所述待处理文本进行光学字符识别处理,获取待比对文本;对所述待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系型数据和图谱型数据;对所述关系型数据和所述图谱型数据进行解析和格式转换处理,得到符合比对要求的待比对内容。4.根据权利要求3所述的方法,其特征在于,对所述待比对文本进行段落抽取、字段抽取和可拓展多元组抽取处理,得到关系型数据和图谱型数据,包括:对所述待比对文本进行段落抽取处理,得到原子型知识点;对所述待比对文本进行字段抽取处理,得到结构化字段;对所述待比对文本进行可拓展多元组抽取处理,得到可拓展多元组数据;将所述原子型知识点、所述结构化字段和所述可拓展多元组数据进行处理,得到关系型数据和图谱型数据。5.根据权利要求1所述的方法,其特征在于,将所述待比对内容与所述标准文本进行比对处理,标记差异信息,包括:获取所述标准文本中与所述待比对内容对应的标准内容;计算所述待比对内容与所述标准内容之间的相似度;根据所述相似度,确定所述待处理文本与所述标准文本之间的差异信息;在所述待处理文本和所述标准文本中分别标记差异信息。6.根据权利要求1所述的方法,其特征在于,对所述差异信息进行整理分析,生成比对结果,包括:基于所述差异信息,确定指标比对信息和内容比对信息;采用可视化展示方式,对所述指标比对信息和内容比对信息进行处理,得到比对结果。7.根据权利要求3所述的方法,其特征在于,所述待比对内容包括以下至少任意一项:
题录信息、术语信息、指标信息、关联关系信息、检测方法信息;所述题录信息包括以下任意一项:主题信息、文内信息、前言信息和封面信息。8.一种文本标准比对装置,其特征在于,所述装置包括:获取模块,用于获取待处理文本;所述待处理文本包括标准属性信息;选择模块,用于基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式;结构化处理模块,用于按照所述标准比对方式确定标准文本,并对所述待处理文本进行结构化分析处理,得到待比对内容;比对处理模块,用于将所述待比对内容与所述标准文本进行比对处理,标记差异信息;整理模块,用于对所述差异信息进行整理分析,生成比对结果,输出自动比对报告。9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现如权利要求1-7任一项所述的文本标准比对方法。10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现如权利要求1-7任一项所述的文本标准比对方法。
技术总结
本发明公开了文本标准比对方法、装置、设备及介质,涉及数据处理技术领域,该方法包括:获取待处理文本;所述待处理文本包括标准属性信息;基于所述标准属性信息,对所述待处理文本自动推荐并选择默认标准比对方式;按照所述标准比对方式确定标准文本,并对所述待处理文本进行结构化分析处理,得到待比对内容;将所述待比对内容与所述标准文本进行比对处理,标记差异信息;对所述差异内容进行整理分析,生成比对结果,输出自动比对报告。该方案无需依赖人工经验,能够有针对性地将待比对内容与标准文本进行对比,从而更全面地标记出对应的差异信息,进而精准地生成比对结果,以输出自动比对报告,极大地提高了文本标准比对效率。极大地提高了文本标准比对效率。极大地提高了文本标准比对效率。
技术研发人员:崔静 王立玺 胡晨 吕千千 祝贺 牛艳茹 魏梅 高艳炫
受保护的技术使用者:北京赛西科技发展有限责任公司
技术研发日:2023.07.31
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种中间体在制备戈舍瑞林中的用途的制作方法 下一篇:内网设备的内容下载方法与流程
