一种基于界面坐标的PDF文档数据识别方法、设备及介质与流程
未命名
08-15
阅读:134
评论:0
一种基于界面坐标的pdf文档数据识别方法、设备及介质
技术领域
1.本技术涉及计算机应用技术领域,尤其涉及一种基于界面坐标的pdf文档数据识别方法、设备及介质。
背景技术:
2.在pdf文档的使用过程中,经常会遇到需要识别pdf文档,并提取pdf文档中的关键信息的需求。目前,针对国家金税相关的票据识别都是具有相对固定的模板的,而对于一些个性的pdf文档,例如:起草的合同文本,或者格式相对固定的银行回单等。现有技术无法提供适配的pdf文档识别方式,通过人工的方式获取pdf文档中的数据时,操作较为繁琐,浪费大量的人力物力资源。
技术实现要素:
3.本技术实施例提供了一种基于界面坐标的pdf文档数据识别方法、设备及介质,用以解决现有技术无法提供适配的pdf文档识别方式,通过人工的方式获取pdf文档中的数据时,操作较为繁琐,浪费大量的人力物力资源的技术问题。
4.一方面,本技术实施例提供了一种基于界面坐标的pdf文档数据识别方法,包括:
5.接收待识别pdf文档,以确定所述待识别pdf文档对应的文档类型,并根据所述文档类型,构建所述待识别pdf文档对应的excel数据存储模板;
6.通过adobe acrobat软件对所述待识别pdf文档进行预处理,选中所述待识别pdf文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值;所述四维度量值包括:x轴坐标值、y轴坐标值、宽度以及高度;
7.在所述待识别pdf文档的文档类型为指定类型的情况下,量取所述待识别pdf文档中两条数据之间的间隔距离,并将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别pdf文档对应的excel数据存储模板中;
8.根据所述excel数据存储模板,配置所述待识别pdf文档对应的xml配置文件,并调用所述xml配置文件中的坐标信息,获取所述待识别pdf文档中的数据,实现对pdf文档的数据识别。
9.在本技术的一种实现方式中,所述接收待识别pdf文档,以确定所述待识别pdf文档对应的文档类型,具体包括:
10.接收待识别pdf文档,并获取所述待识别pdf文档中的表头信息;
11.确定出所述表头信息中的关键词,并根据所述关键词,确定所述待识别pdf文档对应的文档类型;所述文档类型至少包括以下一种:合同文本类型、银行回单类型。
12.在本技术的一种实现方式中,所述根据所述文档类型,构建所述待识别pdf文档对应的excel数据存储模板,具体包括:
13.确定出所述待识别pdf文档对应的若干个关键字段信息;
14.基于所述待识别pdf文档对应的文档类型,并根据所述待识别pdf文档对应的若干
个关键字段信息,构建所述待识别pdf文档对应的excel数据存储模板。
15.在本技术的一种实现方式中,所述通过adobe acrobat软件对所述待识别pdf文档进行预处理,选中所述待识别pdf文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值,具体包括:
16.在adobe acrobat软件中,将所述待识别pdf对应页面的标尺单位调整为点,并将所述页面中的光标位置坐标进行显示;
17.通过矩形框将所述待识别pdf文档中的关键字段信息进行选中,并得到所述待识别pdf文档对应的多个待识别区域;
18.将光标放置于待识别区域对应矩形框的左上角,获取所述待识别区域对应的x轴坐标值、y轴坐标值、宽度以及高度。
19.在本技术的一种实现方式中,所述在所述待识别pdf文档的文档类型为指定类型的情况下,量取所述待识别pdf文档中两条数据之间的间隔距离之前,所述方法还包括:
20.确定所述待识别pdf文档对应的文档类型是否为指定类型,并在所述待识别pdf文档对应的文档类型不是指定类型的情况下,完成对pdf文档的数据识别;
21.所述将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别pdf文档对应的excel数据存储模板中之前,所述方法还包括:
22.分别确定出所述多个待识别区域对应的关键字段信息,并将待识别pdf文档中两条数据之间的间隔距离,以及每个待识别区域对应的x轴坐标值、y轴坐标值、宽度及高度,存储至所述excel数据存储模板中对应的关键字段信息中。
23.在本技术的一种实现方式中,所述在所述待识别pdf文档的文档类型为指定类型的情况下,量取所述待识别pdf文档中两条数据之间的间隔距离,具体包括:
24.在确定出所述待识别pdf文档对应的文档类型为指定类型的情况下,基于所述指定类型的待识别pdf文档的特性,确定出所述待识别pdf文档中两条数据重复出现的同一位置边框;
25.量取所述两条数据中所述同一位置边框之间的垂直间隔距离,以得到所述两条数据之间的间隔距离。
26.在本技术的一种实现方式中,所述根据所述excel数据存储模板,配置所述待识别pdf文档对应的xml配置文件,并调用所述xml配置文件中的坐标信息,获取所述待识别pdf文档中的数据,实现对pdf文档的数据识别,具体包括:
27.根据所述待识别pdf文档对应的excel数据存储模板中的坐标信息,配置所述待识别pdf文档对应的xml配置文件,并根据所述对应的xml配置文件,生成所述待识别pdf文档对应的执行实例;
28.运行所述待识别pdf文档对应的执行实例,并调用所述excel数据存储模板中的坐标信息;
29.根据所述坐标信息,找到所述坐标信息对应的待识别区域,并读取所述待识别区域对应的pdf文档数据,实现对pdf文档的数据识别。
30.在本技术的一种实现方式中,所述根据所述待识别pdf文档对应的excel数据存储模板中的坐标信息,配置所述待识别pdf文档对应的xml配置文件之后,所述方法还包括:
31.针对指定类型的待识别pdf文档,确定出所述待识别pdf文档对应的数据条数,并
根据所述数据条数,在所述待识别pdf文档的xml配置文件中,配置对应数量个数据标签。
32.另一方面,本技术实施例还提供了一种基于界面坐标的pdf文档数据识别设备,所述设备包括:
33.至少一个处理器;
34.以及,与所述至少一个处理器通信连接的存储器;
35.其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种基于界面坐标的pdf文档数据识别方法。
36.另一方面,本技术实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
37.如上述的一种基于界面坐标的pdf文档数据识别方法。
38.本技术实施例提供了一种基于界面坐标的pdf文档数据识别方法、设备及介质,至少包括以下有益效果:
39.通过对待识别pdf文档进行预处理,选中待识别pdf文档中的多个待识别区域,进而能够通过adobe acrobat软件,分别获取到多个待识别区域对应的思维度量值;针对指定类型的待识别pdf文档,还需量取待识别pdf文档中两条数据之间的间隔距离,将间隔距离以及四维度量值存储至excel数据存储模板中;根据excel数据存储模板中待识别区域对应的坐标信息,配置对应的xml配置文件,并通过调用xml配置文件,获取对应位置处的pdf文档数据,实现了对pdf文档数据的自动化识别,节省了大量的人力物力资源,提高了工作效率。
附图说明
40.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
41.图1为本技术实施例提供的一种基于界面坐标的pdf文档数据识别方法的流程示意图;
42.图2为本技术实施例提供的一种基于界面坐标的pdf文档数据识别设备的内部结构示意图。
具体实施方式
43.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
44.本技术实施例提供了一种基于界面坐标的pdf文档数据识别方法、设备及介质,通过对待识别pdf文档进行预处理,选中待识别pdf文档中的多个待识别区域,进而能够通过adobe acrobat软件,分别获取到多个待识别区域对应的思维度量值;针对指定类型的待识别pdf文档,还需量取待识别pdf文档中两条数据之间的间隔距离,将间隔距离以及四维度量值存储至excel数据存储模板中;根据excel数据存储模板中待识别区域对应的坐标信
息,配置对应的xml配置文件,并通过调用xml配置文件,获取对应位置处的pdf文档数据,实现了对pdf文档数据的自动化识别,节省了大量的人力物力资源,提高了工作效率。解决了现有技术无法提供适配的pdf文档识别方式,通过人工的方式获取pdf文档中的数据时,操作较为繁琐,浪费大量的人力物力资源的技术问题。
45.下面通过附图对本技术实施例提出的技术方案进行详细的说明。
46.图1为本技术实施例提供的一种基于界面坐标的pdf文档数据识别方法的流程示意图。如图1所示,本技术实施例提供的一种基于界面坐标的pdf文档数据识别方法主要包括以下步骤:
47.101、接收待识别pdf文档,以确定待识别pdf文档对应的文档类型,并根据文档类型,构建待识别pdf文档对应的excel数据存储模板。
48.为了解决现有技术无法识别pdf文档数据的缺陷,本技术接收待识别pdf文档,并确定出每个待识别pdf文档对应的文档类型,从而根据待识别pdf文档对应的文档类型,构建出对应待识别pdf文档的excel数据存储模板。
49.具体地,服务器接收待识别pdf文档,并获取待识别pdf文档中的表头信息,然后确定出表头信息中的关键词,并根据关键词,确定待识别pdf文档对应的文档类型。需要说明的是,本技术实施例中的文档类型至少包括以下一种:合同文本类型、银行回单类型。
50.服务器确定出待识别pdf文档对应的若干个关键字段信息,然后基于待识别pdf文档对应的文档类型并根据待识别pdf文档对应的若干个关键字段信息,构建出待识别pdf文档对应的excel数据存储模板。
51.102、通过adobe acrobat软件对待识别pdf文档进行预处理,选中待识别pdf文档中的多个待识别区域,并分别获取多个待识别区域的四维度量值。
52.本技术通过adobe acrobat软件打开待识别pdf文档,并对待识别pdf文档进行一系列的预处理,然后选中待识别pdf文档中的多个待识别区域,进而分别获取待识别pdf文档中每个待识别区域对应的四维度量值。
53.需要说明的是,本技术实施例中的四维度量值包括:x轴坐标值、y轴坐标值、宽度以及高度。
54.具体地,在adobe acrobat软件中,首先,服务器将待识别pdf对应页面的标尺单位调整为点,并将页面中的光标位置坐标进行显示。其次,服务器通过矩形框将待识别pdf文档中的关键字段信息进行选中,并得到待识别pdf文档对应的多个待识别区域。然后,服务器将光标放置于待识别区域对应矩形框的左上角,获取待识别区域对应的x轴坐标值、y轴坐标值、宽度以及高度。
55.103、在待识别pdf文档的文档类型为指定类型的情况下,量取待识别pdf文档中两条数据之间的间隔距离,并将间隔距离以及多个待识别区域对应的四维度量值,存储至待识别pdf文档对应的excel数据存储模板中。
56.针对指定类型的待识别pdf文档的特性,服务器还需要量取指定类型待识别pdf文档中两条数据之间的间隔距离,进而将间隔距离以及多个待识别区域对应的x轴坐标值、y轴坐标值、宽度及高度存储至excel数据存储模板中。
57.具体地,服务器在确定出待识别pdf文档对应的文档类型为指定类型的情况下,基于指定类型的待识别pdf文档的特性,能够确定出待识别pdf文档中两条数据重复出现的同
一位置边框,然后量取两条数据中同一位置边框之间的垂直间隔距离,以得到两条数据之间的间隔距离。
58.在本技术的一个实施例中,服务器在待识别pdf文档的文档类型为指定类型的情况下,量取待识别pdf文档中两条数据之间的间隔距离之前,需要确定出待识别pdf文档对应的文档类型是否为指定类型,并在待识别pdf文档对应的文档类型不是指定类型的情况下,完成对pdf文档的数据识别。
59.在本技术的一个实施例中,服务器在将间隔距离以及多个待识别区域对应的四维度量值,存储至待识别pdf文档对应的excel数据存储模板中之前,分别确定出多个待识别区域对应的关键字段信息,并将待识别pdf文档中两条数据之间的间隔距离,以及每个待识别区域对应的x轴坐标值、y轴坐标值、宽度及高度,分别存储至excel数据存储模板中对应的关键字段信息中。
60.104、根据excel数据存储模板,配置待识别pdf文档对应的xml配置文件,并调用xml配置文件中的坐标信息,获取待识别pdf文档中的数据,实现对pdf文档的数据识别。
61.服务器根据待识别pdf文档对应的excel数据存储模板,配置出对应的xml配置文件,并通过调用待识别pdf文档对应的xml配置文件中的坐标信息,能够获取到待识别pdf文档中的数据,从而实现对pdf文档的数据识别。
62.具体地,服务器根据待识别pdf文档对应的excel数据存储模板中的坐标信息,配置待识别pdf文档对应的xml配置文件,并根据对应的xml配置文件,生成待识别pdf文档对应的执行实例,然后,服务器通过运行待识别pdf文档对应的执行实例,调用excel数据存储模板中的坐标信息,进而根据坐标信息,找到坐标信息对应的待识别区域,并读取待识别区域对应的pdf文档数据,实现对pdf文档的数据识别。
63.在本技术的一个实施例中,服务器在根据所述待识别pdf文档对应的excel数据存储模板中的坐标信息,配置所述待识别pdf文档对应的xml配置文件之后,针对指定类型的待识别pdf文档,确定出所述待识别pdf文档对应的数据条数,并根据所述数据条数,在所述待识别pdf文档的xml配置文件中,配置对应数量个数据标签。
64.以上为本技术提出的方法实施例。基于同样的发明构思,本技术实施例还提供了一种基于界面坐标的pdf文档数据识别设备,其结构如图2所示。
65.图2为本技术实施例提供的一种基于界面坐标的pdf文档数据识别设备的内部结构示意图。如图2所示,设备包括:
66.至少一个处理器;
67.以及,与至少一个处理器通信连接的存储器;
68.其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
69.接收待识别pdf文档,以确定待识别pdf文档对应的文档类型,并根据文档类型,构建待识别pdf文档对应的excel数据存储模板;
70.通过adobe acrobat软件对待识别pdf文档进行预处理,选中待识别pdf文档中的多个待识别区域,并分别获取多个待识别区域的四维度量值;
71.在待识别pdf文档的文档类型为指定类型的情况下,量取待识别pdf文档中两条数据之间的间隔距离,并将间隔距离以及多个待识别区域对应的四维度量值,存储至待识别
pdf文档对应的excel数据存储模板中;
72.根据excel数据存储模板,配置待识别pdf文档对应的xml配置文件,并调用xml配置文件中的坐标信息,获取待识别pdf文档中的数据,实现对pdf文档的数据识别。
73.本技术实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
74.接收待识别pdf文档,以确定待识别pdf文档对应的文档类型,并根据文档类型,构建待识别pdf文档对应的excel数据存储模板;
75.通过adobe acrobat软件对待识别pdf文档进行预处理,选中待识别pdf文档中的多个待识别区域,并分别获取多个待识别区域的四维度量值;
76.在待识别pdf文档的文档类型为指定类型的情况下,量取待识别pdf文档中两条数据之间的间隔距离,并将间隔距离以及多个待识别区域对应的四维度量值,存储至待识别pdf文档对应的excel数据存储模板中;
77.根据excel数据存储模板,配置待识别pdf文档对应的xml配置文件,并调用xml配置文件中的坐标信息,获取待识别pdf文档中的数据,实现对pdf文档的数据识别。
78.在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等,目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
79.控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以
纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
80.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
81.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
82.本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
83.本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
84.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
85.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
86.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
87.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
88.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
89.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
90.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
91.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
92.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
93.以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
技术特征:
1.一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述方法包括:接收待识别pdf文档,以确定所述待识别pdf文档对应的文档类型,并根据所述文档类型,构建所述待识别pdf文档对应的excel数据存储模板;通过adobe acrobat软件对所述待识别pdf文档进行预处理,选中所述待识别pdf文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值;所述四维度量值包括:x轴坐标值、y轴坐标值、宽度以及高度;在所述待识别pdf文档的文档类型为指定类型的情况下,量取所述待识别pdf文档中两条数据之间的间隔距离,并将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别pdf文档对应的excel数据存储模板中;根据所述excel数据存储模板,配置所述待识别pdf文档对应的xml配置文件,并调用所述xml配置文件中的坐标信息,获取所述待识别pdf文档中的数据,实现对pdf文档的数据识别。2.根据权利要求1所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述接收待识别pdf文档,以确定所述待识别pdf文档对应的文档类型,具体包括:接收待识别pdf文档,并获取所述待识别pdf文档中的表头信息;确定出所述表头信息中的关键词,并根据所述关键词,确定所述待识别pdf文档对应的文档类型;所述文档类型至少包括以下一种:合同文本类型、银行回单类型。3.根据权利要求1所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述根据所述文档类型,构建所述待识别pdf文档对应的excel数据存储模板,具体包括:确定出所述待识别pdf文档对应的若干个关键字段信息;基于所述待识别pdf文档对应的文档类型,并根据所述待识别pdf文档对应的若干个关键字段信息,构建所述待识别pdf文档对应的excel数据存储模板。4.根据权利要求1所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述通过adobe acrobat软件对所述待识别pdf文档进行预处理,选中所述待识别pdf文档中的多个待识别区域,并分别获取所述多个待识别区域的四维度量值,具体包括:在adobe acrobat软件中,将所述待识别pdf对应页面的标尺单位调整为点,并将所述页面中的光标位置坐标进行显示;通过矩形框将所述待识别pdf文档中的关键字段信息进行选中,并得到所述待识别pdf文档对应的多个待识别区域;将光标放置于待识别区域对应矩形框的左上角,获取所述待识别区域对应的x轴坐标值、y轴坐标值、宽度以及高度。5.根据权利要求1所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述在所述待识别pdf文档的文档类型为指定类型的情况下,量取所述待识别pdf文档中两条数据之间的间隔距离之前,所述方法还包括:确定所述待识别pdf文档对应的文档类型是否为指定类型,并在所述待识别pdf文档对应的文档类型不是指定类型的情况下,完成对pdf文档的数据识别;所述将所述间隔距离以及所述多个待识别区域对应的四维度量值,存储至所述待识别pdf文档对应的excel数据存储模板中之前,所述方法还包括:分别确定出所述多个待识别区域对应的关键字段信息,并将待识别pdf文档中两条数
据之间的间隔距离,以及每个待识别区域对应的x轴坐标值、y轴坐标值、宽度及高度,存储至所述excel数据存储模板中对应的关键字段信息中。6.根据权利要求1所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述在所述待识别pdf文档的文档类型为指定类型的情况下,量取所述待识别pdf文档中两条数据之间的间隔距离,具体包括:在确定出所述待识别pdf文档对应的文档类型为指定类型的情况下,基于所述指定类型的待识别pdf文档的特性,确定出所述待识别pdf文档中两条数据重复出现的同一位置边框;量取所述两条数据中所述同一位置边框之间的垂直间隔距离,以得到所述两条数据之间的间隔距离。7.根据权利要求1所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述根据所述excel数据存储模板,配置所述待识别pdf文档对应的xml配置文件,并调用所述xml配置文件中的坐标信息,获取所述待识别pdf文档中的数据,实现对pdf文档的数据识别,具体包括:根据所述待识别pdf文档对应的excel数据存储模板中的坐标信息,配置所述待识别pdf文档对应的xml配置文件,并根据所述对应的xml配置文件,生成所述待识别pdf文档对应的执行实例;运行所述待识别pdf文档对应的执行实例,并调用所述excel数据存储模板中的坐标信息;根据所述坐标信息,找到所述坐标信息对应的待识别区域,并读取所述待识别区域对应的pdf文档数据,实现对pdf文档的数据识别。8.根据权利要求7所述的一种基于界面坐标的pdf文档数据识别方法,其特征在于,所述根据所述待识别pdf文档对应的excel数据存储模板中的坐标信息,配置所述待识别pdf文档对应的xml配置文件之后,所述方法还包括:针对指定类型的待识别pdf文档,确定出所述待识别pdf文档对应的数据条数,并根据所述数据条数,在所述待识别pdf文档的xml配置文件中,配置对应数量个数据标签。9.一种基于界面坐标的pdf文档数据识别设备,其特征在于,所述设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8任一项所述的一种基于界面坐标的pdf文档数据识别方法。10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:如权利要求1-8任一项所述的一种基于界面坐标的pdf文档数据识别方法。
技术总结
本申请公开了一种基于界面坐标的PDF文档数据识别方法、设备及介质,用以解决现有技术无法提供适配的PDF文档识别方式,操作繁琐且浪费人力物力资源的问题。方法包括:接收待识别PDF文档确定对应文档类型并根据文档类型构建对应Excel数据存储模板;预处理待识别PDF文档选中待识别PDF文档的多个待识别区域并分别获取多个四维度量值;在待识别PDF文档的文档类型为指定类型时量取待识别PDF文档中两条数据间的间隔距离并将间隔距离及多个待识别区域对应的四维度量值存储至Excel数据存储模板;根据Excel数据存储模板配置待识别PDF文档的XML配置文件并调用XML配置文件中的坐标信息获取待识别PDF文档中的数据实现对PDF文档的数据识别。的数据识别。的数据识别。
技术研发人员:万迅飞
受保护的技术使用者:浪潮通用软件有限公司
技术研发日:2023.05.08
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
