一种基于数据标签海量网页的数据提取识别方法和系统与流程
未命名
08-15
阅读:142
评论:0
1.本发明涉及网页数据提取的技术领域,尤其是一种基于数据标签海量网页的数据提取识别方法和系统。
背景技术:
2.现今的网页数据提取识别大多是对网页文本的提取。具体来说就是将网页数据保存成海量图片快照,再通过ocr、机器学习等技术手段扫描辨识图片快照,将图片快照中的内容还原成文本。
3.目前网页数据识别提取仅仅是做到将网页中的内容提取成文本;并没有深入理解提取的文本的含义。
技术实现要素:
4.为了解决现有技术中存在的上述技术问题,本发明提出了一种基于数据标签海量网页的数据提取识别方法和系统,以解决上述技术问题。
5.根据本发明的一个方面,提出了一种基于数据标签海量网页的数据提取识别方法,包括:
6.s1:获取html文档,html文档包括host、url、http head、http content;
7.s2:利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;
8.s3:利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;
9.s4:根据http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。
10.在一些具体的实施例中,html文档根据请求方式不同html包括http get、http post,http post的请求参数方式包括urlencode、formdata。
11.在一些具体的实施例中,getinfo的属性包括指定解析类型ptype、指定数据来源srcdata、指定自定义处理类class和自定义解码器decode。
12.在一些具体的实施例中,指定解析类型ptype包括:
13.按照url编码规则对数据进行分解和解析,ptype取值为ptcfg_curlencode;
14.按照中间字符串截取方式对数据进行分解和解析,ptype取值为ptcfg_midstr;
15.按照xml文档规范对数据进行分解和解析,ptype取值为ptcfg_xmlpar;
16.按照json对数据进行分解和解析,ptype取值为ptcfg_jsonpar;
17.自定义解析器,指定java类进行处理,class属性配置类名,ptype取值为ptcfg_class;
18.按照http content-type=formdata表单类型对数据进行分解和解析,ptype取值为ptcfg_formdata;
19.按照http head方式对数据分解和解析,ptype取值为ptcfg_headparam。
20.在一些具体的实施例中,指定数据来源srcdata包括:
21.从http post中获取信息,srcdata取值为h_req_postdata,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_formdata、ptcfg_formdataseq、ptcfg_class、ptcfg_xmlpar、ptcfg_jsonpar;
22.从http cookies中获取信息,srcdata取值为h_req_cookie,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;
23.从http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;
24.从http get中获取信息,srcdata取值为h_req_getdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;
25.从http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;
26.从http post中的response获取信息,srcdata取值为h_resp_respdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;
27.从http cookies和http post中获取信息,srcdata取值为h_req_cookiepost,指定解析类型ptype取值包括ptcfg_class;
28.从http head中获取信息,srcdata取值为h_req_httphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;
29.从http response head中获取信息,srcdata取值为h_resp_resphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;
30.从http get head中获取信息,srcdata取值为h_req_gethead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class。
31.在一些具体的实施例中,getinfo提取规则中还包括利用todata定义具体提取项,属性包括元素名name、获取数据方式keystring、自定义编码器decode和指定自定义处理类class。
32.在一些具体的实施例中,元素名name用于设置文本语义表中定义的数据项;获取数据方式keystring用于设置数据获取方式,与ptype属性设置的解析方式一一对应;自定义编码器decode用于设置解码器,在html文档内容与内容提取器编码不一致时,在内容提取前根据解码器设置的规则进行解码后进行内容提取;指定自定义处理类class用于自定义规则以满足个性化需求。
33.根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
34.根据本发明的第三方面,提出了一种基于数据标签海量网页的数据提取识别系统,系统包括:
35.html文档获取单元,配置用于获取html文档,html文档包括host、url、http head、http content;
36.内容提取器,配置用于利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至
匹配到提取模板;利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;根据http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。
37.在一些具体的实施例中,getinfo的属性包括指定解析类型ptype、指定数据来源srcdata、指定自定义处理类class和自定义解码器decode。
38.在一些具体的实施例中,指定解析类型ptype包括:
39.按照url编码规则对数据进行分解和解析,ptype取值为ptcfg_curlencode;
40.按照中间字符串截取方式对数据进行分解和解析,ptype取值为ptcfg_midstr;
41.按照xml文档规范对数据进行分解和解析,ptype取值为ptcfg_xmlpar;
42.按照json对数据进行分解和解析,ptype取值为ptcfg_jsonpar;
43.自定义解析器,指定java类进行处理,class属性配置类名,ptype取值为ptcfg_class;
44.按照http content-type=formdata表单类型对数据进行分解和解析,ptype取值为ptcfg_formdata;
45.按照http head方式对数据分解和解析,ptype取值为ptcfg_headparam。
46.在一些具体的实施例中,指定数据来源srcdata包括:
47.从http post中获取信息,srcdata取值为h_req_postdata,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_formdata、ptcfg_formdataseq、ptcfg_class、ptcfg_xmlpar、ptcfg_jsonpar;
48.从http cookies中获取信息,srcdata取值为h_req_cookie,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;
49.从http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;
50.从http get中获取信息,srcdata取值为h_req_getdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;
51.从http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;
52.从http post中的response获取信息,srcdata取值为h_resp_respdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;
53.从http cookies和http post中获取信息,srcdata取值为h_req_cookiepost,指定解析类型ptype取值包括ptcfg_class;
54.从http head中获取信息,srcdata取值为h_req_httphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;
55.从http response head中获取信息,srcdata取值为h_resp_resphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;
56.从http get head中获取信息,srcdata取值为h_req_gethead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class。
57.在一些具体的实施例中,getinfo提取规则中还包括利用todata定义具体提取项,属性包括元素名name、获取数据方式keystring、自定义编码器decode和指定自定义处理类
class;元素名name用于设置文本语义表中定义的数据项;获取数据方式keystring用于设置数据获取方式,与ptype属性设置的解析方式一一对应;自定义编码器decode用于设置解码器,在html文档内容与内容提取器编码不一致时,在内容提取前根据解码器设置的规则进行解码后进行内容提取;指定自定义处理类class用于自定义规则以满足个性化需求。
58.本发明提出了一种基于数据标签海量网页的数据提取识别方法和系统,可通过标签提取网页内容并还原网页内容的真实含义,还具备一次配置标签模板反复使用的特点。按网站域名进行标签模板配置方便管理,极大提升了网页内容提取的效率和精确度。本发明可以用于海量网页数据内容提取和识别,识别的结果可以作为网站类型识别,不良网站预警,证据提取等。
附图说明
59.包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:
60.图1是本技术的一个实施例的基于数据标签海量网页的数据提取识别方法的流程图;
61.图2是本技术的一个具体的实施例的基于数据标签海量网页的数据提取识别方法的流程图;
62.图3是本技术的一个具体的实施例的提取效果示意图;
63.图4是本技术的一个实施例的基于数据标签海量网页的数据提取识别系统的框架图;
64.图5是适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
65.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
66.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
67.本发明主要结合html语言的特点,通过标签提取网页内容并还原网页内容的真实含义并保存到数据库,图1示出了根据本技术的实施例的基于数据标签海量网页的数据提取识别方法的流程图。如图1所示,该方法包括:
68.s101:获取html文档,html文档包括host、url、http head、http content。
69.在具体的实施例中,本技术文本语义表定义如下:
70.数据项名词数据项描述user_name用户名password密码
order_num订单号phone电话email邮箱order_time下单时间longitude经度latitude纬度content消息内容file_name文件内容weixin微信speciality专长goods_name物品名称
71.文本语义表是根据具体业务需求定义的,定义了要提取的内容;html内容提取器将提取到的内容存储为对应的语义字段。文本语义表可根据业务需求进行新增和变更,最大化贴合业务。
72.在具体的实施例中,标签是根据html超文本标记语言的特点而设计的,一份html文档包含host、url、http head、http content等;而根据请求的方式不同又包含http get、http post等;http post请求参数方式分为urlencode、formdata等;标签的设计涵盖了html文档的各个部分。
73.s102:利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板。
74.在具体的实施例中,hostinfo元素属性如下表:
[0075][0076]
hostinfo用于标记http host部分;包含3个属性,host、hostid、desc。其中:
[0077]
host属性必填,html内容提取器将根据host属性匹配对应的提取模板。
[0078]
html内容提取器是根据host逐级匹配,优选选择完全匹配的,而后匹配各级子域名,直至匹配到提取模板。
[0079]
hostid属性是针对每个host的唯一编码,通常一个host对应一个编码不得重复。
[0080]
desc属性是对host的描述,注明host的分类用途等,后期维护提取模板时用到。
[0081]
s103:利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则。
[0082]
在具体的实施例中,urlinfo元素的属性如下表:
[0083][0084]
urlinfo用于标记http url部分;包含4个属性,url、urlid、dec、fullmatch。
[0085]
其:
[0086]
url属性必填,html内容提取器将根据url属性在对应的提取模板中匹配符合的提取规则;默认非完全匹配,即http url包含url内容表示匹配命中,也可将fullmatch属性设置未true,即严格匹配,当且仅当http url和url内容完全匹配才表示匹配命中。
[0087]
urlid属性是针对同一个host提取模板下每个url的唯一编码,通常一个url对应一个编码不得重复。
[0088]
dec属性是对url的描述,注明url的分类用途等,后期维护提取模板时用到。
[0089]
fullmatch属性即http url匹配模式,默认为false表示模糊匹配,true为精准匹配。
[0090]
s104:根据http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。
[0091]
在具体的实施例中,getinfo元素的属性如下表:
[0092]
[0093]
getinfo用于定义具体的提取规则,html内容提取器根据http host和http url匹配到对应的提取模板后,将根据提取模板内定义的getinfo提取规则进行内容提取。getinfo包含4个属性,ptype、srcdata、class、decode。其中:
[0094]
ptype用于设置解析类型;具体内容详见下文中的ptype章节。
[0095]
srcdata用于设置提取http文档的哪部分内容;具体内容详见下文中的srcdata章节。
[0096]
class用于设置自定义提取器,当模块自带的提取规则无法满足需求时,可通过自定义提取器来实现个性化需求。
[0097]
decode用于设置解码器,当http文档内容与html内容提取器编码不一致时,decode属性用于设置解码器,在内容提取前将根据解码器设置的规则进行解码,解码完成后才进行下一步的内容提取。
[0098]
在具体的实施例中,ptype用于指定解析类型,具体的取值及对应配置如下表:
[0099][0100]
在具体的实施例中,srcdata用于指定数据来源,具体的取值及对应配置如下表:
[0101][0102][0103]
在具体的实施例中,还包括todata元素,其属性具体如下表:
[0104][0105][0106]
todata用于定义具体的提取项,包含4个属性name、keystring、decode、classs。
[0107]
其中:
[0108]
name属性必填,用于设置文本语义表中定义的数据项。
[0109]
keystring属性必填,用于设置数据获取方式,与ptype属性设置的解析方式一一对应,ptype指定解析方式,具体获取则是通过keystring属性来支持。
[0110]
decode用于设置解码器,当http文档内容与html内容提取器编码不一致时,decode属性用于设置解码器,在内容提取前将根据解码器设置的规则进行解码,解码完成后才进行下一步的内容提取。
[0111]
class属性用于自定义规则,当模块自带的提取规则无法满足需求时,可通过自定义规则来实现个性化需求。
[0112]
在一个具体的实施例中,图2示出了本技术的一个具体的实施例的基于数据标签海量网页的数据提取识别方法的流程图,如图2所示,原始网页内容经过html内容还原器还原,然后通过html内容提取器进行提取,最终获得提取的结果,具体提取模板如下:
[0113][0114][0115]
提取模板的作用和效果如图3中示出的根据本技术的一个具体的实施例的提取效果示意图,可以看出对原始内容中的host、url、order_time和user name的具体内容,通过html内容提取器,加载提取模板,根据模板中配置的host和url匹配提取规则,根据提取规则提取内容,最终准确获得相应的提取结果。
[0116]
本技术通过标签提取网页内容并还原网页内容的真实含义,具备一次配置标签模板反复使用的特点;可按网站域名进行标签模板配置方便管理。极大提升了网页内容提取的效率和精确度。
[0117]
继续参考图4,图4示出了根据本发明的实施例的基于数据标签海量网页的数据提取识别系统的框架图。该系统具体包括html文档获取单元301和内容提取器302。其中,html文档获取单元301配置用于获取html文档,html文档包括host、url、http head、http content;内容提取器302配置用于利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;根据http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。
[0118]
下面参考图5,其示出了适于用来实现本技术实施例的电子设备的计算机系统的
结构示意图。图5示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0119]
如图5所示,计算机系统包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有系统500操作所需的各种程序和数据。cpu 501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0120]
以下部件连接至i/o接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
[0121]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时,执行本技术的方法中限定的上述功能。需要说明的是,本技术的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0122]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广
域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0123]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0124]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
[0125]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取html文档,html文档包括host、url、http head、http content;利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;根据http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。
[0126]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种基于数据标签海量网页的数据提取识别方法,其特征在于,包括:s1:获取html文档,所述html文档包括host、url、http head、http content;s2:利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;s3:利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;s4:根据所述http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。2.根据权利要求1所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述html文档根据请求方式不同所述html包括http get、http post,所述http post的请求参数方式包括urlencode、formdata。3.根据权利要求2所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述getinfo的属性包括指定解析类型ptype、指定数据来源srcdata、指定自定义处理类class和自定义解码器decode。4.根据权利要求3所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述指定解析类型ptype包括:按照url编码规则对数据进行分解和解析,ptype取值为ptcfg_curlencode;按照中间字符串截取方式对数据进行分解和解析,ptype取值为ptcfg_midstr;按照xml文档规范对数据进行分解和解析,ptype取值为ptcfg_xmlpar;按照json对数据进行分解和解析,ptype取值为ptcfg_jsonpar;自定义解析器,指定java类进行处理,class属性配置类名,ptype取值为ptcfg_class;按照http content-type=formdata表单类型对数据进行分解和解析,ptype取值为ptcfg_formdata;按照http head方式对数据分解和解析,ptype取值为ptcfg_headparam。5.根据权利要求4所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述指定数据来源srcdata包括:从所述http post中获取信息,srcdata取值为h_req_postdata,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_formdata、ptcfg_formdataseq、ptcfg_class、ptcfg_xmlpar、ptcfg_jsonpar;从http cookies中获取信息,srcdata取值为h_req_cookie,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;从所述http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;从所述http get中获取信息,srcdata取值为h_req_getdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;从http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;从所述http post中的response获取信息,srcdata取值为h_resp_respdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;
从http cookies和http post中获取信息,srcdata取值为h_req_cookiepost,指定解析类型ptype取值包括ptcfg_class;从http head中获取信息,srcdata取值为h_req_httphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;从http response head中获取信息,srcdata取值为h_resp_resphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;从http get head中获取信息,srcdata取值为h_req_gethead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class。6.根据权利要求1所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述getinfo提取规则中还包括利用todata定义具体提取项,属性包括元素名name、获取数据方式keystring、自定义编码器decode和指定自定义处理类class。7.根据权利要求6所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述元素名name用于设置文本语义表中定义的数据项;所述获取数据方式keystring用于设置数据获取方式,与ptype属性设置的解析方式一一对应;所述自定义编码器decode用于设置解码器,在html文档内容与内容提取器编码不一致时,在内容提取前根据解码器设置的规则进行解码后进行内容提取;所述指定自定义处理类class用于自定义规则以满足个性化需求。8.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至7任一项所述的方法。9.一种基于数据标签海量网页的数据提取识别系统,其特征在于,所述系统包括:html文档获取单元,配置用于获取html文档,所述html文档包括host、url、http head、http content;内容提取器,配置用于利用hostinfo标记http host,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;利用urlinfo标记http url,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;根据所述http host和http url匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。10.根据权利要求9所述的基于数据标签海量网页的数据提取识别系统,其特征在于,所述getinfo的属性包括指定解析类型ptype、指定数据来源srcdata、指定自定义处理类class和自定义解码器decode。11.根据权利要求10所述的基于数据标签海量网页的数据提取识别系统,其特征在于,所述指定解析类型ptype包括:按照url编码规则对数据进行分解和解析,ptype取值为ptcfg_curlencode;按照中间字符串截取方式对数据进行分解和解析,ptype取值为ptcfg_midstr;按照xml文档规范对数据进行分解和解析,ptype取值为ptcfg_xmlpar;按照json对数据进行分解和解析,ptype取值为ptcfg_jsonpar;自定义解析器,指定java类进行处理,class属性配置类名,ptype取值为ptcfg_class;按照http content-type=formdata表单类型对数据进行分解和解析,ptype取值为ptcfg_formdata;
按照http head方式对数据分解和解析,ptype取值为ptcfg_headparam。12.根据权利要求11所述的基于数据标签海量网页的数据提取识别系统,其特征在于,所述指定数据来源srcdata包括:从所述http post中获取信息,srcdata取值为h_req_postdata,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_formdata、ptcfg_formdataseq、ptcfg_class、ptcfg_xmlpar、ptcfg_jsonpar;从http cookies中获取信息,srcdata取值为h_req_cookie,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;从所述http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;从所述http get中获取信息,srcdata取值为h_req_getdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;从http url中获取信息,srcdata取值为h_req_url,指定解析类型ptype取值包括ptcfg_curlencode、ptcfg_midstr、ptcfg_class;从所述http post中的response获取信息,srcdata取值为h_resp_respdata,指定解析类型ptype取值包括ptcfg_midstr、ptcfg_jsonpar、ptcfg_class;从http cookies和http post中获取信息,srcdata取值为h_req_cookiepost,指定解析类型ptype取值包括ptcfg_class;从http head中获取信息,srcdata取值为h_req_httphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;从http response head中获取信息,srcdata取值为h_resp_resphead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class;从http get head中获取信息,srcdata取值为h_req_gethead,指定解析类型ptype取值包括ptcfg_headparam、ptcfg_midstr、ptcfg_class。13.根据权利要求9所述的基于数据标签海量网页的数据提取识别系统,其特征在于,所述getinfo提取规则中还包括利用todata定义具体提取项,属性包括元素名name、获取数据方式keystring、自定义编码器decode和指定自定义处理类class;所述元素名name用于设置文本语义表中定义的数据项;所述获取数据方式keystring用于设置数据获取方式,与ptype属性设置的解析方式一一对应;所述自定义编码器decode用于设置解码器,在html文档内容与内容提取器编码不一致时,在内容提取前根据解码器设置的规则进行解码后进行内容提取;所述指定自定义处理类class用于自定义规则以满足个性化需求。
技术总结
公开了基于数据标签海量网页的数据提取识别方法和系统,包括获取HTML文档,HTML文档包括HOST、URL、HTTP HEAD、HTTP CONTENT;利用hostinfo标记HTTP HOST,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;利用urlinfo标记HTTP URL,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;根据HTTP HOST和HTTP URL匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。本申请通过标签提取网页内容并还原网页内容的真实含义,具备一次配置标签模板反复使用的特点,按网站域名进行标签模板配置方便管理,极大提升了网页内容提取的效率和精确度。极大提升了网页内容提取的效率和精确度。极大提升了网页内容提取的效率和精确度。
技术研发人员:张文 张永光 刘襄雄 许一郎 古松景 倪艳玉
受保护的技术使用者:厦门市美亚柏科信息股份有限公司
技术研发日:2022.11.28
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种双糖取代花色苷的制备方法 下一篇:一种电池异常检测方法及系统与流程
