数据采集方法、装置、设备及存储介质与流程

未命名 08-03 阅读:92 评论:0


1.本发明涉及计算机技术领域,尤其涉及一种数据采集方法、装置、设备及存储介质。


背景技术:

2.现有技术中通过访问相关链接的方式能够有效的获取网页的相关信息,但随着近几年网络的大力发展,网页的格式发生了变化,其中各种网络框架(例如:vue)的兴起和不断的完善,反爬虫,反机器爬虫的识别逐步加强,使得我们快速准确获取相关信息的难度加大。直接通过链接获取文件的方式在信息获取,深度爬取,网页规避反爬等方面严重不足。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供了一种数据采集方法、装置、设备及存储介质,旨在解决现有技术无法直接采集采用安全策略的文件或需要定制化破解策略进行采集导致采集难度大和成本高的技术问题。
5.为实现上述目的,本发明提供了一种数据采集方法,所述方法包括以下步骤:
6.在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;
7.基于所述文件地址信息查找所述待采集文件对应的安全策略;
8.根据所述安全策略确定对应的破解策略;
9.通过所述破解策略采集所述待采集文件对应的数据。
10.可选地,所述通过所述破解策略采集所述待采集文件对应的数据的步骤,包括:
11.根据所述破解策略确定采集任务;
12.将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。
13.可选地,所述在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息的步骤之后,还包括:
14.获取用户基于所述文件地址信息在预设配置页面发送的操作指令;
15.根据所述操作指令确定对应的破解策略;
16.通过所述破解策略采集所述待采集文件对应的数据。
17.可选地,所述在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息的步骤之后,还包括:
18.根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;
19.根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;
20.通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。
21.可选地,所述通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据的步骤,包括:
22.获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;
23.根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。
24.可选地,所述根据所述安全策略确定对应的破解策略的步骤,包括:
25.获取预设采集策略映射表;
26.从所述预设采集策略映射表中查找所述安全策略对应的破解策略。
27.可选地,所述通过所述破解策略采集所述待采集文件对应的数据的步骤之后,还包括:
28.根据所述文件地址信息确定所述待采集文件的安全策略;
29.将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
30.可选地,所述根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果的步骤之前,还包括:
31.获取样本训练数据;
32.通过所述样本训练数据对初始协议识别模型进行训练,获得训练后的目标模型;
33.将所述训练后的目标模型作为所述预设协议识别模型。
34.可选地,所述通过所述破解策略采集所述待采集文件对应的数据的步骤之后,还包括:
35.获取用户在预设配置页面选取的文件筛选信息;
36.根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据。
37.可选地,所述根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据的步骤,包括:
38.在所述文件筛选信息中包含正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,获得匹配结果;
39.根据所述匹配结果确定目标数据。
40.此外,为实现上述目的,本发明还提供一种数据采集装置,所述装置包括:
41.接收模块,用于在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;
42.查找模块,用于基于所述文件地址信息查找所述待采集文件对应的安全策略;
43.破解策略确定模块,用于根据所述安全策略确定对应的破解策略;
44.采集模块,用于通过所述破解策略采集所述待采集文件对应的数据。
45.可选地,所述采集模块,还用于根据所述破解策略确定采集任务;将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。
46.可选地,所述接收模块,还用于获取用户基于所述文件地址信息在预设配置页面发送的操作指令;根据所述操作指令确定对应的破解策略;通过所述破解策略采集所述待
采集文件对应的数据。
47.可选地,所述接收模块,还用于根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。
48.可选地,所述接收模块,还用于获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。
49.可选地,所述破解策略确定模块,还用于获取预设采集策略映射表;从所述预设采集策略映射表中查找所述安全策略对应的破解策略。
50.可选地,所述采集模块,还用于根据所述文件地址信息确定所述待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
51.可选地,所述接收模块,还用于获取样本训练数据;通过所述样本训练数据对初始协议识别模型进行训练,获得训练后的目标模型;将所述训练后的目标模型作为所述预设协议识别模型。
52.可选地,所述采集模块,还用于在所述文件筛选信息中包含正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,获得匹配结果;根据所述匹配结果确定目标数据。
53.可选地,所述采集模块,还用于在所述文件筛选信息中包含正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,获得匹配结果;根据所述匹配结果确定目标数据。
54.此外,为实现上述目的,本发明还提出一种数据采集设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序配置为实现如上文所述的数据采集方法的步骤。
55.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如上文所述的数据采集方法的步骤。
56.本发明在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;基于所述文件地址信息查找所述待采集文件对应的安全策略;根据所述安全策略确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。由于本发明是根据数据采集指令确定待采集文件的文件地址信息;基于文件地址信息查找待采集文件对应的安全策略;根据安全策略确定对应的破解策略;通过破解策略采集待采集文件对应的数据。相对于现有的无法直接采集采用安全策略的文件或需要定制化破解策略进行采集的方式,本发明上述方式能够适用于多种文件采集场景,提高了采集效率。
附图说明
57.图1是本发明实施例方案涉及的硬件运行环境的数据采集设备的结构示意图;
58.图2为本发明数据采集方法第一实施例的流程示意图;
59.图3为本发明数据采集方法第二实施例的部分流程示意图;
60.图4为本发明数据采集方法第三实施例的部分流程示意图;
61.图5为本发明数据采集装置第一实施例的结构框图。
62.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
63.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
64.参照图1,图1为本发明实施例方案涉及的硬件运行环境的数据采集设备结构示意图。
65.如图1所示,该数据采集设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
66.本领域技术人员可以理解,图1中示出的结构并不构成对数据采集设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
67.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据采集程序。
68.在图1所示的数据采集设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明数据采集设备中的处理器1001、存储器1005可以设置在数据采集设备中,所述数据采集设备通过处理器1001调用存储器1005中存储的数据采集程序,并执行本发明实施例提供的数据采集方法。
69.基于上述数据采集设备,本发明实施例提供了一种数据采集方法,参照图2,图2为本发明数据采集方法第一实施例的流程示意图。
70.本实施例中,所述数据采集方法包括以下步骤:
71.步骤s10:在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息。
72.需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,或者是一种能够实现上述功能的电子设备或数据采集系统。以下以所述数据采集系统为例,对本实施例及下述各实施例进行说明。
73.需要说明的是,所述数据采集指令可以包括用户在预设配置页面输入的待采集的文件的路径以及采集时间、采集配置参数等信息的命令,例如,可包括采集文件的链接、采集的深度、采集的频率、采集文件时的代理ip地址等信息。所述预设配置页面可以是所述数据采集系统中的根据用户输入的信息生成数据采集指令的页面。本实施例中,为了提供脱离代码层面的数据采集,开发了一套完整的数据采集系统,用户可在所述数据采集系统的配置页面中,输入待采集文件的链接,选择采集的时间、频率、代理地址等信息即可开始采集,提高了采集效率。所述文件地址信息可以包括所述待采集文件对应的http协议、接收文
件类型、接收请求的类型以及采用的加密方式和限制策略等,例如:接收请求的类型可以是get请求或post请求等,限制策略可以是同一ip地址不能连续采集的次数或请求的频率不能大于预设次数等。所述文件地址信息可以是能够确定所述待采集文件采取的安全策略的相关信息。
74.步骤s20:基于所述文件地址信息查找所述待采集文件对应的安全策略。
75.需要说明的是,所述安全策略可以是所述待采集文件采取的加密策略、反爬取策略等限制用户获取所述待采集文件的策略。例如,某待采集文件对应的安全策略可以是限制同一ip地址在一个时间周期内的的访问次数不能大于预设次数,预设次数可以是预先设置的次数阈值。例如,若同一ip地址在一个时间周期内,例如一天内的访问次数若大于30次时,则拒绝所述ip地址的访问请求。也可以是通过设置验证码的方式禁止用户获取数据,例如,添加一个验证码弹框,若没有准确输入的话就把该ip记录进黑名单。拒绝该ip的后续访问请求。
76.步骤s30:根据所述安全策略确定对应的破解策略。
77.需要说明的是,所述破解策略可以是破解所述安全策略以达到采集所述待采集文件中的数据的策略,例如,当安全策略为同一ip在一天内的访问次数不能大于30次时,其对应的破解策略可以是在某ip访问的次数等于或小于30次时,通过ip代理的方式更改ip地址,通过更改后的ip地址发送访问请求,获取数据。又或者是,若安全策略为通过设置验证码的方式限制访问,则获取验证码对应的验证码图像,基于图像识别技术识别所述验证码图像中的信息,确定正确的验证码,进而实现对安全策略的破解。
78.进一步的,为了提高采集效率,快速、准确的确定所述安全策略对应的破解策略。所述步骤s30,可包括:获取预设采集策略映射表;从所述预设采集策略映射表中查找所述安全策略对应的破解策略。
79.需要说明的是,所述预设采集策略映射表可以是预先生成的安全策略和破解策略的对应关联表,例如,所述预设采集策略映射表中可以是,当安全策略为限制同一ip在一天内的访问次数时,其对应的破解策略可以是每隔一定时间更换一次代理ip;若安全策略为验证码策略时,则对应的破解策略可以是采用图像识别技术识别验证码图像中的信息,完成用户验证,进而采集待采集文件中的数据。
80.步骤s40:通过所述破解策略采集所述待采集文件对应的数据。
81.需要说明的是,所述通过所述破解策略采集所述待采集文件对应的数据可以是根据所述破解策略通过所述安全策略中的访问限制,以实现待采集文件对应的数据的采集。其中,待采集文件可能同时采取多个安全策略,此时,需要通过多个安全策略对应的破解策略共同实现待采集文件的采集。
82.进一步的,为了提高数据采集的效率,所述步骤s40,可包括:根据所述破解策略确定采集任务;将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。
83.需要说明的是,本实施例中为了提高数据采集的效率,通过分布式的方式进行数据的采集,所述采集任务可以是分布至分布式中各个采集服务器的采集任务,可通过破解策略的数量或待采集文件的大小等信息进行分配,例如,当根据破解策略确定采集任务时,可以根据破解策略的数量确定分布式采集服务器的数量,将采集任务均匀的分布至所述分
布式采集服务器中。并监控采集过程,在采集速度过慢时,可通过扩容的方式增加采集服务器的数量进行数据的采集,提高数据采集的效率。也可通过待采集文件的大小为各个采集服务器分配采集任务或设置采集服务器的数量,以提高采集效率,在具体实施中也可通过其他分配方式分配采集任务以及添加采集服务器的数量,本实施例在此不加以限制。
84.进一步的,直接采集的待采集文件对应的数据可能过于冗余,且数据较多,为了从冗余的数据中提取出用户需求的目标数据,所述步骤s40之后,还包括:获取用户在预设配置页面选取的文件筛选信息;根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据。
85.需要说明的是,所述预设配置页面可以是数据采集系统中的可视化页面,其提供了友好的用户操作界面,用户可通过该配置页面直接配置相关的采集参数,例如,采集深度、数据筛选的条件、筛选的正则表达式等,实现完全脱离代码层面的数据采集。所述文件筛选信息可以是对采集到的数据进行数据处理的规则信息。可以是从采集到的海量的所述待采集文件对应的数据中筛选出用户需求的目标数据的条件或规则。例如,对采集到的表单数据进行排序处理或从中提取目标数据,或只提取能够通过用户输入的正则表达式的验证的数据等。
86.进一步的,为了提高数据处理的效率,所述根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据的步骤,包括:在所述文件筛选信息中包含正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,获得匹配结果;根据所述匹配结果确定目标数据。
87.应理解的是,用户可在预设配置页面中输入对采集到的数据进行数据处理的规则等信息,进而实现对数据的筛选,提取目标数据,其中,可输入正则表达式,数据采集系统在检测到用户输入的正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,将通过所述正则表达式的数据作为所述目标数据。
88.本实施例在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;基于所述文件地址信息查找所述待采集文件对应的安全策略;根据所述安全策略确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。由于本实施例是根据数据采集指令确定待采集文件的文件地址信息;基于文件地址信息查找待采集文件对应的安全策略;根据安全策略确定对应的破解策略;通过破解策略采集待采集文件对应的数据。相对于现有的无法直接采集采用安全策略的文件或需要定制化破解策略进行采集的方式,本实施例上述方式能够适用于多种文件采集场景,提高了采集效率。
89.参考图3,图3为本发明数据采集方法第二实施例的部分流程示意图。
90.基于上述第一实施例,在本实施例中,所述步骤s10之后,还包括:
91.步骤s50:根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果。
92.需要说明的是,所述预设协议识别模型可以是经过训练能够识别所述文件地址信息中的请求类型、header、url、body以及http协议等信息的模型。所述协议识别结果可以是所述文件地址信息中的http协议、请求类型、url等结果。
93.进一步的,为了提高采集效率,所述步骤s50步骤之前,还包括:获取样本训练数据;通过所述样本训练数据对初始协议识别模型进行训练,获得训练后的目标模型;将所述
训练后的目标模型作为所述预设协议识别模型。
94.需要说明的是,所述样本训练数据可以是用来训练所述初始协议识别模型的数据,其可以包含文件地址信息和其对应的协议识别结果。所述初始协议识别模型可以是神经网络模型。通过包含文件地址信息和其对应的协议识别结果的样本训练数据对神经网络模型进行训练,得到能够识别文件地址信息中的请求类型、header、url、body以及http协议等信息的模型。
95.步骤s60:根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略。
96.需要说明的是,所述预设识别模型在识别出所述文件地址信息对应的协议识别结果时,还能够根据识别出的协议识别结果确定其对应的安全策略,进而根据所述安全策略选取对应的破解策略,根据所述安全策略选取对应的破解策略的步骤可参照上述根据所述安全策略确定对应的破解策略的步骤,本实施例在此不在赘述。
97.步骤s70:通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。
98.需要说明的是,所述协议识别结果中可能包括请求的类型、请求协议等信息,例如,请求的方式是get请求还是post请求。在请求方式为get请求时,在采集所述待采集文件对应的数据时,需要以get请求的方式进行数据采集。在待采集文件采用了安全策略时,还需要通过对应的破解策略进行数据采集。因此,本实施例中,通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。若待采集文件中未使用安全策略进行采集限制,则可直接通过所述协议识别结果采集所述待采集文件对应的数据。
99.进一步的,为了提高用户体验感,限制采集深度和采集时间,不暴露用户的真实ip地址。所述步骤s70,可包括:获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。
100.需要说明的是,所述采集深度可以是采集的层数,例如,设置采集过程中最多采集两层数据,则在采集目标站点的数据时,若目标站点中包含了子站点,则一并采集子站点中的数据,若子站点中还包括了其他站点,由于设置了只采集两层数据,则不采集子站点中包含的其他站点的数据。采集次数可以是用户设置的一定周期内的采集次数,例如,设置的一天之内采集的次数。所述代理地址可以是用户为了不暴露真实的地址或应对待采集文件中的安全策略而采用的通过代理地址的方式进行数据采集。
101.本实施例根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。本实施例通过机器学习,使用模型学习识别header、url、body、请求类型等http协议层面的内容,并识别出安全策略进而选取对应的破解策略,通过一定的配置,控制数据采集的采集深度、代理地址、采集次数等维度。整个采集开发过程,使用模型去实现,用户只需要训练模型学习不同类型请求协议的不同之处和选取对应的破解策略。利用机器替代人工进行数据采集。极大的提升了数据采集的效率。
102.参考图4,图4为本发明数据采集方法第三实施例的部分流程示意图。
103.基于上述各实施例,在本实施例中,所述步骤s10之后,所述方法还包括:
104.步骤s101:获取用户基于所述文件地址信息在预设配置页面发送的操作指令。
105.需要说明的是,所述操作指令可以包括用户根据所述文件地址信息在所述预设配置页面选取的破解策略或在预设配置页面没有对应的破解策略时,开发出的破解程序等信息。所述预设配置页面包括了在历史数据采集过程中,针对不同的安全策略封装的破解策略,用户可直接在配置界面中选择破解策略,其可直接使用破解策略对文件进行采集。例如,用户根据所述文件地址信息判断待采集文件采取了安全策略限制数据的采集,则根据所述安全策略在所述预设配置页面中选取应对的破解策略,在所述预设配置页面中还未添加破解策略对应的配置信息时,则需要开发人员根据所述安全策略开发出相应的破解代码或程序,进而根据所述破解代码或程序进行数据的采集。并将新开发出的破解代码或程序进行封装,添加至预设配置页面中,以使下一次采集的文件同样使用了该安全策略时,可以直接在配置页面中进行配置,采用所述破解策略,提高了开发的效率。
106.步骤s102:根据所述操作指令确定对应的破解策略。
107.需要说明的是,对于某些待采集文件,其采用的安全策略可能在之前的开发验证过程中已经遇到过重复的安全策略,对在开发验证过程中出现过的安全策略,开发人员均开发出了其对应的破解策略,并将其进行封装添加至预设配置页面中,在后续遇到时,可直接在预设配置页面中进行相应的配置,启用破解策略即可,因此,所述操作指令可以包括用户根据文件地址信息确定的需要启用的破解策略。
108.步骤s103:通过所述破解策略采集所述待采集文件对应的数据。
109.需要说明的是,所述通过所述破解策略采集所述待采集文件对应的数据可以是通过破解策略规避安全策略的限制实现待采集文件的采集工作。
110.进一步的,为了实现数据的自动采集,完全脱离代理层面进行配置和采集。完成复杂场景下的数据采集工作,所述步骤s103之后,还包括:根据所述文件地址信息确定所述待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
111.需要说明的是,为了实现自动化采集工作,即数据采集系统自动根据文件地址信息确定安全策略,并选取对应的破解策略进行数据采集,将安全策略和破解策略进行关联。以使后续根据待采集文件采用的安全策略在所述预设采集策略映射表中选取破解策略进行数据的采集。
112.本实施例获取用户基于所述文件地址信息在预设配置页面发送的操作指令;根据所述操作指令确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据;根据所述文件地址信息确定所述待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。本实施例中获取用户基于文件地址信息在预设配置页面发送的操作指令;根据操作指令确定对应的破解策略;通过破解策略采集待采集文件对应的数据;并根据文件地址信息确定待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
113.参照图5,图5为本发明数据采集装置第一实施例的结构框图。
114.如图5所示,本发明实施例提出的数据采集装置包括:
115.接收模块10,用于在接收到数据采集指令时,根据所述数据采集指令确定待采集
文件的文件地址信息;
116.查找模块20,用于基于所述文件地址信息查找所述待采集文件对应的安全策略;
117.破解策略确定模块30,用于根据所述安全策略确定对应的破解策略;
118.采集模块40,用于通过所述破解策略采集所述待采集文件对应的数据。
119.本实施例在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;基于所述文件地址信息查找所述待采集文件对应的安全策略;根据所述安全策略确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。由于本实施例是根据数据采集指令确定待采集文件的文件地址信息;基于文件地址信息查找待采集文件对应的安全策略;根据安全策略确定对应的破解策略;通过破解策略采集待采集文件对应的数据。相对于现有的无法直接采集采用安全策略的文件或需要定制化破解策略进行采集的方式,本实施例上述方式能够适用于多种文件采集场景,提高了采集效率。
120.需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
121.另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的参数运行方法,此处不再赘述。
122.基于本发明上述数据采集装置第一实施例,提出本发明数据采集装置的第二实施例。
123.在本实施例中,所述采集模块40,还用于根据所述破解策略确定采集任务;将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。
124.进一步的,所述接收模块10,还用于获取用户基于所述文件地址信息在预设配置页面发送的操作指令;根据所述操作指令确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。
125.进一步的,所述接收模块10,还用于根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。
126.进一步的,所述接收模块10,还用于获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。
127.进一步的,所述破解策略确定模块30,还用于获取预设采集策略映射表;从所述预设采集策略映射表中查找所述安全策略对应的破解策略。
128.进一步的,所述采集模块40,还用于根据所述文件地址信息确定所述待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
129.进一步的,所述接收模块10,还用于获取样本训练数据;通过所述样本训练数据对初始协议识别模型进行训练,获得训练后的目标模型;将所述训练后的目标模型作为所述预设协议识别模型。
130.进一步的,所述采集模块40,还用于获取用户在预设配置页面选取的文件筛选信
息;根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据。
131.进一步的,所述采集模块40,还用于在所述文件筛选信息中包含正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,获得匹配结果;根据所述匹配结果确定目标数据。
132.本发明数据采集装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
133.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如上文所述的数据采集方法的步骤。
134.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
135.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
136.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
137.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
138.本发明公开了a1、一种数据采集方法,所述数据采集方法包括以下步骤:
139.在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;
140.基于所述文件地址信息查找所述待采集文件对应的安全策略;
141.根据所述安全策略确定对应的破解策略;
142.通过所述破解策略采集所述待采集文件对应的数据。
143.a2、如a1所述的数据采集方法,所述通过所述破解策略采集所述待采集文件对应的数据的步骤,包括:
144.根据所述破解策略确定采集任务;
145.将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。
146.a3、如a1所述的数据采集方法,所述在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息的步骤之后,还包括:
147.获取用户基于所述文件地址信息在预设配置页面发送的操作指令;
148.根据所述操作指令确定对应的破解策略;
149.通过所述破解策略采集所述待采集文件对应的数据。
150.a4、如a1所述的数据采集方法,所述在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息的步骤之后,还包括:
151.根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;
152.根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;
153.通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。
154.a5、如a4所述的数据采集方法,所述通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据的步骤,包括:
155.获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;
156.根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。
157.a6、如a1-a5任一项所述的数据采集方法,所述根据所述安全策略确定对应的破解策略的步骤,包括:
158.获取预设采集策略映射表;
159.从所述预设采集策略映射表中查找所述安全策略对应的破解策略。
160.a7、如a3所述的数据采集方法,所述通过所述破解策略采集所述待采集文件对应的数据的步骤之后,还包括:
161.根据所述文件地址信息确定所述待采集文件的安全策略;
162.将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
163.a8、如a4所述的数据采集方法,所述根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果的步骤之前,还包括:
164.获取样本训练数据;
165.通过所述样本训练数据对初始协议识别模型进行训练,获得训练后的目标模型;
166.将所述训练后的目标模型作为所述预设协议识别模型。
167.a9、如a1-a5任一项所述的数据采集方法,所述通过所述破解策略采集所述待采集文件对应的数据的步骤之后,还包括:
168.获取用户在预设配置页面选取的文件筛选信息;
169.根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据。
170.a10、如a9所述的数据采集方法,所述根据所述文件筛选信息对所述待采集文件对应的数据进行数据筛选,获得目标数据的步骤,包括:
171.在所述文件筛选信息中包含正则表达式时,根据所述正则表达式对所述待采集文件对应的数据进行正则匹配,获得匹配结果;
172.根据所述匹配结果确定目标数据。
173.本发明公开了b11、一种数据采集装置,所述数据采集装置包括:
174.接收模块,用于在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;
175.查找模块,用于基于所述文件地址信息查找所述待采集文件对应的安全策略;
176.破解策略确定模块,用于根据所述安全策略确定对应的破解策略;
177.采集模块,用于通过所述破解策略采集所述待采集文件对应的数据。
178.b12、如b11所述的数据采集装置,所述采集模块,还用于根据所述破解策略确定采集任务;将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。
179.b13、如b11所述的数据采集装置,所述接收模块,还用于获取用户基于所述文件地址信息在预设配置页面发送的操作指令;根据所述操作指令确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。
180.b14、如b11所述的数据采集装置,所述接收模块,还用于根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。
181.b15、如b14所述的数据采集装置,所述接收模块,还用于获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。
182.b16、如b11-15任一项所述的数据采集装置,所述破解策略确定模块,还用于获取预设采集策略映射表;从所述预设采集策略映射表中查找所述安全策略对应的破解策略。
183.b17、如b13所述的数据采集装置,所述采集模块,还用于根据所述文件地址信息确定所述待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。
184.b18、如b14所述的数据采集装置,所述接收模块,还用于获取样本训练数据;通过所述样本训练数据对初始协议识别模型进行训练,获得训练后的目标模型;将所述训练后的目标模型作为所述预设协议识别模型。
185.本发明公开了c19、一种数据采集设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序配置为实现如a1至a10中任一项所述的数据采集方法的步骤。
186.本发明公开了d20、一种存储介质,所述存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如a1至a10任一项所述的数据采集方法的步骤。

技术特征:
1.一种数据采集方法,其特征在于,所述数据采集方法包括以下步骤:在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;基于所述文件地址信息查找所述待采集文件对应的安全策略;根据所述安全策略确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。2.如权利要求1所述的数据采集方法,其特征在于,所述通过所述破解策略采集所述待采集文件对应的数据的步骤,包括:根据所述破解策略确定采集任务;将所述采集任务分配至不同的分布式采集服务器,以使所述分布式采集服务器根据所述采集任务采集所述待采集文件对应的数据。3.如权利要求1所述的数据采集方法,其特征在于,所述在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息的步骤之后,还包括:获取用户基于所述文件地址信息在预设配置页面发送的操作指令;根据所述操作指令确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。4.如权利要求1所述的数据采集方法,其特征在于,所述在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息的步骤之后,还包括:根据预设协议识别模型对所述文件地址信息进行协议识别。获得协议识别结果;根据所述协议识别结果和所述预设识别模型确定所述待采集文件对应的破解策略;通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据。5.如权利要求4所述的数据采集方法,其特征在于,所述通过所述破解策略和所述协议识别结果采集所述待采集文件对应的数据的步骤,包括:获取用户基于所述协议识别结果确定的采集深度、代理地址以及采集次数;根据所述采集深度、所述代理地址、所述采集次数和所述破解策略采集所述待采集文件对应的数据。6.如权利要求1-5任一项所述的数据采集方法,其特征在于,所述根据所述安全策略确定对应的破解策略的步骤,包括:获取预设采集策略映射表;从所述预设采集策略映射表中查找所述安全策略对应的破解策略。7.如权利要求3所述的数据采集方法,其特征在于,所述通过所述破解策略采集所述待采集文件对应的数据的步骤之后,还包括:根据所述文件地址信息确定所述待采集文件的安全策略;将所述安全策略与所述破解策略进行关联,生成预设采集策略映射表。8.一种数据采集装置,其特征在于,所述数据采集装置包括:接收模块,用于在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;查找模块,用于基于所述文件地址信息查找所述待采集文件对应的安全策略;破解策略确定模块,用于根据所述安全策略确定对应的破解策略;采集模块,用于通过所述破解策略采集所述待采集文件对应的数据。
9.一种数据采集设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据采集程序,所述数据采集程序配置为实现如权利要求1至7中任一项所述的数据采集方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有数据采集程序,所述数据采集程序被处理器执行时实现如权利要求1至7任一项所述的数据采集方法的步骤。

技术总结
本发明属于计算机领域,公开了一种数据采集方法、装置、设备及存储介质。该方法包括:在接收到数据采集指令时,根据所述数据采集指令确定待采集文件的文件地址信息;基于所述文件地址信息查找所述待采集文件对应的安全策略;根据所述安全策略确定对应的破解策略;通过所述破解策略采集所述待采集文件对应的数据。由于本发明根据数据采集指令确定待采集文件的文件地址信息;基于文件地址信息查找待采集文件对应的安全策略;根据安全策略确定对应的破解策略;通过破解策略采集待采集文件对应的数据。相对于现有的无法直接采集采用安全策略的文件或需要定制化破解策略进行采集的方式,本发明上述方式能够适用于多种文件采集场景,提高了采集效率。高了采集效率。高了采集效率。


技术研发人员:郑强
受保护的技术使用者:北京奇虎科技有限公司
技术研发日:2022.01.18
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐