一种公共资源类业务的识别方法、装置及设备与流程

未命名 10-09 阅读:114 评论:0


1.本发明涉及通信技术领域,特别是指一种公共资源类业务的识别方法、装置及设备。


背景技术:

2.当下,互联网中产生的数据爆炸式增长,服务器资源和网络资源消耗巨大,提升服务器资源利用率和优化网络性能成为重要的研究方向。
3.面向多种互联网业务提供图片、视频类资源的公共资源类业务被访问的次数很多,且由于图片、视频类资源本身需要传输的数据量大,因此这类业务在网络流量中占比很大,对网络性能和服务器性能开销很大。
4.现有的业务识别方法无法区分公共资源类业务和普通业务,也就无法对公共资源类业务的资源做更好的调度和利用,不利于网络性能优化。


技术实现要素:

5.本发明的目的是提供一种公共资源类业务的识别方法、装置及设备,解决了现有的业务识别无法区分公共服务类业务和普通业务,不利于网络性能优化的问题。
6.为达到上述目的,本发明的实施例提供一种公共资源类业务的识别方法,包括:
7.从第一pcap数据包中获取第一原始码流;
8.对所述第一原始码流中的http(hyper text transfer protocol,超文本传输协议)和https(hyper text transfer protocol over securesocket layer,以安全为目标的http通道)协议数据进行解析,获得所述第一原始码流对应的特征字段;
9.若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。
10.可选地,所述业务规则表的确定方法包括:
11.获取pcap数据包样本集合;
12.获取每个pcap数据包样本中的原始码流,得到原始码流样本集合;
13.根据所述原始码流样本集合,获取第一数据表;其中,所述第一数据表包括每个所述原始码流对应的特征字段;每个所述特征字段的标签为与每个所述原始码流对应的pcap数据包样本所属的业务类别;
14.根据所述第一数据表,确定第二数据表;其中,所述第二数据表包括多个目标特征字段;所述目标特征字段为所述原始码流样本集合中属于公共服务类业务的码流对应的特征字段;
15.根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表。
16.可选地,所述特征字段包括:域名和网络设备标识;其中,所述网络设备标识包括ip地址和端口号。
17.可选地,所述根据所述第一数据表,确定第二数据表,包括:
18.将所述第一数据表中与至少两个业务类别对应的特征字段,作为目标特征字段;
19.根据所述目标特征字段,构建所述第二数据表。
20.可选地,根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表,包括:
21.将多个所述目标特征字段对应的码流长度信息作为基于关联规则的分类算法的输入,得到每个所述码流长度信息所属的业务分类结果;其中,所述业务分类结果包括:公共资源类业务和其他公共业务;
22.将每个所述码流长度信息所属的业务分类结果,作为与所述码流长度信息对应的目标特征字段的业务分类结果;
23.将业务分类结果属于公共资源类业务的目标特征字段,作为所述业务规则表中的特征字段。
24.可选地,每个所述目标特征字段对应的码流长度信息包括:
25.所述目标特征字段对应的原始码流的码流长度;
26.所述目标特征字段对应的原始码流的前后n条码流的码流长度;n为正整数。
27.为达到上述目的,本发明的实施例提供一种公共资源类业务的识别装置,包括:
28.第一获取模块,用于从第一pcap数据包中获取第一原始码流;
29.第二获取模块,用于对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;
30.第一处理模块,用于若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。
31.为达到上述目的,本发明的实施例提供一种公共资源类业务的识别设备,包括:收发机和处理器;其中,所述处理器用于从第一pcap数据包中获取第一原始码流;对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。
32.为达到上述目的,本发明的实施例提供一种公共资源类业务的识别设备,包括收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;所述处理器执行所程序或指令时实现如上所述的公共资源类业务的识别方法。
33.为达到上述目的,本发明的实施例提供一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的公共资源类业务的识别方法中的步骤。
34.本发明的上述技术方案的有益效果如下:
35.本发明实施例的方法,通过从第一pcap数据包中获取第一原始码流;并对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;在所述特征字段位于业务规则表中时,确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。这样,能够实现对公共资源类业务和普通业务的区分,从而便于对公共资源类业务的资源做更好的调度和利用,有
利于优化网络性能和提高资源利用率。
附图说明
36.图1为本发明实施例的公共资源类业务的识别方法的流程图;
37.图2为本发明另一实施例的公共资源类业务的识别方法的流程图;
38.图3为本发明实施例的公共资源类业务的识别装置的结构图;
39.图4为本发明实施例的公共资源类业务的识别设备的结构图;
40.图5为本发明另一实施例的公共资源类业务的识别设备的结构图。
具体实施方式
41.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
42.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
43.在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
44.另外,本文中术语“系统”和“网络”在本文中常可互换使用。
45.在本技术所提供的实施例中,应理解,“与a相应的b”表示b与a相关联,根据a可以确定b。但还应理解,根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其它信息确定b。
46.如图1所示,本发明实施例的一种公共资源类业务的识别方法,包括以下步骤:
47.步骤101,从第一pcap数据包中获取第一原始码流。
48.需要指出的是,pcap文件是一种常用的数据报存储格式,pcap文件由一个pcap文件头和多个pcap数据包组成。
49.示例性地,作为一种实现方式,可通过深度包检测技术(deep packet inspection,简称dpi)来分析获取pcap数据包中的二进制原始码流。
50.步骤102,对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段。
51.具体的,特征字段包括:域名和网络设备标识;其中,所述网络设备标识包括ip地址和端口号port。即,该特征字段包括:由域名、ip:port组成的二元组信息。
52.其中,ip地址和端口号用来标志网络中的一个通信实体的地址,即ip地址和端口号可作为网络设备标识;通过域名可以唯一确定流量数据所属的网站及备案主体,即业务类别。
53.特征字段的示例一:[weixin.qq.com,183.195.236.151:443];其中,weixin.qq.com为域名,183.195.236.151为ip地址,443为端口号。
[0054]
特征字段的示例二:[wx.qq.com,183.192.199.220:443]];其中,wx.qq.com为域
名,183.192.199.220为ip地址,443为端口号。
[0055]
步骤103,若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。
[0056]
该步骤中,业务规则表是基于采集的大量pcap包样本获得的,包括有公共资源类业务对应的特征字段。具体的,若业务规则表中存在与第一原始码流对应的特征字段,则确定所述第一原始码流属于公共资源类业务;若业务规则表中不存在与第一原始码流对应的特征字段,则确定所述第一原始码流不属于公共资源类业务。
[0057]
需要指出的是,在识别出公共资源类业务对应的原始码流后,可以在分配缓存数据的服务器节点和在数据传输过程中做网络资源调度时,进行重点优化,以提高资源利用率和优化网络性能。
[0058]
在一实施例中,业务规则表的确定方法主要包括以下五个步骤:
[0059]
步骤201,获取pcap数据包样本集合。
[0060]
该步骤中,可通过自动化脚本收集大量不同业务种类的pcap包作为样本,且pcap数据包带有原始业务标签。
[0061]
步骤202,获取每个pcap数据包样本中的原始码流,得到原始码流样本集合。
[0062]
该步骤中,解析pcap数据包样本,获得原始码流,最终得到pcap数据包样本集合对应的原始码流样本集合。
[0063]
步骤203,根据所述原始码流样本集合,获取第一数据表;其中,所述第一数据表包括每个所述原始码流对应的特征字段;每个所述特征字段的标签为与每个所述原始码流对应的pcap数据包样本所属的业务类别;
[0064]
其中,特征字段包括:域名和网络设备标识;其中,所述网络设备标识包括ip地址和端口号。
[0065]
如,解析原始码流中的http和https协议数据,获取原始码流对应的域名、ip与port组成的二元组信息(该二元组信息即为特征字段),并把pcap数据包样本对应的业务类别,作为pcap数据包样本解析出的二元组的标签。构建第一数据表。
[0066]
其中,二元组的索引为业务类别,查询到的内容为该业务类别的pcap数据包样本中解析出的二元组。示例性地:针对业务类别为微信的二元组为:
[0067]
[微信:[weixin.qq.com,183.195.236.151:443],[wx.qq.com,183.192.199.220:443]]。
[0068]
步骤204,根据所述第一数据表,确定第二数据表;其中,所述第二数据表包括多个目标特征字段;所述目标特征字段为所述原始码流样本集合中属于公共服务类业务的码流对应的特征字段;
[0069]
该步骤中,第二数据表包括的是公共服务类业务的原始码流所对应的特征字段。
[0070]
在一实施例中,步骤204包括:将所述第一数据表中与至少两个业务类别对应的特征字段,作为目标特征字段;根据所述目标特征字段,构建所述第二数据表。
[0071]
如,[beacon.qq.com:183.194.189.111:443],同时存在于多个业务类别对应的二元组,则表明该二元组对应的原始码流属于公共服务类业务,并将其作为筛选出的目标特征字段;依次类推,可得到多个目标特征字段,以构建第二数据表。
[0072]
步骤205,根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目
标特征字段进行业务类别分类,得到所述业务规则表。
[0073]
该步骤中,可以获取目标特征字段对应的码流长度信息,构建码流长度信息与目标特征字段的对应关系表,基于该对应关系表和对码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表。
[0074]
由于访问同一个网页链接或点击同一个应用控件产生的连续的多条码流的长度信息具有规律性,特征字段通常包含在多条码流中的一条或几条中。基于此,在一实施例中,每个所述目标特征字段对应的码流长度信息包括:所述目标特征字段对应的原始码流的码流长度;以及,所述目标特征字段对应的原始码流的前后n条码流的码流长度;n为正整数。
[0075]
示例性地,对于目标特征字段:[beacon.qq.com:183.194.189.111:443],设n取3,即该目标特征字段对应的码流长度信息包括:与该目标特征字段对应的原始码流的前后3条码流的码流长度,具体如下:
[0076]“1151:11054:852:11092:1208:1206:19928”,其中,“11092”为该目标特征字段对应的原始码流的码流长度,“1151:11054:852”为该目标特征字段对应的原始码流的前3条码流的码流长度,“1208:1206:19928”为该目标特征字段对应的原始码流的后3条码流的码流长度。如此可得原始码流的二元组与码流长度信息的对应关系如下:
[0077]
[“beacon.qq.com:183.194.189.111:443”:1151:11054:852:11092:1208:1206:19928”]。
[0078]
需要说明的是,由于目标特征字段是与至少两个业务类别对应的特征字段,因此,目标特征字段对应的原始码流至少为两个,目标特征字段对应的码流长度信息也至少为两个,且每个码流长度信息均包括原始码流的前后n条码流的码流长度。
[0079]
例如,目标特征字段对应业务类别1、业务类别2和业务类别3,其中,业务类别1对应原始码流1,业务类别2对应原始码流2,业务类别3对应原始码流3,那么,目标特征字段对应的码流长度信息包括:与原始码流1对应的码流长度信息、与原始码流2对应的码流长度信息、与原始码流3对应的码流长度信息。
[0080]
在一实施例中,步骤205包括:
[0081]
将多个所述目标特征字段对应的码流长度信息作为基于关联规则的分类算法的输入,得到每个所述码流长度信息所属的业务分类结果;其中,所述业务分类结果包括:公共资源类业务和其他公共业务;
[0082]
将每个所述码流长度信息所属的业务分类结果,作为与所述码流长度信息对应的目标特征字段的业务分类结果;
[0083]
将业务分类结果属于公共资源类业务的目标特征字段,作为所述业务规则表中的特征字段。
[0084]
其中,其他公共业务指公共服务类业务中除公共资源类业务之外的业务。
[0085]
这里,每个所述码流长度信息是与每个目标特征字段一一对应的,且每个码流长度信息包括至少两个原始码流对应的码流长度信息。需要指出的是,虽然目标特征字段对应的多个原始码流的码流长度信息可能会不同,但是,与目标特征字段对应的多个原始码流的码流长度信息符合相同的规律性。因此,最终的业务分类结果为:与目标特征字段对应的所有原始码流的码流长度信息所属的业务分类结果。
[0086]
该实施例中,在使用基于关联规则的分类算法对目标特征字段对应的码流长度信息进行分类时,是基于预定义的公共资源类业务的样本进行的,算法会挖掘出样本里出现的多个码流长度信息,基于挖掘出的码流长度信息完成对目标特征字段对应的码流长度的分类,而且由于公共资源类业务从数量上比其它类型的公共服务类业务多很多,占比较大,且公共资源类业务的所有原始码流的码流长度信息符合相同的规律性,这样,在进行模型训练时,算法会倾向于将这类业务全部找出,从而准确完成对目标特征字段对应的所有码流的码流长度信息进行分类。进一步地,将目标特征字段对应的码流长度信息所属的业务分类结果,作为与码流长度信息对应的目标特征字段的业务分类结果,得到属于公共资源类业务的目标特征字段。
[0087]
如图3所示,本发明实施例的一种公共资源类业务的识别装置300,包括:
[0088]
第一获取模块301,用于从第一pcap数据包中获取第一原始码流;
[0089]
第二获取模块302,用于对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;
[0090]
第一处理模块303,用于若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。
[0091]
可选地,装置300还包括:
[0092]
第三获取模块,用于获取pcap数据包样本集合;
[0093]
第四获取模块,用于获取每个pcap数据包样本中的原始码流,得到原始码流样本集合;
[0094]
第五获取模块,用于根据所述原始码流样本集合,获取第一数据表;其中,所述第一数据表包括每个所述原始码流对应的特征字段;每个所述特征字段的标签为与每个所述原始码流对应的pcap数据包样本所属的业务类别;
[0095]
第二处理模块,用于根据所述第一数据表,确定第二数据表;其中,所述第二数据表包括多个目标特征字段;所述目标特征字段为所述原始码流样本集合中属于公共服务类业务的码流对应的特征字段;
[0096]
第三处理模块,用于根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表。
[0097]
可选地,所述特征字段包括:域名和网络设备标识;其中,所述网络设备标识包括ip地址和端口号。
[0098]
可选地,第二处理模块包括:
[0099]
第一处理单元,用于将所述第一数据表中与至少两个业务类别对应的特征字段,作为目标特征字段;
[0100]
第二处理单元,用于根据所述目标特征字段,构建所述第二数据表。
[0101]
可选地,第三处理模块包括:
[0102]
第三处理单元,用于将多个所述目标特征字段对应的码流长度信息作为基于关联规则的分类算法的输入,得到每个所述码流长度信息所属的业务分类结果;其中,所述业务分类结果包括:公共资源类业务和其他公共业务;
[0103]
第四处理单元,用于将每个所述码流长度信息所属的业务分类结果,作为与所述
码流长度信息对应的目标特征字段的业务分类结果;
[0104]
第五处理单元,用于将业务分类结果属于公共资源类业务的目标特征字段,作为所述业务规则表中的特征字段。
[0105]
可选地,每个所述目标特征字段对应的码流长度信息包括:
[0106]
所述目标特征字段对应的原始码流的码流长度;
[0107]
所述目标特征字段对应的原始码流的前后n条码流的码流长度;n为正整数。
[0108]
该实施例的公共资源类业务的识别装置,通过从第一pcap数据包中获取第一原始码流;并对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。这样,能够实现从区分公共资源类业务和普通业务,从而便于对公共资源类业务的资源做更好的调度和利用,有利于网络性能优化。
[0109]
如图4所示,本发明实施例的一种公共资源类业务的识别设备400,包括处理器410和收发机420,其中,
[0110]
所述处理器用于从第一pcap数据包中获取第一原始码流;对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。
[0111]
所述收发机420,用于在处理器410的控制下接收和发送数据。
[0112]
可选地,所述处理器410还用于以下步骤:
[0113]
获取pcap数据包样本集合;
[0114]
获取每个pcap数据包样本中的原始码流,得到原始码流样本集合;
[0115]
根据所述原始码流样本集合,获取第一数据表;其中,所述第一数据表包括每个所述原始码流对应的特征字段;每个所述特征字段的标签为与每个所述原始码流对应的pcap数据包样本所属的业务类别;
[0116]
根据所述第一数据表,确定第二数据表;其中,所述第二数据表包括多个目标特征字段;所述目标特征字段为所述原始码流样本集合中属于公共服务类业务的码流对应的特征字段;
[0117]
根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表。
[0118]
可选地,所述特征字段包括:域名和网络设备标识;其中,所述网络设备标识包括ip地址和端口号。
[0119]
可选地,处理器410还具体用于以下步骤:
[0120]
将所述第一数据表中与至少两个业务类别对应的特征字段,作为目标特征字段;
[0121]
根据所述目标特征字段,构建所述第二数据表。
[0122]
可选地,处理器410还具体用于以下步骤:
[0123]
将多个所述目标特征字段对应的码流长度信息作为基于关联规则的分类算法的输入,得到每个所述码流长度信息所属的业务分类结果;其中,所述业务分类结果包括:公共资源类业务和其他公共业务;
[0124]
将每个所述码流长度信息所属的业务分类结果,作为与所述码流长度信息对应的目标特征字段的业务分类结果;
[0125]
将业务分类结果属于公共资源类业务的目标特征字段,作为所述业务规则表中的特征字段。
[0126]
可选地,每个所述目标特征字段对应的码流长度信息包括:
[0127]
所述目标特征字段对应的原始码流的码流长度;
[0128]
所述目标特征字段对应的原始码流的前后n条码流的码流长度;n为正整数。
[0129]
该实施例的公共资源类业务的识别设备,通过从第一pcap数据包中获取第一原始码流;并对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。这样,能够实现从区分公共资源类业务和普通业务,从而便于对公共资源类业务的资源做更好的调度和利用,有利于网络性能优化。
[0130]
本发明另一实施例的一种公共资源类业务的识别设备,如图5所示,包括收发器510、处理器500、存储器520及存储在所述存储器520上并可在所述处理器500上运行的程序或指令;所述处理器500执行所述程序或指令时实现上述应用于公共资源类业务的识别方法。
[0131]
所述收发器510,用于在处理器500的控制下接收和发送数据。
[0132]
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器510可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备,用户接口530还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
[0133]
处理器500负责管理总线架构和通常的处理,存储器520可以存储处理器500在执行操作时所使用的数据。
[0134]
本发明实施例的一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的公共资源类业务的识别方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0135]
进一步需要说明的是,此说明书中所描述的终端包括但不限于智能手机、平板电脑等,且所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
[0136]
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
[0137]
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
[0138]
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(vlsi)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
[0139]
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
[0140]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种公共资源类业务的识别方法,其特征在于,包括:从第一pcap数据包中获取第一原始码流;对所述第一原始码流中的超文本传输协议http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。2.根据权利要求1所述的公共资源类业务的识别方法,其特征在于,所述业务规则表的确定方法包括:获取pcap数据包样本集合;获取每个pcap数据包样本中的原始码流,得到原始码流样本集合;根据所述原始码流样本集合,获取第一数据表;其中,所述第一数据表包括每个所述原始码流对应的特征字段;每个所述特征字段的标签为与每个所述原始码流对应的pcap数据包样本所属的业务类别;根据所述第一数据表,确定第二数据表;其中,所述第二数据表包括多个目标特征字段;所述目标特征字段为所述原始码流样本集合中属于公共服务类业务的码流对应的特征字段;根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表。3.根据权利要求1或2所述的公共资源类业务的识别方法,其特征在于,所述特征字段包括:域名和网络设备标识;其中,所述网络设备标识包括ip地址和端口号。4.根据权利要求2所述的公共资源类业务的识别方法,其特征在于,根据所述第一数据表,确定第二数据表,包括:将所述第一数据表中与至少两个业务对应的特征字段,作为目标特征字段;根据所述目标特征字段,构建所述第二数据表。5.根据权利要求2所述的公共资源类业务的识别方法,其特征在于,根据所述目标特征字段对应的码流长度信息,对所述第二数据表中的目标特征字段进行业务类别分类,得到所述业务规则表,包括:将多个所述目标特征字段对应的码流长度信息作为基于关联规则的分类算法的输入,得到每个所述码流长度信息所属的业务分类结果;其中,所述业务分类结果包括:公共资源类业务和其他公共业务;将每个所述码流长度信息所属的业务分类结果,作为与所述码流长度信息对应的目标特征字段的业务分类结果;将业务分类结果属于公共资源类业务的目标特征字段,作为所述业务规则表中的特征字段。6.根据权利要求2所述的公共资源类业务的识别方法,其特征在于,每个所述目标特征字段对应的码流长度信息包括:所述目标特征字段对应的原始码流的码流长度;所述目标特征字段对应的原始码流的前后n条码流的码流长度;n为正整数。7.一种公共资源类业务的识别装置,其特征在于,包括:
第一获取模块,用于从第一pcap数据包中获取第一原始码流;第二获取模块,用于对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;第一处理模块,用于若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。8.一种公共资源类业务的识别设备,其特征在于,包括:收发机和处理器;所述处理器用于从第一pcap数据包中获取第一原始码流;对所述第一原始码流中的http和https协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。9.一种公共资源类业务的识别设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其特征在于,所述处理器执行所述程序或指令时实现如权利要求1-6任一项所述的公共资源类业务的识别方法。10.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的公共资源类业务的识别方法中的步骤。

技术总结
本发明提供一种公共资源类业务的识别方法、装置及设备,涉及通信技术领域。该方法包括:从第一PCAP数据包中获取第一原始码流;对所述第一原始码流中的HTTP和HTTPS协议数据进行解析,获得所述第一原始码流对应的特征字段;若所述特征字段位于业务规则表中,则确定所述第一原始码流属于公共资源类业务;其中,所述业务规则表包括多个不同公共资源类业务对应的特征字段。本发明的方案,解决了现有技术无法区分公共资源类业务和普通业务的问题。术无法区分公共资源类业务和普通业务的问题。术无法区分公共资源类业务和普通业务的问题。


技术研发人员:黄丽思 吕喆 周岩 赵延 梁燕萍 余立 冯俊兰
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2022.03.25
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐