一种数据聚类方法、装置、电子设备及存储介质与流程

未命名 09-11 阅读：110 评论：0

1.本技术涉及数据处理技术领域，具体而言，涉及一种数据聚类方法、装置、电子设备及存储介质。

背景技术：

2.越来越多的网络安全厂商都会布置服务器节点来收集网站网络安全日志，根据日志反馈出来的共性特征可对网站访问者的行为进行聚类，并打上对应的聚类标签，有助于网络安全厂商甄别出恶意攻击网站的群体，并针对这些群体采取限制措施，以减少网站因被恶意攻击造成的损失。
3.现有常用利用网络安全日志对ip进行聚类的方法，主要为根据原始日志数据进行清洗、整合、计算成纯数字的矩阵作为特征数据，再结合各种机器学习方案对其进行聚类。
4.然而，现有方案中全流程的数据流转均为数字，如果遇到各字段之间数据类型、数据单位差异大的时候会花费较大的成本去清洗数据，对数据聚类的效率较低。

技术实现要素：

5.本技术的目的在于提供一种数据聚类方法、装置、电子设备及存储介质，能够降低清洗数据的成本，提高数据聚类的效率。
6.为了实现上述目的，本技术实施例采用的技术方案如下：
7.第一方面，本技术实施例提供了一种数据聚类方法，所述方法包括：
8.获取不同ip地址分别对应的网络安全日志数据；
9.针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据；
10.基于每个所述ip地址的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表；
11.将各所述可视化图表转化为各数字矩阵；
12.将相同ip地址对应的各数字矩阵合并，得到每个所述ip地址对应的特征矩阵；
13.对各所述特征矩阵进行聚类。
14.在可选的实施方式中，所述不同维度包括ip访问趋势、ip攻击趋势、ip对不同行业的攻击占比以及ip对不同行业的访问占比，所述针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据的步骤，包括：
15.针对每个ip地址，从所述ip地址对应的网络安全日志中提取与所述ip访问趋势对应的第一特征数据；
16.从所述ip地址对应的网络安全日志中提取与所述ip攻击趋势对应的第二特征数据；
17.从所述ip地址对应的网络安全日志中提取与所述ip对不同行业的攻击占比对应的第三特征数据；
18.从所述ip地址对应的网络安全日志中提取与所述ip对不同行业的访问占比的第四特征数据。
19.在可选的实施方式中，所述基于各所述ip地址的不同维度对应的特征数据，生成各所述ip地址的不同维度对应的可视化图表的步骤，包括：
20.针对每个ip地址，基于统计分析逻辑，分别生成所述ip地址对应的所述第一特征数据、所述第二特征数据、所述第三特征数据以及所述第四特征数据对应的各可视化图表，其中，所述第一特征数据对应的可视化图表、所述第二特征数据对应的可视化图表、所述第三特征数据对应的可视化图表以及所述第四特征数据对应的可视化图表的图像尺寸和图像样式一致。
21.在可选的实施方式中，所述将各所述可视化图表转化为各数字矩阵的步骤，包括：
22.将各所述可视化图表转化为灰度图像；
23.针对每个可视化图表对应的灰度图像，提取所述灰度图像中各像素的灰度值；
24.基于各灰度值，生成各可视化图表对应的数字矩阵。
25.在可选的实施方式中，所述对各所述特征矩阵进行聚类的步骤，包括：
26.采用k均值聚类算法，对各所述特征矩阵进行聚类，得到多个特征矩阵集合，其中，每个所述特征矩阵集合包含至少一个特征矩阵。
27.在可选的实施方式中，所述方法还包括：
28.确定每个所述特征矩阵集合对应的类型；
29.为每个所述特征矩阵集合中的各特征矩阵添加对应类型的标签；
30.将添加标签后的目标特征矩阵作为训练样本；
31.基于所述训练样本对分类模型进行训练。
32.在可选的实施方式中，所述方法还包括：
33.获取待分类ip地址对应的待分类网络安全日志数据；
34.从所述待分类网络安全日志数据中提取不同维度对应的待分类特征数据；
35.基于不同维度对应的待分类特征数据，生成不同维度对应的待分类可视化图表；
36.将各所述待分类可视化图表转化为各待分类数字矩阵；
37.将各所述待分类数字矩阵合并，得到待分类特征矩阵；
38.将所述待分类特征矩阵输入至所述分类模型，得到所述待分类特征矩阵对应的类型。
39.第二方面，本技术实施例提供了一种数据聚类装置，所述装置包括：
40.获取模块，用于获取不同ip地址分别对应的网络安全日志数据；
41.提取模块，用于针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据；
42.可视化图表生成模块，用于基于每个所述ip地址的不同维度对应的特征数据，生成每个所述ip地址的不同维度对应的可视化图表；
43.转化模块，用于将各所述可视化图表转化为各数字矩阵；
44.合并模块，用于将相同ip地址对应的各数字矩阵合并，得到各所述ip地址对应的特征矩阵；
45.聚类模块，用于对各所述特征矩阵进行聚类。
46.第三方面，本技术实施例提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述数据聚类方法的步骤。
47.第四方面，本技术实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述数据聚类方法的步骤。
48.本技术具有以下有益效果：
49.本技术通过获取不同ip地址分别对应的网络安全日志数据，针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据，基于每个ip地址的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表，将各可视化图表转化为各数字矩阵，将相同ip地址对应的各数字矩阵合并，得到每个ip地址对应的特征矩阵，对各特征矩阵进行聚类。将网络安全日志数据中不同维度的特征数据的可视化图像作为聚类依据，无需对网络安全日志数据中不同数据类型、不同数据单位的数据进行复杂的清洗过程，降低对数据聚类的复杂程度，进而提高对数据聚类的效率，此外，本技术提供的数据聚类方法，在统计维度繁杂、各特征数据和单位差异较大、甚至数据载体不同的数据场景下有很好的应用。
附图说明
50.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
51.图1为本技术实施例提供的电子设备的方框示意图；
52.图2为本技术实施例提供的一种数据聚类方法的流程示意图之一；
53.图3为本技术实施例提供的一种数据聚类方法的流程示意图之二；
54.图4为本技术实施例提供的一种数据聚类方法的流程示意图之三；
55.图5为本技术实施例提供的一种数据聚类方法的流程示意图之四；
56.图6为本技术实施例提供的一种数据聚类方法的流程示意图之五；
57.图7为本技术实施例提供的一种数据聚类装置的结构框图。
具体实施方式
58.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
59.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
60.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
61.在本技术的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
62.此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
63.在本技术的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本技术中的具体含义。
64.经过发明人大量研究发现，越来越多的网络安全厂商都会布置服务器节点来收集网站网络安全日志，根据日志反馈出来的共性特征可对网站访问者的行为进行聚类，并打上对应的聚类标签，有助于网络安全厂商甄别出恶意攻击网站的群体，并针对这些群体采取限制措施，以减少网站因被恶意攻击造成的损失。
65.现有常用利用网络安全日志对ip进行聚类的方法，主要为根据原始日志数据进行清洗、整合、计算成纯数字的矩阵作为特征数据，再结合各种机器学习方案对其进行聚类。
66.然而，现有方案中全流程的数据流转均为数字，如果遇到各字段之间数据类型、数据单位差异大的时候会花费较大的成本去清洗数据，对数据聚类的效率较低。
67.有鉴于对上述问题的发现，本实施例提供了一种数据聚类方法、装置、电子设备及存储介质，能够通过获取不同ip地址分别对应的网络安全日志数据，针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据，基于每个ip地址的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表，将各可视化图表转化为各数字矩阵，将相同ip地址对应的各数字矩阵合并，得到每个ip地址对应的特征矩阵，对各特征矩阵进行聚类。将网络安全日志数据中不同维度的特征数据的可视化图像作为聚类依据，无需对网络安全日志数据中不同数据类型、不同数据单位的数据进行复杂的清洗过程，降低对数据聚类的复杂程度，进而提高对数据聚类的效率，此外，本技术提供的数据聚类方法，在统计维度繁杂、各特征数据和单位差异较大、甚至数据载体不同的数据场景下有很好的应用，下面对本实施例提供的方案进行详细阐述。
68.本实施例提供一种可以对数据进行聚类的电子设备。在一种可能的实现方式中，所述电子设备可以为用户终端，例如，电子设备可以是，但不限于，服务器、智能手机、个人电脑(personalcomputer，pc)、平板电脑、个人数字助理(personal digital assistant，pda)、移动上网设备(mobile internet device，mid)等。
69.请参照图1，图1是本技术实施例提供的电子设备100的结构示意图。所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
70.所述电子设备100包括数据聚类装置110、存储器120及处理器130。
71.所述存储器120及处理器130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连
接。所述数据聚类装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子设备100的操作系统(operating system，os)中的软件功能模块。所述处理器130用于执行所述存储器120中存储的可执行模块，例如所述数据聚类装置110所包括的软件功能模块及计算机程序等。
72.其中，所述存储器120可以是，但不限于，随机存取存储器(randomaccess memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmableread-only memory，eprom)，电可擦除只读存储器(electric erasable programmableread-only memory，eeprom)等。其中，存储器120用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。
73.请参照图2，图2为应用于图1的电子设备100的一种数据聚类方法的流程图，以下将方法包括各个步骤进行详细阐述。
74.步骤201：获取不同ip地址分别对应的网络安全日志数据。
75.步骤202：针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据。
76.步骤203：基于每个ip地址的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表。
77.步骤204：将各可视化图表转化为各数字矩阵。
78.步骤205：将相同ip地址对应的各数字矩阵合并，得到每个ip地址对应的特征矩阵。
79.步骤206：对各特征矩阵进行聚类。
80.需要说明的是，获取网络安全日志数据，网络安全日志数据中包含不同ip地址对应的网络安全日志数据，获取不同ip地址分别对应的网络安全日志数据。
81.分别从每个ip地址对应的网络安全日志数据中获取不同维度对应的特征数据。
82.示例性的，不同维度可以包括ip访问趋势、ip攻击趋势、ip对不同行业的攻击占比以及ip对不同行业的访问占比，分别从每个ip地址对应的网络安全日志数据中，分别获取上述多个维度对应的特征数据。
83.具体地，当维度为ip对不同行业的攻击占比时，从网络安全日志数据中获取预设时间段内，分别对不同行业的攻击次数，和预设时间段内的总攻击次数，例如：不同行业包括a行业、b行业以及c行业，从网络安全日志数据中获取预设时间段内对a行业的攻击次数为100次，对b行业的攻击次数为200次，对c行业的攻击次数为300次，从网络安全日志数据中获取预设时间段内的总攻击次数为1000次，则确定对a行业的攻击占比为10％，对b行业的攻击占比为20％，对c行业的攻击占比为30％。
84.基于统计分析逻辑，将每个ip地址对应的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表。其中，可视化图表可以为柱形图、折线图、饼状图等，且需要说明的是，不同ip地址得到的可视化图表的类型一致，即基于某一ip地址得到的可视化图表为柱状图时，则所有ip地址对应的可视化图表均为柱状图，以便于后续基于可视化图表进行聚类。
85.将各可视化图表转换为数字矩阵，将相同ip地址对应的数字矩阵合并为特征矩阵，最终基于特征矩阵进行聚类。
86.相较于现有技术，无需将网络安全日志数据流转为数字，避免由于网络安全日志数据之间类型不同，造成花费较大成本进行数据清洗。
87.针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据的实现方式有多种，在一种实现方式中，如图3所示，包括以下步骤：
88.步骤202-1：针对每个ip地址，从ip地址对应的网络安全日志中提取与ip访问趋势对应的第一特征数据。
89.步骤202-2：从ip地址对应的网络安全日志中提取与ip攻击趋势对应的第二特征数据。
90.步骤202-3：基于每个ip地址的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表。
91.步骤202-4：从ip地址对应的网络安全日志中提取与ip对不同行业的攻击占比对应的第三特征数据。
92.步骤202-5：从ip地址对应的网络安全日志中提取与ip对不同行业的访问占比的第四特征数据。
93.步骤203-1：针对每个ip地址，基于统计分析逻辑，分别生成ip地址对应的第一特征数据、第二特征数据、第三特征数据以及第四特征数据对应的各可视化图表。
94.其中，第一特征数据对应的可视化图表、第二特征数据对应的可视化图表、第三特征数据对应的可视化图表以及第四特征数据对应的可视化图表的图像尺寸和图像样式一致。
95.需要说明的是，每个维度的可视化图表需要将数据缩放在0-100的量级，且在相同颜色体系下、相同坐标轴下绘制，以保证同维度下生成的可视化图像尺寸一致、样式一致。
96.将可视化图表转化为各数字矩阵的实现方式有多种，在一种实现方式中，如图4所示，包括以下步骤：
97.步骤204-1：将各可视化图表转化为灰度图像。
98.步骤204-2：针对每个可视化图表对应的灰度图像，提取灰度图像中各像素的灰度值。
99.步骤204-3：基于各灰度值，生成各可视化图表对应的数字矩阵。
100.示例性的，针对每一个可视化图表，将可视化图表转换为灰度图像，确定灰度图像中各个像素的灰度值，以及灰度图像中各个像素点的灰度值与其空间位置的关联性，可以理解的是，灰度图像中各个像素点的灰度值与其周围像素点的灰度值有相似性，灰度图像中各个单元之间具有连通性，各个像素点的灰度值在数理统计分布上具有非均匀性，可以通过计算各个像素点的灰度值之间的偏差程度来表示空间相关性，基于各个像素点的灰度值之间的偏差程度构成可视化图表对应的数字矩阵，对于具体计算各个像素点的灰度值的偏差程度的方法，本实施例对此不做具体限制。
101.基于多个数字矩阵得到每个ip地址对应的特征矩阵，在一示例中，每个数字矩阵对应一个维度，且每个数字矩阵与ip地址存在对应关系，将相同ip地址对应的多个数字矩阵进行合并，得到该ip地址的特征矩阵。
102.对各特征矩阵进行聚类的实现方式有多种，在一种实现方式中，采用k均值聚类算法，对各特征矩阵进行聚类，得到多个特征矩阵集合，其中，每个特征矩阵集合包含至少一
个特征矩阵。
103.在另一种实现方式中，从多个特征矩阵中依次获取任一第一目标特征矩阵，获取除了第一目标特征矩阵以外的多个第二目标特征矩阵，分别计算每个第二目标特征矩阵与第一目标特征矩阵的相似度，将相似度大于预设相似度的第二目标特征矩阵与第一目标特征矩阵划分为一类，最终得到多个特征矩阵集合，每个特征矩阵集合至少包含一个特征矩阵。
104.将各特征矩阵聚类后，可以基于聚类后的特征矩阵对分类模型进行训练，如图5所示，包括以下步骤：
105.步骤301：确定每个特征矩阵集合对应的类型。
106.步骤302：为每个特征矩阵集合中的各特征矩阵添加对应类型的标签。
107.步骤303：将添加标签后的目标特征矩阵作为训练样本。
108.步骤304：基于训练样本对分类模型进行训练。
109.基于每个特征矩阵集合包含的各特征矩阵的特性，确定该特征矩阵集合的类型的实现方式有多种，在一种实现方式中，将每个特征矩阵集合中包含的各特征矩阵基于训练好的类型分类模型，确定该特征矩阵集合对应的类型。
110.需要说明的是，类型可以包括爬虫、dos攻击、ddos攻击、mitm攻击、网络钓鱼攻击、密码攻击、sql注入攻击等，本技术实施例对此不做具体限制。
111.确定每个特征矩阵集合对应的类型，为特征矩阵集合中各特征矩阵添加对类型的标签，并将添加标签后的特征矩阵作为训练样本，对分类模型进行训练。
112.相较于现有技术中，在包含大量网络安全日志数据时，需要对每个网络安全日志数据标注分类，在基于标注后的网络安全日志数据作为训练样本进行训练，使得分类模型的训练较为繁琐，且在标注流程时需要耗费大量的标注时间。而基于本技术中直接确定每个特征矩阵集合的类型，直接得到该特征矩阵集合中所有特征矩阵的类型，可以减少对训练样本标注的时间，最终提升对分类模型训练的效率。
113.基于训练好的分类模型对待分类网络安全日志数据进行分类的实现方式有多种，在一种实现方式中，如图6所示，包括以下步骤：
114.步骤401：获取待分类ip地址对应的待分类网络安全日志数据。
115.步骤402：从待分类网络安全日志数据中提取不同维度对应的待分类特征数据。
116.步骤403：基于不同维度对应的待分类特征数据，生成不同维度对应的待分类可视化图表。
117.步骤404：将各待分类可视化图表转化为各待分类数字矩阵。
118.步骤405：将各待分类数字矩阵合并，得到待分类特征矩阵。
119.步骤406：将待分类特征矩阵输入至分类模型，得到待分类特征矩阵对应的类型。
120.需要说明的是，训练好的分类模型的输入为特征矩阵，输出为特征矩阵的类型，因此，在使用训练好的分类模型时，需要对待分类ip地址对应的待分类网络安全日志数据进行预处理。
121.示例性的，预处理的方式与前述实施例从网络安全日志数据到特征矩阵的流程一致，本技术对此不再赘述。
122.请参照图7，本技术实施例还提供了一种应用于图1所述电子设备100的数据聚类
装置110，所述三数据聚类装置110包括：
123.获取模块111，用于获取不同ip地址分别对应的网络安全日志数据；
124.提取模块112，用于针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据；
125.可视化图表生成模块113，用于基于每个所述ip地址的不同维度对应的特征数据，生成每个所述ip地址的不同维度对应的可视化图表；
126.转化模块114，用于将各所述可视化图表转化为各数字矩阵；
127.合并模块115，用于将相同ip地址对应的各数字矩阵合并，得到各所述ip地址对应的特征矩阵；
128.聚类模块116，用于对各所述特征矩阵进行聚类。
129.本技术还提供一种电子设备100，电子设备100包括处理器130以及存储器120。存储器120存储有计算机可执行指令，计算机可执行指令被处理器130执行时，实现该数据聚类方法。
130.本技术实施例还提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序被处理器130执行时，实现该数据聚类方法。
131.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
132.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
133.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
134.以上所述，仅为本技术的各种实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

技术特征：
1.一种数据聚类方法，其特征在于，所述方法包括：获取不同ip地址分别对应的网络安全日志数据；针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据；基于每个所述ip地址的不同维度对应的特征数据，生成该ip地址的不同维度对应的可视化图表；将各所述可视化图表转化为各数字矩阵；将相同ip地址对应的各数字矩阵合并，得到每个所述ip地址对应的特征矩阵；对各所述特征矩阵进行聚类。2.根据权利要求1所述的方法，其特征在于，所述不同维度包括ip访问趋势、ip攻击趋势、ip对不同行业的攻击占比以及ip对不同行业的访问占比，所述针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据的步骤，包括：针对每个ip地址，从所述ip地址对应的网络安全日志中提取与所述ip访问趋势对应的第一特征数据；从所述ip地址对应的网络安全日志中提取与所述ip攻击趋势对应的第二特征数据；从所述ip地址对应的网络安全日志中提取与所述ip对不同行业的攻击占比对应的第三特征数据；从所述ip地址对应的网络安全日志中提取与所述ip对不同行业的访问占比的第四特征数据。3.根据权利要求2所述的方法，其特征在于，所述基于各所述ip地址的不同维度对应的特征数据，生成各所述ip地址的不同维度对应的可视化图表的步骤，包括：针对每个ip地址，基于统计分析逻辑，分别生成所述ip地址对应的所述第一特征数据、所述第二特征数据、所述第三特征数据以及所述第四特征数据对应的各可视化图表，其中，所述第一特征数据对应的可视化图表、所述第二特征数据对应的可视化图表、所述第三特征数据对应的可视化图表以及所述第四特征数据对应的可视化图表的图像尺寸和图像样式一致。4.根据权利要求1所述的方法，其特征在于，所述将各所述可视化图表转化为各数字矩阵的步骤，包括：将各所述可视化图表转化为灰度图像；针对每个可视化图表对应的灰度图像，提取所述灰度图像中各像素的灰度值；基于各灰度值，生成各可视化图表对应的数字矩阵。5.根据权利要求1所述的方法，其特征在于，所述对各所述特征矩阵进行聚类的步骤，包括：采用k均值聚类算法，对各所述特征矩阵进行聚类，得到多个特征矩阵集合，其中，每个所述特征矩阵集合包含至少一个特征矩阵。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：确定每个所述特征矩阵集合对应的类型；为每个所述特征矩阵集合中的各特征矩阵添加对应类型的标签；将添加标签后的目标特征矩阵作为训练样本；
基于所述训练样本对分类模型进行训练。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：获取待分类ip地址对应的待分类网络安全日志数据；从所述待分类网络安全日志数据中提取不同维度对应的待分类特征数据；基于不同维度对应的待分类特征数据，生成不同维度对应的待分类可视化图表；将各所述待分类可视化图表转化为各待分类数字矩阵；将各所述待分类数字矩阵合并，得到待分类特征矩阵；将所述待分类特征矩阵输入至所述分类模型，得到所述待分类特征矩阵对应的类型。8.一种数据聚类装置，其特征在于，所述装置包括：获取模块，用于获取不同ip地址分别对应的网络安全日志数据；提取模块，用于针对每个ip地址，从该ip地址对应的网络安全日志数据中提取不同维度对应的特征数据；可视化图表生成模块，用于基于每个所述ip地址的不同维度对应的特征数据，生成每个所述ip地址的不同维度对应的可视化图表；转化模块，用于将各所述可视化图表转化为各数字矩阵；合并模块，用于将相同ip地址对应的各数字矩阵合并，得到各所述ip地址对应的特征矩阵；聚类模块，用于对各所述特征矩阵进行聚类。9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

技术总结
本申请的实施例提供了一种数据聚类方法、装置、电子设备及存储介质，涉及数据处理领域，方法包括获取不同IP地址分别对应的网络安全日志数据，针对每个IP地址，从该IP地址对应的网络安全日志数据中提取不同维度对应的特征数据，基于每个IP地址的不同维度对应的特征数据，生成该IP地址的不同维度对应的可视化图表，将各可视化图表转化为各数字矩阵，将相同IP地址对应的各数字矩阵合并，得到每个IP地址对应的特征矩阵，对各特征矩阵进行聚类。将网络安全日志数据中不同维度的特征数据的可视化图像作为聚类依据，无需对网络安全日志数据中不同数据类型、不同数据单位的数据进行复杂的清洗过程，提高对数据聚类的效率。提高对数据聚类的效率。提高对数据聚类的效率。

技术研发人员：范香宇
受保护的技术使用者：北京知道创宇信息技术股份有限公司
技术研发日：2023.06.26
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种数据聚类方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种数据聚类方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表