敏感数据识别方法、装置、计算机设备及存储介质与流程
未命名
08-27
阅读:103
评论:0
1.本发明涉及数据处理方法,更具体地说是指敏感数据识别方法、装置、计算机设备及存储介质。
背景技术:
2.当前正处于数字化变革时代,企业需要不断挖掘和利用数据,以其为核心展开商业运营从而创造价值带来营收。此时的数据已经转换成了数据资产,即企业拥有或控制的能在未来带来经济利益的数据资源。在数据资产化过程中,很多企业特别是中小型企业都会存在很多关于数据的困惑,一方面,所有的企业都期望通过利用数据去变现去创造价值,同时又由于对自身数据的掌握和了解不够,无法将企业本身的数据创造出应有的价值。
3.在敏感数据无处不在、业务越来越复杂的生产业务系统中,业务系统后台数据库表的规模越来越庞大、结构越来越复杂,现有技术并不能自动识别出企业数据中的敏感数据,无法降低企业在数据使用中敏感数据泄密风险。
4.因此,有必要设计一种新的方法,实现自动识别出企业数据中的敏感数据,降低企业在数据使用过程中的敏感数据泄密风险。
技术实现要素:
5.本发明的目的在于克服现有技术的缺陷,提供敏感数据识别方法、装置、计算机设备及存储介质。
6.为实现上述目的,本发明采用以下技术方案:敏感数据识别方法,包括:
7.获取企业的资产集合的数据内容;
8.对所述数据内容进行结构化调整,以得到结构化数据集合;
9.初始化识别引擎;
10.利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;
11.对所述识别结果进行数据资产敏感类型划分,以得到划分结果;
12.根据所述划分结果生成可视化报告。
13.其进一步技术方案为:所述获取企业数据内容,包括:
14.从企业数据资产中获取数据源信息;
15.从所述数据源信息中抽取资产集合的数据内容。
16.其进一步技术方案为:所述数据源信息包括企业数据库类型、数据库和服务器资源的连接信息。
17.其进一步技术方案为:所述对所述数据内容进行结构化调整,以得到结构化数据集合,包括:
18.对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;
19.将所述结构化数据集合保存在应用内存中。
20.其进一步技术方案为:所述初始化识别引擎,包括:
21.读取多个行业的nlp词向量集合文件;
22.调用识别引擎初始化插件完成nlp词向量集合文件加载,并进行nlp词向量集合的构建;
23.对完成构建的nlp词向量集合按行业分类。
24.其进一步技术方案为:所述利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果,包括:
25.选择所述结构化数据集合的资产所属行业,并获取对应的nlp词向量集合;
26.调用识别引擎的识别插件,导入所述结构化数据集合,使用对应的nlp词向量集合进行识别,以得到单个数据内容的识别结果。
27.其进一步技术方案为:所述对所述识别结果进行数据资产敏感类型划分,以得到划分结果,包括:
28.初始化内置的敏感类型适配器;
29.根据所述敏感类型适配器对所述识别结果进行类型转换,以得到转换结果;
30.根据所述转换结果生成敏感信息集合,以得到划分结果。
31.本发明还提供了敏感数据识别装置,包括:
32.内容获取单元,用于获取企业的资产集合的数据内容;
33.调整单元,用于对所述数据内容进行结构化调整,以得到结构化数据集合;
34.引擎初始化单元,用于初始化识别引擎;
35.识别单元,用于利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;
36.划分单元,用于对所述识别结果进行数据资产敏感类型划分,以得到划分结果;
37.生成单元,用于根据所述划分结果生成可视化报告。
38.本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
39.本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
40.本发明与现有技术相比的有益效果是:本发明通过从企业数据资产中抽取对应资产集合的数据内容;进行结构化调整,对结构化数据集合进行使用对应的行业nlp词向量分析,获取敏感信息的识别结果;对所述识别结果进行数据资产敏感类型划分,得到敏感信息集合;生成资产敏感类型的可视化报告,实现自动识别出企业数据中的敏感数据,降低企业在数据使用过程中的敏感数据泄密风险。
41.下面结合附图和具体实施例对本发明作进一步描述。
附图说明
42.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本发明实施例提供的敏感数据识别方法的应用场景示意图;
44.图2为本发明实施例提供的敏感数据识别方法的流程示意图;
45.图3为本发明实施例提供的敏感数据识别方法的子流程示意图;
46.图4为本发明实施例提供的敏感数据识别方法的子流程示意图;
47.图5为本发明实施例提供的敏感数据识别方法的子流程示意图;
48.图6为本发明实施例提供的敏感数据识别方法的子流程示意图;
49.图7为本发明实施例提供的敏感数据识别方法的子流程示意图;
50.图8为本发明实施例提供的敏感数据识别装置的示意性框图;
51.图9为本发明实施例提供的敏感数据识别装置的内容获取单元的示意性框图;
52.图10为本发明实施例提供的敏感数据识别装置的调整单元的示意性框图;
53.图11为本发明实施例提供的敏感数据识别装置的引擎初始化单元的示意性框图;
54.图12为本发明实施例提供的敏感数据识别装置的识别单元的示意性框图;
55.图13为本发明实施例提供的敏感数据识别装置的划分单元的示意性框图;
56.图14为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
57.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
58.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
59.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
60.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
61.请参阅图1和图2,图1为本发明实施例提供的敏感数据识别方法的应用场景示意图。图2为本发明实施例提供的敏感数据识别方法的示意性流程图。该敏感数据识别方法应用于服务器中。该服务器与客户端进行数据交互,通过从企业数据资产中获取数据源的源信息;从企业数据源抽取对应资产集合的数据内容;对抽取的数据内容进行结构化调整,得到结构化数据集合;选择企业对应的行业nlp词向量集合,初始化智能识别引擎;对所述结构化数据集合进行使用对应的行业nlp词向量分析,获取敏感信息的识别结果;对所述识别结果进行数据资产敏感类型划分,得到敏感信息集合;根据所述敏感信息集合生成资产敏感类型的可视化报告,发送至客户端显示,实现企业数据资产智能化识别,为数据的规范使用提供便利。
62.图2是本发明实施例提供的敏感数据识别方法的流程示意图。如图2所示,该方法包括以下步骤s110至s160。
63.s110、获取企业的资产集合的数据内容。
64.在本实施例中,数据内容是指数据库名称、表格名称、字段名称、字段样本内容。
65.在一实施例中,请参阅图3,上述的步骤s110可包括步骤s111~s112。
66.s111、从企业数据资产中获取数据源信息。
67.在本实施例中,数据源信息包含:企业数据库类型、数据库服务器资源的连接信息等。具体地,可通过企业数据库管理人员提供数据存储的客户端服务器访问方式和第三方访问数据的连接信息。
68.s112、从所述数据源信息中抽取资产集合的数据内容。
69.在本实施例中,从数据源信息中抽取出与资产集合相关的数据。
70.s120、对所述数据内容进行结构化调整,以得到结构化数据集合。
71.在本实施例中,结构化数据集合是指结构化处理后的数据内容。
72.在一实施例中,请参阅图4,上述的步骤s120可包括步骤s121~s122。
73.s121、对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;
74.s122、将所述结构化数据集合保存在应用内存中。
75.将数据进行结构化处理,有助于提高后续的识别效率。
76.s130、初始化识别引擎。
77.在本实施例中,识别引擎是用于对结构化数据进行敏感信息的识别。
78.在一实施例中,请参阅图5,上述的步骤s130可包括步骤s131~s133。
79.s131、读取多个行业的nlp词向量集合文件。
80.在本实施例中,nlp(自然语言处理,natural language processing)词向量集合文件是指医疗、金融、人社、能源、证券、个人信息等多个行业的nlp词向量集合。
81.s132、调用识别引擎初始化插件完成nlp词向量集合文件加载,并进行nlp词向量集合的构建。
82.在本实施例中,加载nlp词向量集合文件到识别引擎内,且依据该文件构建nlp词向量集合。
83.s133、对完成构建的nlp词向量集合按行业分类。
84.在本实施例中,将构建的nlp词向量集合按照行业类别进行分类。
85.s140、利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果。
86.在本实施例中,识别结果是指结构化数据集合中的敏感信息。
87.在一实施例中,请参阅图6,上述的步骤s140可包括步骤s141~s142。
88.s141、选择所述结构化数据集合的资产所属行业,并获取对应的nlp词向量集合;
89.s142、调用识别引擎的识别插件,导入所述结构化数据集合,使用对应的nlp词向量集合进行识别,以得到单个数据内容的识别结果。
90.在本实施例中,所述词向量集合识别算法对应的公式为t
x
=t1x-k
/(1-k),其中,t
x
为第x个数据内容的识别结果;t1表示向量集合的相似度大小,默认为常量数字0.9,表示nlp识别的相似度需要不小于90%;k为小于1的浮点数,表示识别引擎允许的偏离度大小。
91.通过识别引擎完成数据内容的识别后,会自动输出对应的敏感信息结果。
92.s150、对所述识别结果进行数据资产敏感类型划分,以得到划分结果。
93.在本实施例中,划分结果是指敏感信息所对应的数据资产敏感类型。
94.在一实施例中,请参阅图7,上述的步骤s150可包括步骤s151~s153。
95.s151、初始化内置的敏感类型适配器。
96.在本实施例中,敏感类型适配器是指敏感类型判定的标准。
97.具体地,通过对多个行业的敏感信息进行归类划分,内置为系统的敏感类型适配器,能够实现对单个数据内容关联的敏感信息进行转换。
98.s152、根据所述敏感类型适配器对所述识别结果进行类型转换,以得到转换结果。
99.在本实施例中,利用敏感类型适配器确定识别结果中的敏感类型。
100.s153、根据所述转换结果生成敏感信息集合,以得到划分结果。
101.在本实施例中,所述敏感信息集合生成算法对应的公式为其中,rn为第n个数据内容对应敏感信息的集合,一个数据内容可能属于多个集合;m为大于1的自然数,表示当前初始化内置的敏感类型适配器的个数;n为大于1的自然数,表示当前识别结果的下标。tn为第n个数据内容的识别结果;yn表示第n个数据内容的识别结果经过适配器转换后的结果,即转换结果;表示对m个敏感类型的适配转换结果做并集;表示对适配的所有结果求和得出当前数据内容所属集合。
102.s160、根据所述划分结果生成可视化报告。
103.在本实施例中,根据所述敏感信息集合通过多维度生成报表结构化数组,采用图形插件渲染技术生成资产敏感类型的可视化报告。
104.通过可视化报表的方式帮助用户直观了解到数据关联的敏感类型信息。
105.通过识别敏感数据,以执行有效的数据安全保护措施。能够通过整合和保护所有敏感信息,降低数据维护和存储的间接成本及控制数据滥用行为。支持根据数据类型和目的实现有效的数据访问控制进而提高用户的生产力。
106.上述的敏感数据识别方法,通过从企业数据资产中抽取对应资产集合的数据内容;进行结构化调整,对结构化数据集合进行使用对应的行业nlp词向量分析,获取敏感信息的识别结果;对所述识别结果进行数据资产敏感类型划分,得到敏感信息集合;生成资产敏感类型的可视化报告,实现自动识别出企业数据中的敏感数据,降低企业在数据使用过程中的敏感数据泄密风险。
107.图8是本发明实施例提供的一种敏感数据识别装置300的示意性框图。如图8所示,对应于以上敏感数据识别方法,本发明还提供一种敏感数据识别装置300。该敏感数据识别装置300包括用于执行上述敏感数据识别方法的单元,该装置可以被配置于服务器中。具体地,请参阅图8,该敏感数据识别装置300包括内容获取单元301、调整单元302、引擎初始化单元303、识别单元304、划分单元305以及生成单元306。
108.内容获取单元301,用于获取企业的资产集合的数据内容;调整单元302,用于对所述数据内容进行结构化调整,以得到结构化数据集合;引擎初始化单元303,用于初始化识别引擎;识别单元304,用于利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;划分单元305,用于对所述识别结果进行数据资产敏感类型划分,以得到划分结果;生成单元306,用于根据所述划分结果生成可视化报告。
109.在一实施例中,如图9所示,所述内容获取单元301包括获取子单元3011以及抽取子单元3012。
110.获取子单元3011,用于从企业数据资产中获取数据源信息;抽取子单元3012,用于从所述数据源信息中抽取资产集合的数据内容。
111.在一实施例中,如图10所示,所述调整单元302包括行列转换子单元3021以及保存子单元3022。
112.行列转换子单元3021,用于对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;保存子单元3022,用于将所述结构化数据集合保存在应用内存中。
113.在一实施例中,如图11所示,所述引擎初始化单元303包括读取子单元3031、调用子单元3032以及分类子单元3033。
114.读取子单元3031,用于读取多个行业的nlp词向量集合文件;调用子单元3032,用于调用识别引擎初始化插件完成nlp词向量集合文件加载,并进行nlp词向量集合的构建;分类子单元3033,用于对完成构建的nlp词向量集合按行业分类。
115.在一实施例中,如图12所示,所述识别单元304包括选择子单元3041以及内容识别子单元3042。
116.选择子单元3041,用于选择所述结构化数据集合的资产所属行业,并获取对应的nlp词向量集合;内容识别子单元3042,用于调用识别引擎的识别插件,导入所述结构化数据集合,使用对应的nlp词向量集合进行识别,以得到单个数据内容的识别结果。
117.在一实施例中,如图13所示,所述划分单元305包括初始化子单元3051、类型转换子单元3052以及集合生成子单元3053。
118.初始化子单元3051,用于初始化内置的敏感类型适配器;类型转换子单元3052,用于根据所述敏感类型适配器对所述识别结果进行类型转换,以得到转换结果;集合生成子单元3053,用于根据所述转换结果生成敏感信息集合,以得到划分结果。
119.需要说明的是,所属领域的技术人员可以清楚地了解到,上述敏感数据识别装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
120.上述敏感数据识别装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图14所示的计算机设备上运行。
121.请参阅图14,图14是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
122.参阅图14,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
123.该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种敏感数据识别方法。
124.该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
125.该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种敏感数据识别方法。
126.该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图14中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的
部件,或者组合某些部件,或者具有不同的部件布置。
127.其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
128.获取企业的资产集合的数据内容;对所述数据内容进行结构化调整,以得到结构化数据集合;初始化识别引擎;利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;对所述识别结果进行数据资产敏感类型划分,以得到划分结果;根据所述划分结果生成可视化报告。
129.在一实施例中,处理器502在实现所述获取企业数据内容步骤时,具体实现如下步骤:
130.从企业数据资产中获取数据源信息;从所述数据源信息中抽取资产集合的数据内容。
131.其中,所述数据源信息包括企业数据库类型、数据库和服务器资源的连接信息。
132.在一实施例中,处理器502在实现所述对所述数据内容进行结构化调整,以得到结构化数据集合步骤时,具体实现如下步骤:
133.对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;将所述结构化数据集合保存在应用内存中。
134.在一实施例中,处理器502在实现所述初始化识别引擎步骤时,具体实现如下步骤:
135.读取多个行业的nlp词向量集合文件;调用识别引擎初始化插件完成nlp词向量集合文件加载,并进行nlp词向量集合的构建;对完成构建的nlp词向量集合按行业分类。
136.在一实施例中,处理器502在实现所述利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果步骤时,具体实现如下步骤:
137.选择所述结构化数据集合的资产所属行业,并获取对应的nlp词向量集合;调用识别引擎的识别插件,导入所述结构化数据集合,使用对应的nlp词向量集合进行识别,以得到单个数据内容的识别结果。
138.在一实施例中,处理器502在实现所述对所述识别结果进行数据资产敏感类型划分,以得到划分结果步骤时,具体实现如下步骤:
139.初始化内置的敏感类型适配器;根据所述敏感类型适配器对所述识别结果进行类型转换,以得到转换结果;根据所述转换结果生成敏感信息集合,以得到划分结果。
140.应当理解,在本技术实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
141.本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
142.因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
143.获取企业的资产集合的数据内容;对所述数据内容进行结构化调整,以得到结构化数据集合;初始化识别引擎;利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;对所述识别结果进行数据资产敏感类型划分,以得到划分结果;根据所述划分结果生成可视化报告。
144.在一实施例中,所述处理器在执行所述计算机程序而实现所述获取企业数据内容步骤时,具体实现如下步骤:
145.从企业数据资产中获取数据源信息;从所述数据源信息中抽取资产集合的数据内容。
146.其中,所述数据源信息包括企业数据库类型、数据库和服务器资源的连接信息。
147.在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述数据内容进行结构化调整,以得到结构化数据集合步骤时,具体实现如下步骤:
148.对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;将所述结构化数据集合保存在应用内存中。
149.在一实施例中,所述处理器在执行所述计算机程序而实现所述初始化识别引擎步骤时,具体实现如下步骤:
150.读取多个行业的nlp词向量集合文件;调用识别引擎初始化插件完成nlp词向量集合文件加载,并进行nlp词向量集合的构建;对完成构建的nlp词向量集合按行业分类。
151.在一实施例中,所述处理器在执行所述计算机程序而实现所述利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果步骤时,具体实现如下步骤:
152.选择所述结构化数据集合的资产所属行业,并获取对应的nlp词向量集合;调用识别引擎的识别插件,导入所述结构化数据集合,使用对应的nlp词向量集合进行识别,以得到单个数据内容的识别结果。
153.在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述识别结果进行数据资产敏感类型划分,以得到划分结果步骤时,具体实现如下步骤:
154.初始化内置的敏感类型适配器;根据所述敏感类型适配器对所述识别结果进行类型转换,以得到转换结果;根据所述转换结果生成敏感信息集合,以得到划分结果。
155.所述存储介质可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
156.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
157.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结
合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
158.本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
159.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,客户端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
160.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.敏感数据识别方法,其特征在于,包括:获取企业的资产集合的数据内容;对所述数据内容进行结构化调整,以得到结构化数据集合;初始化识别引擎;利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;对所述识别结果进行数据资产敏感类型划分,以得到划分结果;根据所述划分结果生成可视化报告。2.根据权利要求1所述的敏感数据识别方法,其特征在于,所述获取企业数据内容,包括:从企业数据资产中获取数据源信息;从所述数据源信息中抽取资产集合的数据内容。3.根据权利要求2所述的敏感数据识别方法,其特征在于,所述数据源信息包括企业数据库类型、数据库和服务器资源的连接信息。4.根据权利要求1所述的敏感数据识别方法,其特征在于,所述对所述数据内容进行结构化调整,以得到结构化数据集合,包括:对所述数据内容进行行列转换,形成列值-样本值的结构化数据集合;将所述结构化数据集合保存在应用内存中。5.根据权利要求1所述的敏感数据识别方法,其特征在于,所述初始化识别引擎,包括:读取多个行业的nlp词向量集合文件;调用识别引擎初始化插件完成nlp词向量集合文件加载,并进行nlp词向量集合的构建;对完成构建的nlp词向量集合按行业分类。6.根据权利要求1所述的敏感数据识别方法,其特征在于,所述利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果,包括:选择所述结构化数据集合的资产所属行业,并获取对应的nlp词向量集合;调用识别引擎的识别插件,导入所述结构化数据集合,使用对应的nlp词向量集合进行识别,以得到单个数据内容的识别结果。7.根据权利要求1所述的敏感数据识别方法,其特征在于,所述对所述识别结果进行数据资产敏感类型划分,以得到划分结果,包括:初始化内置的敏感类型适配器;根据所述敏感类型适配器对所述识别结果进行类型转换,以得到转换结果;根据所述转换结果生成敏感信息集合,以得到划分结果。8.敏感数据识别装置,其特征在于,包括:内容获取单元,用于获取企业的资产集合的数据内容;调整单元,用于对所述数据内容进行结构化调整,以得到结构化数据集合;引擎初始化单元,用于初始化识别引擎;识别单元,用于利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;划分单元,用于对所述识别结果进行数据资产敏感类型划分,以得到划分结果;
生成单元,用于根据所述划分结果生成可视化报告。9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
技术总结
本发明实施例公开了敏感数据识别方法、装置、计算机设备及存储介质。所述方法包括:获取企业的资产集合的数据内容;对所述数据内容进行结构化调整,以得到结构化数据集合;初始化识别引擎;利用所述识别引擎对所述结构化数据集合进行敏感信息的识别,以得到识别结果;对所述识别结果进行数据资产敏感类型划分,以得到划分结果;根据所述划分结果生成可视化报告。通过实施本发明实施例的方法可实现自动识别出企业数据中的敏感数据,降低企业在数据使用过程中的敏感数据泄密风险。用过程中的敏感数据泄密风险。用过程中的敏感数据泄密风险。
技术研发人员:柳遵梁 李志刚 周杰 闻建霞 胡宝华 韩雯霞 干忠光
受保护的技术使用者:杭州美创科技股份有限公司
技术研发日:2023.04.11
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
