一种大数据平台数据安全保护方法与流程

未命名 08-07 阅读:106 评论:0


1.本发明涉及计算机技术领域,尤其涉及一种大数据平台数据安全保护方法。


背景技术:

2.数据库,简而言之可视为电子化的文件柜。在现有技术领域,元数据是在数据库管理过程中生成的一类非常重要的数据。元数据又称中介数据、中继数据,其为描述数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。从数据结构上说,元数据算是一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
3.大数据平台中数据仓库通常是分层管理,不同数据层都存放敏感数据。在数据采集、数据开发和数据治理过程中各数据层产生大量新数据表。这些数据表包含敏感数据,目前对于敏感数据的保护已有不少相关的方法。中国专利申请号为201511026582.1公开了一种大数据平台的数据流通与交易的敏感数据保护系统及方法,从数据流通的整个环节实现了敏感数据的保护,同时提出了基于专家系统和自然语言处理的敏感数据自动发现方法,能够有效的验证脱敏结果正确性和真实性。但现有技术中对数据的安全保护所依赖的人工参与量很大,且效率并不高。


技术实现要素:

4.有鉴于此,本发明提出了一种大数据平台数据安全保护方法,通过将数据血缘关系结合数据表形成关系图,利用关系图的优越性能对敏感数据进行批量的标记和安全保护,极大的提高了识别数据的效率,且降低了错漏的情况。
5.本发明的技术方案是这样实现的:本发明提供了一种大数据平台数据安全保护方法,包括:s1 获取大数据平台中所有的数据表,将所有的数据表按照类别存放于数据仓库中,数据仓库包括多个数据层,一个数据层中的数据表具有相同的类别;s2 根据数据治理平台的etl调度作业依赖关系自动捕获各数据表之间的数据血缘关系,将数据表和数据血缘关系形成关系图,保存至元数据数据库;s3 根据不同的业务需求采取安全保护措施,将业务需求与对应的安全保护措施形成多个数据安全保护策略,并保存至数据安全管理平台;s4 用户输入当前数据和当前业务需求,根据当前业务需求查询当前数据的安全保护措施,基于该安全保护措施对当前数据执行安全保护。
6.在以上技术方案的基础上,优选的,步骤s2中,关系图的形成过程包括:将数据表中的表头执行sql语句解析,得到表头的语法树,根据语法树确定表头的语义信息,将其作为表头的表名信息;将数据表中表格的每个字段执行sql语句解析,得到每个字段的语法树,根据语法
树确定每个字段的语义信息,将其作为字段的字段信息;将每个字段信息与对应的表名信息进行链接,得到表字段,将其作为关系图的节点;将数据表之间的数据血缘关系存储为关系图的边,其中,数据血缘关系为表字段与表字段之间的有向关系,每一个有向关系将对应的表字段分为上游表字段和下游表字段。
7.在以上技术方案的基础上,优选的,步骤s3包括:对数据表中的数据按安全管理规范制定对应的数据安全等级,数据安全等级分为多个安全级别;将业务需求分为数据访问和业务操作;根据业务需求、数据所在的数据层、数据的数据安全等级确定所采取的安全保护措施;将数据-业务需求-数据安全等级-数据层-安全保护措施按照一一对应的关系构成数据安全保护策略,并保存至数据安全管理平台。
8.更进一步优选的,步骤s3还包括:采用识别方法对大数据平台中的数据安全保护策略及其对应的数据基于关系图进行识别,将识别的过程及结果与对应的数据安全保护策略进行链接后存储于数据安全管理平台。
9.更进一步优选的,识别方法包括:步骤一、专家随机选取大数据平台中的数据作为目标数据,提取目标数据的目标表字段和数据安全等级,专家对目标数据进行敏感性判断,若目标数据为敏感数据,则专家给出相应的脱敏算法,标记目标数据的数据安全等级、目标数据的敏感性判断结果、脱敏算法,得到目标数据的标记结果;步骤二、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的下游表字段,将搜索到的结果保存至第一列表;步骤三、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的上游表字段,将搜索到的结果保存至第一列表;步骤四、将第一列表中的表字段进行整理,得到目标数据的关联数据,专家对关联数据进行人工识别,标记出关联数据的数据安全等级、关联数据的敏感性判断结果、脱敏算法,得到关联数据的标记结果;步骤五、重复步骤一至步骤四,直至大数据平台中的所有数据均标记完毕,将最终的目标数据和关联数据的标记结果存储至数据安全管理平台。
10.更进一步优选的,当前数据为访问数据,当前业务需求为数据访问,步骤s4包括:用户执行数据访问操作,输入访问数据,访问数据为敏感数据;从数据安全管理平台中调取访问数据的的脱敏算法;对访问数据执行脱敏算法。
11.更进一步优选的,当前数据为业务数据,当前业务需求为业务操作,步骤s4包括:
用户执行业务操作,输入业务数据;从数据安全管理平台中调取业务数据的数据安全等级;从元数据数据库查询业务数据的数据层;根据业务操作、业务数据的数据层、业务数据的数据安全等级,从数据安全管理平台中查询业务数据的安全保护措施;对业务数据执行安全保护措施。
12.更进一步优选的,所述方法还包括:当大数据平台检测到关系图进行了更新后,自动对数据安全管理平台中的数据安全保护策略进行识别,并将结果更新保存至数据安全管理平台。
13.更进一步优选的,所述自动对数据安全管理平台中的数据安全保护策略进行识别,包括:第一步、遍历搜索更新后的关系图中更新的数据血缘关系,并与原关系图做对比,得到与更新的数据血缘关系之间具有直接或间接链接关系的多个目标数据表,将多个目标数据表保存到第二列表;第二步、遍历第二列表中的每个目标数据表,在更新后的关系图中根据图谱查询方式得到每个目标数据表的所有表字段,作为第一表字段集合,并保存至第三列表;第三步、遍历第三列表,根据更新的数据血缘关系确定第一表字段之间的有向关系,利用更新的数据血缘关系和第一表字段形成多条更新的路径,基于第一表字段之间的有向关系搜索位于每条更新的路径中最上游的表字段,将最上游的表字段作为第二表字段,并保存至第四列表;第四步、遍历第四列表,依次在数据安全管理平台中查询第二表字段的数据安全等级和标记结果;第五步、遍历第四列表,在更新后的关系图中递归搜索每个第二表字段的所有下游表字段,得到每个第二表字段的第三表字段集合,将第二表字段与对应的第三表字段集合、对应的数据安全等级和对应的标记结果保存至第五列表;第六步、遍历第五列表,将第二表字段的数据安全等级和标记结果自动赋给相对应的第三表字段集合,直至第五列表中的所有表字段均含有数据安全等级和标记结果,将遍历后的第五列表保存至数据安全管理平台。
14.更进一步优选的,所述脱敏算法是对敏感信息进行隐藏的方法,包括掩码类脱敏算法、哈希类脱敏算法、截断类脱敏算法、对称加密类脱敏算法。
15.本发明的方法相对于现有技术具有以下有益效果:(1)通过将数据表和数据血缘关系进行解析后形成关系图,对数据进行更深层次的管理和利用,极大的增加了数据的利用率;(2)通过利用关系图的图谱性能,在人工识别敏感数据时,实现批量的标记和安全保护,提高了数据识别的效率,也增加了安全保护的性能;(3)设置了一个自动更新验证机制,在关系图更新后,利用数据血缘关系对平台中的数据进行相关的安全保护检查,以保证敏感数据的安全性不被破坏。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明实施例的方法流程图;图2为本发明实施例的有向关系简略示意图;图3为本发明实施例的人工识别方法示意图;图4为本发明一实施例中数据访问的执行过程图;图5为本发明另一实施例中业务操作的执行过程图;图6本发明实施例的自动识别方法示意图;图7为本发明一具体实施例的架构示意图。
具体实施方式
18.下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
19.如图1所示,本发明提供一种大数据平台数据安全保护方法,包括:s1 获取大数据平台中所有的数据表,将所有的数据表按照类别存放于数据仓库中,数据仓库包括多个数据层,一个数据层中的数据表具有相同的类别;s2 根据数据治理平台的etl调度作业依赖关系自动捕获各数据表之间的数据血缘关系,将数据表和数据血缘关系形成关系图,保存至元数据数据库;s3 根据不同的业务需求采取安全保护措施,将业务需求与对应的安全保护措施形成多个数据安全保护策略,并保存至数据安全管理平台;s4 用户输入当前数据和当前业务需求,根据当前业务需求查询当前数据的安全保护措施,基于该安全保护措施对当前数据执行安全保护。
20.具体地,本发明一实施例中,步骤s1包括:大数据平台中包括有数据治理平台、数据仓库和数据安全管理平台,其中,数据仓库中分层存放大数据平台中的全部数据,根据具体的数据内容确定数据仓库的分层方式,本实施例中,数据仓库包括三个数据层,分别为原始库、标准库和主题库。具体按照每个数据的类别存放至不同的数据层中,即每个数据层中的数据为相同的类别。在数据治理和数据开发业务时,会在各数据层产生新的数据表。
21.具体地,本发明一实施例中,步骤s2包括:数据治理平台中包括有元数据管理模块,元数据是描述信息资源或数据等对象的数据,其主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。本实施例中,元数据管理模块具体包括一元数据数据库,其包含关系图,即数据血缘关系,在元数据数据库中,还包括元数据,本实施例中的元数据为多元化元数据,在数据表被创建时,对应的将形成元数据对数据表的表名、字段信息、字段类型、字段长度等
进行描述,同时元数据也对数据表的存储位置,即该数据表位于数据仓库中的哪个数据层进行描述,而在形成关系图后,关系图中的节点、边,即表字段、及表字段之间的关系均有元数据进行描述,在后续数据识别等过程中,产生了新的数据表、新的数据、更新了关系图等,都将对应形成元数据进行描述。
22.在本发明实施例中,数据血缘关系根据数据治理平台的etl调度作业依赖关系自动捕获得到,在一个具体的例子中,自动捕获的实现方式可以是预设一血缘钩子函数。数据血缘关系是大数据平台数据处理过程中形成的数据表的字段到另一个数据表的字段之间的有向关系。在得到数据血缘关系后,元数据管理模块将数据血缘关系的数据保存在元数据数据库中。
23.本发明一具体实施例中,关系图的形成过程包括:将数据表中的表头执行sql语句解析,得到表头的语法树,根据语法树确定表头的语义信息,将其作为表头的表名信息;将数据表中表格的每个字段执行sql语句解析,得到每个字段的语法树,根据语法树确定每个字段的语义信息,将其作为字段的字段信息;将每个字段信息与对应的表名信息进行链接,得到表字段,将其作为关系图的节点;将数据表之间的数据血缘关系存储为关系图的边,其中,数据血缘关系为表字段与表字段之间的有向关系,每一个有向关系将对应的表字段分为上游表字段和下游表字段。
24.其中,语法树为能够实现对sql语句的语法分析,将sql语句中的字符串变换成一个结构体,让计算机能够更容易理解sql语句中的字符串的具体含义。在具体实施过程中,可以采用sql语句解析器对sql语句集合中的每条sql语句分别进行解析,以得到每条sql语句的语法树,例如采用druid或其他解析器对sql语句进行解析。
25.在得到每条sql语句的语法树之后,对每条sql语句的语法树进行遍历,得到该条sql语句中涉及到的字段信息,以及表名信息。将在每个语法树中提取到的字段信息以及表名信息先进行链接,例如,同一个数据表中的表名信息应多次链接至相应数据列的字段信息,若一个数据表的表名信息为y1,该数据表中有3个字段信息w1、w2、w3,则在执行后续操作时,先将表名信息和字段信息链接成表字段y1-w1、y1-w2、y1-w3。在得到表字段后,将表字段作为关系图的节点,并根据上述得到的数据血缘关系,对表字段之间进行有向关系的标记,有向关系将每两个有关联的表字段分为上游表字段和下游表字段,将这些有向关系存储为关系图的边,根据节点和有向关系形成数据之间的关系图,存储至元数据数据库。请参阅图2,图2为本发明一个实施例中的数据表之间的表字段有向关系的简略展示图,以便于理解本发明对于有向关系的描述。图2中,表a的字段1到表d的字段1之间有一有向关系,该有向关系中的上游表字段即表a的字段1,而下游表字段即表d的字段1。
26.具体地,本发明一实施例中,步骤s3包括:对数据表中的数据按安全管理规范制定对应的数据安全等级,数据安全等级分为多个安全级别;将业务需求分为数据访问和业务操作;根据业务需求、数据所在的数据层、数据的数据安全等级确定所采取的安全保护
措施;将数据-业务需求-数据安全等级-数据层-安全保护措施按照一一对应的关系构成数据安全保护策略,并保存至数据安全管理平台。
27.数据安全等级是一个对数据按安全管理规范进行分类分级的标识,根据数据内容的不同,安全级别的数目也不同。本实施例中,数据安全等级包括3个安全级别。
28.针对数据分析其重要性和是否为隐私信息,以确定该数据对应为哪个安全级别,不同的安全级别对应不同的安全保护措施,本发明实施例中将业务需求分为数据访问和业务操作,针对用户不同的业务需要,也将采用不同的安全保护措施,另外,数据在数据仓库中是分层存储的,数据具体是属于什么类别,也将影响安全保护措施的确定。因此,本发明实施例中具体是根据业务需求、数据所在的数据层、数据的数据安全等级,综合考虑这三种因素后再确定该数据对应的安全保护措施是什么。
29.具体地,本发明一实施例中,在设置好了数据安全保护策略后,采用识别方法对大数据平台中的数据安全保护策略及其对应的数据基于关系图进行识别,将识别的过程及结果与对应的数据安全保护策略进行链接后存储于数据安全管理平台中。
30.请参阅图3,识别方法包括:步骤一、专家随机选取大数据平台中的数据作为目标数据,提取目标数据的目标表字段和数据安全等级,专家对目标数据进行敏感性判断,若目标数据为敏感数据,则专家给出相应的脱敏算法,标记目标数据的数据安全等级、目标数据的敏感性判断结果、脱敏算法,得到目标数据的标记结果;步骤二、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的下游表字段,将搜索到的结果保存至第一列表;步骤三、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的上游表字段,将搜索到的结果保存至第一列表;步骤四、将第一列表中的表字段进行整理,得到目标数据的关联数据,专家对关联数据进行人工识别,标记出关联数据的数据安全等级、关联数据的敏感性判断结果、脱敏算法,得到关联数据的标记结果;步骤五、重复步骤一至步骤四,直至大数据平台中的所有数据均标记完毕,将最终的目标数据和关联数据的标记结果存储至数据安全管理平台。
31.该识别的过程为人工标记的过程,在人工标记的过程中,充分利用了数据之间的数据血缘关系,对大数据平台中的敏感数据进行快速的识别和对其进行安全保护的判断,大大提高了识别数据的效率,对数据的安全保护起到了重大的作用。
32.需要说明的是,识别方法中的步骤四中,专家在对关联数据进行人工识别时,其为一个十分快速的过程,由于目标数据与相对应的关联数据之间具有单向箭头的数据血缘,它们的安全级别、敏感性判断结果、脱敏算法均是相同的。因此,专家可对关联数据进行快速的批量标记。这样能够大幅度的减少识别所需的时间。
33.应当理解的是,本发明中的人工识别方法在开始的时候由专家随机选取一个数据作为目标数据,之后利用数据血缘关系来加速识别过程,能够减少专家的时间,此为本发明
的较优实施例。但也可以专家先将大数据平台中的数据做一个敏感性分类,将疑似敏感的数据先挑出来,然后专家从这些初步选取的数据中随机选取一个作为目标数据,该方式的时间比本实施例所采用的方式要长,但相对于现有技术,仍然具有优势。
34.本实施例中,所述脱敏算法是对敏感信息进行隐藏的方法,包括掩码类脱敏算法、哈希类脱敏算法、截断类脱敏算法、对称加密类脱敏算法。具体为:掩码类包括对姓名、身份认证、电话号码等敏感信息进行遮掩。哈希类算法包括使用sm3/md5/sha-1对敏感信息进行脱敏。截断类算法包括对日期、数值等数据进行截断。对称加密类包括使用sm4/des/aes进行数据脱敏。
35.以一具体例子对识别方法进行说明:在大数据平台中包括许多的数据,这些数据中有些是敏感数据,本发明实施例所采取的人工识别方式是专家随机选取一个数据作为目标数据,根据目标数据确定其在关系图中的目标表字段。
36.将目标表字段作为起始点,并执行下述的两种操作:1、根据起始点在关系图中的位置,以起始点作为上游表字段,根据有向关系确定第一方向,第一方向为起始点的下游表字段所在的方向,基于深度优先算法以第一方向为搜索方向,遍历整个关系图,得到第一搜索路径,第一搜索路径上的节点均与起始点具有直接或间接的关联,即第一搜索路径上的节点与起始点之间彼此拥有血缘关系。将第一搜索路径上的节点保存至第一列表。具体地,第一方向可能有多个,例如,起始点作为上游表字段时,其下游表字段有三个,则第一方向也为三个,在进行搜索时,则依次选择一个第一方向来进行深度优先搜索,最终得到三个第一搜索路径,将这三个第一搜索路径均保存至第一列表。具体地,由于深度优先算法在执行时,将在一条路线上走到不能再深入为止,之后再返回到某一个节点,继续往下寻路,因此,第一搜索路径一般指的是一个树状的路径,除了一条最深的主干路径,还有许多深度不一的分枝路径。
37.2、根据起始点在关系图中的位置,以起始点作为下游表字段,根据有向关系确定第二方向,第二方向为起始点的上游表字段所在的方向,基于深度优先算法以第二方向为搜索方向,遍历整个关系图,得到第二搜索路径,第二搜索路径上的节点均与起始点具有直接或间接的关联,即第二搜索路径上的节点与起始点之间彼此拥有血缘关系。将第二搜索路径上的节点保存至第一列表。具体地,第二方向可能有多个,例如,起始点作为下游表字段时,其上游表字段有五个,则第二方向也为五个,在进行搜索时,则依次选择一个第二方向来进行深度优先搜索,最终得到五个第二搜索路径,将这五个第二搜索路径均保存至第一列表。具体地,第二搜索路径也指的是一个树状的路径,除了一条最深的主干路径,还有许多深度不一的分枝路径。
38.对第一列表中的所有表字段进行整理,也就是将所有的第一搜索路径、第二搜索路径的树状图进行统计,得到目标数据的关联数据。专家对这些关联数据进行批量的标记,将关联数据的数据安全等级、关联数据的敏感性判断结果、脱敏算法作为关联数据的标记结果。之后将目标数据的标记结果、关联数据的标记结果均存储至数据安全管理平台。
39.具体地,上述人工识别方法为多次进行,即专家后续再随机选取多个数据作为目标数据,利用关系图的特性进行批量标记,极大提高了数据安全保护的效率。
40.具体地,请参阅图4,本发明一实施例中,当前数据为访问数据,当前业务需求为数
据访问,数据访问包括数据查询、数据开放api服务、数据批量交换服务,步骤s4包括:用户执行数据访问操作,输入访问数据,访问数据为敏感数据;从数据安全管理平台中调取访问数据的的脱敏算法;对访问数据执行脱敏算法。
41.具体地,根据用户输入的访问数据,解析该访问数据的内容信息,在数据安全管理平台中查找确定访问数据的脱敏算法,例如,该访问数据为3级的敏感数据,对应的脱敏算法为通过哈希类脱敏算法对数据进行脱敏,则数据访问操作执行sm3/md5/sha-1对访问数据进行脱敏。
42.具体地,请参阅图5,本发明一实施例中,当前数据为业务数据,当前业务需求为业务操作,业务操作包括数据资源申请,步骤s4包括:用户执行业务操作,输入业务数据;从数据安全管理平台中调取业务数据的数据安全等级;从元数据数据库查询业务数据的数据层;根据业务操作、业务数据的数据层、业务数据的数据安全等级,从数据安全管理平台中查询业务数据的安全保护措施;对业务数据执行安全保护措施。
43.需要说明的是,上述为两个实施例,数据访问和业务操作具有不同的执行过程,在执行数据访问时,侧重点在于对数据的查询,因此首先需要确定访问数据的数据内容,根据数据内容在数据安全管理平台中找到该数据经标记过的脱敏算法,再对访问数据中的敏感信息进行脱敏操作,并展示给用户。而在执行业务操作时,侧重点在于对数据的利用,因此在确定数据安全等级后,还需要从元数据数据库中利用对应的元数据进行寻址,确定业务数据位于哪个数据层,在执行安全保护措施对业务数据中的敏感信息进行脱敏后,按照寻址功能对用户提供下载服务。
44.具体地,在本发明一实施例中,当元数据管理模块对关系图执行了更新操作时,平台将自动对数据安全保护策略进行识别,请参阅图6,自动识别过程包括:第一步、遍历搜索更新后的关系图中更新的数据血缘关系,并与原关系图做对比,得到与更新的数据血缘关系之间具有直接或间接链接关系的多个目标数据表,将多个目标数据表保存到第二列表;第二步、遍历第二列表中的每个目标数据表,在更新后的关系图中根据图谱查询方式得到每个目标数据表的所有表字段,作为第一表字段集合,并保存至第三列表;第三步、遍历第三列表,根据更新的数据血缘关系确定第一表字段之间的有向关系,利用更新的数据血缘关系和第一表字段形成多条更新的路径,基于第一表字段之间的有向关系搜索位于每条更新的路径中最上游的表字段,将最上游的表字段作为第二表字段,并保存至第四列表;第四步、遍历第四列表,依次在数据安全管理平台中查询第二表字段的数据安全等级和标记结果;第五步、遍历第四列表,在更新后的关系图中递归搜索每个第二表字段的所有下游表字段,得到每个第二表字段的第三表字段集合,将第二表字段与对应的第三表字段集合、对应的数据安全等级和对应的标记结果保存至第五列表;
第六步、遍历第五列表,将第二表字段的数据安全等级和标记结果自动赋给相对应的第三表字段集合,直至第五列表中的所有表字段均含有数据安全等级和标记结果,将遍历后的第五列表保存至数据安全管理平台。
45.在本发明实施例中,关系图进行更新的情况包括:平台中增加了新的数据、原有数据进行了错误订正、原有数据之间的血缘关系进行了错误订正等。
46.以一具体例子对上述验证过程进行说明:将原关系图和更新后的关系图做变化分析,具体可以采用一个变化检测图模型来实现,对变化的数据血缘关系进行识别和提取,得到更新的数据血缘关系,此时,更新的数据血缘关系可能是新增的数据血缘关系,也可能是更正的数据血缘关系。
47.根据更新的数据血缘关系,查找受其影响的目标数据表,这些目标数据表中的字段内容均与更新的数据血缘关系有着直接或间接的关系,将这些目标数据表保存到第二列表。
48.之后从第二列表中的每个目标数据表中提取表字段的信息,并在更新后的关系图中利用图谱查询的方式定位这些表字段,并将这些表字段作为第一表字段集合,保存至第三列表。
49.更新的数据血缘关系影响了所有的第一表字段,因此第一表字段之间的有向关系可由更新的数据血缘关系进行确定,在遍历第三列表时,仅仅搜索关系图中与更新的数据血缘关系有关联的第一表字段,即利用更新的数据血缘关系和第一表字段形成多条更新的路径,每条更新的路径上包括连续的第一表字段之间的有向关系,在这些更新的路径中定位最上游的表字段,将其作为第二表字段,并保存至第四列表;在数据安全管理平台中查询第二表字段对应的数据安全保护策略,确定其数据安全等级,并查询其标记结果。
50.遍历第四列表,依次将第四列表中的第二表字段作为起始点,根据起始点在更新后的关系图中的位置,以起始点作为上游表字段,根据有向关系确定行进,行进方向为起始点的下游表字段所在的方向,基于深度优先算法以行进方向为搜索方向,遍历整个更新后的关系图,得到第三搜索路径,将第三搜索路径上的节点作为起始点的第三表字段集合。最终得到每个第二表字段的第三表字段集合。
51.将第二表字段、第二表字段的数据安全等级和标记结果、第二表字段的第三表字段集合保存至第五列表。
52.对第五列表进行遍历,由于同一数据血缘的表字段之间具有相同的性质,即第二表字段与其对应的第三表字段集合应具有相同的安全级别、敏感性判断结果、脱敏算法,因此直接将第二表字段的数据安全等级和标记结果自动的批量赋予对应的第三表字段集合。实现快速的批量识别,提高数据识别效率。
53.请参阅图7,以一具体实施例的架构示意图来对本发明实施例中的大数据平台进行说明:图7中,大数据平台包括数据安全管理平台、数据治理平台、数据仓库,大数据平台的需求即数据业务,分类两类,一类为数据访问,包括数据查询、数据开放api服务、数据批量交换服务等,一类为业务操作,包括数据资源申请等。
54.在数据安全管理平台中,除了初始设置的数据安全保护策略,即数据安全等级和
安全保护措施,以及数据处理过程中,根据人工识别和自动验证得到的数据安全保护策略,该数据安全管理平台中还包括数据安全等级管理、脱敏算法管理、数据识别。
55.其中,数据安全等级管理模块中存储有大数据平台在执行各类处理操作过程中标记得到的数据安全等级,数据安全等级是一个对数据按安全管理规范进行分类分级的标识;在具体实施例中,所述脱敏算法是对敏感信息进行隐藏的方法,因此,数据安全管理平台中的脱敏算法管理模块即存储在人工识别、自动识别过程中标记得到的脱敏算法。而数据识别是指对数据内容进行识别判断,标记出数据安全等级和脱敏算法。
56.在数据治理平台中,除了元数据管理模块,还包括有数据采集、数据标准、主数据、数据质量、数据资产,其中,数据采集模块的功能是对多方来源的数据进行获取,并将获取的数据作为原始数据传输至数据仓库的原始库中进行存储;数据标准模块将原始数据进行标准化处理,并将标准数据传输至数据仓库的标准库中进行存储;主数据模块对原始数据或标准数据进行主题分类,将分类后的数据传输至数据仓库的主题库中进行存储;数据质量模块对数据进行质量检测并做记录;数据资产模块对大数据平台中的所有数据进行记录并展示;元数据管理模块用于构建关系图,并对数据血缘关系和元数据进行存储,形成一个元数据数据库,该元数据数据库在数据安全管理平台的数据识别过程、平台的验证过程、用户执行其需求和访问过程,均起到技术支撑的作用,以实现本发明中的数据安全保护方法。
57.以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种大数据平台数据安全保护方法,其特征在于,包括:s1 获取大数据平台中所有的数据表,将所有的数据表按照类别存放于数据仓库中,数据仓库包括多个数据层,一个数据层中的数据表具有相同的类别;s2 根据数据治理平台的etl调度作业依赖关系自动捕获各数据表之间的数据血缘关系,将数据表和数据血缘关系形成关系图,保存至元数据数据库;s3 根据不同的业务需求采取安全保护措施,将业务需求与对应的安全保护措施形成多个数据安全保护策略,并保存至数据安全管理平台;s4 用户输入当前数据和当前业务需求,根据当前业务需求查询当前数据的安全保护措施,基于该安全保护措施对当前数据执行安全保护。2.如权利要求1所述的方法,其特征在于,步骤s2中,关系图的形成过程包括:将数据表中的表头执行sql语句解析,得到表头的语法树,根据语法树确定表头的语义信息,将其作为表头的表名信息;将数据表中表格的每个字段执行sql语句解析,得到每个字段的语法树,根据语法树确定每个字段的语义信息,将其作为字段的字段信息;将每个字段信息与对应的表名信息进行链接,得到表字段,将其作为关系图的节点;将数据表之间的数据血缘关系存储为关系图的边,其中,数据血缘关系为表字段与表字段之间的有向关系,每一个有向关系将对应的表字段分为上游表字段和下游表字段。3.如权利要求2所述的方法,其特征在于,步骤s3包括:对数据表中的数据按安全管理规范制定对应的数据安全等级,数据安全等级分为多个安全级别;将业务需求分为数据访问和业务操作;根据业务需求、数据所在的数据层、数据的数据安全等级确定所采取的安全保护措施;将数据-业务需求-数据安全等级-数据层-安全保护措施按照一一对应的关系构成数据安全保护策略,并保存至数据安全管理平台。4.如权利要求3所述的方法,其特征在于,步骤s3还包括:采用识别方法对大数据平台中的数据安全保护策略及其对应的数据基于关系图进行识别,将识别的过程及结果与对应的数据安全保护策略进行链接后存储于数据安全管理平台。5.如权利要求4所述的方法,其特征在于,识别方法包括:步骤一、专家随机选取大数据平台中的数据作为目标数据,提取目标数据的目标表字段和数据安全等级,专家对目标数据进行敏感性判断,若目标数据为敏感数据,则专家给出相应的脱敏算法,标记目标数据的数据安全等级、目标数据的敏感性判断结果、脱敏算法,得到目标数据的标记结果;步骤二、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的下游表字段,将搜索到的结果保存至第一列表;步骤三、在关系图中将目标表字段对应的节点作为起始点,根据有向关系从起始点出发按照深度优先算法递归遍历关系图,搜索与起始点相关的上游表字段,将搜索到的结果保存至第一列表;
步骤四、将第一列表中的表字段进行整理,得到目标数据的关联数据,专家对关联数据进行人工识别,标记出关联数据的数据安全等级、关联数据的敏感性判断结果、脱敏算法,得到关联数据的标记结果;步骤五、重复步骤一至步骤四,直至大数据平台中的所有数据均标记完毕,将最终的目标数据和关联数据的标记结果存储至数据安全管理平台。6.如权利要求5所述的方法,其特征在于,当前数据为访问数据,当前业务需求为数据访问,步骤s4包括:用户执行数据访问操作,输入访问数据,访问数据为敏感数据;从数据安全管理平台中调取访问数据的的脱敏算法;对访问数据执行脱敏算法。7.如权利要求5所述的方法,其特征在于,当前数据为业务数据,当前业务需求为业务操作,步骤s4包括:用户执行业务操作,输入业务数据;从数据安全管理平台中调取业务数据的数据安全等级;从元数据数据库查询业务数据的数据层;根据业务操作、业务数据的数据层、业务数据的数据安全等级,从数据安全管理平台中查询业务数据的安全保护措施;对业务数据执行安全保护措施。8.如权利要求5所述的方法,其特征在于,所述方法还包括:当大数据平台检测到关系图进行了更新后,自动对数据安全管理平台中的数据安全保护策略进行识别,并将结果更新保存至数据安全管理平台。9.如权利要求8所述的方法,其特征在于,所述自动对数据安全管理平台中的数据安全保护策略进行识别,包括:第一步、遍历搜索更新后的关系图中更新的数据血缘关系,并与原关系图做对比,得到与更新的数据血缘关系之间具有直接或间接链接关系的多个目标数据表,将多个目标数据表保存到第二列表;第二步、遍历第二列表中的每个目标数据表,在更新后的关系图中根据图谱查询方式得到每个目标数据表的所有表字段,作为第一表字段集合,并保存至第三列表;第三步、遍历第三列表,根据更新的数据血缘关系确定第一表字段之间的有向关系,利用更新的数据血缘关系和第一表字段形成多条更新的路径,基于第一表字段之间的有向关系搜索位于每条更新的路径中最上游的表字段,将最上游的表字段作为第二表字段,并保存至第四列表;第四步、遍历第四列表,依次在数据安全管理平台中查询第二表字段的数据安全等级和标记结果;第五步、遍历第四列表,在更新后的关系图中递归搜索每个第二表字段的所有下游表字段,得到每个第二表字段的第三表字段集合,将第二表字段与对应的第三表字段集合、对应的数据安全等级和对应的标记结果保存至第五列表;第六步、遍历第五列表,将第二表字段的数据安全等级和标记结果自动赋给相对应的第三表字段集合,直至第五列表中的所有表字段均含有数据安全等级和标记结果,将遍历
后的第五列表保存至数据安全管理平台。10.如权利要求5所述的方法,其特征在于,所述脱敏算法是对敏感信息进行隐藏的方法,包括掩码类脱敏算法、哈希类脱敏算法、截断类脱敏算法、对称加密类脱敏算法。

技术总结
本发明提出了一种大数据平台数据安全保护方法,涉及计算机技术领域,包括:大数据平台汇聚业务系统所有数据,对数据开发和治理的过程中,将所有的数据表按照类别存放于数据仓库中;根据数据治理平台的ETL调度作业依赖关系自动捕获数据表之间的数据血缘关系,将数据表和数据血缘关系形成关系图,保存至元数据数据库;根据不同的业务需求采取安全保护措施,将业务需求与对应的安全保护措施形成多个数据安全保护策略,并保存至数据安全管理平台;用户输入当前数据和当前业务需求,根据当前业务需求查询当前数据的安全保护措施,基于该安全保护措施对当前数据执行安全保护。本发明利用数据血缘,实现数据的快速识别,极大提高了识别数据的效率。别数据的效率。别数据的效率。


技术研发人员:胡琦 严鹤 王俊 杨权
受保护的技术使用者:云启智慧科技有限公司
技术研发日:2023.07.07
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐