数据血缘溯源方法和系统与流程
未命名
07-14
阅读:188
评论:0
1.本公开涉及数据治理领域,尤其涉及一种数据血缘溯源方法和系统。
背景技术:
2.大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。数据血缘是元数据管理、数据治理、数据质量的重要一环,追踪数据的来源、处理、出处,对数据价值评估提供依据,描述源数据流程、表、报表、即席查询之间的流向关系,表与表的依赖关系、表与离线etl任务,调度平台,计算引擎之间的依赖关系。相关技术仅实现了列级别的数据溯源。
技术实现要素:
3.本公开要解决的一个技术问题是,提供一种数据血缘溯源方法和系统,能够实现行粒度的数据血缘分析。
4.根据本公开一方面,提出一种数据血缘溯源方法,包括:在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点;在etl任务过程中,根据依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,第一元素和第二元素包括行标识、元素属性和时间窗口参数;以及根据第一血缘关系,对数据进行血缘溯源。
5.在一些实施例中,根据第一血缘关系,构建血缘描述图模型;根据血缘描述图模型中元素之间的连接关系,对元素和路径数据进行过滤。
6.在一些实施例中,根据血缘描述图模型中,将多组第一血缘关系中的元素和路径数据进行压缩。
7.在一些实施例中,将第一血缘关系植入到第一数据集;根据依赖关系,对第一元素和第二元素之间的血缘关系进行追加,得到第二血缘关系,其中,第一元素和第二元素包括行标识、元素属性、时间窗口参数和第一血缘关系;根据第二血缘关系,对数据进行血缘溯源。
8.在一些实施例中,所示依赖关系包括第一依赖关系和第二依赖关系,数据之间数据表和字段粒度的依赖关系通过以下步骤确定:采集原始数据;对原始数据中的sql语句进行语法解析,得到sql节点关系;将sql节点关系与原始数据中的元数据结合,得到第一依赖关系;对原始数据中的任务脚本进行解析,得到第二依赖关系;将第一依赖关系和第二依赖关系存储在结果库。
9.在一些实施例中,原始数据包括数据集表中的元数据的定义、自定义函数、数据集市中的查询和报表、etl任务以及etl任务转化脚本中的一项或多项。
10.在一些实施例中,得到第一数据集包括:针对流式数据或批量数据,以时间语义沿着时间窗口边界,对采集的无限数据集进行切分,得到多个第一数据集。
11.在一些实施例中,对数据进行血缘溯源以下中的至少一项包括:根据下游数据跟踪上游数据;对上游敏感数据的流向和影响范围做可视化呈现或分析;对数据进行关联分析。
12.根据本公开的另一方面,还提出一种数据血缘溯源系统,包括:植入单元,被配置为在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点,在etl任务过程中,根据依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,第一元素和第二元素包括行标识、元素属性和时间窗口参数;以及血缘分析单元,被配置为根据第一血缘关系,对数据进行血缘溯源。
13.在一些实施例中,该数据血缘溯源系统还包括:数据压缩单元,被配置为根据第一血缘关系,构建血缘描述图模型,根据血缘描述图模型中元素之间的连接关系,对元素和路径数据进行过滤。
14.在一些实施例中,数据压缩单元还被配置为根据血缘描述图模型中,将多组第一血缘关系中的元素和路径数据进行压缩。
15.在一些实施例中,所示依赖关系包括第一依赖关系和第二依赖关系,系统还包括:元数据解析单元,被配置为采集原始数据,对原始数据中的sql语句进行语法解析,得到sql节点关系,将sql节点关系与原始数据中的元数据结合,得到第一依赖关系,对原始数据中的任务脚本进行解析,得到第二依赖关系,将第一依赖关系和第二依赖关系存储在结果库。
16.根据本公开的另一方面,还提出一种数据血缘溯源系统,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的数据血缘溯源方法。
17.根据本公开的另一方面,还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的数据血缘溯源方法。
18.通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
19.构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
20.参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
21.图1为本公开的数据血缘溯源方法的一些实施例的流程示意图。
22.图2为etl原子操作dag示意图。
23.图3为数据血缘关系与原子操作对应图。
24.图4为本公开的数据血缘溯源方法的另一些实施例的流程示意图。
25.图5为实时链路数据集成示意图。
26.图6为数据血缘派生关系图。
27.图7为图数据节点过滤方式压缩数据的示意图。
28.图8为图数据样本混合方式压缩数据的示意图。
29.图9为本公开的数据血缘溯源系统的一些实施例的结构示意图。
30.图10为本公开的数据血缘溯源系统的另一些实施例的结构示意图。
31.图11为本公开的数据血缘溯源系统的另一些实施例的结构示意图。
具体实施方式
32.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
33.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
34.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
35.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
36.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
37.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
38.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
39.图1为本公开的数据血缘溯源方法的一些实施例的流程示意图。
40.在步骤110,在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点。
41.在一些实施例中,采集原始数据,原始数据包括数据集表中的元数据的定义、自定义函数、数据集市中的查询和报表、etl任务以及etl任务转化脚本等。自定义函数、数据集市中的查询和报表、etl任务以sql语句表示,对原始数据中的sql语句进行语法解析,得到sql节点关系,将sql节点关系与原始数据中的元数据结合,得到第一依赖关系;对原始数据中的任务脚本进行解析,得到第二依赖关系;将第一依赖关系和第二依赖关系存储在结果库。
42.在一些实施例中,在数据传输和计算两个数据治理的关键过程中,植入数据关系片段作为血缘数据埋点,该数据关系片段即数据之间的依赖关系。
43.在步骤120,在etl(extract、抽取;transform、转换;load、加载)任务过程中,根据依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,第一元素和第二元素包括行标识、元素属性和时间窗口参数。
44.在一些实施例中,数据集中的元素即数据集中的一行或多行。
45.在一些实施例中,第一元素和第二元素的行标识即行标识。
46.在一些实施例中,针对流式数据或批量数据,以时间语义沿着时间窗口边界,对采集的无限数据集进行切分,得到多个第一数据集。例如,实时数据集成处理的是流式数据,一个数据模型的实例数据以时间语义沿着时间窗口t边界由无限数据集切分为有限数据集s。如图2所示,每一个etl过程本质是一个列计算cal、数据集连接join、数据集聚合aggr等
操作构成的一个dag(directed acyclic graph,有向无环图)。
47.在一些实施例中,将第一数据集s的第一元素,记其数据元组(k,v)个数为n,数据元组即数据属性,s唯一标识为id,则第一元素是一个具有行标识id,(k,v)n,t三元组特征的数据集,记s=(id,(k,v)n,t)。如图3所示,以列计算为例,第一数据集s经过若干列计算cal的结果集,即第二数据集s’,根据对行计算的sql和脚本的解析,得到前后两个数据集元素s和s’的血缘关系relate(s-》s’)={(id,(k,v)n,t)
‑‑
》{id’,(k,v)n’,t}。类似的,对于dag中的join(连接另一个数据集w的元素w)和aggr操作分别可得到血缘关系的表示:relate(s,w-》s’)={s(id,(k,v)n,t),w(id,(k,v)n,t)
‑‑
》s’(id’,(k,v)n’,t)},其中(id,k)
‑‑
》(id’,k’)是一对多或多对一派生关系。
48.在步骤130,根据第一血缘关系,对数据进行血缘溯源。
49.在一些实施例中,根据下游数据跟踪上游数据。
50.在一些实施例中,对上游敏感数据的流向和影响范围做可视化呈现或分析。
51.在一些实施例中,对数据进行关联分析。
52.在上述实施例中,在异源数据治理的离线和实时计算任务中加入数据表和字段粒度的依赖关系,并根据依赖关系确定数据集的元素和经过原子操作后的数据集的元素的血缘关系,由于元素中包括行标识,即在表和字段级维度的血缘分析技术上进一步细粒化到行级别的数据血缘计算,从而能够实现行粒度的数据血缘分析。
53.图4为本公开的数据血缘溯源方法的另一些实施例的流程示意图。
54.在步骤410,对数据集表中的元数据的定义、自定义函数、数据集市中的查询和报表、etl任务以及etl任务转化脚本进行sql解析和依赖关系的建模。
55.在一些实施例中,通过探针程序采集数据集表中的源数据,以及自定义函数、即席查询、报表、etl任务的sql功能或语句,以及etl任务转化脚本,并通过消息中间件汇聚到采集池。利用解析处理程序对元数据、sql语句和脚本进行解析后,将解析结果存储到结果库,结果库例如为关系型数据库或图数据库。
56.在一些实施例中,探针程序通过实现不同计算引擎的任务执行监听器,埋点到数据中心的数据仓、数据传输、数据计算等数据处理链路各个环节,对元数据的定义、用户定义函数,数据集市中的查询和报表,离线计算中的etl任务,实时计算中的etl转化脚本进行采集。
57.在一些实施例中,建立依赖关系时,解析处理程序,采用sqlparsr工具对sql语句进行语法解析,得到sql节点关系,结合采集到的元数据形成数据表和字段粒度的依赖关系。对于计算脚本的解析,首先探针程序已在异步发送到采集池前对不同计算引擎的任务脚本统一规范了cdc格式,解析程序可根据格式解构为表和字段的依赖关系。
58.在步骤420,在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点。
59.在步骤430,在etl任务过程中,根据依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,第一元素和第二元素包括行标识、元素属性和时间窗口参数。
60.在一些实施例中,如图5所示,实时链路通过日志收集系统和数据库binlog解析系统,实时同步日志和增量数据到实时数仓kafka中,然后在实时数仓中连接维表做数据整理
和打宽,从而实现实时链路数据集成。离线链路通过日志收集系统和数据库同步工具定期同步日志和数据库数据,并做数据清理和打宽,从而实现离线链路数据集成。在数据集成的过程中,存在etl任务,在etl任务中,进行原子操作,即列计算、数据集连接或数据集聚合等。
61.在本公开的另一些实施例中,将第一血缘关系植入到第一数据集。根据依赖关系,对第一元素和第二元素之间的血缘关系进行追加,得到第二血缘关系,其中,第一元素和第二元素包括行标识、元素属性、时间窗口参数和第一血缘关系。
62.例如,针对三元组数据集,植入血缘关系数据r成为四元组数据集,记为s=(id,kv(1-n),t,r)。其中的血缘关系数据r在数据集中记录标识,r完整数据异步传输到血缘存储单元。对每步原子操作s到s’的计算对r进行结果的追加,即r’=r+单步计算结果。r’完整数据异步传输到血缘存储单元。
63.在步骤440,根据第一血缘关系,构建血缘描述图模型。
64.在一些实施例中,如图6所示,以图模型构建关系,节点标识单个元素s的某个属性对象k,有向连接表示两者的计算关系,当两个节点之间存在连接,表示则后一个节点为前一个元素的派生节点。所有s的属性对象集合的图模型数据构成血缘关系数据r。
65.在步骤450,根据血缘描述图模型中元素之间的连接关系,对元素和路径数据进行过滤。
66.在一些实施例中,在大数据处理环境下的血缘数据,由于单任务etl的血缘结果会进入下一个任务的血缘计算,因此,有必要对数据进行基于节点的过滤压缩。
67.在一些实施例中,对于流式计算的一个etl任务,均是一个输入-计算-下沉到实时数据库的过程。在下沉位置,对任务相关的血缘存储数据进行压缩,以减少下一步的计算量和存储容量。如图7所示,对于上一个单元所记录的血缘关系图模型,部分节点无后继节点,即意义在于此元素的属性在此任务不参与计算,则这些节点和路径可以从图中删除,即过滤掉这些节点和路径数据,图数据得以压缩。
68.在步骤460,根据血缘描述图模型中,将多组第一血缘关系中的元素和路径数据进行压缩。
69.在一些实施例中,对于大数据量的血缘数据,对于单任务在一个窗口期的数据集s设定一定的血缘压缩比n,即对于图节点的数据进行n个一组混合。如图8所示,原一组2n个节点、n个连接的图关系的数据,压缩为2个节点和一个连接。此样本混合的压缩方式可用于超大数据集s的计算,任务的压缩前血缘图数据存储在存储单元,而只把压缩后的血缘数据进入到后续的etl任务。
70.在步骤470,对数据进行血缘溯源。
71.在整个数据集成流程的数据观察点,都可以对下沉的数据,通过数据的节点,用图计算方法对节点间的路径进行计算,当节点间存在路径则表示两者相关。由此,可以对下游数据跟踪其上游路径,对上游的敏感数据的流向和影响范围可以做可视化的呈现。追溯的粒度可基本确定到某一个时间窗口的行一级。
72.针对采用了样本混合方式压缩的数据,当需要对此数据作为观测对象进行溯源时,初步得到的数据影响范围,由于压缩比损失了一定的精度,因此采用压缩的数据链路后续部分会带来模糊。如果需要进一步的得到明确结果,则可以从原始血缘数据展开细节重
新渲染。
73.在上述实施例中,实现了行粒度的数据血缘分析,并且通过样本混合技术达到较小的计算和存储量,同时保证血缘计算结果的准确度和精度,用以以良好支持后期的异常数据追踪、数据全链路分析、敏感标签标记等数据治理过程。
74.图9为本公开的数据血缘溯源系统的一些实施例的结构示意图。该系统包括植入单元910和血缘分析单元920。
75.植入单元910被配置为在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点,在etl任务过程中,根据依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,第一元素和第二元素包括行标识、元素属性和时间窗口参数。
76.在一些实施例中,在数据传输和计算两个数据治理的关键过程中,植入数据关系片段作为血缘数据埋点,该数据关系片段即数据之间的依赖关系。
77.在一些实施例中,植入单元910还被配置为将第一血缘关系植入到第一数据集。根据依赖关系,对第一元素和第二元素之间的血缘关系进行追加,得到第二血缘关系,其中,第一元素和第二元素包括行标识、元素属性、时间窗口参数和第一血缘关系。
78.在一些实施例中,第一元素和第二元素的行标识即行标识。
79.在一些实施例中,针对流式数据或批量数据,以时间语义沿着时间窗口边界,对采集的无限数据集进行切分,得到多个第一数据集。
80.在本公开的另一些实施例中,如图10所示,该系统还包括元数据解析单元1010,被配置为采集原始数据,对原始数据中的sql语句进行语法解析,得到sql节点关系,将sql节点关系与原始数据中的元数据结合,得到第一依赖关系,对原始数据中的任务脚本进行解析,得到第二依赖关系,将第一依赖关系和第二依赖关系存储在结果库。其中,原始数据包括数据集表中的元数据的定义、自定义函数、数据集市中的查询和报表、etl任务以及etl任务转化脚本等。
81.血缘分析单元920被配置为根据第一血缘关系,对数据进行血缘溯源。
82.在一些实施例中,根据第二血缘关系,对数据进行血缘溯源。
83.在一些实施例中,根据下游数据跟踪上游数据,或者,对上游敏感数据的流向和影响范围做可视化呈现或分析,或者,对数据进行关联分析。
84.在上述实施例中,在异源数据治理的离线和实时计算任务中加入数据表和字段粒度的依赖关系,并根据依赖关系确定数据集的元素和经过原子操作后的数据集的元素的血缘关系,由于元素中包括行标识,即在表和字段级维度的血缘分析技术上进一步细粒化到行级别的数据血缘计算,从而能够实现行粒度的数据血缘分析。
85.在本公开的另一些实施例中,如图10所示,该系统还包括数据压缩单元1020,被配置为根据第一血缘关系,构建血缘描述图模型,根据血缘描述图模型中元素之间的连接关系,对元素和路径数据进行过滤。
86.在一些实施例中,数据压缩单元1020还被配置为根据血缘描述图模型中,将多组第一血缘关系中的元素和路径数据进行压缩。
87.在上述实施例中,通过样本混合技术达到较小的计算和存储量,同时保证血缘计算结果的准确度和精度,用以以良好支持后期的异常数据追踪、数据全链路分析、敏感标签
标记等数据治理过程。
88.图11为本公开的数据血缘溯源系统的另一些实施例的结构示意图。该系统1100包括:存储器1110和处理器1120。其中:存储器1110可以是磁盘、闪存或其它任何非易失性存储介质。存储器1110用于存储图1、4所对应实施例中的指令。处理器1120耦接至存储器1110,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器1120用于执行存储器中存储的指令。
89.在一些实施例中,处理器1120通过bus总线1130耦合至存储器1110。该系统1100还可以通过存储接口1140连接至外部存储系统11110以便调用外部数据,还可以通过网络接口1160连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
90.在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,在表和字段级维度的血缘分析技术上进一步细粒化到行级别的数据血缘计算,用于批处理或者流处理数据任务输出到实时数仓后的数据溯源相关工作。
91.在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1、4所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
92.本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
93.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
94.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
95.至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
96.虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
技术特征:
1.一种数据血缘溯源方法,包括:在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点;在etl任务过程中,根据所述依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,所述第一元素和所述第二元素包括行标识、元素属性和时间窗口参数;以及根据所述第一血缘关系,对数据进行血缘溯源。2.根据权利要求1所述的数据血缘溯源方法,还包括:根据所述第一血缘关系,构建血缘描述图模型;根据所述血缘描述图模型中元素之间的连接关系,对元素和路径数据进行过滤。3.根据权利要求2所述的血缘溯源方法,还包括:根据所述血缘描述图模型中,将多组第一血缘关系中的元素和路径数据进行压缩。4.根据权利要求1所述的数据血缘溯源方法,还包括:将所述第一血缘关系植入到所述第一数据集;根据所述依赖关系,对所述第一元素和第二元素之间的血缘关系进行追加,得到所述第二血缘关系,其中,所述第一元素和所述第二元素包括行标识、元素属性、时间窗口参数和所述第一血缘关系;根据所述第二血缘关系,对数据进行血缘溯源。5.根据权利要求1至4任一所述的数据血缘溯源方法,其中,所示依赖关系包括第一依赖关系和第二依赖关系,数据之间数据表和字段粒度的依赖关系通过以下步骤确定:采集原始数据;对所述原始数据中的sql语句进行语法解析,得到sql节点关系;将所述sql节点关系与所述原始数据中的元数据结合,得到第一依赖关系;对所述原始数据中的任务脚本进行解析,得到第二依赖关系;将所述第一依赖关系和所述第二依赖关系存储在结果库。6.根据权利要求5所述的数据血缘溯源方法,其中,所述原始数据包括数据集表中的元数据的定义、自定义函数、数据集市中的查询和报表、etl任务以及etl任务转化脚本中的一项或多项。7.根据权利要求5所述的数据血缘溯源方法,其中,得到第一数据集包括:针对流式数据或批量数据,以时间语义沿着时间窗口边界,对采集的无限数据集进行切分,得到多个第一数据集。8.根据权利要求1至4任一所述的数据血缘溯源方法,其中,对数据进行血缘溯源以下中的至少一项包括:根据下游数据跟踪上游数据;对上游敏感数据的流向和影响范围做可视化呈现或分析;对数据进行关联分析。9.一种数据血缘溯源系统,包括:植入单元,被配置为在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点,在etl任务过程中,根据所述依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,所述第一元
素和所述第二元素包括行标识、元素属性和时间窗口参数;以及血缘分析单元,被配置为根据所述第一血缘关系,对数据进行血缘溯源。10.根据权利要求9所述的数据血缘溯源系统,还包括:数据压缩单元,被配置为根据所述第一血缘关系,构建血缘描述图模型,根据所述血缘描述图模型中元素之间的连接关系,对元素和路径数据进行过滤。11.根据权利要求10所述的数据血缘溯源系统,其中,所述数据压缩单元还被配置为根据所述血缘描述图模型中,将多组第一血缘关系中的元素和路径数据进行压缩。12.根据权利要求9至11任一所述的数据血缘溯源系统,其中,所示依赖关系包括第一依赖关系和第二依赖关系,所述系统还包括:元数据解析单元,被配置为采集原始数据,对所述原始数据中的sql语句进行语法解析,得到sql节点关系,将所述sql节点关系与所述原始数据中的元数据结合,得到第一依赖关系,对所述原始数据中的任务脚本进行解析,得到第二依赖关系,将所述第一依赖关系和所述第二依赖关系存储在结果库。13.一种数据血缘溯源系统,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的数据血缘溯源方法。14.一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任一项所述的数据血缘溯源方法。
技术总结
本公开公开了一种数据血缘溯源方法和系统,涉及数据治理领域。该方法包括:在数据治理过程中,植入数据之间数据表和字段粒度的依赖关系,作为血缘数据埋点;在ETL任务过程中,根据依赖关系,确定采集的第一数据集的第一元素与经过原子操作后的第二数据集的第二元素之间的第一血缘关系,其中,第一元素和第二元素包括行标识、元素属性和时间窗口参数;以及根据第一血缘关系,对数据进行血缘溯源。本公开由于元素中包括行标识,即在表和字段级维度的血缘分析技术上进一步细粒化到行级别的数据血缘计算,从而能够实现行粒度的数据血缘分析。析。析。
技术研发人员:叶小卫 沈丽倩 朱强 汪峰
受保护的技术使用者:浙江省公众信息产业有限公司
技术研发日:2021.12.29
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
