异构数据之间的血缘数据获取方法及装置与流程
未命名
07-23
阅读:240
评论:0
1.本技术涉及大数据领域,尤其涉及一种异构数据之间的血缘数据获取方法及装置。
背景技术:
2.任何的数据,从产生、etl处理、加工、融合、流转,到最终消亡,数据之间自然会形成一种关系。类比人类社会中的人际关系,类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。血缘分析是数据治理的一部分,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。数据血缘是指数据产生的链路,记录了数据是怎么来的,经过了哪些过程和阶段。一般的血缘分析方法就是针对不同粒度的血缘分析,制定不同的数据血缘解析方案,并以图形化方式展示数据流向,辅助用户了解复杂的血缘关系,实现数据血缘收集、数据血缘解析。
3.血缘分析的现有数据来源主要来自于结构化数据的采集,然而随着数据中心的发展和数据的积累,多源异构数据成为数据中心数据的主要来源,现有数据采集技术已无法满足对多源异构数据的采集需求。现有血缘分析技术中元数据采集步骤,主要面向数据仓库,没有覆盖到数据全生命周期。现有血缘分析主要是针对数据中心的数据进行分析,不能对大型分布式系统进行很好的数据血缘分析。
技术实现要素:
4.鉴于此,本技术实施例提供了一种异构数据之间的血缘数据获取方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。
5.本技术的一个方面提供了一种异构数据之间的血缘数据获取方法,该方法包括以下步骤:
6.采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;
7.采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。
8.在本技术的一些实施例中,还包括:
9.抽取所述异构数据中的待转换数据,将所述待转换数据从业务模型数据转换为分析模型数据并将所述分析模型数据加载到数据仓库以得到所述待转换数据的处理过程信息,将所述处理过程信息数据作为所述异构数据中的待转换数据对应的血缘关系数据。
10.在本技术的一些实施例中,还包括:
11.采用数据库连接获取所述异构数据映射的异构数据访问中间件地址,根据所述异构数据访问中间件地址定位异构数据访问中间件并扫描所述异构数据访问中间件中生成
的数据库操作文件以得到对所述异构数据进行操作的操作数据,根据所述操作数据建立所述异构数据和所述操作数据的中间件血缘关系数据。
12.在本技术的一些实施例中,还包括:
13.在数据存储区上部署数据操作插件,根据所述数据操作插件监控所述数据存储区上所述异构数据的访问操作并获取数据库操作语句,将所述数据库操作语句发送到kafka服务器作为kafka数据,读取所述kafka数据并根据所述kafka数据建立所述异构数据和所述kafka数据的存储血缘关系数据。
14.在本技术的一些实施例中,还包括:
15.根据所述全局血缘数据、所述血缘关系数据、所述中间件血缘关系数据和所述存储血缘关系数据构建血缘关系图,将所述血缘关系图存储到图数据库。
16.在本技术的一些实施例中,所述采集离线的异构数据,包括:
17.从离线异构数据结构、离线异构数据模型和元数据服务中获取数据采集元数据,对所述数据采集元数据进行编辑并设计离线异构数据字典,通过采集项选择和界面布局设计完成离线异构数据采集表单,对所述离线异构数据采集表单进行登记管理并进行入库配置,将所述离线异构数据采集表单下发给数据采集单位形成离线异构数据采集任务包,以使所述数据采集单位对所述离线异构数据采集任务包进行装载并生成离线异构数据任务包采集表单,使得所述数据采集单位对所述离线异构数据任务包采集表单进行数据录入、保存和上报以形成传输文件,对所述传输文件进行登记并制作形成传输件,对所述传输件进行离线异构数据的收发管理、传输、汇总和登记。
18.在本技术的一些实施例中,所述并基于元数据的异构数据抽取技术采集在线的异构数据,包括:
19.根据采集元数据库中的采集元数据和抽取规则对在线异构数据进行采集;其中,所述采集元数据由数据源包装器对所述在线异构数据进行包装生成所述采集元数据并发送到采集元数据管理模块进行注册,并将注册后的所述采集元数据发送到所述采集元数据库。
20.本技术的另一个方面提供了一种异构数据之间的血缘数据获取装置,该装置包括:
21.异构数据抽取模块,用于采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;
22.分布式元数据采集模块,用于采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。
23.本技术的第三个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的第一方面所述的异构数据之间的血缘数据获取方法。
24.本技术的第四个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的第一方面所述的异构数据之间的血缘数据获取方法。
25.本技术提供一种异构数据之间的血缘数据获取方法及装置,所述方法包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将分布式元数据汇聚到分布式系统中的主节点,使得主节点对分布式元数据进行去重融合操作以获取异构数据中的各类数据的全生命周期数据对应的全局血缘数据。本技术能够实现对异构数据的精确采集,能够对分布式系统中异构数据的各类数据的全生命周期数据进行覆盖式元数据采集,同时能够对分布式系统的异构数据进行有效的血缘关系构建。
26.本技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
27.本领域技术人员将会理解的是,能够用本技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。
附图说明
28.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,并不构成对本技术的限定。附图中的部件不是成比例绘制的,而只是为了示出本技术的原理。为了便于示出和描述本技术的一些部分,附图中对应部分可能被放大,即,相对于依据本技术实际制造的示例性装置中的其它部件可能变得更大。在附图中:
29.图1为本技术一实施例中的异构数据之间的血缘数据获取方法的流程示意图。
30.图2为本技术另一实施例中的异构数据之间的血缘数据获取装置的结构示意图。
31.图3为本技术应用实例中提供的离线异构数据采集的流程示意图。
32.图4为本技术应用实例中提供的在线异构数据采集的流程示意图。
33.图5为本技术另一实施例中的分布式元数据采集及血缘数据获取流程图。
34.图6为本技术另一实施例中的待转换数据的血缘关系数据获取流程图。
35.图7为本技术另一实施例中的血缘关系数据整合为血缘关系图的流程示意图。
具体实施方式
36.为使本技术的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本技术做进一步详细说明。在此,本技术的示意性实施方式及其说明用于解释本技术,但并不作为对本技术的限定。
37.在此,还需要说明的是,为了避免因不必要的细节而模糊了本技术,在附图中仅仅示出了与根据本技术的方案密切相关的结构和/或处理步骤,而省略了与本技术关系不大的其他细节。
38.应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
39.在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
40.在下文中,将参考附图描述本技术的实施例。在附图中,相同的附图标记代表相同
或类似的部件,或者相同或类似的步骤。
41.具体通过下述实施例进行详细说明。
42.本技术实施例提供一种可以由异构数据之间的血缘数据获取装置执行的异构数据之间的血缘数据获取方法,参见图1,所述的异构数据之间的血缘数据获取方法具体包含有如下内容:
43.步骤110:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据。
44.在步骤110中,服务器采集离线的异构数据以及基于元数据的异构数据抽取技术采集在线的异构数据,能够实现对异构数据的精确采集。
45.其中,异构数据是指音视频、图片、文本文档、excel、数据库等结构化、半结构化、非结构化数据,采集元数据是指为了协助异构数据采集的一种元数据。
46.步骤120:采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。
47.在步骤120中,参见图5,服务器采用分布式系统中的各个子节点对异构数据中的数据库、离线计算服务、在线计算服务、数据服务组件、计算任务等异构数据进行数据全生命周期式的分布式元数据采集,将分布式元数据汇聚到分布式系统中的主节点,使得主节点对分布式元数据进行去重融合操作以获取异构数据中的各类数据的全生命周期数据对应的全局血缘数据,能够对分布式系统中异构数据的各类数据的全生命周期数据进行覆盖式元数据采集,同时能够对分布式系统的异构数据进行有效的血缘关系构建。
48.其中,参见如下表1,具体采集到的元数据包括:利用数据库访问采集到的数据库数据中的表名称、备注、字段列表、主键、外键、表/字段上下游依赖关系等血缘数据、表大小、行数、文件数和分区数;利用调用计算服务接口采集到的离线计算服务数据中的hive/rds表元数据,包括文件的状态、文件数、文件大小、数据更新时间等趋势数据;通过访问服务落盘的工单数据采集到在线计算服务数据中的flume/hbase/kafka等组件的元数据;通过将组件数据同步到数据库并离线抽取元数据的方式采集到数据服务组件数据中的bi报表系统、指标库、oneservice服务的血缘数据;通过解析任务输入或输出依赖配置,或者解析计算脚本中表/字段的血缘关系采集计算任务数据中的离线/实时计算任务的名称、责任人、deadline告警时间、脚本、任务配置等信息。全局血缘数据指对前述分布式元数据进行去重融合所得到的一种描述异构数据中的各类数据与其在对应的全生命周期过程中所产生的数据之间的血缘关系数据。
49.表1
[0050][0051]
为了进一步提升对异构数据的精确采集,步骤110还包括:
[0052]
步骤111:从离线异构数据结构、离线异构数据模型和元数据服务中获取数据采集元数据,对所述数据采集元数据进行编辑并设计离线异构数据字典,通过采集项选择和界面布局设计完成离线异构数据采集表单,对所述离线异构数据采集表单进行登记管理并进行入库配置,将所述离线异构数据采集表单下发给数据采集单位形成离线异构数据采集任务包,以使所述数据采集单位对所述离线异构数据采集任务包进行装载并生成离线异构数据任务包采集表单,使得所述数据采集单位对所述离线异构数据任务包采集表单进行数据录入、保存和上报以形成传输文件,对所述传输文件进行登记并制作形成传输件,对所述传输件进行离线异构数据的收发管理、传输、汇总和登记。
[0053]
在步骤111中,参见图3,服务器从离线异构数据结构、离线异构数据模型和元数据服务中获取数据采集元数据,对所述数据采集元数据进行编辑并设计离线异构数据字典从而形成xml文件描述格式,通过采集项选择和界面布局设计完成离线异构数据采集表单,对所述离线异构数据采集表单进行登记管理并进行入库配置,将所述离线异构数据采集表单下发给数据采集单位形成离线异构数据采集任务包,以使所述数据采集单位对所述离线异构数据采集任务包进行装载并生成离线异构数据任务包采集表单,使得所述数据采集单位对所述离线异构数据任务包采集表单进行数据录入、保存和上报以形成传输文件,对所述传输文件进行登记并制作形成传输件,对所述传输件进行离线异构数据的收发管理、传输、汇总和登记以存入原始库,能够提升对离线异构数据采集的精确性。
[0054]
其中,数据采集元数据是指为了协助离线异构数据采集的一种元数据。
[0055]
步骤112:根据采集元数据库中的采集元数据和抽取规则对在线异构数据进行采集;其中,所述采集元数据由数据源包装器对所述在线异构数据进行包装生成所述采集元数据并发送到采集元数据管理模块进行注册,并将注册后的所述采集元数据发送到所述采
集元数据库。
[0056]
在步骤112中,参见图4,服务器根据采集元数据库中的采集元数据和抽取规则对在线异构数据进行采集并存入原始库;其中,所述采集元数据由数据源包装器对所述在线异构数据进行包装生成所述采集元数据并发送到采集元数据管理模块进行注册,并将注册后的所述采集元数据发送到所述采集元数据库,能够提升对在线异构数据采集的精确性。
[0057]
具体地,数据来源层主要向数据抽取层提供异构数据源,异构数据源既包括结构化的数据库,也有半结构化的xml、excel文档等,还包括音视频、图片等非结构化数据。数据抽取层基于采集元数据,根据采集要求从数据源抽取异构数据,并将抽取的数据加载到原始库中,为后续的数据处理提供基础。
[0058]
数据来源层包括异构数据源和数据源包装器。
[0059]
其中,数据源包装器主要对底层异构数据进行包装,屏蔽不同类型数据的差异并为抽取层提供数据,根据数据抽取层的需求,通过相应的接口调用异构数据,异构数据既包括结构化的数据库,也有半结构化的xml、excel文档等,还包括音视频、图片等非结构化数据,。其中结构化数据通过管理数据库类型、数据库名、用户名、密码、主机ip地址、端口、数据库表名、字段等进行包装;半结构化数据和非结构化数据主要通过建立描述信息索引,以及管理资源或者数据库访问接口的方式进行包装。
[0060]
数据抽取层由采集元数据管理模块、采集元数据库和数据抽取模块组成。
[0061]
①
采集元数据库
[0062]
采集元数据是用于描述数据源的内容和位置的数据元素集合,通过采集元数据,数据抽取层可以快速的定位需要抽取的数据源,构建数据抽取任务,因此采集元数据信息的准确、完整的描述,是数据抽取的重要基础。采集元数据库包含全局元数据、映射规则、本地元数据和抽取规则。
[0063]
其中,全局元数据主要包括系统中全局数据库名、类型及其包含的局部数据库名等。
[0064]
映射规则是全局数据库到局部数据库的映射,包括每个全局数据库与局部数据库基本表的对应情况,对于结构化数据,包括关系名称、关系字段名、关系字段类型、数据库名称、表名、字段名、字段类型等;对于半结构化文件,包括关系名称、数据库名称、文件格式等;对于非结构化信息,包括关系名称、数据库名称、数据类型等。映射规则将全局元数据同具体的本地元数据信息联系起来,用户发出全局查询请求时,系统依据映射规则查找全局请求对应的本地局部信息。
[0065]
本地元数据提供异构数据源的具体数据信息,包括数据库类型、数据库名、用户名、密码、主机ip地址、端口、数据库表名、字段,半结构化文件的格式、摘要信息,非结构化信息的类型、格式、描述信息等,它是一个动态的数据库表。在登录系统后,各本地数据源通过集成引擎注册本地数据源信息。这将在元数据库的本地元数据中添加对应内容,为抽取本地异构数据提供相关信息。
[0066]
抽取规则主要包括来源数据库名、目的数据库名、结构化数据的来源字段名、来源字段类型、目标字段名、目标字段类型;半结构化数据以及非结构化数据的来源路径、目标路径,以及约束条件等,是能够实现异构数据抽取的基础,抽取规则一般由用户编辑生成。
[0067]
②
采集元数据管理模块
[0068]
采集元数据的管理主要负责采集元数据的注册和采集元数据集合的维护,在采集元数据集合中动态添加、修改和删除相应的采集元数据信息,实现数据源的动态装卸,为异构数据的快速抽取提供支撑。
[0069]
③
数据抽取模块
[0070]
数据的抽取是动态抽取,首先要根据异构数据来源选择不同的数据调用接口,然后要根据异构数据的数量来生成相应的查询和更新语句,最后通过读取采集元数据库中的抽取规则进行抽取。
[0071]
抽取算法具体步骤如下:
[0072]
根据来源数据库名解析本地元数据,得到来源数据的数据库类型、主机ip、端口号等信息,或者半结构化/非结构化数据资源、数据库访问接口;
[0073]
对于结构化数据抽取,遍历来源字段个数,得到所有来源字段名称;
[0074]
遍历约束条件信息,得到所有约束条件名称;
[0075]
根据以上信息生产查询语句;
[0076]
根据数据来源类型的不同,调用不同的数据访问接口实现数据抽取;
[0077]
抽取的数据直接存入原始库中,作为进一步处理的基础。
[0078]
在本技术的一些实施例中,还提供了一种血缘数据的获取方法,如下:
[0079]
抽取所述异构数据中的待转换数据,将所述待转换数据从业务模型数据转换为分析模型数据并将所述分析模型数据加载到数据仓库以得到所述待转换数据的处理过程信息,将所述处理过程信息数据作为所述异构数据中的待转换数据对应的血缘关系数据。
[0080]
具体参见图6,服务器抽取原始库中的异构数据中的待转换数据并同时对增量抽取的规则进行确定,具体包括增强抽取的周期、手动/自动抽取、最大抽取数据量等,之后将待转换数据从业务模型数据转换为分析模型数据并将分析模型数据并提供选择、分离/合并、转化以及汇总等基础性任务,然后将分析模型数据加载到数据仓库以得到待转换数据的处理过程信息,将处理过程信息数据作为异构数据中的待转换数据对应的血缘关系数据,能够有效得到异构数据转换过程中的血缘关系数据。
[0081]
其中,待转换数据指操作人员根据业务和任务要求从数据源选定能够实施操作的异构数据。
[0082]
在本技术的一些实施例中,还提供了一种血缘数据的获取方法,如下:
[0083]
采用数据库连接获取所述异构数据映射的异构数据访问中间件地址,根据所述异构数据访问中间件地址定位异构数据访问中间件并扫描所述异构数据访问中间件中生成的数据库操作文件以得到对所述异构数据进行操作的操作数据,根据所述操作数据建立所述异构数据和所述操作数据的中间件血缘关系数据。
[0084]
具体地,服务器采用数据库连接获取异构数据映射的异构数据访问中间件地址,根据异构数据访问中间件地址定位异构数据访问中间件并扫描异构数据访问中间件中生成的数据库操作文件以得到对异构数据进行操作的操作数据,根据操作数据建立异构数据和操作数据的中间件血缘关系数据,能够有效提取异构数据访问过程中的血缘关系数据。
[0085]
其中,中间件血缘关系数据指表示异构数据与在异构数据访问过程中对异构数据进行数据操作的操作数据之间的数据血缘联系的数据。
[0086]
在本技术的一些实施例中,还提供了一种血缘数据的获取方法,如下:
[0087]
在数据存储区上部署数据操作插件,根据所述数据操作插件监控所述数据存储区上所述异构数据的访问操作并获取数据库操作语句,将所述数据库操作语句发送到kafka服务器作为kafka数据,读取所述kafka数据并根据所述kafka数据建立所述异构数据和所述kafka数据的存储血缘关系数据。
[0088]
具体地,服务器在hive等数据库工具上的数据存储区上部署数据操作插件,根据数据操作插件监控数据存储区上异构数据的访问操作并获取数据库操作语句,将数据库操作语句发送到kafka服务器作为kafka数据,读取kafka数据并根据kafka数据建立异构数据和kafka数据的存储血缘关系数据,能够有效提取在异构数据存储访问过程中的血缘关系数据。
[0089]
其中,存储血缘关系数据指表示异构数据与在异构数据存储访问过程中对异构数据进行数据操作的操作数据之间的数据血缘联系的数据。
[0090]
在本技术的一些实施例中,还提供了一种将前述实施例获取的血缘数据进行整合获取血缘关系图的方法,如下:
[0091]
根据所述全局血缘数据、所述血缘关系数据、所述中间件血缘关系数据和所述存储血缘关系数据构建血缘关系图,将所述血缘关系图存储到图数据库。
[0092]
具体参见图7,服务器对全局血缘数据、血缘关系数据、中间件血缘关系数据和存储血缘关系数据进行数据解析处理以构建血缘关系图,并将血缘关系图存储到图数据库,能够有效地对血缘分析进行整合,增强了血缘关系的全面性。
[0093]
从软件层面来说,本技术还提供一种用于执行所述的异构数据之间的血缘数据获取方法中全部或部分内的异构数据之间的血缘数据获取装置,参见图4,所述的异构数据之间的血缘数据获取装置具体包含有如下内容:
[0094]
模块10:异构数据抽取模块,用于采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;
[0095]
模块20:分布式元数据采集模块,用于采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。
[0096]
本技术提供的异构数据之间的血缘数据获取装置的实施例具体可以用于执行上述实施例中的异构数据之间的血缘数据获取方法的实施例的处理流程,其功能在此不再赘述,可以参照上述的异构数据之间的血缘数据获取方法实施例的详细描述。
[0097]
本技术提供一种异构数据之间的血缘数据获取方法及装置,所述方法包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将分布式元数据汇聚到分布式系统中的主节点,使得主节点对分布式元数据进行去重融合操作以获取异构数据中的各类数据的全生命周期数据对应的全局血缘数据。本技术能够实现对异构数据的精确采集,能够对分布式系统中异构数据的各类数据的全生命周期数据进行覆盖式元数据采集,同时能够对分布式系统的异构数据进行有效的血缘关系构建。本技术实施例还提供了一种电子设备(也即电子设备),例如中心服务器,该电子设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的异构数据之间的血缘数
据获取方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。
[0098]
处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0099]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本技术实施例中的异构数据之间的血缘数据获取方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于强化联邦域泛化的图像分类模型训练方法。
[0100]
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0101]
所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的异构数据之间的血缘数据获取方法。
[0102]
在本技术的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。
[0103]
作为一种实现方式,本技术中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。
[0104]
作为另一种实现方式,可以考虑使用通用计算机的方式来实现本技术实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。
[0105]
本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述的异构数据之间的血缘数据获取方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、软盘、硬盘、可移动存储盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
[0106]
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插
件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
[0107]
需要明确的是,本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本技术的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本技术的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
[0108]
本技术中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0109]
以上所述仅为本技术的优选实施例,并不用于限制本技术,对于本领域的技术人员来说,本技术实施例可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种异构数据之间的血缘数据获取方法,其特征在于,包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。2.根据权利要求1所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:抽取所述异构数据中的待转换数据,将所述待转换数据从业务模型数据转换为分析模型数据并将所述分析模型数据加载到数据仓库以得到所述待转换数据的处理过程信息,将所述处理过程信息数据作为所述异构数据中的待转换数据对应的血缘关系数据。3.根据权利要求2所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:采用数据库连接获取所述异构数据映射的异构数据访问中间件地址,根据所述异构数据访问中间件地址定位异构数据访问中间件并扫描所述异构数据访问中间件中生成的数据库操作文件以得到对所述异构数据进行操作的操作数据,根据所述操作数据建立所述异构数据和所述操作数据的中间件血缘关系数据。4.根据权利要求3所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:在数据存储区上部署数据操作插件,根据所述数据操作插件监控所述数据存储区上所述异构数据的访问操作并获取数据库操作语句,将所述数据库操作语句发送到kafka服务器作为kafka数据,读取所述kafka数据并根据所述kafka数据建立所述异构数据和所述kafka数据的存储血缘关系数据。5.根据权利要求4所述的异构数据之间的血缘数据获取方法,其特征在于,还包括:根据所述全局血缘数据、所述血缘关系数据、所述中间件血缘关系数据和所述存储血缘关系数据构建血缘关系图,将所述血缘关系图存储到图数据库。6.根据权利要求1所述的异构数据之间的血缘数据获取方法,其特征在于,所述采集离线的异构数据,包括:从离线异构数据结构、离线异构数据模型和元数据服务中获取数据采集元数据,对所述数据采集元数据进行编辑并设计离线异构数据字典,通过采集项选择和界面布局设计完成离线异构数据采集表单,对所述离线异构数据采集表单进行登记管理并进行入库配置,将所述离线异构数据采集表单下发给数据采集单位形成离线异构数据采集任务包,以使所述数据采集单位对所述离线异构数据采集任务包进行装载并生成离线异构数据任务包采集表单,使得所述数据采集单位对所述离线异构数据任务包采集表单进行数据录入、保存和上报以形成传输文件,对所述传输文件进行登记并制作形成传输件,对所述传输件进行离线异构数据的收发管理、传输、汇总和登记。7.根据权利要求1所述的异构数据之间的血缘数据获取方法,其特征在于,所述并基于元数据的异构数据抽取技术采集在线的异构数据,包括:根据采集元数据库中的采集元数据和抽取规则对在线异构数据进行采集;其中,所述采集元数据由数据源包装器对所述在线异构数据进行包装生成所述采集元数据并发送到采集元数据管理模块进行注册,并将注册后的所述采集元数据发送到所述采集元数据库。8.一种异构数据之间的血缘数据获取装置,其特征在于,
异构数据抽取模块,用于采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;分布式元数据采集模块,用于采用分布式系统中的各个子节点对所述异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将所述分布式元数据汇聚到所述分布式系统中的主节点,使得所述主节点对所述分布式元数据进行去重融合操作以获取所述异构数据中的各类数据的全生命周期数据对应的全局血缘数据。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的异构数据之间的血缘数据获取方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的异构数据之间的血缘数据获取方法。
技术总结
本申请提供一种异构数据之间的血缘数据获取方法及装置,所述方法包括:采集离线的异构数据,并基于元数据的异构数据抽取技术采集在线的异构数据;采用分布式系统中的各个子节点对异构数据中的各类数据的全生命周期数据进行分布式元数据采集,将分布式元数据汇聚到分布式系统中的主节点,使得主节点对分布式元数据进行去重融合操作以获取异构数据中的各类数据的全生命周期数据对应的全局血缘数据。本申请能够实现对异构数据的精确采集,能够对分布式系统中异构数据的各类数据的全生命周期数据进行覆盖式元数据采集,同时能够对分布式系统的异构数据进行有效的血缘关系构建。式系统的异构数据进行有效的血缘关系构建。式系统的异构数据进行有效的血缘关系构建。
技术研发人员:岳明桥 于跃 卜宪政 马跃飞 宋越 刘继光 宋东海 胡永涛 姚鹏飞 张琳薇
受保护的技术使用者:中国人民解放军92493部队信息技术中心
技术研发日:2023.02.13
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
