数据血缘关系解析方法、装置、设备和介质与流程

未命名 09-22 阅读:77 评论:0


1.本技术涉及数据分析领域,尤其涉及一种数据血缘关系解析方法、装置、设备和介质。


背景技术:

2.在企业数据中台里面,有很多来自不同系统的数据表,不同表的数据字段存在同义不同名的情况,这对于保障上层数据应用的统一性来说是一个大的挑战。
3.所以保证统一性或者分辨一致性的数据治理方法是不可少的。例如,数据血缘关系解析的目标就是智能查找出不同数据表中的同义不同名的数据字段,并建立关联关系,这就是一项基础但十分重要的数据治理方法。但是现有的数据血缘关系解析方法都无法精准地管理好数据表之间的复杂关系,导致无法理清数据关系,最终导致对数据的关联性或一致性判定不够准确。
4.因此,亟待提出一种解析更为准确的数据血缘关系解析方法。


技术实现要素:

5.本技术提供一种数据血缘关系解析方法、装置、设备和介质,用以解决现有技术中数据表之间的数据关联解析不够准确的问题。
6.第一方面,本技术提供一种数据血缘关系解析方法,包括:
7.从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型;
8.对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度;
9.从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值;
10.根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值;
11.根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。
12.在一种可能的实现方式中,所述对所述同类型数据组的每个所述数据字段进行数据元融合,包括:
13.针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元;
14.将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元;其中,每个所述融合数据元融合了数量为预设个数的数据元。
15.在一种可能的实现方式中,所述针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元,包括:
16.针对所述同类型数据组的每个所述数据字段,去除类型为所述字段类型的所述数据元,选择出剩余数据元,其中,所述剩余数据元的类型包括表名称、字段英文、字段中文和字段说明;
17.所述将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元,包括:
18.分别对每个所述数据字段的剩余数据元进行融合,得到融合数据元。
19.在一种可能的实现方式中,所述根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性,包括:
20.将第一预测值大于等于所述最佳阈值对应的两个数据字段划分为数据一致的数据字段;
21.将第一预测值小于所述最佳阈值对应的两个数据字段划分为数据不一致的数据字段。
22.在一种可能的实现方式中,所述根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值,包括:
23.设置划分一致性的初始阈值,根据初始阈值对所述第一预测值进行初始划分,得到第二预测值,其中,所述第二预测值用于指示两个数据字段之间的数据是否一致;
24.根据所述第二预测值和所述标注值之间的召回率,获取划分一致性的最佳阈值。
25.在一种可能的实现方式中,所述根据所述第二预测值和所述标注值之间的召回率,获取划分一致性的最佳阈值,包括:
26.若所述第二预测值指示两个数据字段之间的数据一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测正确,并获取第一召回系数;
27.若所述第二预测值指示两个数据字段之间的数据不一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测错误,并获取第二召回系数;
28.根据所述第一召回系数和所述第二召回系数,获取召回率;
29.更新所述初始阈值,重复获取召回率,直到获得最大召回率,将该最大召回率对应的更新阈值作为划分一致性的最佳阈值。
30.在一种可能的实现方式中,若所述第一预测值大于等于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据一致;
31.若所述第一预测值小于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据不一致。
32.第二方面,本技术提供一种数据血缘关系解析装置,包括:
33.获取模块,用于从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型;
34.融合模块,用于对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度;
35.标注模块,用于从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值;
36.处理模块,用于根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值;
37.划分模块,用于根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。
38.第三方面,本技术提供一种数据血缘关系解析设备,包括:至少一个处理器和存储器;
39.所述存储器存储计算机执行指令;
40.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上所述的数据血缘关系解析方法。
41.第四方面,本技术提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上所述的数据血缘关系解析方法的步骤。
42.本技术提供的一种数据血缘关系解析方法、装置、设备和介质,从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型;对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度;从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值;根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值;根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。
43.上述方法中,将字段类型相同的数据表分为一组,得到多组同类型数据组,各个同类型数据组之间的字段类型不同,按照字段类型一次分组处理,可以一定程度上减少后续计算复杂度;分组后,对各个同类型数据组分组单独处理,将同类型数据组的每个数据字段进行数据元融合后进行一致性预测,得到第一预测值,保证数据字段的数据元中的信息属性足够丰富,以保证一致性预测结果更为准确;从同类型数据组中选取部分数据进行人工标注,得到标注值,让第一预测值和标注值综合起来分析划分数据一致性的最佳阈值,以该最佳阈值作一致性划分,达到准确解析出数据字段中数据是否一致的目的。
附图说明
44.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的一种数据血缘关系解析场景示意图;
46.图2为本技术实施例提供的一种数据血缘关系解析方法的流程示意图一;
47.图3为本技术实施例提供的一种数据血缘关系解析方法的流程示意图二;
48.图4为本技术实施例提供的一种数据血缘关系解析方法的流程示意图三;
49.图5为本发明实施例提供的一种数据血缘关系解析装置图;
50.图6为本发明实施例提供的数据血缘关系解析设备的硬件示意图。
具体实施方式
51.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
52.在企业平台中常常伴随着数据表交互,数据表可能随着企业的更换传递,出现数据元对应的名称发生变化的情况,但是实际上只是在做数据表的数据传递或者格式变换的时候,两个不同的平台对同一类的数据元所取的名称不同,但实际上其记载的数据是同一类型的,这被称之为同义不同名;例如,某个数据元的名称为order,转换到其他平台后,该数据元的名称为purchase,虽然这两个数据元的名称不同,但实际上这两个数据元表达的都是一个含义,都表示为订单。或者,两个不同数据表本身存在部分关联性。
53.由于这些转换差异等问题的存在,一个企业收到不同平台的数据表后很难将这些数据表进行统一治理,所以提出了分析数据血缘关系的数据治理方法,数据血缘关系描述的是数据表之间的数据关联关系,越是数据一致的数据表其血缘关系越强,这样就可将具有一致性的数据表联系起来,以便统一分析处理。但是如何管理数据表之间的复杂关系,理清当前数据关系,是数据治理面临的难题,现有的处理方式还存在着关联度匹配不够准确的问题。
54.于是,本技术提出了一种更为准确的数据血缘关系解析方法。
55.下面结合附图和具体的实施例阐述本技术中提出的一种数据血缘关系解析方法是如何实现的。
56.图1为本技术实施例提供的一种数据血缘关系解析场景示意图。如图1所示,该系统包括:多个数据表,每个数据表中有多个数据字段,每个数据字段有多个数据元表示其数据属性,则每个数据表包括多个数据元,每个数据元的类型不同;
57.其中,数据元的类型包括字段类型、表名称、字段英文、字段中文和字段说明;对于数据表中的每个数据字段而言:
58.字段类型一般是用于表示该数据字段的数据类型,该字段类型相同的数据字段,大概率存在数据一致性,所以可以将字段类型相同的数据字段分为一组进行解析;表名称用于数据字段对应的数据表的名称;字段英文用于表示数据字段对应的英文含义,字段中文用于表示数据字段对应的中文含义,字段说明用于对数据字段的信息作更为详细说明或新增说明;
59.将分好组的同类型数据组中每个数据字段进行数据元融合,从数据字段中选取部分数据元进行融合,并对融合数据元进行一致性预测和选取部分数据字段做人工一致性标注,通过一致性预测和人工一致性标注给出区分数据一致性的划分标准(最佳阈值),通过划分标准对各个数据字段的数据进行一致性关联,最终得到数据字段之间的准确的数据血缘关系图示(参照图1)。
60.对于数据表中的不同数据字段,如果其数据元融合后划分为存在一致性,则确认两个数据表中该部分数据字段一致,确认一致性后,通过血缘关系图显示出来:如图1中所示,数据字段1-1和数据字段2-1匹配存在一致性,数据字段2-n和数据字段n-2匹配存在一致性,这样就方便对数据表进行数据管理。
61.图2为本技术实施例提供的一种数据血缘关系解析方法的流程示意图一。如图2所示,该方法包括:
62.s201、从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型。
63.数据表可根据用户需求记录不同的数据,并且数据表中包括多个数据字段,这些数据字段的数据属性由数据元表示,且一个数据字段包括多个数据元,每个数据元的类型不同;每个数据元类型对应的具体内容可能相同或不同,这样就可以表示出不同的数据字段;
64.字段类型为数据元的其中一种类型,两个数据字段的字段类型相同的情况下,那么该两个数据字段一致的可能性很高,所以可以将字段类型相同的数据字段放到同类型数据组中进行处理,以降低计算量、提升计算效率。
65.s202、对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度。
66.针对同类型数据组中的每个数据字段,其表示数据属性的信息就在数据字段对应的数据元中,将每个数据字段的数据元各自进行融合,得到融合数据元,利用两个数据字段各自的融合数据元对两个数据字段进行一致性预测,得到第一预测值;预测过程中,采用的是艾伯塔(albert)模型对两个融合数据元进行余弦一致性预测,得到两个数据字段之间的第一预测值,该第一预测值为0到1之间的实数,可以用于表示两个数据字段之间的数据的一致性程度,数字越大,一致性程度越高。
67.s203、从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值。
68.预测到第一预测值后,还需要进行一致性划分,也就是说,最终要确认两个数据字段是一致还是不一致,这中间需要一个分界阈值,为了更加准确得出最佳阈值,可先对同类型数据组进行抽样,抽取部分数据字段进行人工标注,例如抽取同类型数据组5%的数据字段,将抽取的数据字段两两组合,并人工判定两者是否一致,得到两个数据字段的标注值。
69.s204、根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值。
70.比对第一预测值和标注值的情况,对第一预测值进行分析,确认以那个分界阈值为最合适,以该分界阈值为最佳阈值。例如,假设标注值为不一致,第一预测值为0.9859,那么第一预测值低于该0.9859的两个数据字段之间多半不一致。
71.s205、根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。
72.有了最佳阈值后,就可以准确分出两个数据字段是否一致,根据最佳阈值对第一预测值进行数值划分,将第一预测值超过该最佳阈值对应的两个数据字段作为具有一致性的两个数据字段;
73.具体的数据一致性划分过程,示例的:
74.将第一预测值大于等于所述最佳阈值对应的两个数据字段划分为数据一致的数据字段;
75.将第一预测值小于所述最佳阈值对应的两个数据字段划分为数据不一致的数据字段。
76.第一预测值的取值一般在0到1之间,且包括0和1(只是实际情况下很少遇到刚好等于0或1的),最佳阈值也一般在0到1之间;可将第一预测值大于等于最佳阈值的两个数据字段划分为数据一致的数据字段,将第一预测值小于最佳阈值的两个数据字段划分为数据不一致的数据字段;
77.在实际的工程中,第一预测值可能为0.8123至0.9999,那么最佳阈值的取值一定在0.8123至0.9999之间,可能根据人工标注核对后,最佳阈值取值为0.9899,第一预测值大于等于该0.9899的两个数据字段为存在数据一致性,小于该0.9899的两个数据字段为不存在数据一致性。
78.本技术实施例中,将字段类型相同的数据表分为一组,得到多组同类型数据组,各个同类型数据组之间的字段类型不同,按照字段类型一次分组处理,可以一定程度上减少后续计算复杂度;分组后,对各个同类型数据组分组单独处理,将同类型数据组的每个数据表进行数据元融合后进行一致性预测,得到第一预测值,保证数据表的数据元中的信息属性足够丰富,以保证一致性预测结果更为准确;从同类型数据组中选取部分数据进行人工标注,得到标注值,让第一预测值和标注值综合起来分析划分数据一致性的最佳阈值,以该最佳阈值作一致性划分,达到准确解析出数据表中数据是否一致的目的。
79.图3为本技术实施例提供的一种数据血缘关系解析方法的流程示意图二。如图3所示,该方法包括:
80.s301、针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元。
81.表1为按字段类型分类好的多个同类型数据组,如表1所示:字段类型相同的为一组,字段类型包括长整型(bigint)和长字符型(varchar);表格中的数据字段除去字段类型还包括表名称、字段英文、字段中文和字段说明这几种数据元类型,字段英文的解释对应在字段中文,但是在数据转换中英文的表达和中文的表达都可能变换(如order_id和purchase_id为同义词,订单id和订单标识为同义词);
82.在对每个数据字段的数据元进行融合之前,可以根据需求设置预设个数选取除字段类型的数据元进行融合。
83.表1多个同类型数据组
[0084][0085]
s302、将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元;其中,每个所述融合数据元融合了数量为预设个数的数据元。
[0086]
数据元融合是针对单个数据字段进行的,从每个数据字段中选出数据元进行融合时,每次都只融合一个数据字段的数据元,但是每个数据字段所选取的数据元类型是相同的,这是为了保证对比的有效性;
[0087]
在实际的工作中,为了保证信息的属性分析足够全面,可将除字段类型的数据元全部进行融合:
[0088]
示例的,针对所述同类型数据组的每个所述数据字段,去除类型为所述字段类型的所述数据元,选择出剩余数据元,其中,所述剩余数据元的类型包括表名称、字段英文、字段中文和字段说明。
[0089]
分别对每个所述数据字段的剩余数据元进行融合,得到融合数据元。
[0090]
对数据字段选取所有剩余数据元,得到融合数据元为“表名称+字段英文+字段中文+字段说明”,取表1中数据为例(此处没有字段说明):第一个数据字段的融合数据元=意向单表order_id订单id,第二个数据字段的融合数据元=资料表order_id订单标识。
[0091]
本技术实施例中,对同类型数据组分组进行数据字段的数据元融合,选取合适数量的数据元进行融合,保证充分融合数据字段的属性,保证后续预测更加准确。
[0092]
图4为本技术实施例提供的一种数据血缘关系解析方法的流程示意图三。如图4所示,该方法包括:
[0093]
s401、设置划分一致性的初始阈值,根据初始阈值对所述第一预测值进行初始划分,得到第二预测值,其中,所述第二预测值用于指示两个数据字段之间的数据是否一致。
[0094]
表2为数据字段之间的第一预测值和标注值,如表2所示:上述实施例中已获得了第一预测值(pre)和标注值(mark),第一预测值表示的是两个数据字段之间的一致性程度,标注值表示的是两个数据字段之间的一致性(1表示一致,0表示不一致);根据人工经验判断数据字段1和数据字段2属于同义数据字段,数据字段1和数据字段3不属于同义数据字段;可知,尽管数据字段1和数据字段3的一致性程度高达0.9859,仍然有可能不一致,所以需要获取能够精确划分一致性的最佳阈值。
[0095]
表2数据字段之间的第一预测值和标注值
[0096][0097][0098]
初始阈值是随机设置的,其取值在第一预测值的最大值和最小值之间,根据初始阈值对第一预测值进行初始划分,即以初始阈值为分割点,将第一预测值划分为一致和不一致,得到第二预测值;
[0099]
在实际工程中,该划分过程:
[0100]
示例的,若所述第一预测值大于等于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据一致;
[0101]
若所述第一预测值小于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据不一致。
[0102]
以初始阈值为分割点,将第一预测值大于等于该初始阈值的两个数据字段对应的第二预测值划分为指示数据一致,将第一预测值小于该初始阈值的两个数据字段对应的第二预测值划分为指示数据不一致;
[0103]
例如,初始阈值可取值为0.9900,则表1中第一预测值为0.9859的两个数据字段对应的第二预测值指示为不一致,表1中第一预测值为0.9999的两个数据字段对应的第二预测值指示为一致。
[0104]
s402、若所述第二预测值指示两个数据字段之间的数据一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测正确,并获取第一召回系数。
[0105]
如果第二预测值指示两个数据字段之间的数据一致,且标注值指示两个数据字段之间的数据一致,则说明模型预测结果是正确的;统计同类型数据组中这样的预测结果的具体个数,得到第一召回系数。
[0106]
s403、若所述第二预测值指示两个数据字段之间的数据不一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测错误,并获取第二召回系数tp。
[0107]
如果第二预测值指示两个数据字段之间的数据不一致,且标注值指示两个数据字段之间的数据一致,则说明模型预测结果是错误的;统计同类型数据组中这样的预测结果
的具体个数,得到第二召回系数fn。
[0108]
s404、根据所述第一召回系数和所述第二召回系数,获取召回率。
[0109]
将第一召回系数和第二召回系数相加,得到第三召回系数;将第一召回系数除以第三召回系数,得到召回率recall,即recall=tp/(tp+fn)。
[0110]
s405、更新所述初始阈值,重复获取召回率,直到获得最大召回率,将该最大召回率对应的更新阈值作为划分一致性的最佳阈值。
[0111]
按照预设梯度,一点点改变初始阈值,每改变一次,就重新开始本实施划分第二预测值和计算召回率的过程,直到无法再进行划分,得到多个召回率,选取其中数值最大的召回率(最大召回率),将最大召回率对应的阈值(可能就是初始阈值,也可能是更新阈值)作为划分第一预测值(一致性)的最佳阈值;例如,如果最佳阈值大于初始阈值为0.9930,那么相对于初始阈值的划分结果,最佳阈值划分的具有一致性的两个数据字段更少。
[0112]
确认好数据字段之间的一致性后,可以构建数据表之间的血缘关系,具体关联图可见图1。
[0113]
本技术实施例中,通过设置初始阈值,对第一预测值进行一致性划分,得到划分的第二预测值,计算第二预测值和标注值之间的召回率,并不断改变初始阈值,确认最大召回率,从而确认划分一致性的最佳阈值,保证可以准确掌握数据表之间的一致性,以方便进行数据治理。
[0114]
图5为本发明实施例提供的一种数据血缘关系解析装置图,如图5所示,该装置包括:获取模块501、融合模块502、标注模块503、处理模块504和划分模块505;
[0115]
获取模块501,用于从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型。
[0116]
融合模块502,用于对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度。
[0117]
融合模块502,还用于针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元;
[0118]
将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元;其中,每个所述融合数据元融合了数量为预设个数的数据元。
[0119]
融合模块502,还用于所述针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元,包括:
[0120]
针对所述同类型数据组的每个所述数据字段,去除类型为所述字段类型的所述数据元,选择出剩余数据元,其中,所述剩余数据元的类型包括表名称、字段英文、字段中文和字段说明;
[0121]
所述将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元,包括:
[0122]
分别对每个所述数据字段的剩余数据元进行融合,得到融合数据元。
[0123]
标注模块503,用于从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值。
[0124]
处理模块504,用于根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值。
[0125]
处理模块504,还用于设置划分一致性的初始阈值,根据初始阈值对所述第一预测值进行初始划分,得到第二预测值,其中,所述第二预测值用于指示两个数据字段之间的数据是否一致;
[0126]
根据所述第二预测值和所述标注值之间的召回率,获取划分一致性的最佳阈值。
[0127]
处理模块504,还用于若所述第二预测值指示两个数据字段之间的数据一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测正确,并获取第一召回系数;
[0128]
若所述第二预测值指示两个数据字段之间的数据不一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测错误,并获取第二召回系数;
[0129]
根据所述第一召回系数和所述第二召回系数,获取召回率;
[0130]
更新所述初始阈值,重复获取召回率,直到获得最大召回率,将该最大召回率对应的更新阈值作为划分一致性的最佳阈值。
[0131]
处理模块504,还用于若所述第一预测值大于等于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据一致;
[0132]
若所述第一预测值小于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据不一致。
[0133]
划分模块505,用于根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。
[0134]
划分模块505,还用于将第一预测值大于等于所述最佳阈值对应的两个数据字段划分为数据一致的数据字段;
[0135]
将第一预测值小于所述最佳阈值对应的两个数据字段划分为数据不一致的数据字段。
[0136]
本技术还提供一种数据血缘关系解析设备,包括:至少一个处理器和存储器;
[0137]
所述存储器存储计算机执行指令;
[0138]
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行数据血缘关系解析方法。
[0139]
图6为本发明实施例提供的数据血缘关系解析设备的硬件示意图。如图6所示,本实施例提供的数据血缘关系解析设备60包括:至少一个处理器601和存储器602。该设备60还包括通信部件603。其中,处理器601、存储器602以及通信部件603通过总线604连接。
[0140]
在具体实现过程中,至少一个处理器601执行所述存储器602存储的计算机执行指令,使得至少一个处理器601执行如上数据血缘关系解析方法。
[0141]
处理器601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
[0142]
在上述的图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完
成,或者用处理器中的硬件及软件模块组合执行完成。
[0143]
存储器可能包含高速存储器(random access memory,ram),也可能还包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。
[0144]
总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
[0145]
本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的数据血缘关系解析方法。
[0146]
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0147]
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
[0148]
所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0149]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0150]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0151]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0152]
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程
序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0153]
最后应说明的是:本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段,并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

技术特征:
1.一种数据血缘关系解析方法,其特征在于,包括:从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型;对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度;从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值;根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值;根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。2.根据权利要求1所述的方法,其特征在于,所述对所述同类型数据组的每个所述数据字段进行数据元融合,包括:针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元;将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元;其中,每个所述融合数据元融合了数量为预设个数的数据元。3.根据权利要求2所述的方法,其特征在于,所述针对所述同类型数据组的每个所述数据字段,根据预设个数选择类型相同、且类型非字段类型的所述数据元,包括:针对所述同类型数据组的每个所述数据字段,去除类型为所述字段类型的所述数据元,选择出剩余数据元,其中,所述剩余数据元的类型包括表名称、字段英文、字段中文和字段说明;所述将从每个所述数据字段中选出的所述数据元进行融合,得到融合数据元,包括:分别对每个所述数据字段的剩余数据元进行融合,得到融合数据元。4.根据权利要求1所述的方法,其特征在于,所述根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性,包括:将第一预测值大于等于所述最佳阈值对应的两个数据字段划分为数据一致的数据字段;将第一预测值小于所述最佳阈值对应的两个数据字段划分为数据不一致的数据字段。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值,包括:设置划分一致性的初始阈值,根据初始阈值对所述第一预测值进行初始划分,得到第二预测值,其中,所述第二预测值用于指示两个数据字段之间的数据是否一致;根据所述第二预测值和所述标注值之间的召回率,获取划分一致性的最佳阈值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第二预测值和所述标注值之间的召回率,获取划分一致性的最佳阈值,包括:若所述第二预测值指示两个数据字段之间的数据一致、所述标注值指示所述两个数据字段之间的数据一致,则确认预测正确,并获取第一召回系数;若所述第二预测值指示两个数据字段之间的数据不一致、所述标注值指示所述两个数
据字段之间的数据一致,则确认预测错误,并获取第二召回系数;根据所述第一召回系数和所述第二召回系数,获取召回率;更新所述初始阈值,重复获取召回率,直到获得最大召回率,将该最大召回率对应的更新阈值作为划分一致性的最佳阈值。7.根据权利要求6所述的方法,其特征在于,若所述第一预测值大于等于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据一致;若所述第一预测值小于所述初始阈值,则确认所述第二预测值指示两个数据字段之间的数据不一致。8.一种数据血缘关系解析装置,其特征在于,包括:获取模块,用于从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同,所述字段类型为所述数据元的其中一种类型;融合模块,用于对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值,其中,所述第一预测值用于指示两个数据字段之间的数据的一致性程度;标注模块,用于从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值;处理模块,用于根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值;划分模块,用于根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。9.一种数据血缘关系解析设备,其特征在于,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-7任一项所述的数据血缘关系解析方法。10.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任意一项所述的数据血缘关系解析方法的步骤。

技术总结
本申请提供一种数据血缘关系解析方法、装置、设备和介质。该方法包括:从多个数据表中获取字段类型相同的数据字段,得到同类型数据组,其中,每个所述数据字段包括多个数据元,每个所述数据元的类型不同;对所述同类型数据组的每个所述数据字段进行数据元融合,并将每两个所述数据字段中的融合数据元进行一致性预测,得到第一预测值;从所述同类型数据组中抽取部分数据字段,进行人工一致性标注,得到标注值;根据所述第一预测值和所述标注值,获取划分一致性的最佳阈值;根据所述最佳阈值对所述第一预测值进行一致性划分,获取每两个所述数据字段之间的数据一致性。本申请的方法可以准确解析出数据表之间的关联性和一致性。准确解析出数据表之间的关联性和一致性。准确解析出数据表之间的关联性和一致性。


技术研发人员:李涛 杨剑键 王春佳 潘思宇 李姗姗 王东升 柳雨晨 王志佳
受保护的技术使用者:中国联合网络通信集团有限公司
技术研发日:2023.06.25
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐