一种基于全链路治理管控的数据治理系统的制作方法
未命名
10-14
阅读:106
评论:0
1.本发明涉及数据治理领域,特别涉及一种基于全链路治理管控的数据治理系统。
背景技术:
2.目前,随着大数据的不断发展,利用大数据来加强各类数据资源的管理和应用的场景越来越多。利用大数据进行数据治理主要通过对数据质量进行严格把控。
3.然而,现有的数据把控往往不能够满足不同链路的准确治理,从而导致不同链路上的数据出现不同的数据质量问题,影响最终数据结果。
4.因此,本发明提供了一种基于全链路治理管控的数据治理系统。
技术实现要素:
5.本发明提供了一种基于全链路治理管控的数据治理系统,用以通过对不同链路的目标数据进行分类,按照不同分类进行数据分析和数据质量检验,并根据分析检验结果匹配精准的数据治理方案,从而实现对全链路数据的精准治理。
6.本发明提供了一种基于全链路治理管控的数据治理系统,包括:数据分类模块:用于对目标数据进行规范化处理,并基于数据所属链路的不同进行分类,得到第一数据集合;交互确定模块:用于获取第一数据集合中每一子集合之间的数据交互方式及数据交互程度,得到每一子集合的综合交互结果;管理分析模块:用于对第一数据集合中每一子集合的第一数据进行数据分析及数据质量的检验,并基于分析检验结果得到第一分析子集合;数据治理模块:用于基于方案数据库向所述第一分析子集合匹配数据治理方案,并基于相应子集合的综合交互结果对所述数据治理方案进行调整,从而得到目标数据的综合治理方案,实现数据治理。
7.在一种可能实现的方式中,数据分类模块,包括:数据获取单元:用于获取全链路的所有目标数据,导入数据处理平台;数据处理单元:用于判断目标数据中是否存在含有数据缺失值的数据样本;若存在,当含有数据缺失值的数据样本占总数据样本的比例小于预设缺失比例,则将含有数据缺失值的字段剔除;当含有数据缺失值的数据样本占总数据样本的比例小于第二缺失比例时,则将含有数据缺失值的数据样本剔除;反之,则基于所述数据样本对数据缺失值部分的字段进行预测,从而补全数据缺失值。
8.在一种可能实现的方式中,数据分类模块,包括:数据分类单元:用于获取目标数据中每一数据的所属链路,并基于所述链路的链路类型将所述目标数据进行分类,得到若干个第一初始子集合;
第二处理单元:用于将第一初始子集合中的第一数据进行数据缩放,得到处于预设数据范围内的第一处理数据,并基于第一处理数据构建第一处理数据子集合,从而得到第一数据集合。
9.在一种可能实现的方式中,交互确定模块,包括:第一交互单元:用于获取第一数据集合中每一第一处理数据子集合对应的链路类型,并判断每个第一处理数据子集合对应的链路类型与剩余链路类型之间的第一交互方式及第一交互程度;第二交互单元:用于逐一获取每一第一处理数据子集合的第一处理数据对应的特征类型与剩余第一处理数据子集合中第一处理数据对应的特征类型之间的第二交互方式及第二交互程度;交互方式确定单元:用于基于对应的第一交互方式与第二交互方式,确定每一第一处理数据子集合的综合交互方式;交互程度确定单元:用于基于对应的第一交互程度与第二交互程度,确定每一第一处理数据子集合的综合交互程度;交互结果确定单元:用于将对应的综合交互方式及综合交互程度进行整理,得到每一第一处理子集合的综合交互结果。
10.在一种可能实现的方式中,管理分析模块,包括:特征获取单元:用于获取第一数据集合中每一第一处理子集合的链路类型及第一处理子集合中的第一处理数据的数据特征;规则构建单元:用于基于所述链路类型及对应数据特征筛选与对应第一处理子集合匹配的检验规则,构建初始分析检验规则库;规则处理单元:用于基于对应第一处理子集合中第一数据的运行日志对初始分析检验规则库进行检验调整,得到第一分析检验规则库;第一规则分类单元:用于按照数据完整性检验标准,将第一分析检验规则库中的规则进行第一分类,得到第一分类规则库;第二规则分类单元:用于按照数据可用性及可追溯性标准,将第一分析检验规则库中的规则进行第二分类,得到第二分类规则库;最低检验判断单元:用于基于当前全链路治理管控的治理精度确定数据检验的最低检验比例;第一检验单元:用于基于第一分类规则库对第一处理子集合中的第一处理数据进行第一检验,并将第一处理子集合按照是否进行第一检验分为第一检验子集合及第一未检验子集合;第二检验单元:用于基于第二分类规则库对第一处理子集合中的第一处理数据进行第二检验,并将第一处理子集合按照是否进行第二检验分为第二检验子集合及第二未检验子集合;未检验数据处理单元:用于基于第一未检验子集合及第二未检验子集合构成未检验数据集合,并对未检验数据进行再处理;检验比较单元:用于将第一检验子集合与第一处理子集合的第一比例与最低检验比例进行比较,同时,将第二检验子集合与第二处理子集合的第二比例与最低检验比例进
行比较;检验结果确定单元:用于若第一比例及第二比例均大于最低检验比例,则获取第一检验子集合及第二检验子集合中的检验结果;将第一检验子集合与第二检验子集合中的检验结果按照对应第一处理数据的不同进行分类;基于每一相同检验结果对应的若干第一处理数据进行检验结果归档,并建立对应检验索引;基于每一检验索引及对应的分类归档结果得到第一分析子集合;反之,则判断当前第一分类规则库或第二分类规则库存在误差,需要重新构建初始分析检验规则库。
11.在一种可能实现的方式中,未检验数据处理单元,包括:数据比较子单元:用于基于第一未检验子集合及第二未检验子集合构成未检验数据集合,并将为检验数据集合中每一未检验数据与预设数据未检验原因进行比较;数据调整子单元:用于基于所述未检验原因对应的数据调整方案进行数据调整,得到第一调整数据;判断第一调整数据是否能够进行第一检验或第二检验;若第一调整数据能够进行第一检验或第二检验,则将第一调整数据提取并填充到对应第一检验子集合或第二检验子集合中。
12.在一种可能实现的方式中,数据治理模块,包括:方案匹配单元:用于获取与当前链路类型一致的方案数据库,基于方案数据库筛选与所述第一分析子集合匹配程度最高的第一数据治理方案,以及匹配程度次高的第二数据治理方案;方案提取单元:用于提取第一数据治理方案与第二数据治理方案中存在方案重叠的部分,并进行方案处理,得到与所述第一分析子集合匹配的数据治理方案;方案调整单元:用于获取与当前第一处理子集合对应的综合交互结果,并基于综合交互结果及对应调整权重对数据治理方案进行调整,从而得到第一处理子集合的第一调整方案;综合方案确定单元:用于基于所有第一处理子集合得到综合治理方案,并基于综合治理方案对目标数据进行数据治理;其中,所有第一处理子集合对应的综合治理方案即为目标数据的综合治理方案。
13.在一种可能实现的方式中,方案提取单元,包括:方案提取子单元:用于提取第一数据治理方案与第二数据治理方案中存在方案重叠的部分,得到第三数据治理方案;方案判断子单元:用于判断第三数据治理方案中的子方案是否能够完整执行;若第三数据治理方案中存在不能完整执行的子方案,则提取第一数据治理方案及第二数据治理方案中的子方案对不能完整执行部分进行补全,并判断不同补全方案中是否存在方案冲突,若不存在,则当前补全方案即为第四数据治理方案;反之,则对补全方案进行替换,得到第四数据治理方案;方案确定子单元:用于将第四处理方案与第三处理方案进行整理,得到与所述第
一分析子集合匹配的数据治理方案。
14.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
15.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
16.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明实施例中一种基于全链路治理管控的数据治理系统的结构图;图2为本发明实施例中交互确定模块的结构图;图3为本发明实施例中方案提取单元的结构图。
具体实施方式
17.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
18.实施例1:本发明实施例提供了一种基于全链路治理管控的数据治理系统,如图1所示,包括:数据分类模块:用于对目标数据进行规范化处理,并基于数据所属链路的不同进行分类,得到第一数据集合;交互确定模块:用于获取第一数据集合中每一子集合之间的数据交互方式及数据交互程度,得到每一子集合的综合交互结果;管理分析模块:用于对第一数据集合中每一子集合的第一数据进行数据分析及数据质量的检验,并基于分析检验结果得到第一分析子集合;数据治理模块:用于基于方案数据库向所述第一分析子集合匹配数据治理方案,并基于相应子集合的综合交互结果对所述数据治理方案进行调整,从而得到目标数据的综合治理方案,实现数据治理。
19.该实施例中,目标数据是指全链路中需要进行数据治理的数据,比如,智能数据建模、全域数据集成、高效数据开发、主动数据治理、全面数据安全、快速分析服务等方向的数据都可以治理。
20.该实施例中,规范化处理是指将目标数据中的缺失值进行剔除或预测处理。
21.该实施例中,所属链路是指目标数据的数据传输通道,不同数据传输通道的数据所属链路不同。
22.该实施例中,第一数据集合是指根据目标数据的所属链路不同对目标数据进行分类,得到第一数据子集合,并将每一第一数据子集合中的第一数据进行数据缩放,得到第一数据集合。
23.该实施例中,数据交互方式包括:数据库交互、文件交互、基于不同协议的信息交互。
24.该实施例中,数据交互程度是指不同链路之间的目标数据进行数据交换的交换程度。
25.该实施例中,综合交互结果是指根据数据交互方式及数据交互程度确定不同链路之间的第一数据的交互结果。
26.该实施例中,数据分析及数据质量检验是指根据数据特征及链路类型构建分析检验规则库,并根据分析检验规则库对对应数据进行分析检验。
27.该实施例中,第一分析子集合是指根据分析检验结果及对应第一数据得到对应的分析集合。
28.该实施例中,方案数据库是指根据链路类型匹配不同第一数据的对应治理方案的数据库。
29.该实施例中,数据治理方案是指根据方案数据库匹配每一第一分析子集合的对应数据治理方案。
30.该实施例中,综合治理方案是指目标数据的所有数据治理方案,并经过方案处理后得到的综合治理方案。
31.上述技术方案的有益效果是:通过对不同链路的目标数据进行分类,按照不同分类进行数据分析和数据质量检验,并根据分析检验结果匹配精准的数据治理方案,从而实现对全链路数据的精准治理。
32.实施例2:基于实施例1的基础上,数据分类模块,包括:数据获取单元:用于获取全链路的所有目标数据,导入数据处理平台;数据处理单元:用于判断目标数据中是否存在含有数据缺失值的数据样本;若存在,当含有数据缺失值的数据样本占总数据样本的比例小于预设缺失比例,则将含有数据缺失值的字段剔除;当含有数据缺失值的数据样本占总数据样本的比例小于第二缺失比例时,则将含有数据缺失值的数据样本剔除;反之,则基于所述数据样本对数据缺失值部分的字段进行预测,从而补全数据缺失值。
33.该实施例中,链路是指目标数据的数据传输通道,不同数据传输通道的数据所属链路不同。
34.该实施例中,目标数据是指全链路中需要进行数据治理的数据。
35.该实施例中,数据处理平台是指能够对目标数据进行处理的平台,其中,数据处理平台包含的数据处理方式包括:数据标准化、数据规范化、数据汇总、数据追加、数据分类等。
36.该实施例中,数据缺失值是指目标数据中存在的未知或缺失的数据值,比如,目标数据中数据样本1为a,b,数据样本2为c,d,数据样本3为e,数据样本4为空白,根据每一数据样本的大小判断,数据样本3中存在缺失的数据缺失值,数据样本4中存在未知的数据缺失值。
37.该实施例中,数据样本是指将目标数据按照数据大小进行数据拆分后得到的子数据,其中,一个数据样本为属于目标数据的一个子数据,每一数据样本中包含若干个数据单
元。
38.该实施例中,总数据样本是指目标数据中包含的所有数据样本。
39.该实施例中,预设缺失比例是指根据目标数据的数据治理精细度确定的特征值缺失比例,其中,预设缺失比例的范围为(0,1)。
40.该实施例中,含有数据缺失值的字段是指每一数据样本中含有数据缺失值的数据单元,其中,一个数据单元为一个字段。
41.该实施例中,第二缺失比例是指根据目标数据的数据治理精细度确定的特征值缺失比例,其中,第二确实比例的范围为(0,1)。
42.该实施例中,每一数据样本中含有若干个字段。
43.该实施例中,对数据字段进行预测是指根据数据样本的数据特征及数据值对缺失值部分的数据特征进行预测,其中,根据数据样本中数据字段距离缺失值部分的距离不同,对缺失值部分的数据特征影响权重也不同,并根据预测特征结合缺失值部分相邻部分的数据值进行缺失值的预测,具体如下:;其中,表示第个数据字段的数据值;表示对应数据样本中的数据字段的总数;表示第个数据字段所对应距离的权重;表示第二大权重对应的数据字段的数据值;表示第一大权重对应的数据字段的数据值;表示对应数据样本中数据字段的总权重,且小于1;表示对应缺失值。
44.上述技术方案的有益效果是:通过对不同链路的目标数据进行分类,从而能够更加准确的按照不同分类进行数据分析和数据质量检验,并根据分析检验结果匹配精准的数据治理方案,从而实现对全链路数据的精准治理。
45.实施例3:基于实施例1的基础上,数据分类模块,包括:数据分类单元:用于获取目标数据中每一数据的所属链路,并基于所述链路的链路类型将所述目标数据进行分类,得到若干个第一初始子集合;第二处理单元:用于将第一初始子集合中的第一数据进行数据缩放,得到处于预设数据范围内的第一处理数据,并基于第一处理数据构建第一处理数据子集合,从而得到第一数据集合。
46.该实施例中,链路类型包括:atm、pos、fddi、hippi、hdmi等。
47.该实施例中,第一初始子集合是指按照目标数据中每一目标数据所属链路的链路类型不同将目标数据进行分类后得到的数据集合,其中,每一链路类型对应一个第一初始子集合,比如,从链路类型为hdmi的链路上得到的数据组成的集合为第一初始子集合。
48.该实施例中,第一数据是指包含在第一初始子集合中的数据。
49.该实施例中,数据缩放是指为了消除不同数据的特征值之间的量纲及数量级的差异、保证数据的可靠性,对第一初始子集合中的第一数据进行数据缩放,使得第一数据处于预设数据范围内的过程。
50.该实施例中,第一处理数据是指将第一数据进行数据缩放后得到的数据。
51.该实施例中,第一处理数据子集合是指包含对应第一处理数据的集合。
52.该实施例中,第一数据集合是指全链路的目标数据进行数据分类、缩放后得到的数据集合。
53.上述技术方案的有益效果是:通过对不同链路的目标数据进行数据缩放,从而能够更加准确的按照对应分类进行数据分析和数据质量检验,并根据分析检验结果匹配精准的数据治理方案,从而实现对全链路数据的精准治理。
54.实施例4:基于实施例3的基础上,交互确定模块,如图2所示,包括:第一交互单元:用于获取第一数据集合中每一第一处理数据子集合对应的链路类型,并判断每个第一处理数据子集合对应的链路类型与剩余链路类型之间的第一交互方式及第一交互程度;第二交互单元:用于逐一获取每一第一处理数据子集合的第一处理数据对应的特征类型与剩余第一处理数据子集合中第一处理数据对应的特征类型之间的第二交互方式及第二交互程度;交互方式确定单元:用于基于对应的第一交互方式与第二交互方式,确定每一第一处理数据子集合的综合交互方式;交互程度确定单元:用于基于对应的第一交互程度与第二交互程度,确定每一第一处理数据子集合的综合交互程度;交互结果确定单元:用于将对应的综合交互方式及综合交互程度进行整理,得到每一第一处理子集合的综合交互结果。
55.该实施例中,第一交互方式是指每一第一处理子集合对应的链路类型与剩余链路类型之间的链路交互方式,比如,并行通信、串型通信等。第一交互程度是指每一第一处理子集合对应的链路类型与剩余链路类型之间的链路交互程度,其中,第一交互程度的取值范围为(0,1)。
56.该实施例中,数据交互方式包括:条件交互、文本交互、菜单交互、对象交互等。数据交互程度是指不同第一处理子数据集合之间存在数据交互的程度,其中,两个第一处理子数据集合之间的数据交互程度的取值范围为(0,1)。
57.该实施例中,特征类型一般包括类别、id型特征、数值型特征等。
58.该实施例中,第二交互方式是指每一第一处理子集合中每一第一处理数据的特征类型与同一第一处理子集合中剩余第一处理数据的特征类型之间的特征交互方式,比如,第二交互方式包括:信息交互、数据库交互、文件交互等。第二交互程度是指每一第一处理子集合中每一第一处理数据的特征类型与同一第一处理子集合中剩余第一处理数据的特征类型之间的特征交互程度,其中,第二交互程度的取值范围为(0,1)。
59.该实施例中,综合交互方式是指将每一第一处理数据子集合对应的第一交互方式及第二交互方式进行综合后得到的综合交互方式,综合交互程度是指将每一第一处理子集合对应的第一交互程度与第二交互程度按照交互权重进行综合后得到的综合交互程度。
60.该实施例中,综合交互结果是根据同一第一处理子集合的综合交互方式及综合交互程度确定的。
61.上述技术方案的有益效果是:通过确定不同链路的目标数据之间的交互结果,从
而按照交互结果对数据分析检验结果进行调整,可以得到更加精准的数据治理方案,从而实现对全链路数据的精准治理。
62.实施例5:基于实施例3的基础上,管理分析模块,包括:特征获取单元:用于获取第一数据集合中每一第一处理子集合的链路类型及第一处理子集合中的第一处理数据的数据特征;规则构建单元:用于基于所述链路类型及对应数据特征筛选与对应第一处理子集合匹配的检验规则,构建初始分析检验规则库;规则处理单元:用于基于对应第一处理子集合中第一数据的运行日志对初始分析检验规则库进行检验调整,得到第一分析检验规则库;第一规则分类单元:用于按照数据完整性检验标准,将第一分析检验规则库中的规则进行第一分类,得到第一分类规则库;第二规则分类单元:用于按照数据可用性及可追溯性标准,将第一分析检验规则库中的规则进行第二分类,得到第二分类规则库;最低检验判断单元:用于基于当前全链路治理管控的治理精度确定数据检验的最低检验比例;第一检验单元:用于基于第一分类规则库对第一处理子集合中的第一处理数据进行第一检验,并将第一处理子集合按照是否进行第一检验分为第一检验子集合及第一未检验子集合;第二检验单元:用于基于第二分类规则库对第一处理子集合中的第一处理数据进行第二检验,并将第一处理子集合按照是否进行第二检验分为第二检验子集合及第二未检验子集合;未检验数据处理单元:用于基于第一未检验子集合及第二未检验子集合构成未检验数据集合,并对未检验数据进行再处理;检验比较单元:用于将第一检验子集合与第一处理子集合的第一比例与最低检验比例进行比较,同时,将第二检验子集合与第二处理子集合的第二比例与最低检验比例进行比较;检验结果确定单元:用于若第一比例及第二比例均大于最低检验比例,则获取第一检验子集合及第二检验子集合中的检验结果;将第一检验子集合与第二检验子集合中的检验结果按照对应第一处理数据的不同进行分类;基于每一相同检验结果对应的若干第一处理数据进行检验结果归档,并建立对应检验索引;基于每一检验索引及对应的分类归档结果得到第一分析子集合;反之,则判断当前第一分类规则库或第二分类规则库存在误差,需要重新构建初始分析检验规则库。
63.该实施例中,检验规则包括数据完整性检验规则、数据可用性及可追溯性检验规则。
64.该实施例中,初始分析检验规则库是指根据每一第一处理子集合对应的链路类型
及数据特征不同构建的与当前第一处理子集合的链路类型及数据特征匹配的数据检验规则。
65.该实施例中,运行日志的内容涵盖设备状态、运行方式、时间区域、异常处理、设备健康情况、注意事项等。
66.该实施例中,第一分析检验规则库是指根据第一处理子集合中包含的第一数据对应运行日志对初始分析检验规则库进行调整后得到的检验规则库。
67.该实施例中,数据完整性检验标准是指不同分析检验规则中包含必要信息及细节的最低完整性标准。
68.该实施例中,第一分类规则库是指根据不同分析检验规则对应不同数据完整性检验标准将第一分析检验规则库中的规则进行分类后得到的规则库。
69.该实施例中,数据可用性及可追溯性标准是指判断不同分析检验规则对应的来源及规则本身是否可靠、能否进行分析检验的标准。
70.该实施例中,第二分类规则库是指根据不同分析检验规则对应不同数据可用性及可追溯性标准将第一分析检验规则库中的规则进行分类后得到的规则库。
71.该实施例中,最低检验比例是指根据当前全链路治理管控的治理精度确定的数据检验比例,其中,第一检验比例的取值范围为(0,1)。
72.该实施例中,第一处理数据是将第一数据进行数据缩放后得到的处理数据。
73.该实施例中,第一检验是指根据第一分类规则库对第一处理子集合中的第一处理数据进行数据质量检验。
74.该实施例中,第一处理数据对应若干个分析检验规则,基于每个分析检验规则判断第一处理数据是否需要进行检验,具体包括:;其中,为对应第一处理数据基于第个分析检验规则下的检验结果,为对应第一处理数据中与第个分析检验规则匹配的数据样本个数,为对应第一处理数据中不能够与第个分析检验规则匹配的数据样本的个数,为对应第一处理数据中数据样本的数据特征值与第个分析检验规则所匹配的数据特征值之间的转换系数,为对应第一处理数据与第个分析检验规则匹配的第i个数据样本的数据特征值的标准转换系数,为第n1个数据样本匹配的第j1个分析检验规则中所对应一致数据的特征值的标准转换系数,为第n1个数据样本匹配的第j1个分析检验规则中对应不一致数据的特征值的标准转换系数;max表示最大值符号;min表示最小值符号;的取值范围为(0,1);若t大于t0,则判定对应第一处理数据能进行检验,否则,判定对应第一处理数据不能够进行检验,其中,t0为对应第一处理数据基于第j1个分析检验规则的检验阈值。
75.该实施例中,j1的取值为1和2,当为1时,表明是对第一处理数据的第一检验,当为2时,表示是对第一处理数据的第二检验。
76.该实施例中,判断第一处理子集合中第一处理数据是否能够进行第一检验,是通过判断第一处理数据中的数据样本是否有匹配的分析检验规则,若没有对应的分析检验规则则判定当前数据样本对应的第一处理数据不能够进行第一检验,反之,则判定当前数据样本对应的第一处理数据能够进行第一检验。
77.该实施例中,根据第一处理数据是否能够进行第一检验,可以将第一处理子集合分为第一检验子集合及第一未检验子集合,其中,第一检验子集合及第一未检验子集合中包含第一处理子集合中的全部第一处理数据。
78.该实施例中,第二检验是指根据第二分类规则库对第一处理子集合中的第一处理数据进行数据质量检验。
79.该实施例中,根据第一处理数据是否能够进行第二检验,可以将第一处理子集合分为第二检验子集合及第二未检验子集合,其中,第二检验子集合及第二未检验子集合中包含第一处理子集合中的全部第一处理数据。
80.该实施例中,未检验数据集合是指包含第一未检验子集合及第二未检验子集合中全部未检验数据的集合。
81.该实施例中,第一检验子集合与第二检验子集合中的检验结果是指第一处理数据中经过第一检验的数据对应的检验结果及第一处理数据中经过第二检验的数据对应的检验结果,其中,第一检验子集合的检验结果为第一处理数据中能够进行第一检验的数据的数据完整性检验结果,第二检验子集合的检验结果为第一处理数据中能够进行第二检验的数据的数据可用性及可追溯性检验结果,比如,将数据a与数据完整性标准进行比较后判断数据a的数据完整性为90%,将数据b与数据可用性及可追溯性检验标准进行比较后判断数据b的数据可用性及可追溯性为62%。
82.该实施例中,对未检验数据进行再处理是指根据未检验数据的未检验原因匹配对应的数据调整方案从而进行数据处理的过程。
83.该实施例中,第一比例是指第一检验子集合中包含的数据量与对应第一处理子集合包含的数据量的比值,第二比例是指根据第二检验子集合中包含的数据量与对应第一处理子集合包含的数据量的比值。
84.该实施例中,检验结果归档是指将同一第一处理数据对应的第一检验集合的检验结果及对应的第二检验集合的检验结果整理得到一个检验集合。
85.该实施例中,检验索引是指将当前检验结果归档结果对应的第一数据的数据特征及对应链路特征构建索引。
86.该实施例中,第一分析子集合是指根据每一第一处理子集合对应的第一处理数据的检验索引及分类归档结果得到的与第一处理子集合对应的分析检验结果集合。
87.上述技术方案的有益效果是:通过给第一数据集合匹配对应分析检验规则,并对不同数据采用不同分析检验规则进行分析,可以使得对目标数据的分析检验更加准确,从而是都全链路的数据治理更加精准。
88.实施例6:基于实施例5的基础上,未检验数据处理单元,包括:数据比较子单元:用于基于第一未检验子集合及第二未检验子集合构成未检验数据集合,并将为检验数据集合中每一未检验数据与预设数据未检验原因进行比较;
数据调整子单元:用于基于所述未检验原因对应的数据调整方案进行数据调整,得到第一调整数据;判断第一调整数据是否能够进行第一检验或第二检验;若第一调整数据能够进行第一检验或第二检验,则将第一调整数据提取并填充到对应第一检验子集合或第二检验子集合中。
89.该实施例中,预设数据未检验原因是指根据目标数据的特征类型及所属链路类型预先确定的目标数据不能进行数据检验的原因。
90.该实施例中,未检验数据集合是由第一未检验子集合与第二未检验子集合构成的。
91.该实施例中,数据调整方案是指根据预设数据未检验原因确定的未检验数据的数据调整方案,将未检验数据按照数据调整方案进行调整之后还需要再次对调整数据进行第一检验或第二检验,判断调整后的数据是否能够进行第一检验或第二检验。
92.该实施例中,第一调整数据是指根据当前未检验数据匹配的预设数据未检验原因的比较结果对当前未检验数据进行调整后得到的调整数据。
93.上述技术方案的有益效果是:通过将未检验数据集合中的数据进行数据调整,从而再次进行数据检验,可以使得数据检验结果更加全面、准确,从而提高全链路数据治理的准确性。
94.实施例7:基于实施例5的基础上,数据治理模块,包括:方案匹配单元:用于获取与当前链路类型一致的方案数据库,基于方案数据库筛选与所述第一分析子集合匹配程度最高的第一数据治理方案,以及匹配程度次高的第二数据治理方案;方案提取单元:用于提取第一数据治理方案与第二数据治理方案中存在方案重叠的部分,并进行方案处理,得到与所述第一分析子集合匹配的数据治理方案;方案调整单元:用于获取与当前第一处理子集合对应的综合交互结果,并基于综合交互结果及对应调整权重对数据治理方案进行调整,从而得到第一处理子集合的第一调整方案;综合方案确定单元:用于基于所有第一处理子集合得到综合治理方案,并基于综合治理方案对目标数据进行数据治理;其中,所有第一处理子集合对应的综合治理方案即为目标数据的综合治理方案。
95.该实施例中,方案数据库是指根据链路类型匹配不同第一数据的对应治理方案的数据库。
96.该实施例中,第一数据治理方案是指在方案数据库中筛选与第一分析子集合匹配程度最高的数据治理方案,第二数据治理方案是指在方案数据库中筛选与第一分析子集合匹配程度次高的数据治理方案,其中,在方案数据库中筛选是根据第一分析子集合中的分析检验结果与方案数据库中每一分析检验结果对应的方案进行匹配的过程。
97.该实施例中,方案重叠是指在第一数据治理方案与第二数据治理方案中存在的方案重叠的部分,比如,第一数据治理方案中包含1,2,3,a,b,第二数据治理方案中包含1,2,3,4,a,则第一数据治理方案与第二数据治理方案的方案重叠部分为1,2,3,a。
98.该实施例中,数据治理方案是指根据方案数据库匹配每一第一分析子集合的对应数据治理方案。
99.该实施例中,第一调整方案是指根据当前第一分析子集合对应的第一处理子集合的综合交互结果对数据治理方案进行调整后得到的调整方案。
100.该实施例中,综合治理方案是指目标数据的所有数据治理方案,并经过方案处理后得到的综合治理方案。
101.该实施例中,第一数据集合中所有第一处理子集合对应的综合治理方案即为目标数据的综合治理方案。
102.上述技术方案的有益效果是:通过分类分析检验结果匹配对应的数据治理方案并进行综合,可以使得对全链路数据的治理更加精准。
103.实施例8:基于实施例7的基础上,方案提取单元,如图3所示,包括:方案提取子单元:用于提取第一数据治理方案与第二数据治理方案中存在方案重叠的部分,得到第三数据治理方案;方案判断子单元:用于判断第三数据治理方案中的子方案是否能够完整执行;若第三数据治理方案中存在不能完整执行的子方案,则提取第一数据治理方案及第二数据治理方案中的子方案对不能完整执行部分进行补全,并判断不同补全方案中是否存在方案冲突,若不存在,则当前补全方案即为第四数据治理方案;反之,则对补全方案进行替换,得到第四数据治理方案;方案确定子单元:用于将第四处理方案与第三处理方案进行整理,得到与所述第一分析子集合匹配的数据治理方案。
104.该实施例中,第三数据治理方案是指同一分析子集合对应的第一数据治理方案与第二数据治理方案中提取方案重叠的部分构成的数据治理方案。
105.该实施例中,完整执行是指第三数据治理方案中不同子方案之间进行执行时是否连贯完整。
106.该实施例中,补全方案是指若第三数据治理方案中存在不能完整执行的子方案,则提取第一数据治理方案及第二数据治理方案中的子方案对不能完整执行部分进行补全,其中,进行方案补全的时候可以同时提取第一数据治理方案及斯蒂尔数据治理方案中的子方案。
107.该实施例中,第四数据治理方案与第三数据治理方案进行组合,并根据方案执行顺序进行调整后就得到了与第一分析子集合匹配的数据治理方案。
108.上述技术方案的有益效果是:通过对数据治理方案进行调整,从而进行综合,可以使得对全链路数据的治理更加精准。
109.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
技术特征:
1.一种基于全链路治理管控的数据治理系统,其特征在于,包括:数据分类模块:用于对目标数据进行规范化处理,并基于数据所属链路的不同进行分类,得到第一数据集合;交互确定模块:用于获取第一数据集合中每一子集合之间的数据交互方式及数据交互程度,得到每一子集合的综合交互结果;管理分析模块:用于对第一数据集合中每一子集合的第一数据进行数据分析及数据质量的检验,并基于分析检验结果得到第一分析子集合;数据治理模块:用于基于方案数据库向所述第一分析子集合匹配数据治理方案,并基于相应子集合的综合交互结果对所述数据治理方案进行调整,从而得到目标数据的综合治理方案,实现数据治理。2.根据权利要求1所述的一种基于全链路治理管控的数据治理系统,其特征在于,数据分类模块,包括:数据获取单元:用于获取全链路的所有目标数据,导入数据处理平台;数据处理单元:用于判断目标数据中是否存在含有数据缺失值的数据样本;若存在,当含有数据缺失值的数据样本占总数据样本的比例小于预设缺失比例,则将含有数据缺失值的字段剔除;当含有数据缺失值的数据样本占总数据样本的比例小于第二缺失比例时,则将含有数据缺失值的数据样本剔除;反之,则基于所述数据样本对数据缺失值部分的字段进行预测,从而补全数据缺失值。3.根据权利要求1所述的一种基于全链路治理管控的数据治理系统,其特征在于,数据分类模块,包括:数据分类单元:用于获取目标数据中每一数据的所属链路,并基于所述链路的链路类型将所述目标数据进行分类,得到若干个第一初始子集合;第二处理单元:用于将第一初始子集合中的第一数据进行数据缩放,得到处于预设数据范围内的第一处理数据,并基于第一处理数据构建第一处理数据子集合,从而得到第一数据集合。4.根据权利要求3所述的一种基于全链路治理管控的数据治理系统,其特征在于,交互确定模块,包括:第一交互单元:用于获取第一数据集合中每一第一处理数据子集合对应的链路类型,并判断每个第一处理数据子集合对应的链路类型与剩余链路类型之间的第一交互方式及第一交互程度;第二交互单元:用于逐一获取每一第一处理数据子集合的第一处理数据对应的特征类型与剩余第一处理数据子集合中第一处理数据对应的特征类型之间的第二交互方式及第二交互程度;交互方式确定单元:用于基于对应的第一交互方式与第二交互方式,确定每一第一处理数据子集合的综合交互方式;交互程度确定单元:用于基于对应的第一交互程度与第二交互程度,确定每一第一处理数据子集合的综合交互程度;交互结果确定单元:用于将对应的综合交互方式及综合交互程度进行整理,得到每一
第一处理子集合的综合交互结果。5.根据权利要求3所述的一种基于全链路治理管控的数据治理系统,其特征在于,管理分析模块,包括:特征获取单元:用于获取第一数据集合中每一第一处理子集合的链路类型及第一处理子集合中的第一处理数据的数据特征;规则构建单元:用于基于所述链路类型及对应数据特征筛选与对应第一处理子集合匹配的检验规则,构建初始分析检验规则库;规则处理单元:用于基于对应第一处理子集合中第一数据的运行日志对初始分析检验规则库进行检验调整,得到第一分析检验规则库;第一规则分类单元:用于按照数据完整性检验标准,将第一分析检验规则库中的规则进行第一分类,得到第一分类规则库;第二规则分类单元:用于按照数据可用性及可追溯性标准,将第一分析检验规则库中的规则进行第二分类,得到第二分类规则库;最低检验判断单元:用于基于当前全链路治理管控的治理精度确定数据检验的最低检验比例;第一检验单元:用于基于第一分类规则库对第一处理子集合中的第一处理数据进行第一检验,并将第一处理子集合按照是否进行第一检验分为第一检验子集合及第一未检验子集合;第二检验单元:用于基于第二分类规则库对第一处理子集合中的第一处理数据进行第二检验,并将第一处理子集合按照是否进行第二检验分为第二检验子集合及第二未检验子集合;未检验数据处理单元:用于基于第一未检验子集合及第二未检验子集合构成未检验数据集合,并对未检验数据进行再处理;检验比较单元:用于将第一检验子集合与第一处理子集合的第一比例与最低检验比例进行比较,同时,将第二检验子集合与第二处理子集合的第二比例与最低检验比例进行比较;检验结果确定单元:用于若第一比例及第二比例均大于最低检验比例,则获取第一检验子集合及第二检验子集合中的检验结果;将第一检验子集合与第二检验子集合中的检验结果按照对应第一处理数据的不同进行分类;基于每一相同检验结果对应的若干第一处理数据进行检验结果归档,并建立对应检验索引;基于每一检验索引及对应的分类归档结果得到第一分析子集合;反之,则判断当前第一分类规则库或第二分类规则库存在误差,需要重新构建初始分析检验规则库。6.根据权利要求5所述的一种基于全链路治理管控的数据治理系统,其特征在于,未检验数据处理单元,包括:数据比较子单元:用于基于第一未检验子集合及第二未检验子集合构成未检验数据集合,并将为检验数据集合中每一未检验数据与预设数据未检验原因进行比较;
数据调整子单元:用于基于所述未检验原因对应的数据调整方案进行数据调整,得到第一调整数据;判断第一调整数据是否能够进行第一检验或第二检验;若第一调整数据能够进行第一检验或第二检验,则将第一调整数据提取并填充到对应第一检验子集合或第二检验子集合中。7.根据权利要求5所述的一种基于全链路治理管控的数据治理系统,其特征在于,数据治理模块,包括:方案匹配单元:用于获取与当前链路类型一致的方案数据库,基于方案数据库筛选与所述第一分析子集合匹配程度最高的第一数据治理方案,以及匹配程度次高的第二数据治理方案;方案提取单元:用于提取第一数据治理方案与第二数据治理方案中存在方案重叠的部分,并进行方案处理,得到与所述第一分析子集合匹配的数据治理方案;方案调整单元:用于获取与当前第一处理子集合对应的综合交互结果,并基于综合交互结果及对应调整权重对数据治理方案进行调整,从而得到第一处理子集合的第一调整方案;综合方案确定单元:用于基于所有第一处理子集合得到综合治理方案,并基于综合治理方案对目标数据进行数据治理;其中,所有第一处理子集合对应的综合治理方案即为目标数据的综合治理方案。8.根据权利要求7所述的一种基于全链路治理管控的数据治理系统,其特征在于,方案提取单元,包括:方案提取子单元:用于提取第一数据治理方案与第二数据治理方案中存在方案重叠的部分,得到第三数据治理方案;方案判断子单元:用于判断第三数据治理方案中的子方案是否能够完整执行;若第三数据治理方案中存在不能完整执行的子方案,则提取第一数据治理方案及第二数据治理方案中的子方案对不能完整执行部分进行补全,并判断不同补全方案中是否存在方案冲突,若不存在,则当前补全方案即为第四数据治理方案;反之,则对补全方案进行替换,得到第四数据治理方案;方案确定子单元:用于将第四处理方案与第三处理方案进行整理,得到与所述第一分析子集合匹配的数据治理方案。
技术总结
本发明提供了一种基于全链路治理管控的数据治理系统。涉及数据治理领域,包括:数据分类模块:用于对目标数据进行规范化处理,并基于所属链路进行分类,得到第一数据集合;交互确定模块:用于获取第一数据集合中每一子集合之间的数据交互方式及交互程度,得到综合交互结果;管理分析模块:用于对每一子集合的第一数据进行数据分析检验,基于分析检验结果得到第一分析子集合;数据治理模块:用于基于方案数据库向第一分析子集合匹配数据治理方案,并基于综合交互结果对数据治理方案进行调整,得到综合治理方案进行数据治理。通过对不同链路的目标数据进行分类,并进行数据分析检验,匹配精准的数据治理方案,实现对全链路数据的精准治理管控。准治理管控。准治理管控。
技术研发人员:万力 韩东明 王庆焕 邢军鹏 李晓阳 刘其敏 邵龙 李冬冬
受保护的技术使用者:山东海博科技信息系统股份有限公司
技术研发日:2023.08.30
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种大豆油精炼装置及其精炼工艺的制作方法 下一篇:阵列基板及其显示面板的制作方法
