一种数据治理方法、系统、设备及存储介质与流程
未命名
08-03
阅读:161
评论:0
本发明涉及大数据处理领域,更具体地,涉及一种数据治理方法、系统、设备及存储介质。
背景技术:
2.在多系统和多数据源环境下,某些共享和应用频率较高的数据集合无法在一定时间范围内用常规软件工具进行捕捉、管理和处理。
3.目前的数据治理方法首先梳理数据目录,然后构建基础库和主题库,并针对基础库和主题库对应的数据,通过数据质量分析发现数据质量问题,进而提出改进和服务。然而上述方法在构建基础库和主题库的数据来源繁复,定义结构松散,且针对不同系统数据源环境间的同类数据加工标准不统一,会造成治理效率低的缺陷。
技术实现要素:
4.本发明为克服现有技术针对不同系统数据源环境间的同类数据加工标准不统一,导致治理效率低的缺陷,提供一种数据治理方法、系统、设备及存储介质。
5.为解决上述技术问题,本发明的技术方案如下:第一个方面,本发明提出一种数据治理方法,包括以下步骤:根据数据资源目录,制定若干类主题的数据分表。
6.对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表。
7.根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构。
8.以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。
9.作为优选的技术方案,所述对各数据分表进行数据治理,包括对各数据分表进行字段治理、数据回填、数据逻辑处理和数据去重。
10.作为优选的技术方案,所述对数据分表的每个字段进行质量分析,包括对每个字段进行完整性、及时性、有效性、唯一性和合理性分析。
11.作为优选的技术方案,在制定若干类主题的数据分表之后,对所述数据分表的每个字段进行质量分析之前,所述方法还包括:将数据分表接入数据治理平台。
12.作为优选的技术方案,所述数据治理平台为海治数据治理平台。
13.作为优选的技术方案,所述对各数据分表完成数据治理之后,所述方法还包括:对数据治理效果进行评估,并根据评估结果,对数据进行修正。
14.作为优选的技术方案,在对数据完成修正后,所述方法还包括:将完成修正后的数据同步至大数据库,向公众授权开放使用。
15.第二个方面,本发明还提出一种数据治理系统,应用于如第一个方面任一技术方案所述的数据治理方法,包括:
制定模块,用于根据数据资源目录,制定若干类主题的数据分表。
16.筛选模块,用于对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表。
17.确定模块,用于根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构。
18.治理模块,用于以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。
19.第三个方面,本发明还提出一种计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如第一个方面任一技术方案所述的数据治理方法所执行的操作。
20.第四个方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被处理器执行如第一个方面任一技术方案所述的数据治理方法所执行的操作。
21.与现有技术相比,本发明技术方案的有益效果是:本发明通过从数据资源目录中制定若干类主题的数据分表,并筛选出字段质量最高的数据分表作为数据主表,以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理,全面引入了标准数据加工模型体系建设思路,针对不同系统数据源环境间的同类数据统一了加工标准,有效避免了数据的重复调用和预处理计算与过程表存储资源的浪费和消耗,提高了数据的治理效率。
附图说明
22.图1为实施例一中数据治理方法的流程图。
23.图2为实施例二中数据治理方法的流程图。
24.图3为实施例二中对铁路订票数据进行治理的流程图。
25.图4为实施例二中对铁路订票数据字段进行处理的原理图。
26.图5为实施例三中数据治理系统的架构图。
具体实施方式
27.附图仅用于示例性说明,不能理解为对本专利的限制;下面结合附图和实施例对本发明的技术方案做进一步的说明。
28.实施例一请参阅图1,本实施例提出一种数据治理方法,包括:根据数据资源目录,制定若干类主题的数据分表。
29.对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表。
30.根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构。
31.以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。
32.本实施例所提出的数据治理方法,通过从数据资源目录中制定若干类主题的数据
分表,并筛选出字段质量最高的数据分表作为数据主表,以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理,全面引入了标准数据加工模型体系建设思路,针对不同系统数据源环境间的同类数据统一了加工标准,有效避免了数据的重复调用和预处理计算与过程表存储资源的浪费和消耗,提高了数据的治理效率。
33.实施例二参阅图2和图3,本实施例以铁路订票数据为例,对实施例一提出的数据治理方法进行进一步的阐述。
34.具体包括以下步骤:s1:根据数据资源目录,制定若干类主题的数据分表。
35.在具体实施过程中,从省厅大数据平台汇聚的数据信息,制定yxq铁路订票信息、gdgt实名订票信息、gabtl乘车信息和gdgtzz验票信息四张数据分表。
36.s2:对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表。
37.本实施例中,所述对数据分表的每个字段进行质量分析,包括对每个字段进行完整性、及时性、有效性、唯一性和合理性分析。其中:(1)完整性分析:传输过程是否漏数、是否存在某个区域无数据、关键字段非空校验得出空值率和是否能建立关联关系如是否有车站站点代码。
38.(2)及时性分析:更新频率要求,如轨迹类数据需要每日更新、数据产生到入库时间。
39.(3)有效性分析:数据格式是否符合标准、时间范围是否正常如2099年和字典无代码。
40.(4)唯一性分析:该类数据定义的唯一数据主键,如“乘客身份证号
”ꢀ
+
ꢀ“
乘车日期(不含时分秒)
”ꢀ
+
ꢀ“
火车票车次”+“始发地”+“目的地”。
41.(5)合理性分析:如出生日期是否与身份证号一样以及抵达时间比订票时间早。
42.在具体实施过程中,将各数据分表接入海治数据治理平台,依据数据来源系统、数据存量、数据重复度、空置率、标准字典采用、部标数据可对接性、数据关联性、更新频率等数据质量要素进行全面评估。依据评估结果,在每类业务数据表中选取了一张数据字段质量最好、数据覆盖率最高、字段最为完整的表的数据表作为数据主表。
43.s3:根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构。
44.本实施例中,关联数据主键是该类数据与其余数据的关联字段,如身份证号码。数据主表根据业务需求确定主表类型(轨迹类或业务类属性)和业务目标,并根据业务属性、数据质量确定主表结构业务字段,所有数据分表均根据主表数据结构进行统一治理。
45.在具体实施过程中,按照公安部有关标准对业务包含的相关要素、业务行为分类属性、轨迹特征、要素间关联、关系属性等核心价值字段进行了明确标识定义。同时定义了关联数据主键,确定了相关业务数据表的业务唯一id构建规则。如铁路订票数据主键定义:铁路订票数据数据主键定义逻辑:一般情况下,一个人同一天同一车次只能买一张票,且一个车次一天只能发一班车,目的地和始发地不同。所以这里设置业务主键为“乘客身份证号
”ꢀ
+
ꢀ“
乘车日期(不含时分秒)
”ꢀ
+
ꢀ“
火车票车次”+“始发地”+“目的地”。
46.s4:以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。包括对各数据分表进行字段治理、数据回填、数据逻辑处理和数据去重。
47.如图4所示,在具体实施过程中,通过交叉验证核准后,生成yxq铁路订票信息数据主表,可替代其余三张数据分表(gdgt实名订票信息、gabtl乘车信息和gdgtzz验票信息)开展应用。如铁路民航订票数据业务定义:反映某人在某个时间段通过铁路前往(计划前往)某地的出行轨迹类数据,并根据验票状态对该计划完成情况统一标注。
48.在本实施例中,共增加了省份、地市、经纬度等业务特征类字段160余个,翻译回填关键业务数据共15亿条,重新整合治理了《车次时刻字典表》动态数据字中无代码新增车站35个,通过专业化治理手段全面提升了数据效能,把规模优势转变为了价值优势实现数据的增值赋能:(1)补充姓名、证件号码等关键字段。通过人口户籍和一人多证信息补全姓名及证件号码信息并将其归一化为证件号码归一化字段(提升业务连接黏连度,用于连接不同数据源)。
49.(2)补充区域信息。通过火车站字典补车站所属行政区划、经纬度(提升业务应用便捷性)。
50.(3)补充人员乘车状态。基于yxq铁路订票信息、gdgt实名订票信息数据补全车票状态(售票/退票/改签);火车站闸机验票数据补全验票状态(未知/验票)(提升业务应用可信度)。
51.本实施例中,在完成数据治理后,治理小组、数据试用员及业务警种通过试用数据,评估数据治理效果及数据业务属性是否合理完整,并对评估中发现问题及时进行修正。
52.本实施例中,对已完成治理及修改完成后的数据做入库备案注册处理,将数据同步到大数据库,形成数据治理白皮书(标准)并向全省授权开放使用。
53.本实施例中,对已提供服务数据提供可持续可视化监测服务,及时做好新数据源接入和字典更新等工作,并将运维重大日志更新至治理白皮书。
54.本技术实施例所提出的数据治理方法,构建了高可信业务数据接入体系,实现了一表全量覆盖、质量可控和运维可更的数据建设目标。通过专业化治理手段全面提升了数据效能,把规模优势转变为了价值优势,实现了数据的增值赋能。从而持续稳定地有效开展数据应用工作。
55.在治理过程中全面引入了标准数据加工模型体系建设思路,同步编制了《业务数据治理说明白皮书》,从而持续稳定地有效指引并开展数据治理及应用工作。有效避免了数据的重复调用和预处理计算与过程表存储资源的浪费和消耗,依托业务实战部门构建了数据应用评估体系,实现了对数据治理成效的互动反馈。
56.实施例三参阅图5,本实施例提出一种数据治理系统,包括:制定模块,用于根据数据资源目录,制定若干类主题的数据分表。
57.筛选模块,用于对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表。
58.确定模块,用于根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构。
59.治理模块,用于以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。
60.本技术实施例所提出的数据治理系统,通过从数据资源目录中制定若干类主题的数据分表,并筛选出字段质量最高的数据分表作为数据主表,以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理,全面引入了标准数据加工模型体系建设思路,针对不同系统数据源环境间的同类数据统一了加工标准,有效避免了数据的重复调用和预处理计算与过程表存储资源的浪费和消耗,提高了数据的治理效率。
61.附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
技术特征:
1.一种数据治理方法,其特征在于,包括:根据数据资源目录,制定若干类主题的数据分表;对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表;根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构;以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。2.根据权利要求1所述的数据治理方法,其特征在于,所述对各数据分表进行数据治理,包括对各数据分表进行字段治理、数据回填、数据逻辑处理和数据去重。3.根据权利要求1所述的数据治理方法,其特征在于,所述对数据分表的每个字段进行质量分析,包括对每个字段进行完整性、及时性、有效性、唯一性和合理性分析。4.根据权利要求1所述的数据治理方法,其特征在于,在制定若干类主题的数据分表之后,对所述数据分表的每个字段进行质量分析之前,所述方法还包括:将数据分表接入数据治理平台。5.根据权利要求4所述的数据治理方法,其特征在于,所述数据治理平台为海治数据治理平台。6.根据权利要求1所述的数据治理方法,其特征在于,所述对各数据分表完成数据治理之后,所述方法还包括:对数据治理效果进行评估,并根据评估结果,对数据进行修正。7.根据权利要求6所述的数据治理方法,其特征在于,在对数据完成修正后,所述方法还包括:将完成修正后的数据同步至大数据库,向公众授权开放使用。8.一种数据治理系统,应用于如权利要求1~7任一项所述的数据治理方法,其特征在于,包括:制定模块,用于根据数据资源目录,制定若干类主题的数据分表;筛选模块,用于对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表;确定模块,用于根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构;治理模块,用于以所述数据主表的数据结构为元数据治理标准,对各数据分表进行数据治理。9.一种计算设备,其特征在于,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的数据治理方法所执行的操作。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序,所述程序被处理器执行如权利要求1至7中任一项所述的数据治理方法所执行的操作。
技术总结
本发明涉及大数据处理领域,公开了一种数据治理方法、系统、设备及存储介质,所述方法包括根据数据资源目录,制定若干类主题的数据分表。对所述数据分表的每个字段进行质量分析,筛选出字段质量最高的数据分表作为数据主表。根据业务需求定义关联数据主键,并利用所述关联数据主键,确定所述数据主表的数据结构。本发明针对不同系统数据源环境间的同类数据统一了加工标准,有效避免了数据的重复调用和预处理计算与过程表存储资源的浪费和消耗,提高了数据的治理效率。了数据的治理效率。了数据的治理效率。
技术研发人员:黄经纬 李蔚达 陈鹏
受保护的技术使用者:湛江市公安局
技术研发日:2023.01.29
技术公布日:2023/8/2
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种LED模组的制作方法 下一篇:一种棉拖把脱水装置的制作方法
