面向多源多域时空基准数据的数据库设计方法及系统

未命名 07-23 阅读:134 评论:0


1.本发明涉及数据库设计领域,尤其是一种面向多源多域时空基准数据的数据库设计方法及系统。


背景技术:

2.大数据有5v特点(ibm提出):volume(大量)、velocity(高速)、variety(多样)、value(低价值密度)、veracity(真实性),且在今后的研究中,多以交叉学科为主。在导航、气象、地理信息等学科领域经过多年的研究积累,已经产生了大量的数据,面对这些大量的多源异构数据,其在精度、真实性、统一标准等方面存在大量的问题,如何加工、处理、储存并利用这些多源数据成为当前一个主要问题。
3.为解决上述几类来源不同,格式不一数据的引接、清洗治理、存储和推送问题,需要设计一款数据库以实现分布的、多源异构的、跨网络的各类信息资源的交换汇聚,实现统一平台与各部门数据资源的共享。按照相关标准处理后的多方数据集中至中心平台,再以统一标准对外提供数据服务,使数据按一定业务规则成为可复用的信息资源服务。使各类消息可以实现跨部门、跨机构的信息共享,帮助进行综合、全面的分析与监管,及时感知运行状态并做出智能化响应。


技术实现要素:

4.鉴于上述问题,提出了本发明以便提供一种克服上述问题或至少部分地解决上述问题的一种面向多源多域时空基准数据的数据库设计方法和系统。
5.根据本发明的一个方面,提供一种面向多源多域时空基准数据的数据库设计方法,具体包括:s1,多源多域时空基准数据资源落地存储,将引接的数据资源先进行格式解析与合理性检查,并将引接的数据资源储存至引接数据库;s2,多源多域数据标准化与清洗管理存储,对引接数据库的数据进行标准化与清洗操作,主要包括:格式检查与修复、不必要数据去除、归一化格式转换;将清洗、治理加工后所形成得有效数据资产,流转至平台数据库进行有序分类存储,同时,平台数据库支持进一步的数据分级分类治理与管理服务;s3,多源多域数据质量分析评估管理存储,对平台数据库内的数据资产,根据数据质量进行综合评估,针对连续运行参考站系统cors(continuous operational reference system)站网数据进行站网优选与质量评定,进一步优化数据资产的分级分类管理服务,支撑后续专业业务运行;s4,专题数据/数据集聚合发布服务,根据专题业务类型,从平台数据库关联抽取所需专题数据或者数据集,以定向推送方式进行专题数据/数据集发布服务,实现数据贡献与交互。
6.其中,引接存储的多源多域时空基准数据类型包含以下五类:基础空间地理信息
数据,行业空间地理信息数据,cors站网数据包括原始观测数据、导航电文,交通运输实时数据,气象实时数据资源;数据格式包括9种:shp、tif、img、ifc、rvt、dgn、osgb、renix、sinex。
7.其中,多源多域时空基准数据标准化与清洗,数据格式层面主要包括格式检查与修复、不必要数据去除、归一化格式转换;数据内容层面主要包括:文件内重复数据删除、逻辑缺失数据填充、错误数据识别纠正、无效数据剔除,保证文件内数据的可读性和可用性。
8.进一步地,多源多域时空基准数据质量分析与评估工作,主要包括观测数据完整率分析、可用性分析、伪距观测噪声分析、载波相位观测噪声分析、信噪比分析、周跳比分析、多路径影响分析。
9.其中,专题数据/数据集聚合发布服务,对外服务接口包括:json/xml数据访问接口、kafka流式数据等数据访问接口;接口管控包括:api操作权限管理、api流量管控、api认证管理等手段。
10.其中,存储方式包括:关系型数据库、时空数据库、分布式文件系统,以及支持海量存储的文件系统、分布式数据仓库、内存数据库和分布式存储搜索引擎。
11.其中,postgresql支持存储各类感知数据、专题数据和系统管理类数据关系型数据,postgis支持时空数据存储,ext4文件系统支持大文件存储,hdfs支持海量数据文件存储,elasticsearch支持日志数据存储。
12.进一步地,数据层执行数据资源全生命周期的数据管理功能,根据功能定位划分为:引接数据库、平台数据库、发布数据库、系统数据库。
13.其中,平台数据库对清洗、治理加工后形成的数据资产进行有序分类存储,具体包括,矢量数据、栅格数据、档案数据存至postgresql库,二维数据存至hdfs库,需要直接读取的影像文件存储在ext4文件系统。
14.本发明的另一方面,一种面向多源多域时空基准数据的数据库设计系统,该系统包括:基础设施层,用于通过虚拟化资源池能够实现高层的资源管理逻辑,对资源进行抽象,对硬件资源进行虚拟化;数据平台层,对数据库软件、开源大数据组件进行集成和封装,对数据层提供多源异构数据的存储支撑和数据服务;对多源多域数据标准化与清洗管理,将清洗、治理加工后所形成得有效数据资产,流转至平台数据库进行有序分类存储;数据层,用于执行数据资源全生命周期的数据管理功能,根据功能定位划分为:引接数据库、平台数据库、发布数据库、系统数据库;其中,平台数据库对清洗、治理加工后形成的数据资产进行有序分类存储;发布数据库根据专题业务类型,从平台数据库关联抽取所需专题数据或者数据集,以定向推送方式进行专题数据/数据集发布服务,实现数据贡献与交互;数据服务层,面向典型应用,对多源多域数据质量分析评估管理存储,对平台数据库内的数据资产,根据数据质量进行综合评估,针对连续运行参考站系统cors站网数据进行站网优选与质量评定,进一步优化数据资产的分级分类管理服务,支撑后续专业业务运行。
15.该系统进一步还包括:
数据安全管理,负责数据交互共享时的全流程审批监控管理、数据脱敏脱密、水印标注,支持多类用户角色的权限监管,保障平台数据流转安全与可追溯性;数据运维体系,对系统的后台运行、数据安全、软硬件资源情况、运维监控进行统一管理,提供统一的集成约束与支持,支持数据资源库的自动管理和维护。
[0016] 本发明相对于现有多源多域时空基准数据库存储具有如下优势:a、构建一套体系化数据层次架构,贴近数据服务场景贴合多源多域时空基准数据特征与格式,在全域原始数据基础上,进行标准定义及分层建模,使得数据体系建设具备覆盖全域数据、结构层次清晰(横向数据主题连贯、纵向数据服务分层)等优势,克服传统多源多域数据存放管理简单堆砌、口径不一、脱离应用等局限。
[0017]
b、形成以业务赋能为导向的数据管理体系依托大数据平台实现数据全生命周期的管理,对多源多域数据资产的价值、质量进行综合评估,促进专业领域时空基准数据资产的不断根据业务类型进行细分管理,持续向业务输出动力。
附图说明
[0018]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅用于示出优先实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1 为数据库架构设计系统示意图;图2 为数据库设计流程图。
具体实施方式
[0019]
本发明为弥补多源数据来源分散、格式不一、数据资源清单难以共享等缺陷,解决对多源数据资源进行统一管理,建立统一的资源需求,提出了一种面向多源多域时空基准数据的数据库设计方法。
[0020]
面向多源多域时空基准数据交互共享平台数据库以基础空间数据为基础,统一整合引接行业专题数据、业务数据等多源异构数据,根据依据数据来源、数据业务属性、数据特点、数据更新频率,采用不同存储策略存储在数据仓库中,提供数据资源可视化、服务化接口。结合用户权限管理,建立权属清晰、关系准确的数据共享与交换关系。按照顶层设计思路,采用物理分散、逻辑集中的设计原则,设计基础设施层、数据平台层、数据层、数据服务层四层逻辑架构,形成动态更新、协调、共享的数据服务机制,保障数据资产的高效输出与循环落地。
[0021]
本发明数据库架构设计示意图如图1所示,其技术方案如下所述:1多源数据资源目录引接多源数据包含以下五类:(1)基础空间地理信息数据,主要包括矢量电子地图、区域电子地图、区划等信息的矢量数据、栅格数据、三维模型等数据。
[0022]
(2)行业空间地理信息数据,主要包括高精度路网、电站定位、输电线路、电厂、土质、医院及医用资源、应急物资储备单位分布、粮食储备等信息,具有非实时性、更新频率低、数据存储规范等特点。
[0023]
(3)cors站网数据包括原始观测数据、导航电文等,具有数据更新频率高、实时性强、数据量大等特点,数据接引后需进一步治理后才能入库,满足后续数据处理和应用的需求。
[0024]
(4)交通运输实时数据,主要包括运力大数据调度平台车辆信息数据、车辆轨迹数据、车辆属性数据、车辆静态定位数据、道路车辆信息、道路车辆静态定位数据等,具有数据更新频率高、实时性强、数据量大,格式不统一等特点。
[0025]
(5)气象实时数据资源,主要包括:降水量数据、温度数据、湿度数据、风力数、压强数据、云层实况类产品等。该数据具有数据更新频率高、实时性强特点。
[0026]
2数据格式引接的多源多域时空基准数据格式如下:表 1 各类数据通用格式
[0027]
3数据库工作流程贡献交互平台数据库工作流转流程,如图2所示:(1)引接数据库引接存储3.1中的五类数据资源,采用贴原数据存储方式,沿用源数据存储方式;(2)对引接库内的数据资源进行格式解析与合理性检查并存,然后完成数据标准化与清洗工作,主要包括格式检查与修复、不必要数据去除、归一化格式转换等;对观测数据文件中的内容进行清洗,主要包括对文件中的重复数据删除、逻辑缺失数据填充、错误数据识别纠正、无效数据剔除等,保证文件内数据的可读性和可用性,清洗/治理加工后形成的有效数据资产有序分类存储至平台数据库;(3)平台数据库通过数据质量分析评估,主要包括:观测数据完整率分析、可用性分析、伪距观测噪声分析、载波相位观测噪声分析、信噪比分析、周跳比分析、多路径影响分析等,进行数据质量的细分管理存储;(4)发布数据库从平台数据库抽取专题集,诸如:数据专题、数据集专题、评估预警专题、态势支援专题、高精度专题等,对外提供分享发布服务;(5)系统数据库用于分类存储数据共享交互平台的后台运行参数数据,支撑平台
的运维管理功能。
[0028]
4基础设施层数据交互共享平台数据库,依托云平台、大数据平台等,利用已有的虚拟机来提供硬件资源支撑,包括计算资源、网络资源和存储资源等。通过虚拟化资源池能够实现高层的资源管理逻辑,对资源进行抽象,对硬件资源进行虚拟化。
[0029]
5数据平台层数据平台层,对数据库软件、开源大数据组件进行集成和封装,对外(数据层)提供多源异构数据的存储支撑和数据服务,存储方式包括:关系型数据库、时空数据库、分布式文件系统,以及支持海量存储的文件系统、分布式数据仓库、内存数据库和分布式存储搜索引擎等,覆盖海量影像数据、地理数据、时空数据的存储和使用需求,同时保障数据平台具备高可靠性、定时备份和容灾恢复的可靠性机制。其中,postgresql支持存储各类感知数据、专题数据和系统管理类数据等关系型数据,postgis支持时空数据存储,ext4文件系统支持大文件存储,hdfs支持海量数据文件存储,elasticsearch支持日志等数据存储,本平台通过应用数据服务对外提供数据存取,通过geoserver提供瓦片数据等地图服务。
[0030]
6数据层数据层执行数据资源全生命周期的数据管理功能,根据功能定位划分为:引接数据库、平台数据库、发布数据库、系统数据库。其中,引接数据库引接存储基础/行业空间地理信息数据(含二维数据、三维数据等)、cors站网观测数据、交通/气象实时数据等,采用贴原数据存储方式,基本沿用源数据存储方式,分别存储至postgresql、hdfs和mongodb库;平台数据库对清洗、治理加工后形成的数据资产进行有序分类存储,其中,矢量数据、栅格数据、档案数据等存至postgresql库,二维数据存至hdfs库,需要直接读取的影像文件存储在ext4文件系统;发布数据库从平台数据库抽取专题集,诸如:数据专题、数据集专题、评估预警专题、态势支援专题、高精度专题等,对外提供分享发布服务,二维数据和影像数据存储方式与平台数据库一致。
[0031]
7数据服务层数据服务层,面向典型应用,基于数据资源管理展现的数据资产,向上提供快速的服务生成能力以及服务管控、鉴权、计量等功能。
[0032]
8数据安全管理数据安全管理,主要负责数据交互共享时的全流程审批监控管理、数据脱敏脱密、水印标注等,支持多类用户角色的权限监管,保障平台数据流转安全与可追溯性。
[0033]
9数据运维体系数据运维体系,对系统的后台运行、数据安全、软硬件资源情况、运维监控进行统一管理,为各类内、外部服务组件提供统一的集成约束与支持,支持数据资源库的自动管理和维护。
[0034]
尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及
应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种面向多源多域时空基准数据的数据库设计方法,其特征在于,包括如下步骤:s1,进行多源多域时空基准数据资源落地存储,将引接的数据资源先进行格式解析与合理性检查,并将引接的数据资源储存至引接数据库;s2,进行多源多域数据标准化与清洗管理存储,对引接数据库的数据进行标准化与清洗操作;将清洗、治理加工后所形成的有效数据资产,流转至平台数据库进行有序分类存储,同时,平台数据库支持进一步的数据分级分类治理与管理服务;s3,进行多源多域数据质量分析评估管理存储,对平台数据库内的数据资产,根据数据质量进行综合评估,针对连续运行参考站系统cors站网数据进行站网优选与质量评定,进一步优化数据资产的分级分类管理服务,支撑后续专业业务运行;s4,进行专题数据/数据集聚合发布服务,根据专题业务类型,从平台数据库关联抽取所需专题数据或者数据集,以定向推送方式进行专题数据/数据集发布服务,实现数据贡献与交互。2.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于:引接存储的多源多域时空基准数据的类型包含以下5类:基础空间地理信息数据,行业空间地理信息数据,cors站网数据、交通运输实时数据,气象实时数据资源;所述cors站网数据包括原始观测数据、导航电文;数据格式包括9种:shp、tif、img、ifc、rvt、dgn、osgb、renix、sinex。3.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于:多源多域时空基准数据标准化与清洗中,数据格式层面包括:数据格式检查与修复、不必要数据去除、归一化格式转换;数据内容层面包括:文件内重复数据删除、逻辑缺失数据填充、错误数据识别纠正、无效数据剔除,保证文件内数据的可读性和可用性。4.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于:多源多域数据质量分析评估包括针对cors站网观测数据的完整率分析、可用性分析、伪距观测噪声分析、载波相位观测噪声分析、信噪比分析、周跳比分析、多路径影响分析。5.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于:专题数据/数据集聚合发布服务中,对外服务接口包括:json/xml数据访问接口、kafka流式数据的数据访问接口;接口管控包括:api操作权限管理、api流量管控、api认证管理手段。6.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于:存储方式包括:关系型数据库、时空数据库、分布式文件系统,以及支持海量存储的文件系统、分布式数据仓库、内存数据库和分布式存储搜索引擎。7.如权利要求6所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于:postgresql支持存储各类感知数据、专题数据和系统管理类数据关系型数据,postgis支持时空数据存储,ext4文件系统支持大文件存储,hdfs支持海量数据文件存储,elasticsearch支持日志数据存储。8.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于,数据层执行数据资源全生命周期的数据管理功能,根据功能定位划分为:引接数据库、平台数据库、发布数据库、系统数据库。9.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在
于,平台数据库对清洗、治理加工后形成的数据资产进行有序分类存储,具体包括,矢量数据、栅格数据、档案数据存至postgresql库,二维数据存至hdfs库,直接读取的影像文件存储在ext4文件系统。10.如权利要求1所述的一种面向多源多域时空基准数据的数据库设计方法,其特征在于,所述引接的数据资源的数据格式具体为:根据数据类型对应相应的数据格式,其中,矢量数据的数据格式为shp,栅格数据的数据格式为tif/img,bim模型数据格式为ifc/rvt/dgn,倾斜摄影数据和模型数据的数据格式均为osgb,监测感知数据及产品的数据格式为renix/sinex。11.一种面向多源多域时空基准数据的数据库设计系统,其特征在于,包括:基础设施层,用于通过虚拟化资源池实现高层的资源管理逻辑,对资源进行抽象,对硬件资源进行虚拟化;数据平台层,对数据库软件、开源大数据组件进行集成和封装,对数据层提供多源异构数据的存储支撑和数据服务;对多源多域数据标准化与清洗管理,将清洗、治理加工后所形成得有效数据资产,流转至平台数据库进行有序分类存储;数据层,用于执行数据资源全生命周期的数据管理功能,根据功能定位划分为:引接数据库、平台数据库、发布数据库、系统数据库;其中,平台数据库对清洗、治理加工后形成的数据资产进行有序分类存储;发布数据库根据专题业务类型,从平台数据库关联抽取所需专题数据或者数据集,以定向推送方式进行专题数据/数据集发布服务,实现数据贡献与交互;数据服务层,面向典型应用,对多源多域数据质量分析评估管理存储,对平台数据库内的数据资产,根据数据质量进行综合评估,针对连续运行参考站系统cors站网数据进行站网优选与质量评定,进一步优化数据资产的分级分类管理服务,支撑后续专业业务运行。12.如权利要求11所述的一种面向多源多域时空基准数据的数据库设计系统,其特征在于,该系统还包括:数据安全管理,负责数据交互共享时的全流程审批监控管理、数据脱敏脱密、水印标注,支持多类用户角色的权限监管,保障平台数据流转安全与可追溯性;数据运维体系,对系统的后台运行、数据安全、软硬件资源情况、运维监控进行统一管理,提供统一的集成约束与支持,支持数据资源库的自动管理和维护。

技术总结
本发明公开了一种面向多源多域时空基准数据的数据库设计方法及系统。该方法具体包括如下步骤:引接多源数据资源,将引接的数据资源先进行格式解析与合理性检查,并将引接的数据资源储存至引接数据库;进行数据标准化与清洗工作;清洗、治理加工后形成的数据资产进行有序分类存储至平台数据库;数据质量分析与评估工作,对平台数据库内数据资源,根据数据质量进行综合评估,对CORS站网数据进行站网优选与质量评定,进一步优化数据资产的分级分类管理服务,专题数据及数据集聚合发布服务,根据专题业务类型,从平台数据库关联抽取所需专题数据或者数据集,以定向推送方式进行专题数据/数据集发布服务,实现数据贡献与交互。实现数据贡献与交互。实现数据贡献与交互。


技术研发人员:罗瑞丹 李亚平 曾凌川 于丰正 杨光 万红霞
受保护的技术使用者:中国科学院空天信息创新研究院
技术研发日:2023.06.12
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐