数据仓库构建方法、装置、存储介质及电子装置与流程

未命名 07-22 阅读:113 评论:0


1.本技术实施例涉及计算机领域,具体而言,涉及一种数据仓库构建方法、装置、存储介质及电子装置。


背景技术:

2.目前相关技术在进行构建数据仓库模型的方法在应用于只是业务内容不同,数据仓库结构相同以及各层级之间的计算流程相似的场景下,需要重新建表以及编写各层之间的计算,因而会造成重复开发的问题,并且不同人员开发习惯不同可能会造成数据结构不统一,字段命名及类型可能不同,使得方案的适用性较低。
3.针对相关技术中存在的数据仓库模型利用效率较低的问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种数据仓库构建方法、装置、存储介质及电子装置,以至少相关技术中存在的数据仓库模型利用效率较低的问题。
5.根据本技术的一个实施例,提供了一种数据仓库构建方法,包括:获取需要对目标数据进行统计的第一数据指标;设置与所述第一数据指标对应的第一固化结构和第一固化流程,其中,所述第一固化结构表示对所述目标数据进行分层处理所采用的结构,所述第一固化流程表示对所述目标数据进行所述分层处理的流程;根据所述第一固化结构和所述第一固化流程生成第一数据仓库模板,其中,所述第一数据仓库模板用于提供统计所述第一数据指标所需要的数据。
6.根据本技术的另一个实施例,提供了一种数据仓库构建装置,包括:获取模块,用于获取需要对目标数据进行统计的第一数据指标;设置模块,用于设置与所述第一数据指标对应的第一固化结构和第一固化流程,其中,所述第一固化结构表示对所述目标数据进行分层处理所采用的结构,所述第一固化流程表示对所述目标数据进行所述分层处理的流程;处理模块,用于根据所述第一固化结构和所述第一固化流程生成第一数据仓库模板,其中,所述第一数据仓库模板用于提供统计所述第一数据指标所需要的数据。
7.可选地,所述装置还用于:设置与所述第一数据指标对应的第一存储规则、第一表结构和第一字段,其中,所述第一存储规则用于表示所述分层处理过程中多个层级的存储规则,所述第一表结构用于表示所述分层处理过程中多个层级的表名规范,所述第一字段用于表示计算所述第一数据指标所需要的关键字段;将所述第一存储规则、所述第一表结构和所述第一字段确定为所述第一固化结构。
8.可选地,所述装置还用于:设置所述目标数据在所述分层处理过程中多个层级对应的存储库集合,其中,不同层级对应不同的存储库,包括:在所述多个层级包括原始数据层的情况下,将所述原始数据层的数据存储在第一存储库,其中,所述原始数据层用于保留所述目标数据的初始状态,所述第一存储库用于对所述目标数据进行统一存储;在所述多
个层级包括明细数据层和数据服务层的情况下,将所述明细数据层和所述数据服务层的数据分别存储在第一组存储库和第二组存储库,所述第一组存储库中的各个存储库分别对应不同业务类型,所述第二组存储库中的各个存储库分别对应不同业务类型,所述明细数据层用于对所述目标数据进行标准化,所述数据服务层用于对标准化后的所述目标数据进行聚合;在所述多个层级包括数据产品层的情况下,将所述原始数据层的数据存储在第二存储库,其中,所述数据产品层用于对所述目标数据进行进一步聚合,为数据产品和数据分析提供高度聚合的数据,所述第二存储库表示与外部连接的存储库。
9.可选地,所述装置还用于:设置所述目标数据在所述分层处理过程中多个层级对应的表名命名规则,其中,每个层级的表名命名规则包括按照每个层级的层级标识与数据源特征标识的组合进行命名;设置所述目标数据在所述分层处理过程中所使用的关键字段,其中,所述关键字段的字段标识和字段类型设置为统一格式。
10.可选地,所述装置还用于:在所述第一数据指标需要基于时间维度对所述目标数据进行分析的情况下,设置所述目标数据在所述分层处理过程中所使用的时间字段标识和时间字段类型,其中,所述时间字段标识和时间字段类型设置为统一格式。
11.可选地,所述装置还用于:在已确定所述第一固化结构的情况下,设置所述目标数据在所述分层处理过程中所使用的各个数据计算方法;设置所述各个数据计算方法的执行先后顺序;将所述各个数据计算方法以及所述执行先后顺序确定为所述第一固化流程。
12.可选地,所述装置还用于:获取需要对所述目标数据进行统计的第二数据指标,其中,所述第二数据指标与所述第一数据指标不同;设置与所述第二数据指标对应的第二固化结构和第二固化流程,其中,所述第二固化结构表示对所述目标数据进行分层处理所采用的结构,所述第二固化流程表示对所述目标数据进行所述分层处理的流程;根据所述第二固化结构和所述第二固化流程生成第二数据仓库模板,其中,所述第二数据仓库模板用于提供统计所述第二数据指标所需要的数据。
13.根据本技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
14.根据本技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
15.本技术采用获取需要对目标数据进行统计的第一数据指标,然后设置与第一数据指标对应的第一固化结构和第一固化流程,再根据第一固化结构和第一固化流程生成第一数据仓库模板的方式。解决了相关技术中存在的数据仓库模型利用效率较低的问题,达到了提高数据仓库模型的利用效率,节省开发成本的技术效果。
附图说明
16.图1是本技术实施例的一种数据仓库构建方法的移动终端的硬件结构框图;
17.图2是根据本技术实施例的一种数据仓库构建方法的流程图;
18.图3是根据本技术实施例的一种数据仓库构建方法的具体示例示意图;
19.图4是根据本技术实施例的一种数据仓库构建方法的模型生成流程图;
20.图5是根据本技术实施例的一种数据仓库构建装置的结构框图。
具体实施方式
21.下文中将参考附图并结合实施例来详细说明本技术的实施例。
22.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
23.本技术实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本技术实施例的一种数据仓库构建方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
24.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本技术实施例中的数据仓库构建方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
25.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
26.在本实施例中提供了一种数据仓库构建方法,图2是根据本技术实施例的数据仓库构建方法的流程图,如图2所示,该流程包括如下步骤:
27.s202,获取需要对目标数据进行统计的第一数据指标;
28.s204,设置与第一数据指标对应的第一固化结构和第一固化流程,其中,第一固化结构表示对目标数据进行分层处理所采用的结构,第一固化流程表示对目标数据进行分层处理的流程;
29.s206,根据第一固化结构和第一固化流程生成第一数据仓库模板,其中,第一数据仓库模板用于提供统计第一数据指标所需要的数据。
30.需要说明的是,数据仓库,是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,也可以说是为业务决策提供数据支持的战略集合。它是由各针对不同的业务需求而构建的数仓模型所构成,而各数仓模型内部处理包括对数据的清洗,转义,分类,重组,合并,拆分,统计等。
31.可选地,在本实施例中,上述目标数据可以包括但不限于电子商务平台、视频播放
平台等产生的数据,例如,视频播放平台的数据可以包括但不限于游客登录时间、视频播放量数据、用户收藏数据等。
32.可选地,在本实施例中,上述第一数据指标可以包括但不限于活跃度、播放量、交易量等数据指标。可选地,在本实施例中,上述第一固化结构可以包括但不限于根据第一数据指标对目标数据中需要的数据的存储规则、表结构以及字段进行固定设置,规范数据的存储和命名等结构。
33.可选地,在本实施例中,上述第一固化流程可以包括但不限于对模型的各层结构之间的数据的计算方法和各层数据计算的先后顺序进行规定,上述第一固化流程是在完成数据仓库模型的结构固化,数据仓库具备自动建表能力后进行的。
34.可选地,在本实施例中,上述第一数据仓库模板用于提供统计第一数据指标所需要的数据可以理解为,本技术是基于不同的数据指标构建不同的数据仓库模板,例如,根据播放数据构建与播放数据对应的数据仓库模板,根据用户登录数据构建与用户登录数据对应的数据仓库模板。换言之,在不同的业务类型中,相同的数据指标所需要的数据可以通过相同的数据仓库模板统计后得到,如电商平台的用户登录数据和游戏平台的用户登录数据可以通过相同的数据仓库模板统计得到。
35.通过本技术实施例,采用获取需要对目标数据进行统计的第一数据指标,然后设置与第一数据指标对应的第一固化结构和第一固化流程,再根据第一固化结构和第一固化流程生成第一数据仓库模板的方式。可以数据仓库构建,解决了相关技术中存在数据仓库模型的利用率较低的问题,达到提高数据仓库构建效率和模型的利用效率、简化了数据仓库构建方法、降低了开发成本的技术效果。
36.作为一种可选的实施例,设置与第一数据指标对应的第一固化结构,包括:设置与第一数据指标对应的第一存储规则、第一表结构和第一字段,其中,第一存储规则用于表示分层处理过程中多个层级的存储规则,第一表结构用于表示分层处理过程中多个层级的表名规范,第一字段用于表示计算第一数据指标所需要的关键字段;将第一存储规则、第一表结构和第一字段确定为第一固化结构。
37.可选地,在本实施例中,上述第一存储规则可以包括但不限于为对与第一数据指标相对应的数据模型的所归属库的位置进行规定的规则,例如,可以规定原始数据要落盘的原始数据层可以统一放在一个库中,明细数据层和数据服务层则可以根据业务类型的不同,放在内部库中等。
38.可选地,在本实施例中,上述第一表结构可以包括但不限于理解为对第一数据指标对应的数据表的命名规范化、各类模型的各层级的建表结构进行规定等。上述第一字段可以包括但不限于计算第一数据指标所需要的关键字段。
39.作为一种可选的实施例,设置与第一数据指标对应的第一存储规则,包括:设置目标数据在分层处理过程中多个层级对应的存储库集合,其中,不同层级对应不同的存储库,包括:在多个层级包括原始数据层的情况下,将原始数据层的数据存储在第一存储库,其中,原始数据层用于保留目标数据的初始状态,第一存储库用于对目标数据进行统一存储;在多个层级包括明细数据层和数据服务层的情况下,将明细数据层和数据服务层的数据分别存储在第一组存储库和第二组存储库,第一组存储库中的各个存储库分别对应不同业务类型,第二组存储库中的各个存储库分别对应不同业务类型,明细数据层用于对目标数据
进行标准化,数据服务层用于对标准化后的目标数据进行聚合;在多个层级包括数据产品层的情况下,将原始数据层的数据存储在第二存储库,其中,数据产品层用于对目标数据进行进一步聚合,为数据产品和数据分析提供高度聚合的数据,第二存储库表示与外部连接的存储库。
40.可选地,在本实施例中,上述原始数据层是最接近初始数据的一层,一般是没有经过任何对数据的加工处理,保留原始数据最初的状态,目的是为了方便后面对数据的加工处理。原始的目标数据可以包括但不限于曝光日志、点击日志、收藏日志等数据,例如,目标数据的原始格式可以是一条上报到电子商务平台的json字符串,把这些原始的目标数据导入到数据仓库的原始数据层时,原始数据层的表中就只有一个string类型的字段。
41.可选地,在本实施例中,上述明细数据层的数据是标准的、准确的、干净的,明细数据层可以包括但不限于用于对数据执行标准化处理,例如,在应用场景为视频播放平台时,明细数据层中所需要的表有用户表、视频表、活动表等多个数据表,各个数据表之间的关系用箭头进行表示。比如在用户表中,存储有评论id、视频转发id、视频收藏id等,通过视频评论表、收藏表、商品点赞表就可推断出某一用户在某个时间段对视频评论了多少次,点赞了多少个视频以及对某一视频收藏了多长时间等指标。
42.需要说明的是,明细数据层还可以包括但不限于用于删除原始数据中的重复数据,对数据执行拆分、合并、整合等操作。
43.可选地,在本实施例中,上述数据服务层可以包括但不限于用于面向主题对数据进行聚合,在数据的结构上通常采用星型或雪花型。例如,当主题为2023年1月的a视频数据时,则对a视频播放表、a视频评论表、a视频转发表等2023年1月分的上述数据执行聚合操作,生成字段比较多的宽表,用于为后续的业务查询,数据分发等提供数据支持。
44.可选地,在本实施例中,上述数据产品层可以包括但不限于提供数据产品和数据分析使用的结果数据,本层数据为高度汇总的数据,例如,每日交易额、每日交易数以及每日活跃人数,还对商品曝光数、每类产品的交易额以及每个地区的交易额进行汇总,但在数据产品层中数据的覆盖范围可能没有原始数据层、明细数据层以及数据服务层的数据覆盖范围广。
45.示例性地,数据仓库地分层模型地结构可以包括但不限于如图3所示,其中,在上述层级中数据覆盖范围最广的为原始数据层,数据汇总度最高的为数据产品层。
46.可选地,在本实施例中,上述第一存储库可以包括但不限于为对目标数据进行统一存储的存储库,例如,在游戏平台中,第一存储库可以用于存储用户登录日志、游戏商品交易日志、用户游戏记录等原始数据,在视频播放平台中,第一存储库可以用于存储用户登录日志、视频播放日志等原始数据。上述第二存储库可以包括但不限于用于存储经过多次汇总聚合操作的高度聚合数据,第二存储库中中的数据可以提供数据产品和数据分析使用的结果数据。
47.可选地,在本实施例中,上述第一组存储库包括多个存储库,其中,不同存储库中保存有不同业务类型的数据,例如,存储库a中保存有业务a的数据,存储库b中保存有业务b的数据,上述上述第二组存储库可以包括多个存储库,其中不同的存储看中保存有不同业务类型的主题聚合数据。需要说明的是,第一组存储库中的数据为不同业务的标准的、准确的、干净的进行过数据标准化处理的数据,第二组存储库中的数据为不同业务的面向主题
进行聚合的数据。
48.作为一种可选的实施例,设置与第一数据指标对应的第一表结构和第一字段,包括:设置目标数据在分层处理过程中多个层级对应的表名命名规则,其中,每个层级的表名命名规则包括按照每个层级的层级标识与数据源特征标识的组合进行命名;设置目标数据在分层处理过程中所使用的关键字段,其中,关键字段的字段标识和字段类型设置为统一格式。
49.可选地,在本实施例中,上述层级标识可以包括但不限于为ods(operational data store,原始数据层)、dwd(datawarehouse detail,明细数据层)、dws(datawarehouse service,数据服务层)、ads(application data service,数据产品层)各层级的字母缩写、各层级的名称等用于区别各层级的标识。
50.可选地,在本实施例中,上述数据源特征标识可以包括但不限于交易、评论、播放、点赞等可以用于对数据的特征进行区别的主题、名称等。
51.需要说明的是,上述每个层级的表名命名规则包括按照每个层级的层级标识与数据源特征标识的组合进行命名可以理解为,例如,对于原始数据层,可以以贴源的原则处理,以ods+数据源特征的规则来命名,若该数据源是由消费kafka的某个主题所来,便可以用ods+主题名命名。
52.可选地,在本实施例中,上述字段标识可以包括但不限于用于区别各字段的主题词、字段名称等,例如,用户id、交易额、播放量等,上述字段类型包括但不限于为字符型、数值型、逻辑型、文本型等。
53.通过本技术实施例,采用设置目标数据在分层处理过程中多个层级对应的表名命名规则,设置目标数据在分层处理过程中所使用的关键字段,的方式,有效规范第一表结构和关键字段进行统一格式,能够减少因人为开发习惯导致的数据错误。
54.作为一种可选的实施例,设置目标数据在分层处理过程中所使用的关键字段,包括:在第一数据指标需要基于时间维度对目标数据进行分析的情况下,设置目标数据在分层处理过程中所使用的时间字段标识和时间字段类型,其中,时间字段标识和时间字段类型设置为统一格式。
55.可选地,在本实施例中,上述时间字段标识可以包括但不限于为2020年1月1日、凌晨2:00等标识,上述时间字段类型可以为文本型如二零二零年一月一日,还可以为数值型20200101等。
56.作为一种可选的实施例,设置与第一数据指标对应的第一固化流程,包括:在已确定第一固化结构的情况下,设置目标数据在分层处理过程中所使用的各个数据计算方法;设置各个数据计算方法的执行先后顺序;将各个数据计算方法以及执行先后顺序确定为第一固化流程。
57.需要说明的是,上述已确定第一固化结构,可以理解为在第一数据指标对应的第一存储规则、第一表结构以及第一字段都已确定。
58.可选地,在本实施例中,上述目标数据在分层处理过程中所使用的各个数据计算方法可以理解为,例如,在电子商务平台的应用场景中,在获取某商品的每日交易额时,数据产品层对每日的交易金额进行求和得到每日交易额。
59.可选地,在本实施例中,上述设置各个数据计算方法的执行先后顺序可以理解为
对计算流程进行规定即将各层级间的计算方法执行的先后顺序保存下来,便于后续提供相同类型的数据指标所需要的数据时使用。例如,当数据指标为视频a的播放量,则可以将统计视频a播放量模型的数据结构和计算流程进行固化生成数仓模型,之后当需要统计视频b的播放量或视频c的播放量时,即可直接使用上述生成的数仓模型,无需重新构建数仓模型。
60.通过本技术实施例,采用在已确定第一固化结构的情况下,设置目标数据在分层处理过程中所使用的各个数据计算方法,设置各个数据计算方法的执行先后顺序,再将各个数据计算方法以及执行先后顺序确定为第一固化流程的方式,对数据模型的计算方法进行规定,进而实现自动生成数仓模型以及模型的整套计算流程的方法,避免了重复开发同类模型导致开发成本增加的问题,达到了提高数据仓库模型的利用效率的技术效果。
61.作为一种可选的实施例,上述方法还包括:获取需要对目标数据进行统计的第二数据指标,其中,第二数据指标与第一数据指标不同;设置与第二数据指标对应的第二固化结构和第二固化流程,其中,第二固化结构表示对目标数据进行分层处理所采用的结构,第二固化流程表示对目标数据进行分层处理的流程;根据第二固化结构和第二固化流程生成第二数据仓库模板,其中,第二数据仓库模板用于提供统计第二数据指标所需要的数据。
62.可选地,在本实施例中,上述第二数据指标可以包括但不限于为播放量、交易额、点赞量等,需要说明的是,上述第二数据指标和上述第一数据指标不同,则第二数据仓库模板和上述第一数据仓库模板也不相同。
63.需要说明的是,若第一数据指标所需要的数据和第二数据指标所需要的数据只是业务内容不同,则可以使用相同的数据仓库模板统计数这两个数据指标所需要的数据。
64.可选地,在本实施例中,上述第二固化结构可以包括但不限于为对目标数据进行分层处理所采用的结构,其中,第二固化结构可以包括但不限于通过如下方式确定:设置与第二数据指标对应的第二存储规则、第二表结构和第二字段,其中,第二存储规则用于表示分层处理过程中多个层级的存储规则,第二表结构用于表示分层处理过程中多个层级的表名规范,第二字段用于表示计算第二数据指标所需要的关键字段;将第二存储规则、第二表结构和第二字段确定为第二固化结构。
65.可选地,在本实施例中,上述第二固化流程可以包括对计算方法和计算流程进行固化包括:在已确定第二固化结构的情况下,设置目标数据在分层处理过程中所使用的各个数据计算方法;设置各个数据计算方法的执行先后顺序;将各个数据计算方法以及执行先后顺序确定为第二固化流程。
66.可选地,在本实施例中,上述第二数据仓库模板可以包括但不限于用于提供统计类似于第二数据指标的指标所需要的数据。
67.通过本技术实施例,采用获取需要对目标数据进行统计的第二数据指标,然后设置与第二数据指标对应的第二固化结构和第二固化流程,再根据第二固化结构和第二固化流程生成第二数据仓库模板的方式。构建与第二数据指标对应的数据仓库模板,根据不同的数据指标构建不同的数据仓库模板而不是根据业务类型构建不同的数据仓库模板,进而使得不同业务的相同数据指标能够使用相同的数据仓库模板,达到了提高数据仓库模板的利用效率、简化了数据仓库构建方法、降低开发成本的技术效果。
68.显然,上述所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。
69.下面结合具体实施例对本技术进行具体说明:
70.本技术会针对对数仓模型归类(分类,统计一种方式称为一种模型),然后根据归类对各类数仓模型的特征进行固化并生成模版。
71.如图4所示,模型固化主要由对数仓模型的结构固化和计算算法固化构成。
72.1.结构固化(可分为存储规则固化,表结构固化,字段固化)
73.(1)存储规则固化,主要是对数据模型的所归属库的位置固化,首先固定数据模型各层级所在库,如原始数据要落盘的ods层可统一放在一个库中,dwd,dws可根据业务不同的划分放在内部相应的库中,ads则相应对外的业务库中。
74.(2)表结构固化,在数据模型各层级间的位置明确后便是针对表名的规范化,对于ods,以贴源的原则处理以ods+数据源特征的规则来命名,如该数据源是由消费kafka的某个topic所来,便可以ods+topic名,如果由过滤的关键字段区分事件,表名可后缀该关键字段。又如数据源是同步的业务方的mysql数据则统一保持ods+其原始表名。
75.在表名规则得到固化后就是将各类模型的各层的建表结构以模板的形式保存下来,这些模板的内部对数据模型计算所用的关键字段和其他字段做区分处理,方便后期参数指定自动建表。
76.(3)字段固化,主要是针对数据模型计算所用的关键字段,如后面要通过时间维度来分析时,便要对时间的字段名及类型统一,对模型生成字段如统计的分布次数等结果值命名及类型统一,对于其他字段可按实际情况来对命名及字段类型格式统一。
77.各类数据模型的各层在经过上述的结构固化后便可得到对应的数据模型的整套模板,用于提供自动建表。
78.通过对数据模型结构固化不仅仅提供自动建表的模板,也使得数仓模型存储明确规范,结构清晰且方便查询。
79.2、计算算法固化(包括计算固化和流程固化)
80.在完成数仓模型结构固化,具备自动建表的能力后,便需要对模型的各层结构之间数据的计算和流程进行固化。
81.(1)计算固化,对数据模型各层级间的计算方法进行固化,因为数据模型结构已固化为模板,且区分出模型计算的关键字段,那么计算便可在此基础上将原本的计算方法简化为模板,之后便可生成对应的数仓模型的各层级间的数据计算方法。
82.(2)流程固化,对计算流程进行固化即将数仓模型的各层级间计算方法执行的先后顺序保存下来。之后模型计算整套流程便可自动生成。
83.例如,根据本技术,针对对数仓模型分类,根据业务常见可大致的如活跃度,某事件的pv(page view,页面浏览量)、uv(unique visitor,独立访客),某事件的根据某些条件的分布,某事件针对某状态的分析,某事件针对某些情况的首末次分析等。以某事件的pv、uv该类来说,可以将该模型的数据结构和计算流程按上述固化,之后便可自动生成面向不同事件pv、uv的数仓模型。
84.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储
介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
85.在本实施例中还提供了一种数据仓库构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
86.图5是根据本技术实施例的数据仓库构建装置的结构框图,如图5所示,该装置包括:
87.获取模块502,用于获取需要对目标数据进行统计的第一数据指标;
88.处理模块504,用于设置与第一数据指标对应的第一固化结构和第一固化流程,其中,第一固化结构表示对目标数据进行分层处理所采用的结构,第一固化流程表示对目标数据进行分层处理的流程;
89.生成模块506,用于根据第一固化结构和第一固化流程生成第一数据仓库模板,其中,第一数据仓库模板用于提供统计第一数据指标所需要的数据。
90.在一个示例性的实施例中,上述装置还包括:设置与第一数据指标对应的第一存储规则、第一表结构和第一字段,其中,第一存储规则用于表示分层处理过程中多个层级的存储规则,第一表结构用于表示分层处理过程中多个层级的表名规范,第一字段用于表示计算第一数据指标所需要的关键字段;将第一存储规则、第一表结构和第一字段确定为第一固化结构。
91.在一个示例性的实施例中,上述装置还包括:设置目标数据在分层处理过程中多个层级对应的存储库集合,其中,不同层级对应不同的存储库,包括:在多个层级包括原始数据层的情况下,将原始数据层的数据存储在第一存储库,其中,原始数据层用于保留目标数据的初始状态,第一存储库用于对目标数据进行统一存储;在多个层级包括明细数据层和数据服务层的情况下,将明细数据层和数据服务层的数据分别存储在第一组存储库和第二组存储库,第一组存储库中的各个存储库分别对应不同业务类型,第二组存储库中的各个存储库分别对应不同业务类型,明细数据层用于对目标数据进行标准化,数据服务层用于对标准化后的目标数据进行聚合;在多个层级包括数据产品层的情况下,将原始数据层的数据存储在第二存储库,其中,数据产品层用于对目标数据进行进一步聚合,为数据产品和数据分析提供高度聚合的数据,第二存储库表示与外部连接的存储库。
92.在一个示例性的实施例中,上述装置还包括:设置目标数据在分层处理过程中多个层级对应的表名命名规则,其中,每个层级的表名命名规则包括按照每个层级的层级标识与数据源特征标识的组合进行命名;设置目标数据在分层处理过程中所使用的关键字段,其中,关键字段的字段标识和字段类型设置为统一格式。
93.在一个示例性的实施例中,上述装置还包括:在第一数据指标需要基于时间维度对目标数据进行分析的情况下,设置目标数据在分层处理过程中所使用的时间字段标识和时间字段类型,其中,时间字段标识和时间字段类型设置为统一格式。
94.在一个示例性的实施例中,上述装置还包括:在已确定第一固化结构的情况下,设置目标数据在分层处理过程中所使用的各个数据计算方法;设置各个数据计算方法的执行先后顺序;将各个数据计算方法以及执行先后顺序确定为第一固化流程。
95.在一个示例性的实施例中,上述装置还包括:获取需要对目标数据进行统计的第二数据指标,其中,第二数据指标与第一数据指标不同;设置与第二数据指标对应的第二固化结构和第二固化流程,其中,第二固化结构表示对目标数据进行分层处理所采用的结构,第二固化流程表示对目标数据进行分层处理的流程;根据第二固化结构和第二固化流程生成第二数据仓库模板,其中,第二数据仓库模板用于提供统计第二数据指标所需要的数据。
96.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
97.本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
98.在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
99.本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
100.在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
101.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
102.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
103.以上仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种数据仓库构建方法,其特征在于,包括:获取需要对目标数据进行统计的第一数据指标;设置与所述第一数据指标对应的第一固化结构和第一固化流程,其中,所述第一固化结构表示对所述目标数据进行分层处理所采用的结构,所述第一固化流程表示对所述目标数据进行所述分层处理的流程;根据所述第一固化结构和所述第一固化流程生成第一数据仓库模板,其中,所述第一数据仓库模板用于提供统计所述第一数据指标所需要的数据。2.根据权利要求1所述的方法,其特征在于,所述设置与所述第一数据指标对应的第一固化结构,包括:设置与所述第一数据指标对应的第一存储规则、第一表结构和第一字段,其中,所述第一存储规则用于表示所述分层处理过程中多个层级的存储规则,所述第一表结构用于表示所述分层处理过程中多个层级的表名规范,所述第一字段用于表示计算所述第一数据指标所需要的关键字段;将所述第一存储规则、所述第一表结构和所述第一字段确定为所述第一固化结构。3.根据权利要求2所述的方法,其特征在于,所述设置与所述第一数据指标对应的第一存储规则,包括:设置所述目标数据在所述分层处理过程中多个层级对应的存储库集合,其中,不同层级对应不同的存储库,包括:在所述多个层级包括原始数据层的情况下,将所述原始数据层的数据存储在第一存储库,其中,所述原始数据层用于保留所述目标数据的初始状态,所述第一存储库用于对所述目标数据进行统一存储;在所述多个层级包括明细数据层和数据服务层的情况下,将所述明细数据层和所述数据服务层的数据分别存储在第一组存储库和第二组存储库,所述第一组存储库中的各个存储库分别对应不同业务类型,所述第二组存储库中的各个存储库分别对应不同业务类型,所述明细数据层用于对所述目标数据进行标准化,所述数据服务层用于对标准化后的所述目标数据进行聚合;在所述多个层级包括数据产品层的情况下,将所述原始数据层的数据存储在第二存储库,其中,所述数据产品层用于对所述目标数据进行进一步聚合,为数据产品和数据分析提供高度聚合的数据,所述第二存储库表示与外部连接的存储库。4.根据权利要求2所述的方法,其特征在于,所述设置与所述第一数据指标对应的第一表结构和第一字段,包括:设置所述目标数据在所述分层处理过程中多个层级对应的表名命名规则,其中,每个层级的表名命名规则包括按照每个层级的层级标识与数据源特征标识的组合进行命名;设置所述目标数据在所述分层处理过程中所使用的关键字段,其中,所述关键字段的字段标识和字段类型设置为统一格式。5.根据权利要求4所述的方法,其特征在于,所述设置所述目标数据在所述分层处理过程中所使用的关键字段,包括:在所述第一数据指标需要基于时间维度对所述目标数据进行分析的情况下,设置所述目标数据在所述分层处理过程中所使用的时间字段标识和时间字段类型,其中,所述时间
字段标识和时间字段类型设置为统一格式。6.根据权利要求1所述的方法,其特征在于,所述设置与所述第一数据指标对应的第一固化流程,包括:在已确定所述第一固化结构的情况下,设置所述目标数据在所述分层处理过程中所使用的各个数据计算方法;设置所述各个数据计算方法的执行先后顺序;将所述各个数据计算方法以及所述执行先后顺序确定为所述第一固化流程。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:获取需要对所述目标数据进行统计的第二数据指标,其中,所述第二数据指标与所述第一数据指标不同;设置与所述第二数据指标对应的第二固化结构和第二固化流程,其中,所述第二固化结构表示对所述目标数据进行分层处理所采用的结构,所述第二固化流程表示对所述目标数据进行所述分层处理的流程;根据所述第二固化结构和所述第二固化流程生成第二数据仓库模板,其中,所述第二数据仓库模板用于提供统计所述第二数据指标所需要的数据。8.一种数据仓库构建装置,其特征在于,包括:获取模块,用于获取需要对目标数据进行统计的第一数据指标;处理模块,用于设置与所述第一数据指标对应的第一固化结构和第一固化流程,其中,所述第一固化结构表示对所述目标数据进行分层处理所采用的结构,所述第一固化流程表示对所述目标数据进行所述分层处理的流程;生成模块,用于根据所述第一固化结构和所述第一固化流程生成第一数据仓库模板,其中,所述第一数据仓库模板用于提供统计所述第一数据指标所需要的数据。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。10.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。

技术总结
本申请实施例提供了一种数据仓库构建方法、装置、存储介质及电子装置,该方法包括:获取需要对目标数据进行统计的第一数据指标,然后设置与第一数据指标对应的第一固化结构和第一固化流程,其中,所述第一固化结构表示对所述目标数据进行分层处理所采用的结构,所述第一固化流程表示对所述目标数据进行所述分层处理的流程,再根据第一固化结构和第一固化流程生成第一数据仓库模板,其中,第一数据仓库模板用于提供统计第一数据指标所需要的数据。通过本申请,能够解决相关技术中存在的数据仓库模型利用效率较低的问题。据仓库模型利用效率较低的问题。据仓库模型利用效率较低的问题。


技术研发人员:常永葳 翟双双
受保护的技术使用者:杭州华橙软件技术有限公司
技术研发日:2023.04.12
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐