面向低代码开发平台的工业数据处理方法、装置及设备与流程
未命名
07-22
阅读:89
评论:0
1.本发明涉及工业数据处理技术领域,特别是面向低代码开发平台的工业数据处理方法、装置及设备。
背景技术:
2.传统工业数据应用软件开发模式是由工业企业业务部门提出业务需求,再由企业it部门或第三方软件技术服务商进行定向、定制开发,来匹配复杂应用场景,随着工业互联网和工业数字化转型的兴起和发展,随着软件开发技术水平的不断发展,涌现出了面向工业数据应用的低代码开发环境和平台;
3.但是在具体的应用时,工业的业务人员和数据分析师在使用面向工业数据应用的低代码开发环境和平台时,仍然存在较大障碍:
4.1)工业业务人员在使用低代码开发环境和平台进行应用软件孵化时具有间歇性的特点,即密集使用几次后可能会间隔几周甚至数月后再使用,不是持续使用,因此,每次使用时都要重新熟悉系统功能、了解数据模型各元素的含义、了解数据模型的当前状况、了解数据内容的变化情况等,这样导致了应用开发的(再)启动时间很长,非常不利于高效的创新应用开发与孵化;
5.2)对开发环境的功能以及数据相关状况等缺乏了解的情况,严重阻碍了低代码开发环境和平台的普及和认可程度,未能达到低代码开发环境和平台的最初愿景,尚未能实现工业业务创新的高速发展。
技术实现要素:
6.本发明要解决的技术问题是提供面向低代码开发平台的工业数据处理方法、装置及设备,解决了应用开发的再启动时间较长的问题。
7.为解决上述技术问题,本发明的技术方案如下:
8.面向低代码开发平台的工业数据处理方法,包括:
9.获取工业数据加工关系图和关联关系初始集;
10.根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;
11.基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;
12.根据所述关联关系完整集,生成数据推荐方案。
13.可选的,获取工业数据加工关系图,包括:
14.获取领域数据模型的物理实现库和数据加工过程信息;所述物理实现库包括工业数据表、关键字段以及工业数据表间关系中的至少一个;所述数据加工过程信息包括数据加工任务集合、运行情况以及统计信息中的至少一项;
15.根据所述领域数据模型的物理实现库和所述数据加工任务集合,生成初始数据加工关系图;
16.基于所述运行情况和统计信息对所述初始数据加工关系图进行更新,得到数据加工关系图。
17.可选的,获取关联关系初始集,包括:
18.获取用户信息、业务信息以及日志信息;所述日志信息包括组件主题、展示组件类型、组件配置信息、时间中的至少一项;
19.根据所述用户信息、业务信息以及日志信息,确定初始三元组;所述初始三元组包括业务分类词、展示组件类型以及数据模型元素结构集合;
20.计算所述初始三元组对应的时间衰减化支持系数;
21.根据所述初始三元组和所述时间衰减化支持系数,生成关联关系初始集。
22.可选的,根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值,包括:
23.根据所述关联关系初始集,确定所述工业数据加工关系图中与所述初始三元组对应的至少一个图顶点;
24.按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值。
25.可选的,按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值,包括:
26.通过公式,计算得到每个图顶点对应的权重系数值;
27.其中,为图顶点,m为所述数据模型元素结构集合中的元组,为图顶点对应的权重系数值,为逆向邻居顶点集合,为上一轮迭代得到的权重系数值,是在所述工业数据加工关系图中图顶点到图顶点的数据流量系数值。
28.可选的,基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集,包括:
29.根据预设属性列间的兼容关系,确定第一中间三元组项;
30.将所述第一中间三元组项进行分组聚合处理,得到第二中间三元组项;
31.按照所述第二中间三元组项和所述权重系数值,确定每个所述第二中间三元组项对应的目标权重系数值;
32.根据所述第二中间三元组项和所述目标权重系数值,生成关联关系完整集。
33.可选的,根据所述关联关系完整集,生成数据推荐方案,包括:
34.基于所述关联关系完整集,根据所述用户信息,生成第一数据推荐方案;
35.或者,根据所述用户信息,生成推荐业务分组,并在每个所述推荐业务分组下提供第二数据推荐方案;
36.或者,根据用户输入的业务词汇信息,生成第三数据推荐方案。
37.本发明还提供面向低代码开发平台的工业数据处理装置,包括:
38.获取模块,用于获取工业数据加工关系图和关联关系初始集;
39.处理模块,用于根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案。
40.本发明提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。
41.本发明还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上述的方法。
42.本发明的上述方案至少包括以下有益效果:
43.本发明的上述方案,通过获取工业数据加工关系图和关联关系初始集;根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案;解决了应用开发的再启动时间较长的问题,能够帮助用户快速地选择潜在适合的数据应用组件和数据内容,提升了数据应用孵化准确度、召回度以及开发效率。
附图说明
44.图1是本发明实施例的面向低代码开发平台的工业数据处理方法的流程示意图;
45.图2是本发明提供的具体的实施例中面向低代码开发平台的工业数据处理方法的流程示意图;
46.图3是本发明提供的具体的实施例中面向低代码开发平台的工业数据处理系统的结构示意图;
47.图4是本发明实施例的面向低代码开发平台的工业数据处理装置的结构示意图。
具体实施方式
48.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
49.本技术所涉及的工业数据的处理方法优选面向于低代码开发平台(如工业数据的数据应用开发平台),但不限于此,工业数据应用是利用it(internet technology,互联网技术)与软件技术,所开发出来的面向工业企业具体业务场景的应用服务和应用软件;工业数据的数据应用开发平台可解决工业企业的业务问题。该数据应用开发平台优选通过低代码开发技术和平台进行配置开发,即利用近似于搭积木的方式,快速地构建企业专属应用面向业务人员、数据分析师等用户进行数据应用的开发和孵化,可以充分释放业务人员的业务创新灵感,缩短传统的从需求到设计再到开发的软件孵化链路,降低信息在层层传递过程中的损失,并创造更多业务创新的可能性;
50.为了在面向工业数据应用开发过程中帮助用户快速地选择潜在适合的数据应用组件和数据内容,如图1所示,本发明的实施例提出一种面向低代码开发平台的工业数据处理方法,包括:
51.步骤11,获取工业数据加工关系图和关联关系初始集;
52.步骤12,根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;
53.步骤13,基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;
54.步骤14,根据所述关联关系完整集,生成数据推荐方案。
55.应用所提供的技术手段,通过关联关系初始集对工业数据加工关系图中各个图顶点的权重系数值进行更新,得到关联关系完整集,生成数据推荐方案,按照数据推荐方案对用户在面向工业数据应用开发过程中进行数据推荐,有效地解决应用开发的再启动时间较长的问题,能够帮助用户快速地选择潜在适合的数据应用组件和数据内容,提升了数据应用孵化准确度、召回度以及开发效率。
56.值得说明的是,工业数据加工关系图所涉及的工业数据加工的处理过程包括汇聚、关联集成、预处理、概要统计处理、特征生成、分析模型计算、面向应用读取访问的数据处理和生成等;经过工业数据加工后得到的业务洞察(业务数据)可被用于用户查看浏览和支持决策等。工业数据加工的处理过程是以持续接入的数据为输入而持续不断进行的,可以保证在线的数据应用服务的有效性。
57.本发明一可选的实施例中,步骤11中,获取工业数据加工关系图,包括:
58.步骤11a1,获取领域数据模型的物理实现库和数据加工过程信息;所述物理实现库包括工业数据表、关键字段以及工业数据表间关系中的至少一个;所述数据加工过程信息包括数据加工任务集合、运行情况以及统计信息中的至少一项;
59.步骤11a2,根据所述领域数据模型的物理实现库和所述数据加工任务集合,生成初始数据加工关系图;
60.步骤11a3,基于所述运行情况和统计信息对所述初始数据加工关系图进行更新,得到数据加工关系图。
61.本实施例中,获取领域数据模型的物理实现库,并读取该物理实现库所对应的模型模式,以实现与领域数据模型所在的数据系统的连接与适配,该模型模式包括数据表、字段、主键、外键关联以及索引中的至少一项;其中,物理实现库可以是工业多模态数据系统,也可以是关系数据库系统,还可以是数据仓库系统或数据湖系统等,本技术不以此为限制;在一种优选的实现实例中,物理实现库包括以下至少一种:典型关系数据库、数据仓库teradata等、大数据生态hive(数据仓库工具)、数据湖iceberg、hudi等。
62.基于该模型模式,对领域数据模型进行分析,得到模型元素信息,该模型元素信息包括:模型元素集和各元素之间的关联关系,该关联关系优选为语法级的关联关系;在一个优选的实现实例中,领域数据模型的分析范围为数据表、视图、字段、索引以及主键中的至少一个,分析得到的模型元素信息可以是表的集合、视图的集合、表上字段的集合、视图上字段的集合、索引信息中的至少一个。进一步的,根据模型元素信息可以构建得到关于模型元素的依赖关系图,该依赖关系图的顶点为模型元素信息;
63.数据加工过程信息包括数据加工任务集合;其中,数据加工任务集合是关于多个数据加工任务的相关信息的集合,可以通过适配与定期读取得到;数据加工任务的相关信息包括数据输入信息(即数据源)、输出信息(即数据目的地)以及任务的定时运行周期等;数据加工任务的相关信息来源可以是数据处理与加工任务管理系统(如服务集成接口),也可以是数据分析任务管理系统,还可以是大数据平台元数据系统、数据血缘分析子系统、数
据影响分析子系统等,本技术不以此为限制。
64.以领域数据模型的物理实现库的分析结果(即上述数据表、视图、字段、索引以及主键等)作为校验基础,以依赖关系图中的顶点集作为锚点(顶点)集,以数据加工任务集合中的每个数据加工任务作为边,生成初始数据加工关系图,该初始数据加工关系图将表和属性名构成的集合(集合的元素为:“表”.“属性列名”)作为标识信息的顶点(该表和属性列名均根据领域数据模型的物理实现库的分析结果进行校验),将数据加工任务的数据输入和输出方向作为有向边,该初始数据加工关系图中的各顶点可以是不连通的,初始数据加工关系图中的各个边上均可附着标签信息,该标签信息包括数据加工任务的运行时间信息(如定时运行周期)。
65.数据加工过程信息还包括运行情况和统计信息,其中,数据加工任务的运行情况可以通过以下过程得到:适配并定期读取数据加工任务的运行日志和作业系统(即动态运行信息);
66.解析读取的数据加工任务的动态的运行日志,该运行日志包括数据加工任务作业的数据加工量、加工时长以及加工速率(吞吐量);
67.其中,数据加工任务作业的动态运行信息的来源可以是数据处理与加工任务执行系统(即服务集成接口),也可以是数据分析任务执行系统,还可以是系统运行日志集中管理系统,本技术不以此为限制;
68.数据加工过程信息中的统计信息通过定期适配与读取得到,统计信息具体可以包括表中的数据量,统计信息的来源可以是数据存储管理系统,也可以是数据存储引擎,本技术不以此为限制。
69.进一步的,还可以对统计信息进行读写统计分析,得到读写统计分析结果,具体的,该得到该读写统计分析结果的过程包括:基于领域数据模型的模型元素信息,以统计信息作为输入,适配并定期读取数据读写运行日志;数据读写运行日志包括表的读写信息,该数据读写运行日志的来源可以是数据读写处理执行系统(即服务集成接口),也可以是数据查询执行系统,还可以是系统运行日志集中管理系统,本技术不以此为限制;
70.根据数据读写运行日志,计算得到领域数据模型的模型元素信息中的读写统计分析结果;其中,该读写统计分析结果包括各表的数据量、表数据信息(如表的数据增量等)、各表的访问频次、表数据访问统计、表访问关联以及属性列访问关联等。
71.基于上述运行情况和统计信息对初始数据加工关系图进行更新,具体的,在初始数据加工关系图的边上附着对应任务作业的最近时期的数据加工量(边的源顶点的读取数据量,边的目标顶点的写入数据量)、加工时长以及加工速率(即吞吐量)等动态运行信息(即运行情况),得到数据加工关系图。
72.值得说明的是,上述数据加工任务是通过选取最近时间段内的有效的数据加工任务得到的,其中,最近时间段可以是最近半年、最近一年等,有效的数据加工任务指的是在最近时间段内状态为非禁用状态的数据加工任务,或者至少存在一次历史运行状态的数据加工任务。
73.一个具体的实施例中,获取领域数据模型的物理实现库和数据加工过程信息(包括数据加工任务集合、运行情况以及统计信息中的至少一项);根据领域数据模型的物理实现库和数据加工任务集合,生成初始数据加工关系图,初始数据加工关系图由表和属性名
构成,其顶点对应的标识信息为:;即“表”.“属性列名”组成的集合;各顶点之间通过有向边相连,边上标识了(源顶点的数据量与数据增量、目标顶点的数据量与数据增量、数据处理量、任务定时频率等信息);获取运行情况和统计信息,对初始数据加工关系图进行更新,得到数据加工关系图。
74.本发明一可选的实施例中,步骤11中,获取关联关系初始集,包括:
75.步骤11b1,获取用户信息、业务信息以及日志信息;所述日志信息包括组件主题、展示组件类型、组件配置信息、时间中的至少一项;
76.步骤11b2,根据所述用户信息、业务信息以及日志信息,确定初始三元组;所述初始三元组包括业务分类词、展示组件类型以及数据模型元素结构集合;
77.步骤11b3,计算所述初始三元组对应的时间衰减化支持系数;
78.步骤11b4,根据所述初始三元组和所述时间衰减化支持系数,生成关联关系初始集。
79.本发明的实施例中,获取用户信息、业务信息以及日志信息;其中,用户信息指的是用户和/或用户组部门信息,这里的用户组部门信息指的是由预设数量个用户构成的部门所对应的全部用户信息的集合,业务信息指的是业务词汇领域分类,日志信息指的是用户选择数据和展示组件的日志与配置信息,该日志信息包括组件主题、展示组件类型、组件配置信息、时间中的至少一项;
80.本发明一可选的实施例中,步骤11b2包括:
81.步骤11b21,将所述日志信息中的组件主题进行分词、词性标注以及主题词提取处理,得到主题词;
82.步骤11b22,根据业务信息和所述主题词,得到主题业务分类词;
83.步骤11b23,将所述日志信息中的组件配置信息进行处理,得到数据模型元素结构集合;该数据模型元素结构集合为三元组集合。
84.其中,中的每个元组为表达式轴变量元组,和通过以下方式得到:(1)对于直接选择数据的展示组件类型,从日志信息中的组件配置信息中直接得出,每个表达式典型的具体形式为:;(2)对于输入语句来选择数据的展示组件类型,通过sql(structured query language,结构化查询语言数据库)解析与组件配置信息联合得出,每个表达式典型的具体形式为,连同sql语句,其中,expr表示一个表达式。
85.本发明一可选的实施例中,步骤11b3包括:
86.对每个初始三元组τ,计算所述初始三元组对应的时间衰减化支持系数,其中,为τ在(数据选择与展示)日志与配置信息中出现的次数与时间衰减值为自变量的一个单调函数。
87.一个优选的实现实例中,时间衰减化支持系数为:
88.;
89.其中,λ为衰减速率,为当前时间,为τ在日志中的时间。
90.根据所述初始三元组和时间衰减化支持系数,生成关联关系初始集,该关联关系初始集的元素构成为:
91.形式的三元组(称为“关联三元组”),可记为,其中,g为业务分类词,v为展示组件类型,m为数据模型元素结构集合,每个三元组τ对应一个时间衰减化支持系数。
92.又一具体的实施例中,确定关于良率的关联关系初始集具体包括:
93.s1,获取用户信息、业务信息以及日志信息;其中,用户信息指的是用户和/或用户组部门信息,业务信息指的是业务词汇领域分类,日志信息指的是用户选择数据和展示组件的日志与配置信息,该日志信息包括组件主题、展示组件类型、组件配置信息、时间中的至少一项;
94.s2,将日志信息中的组件主题进行分词、词性标注以及主题词提取处理,得到主题词,并根据业务信息和该主题词,得到主题业务分类词;
95.s3,将日志信息中的组件配置信息进行处理,得到数据模型元素结构集合;该数据模型元素结构集合为三元组集合;
96.其中,中的每个元组为表达式轴变量元组,和通过以下方式得到:(1)对于直接选择数据的展示组件类型,可以从组件配置信息中直接得出表达式,每个表达式的具体形式是:。如:以的三元组为集合元素的数据模型元素结构;(2)对于输入sql语句选择数据的展示组件类型,可通过sql解析与组件配置信息联合得出,每个表达式的具体形式是:,连同sql语句。其中,expr表示表达式。如:以三元组为集合元素的数据模型元素结构。
97.s4,对每个初始三元组τ,计算初始三元组对应的时间衰减化支持系数,其中,为τ在(数据选择与展示)日志与配置信息中出现的次数与时间衰减值为自变量的一个单调函数;
98.以为例,对于,则时间衰减化支持系数:
99.;
100.s5,根据初始三元组和时间衰减化支持系数,生成关联关系初始集,该关联关系初始集的元素构成为:
101.;;
102.上述4.5为初始三元组的时间衰减化支持系数,3.8为初始三元组的时间衰减化支持系数。
103.本发明一可选的实施例中,步骤12包括:
104.步骤121,根据所述关联关系初始集,确定所述工业数据加工关系图中与所述初始三元组对应的至少一个图顶点;
105.步骤122,按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值。
106.本实施例中,以工业数据加工关系图为结构,对于关联关系初始集中的每个初始三元组中的每个表达式轴变量元组,计算工业数据加工关系图的图顶点上的权重系数值,具体的:
107.对于当前关联知识集中的每个三元组与其对应系数,其中,初始三元组为:
108.;μ中的每个元组m为表达式轴变量元组,因此,每个初始三元组形成了一个在表达式轴变量元组粒度上的集合,该集合内的所有元素共同对应于时间衰减化支持系数;
109.对于每个表达式轴变量元组为:
110.;
111.其中,和构成了m的属性列的集合;
112.从工业数据加工关系图g中确定所有的图顶点的集合为:,图顶点的集合可以被记作;其中,满足图顶点v标识的列集是相同表的列。
113.定义预设属性间的兼容关系,对于两个在不同表中的属性列,确定其兼容关系,以表明两个属性列的兼容性;
114.该兼容关系由以下条件形成:
115.1)存在一个数据加工任务,其输入包含其中一个属性列,输出包含另一个属性列;
116.2)满足名称上的近似性;
117.一个优选的实现实例中,名称的近似性可以通过如下方法获得:
118.方法一:两个属性列名称相同、类型相同;
119.方法二:两个属性列名称在不同命名规则下的等同、类型相同;例如,在驼峰(camelcase)、蛇形(snakecase)、串行(kebabcase)命名规则下的名称等同;
120.方法三:基于领域同义词表的名称等同、类型相同。
121.进一步的,对于图顶点的集合中的每个图顶点,确定图顶点的正向邻居顶点集合为:;其中,满足正向邻居顶点v标识的列集不要求是相同表的列。
122.本发明一可选的实施例中,步骤122包括:
123.步骤1221,通过公式,计算得到每个图顶点对应的权重系数值;
124.其中,为图顶点,m为所述数据模型元素结构集合中的元组,为图顶点对应的权重系数值,为逆向邻居顶点集合,为上一轮迭代得到的权重系数值,是在所述工业数据加工关系图中图顶点到图顶点的数据流量系数值。
125.本实施例中,工业数据加工关系图g上每个图顶点μ相对于m的权重系数值为:;
126.其中,图顶点μ的逆向邻居顶点集合为:
127.;
128.是上一轮迭代时的权重系数值,对于上一轮迭代时的权重系数值,如果图顶点,则其初始值为,否则,其初始值为0;
129.是在工业数据加工关系图g上所构建的从v
′′
到μ边的数据加工任务的数据流量系数值;
130.在一个可实现的实例中,等于数据增量与v
′′
中数据量的比值;可以以迭代方式来应用上述权重系数值的公式进行求值;
131.在又一个可实现的实例中,可以以迭代方式按照拓扑排序来使用上述权重系数值的公式求值,其中,拓扑排序时以中图顶点优先去掉入边以及选取出边权重值更大的,以使得在工业数据加工关系图g上以忽略边的方式求值。
132.本发明一可选的实施例中,步骤13包括:
133.步骤131,根据预设属性列间的兼容关系,确定第一中间三元组项;
134.步骤132,将所述第一中间三元组项进行分组聚合处理,得到第二中间三元组项;
135.步骤133,按照所述第二中间三元组项和所述权重系数值,确定每个所述第二中间三元组项对应的目标权重系数值;
136.步骤134,根据所述第二中间三元组项和所述目标权重系数值,生成关联关系完整集。
137.本实施例中,根据图顶点上的对应每个表达式轴变量元组的权重系数值,迭代构建关联知识三元组(第二中间三元组项),以输出关联关系完整集,具体的:
138.根据步骤12中的工业数据加工关系图g上每个顶点μ相对于表达式轴变量元组m的权重系数值,得出第一中间三元组项为,其对应的权重系数值为,其中,是顶点μ上的与m具有在预设属性列间的兼容关系下的列集;
139.将上述所得的全部第一中间三元组项按照进行分组聚合,即合并相同的中间项,得到第二中间三元组项;第二中间三元组项所对应的目标权重系数值是相关值的累加和,即目标权重系数值为,根据第二中间三元组项和目标权重系数值,生成关联关系完整集。
140.得到的关联关系完整集的元素构成为:形式的三元组,记为;每个三元组对应一个权重系数值。
141.本发明一可选的实施例中,步骤14包括:
142.步骤14a,基于所述关联关系完整集,根据所述用户信息,生成第一数据推荐方案;
143.或者,步骤14b,根据所述用户信息,生成推荐业务分组,并在每个所述推荐业务分组下提供第二数据推荐方案;
144.或者,步骤14c,根据用户输入的业务词汇信息,生成第三数据推荐方案。
145.本发明一可选的实施例中,基于关联关系完整集,可以生成不同的数据推荐方案,不同的数据推荐方案适用于不同的应用场景;
146.其中,步骤14a中的第一数据推荐方案优选为数据选取以及数据展示方式的推荐建议,具体包括:
147.步骤14a1,按照用户组与部门分组(用户信息)构建关联知识集;具体的,根据用户信息与用户组部门之间的关系(通过用户信息得到),将用户划分为不同的部门域;以部门域作为分组,在组内进行关联知识集构建;对关联知识集中元素按照权重系数值ω进行倒序排列(或可以快速求值最大的k项);
148.步骤14a2,在线生成数据选取以及数据展示方式的推荐建议(即第一数据推荐方案);具体的,识别当前用户以及其所在用户组与部门信息(即用户信息),基于所在用户组与部门对应的关联知识集,计算权重系数值ω的最大的k项的目标三元组,并按倒序输出这些三元组;将每一项目标三元组转换为特定展示组件以及对应数据选取参数,作为用户的第一数据推荐方案。
149.其中,步骤14b中的第二数据推荐方案优选为业务分组推荐以及在每个分组下推荐数据选取和数据展示方式的推荐建议,具体包括:
150.步骤14b1,按照用户组与部门分组(用户信息)构建关联知识集;具体的,根据用户信息与用户组部门之间的关系(通过用户信息得到),将用户划分为不同的部门域;以部门域作为第一级分组,在组内进行关联知识集构建;对关联知识集中元素按照业务分类词进行第二级分组,以使得相同业务分类词的为一组;
151.步骤14b2,在线生成业务分组推荐以及业务分组下的数据选取以及数据展示方式的推荐建议(即第二数据推荐方案);具体的,识别当前用户及其所在用户组与部门信息(即用户信息);基于所在用户组与部门的关联知识集,计算二级分组权重最大的l项,作为为用户推荐的分组建议(即选定目标业务分组);当用户确定了目标业务分组之后,计算所在的目标业务分组内的权重系数值ω最大的k项的目标三元组,并按倒序输出这些目标三元组;将目标三元组转换为特定展示组件以及对应数据选取参数,作为用户的第二数据推荐方案。
152.其中,步骤14c中的第三数据推荐方案优选为数据选取以及数据展示方式的推荐建议,具体包括:
153.步骤14c1,构建关联知识集和高效索引;具体的,存储构建的关联知识集;基于业务分类词,创建高效索引,并对其中元素按照权重系数值ω倒序快速查询(或可以快速求值最大的k项);
154.步骤14c2,根据用户输入的业务词汇信息,在线生成数据选取以及数据展示方式的推荐建议(即第三数据推荐方案);具体的,识别用户输入的业务词汇信息;按照输入的业务词汇信息,对关联知识集中的业务分类词字段进行高效检索(具体的,可以基于同义词表等辅助手段进行搜索词扩充),并查询得出权重系数值ω最大的k项的目标三元组,并按倒序输出这些目标三元组;将每一项目标三元组转换为特定展示组件以及对应数据选取参数,作为用户的第三数据推荐方案。
155.如图2所示,一个具体的实施例中,面向低代码开发平台的工业数据处理方法包括:
156.步骤21,获取领域数据模型的物理实现库,并读取该物理实现库所对应的模型模式,以实现与领域数据模型所在的数据系统的连接与适配;其中,该物理实现库包括工业数据表、关键字段以及工业数据表间关系中的至少一个;
157.步骤22,基于模型模式,对领域数据模型进行分析(即识别),得到模型元素信息,该模型元素信息包括:模型元素集和各元素之间的关联关系,分析识别后得到的领域数据模型包括表、视图、字段、索引、关联等;
158.步骤23,从数据处理与分析任务集合(包括任务集合和任务的输入输出等)中读取并收集数据加工任务集合,数据加工任务集合是关于多个数据加工任务的相关信息的集合;
159.步骤24,基于领域模型元素(即模型元素信息)对数据加工任务和属性列级的加工链路进行分析,得到初始数据加工关系图,具体的,以领域数据模型的物理实现库的分析结果作为校验基础,以依赖关系图中的顶点集作为顶点集,以数据加工任务集合中的每个数据加工任务作为边,生成初始数据加工关系图(即基于领域模型元素的数据加工链路关系图);
160.步骤25,从数据处理与分析任务运行日志中读取并收集数据加工任务作业的运行情况,该数据加工任务作业的历史运行情况包括成功情况等;
161.步骤26,从数据存储中收集数据存储的统计信息;
162.步骤27,对统计信息进行数据读写统计分析,得到读写统计分析结果;其中,模型元素信息相关的运行信息包括表中数据量、数据增量、表访问频次、表数据访问统计、表访
问关联、属性列访问关联等;
163.步骤28,基于运行情况和统计信息对初始数据加工关系图进行数据加工链路运行情况分析,得到更新后的数据加工关系图;其中,蕴含运行情况的数据加工链路关系图包括加工链路上的数据加工量、加工时长以及速率等;
164.步骤29,收集用户与用户分组/部门信息(即用户信息);
165.步骤210,收集业务词汇并按领域分类(即业务信息);
166.步骤211,从用户选择数据与展示组件的日志(即用户信息)中,收集数据选择与展示组件及业务域信息;
167.步骤212,根据步骤29至211的信息,生成时间敏感的数据模型、展示组件以及业务域的关联关系初始集;即根据业务信息,并结合用户信息,形成与业务信息相关的关联关系初始集;
168.步骤213,基于工业数据加工关系图和权重系数值,构建关联关系完整集,即将业务分类和数据选择展示方式沿工业数据加工关系图进行传播,扩展业务分类和数据模型元素以及数据展示方式关系项(即迭代更新第二中间三元组项),形成关联关系完整集;
169.步骤214a,基于关联关系完整集,根据用户信息,生成第一数据推荐方案;
170.步骤214b,根据用户信息,生成推荐业务分组,并在每个推荐业务分组下提供第二数据推荐方案;
171.步骤214c,根据用户输入的业务词汇信息,生成第三数据推荐方案。
172.如图3所示,一个具体的实施例中,面向低代码开发平台的工业数据处理系统包括:
173.底层数据存储与处理平台;其中,底层数据存储与处理平台包括领域数据模型、数据处理与加工任务信息、数据加工任务历史运行日志以及数据请求统计日志等;
174.业务词汇领域信息模块;
175.底层数据存储与处理平台和业务词汇领域信息模块均用于为面向低代码开发平台的工业数据处理方法提供相关信息,底层数据存储与处理平台可以提供领域数据模型和日志信息,业务词汇领域信息模块可以提供业务信息。
176.面向模型元素的分析器;领域数据模型连接器;其中,面向模型元素的分析器通过领域数据模型连接器实现从底层数据存储与处理平台中读取该物理实现库所对应的模型模式,以实现与领域数据模型所在的数据系统的连接与适配;其中,该物理实现库包括工业数据表、关键字段以及工业数据表间关系中的至少一个;
177.基于领域数据模型元素校验的数据加工链路分析和生成器;数据加工任务信息收集器;其中,数据加工链路分析和生成器通过数据加工任务信息收集器读取并收集数据加工任务集合;
178.数据加工链路运行情况分析、数据读写与数据统计分析器;数据加工作业的历史运行情况收集器;数据读写与数据统计信息收集器;其中,数据加工链路运行情况分析、数据读写与数据统计分析器通过数据加工作业的历史运行情况收集器和数据读写与数据统计信息收集器,分别读取并收集数据加工任务作业的运行情况,收集数据存储的统计信息;并进一步对统计信息进行数据读写统计分析,得到读写统计分析结果。
179.业务词汇分类信息收集器;
180.工业数据应用与低代码开发环境,该工业数据应用与低代码开发环境用于提供用户信息以及用户选择数据与展示组件日志与配置信息等;
181.用户与分组等信息收集器;
182.数据选择与展示历史运行与配置收集器;
183.其中,数据选择与展示历史运行与配置收集器通过业务词汇分类信息收集器采集业务词汇领域信息中的业务信息,还可以通过用户与分组等信息收集器采集工业数据应用与低代码开发环境下的用户信息;
184.面向数据选择与展示的初始知识集构建器;该面向数据选择与展示的初始知识集构建器用于构建关联关系初始集;
185.基于数据加工信息的面向数据选择与展示的知识集扩展构建器;该知识集扩展构建器用于根据关联关系初始集,确定工业数据加工关系图中各个图顶点的权重系数值;基于工业数据加工关系图和权重系数值,构建关联关系完整集;
186.数据选取与展示方式推荐建议的生成器;该生成器用于生成数据推荐方案。
187.通过该面向低代码开发平台的工业数据处理系统可以利用用户选择和展示数据的历史经验,根据业务词汇领域分类,并结合用户与用户组部门之间的关系,形成业务分类与数据选择和展示的关联关系,并考虑关联关系随时间变迁情况,形成数据选择与展示的初始关联知识集;利用在数据加工任务之间形成的模型元素依赖、数据存取操作中反映的模型元素关联依赖、以及数据量、数据增量和对模型元素的操作频次(随时间变迁)等信息,形成基于数据加工的加工链路关系图;基于数据的加工与合成关系,将业务分类和数据选择展示方式沿关系图进行传播,形成业务分类和数据模型元素以及数据展示方式的扩展关联,进一步扩展构建关联知识集;根据用户及其输入的业务词汇信息,生成数据选取以及数据展示方式的推荐建议;根据用户及所在分组部门等信息,生成最近比较热门的数据选取与展示方式的推荐建议;
188.充分地根据用户的信息、用户在数据应用开发过程中的上下文动作、数据加工情况,对候选的数据表、属性列以及对相关数据模型之上的展示组件与参数值进行推荐,帮助用户快速选择潜在适合的数据应用组件和数据内容,提升数据应用孵化准确度、召回度以及开发效率。
189.本发明的实施例通过获取工业数据加工关系图和关联关系初始集;根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案,从而解决了应用开发的再启动时间较长的问题,能够帮助用户快速地选择潜在适合的数据应用组件和数据内容,提升了数据应用孵化准确度、召回度以及开发效率。
190.如图4所示,本发明的实施例还提供一种面向低代码开发平台的工业数据处理装置40,包括:
191.获取模块41,用于获取工业数据加工关系图和关联关系初始集;
192.处理模块42,用于根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案。
193.可选的,获取工业数据加工关系图,包括:
194.获取领域数据模型的物理实现库和数据加工过程信息;所述物理实现库包括工业数据表、关键字段以及工业数据表间关系中的至少一个;所述数据加工过程信息包括数据加工任务集合、运行情况以及统计信息中的至少一项;
195.根据所述领域数据模型的物理实现库和所述数据加工任务集合,生成初始数据加工关系图;
196.基于所述运行情况和统计信息对所述初始数据加工关系图进行更新,得到数据加工关系图。
197.可选的,获取关联关系初始集,包括:
198.获取用户信息、业务信息以及日志信息;所述日志信息包括组件主题、展示组件类型、组件配置信息、时间中的至少一项;
199.根据所述用户信息、业务信息以及日志信息,确定初始三元组;所述初始三元组包括业务分类词、展示组件类型以及数据模型元素结构集合;
200.计算所述初始三元组对应的时间衰减化支持系数;
201.根据所述初始三元组和所述时间衰减化支持系数,生成关联关系初始集。
202.可选的,根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值,包括:
203.根据所述关联关系初始集,确定所述工业数据加工关系图中与所述初始三元组对应的至少一个图顶点;
204.按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值。
205.可选的,按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值,包括:
206.通过公式,计算得到每个图顶点对应的权重系数值;
207.其中,为图顶点,m为所述数据模型元素结构集合中的元组,为图顶点对应的权重系数值,为逆向邻居顶点集合,为上一轮迭代得到的权重系数值,是在所述工业数据加工关系图中图顶点到图顶点的数据流量系数值。
208.可选的,基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集,包括:
209.根据预设属性列间的兼容关系,确定第一中间三元组项;
210.将所述第一中间三元组项进行分组聚合处理,得到第二中间三元组项;
211.按照所述第二中间三元组项和所述权重系数值,确定每个所述第二中间三元组项对应的目标权重系数值;
212.根据所述第二中间三元组项和所述目标权重系数值,生成关联关系完整集。
213.可选的,根据所述关联关系完整集,生成数据推荐方案,包括:
214.基于所述关联关系完整集,根据所述用户信息,生成第一数据推荐方案;
215.或者,根据所述用户信息,生成推荐业务分组,并在每个所述推荐业务分组下提供第二数据推荐方案;
216.或者,根据用户输入的业务词汇信息,生成第三数据推荐方案。
217.需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
218.本发明的实施例提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
219.本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
220.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
221.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
222.在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
223.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
224.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
225.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
226.此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系
列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
227.因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
228.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.面向低代码开发平台的工业数据处理方法,其特征在于,包括:获取工业数据加工关系图和关联关系初始集;根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案。2.根据权利要求1所述的面向低代码开发平台的工业数据处理方法,其特征在于,获取工业数据加工关系图,包括:获取领域数据模型的物理实现库和数据加工过程信息;所述物理实现库包括工业数据表、关键字段以及工业数据表间关系中的至少一个;所述数据加工过程信息包括数据加工任务集合、运行情况以及统计信息中的至少一项;根据所述领域数据模型的物理实现库和所述数据加工任务集合,生成初始数据加工关系图;基于所述运行情况和统计信息对所述初始数据加工关系图进行更新,得到数据加工关系图。3.根据权利要求1所述的面向低代码开发平台的工业数据处理方法,其特征在于,获取关联关系初始集,包括:获取用户信息、业务信息以及日志信息;所述日志信息包括组件主题、展示组件类型、组件配置信息、时间中的至少一项;根据所述用户信息、业务信息以及日志信息,确定初始三元组;所述初始三元组包括业务分类词、展示组件类型以及数据模型元素结构集合;计算所述初始三元组对应的时间衰减化支持系数;根据所述初始三元组和所述时间衰减化支持系数,生成关联关系初始集。4.根据权利要求3所述的面向低代码开发平台的工业数据处理方法,其特征在于,根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值,包括:根据所述关联关系初始集,确定所述工业数据加工关系图中与所述初始三元组对应的至少一个图顶点;按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值。5.根据权利要求4所述的面向低代码开发平台的工业数据处理方法,其特征在于,按照预设排序规则,对所述图顶点进行迭代计算,得到每个图顶点对应的权重系数值,包括:通过公式,计算得到每个图顶点对应的权重系数值;其中,为图顶点,m为所述数据模型元素结构集合中的元组,为图顶点对应的权重系数值,为逆向邻居顶点集合,为上一轮迭代得到的权重系数值,是在所述工业数据加工关系图中图顶点到图顶点的数据流量系数值。6.根据权利要求4所述的面向低代码开发平台的工业数据处理方法,其特征在于,基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集,包括:
根据预设属性列间的兼容关系,确定第一中间三元组项;将所述第一中间三元组项进行分组聚合处理,得到第二中间三元组项;按照所述第二中间三元组项和所述权重系数值,确定每个所述第二中间三元组项对应的目标权重系数值;根据所述第二中间三元组项和所述目标权重系数值,生成关联关系完整集。7.根据权利要求3所述的面向低代码开发平台的工业数据处理方法,其特征在于,根据所述关联关系完整集,生成数据推荐方案,包括:基于所述关联关系完整集,根据所述用户信息,生成第一数据推荐方案;或者,根据所述用户信息,生成推荐业务分组,并在每个所述推荐业务分组下提供第二数据推荐方案;或者,根据用户输入的业务词汇信息,生成第三数据推荐方案。8.面向低代码开发平台的工业数据处理装置,其特征在于,包括:获取模块,用于获取工业数据加工关系图和关联关系初始集;处理模块,用于根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案。9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
技术总结
本发明提供一种面向低代码开发平台的工业数据处理方法、装置及设备,所述方法包括:获取工业数据加工关系图和关联关系初始集;根据所述关联关系初始集,确定所述工业数据加工关系图中各个图顶点的权重系数值;基于所述工业数据加工关系图和所述权重系数值,构建关联关系完整集;根据所述关联关系完整集,生成数据推荐方案;本发明的方案能够帮助用户快速地选择潜在适合的数据应用组件和数据内容,提升了数据应用孵化准确度、召回度以及开发效率。数据应用孵化准确度、召回度以及开发效率。数据应用孵化准确度、召回度以及开发效率。
技术研发人员:张硕 范晓 田春华 陆薇
受保护的技术使用者:昆山工业大数据创新中心有限公司
技术研发日:2023.06.08
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
