一种面向大数据分析的多源异构数据模型建模系统的制作方法

未命名 10-18 阅读:145 评论:0


1.本发明属于多源数据处理技术领域,具体是一种面向大数据分析的多源异构数据模型建模系统。


背景技术:

2.随着大数据时代的来临,每时每刻都产生着数以亿计的数据。基于海量数据,人们需要从中提取有用的信息来了解甚至指导人们的日常生活和工作。因此,大数据分析应运而生,并且成为一个越来越受欢迎的领域。
3.然而,对于一个大数据分析任务,如何获取该任务需要的数据集是一个非常关键的问题。在许多数据分析算法中,尤其是大部分机器学习算法,数据起到了关键性的作用,数据对分析结果的好坏起着决定性的作用。但是,人们往往假设数据集是已经给出的。然而,目前大部分数据分析任务的数据集往往仍然由此领域的专家或机构通过人工采集的方式来获取。采用人工的方式获取数据集虽然能够使数据质量得到保证,并且在数据量较少的情况下是可行的,但是一旦数据量增多,仅仅依赖领域专家或机构人工采集的方式获取数据集是不实际的,而且这将耗费巨大的人力、物力和财力,造成昂贵的代价。
4.尤其是在新能源发电行业领域,企业内各部门往往会应用辅助该领域工作的各种辅助软件,将会使得企业内产生大量的多源异构数据,各个电站的编码体系可能也不一致,无法通过对数据有效合并,查看设备相关数据完整信息,而且因为业务、运营等需要,可能还需要基于大数据进行分析,因此,就需要外界的相关数据,具有大量的多源异构数据处理需求;但是对于当前相关的各中小微企业来说,因为技术、成本等多方面因素的影响,导致其无法充分发挥相应数据的作用;因此,为了解决各相应企业对多源异构数据模型建模的需求,本发明提供了一种面向大数据分析的多源异构数据模型建模系统。


技术实现要素:

5.为了解决上述方案存在的问题,本发明提供了一种面向大数据分析的多源异构数据模型建模系统。
6.本发明的目的可以通过以下技术方案实现:
7.一种面向大数据分析的多源异构数据模型建模系统,包括信息模块、分析模块和建模模块;
8.所述信息模块用于用户整理上传企业需求信息,并基于所述企业需求信息确定对应的各目标类。
9.进一步地,信息模块的工作方法包括:
10.识别用户上传的企业需求信息,获取对应的目标端和建模需求;根据所述目标端确定对应的数据类,对各数据类进行筛选,获得对应的目标类。
11.进一步地,用户在进行企业需求信息填写时,预设有对应的需求信息模板,用户按照所述需求信息模板进行相应的数据填写。
12.进一步地,根据目标端确定数据类的方法包括:
13.逐步建立和完善目标端信息库,所述目标端信息库用于储存各种目标端对应的各数据类;
14.根据识别的目标端从目标端信息库中匹配对应的数据类;
15.识别未从目标端信息库中匹配到数据类的目标端,标记为待补充端;根据待补充端检索对应的各种数据类型,整理为对应的各数据类;
16.并将该待补充端和对应的数据类补充到目标端信息库中进行储存。
17.进一步地,对各数据类进行筛选的方法包括:
18.建立需求分析模型,通过所述需求分析模型对数据类和企业需求信息进行分析,获得各数据类对应的基础分和修正分,根据获得的基础分和修正分计算对应的评估分,将评估分大于阈值x1的数据类标记为目标类。
19.进一步地,评估分的计算方法包括:
20.将获得的基础分和修正分分别标记为jf和xf,根据评估公式pgl=b1
×
jf+b2
×
xf计算对应的评估分pgl,其中b1、b2均为比例系数,取值范围为0《b1≤1,0《b2≤1。
21.所述分析模块用于对各目标类进行分析,确定目标多源异构数据初始处理模型。
22.进一步地,分析模块的工作方法包括:
23.建立模型库,所述模型库内储存有各多源异构数据初始处理模型以及对应的数据处理范围;
24.识别各目标类,形成对应的目标类集,基于所述目标类集从模型库内匹配对应的待选多源异构数据初始处理模型以及对应的相似度,对各待选多源异构数据初始处理模型进行筛选,获得对应的目标多源异构数据初始处理模型。
25.进一步地,对各待选多源异构数据初始处理模型进行筛选的方法包括:
26.识别各待选多源异构数据初始处理模型对应的多余数据类,根据识别的各多余数据类和企业需求数据进行相似度修正,获得对应的相似值和前景值;将相似值低于阈值x2的待选多源异构数据初始处理模型进行剔除;识别各待选多源异构数据初始处理模型对应的成本值,将获得的成本值、前景值和相似值分别标记为cbz、qjz和xsz,根据优先级公式kpl=qjz+xsz-c
×
cbz计算对应的优先值,其中c为成本值调整系数;选择优先值最高的待选多源异构数据初始处理模型为目标多源异构数据初始处理模型。
27.所述建模模块用于建立用户需求的多源异构数据处理模型,获取目标多源异构数据初始处理模型,对目标多源异构数据初始处理模型进行调整,获得对应的多源异构数据处理模型。
28.与现有技术相比,本发明的有益效果是:
29.通过信息模块、分析模块和建模模块之间的相互配合,实现对满足用户需求的多源异构数据处理模型的个性化建立;通过信息模块的设置,实现真实的分析出企业用户的真实建模需求,精准确定企业用户需要进行多源异构数据处理的种类,便于进行精确处理;同时通过个性化的服务,帮助企业用户最大程度的降低建立多源异构数据处理模型的成本,便于本系统的普及,增加在中小微企业中的竞争力,避免相应企业因为成本等问题,导致仍沿用之前的处理方式,使得大量的企业数据得不到充分应用;通过对相似度进行修正,提前剔除一部分的待选多源异构数据初始处理模型,减少后续分析数据量;并结合企业可
能的后续发展以及企业对成本的关注程度进行筛选。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1为本发明原理框图。
具体实施方式
32.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.如图1所示,一种面向大数据分析的多源异构数据模型建模系统,包括信息模块、分析模块和建模模块;
34.所述信息模块用于用户整理上传企业需求信息,包括企业内各部门使用的软件、系统、建模需求、企业信息等数据,建模需求即建立处理何方向数据的处理模型需求,如成本分析需求、业务进度需求等,可以根据企业实际情况设置多个需求,具体的需要根据企业自身需求进行设置;因为对于企业来说,其需要考虑成本、实际处理需求等因素,因此有的企业可能只具有一个需求,有的可能具有多个,不能全部按照同一的需求进行后续的模型建立,避免造成资源浪费以及为用户带来较高的成本,实现对企业用户的个性化设置;便于降低企业使用成本,尤其是对于中小微企业来说,这是重要的一个选择因素;对用户上传的企业需求信息进行处理,获得目标需求数据。具体过程如下:
35.设置需求信息模板,用户根据需求信息模板进行企业的相关数据填写,当填写后,获得企业需求信息,将企业需求信息进行上传;
36.对上传的企业需求信息进行识别,识别对应的目标端和建模需求,目标端即企业内各部门使用的软件、系统等;根据目标端确定对应的数据类,数据类即各目标端对应的数据类型,标记有各目标端的标签,用于表示是归属哪个目标端,而且一个数据类可能具有多个目标端标签,因为各目标端可能是具有相同类型的数据;具体的数据类的确定方法如下文;根据各数据类和对应的建模需求进行分析,确定与建模需求具有关联性的各数据类,标记为目标类,即在进行建模需求实现的过程中,分析需要使用哪些数据类数据,对应的数据类视为目标类,主要参照建模需求、企业信息和企业历史相关项目数据进行综合分析,基于企业信息和企业历史相关项目数据对建模需求进行进一步地限定、确认,因为即使是同一建模需求,其他数据类也相同,但是因为企业的管理模式、规模等不同,将会使得其所需要应用的目标类具有差异;因此,需要结合企业信息和企业历史相关项目数据进行分析企业的特性。
37.具体的可以基于神经网络建立对应的需求分析模型,神经网络包括cnn网络、dnn网络等;通过建立的训练集进行训练,训练集包括企业需求信息、数据类以及对应设置的各
数据类对应的基础分和修正分,基础分是不参照企业信息、企业历史相关项目数据等进行设置的,即只根据建模需求和数据类进行设置的,修正分是根据企业信息、企业历史相关项目数据等企业实际情况进行分析的用于修正的分值;通过训练成功后的需求分析模型进行分析,获得各数据类对应的基础分和修正分,将获得的基础分和修正分分别标记为jf和xf,根据评估公式pgl=b1
×
jf+b2
×
xf计算对应的评估分pgl,其中b1、b2均为比例系数,由企业用户根据自身需求进行自行调整,取值范围为0《b1≤1,0《b2≤1;将评估分大于阈值x1的数据类标记为目标类。
38.根据目标端确定数据类的方法包括:
39.逐步建立和完善目标端信息库,目标端信息库用于储存各种目标端对应的各数据类;
40.根据识别的目标端从目标端信息库中匹配对应的数据类;
41.识别未从目标端信息库中匹配到数据类的目标端,标记为待补充端;因为当前市面上具有各种相关的软件、系统等,将会使得目标端信息库在建立时基本只会涵盖知名度较大、普及度较高的软件等;根据待补充端从互联网或其他现有渠道获取其可能产生的各种数据类型,整理为对应的各数据类;
42.并将该待补充端和对应的数据类补充到目标端信息库中进行储存。
43.通过信息模块的设置,实现真实的分析出企业用户的真实建模需求,精准确定企业用户需要进行多源异构数据处理的种类,便于进行精确处理;同时通过个性化的服务,帮助企业用户最大程度的降低建立多源异构数据处理模型的成本,便于本系统的普及,增加在中小微企业中的竞争力,避免相应企业因为成本等问题,导致仍沿用之前的处理方式,使得大量的企业数据得不到充分应用。
44.所述分析模块用于对各目标类进行分析,确定最接近要求的多源异构数据初始处理模型,即根据各企业的目标类集,确定现有模型库中最符合目标类集的多源异构数据初始处理模型,具体过程包括:
45.通过人工的方式,根据业务范围以及市场需求,建立相应的多种多源异构数据初始处理模型,并为每种多源异构数据初始处理模型设置对应的处理多源异构数据种类范围,进行整理后建立对应的模型库;
46.识别各目标类,形成对应的目标类集,目标类集即多个目标类形成的集合;根据获得的目标类集与模型库中各多源异构数据初始处理模型对应的处理多源异构数据种类范围进行匹配,获得对应的各待选多源异构数据初始处理模型以及对应的相似度,待选多源异构数据初始处理模型指的是对应的多源异构数据种类范围涵盖对应的目标类集,即等于或大于目标类集中的种类,若不能全部包括目标类集,不能匹配成功,不作为待选多源异构数据初始处理模型;相似度根据目标类数量和对应范围内数据类数量的比值进行计算的;对各待选多源异构数据初始处理模型进行筛选,获得目标多源异构数据初始处理模型,即最接近用户需求的多源异构数据初始处理模型。
47.其中,对各待选多源异构数据初始处理模型进行筛选的方法包括:
48.识别各待选多源异构数据初始处理模型对应多余数据类,根据识别的各多余数据类和企业需求数据进行相似度修正,获得对应的相似值和前景值;将相似值低于阈值x2的待选多源异构数据初始处理模型进行剔除;识别各待选多源异构数据初始处理模型对应的
成本值,成本值是根据评估的相对于用户企业来说模型建立成本进行转化而来,用于进行单位转化后计算,基于对应各多源异构数据初始处理模型的预设成本进行设置,后续进行匹配即可,当人工价格等变化时,可以进行相应的调整,其成本指的是全部成本,包括后续人工调整成本等,即评估的企业用户的全部付出成本;将获得的成本值、前景值和相似值分别标记为cbz、qjz和xsz,根据优先级公式kpl=qjz+xsz-c
×
cbz计算对应的优先值,其中c为企业用户根据需要自行设置的成本值调整系数,注重成本,则将c设置的大于1,反之,设置为小于1,若不进行设置,默认为1;选择优先值最高的待选多源异构数据初始处理模型为目标多源异构数据初始处理模型。
49.通过对相似度进行修正,提前剔除一部分的待选多源异构数据初始处理模型,减少后续分析数据量;并结合企业可能的后续发展以及企业对成本的关注程度进行筛选。
50.根据识别的各多余数据类和企业需求数据进行相似度修正,即根据各多余数据类与该企业发展的关联性和将来需求性进行修正,考虑企业接下来的发展、模型需求变化,可能增加的目标类进行修正,获得对应的相似值和前景值,具体的可以基于cnn网络或dnn网络建立对应的修正模型,通过人工的方式建立对应的训练集进行训练,训练集包括多余数据类、企业需求数据、相似度以及对应设置的修正后的相似值和前景值,通过训练成功后的修正模型进行分析,获得对应的相似值和前景值。
51.所述建模模块用于建立用户需求的多源异构数据处理模型,获取目标多源异构数据初始处理模型,通过人工的方式根据用户企业需求对目标多源异构数据初始处理模型进行调整,获得对应的多源异构数据处理模型。
52.上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
53.以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

技术特征:
1.一种面向大数据分析的多源异构数据模型建模系统,其特征在于,包括信息模块、分析模块和建模模块;所述信息模块用于用户整理上传企业需求信息,并基于所述企业需求信息确定对应的各目标类;所述分析模块用于对各目标类进行分析,确定目标多源异构数据初始处理模型;所述建模模块用于建立用户需求的多源异构数据处理模型,获取目标多源异构数据初始处理模型,对目标多源异构数据初始处理模型进行调整,获得对应的多源异构数据处理模型。2.根据权利要求1所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,信息模块的工作方法包括:识别用户上传的企业需求信息,获取对应的目标端和建模需求;根据所述目标端确定对应的数据类,对各数据类进行筛选,获得对应的目标类。3.根据权利要求2所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,用户在进行企业需求信息填写时,预设有对应的需求信息模板,用户按照所述需求信息模板进行相应的数据填写。4.根据权利要求3所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,根据目标端确定数据类的方法包括:逐步建立和完善目标端信息库,所述目标端信息库用于储存各种目标端对应的各数据类;根据识别的目标端从目标端信息库中匹配对应的数据类;识别未从目标端信息库中匹配到数据类的目标端,标记为待补充端;根据待补充端检索对应的各种数据类型,整理为对应的各数据类;并将该待补充端和对应的数据类补充到目标端信息库中进行储存。5.根据权利要求4所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,对各数据类进行筛选的方法包括:建立需求分析模型,通过所述需求分析模型对数据类和企业需求信息进行分析,获得各数据类对应的基础分和修正分,根据获得的基础分和修正分计算对应的评估分,将评估分大于阈值x1的数据类标记为目标类。6.根据权利要求5所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,评估分的计算方法包括:将获得的基础分和修正分分别标记为jf和xf,根据评估公式pgl=b1
×
jf+b2
×
xf计算对应的评估分pgl,其中b1、b2均为比例系数,取值范围为0<b1≤1,0<b2≤1。7.根据权利要求1所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,分析模块的工作方法包括:建立模型库,所述模型库内储存有各多源异构数据初始处理模型以及对应的数据处理范围;识别各目标类,形成对应的目标类集,基于所述目标类集从模型库内匹配对应的待选多源异构数据初始处理模型以及对应的相似度,对各待选多源异构数据初始处理模型进行筛选,获得对应的目标多源异构数据初始处理模型。
8.根据权利要求7所述的一种面向大数据分析的多源异构数据模型建模系统,其特征在于,对各待选多源异构数据初始处理模型进行筛选的方法包括:识别各待选多源异构数据初始处理模型对应的多余数据类,根据识别的各多余数据类和企业需求数据进行相似度修正,获得对应的相似值和前景值;将相似值低于阈值x2的待选多源异构数据初始处理模型进行剔除;识别各待选多源异构数据初始处理模型对应的成本值,将获得的成本值、前景值和相似值分别标记为cbz、qjz和xsz,根据优先级公式kpl=qjz+xsz-c
×
cbz计算对应的优先值,其中c为成本值调整系数;选择优先值最高的待选多源异构数据初始处理模型为目标多源异构数据初始处理模型。

技术总结
本发明公开了一种面向大数据分析的多源异构数据模型建模系统,属于多源数据处理技术领域,包括信息模块、分析模块和建模模块;所述信息模块用于用户整理上传企业需求信息,并基于所述企业需求信息确定对应的各目标类;所述分析模块用于对各目标类进行分析,确定目标多源异构数据初始处理模型;所述建模模块用于建立用户需求的多源异构数据处理模型,获取目标多源异构数据初始处理模型,对目标多源异构数据初始处理模型进行调整,获得对应的多源异构数据处理模型;通过信息模块、分析模块和建模模块之间的相互配合,实现对满足用户需求的多源异构数据处理模型的个性化建立;通过信息模块的设置,实现真实的分析出企业用户的真实建模需求。模需求。模需求。


技术研发人员:徐俊山 孔小强 马廷 吕太轩 宋磊 姬廷 董临治 徐生明 常河 周超 王璐
受保护的技术使用者:榆林市高新区鑫辉新能源有限公司
技术研发日:2023.07.13
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐