一种基于大数据的数据挖掘系统的制作方法
未命名
08-14
阅读:228
评论:0
1.本发明涉及物流数据管理技术领域,特别涉及一种基于大数据的数据挖掘系统。
背景技术:
2.数据挖掘是指从大量的、有噪声的、随机的数据中提取潜在的、有效的、新颖的、有用的模式或信息,用于决策者进行相应的决策。在实用中,数据挖掘可帮助人们作出判断,以便采取适当行动。随着社会经济的发展,物流运输也随之不断发展,物流是指物品从供应地向接收地的实体流动过程中,根据实际需要,将运输、储存、装卸搬运、包装、流通加工、配送、信息处理等功能有机结合起来实现用户要求的过程。
3.现阶段随着网络技术的迅猛发展,物流数据不断增长,数据挖掘引起了物流产业界的极大关注,多元化、个性化的数据挖掘需求越来越强,其主要原因是存在大量数据,迫切需要将这些数据转换成有用的物流信息和知识,以对物流活动进行计划、组织、指挥、协调、控制和监督,使各项物流活动实现最佳的协调与配合;
4.物流数据多样化的形成主要包括数据来源多、数据格式多,虽然为人们提供了物流信息便利。但是,如何从海量物流数据中快速、准确的检索到自己所需要的有价值的信息也成为目前亟待解决的问题。
技术实现要素:
5.本发明提供了一种基于大数据的数据挖掘系统,对物流数据进行收集、预选,同时基于改进的tree-3决策树模型算法对收集的数据进行挖掘,生成数据报告并存储,提高数据挖掘精度,提高数据检索速度,同时提高检索准确率。
6.本发明提供了一种基于大数据的数据挖掘系统,包括数据收集模块、数据库、数据预选模块、数据挖掘模块、数据存储模块、数据报告模块和用户客户端,所述数据收集模块连接所述数据库,所述数据库连接所述数据预选模块,所述数据预选模块连接所述数据挖掘模块,所述数据挖掘模块分别连接所述数据存储模块和数据报告模块,所述数据报告模块和数据存储模块均连接所述用户客户端;
7.所述数据收集模块用于分别连接物流行业的信息子系统,以收集物流行业的原始数据,并将物流行业的所述原始数据存储在所述数据库中;
8.所述数据预选模块用于根据用户的指令从所述数据库中选取符合用户指令的初选数据;其中,所述用户指令包括具体行业名称、具体商户名称、数据分类名称;
9.所述数据挖掘模块用于采用改进的tree-3决策树模型算法对所述初选数据进行数据挖掘,得到挖掘结果数据;
10.所述数据存储模块用于接收所述挖掘结果数据并对所述挖掘结果数据进行存储,以使所述用户客户端从所述数据存储模块中获取所述挖掘结果数据;
11.所述数据报告模块用于根据挖掘结果数据生成数据报告,并将所述数据报告传输至所述用户客户端;其中,所述数据报告的表现形式包括表格、柱状图、饼状图。
12.进一步地,所述数据挖掘模块采用的改进的tree-3决策树模型算法包括:
13.s1、确定用户检索要求的一个属性为a,并且其包括m个子值,则子值属性集合为{θ1,θ2,
…
,θm},子值属性集合中各元素对应的概率为p1、p2、
…
、pm,计算子值属性集合中一个子值的信息熵;
14.s2、结合所述子值属性集合中全部子值信息熵计算属性a的信息熵;
15.s3、重复步骤s1-s2,得到所述用户检索要求的全部属性的信息熵,并以信息熵浓度增加最大的属性为该节点的属性;
16.s4、根据步骤s1-s3的环节遍历决策树所有节点,确定各个节点的属性,并得到每个节点的属性信息熵增益浓度;
17.s5、将信息熵浓度最大的节点确定为根节点,并将其输出作为挖掘结果。
18.进一步地,所述计算子值属性集合中一个子值的信息熵的公式为:
[0019][0020]
其中,g(θi)表示子值属性集合中第i个子值的信息熵,i∈[1,2,
…
,m],t表示符合检索要求的数据,f表示不检索符合要求的数据;
[0021]
所述结合全部子值信息熵计算属性a的信息熵中,计算公式为:
[0022][0023]
其中,为属性a的信息熵,pi表示概率分布。
[0024]
进一步地,还包括数据预处理模块,所述数据预处理模块分别连接所述数据预选模块和数据挖掘模块,所述数据预处理模块用于对所述原始数据进行数据清洗、数据集成和数据变换;
[0025]
所述数据清洗删除所述原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值;
[0026]
所述数据集成将多个数据源合并存放在一个一致的数据仓库中。
[0027]
所述数据变换对数据进行规范化处理,将数据转换成设定形式,以适用于挖掘以及tree-3决策树模型算法的需要。
[0028]
进一步地,还包括数据分类模块,所述数据分类模块分别连接所述数据挖掘模块和数据存储模块,所述数据分类模块用于对所述挖掘结果数据按照行业进行分类,并接收、标记用户对所述挖掘结果数据添加的标签信息。
[0029]
进一步地,还包括日志记录模块,所述日志记录模块分别连接所述数据收集模块、数据库、数据预选模块、数据预处理模块、数据挖掘模块、数据分类模块、数据存储模块和数据报告模块,所述日志记录模块用于记录整个数据挖掘过程中产生的日志数据。
[0030]
进一步地,所述物流行业的信息子系统包括历史数据子系统、需求数据子系统、生成数据子系统和日常数据子系统。
[0031]
本发明的有益效果为:
[0032]
本发明的数据收集模块分别连接物流行业的信息子系统,以收集物流行业的原始数据,数据预选模块根据用户的指令从数据库中选取符合用户指令的初选数据,数据挖掘
模块采用改进的tree-3决策树模型算法对初选数据进行数据挖掘,得到挖掘结果数据,进而对挖掘结果数据进行存储和生成数据报告,并将数据报告传输至用户客户端,利用改进的tree-3决策树模型算法,具备对数据进行整理、归类、分析和提取作用,提高了数据挖掘精度,提高了数据检索速度,同时提高了检索准确率。
附图说明
[0033]
图1为本发明基于大数据的数据挖掘系统的结构示意图。
[0034]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0035]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0036]
如图1所示,本发明提供了一种基于大数据的数据挖掘系统,包括数据收集模块、数据库、数据预选模块、数据挖掘模块、数据存储模块、数据报告模块和用户客户端,所述数据收集模块连接所述数据库,所述数据库连接所述数据预选模块,所述数据预选模块连接所述数据挖掘模块,所述数据挖掘模块分别连接所述数据存储模块和数据报告模块,所述数据报告模块和数据存储模块均连接所述用户客户端。
[0037]
数据收集模块:
[0038]
所述数据收集模块用于分别连接物流行业的信息子系统,以收集物流行业的原始数据,并将物流行业的所述原始数据存储在所述数据库中;所述物流行业的信息子系统包括历史数据子系统、需求数据子系统、生成数据子系统和日常数据子系统,如建筑行业的历史数据、需求数据和日常数据。
[0039]
数据预选模块:
[0040]
所述数据预选模块用于根据用户的指令从所述数据库中选取符合用户指令的初选数据;其中,所述用户指令包括具体行业名称、具体商户名称、数据分类名称;即,数据库中存储了大量不同行业不同类型的数据,根据用户对具体数据的类别指令,从数据库中选取用户所需要的初选数据。
[0041]
数据挖掘模块:
[0042]
所述数据挖掘模块用于采用改进的tree-3决策树模型算法对所述初选数据进行数据挖掘,得到挖掘结果数据。
[0043]
在常规的决策树的构建过程中,tree-3决策树模型使用了一种新的名为信息熵浓度增加-判定的机制,沿着决策树路径按节点进行搜索,搜索依据就是信息熵浓度更高的节点被保留,当搜索遍历整个决策树时,搜索过程被执行完毕,所需的检索结果被找出。
[0044]
假定参数是一个论域,并且对它随机执行一个划分{m1,m2,
…
,mn},可以得到概率分布pi=p(mi),得到m的信息熵计算公式为:
[0045][0046]
假设w是的另一个随机划分,并且其数学描述为同时该划分
满足p(wj)=kj、认定m是以w为条件,公式为:
[0047][0048]
在大数据挖掘的过程中,采用t和f表示符合要求和不符合要求的数据样本,可以得出有关两类样本分类的信息熵,公式为:
[0049][0050]
在数据挖掘过程中,特别要求的属性a将成为根节点,根节点的信息熵计算公式为:
[0051][0052]
包括属性a的根节点信息熵浓度的增加部分可以按照该方式进行计算,其公式为:
[0053]
z(a)=g(t,f)-e(a)
[0054]
tree-3决策树模型构建的数据挖掘算法的目标为在整个决策树中找到符合用户属性要求并且信息熵浓度增益最大的节点作为根节点。其流程为:1、根据用户的检索需求,在大数据全部样本中确定符合要求的样本集合和不符合要求的样本集合。2、根据用户的检索需求,设定检索过程中的关键属性,关键属性可能是1个,也可能是多个,根据这些属性构建关键属性集合,从而制定属性信息熵浓度增加的计算规则。3、根据tree-3决策树模型的信息熵浓度增加规则进行计算,并由此构建决策树。4、每执行1个关键属性元素进行信息熵浓度增加计算就得到1个决策树,得到全部属性决策树后,比较各个决策树的根节点信息熵浓度的大小,信息熵浓度最大的为最终胜出者,其检索路径和结果作为数据挖掘结果输出。
[0055]
基于tree-3决策树模型构建的数据挖掘算法原理简单、执行思路清晰且算法硬件计算量消耗小,对很多领域的数据挖掘都具有较高的适用性。但是,基于tree-3决策树模型构建的数据挖掘算法在关键属性确定出现偏差时,就会出现无法得到全局最佳结果的问题,即最终推送给用户的挖掘结果可能是次优的或者是局部最优的结果。因此,对基于tree-3决策树模型建构过程进行改进,以期得到准确推送全局最优挖掘结果的数据挖掘方法。tree-3决策树模型的挖掘依赖信息熵浓度增加的判定,并由此确定关键属性。因此,解决tree-3决策树模型的问题,需要改进信息熵浓度的计算方法。而用户的检索要求可能涉及多个属性,为了更准确地确定关键属性,结合各属性概率特征,改进tree-3决策树模型的信息熵计算过程。
[0056]
所述数据挖掘模块采用的改进的tree-3决策树模型算法包括:
[0057]
s1、确定用户检索要求的一个属性为a,并且其包括m个子值,则子值属性集合为{θ1,θ2,
…
,θm},子值属性集合中各元素对应的概率为p1、p2、
…
、pm,计算子值属性集合中一个子值的信息熵,公式为:
[0058][0059]
其中,g(θi)表示子值属性集合中第i个子值的信息熵,i∈[1,2,
…
,m],t表示符合
检索要求的数据,f表示不检索符合要求的数据。
[0060]
s2、结合所述子值属性集合中全部子值信息熵计算属性a的信息熵,计算公式为:
[0061][0062]
其中,为属性a的信息熵,pi表示概率分布。
[0063]
s3、重复步骤s1-s2,得到所述用户检索要求的全部属性的信息熵,并以信息熵浓度增加最大的属性为该节点的属性;
[0064]
s4、根据步骤s1-s3的环节遍历决策树所有节点,确定各个节点的属性,并得到每个节点的属性信息熵增益浓度;
[0065]
s5、将信息熵浓度最大的节点确定为根节点,并将其输出作为挖掘结果。
[0066]
数据存储模块:
[0067]
所述数据存储模块用于接收所述挖掘结果数据并对所述挖掘结果数据进行存储,以使所述用户客户端从所述数据存储模块中获取所述挖掘结果数据;
[0068]
数据报告模块:
[0069]
所述数据报告模块用于根据挖掘结果数据生成数据报告,并将所述数据报告传输至所述用户客户端;其中,所述数据报告的表现形式包括表格、柱状图、饼状图。
[0070]
本发明提供的基于大数据的数据挖掘系统还包括数据预处理模块,所述数据预处理模块分别连接所述数据预选模块和数据挖掘模块,所述数据预处理模块用于对所述原始数据进行数据清洗、数据集成和数据变换。
[0071]
在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,提高数据的质量,让数据更好地适应特定的挖掘技术或工具。
[0072]
所述数据清洗删除所述原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值;包括缺失值处理和异常值处理,对缺失值处理常采用拉格朗日插值法和牛顿插值法;对异常值处理则将其视为缺失值处理,可以利用现有变量的信息,对异常值(缺失值)进行填补,在很多情况下,要先分析异常值出现的可能原因,再判断异常值是否应该舍弃,如果是正确的数据,可以直接在具有异常值的数据集上进行挖掘建模。
[0073]
数据挖掘需要的数据往往分布在不同的数据源中,所述数据集成将多个数据源合并存放在一个一致的数据仓库中。在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。实体识别指从不同数据源识别出现实世界的实体,是统一不同源数据的矛盾之处;冗余属性识别仔细整合不同源数据能减少甚至避免数据冗余与不一致,从而提高数据挖掘的速度和质量,对于冗余属性要先分析,检测到后再将其删除。
[0074]
所述数据变换对数据进行规范化处理,将数据转换成设定形式,以适用于挖掘以及tree-3决策树模型算法的需要。包括:简单函数变换,对原始数据进行某些数学函数变换,常用的变换包括平方、开方、取对数、差分运算等;数据规范化(归一化),为了消除指标
之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析;连续属性离散化,在数据的取值范围内设定若千个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值;属性改造,为了提取更有用的信息,挖掘更深层次的模式,提高挖掘结果的精度,需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。
[0075]
本发明提供的基于大数据的数据挖掘系统还包括数据分类模块,所述数据分类模块分别连接所述数据挖掘模块和数据存储模块,所述数据分类模块用于对所述挖掘结果数据按照行业进行分类,并接收、标记用户对所述挖掘结果数据添加的标签信息,便于后续根据行业和标签信息进行检索。
[0076]
本发明提供的基于大数据的数据挖掘系统还包括日志记录模块,所述日志记录模块分别连接所述数据收集模块、数据库、数据预选模块、数据预处理模块、数据挖掘模块、数据分类模块、数据存储模块和数据报告模块,所述日志记录模块用于记录整个数据挖掘过程中产生的日志数据。
[0077]
本发明的数据收集模块分别连接物流行业的信息子系统,以收集物流行业的原始数据,数据预选模块根据用户的指令从数据库中选取符合用户指令的初选数据,数据挖掘模块采用改进的tree-3决策树模型算法对初选数据进行数据挖掘,得到挖掘结果数据,进而对挖掘结果数据进行存储和生成数据报告,并将数据报告传输至用户客户端,利用改进的tree-3决策树模型算法,具备对数据进行整理、归类、分析和提取作用,提高了数据挖掘精度,提高了数据检索速度,同时提高了检索准确率。
[0078]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0079]
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种基于大数据的数据挖掘系统,其特征在于,包括数据收集模块、数据库、数据预选模块、数据挖掘模块、数据存储模块、数据报告模块和用户客户端,所述数据收集模块连接所述数据库,所述数据库连接所述数据预选模块,所述数据预选模块连接所述数据挖掘模块,所述数据挖掘模块分别连接所述数据存储模块和数据报告模块,所述数据报告模块和数据存储模块均连接所述用户客户端;所述数据收集模块用于分别连接物流行业的信息子系统,以收集物流行业的原始数据,并将物流行业的所述原始数据存储在所述数据库中;所述数据预选模块用于根据用户的指令从所述数据库中选取符合用户指令的初选数据;其中,所述用户指令包括具体行业名称、具体商户名称、数据分类名称;所述数据挖掘模块用于采用改进的tree-3决策树模型算法对所述初选数据进行数据挖掘,得到挖掘结果数据;所述数据存储模块用于接收所述挖掘结果数据并对所述挖掘结果数据进行存储,以使所述用户客户端从所述数据存储模块中获取所述挖掘结果数据;所述数据报告模块用于根据挖掘结果数据生成数据报告,并将所述数据报告传输至所述用户客户端;其中,所述数据报告的表现形式包括表格、柱状图、饼状图。2.根据权利要求1所述的基于大数据的数据挖掘系统,其特征在于,所述数据挖掘模块采用的改进的tree-3决策树模型算法包括:s1、确定用户检索要求的一个属性为a,并且其包括m个子值,则子值属性集合为{θ1,θ2,
…
,θ
m
},子值属性集合中各元素对应的概率为p1、p2、
…
、p
m
,计算子值属性集合中一个子值的信息熵;s2、结合所述子值属性集合中全部子值信息熵计算属性a的信息熵;s3、重复步骤s1-s2,得到所述用户检索要求的全部属性的信息熵,并以信息熵浓度增加最大的属性为该节点的属性;s4、根据步骤s1-s3的环节遍历决策树所有节点,确定各个节点的属性,并得到每个节点的属性信息熵增益浓度;s5、将信息熵浓度最大的节点确定为根节点,并将其输出作为挖掘结果。3.根据权利要求2所述的基于大数据的数据挖掘系统,其特征在于,所述计算子值属性集合中一个子值的信息熵的公式为:其中,g(θ
i
)表示子值属性集合中第i个子值的信息熵,i∈[1,2,
…
,m],t表示符合检索要求的数据,f表示不检索符合要求的数据;所述结合全部子值信息熵计算属性a的信息熵中,计算公式为:其中,为属性a的信息熵,p
i
表示概率分布。4.根据权利要求1所述的基于大数据的数据挖掘系统,其特征在于,还包括数据预处理模块,所述数据预处理模块分别连接所述数据预选模块和数据挖掘模块,所述数据预处理
模块用于对所述原始数据进行数据清洗、数据集成和数据变换;所述数据清洗删除所述原始数据集中无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值;所述数据集成将多个数据源合并存放在一个一致的数据仓库中。所述数据变换对数据进行规范化处理,将数据转换成设定形式,以适用于挖掘以及tree-3决策树模型算法的需要。5.根据权利要求4所述的基于大数据的数据挖掘系统,其特征在于,还包括数据分类模块,所述数据分类模块分别连接所述数据挖掘模块和数据存储模块,所述数据分类模块用于对所述挖掘结果数据按照行业进行分类,并接收、标记用户对所述挖掘结果数据添加的标签信息。6.根据权利要求5所述的基于大数据的数据挖掘系统,其特征在于,还包括日志记录模块,所述日志记录模块分别连接所述数据收集模块、数据库、数据预选模块、数据预处理模块、数据挖掘模块、数据分类模块、数据存储模块和数据报告模块,所述日志记录模块用于记录整个数据挖掘过程中产生的日志数据。7.根据权利要求1所述的基于大数据的数据挖掘系统,其特征在于,所述物流行业的信息子系统包括历史数据子系统、需求数据子系统、生成数据子系统和日常数据子系统。
技术总结
本发明涉及物流数据管理技术领域,公开了一种基于大数据的数据挖掘系统,包括数据收集模块、数据库、数据预选模块、数据挖掘模块、数据存储模块、数据报告模块和用户客户端,所述数据收集模块连接所述数据库,所述数据库连接所述数据预选模块,所述数据预选模块连接所述数据挖掘模块,所述数据挖掘模块分别连接所述数据存储模块和数据报告模块,所述数据报告模块和数据存储模块均连接所述用户客户端。本发明提供的基于大数据的数据挖掘系统,对数据进行收集、预选,同时基于改进的Tree-3决策树模型算法对收集的数据进行挖掘,生成数据报告并存储,提高数据挖掘精度,提高数据检索速度,同时提高检索准确率。时提高检索准确率。时提高检索准确率。
技术研发人员:彭波 万晓杰 庄晓东
受保护的技术使用者:数通十方(深圳)数字科技有限公司
技术研发日:2023.05.18
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
