一种基于大数据的多源数据融合算法的制作方法
未命名
07-18
阅读:105
评论:0
1.本发明涉及数据融合技术领域,具体是一种基于大数据的多源数据融合算法。
背景技术:
2.近年来智能交通系统引发了大量研究人员的关注。智能交通系统作为一项综合应用产品,其涉及技术包括了信息技术、通信技术、控制技术、计算机技术、感知技术等等。另一方面,科技进步带来的是交通数据种类的增加,城市道路中出现的交通流检测设备也日趋多样。然而,数据驱动的智能交通系统受限于已有城市道路交通数据的数据质量,质量参差不齐的多源交通数据可能将会对后期交通信号管控产生灾难性的影响。
3.作为大数据背景下实现交通精确管控的一个必要前提,城市交通大数据中,数据融合方法设计的好坏将极大程度影响着后期决策算法的输入数据质量。因此设计高效的数据融合系统是提高数据质量,精简交通数据的重点。然而,大多数据融合方法的融合数据源种类是单一的,在交通领域中各交通检测设备经常受环境因素等影响不可避免地会出现异常情况,因此会影响最终数据融合的精度。为此,本发明提出一种基于大数据的多源数据融合算法。
技术实现要素:
4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于大数据的多源数据融合算法。
5.为实现上述目的,根据本发明的第一方面的实施例提出一种基于大数据的多源数据融合算法,包括如下步骤:
6.步骤一:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为gbk编码,在文件的第一列采用id属性进行标识不同行的数据;
7.步骤二:对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;
8.步骤三:对预处理后的交通数据信息进行特征提取,以得到交通特征数据;具体为:首先获取任意时间段或任意路段内的不同数据源中的不同数据;再根据获取的不同数据以得到交通特征数据;
9.步骤四:对待融合交通特征数据进行观测系数gf分析,根据观测系数gf分配对应数量的数据融合终端对待融合交通特征数据进行融合;其中融合基于hfcm聚类算法;
10.步骤五:数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据;将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;
11.步骤六:在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数ky;判断是否需要重新分配所述数据融合终端的算力资源。
12.进一步地,对待融合交通特征数据进行观测系数gf分析,具体为:
13.获取待融合交通特征数据对应的时间断面,调取对应时间断面的研究吸引值为yg;统计待融合交通特征数据的数据大小为d1;
14.利用公式gf=yg
×
g1+d1
×
g2计算得到待融合交通特征数据的观测系数gf;其中g1、g2为系数因子。
15.进一步地,根据观测系数gf确定数据融合终端的分配数量为l1;具体为:获得预先构建的观测系数范围与终端数量阈值的映射关系表;所述观测系数范围与终端数量阈值的映射关系表基于数据融合终端响应用户进行的第一配置操作生成;基于观测系数gf和观测系数范围与终端数量阈值的映射关系表,确定观测系数gf对应的终端数量阈值为l1。
16.进一步地,还包括:对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析,具体分析步骤为:
17.在预设时间内,获取交通评估数据信息的访问记录;所述访问记录包括访问开始时刻和访问结束时刻;获取交通评估数据信息对应的时间断面;
18.针对同一时间断面,统计该时间断面的访问次数为c1;将每次访问的访问时长进行累加得到访问总时长zt;利用公式yg=c1
×
a1+zt
×
a2计算得到该时间断面的研究吸引值yg,其中a1、a2为系数因子。
19.进一步地,对数据融合终端的算力占用情况进行监测分析,具体为:
20.从初始时刻起,按照预设间隔采集数据融合终端的算力占用率并标记为nc,建立算力占用率nc随时间变化的曲线图;
21.当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将数据融合终端的实时算力占用率变化速率标记为vt;
22.将vt与预设速率阈值相比较;若vt>预设速率阈值,则表示数据融合终端忙于数据融合,在对应的曲线图中截取对应的曲线段进行标注;
23.在预设时间内,统计标注曲线段的数量为r1,将所有的标注曲线段对时间进行积分得到标注参考能量we,利用公式wr=r1
×
d1+we
×
d2计算得到所述数据融合终端的运算热度值wr,其中d1、d2均为系数因子;
24.获取数据融合终端的当前算力占用率为nt,利用公式ky=nt
×
d3+wr
×
d4计算得到核心节点的算力饱和系数ky,其中d3、d4均为系数因子;
25.将算力饱和系数ky与预设饱和阈值相比较;若ky>预设饱和阈值,则判定所述数据融合终端的算力资源不足,生成算力扩充信号;以提醒管理人员扩充所述数据融合终端的算力资源。
26.进一步地,其中,多个数据源包括从手机gps中获取的手机实时移动速度信息、路况摄像头获取的所在路段的车辆速度信息以及从浮动车辆gps中获取的实时车辆位置和行驶速度信息。
27.进一步地,所述不合格信息包括车辆瞬时速度大于合理值的交通数据信息、视频采样时间和存储时间不同的交通数据信息以及gps定位中车辆经纬度超过合理范围的交通数据信息。
28.进一步地,交通融合数据包括任一时间且任一路段上所有手机、路况摄像头获取的所在路段的车辆和浮动车辆的平均速度信息;集中处理具体为将各区域的路段车流量信息和交通融合信息进行汇总,即具体地将每个路段对应的交通融合信息进行一一汇总,从
而进行评估所在区域的交通数据信息。
29.与现有技术相比,本发明的有益效果是:
30.1、本发明中输入多个数据源的交通初始数据集,并将这些数据集的编码统一设置为gbk编码,在文件的第一列采用id属性来标识和区别不同行的数据;对交通初始数据集进行预处理,剔除不合格信息;对预处理后的交通数据信息进行特征提取,以得到交通特征数据;对待融合交通特征数据进行观测系数gf分析,根据观测系数gf分配对应数量的数据融合终端对待融合交通特征数据进行融合;提高数据融合效率;其中融合基于hfcm聚类算法;用于挖掘多源异构数据价值,实现多源异构数据的互联互通、交换共享;
31.2、本发明中数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据,再将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析;在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数ky;判断是否需要重新分配数据融合终端的算力资源,提高数据融合效率。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
33.图1为本发明一种基于大数据的多源数据融合算法的原理框图。
具体实施方式
34.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
35.如图1所示,一种基于大数据的多源数据融合算法,包括如下步骤:
36.步骤一:输入多个数据源的交通初始数据集,并将这些数据集的编码统一设置为gbk编码,在文件的第一列采用id属性来标识和区别不同行的数据,避免出现重复读取问题;
37.其中,多个数据源包括从手机gps中获取的手机实时移动速度信息、路况摄像头获取的所在路段的车辆速度信息以及从浮动车辆gps中获取的实时车辆位置和行驶速度信息;
38.步骤二:对交通初始数据集进行预处理;预处理表现为剔除交通初始数据集中的不合格信息;不合格信息包括车辆瞬时速度大于合理值的交通数据信息、视频采样时间和存储时间不同的交通数据信息以及gps定位中车辆经纬度超过合理范围的交通数据信息;不合格信息主要为通过多种数据源获取的交通数据信息中不合理的信息或数据错误及误差过大的信息;
39.步骤三:对预处理后的交通数据信息进行特征提取,以得到交通特征数据;具体为:首先获取任意时间段或任意路段内的不同数据源中的不同数据;再根据获取的不同数据以得到交通特征数据;
40.步骤四:对待融合交通特征数据进行观测系数gf分析,根据观测系数gf分配对应数量的数据融合终端对待融合交通特征数据进行融合;其中融合基于hfcm聚类算法;用于挖掘多源异构数据价值,实现多源异构数据的互联互通、交换共享;具体分析步骤为:
41.获取待融合交通特征数据对应的时间断面,调取对应时间断面的研究吸引值为yg;统计待融合交通特征数据的数据大小为d1;
42.利用公式gf=yg
×
g1+d1
×
g2计算得到待融合交通特征数据的观测系数gf;其中g1、g2为系数因子;
43.根据观测系数gf确定数据融合终端的分配数量为l1;具体为:
44.获得预先构建的观测系数范围与终端数量阈值的映射关系表,其中,观测系数范围与终端数量阈值的映射关系表基于数据融合终端响应用户进行的第一配置操作生成;
45.基于观测系数gf和观测系数范围与终端数量阈值的映射关系表,确定观测系数gf对应的终端数量阈值为l1;
46.步骤五:数据融合终端采集若干个交通特征数据进行融合,输出交通评估数据信息;具体步骤为:
47.获取若干个交通特征数据进行融合,生成交通融合数据;交通融合数据包括任一时间且任一路段上所有手机、路况摄像头获取的所在路段的车辆和浮动车辆的平均速度信息;
48.将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;
49.集中处理具体为将各区域的路段车流量信息和交通融合信息进行汇总,即具体地将每个路段对应的交通融合信息进行一一汇总,从而进行评估所在区域的交通数据信息;
50.步骤六:在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数ky;判断是否需要重新分配数据融合终端的算力资源,提高数据融合效率;具体分析步骤为:
51.从初始时刻起,按照预设间隔采集数据融合终端的算力占用率并标记为nc,建立算力占用率nc随时间变化的曲线图;
52.当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将数据融合终端的实时算力占用率变化速率标记为vt;
53.将vt与预设速率阈值相比较;若vt>预设速率阈值,则表示数据融合终端忙于数据融合,在对应的曲线图中截取对应的曲线段进行标注;
54.在预设时间内,统计标注曲线段的数量为r1,将所有的标注曲线段对时间进行积分得到标注参考能量we,利用公式wr=r1
×
d1+we
×
d2计算得到数据融合终端的运算热度值wr,其中d1、d2均为系数因子;
55.获取数据融合终端的当前算力占用率为nt,利用公式ky=nt
×
d3+wr
×
d4计算得到核心节点的算力饱和系数ky,其中d3、d4均为系数因子;
56.将算力饱和系数ky与预设饱和阈值相比较;若ky>预设饱和阈值,则判定数据融
合终端的算力资源不足,生成算力扩充信号;以提醒管理人员扩充数据融合终端的算力资源,提高数据融合效率;
57.更进一步的技术方案在于,还包括:对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析,具体分析步骤为:
58.在预设时间内,获取交通评估数据信息的访问记录;访问记录包括访问开始时刻和访问结束时刻;获取交通评估数据信息对应的时间断面;
59.针对同一时间断面,统计该时间断面的访问次数为c1;将每次访问的访问时长进行累加得到访问总时长zt;利用公式yg=c1
×
a1+zt
×
a2计算得到该时间断面的研究吸引值yg,其中a1、a2为系数因子。
60.上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
61.本发明的工作原理:
62.一种基于大数据的多源数据融合算法,在工作时,输入多个数据源的交通初始数据集,并将这些数据集的编码统一设置为gbk编码,在文件的第一列采用id属性来标识和区别不同行的数据;对交通初始数据集进行预处理,剔除不合格信息;对预处理后的交通数据信息进行特征提取,以得到交通特征数据;对待融合交通特征数据进行观测系数gf分析,根据观测系数gf分配对应数量的数据融合终端对待融合交通特征数据进行融合;提高数据融合效率;其中融合基于hfcm聚类算法;用于挖掘多源异构数据价值,实现多源异构数据的互联互通、交换共享;
63.数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据,再将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析;在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数ky;判断是否需要重新分配数据融合终端的算力资源,提高数据融合效率。
64.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
65.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
技术特征:
1.一种基于大数据的多源数据融合算法,其特征在于,包括如下步骤:步骤一:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为gbk编码,在文件的第一列采用id属性来标识和区别不同行的数据;步骤二:对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;步骤三:对预处理后的交通数据信息进行特征提取,以得到交通特征数据;具体为:首先获取任意时间段或任意路段内的不同数据源中的不同数据;再根据获取的不同数据以得到交通特征数据;步骤四:对待融合交通特征数据进行观测系数gf分析,根据观测系数gf分配对应数量的数据融合终端对待融合交通特征数据进行融合;其中融合基于hfcm聚类算法;步骤五:数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据;将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;步骤六:在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数ky;判断是否需要重新分配所述数据融合终端的算力资源。2.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,对待融合交通特征数据进行观测系数gf分析,具体分析步骤为:获取待融合交通特征数据对应的时间断面,调取对应时间断面的研究吸引值为yg;统计待融合交通特征数据的数据大小为d1;利用公式gf=yg
×
g1+d1
×
g2计算得到待融合交通特征数据的观测系数gf;其中g1、g2为系数因子。3.根据权利要求2所述的一种基于大数据的多源数据融合算法,其特征在于,根据观测系数gf确定数据融合终端的分配数量为l1;具体为:获得预先构建的观测系数范围与终端数量阈值的映射关系表;所述观测系数范围与终端数量阈值的映射关系表基于数据融合终端响应用户进行的第一配置操作生成;基于观测系数gf和观测系数范围与终端数量阈值的映射关系表,确定观测系数gf对应的终端数量阈值为l1。4.根据权利要求2所述的一种基于大数据的多源数据融合算法,其特征在于,还包括:对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析,具体分析步骤为:在预设时间内,获取交通评估数据信息的访问记录;所述访问记录包括访问开始时刻和访问结束时刻;获取交通评估数据信息对应的时间断面;针对同一时间断面,统计该时间断面的访问次数为c1;将每次访问的访问时长进行累加得到访问总时长zt;利用公式yg=c1
×
a1+zt
×
a2计算得到该时间断面的研究吸引值yg,其中a1、a2为系数因子。5.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,对数据融合终端的算力占用情况进行监测分析,具体分析步骤为:从初始时刻起,按照预设间隔采集数据融合终端的算力占用率并标记为nc,建立算力占用率nc随时间变化的曲线图;
当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将数据融合终端的实时算力占用率变化速率标记为vt;将vt与预设速率阈值相比较;若vt>预设速率阈值,则表示数据融合终端忙于数据融合,在对应的曲线图中截取对应的曲线段进行标注;在预设时间内,统计标注曲线段的数量为r1,将所有的标注曲线段对时间进行积分得到标注参考能量we,利用公式wr=r1
×
d1+we
×
d2计算得到所述数据融合终端的运算热度值wr,其中d1、d2均为系数因子;获取数据融合终端的当前算力占用率为nt,利用公式ky=nt
×
d3+wr
×
d4计算得到核心节点的算力饱和系数ky,其中d3、d4均为系数因子;将算力饱和系数ky与预设饱和阈值相比较;若ky>预设饱和阈值,则判定所述数据融合终端的算力资源不足,生成算力扩充信号;以提醒管理人员扩充所述数据融合终端的算力资源。6.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,其中,多个数据源包括从手机gps中获取的手机实时移动速度信息、路况摄像头获取的所在路段的车辆速度信息以及从浮动车辆gps中获取的实时车辆位置和行驶速度信息。7.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,所述不合格信息包括车辆瞬时速度大于合理值的交通数据信息、视频采样时间和存储时间不同的交通数据信息以及gps定位中车辆经纬度超过合理范围的交通数据信息。8.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,交通融合数据包括任一时间且任一路段上所有手机、路况摄像头获取的所在路段的车辆和浮动车辆的平均速度信息;集中处理具体为将各区域的路段车流量信息和交通融合信息进行汇总,即具体地将每个路段对应的交通融合信息进行汇总,从而进行评估所在区域的交通数据信息。
技术总结
本发明公开了一种基于大数据的多源数据融合算法,涉及数据融合技术领域,包括:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为GBK编码;对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;对预处理后的交通数据信息进行特征提取,以得到交通特征数据;对待融合交通特征数据进行观测系数GF分析,根据观测系数GF分配对应数量的数据融合终端对待融合交通特征数据进行融合;数据融合终端采集若干个交通特征数据进行融合,输出交通评估数据信息;在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,判断是否需要重新分配所述数据融合终端的算力资源,提高数据融合效率。提高数据融合效率。提高数据融合效率。
技术研发人员:冯嘉荣 梁峻铭
受保护的技术使用者:佛山市众合科技有限公司
技术研发日:2023.03.17
技术公布日:2023/5/31
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
