公路交通大数据处理方法和装置与流程
未命名
07-18
阅读:104
评论:0
1.本发明涉及大数据处理的技术领域,尤其是涉及一种公路交通大数据处理方法和装置。
背景技术:
2.目前,随着智能交通技术的不断发展,交通大数据已经成为经济、社会的基础性资源,其应用领域非常广泛,可支撑公路网规划适应性评价、路网设施运行现状评估、路阻函数测算以及交通经济分析等。因此,从各类杂乱无章的交通大数据中快速挖掘和获取具有针对性的、有价值的信息,已成为各行各业对交通大数据处理技术最常见的诉求。
3.近年来,随着智能采集的不断普及,交通大数据中的噪声数据也越来越多,给数据清洗技术带来了巨大的困扰,使得本领域内的技术人员不得不花费大量的时间来进行数据清洗作业。大数据清洗已成为最耗费人力和物力的一项基础工作。综上,现有技术中的交通大数据处理方法存在人力物力消耗大的技术问题。
技术实现要素:
4.本发明的目的在于提供一种公路交通大数据处理方法和装置,以缓解了现有技术中的公路交通大数据处理方法存在的人力物力消耗大的技术问题。
5.第一方面,本发明提供一种公路交通大数据处理方法,包括:获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表;根据交调站编号对所述交调站点属性表、所述交调流速数据总表、所述交调站实际自由流速度表和所述交调站实际通行能力表进行关联整合,得到每个交调站对应的交调关联表;基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到所述目标交调站的指定属性的数值缺失率;其中,所述目标交调站表示所有交调站中的任一交调站;在确定所述目标交调站的交调关联表有效的情况下,基于所述数值缺失率调整所述目标交调站的交调关联表,得到调整后的交调关联表;确定所述调整后的交调关联表中的异常重复数据和异常交通流速度,并剔除相应的数据记录,得到所述目标交调站清洗后的交调关联表。
6.在可选的实施方式中,基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到所述目标交调站的指定属性的数值缺失率,包括:统计所述目标交调站的交调关联表的数据记录总数,以及确定所述预设变量取值规则集合中目标属性对应的子规则集合;其中,所述目标属性表示所述指定属性中的任一属性;遍历所述目标交调站的交调关联表中所述目标属性的每一个取值,并判断所述取值是否符合所述子规则集合;统计所述交调关联表中目标属性的取值符合所述子规则集合的数据记录数量,得到目标数量;基于所述交调关联表的数据记录总数和所述目标数量,计算所述目标交调站的目标属性的数值缺失率。
7.在可选的实施方式中,在基于所述数值缺失率调整所述目标交调站的交调关联表之前,所述方法还包括:判断所述目标交调站的目标属性的数值缺失率是否大于或等于第
一预设阈值;若是,则确定所述目标交调站的交调关联表无效;若否,则确定所述目标交调站的交调关联表有效。
8.在可选的实施方式中,基于所述数值缺失率调整所述目标交调站的交调关联表,包括:若所述目标交调站的目标属性的数值缺失率小于或等于第二预设阈值,则将所述交调关联表中的目标数据记录进行删除,得到调整后的交调关联表;其中,所述目标数据记录表示所述目标属性的取值不符合所述子规则集合的数据记录;若所述目标交调站的目标属性的数值缺失率大于所述第二预设阈值并小于所述第一预设阈值,则采用多重填补法替换所述目标数据记录中的数值,得到调整后的交调关联表。
9.在可选的实施方式中,确定所述调整后的交调关联表中的异常重复数据和异常交通流速度,包括:统计所述调整后的交调关联表中目标属性在指定时间段内的数据记录总量、取值种数和每一种取值出现的频数;其中,所述目标属性表示所述指定属性中的任一属性;基于所述数据记录总量和所述取值种数,计算每种取值的平均出现频数;若目标取值出现的频数大于或者等于所述平均出现频数,则确定所述目标取值为异常重复数据;获取所述目标交调站交通流的自由流速度下限、公路通行能力和公路二级服务水平系数;在所述调整后的交调关联表中目标采样点的实际交通流量小于目标流量,并且,所述目标采样点的实际交通流速度小于所述交通流的自由流速度下限的情况下,确定所述目标采样点的实际交通流速度为异常交通流速度;其中,所述目标流量为所述目标交调站的公路通行能力和所述公路二级服务水平系数乘积后的结果。
10.在可选的实施方式中,所述方法还包括:对所述清洗后的交调关联表中的交通流量进行归一化处理,得到归一化的交调关联表;基于所述归一化的交调关联表和每种车型的预设当量换算系数,计算每条采样记录对应的汽车当量。
11.在可选的实施方式中,所述目标交调站的目标属性的数值缺失率的计算公式为:其中,m表示交调关联表t的数据记录总数,表示所述目标数量,n表示所述子规则集合中的规则条数,t.bt.xj表示交调关联表t中目标属性bt的第j条取值,p(t.bt)表示所述目标交调站的目标属性bt的数值缺失率。
12.第二方面,本发明提供一种公路交通大数据处理装置,包括:获取模块,用于获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表;关联整合模块,用于根据交调站编号对所述交调站点属性表、所述交调流速数据总表、所述交调站实际自由流速度表和所述交调站实际通行能力表进行关联整合,得到每个交调站对应的交调关联表;缺失值分析模块,用于基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到所述目标交调站的指定属性的数值缺失率;其中,所述目标交调站表示所有交调站中的任一交调站;调整模块,用于在确定所述目标交调站的交调
关联表有效的情况下,基于所述数值缺失率调整所述目标交调站的交调关联表,得到调整后的交调关联表;确定与剔除模块,用于确定所述调整后的交调关联表中的异常重复数据和异常交通流速度,并剔除相应的数据记录,得到所述目标交调站清洗后的交调关联表。
13.第三方面,本发明提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的公路交通大数据处理方法的步骤。
14.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现前述实施方式中任一项所述的公路交通大数据处理方法。
15.本发明提供的公路交通大数据处理方法,首先获取到交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表,然后根据交调站编号对上述多个表格进行关联整合,以得到每个交调站对应的交调关联表,接下来,利用预设变量取值规则集合和目标交调站的交调关联表计算指定属性的数值缺失率,进而调整目标交调站的交调关联表,最后剔除调整后的交调关联表中的异常重复数据和异常交通流速度对应的数据记录,从而得到目标交调站清洗后的交调关联表。该方法在对交通大数据进行处理的过程中无需人工建立数据表之间的关系及相关分析,最大限度地节约了人力资源,提高了数据清洗效率,强化了数据应用便利性。
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明实施例提供的一种公路交通大数据处理方法的流程图;
18.图2为本发明实施例提供的某交调站的流速关系图;
19.图3为本发明实施例提供的某交调站的交通流量数据归一化前后的对比图;
20.图4为本发明实施例提供的一种公路交通大数据处理装置的功能模块图;
21.图5为本发明实施例提供的一种电子设备的示意图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
23.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的
实施例及实施例中的特征可以相互组合。
25.交通大数据一般是指所有服务于交通管理的数据统称,如etc大数据、交调大数据、绿配大数据、公交ic卡大数据等等,种类丰富、结构复杂。其中,高等级公路交通流量和速度数据来源于全国公路交通情况调查数据,具体包括交通流量、交通流速度、各类车型、交调站点属性等等20多个维度的数据,以5分钟为最小分析单位,也是属于一类特定的交通大数据。高等级公路交通流量和速度数据的应用范围广泛,可支撑公路网规划适应性评价、路网设施运行现状评估、路阻函数测算以及交通经济分析等。
26.随着智能交通技术的不断发展,交通大数据已经成为经济、社会的基础性资源,其应用领域非常广泛。因此,从各类杂乱无章的交通大数据中快速挖掘和获取具有针对性的、有价值的信息,已成为各行各业对交通大数据处理技术最常见的诉求。但是,随着智能采集的不断普及,交通大数据中的噪声数据也越来越多,给数据清洗技术带来了巨大的困扰,使得本领域内的技术人员不得不花费大量的时间来进行数据清洗作业。大数据清洗已成为最耗费人力和物力的一项基础工作。有鉴于此,本发明实施例提供了一种公路交通大数据处理方法,用以缓解上文中所提出的技术问题。
27.实施例一
28.图1为本发明实施例提供的一种公路交通大数据处理方法的流程图,如图1所示,该方法具体包括如下步骤:
29.步骤s102,获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表。
30.本发明实施例所提供的方法,主要应用于对高等级公路交通流量和速度数据的大数据处理场景,因此,首先需要获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表。其中,交调站点属性表是包含交调站各类属性的表格,如交调站行政区划、所在公路等级、车道数量、公路设计速度等相关属性;交调流速数据总表是指包含交调站流量和速度的表格。交调站实际自由流速度表是通过相关测算得到的包含交调站实际自由流速度(也即,车辆自由行驶,无拥堵时的速度)的表格。交调站实际通行能力表是通过相关测算得到的包含交调站点所在公路实际通行能力的表格。上述每个数据表均是多个交调站的统计数据集合,交调站的统计范围、每个表格中数据采集点的数量/间隔/时段均可根据用户实际需求进行设定。
31.步骤s102中获取的每个数据表均由行和列组成,其中行表示该数据表中有多少条数据记录;列由交调站点的多个相关属性组成。每个数据表均是由多个属性组成的数据集合。每种属性有多种取值,有些属性是数值型数据、有些属性是分类型数据。
32.例如,字段'jsdj'表示公路技术等级这一属性,其取值分别为0、1、2、3等分类型数据。其中0表示高速公路、1表示一级公路、2表示二级公路,以此类推;字段'xkcs'表示小客车速度这一属性,取值有95km/h和64km/h等数值型数据。
33.步骤s104,根据交调站编号对交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表进行关联整合,得到每个交调站对应的交调关联表。
34.由于上述四个数据表共同的列属性只有交调站编号(也即,唯一标识变量为交调站编号),因此,在获取到多种数据表之后,为了能够对每个交调站进行深入分析,需要根据交调站编号将上述四个数据表进行关联整合,从而生成每个交调站对应的交调关联表。也
就是说,交调关联表是将上述四个数据表中所有与某一交调站编号相关的数据整合在一起后得到的数据表。
35.可选地,交调关联表包含观测年份、观测日期、观测时间、观测分钟、观测站编号、行驶方向、车道号、交通流量、交通流速度、观测站名称、公路等级、设计速度、车道数量、地貌、站点类型、路线编号、行政区划代码、建设时间、管理机构等多个属性变量。
36.在得到每个交调站对应的交调关联表之后,分别对每个交调关联表执行下述步骤s106-s110,即可完成对各个交调站数据的清洗工作。另外,为了减少数据干扰和系统资源的占用,在得到每个交调站对应的交调关联表之后,用户还可以根据实际需要剔除交调关联表中的无关属性变量,然后再执行下述步骤s106。本发明实施例不对无关属性变量的数量以及类型进行具体限定,用户可根据实际情况进行选择。
37.步骤s106,基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到目标交调站的指定属性的数值缺失率。
38.其中,目标交调站表示所有交调站中的任一交调站。
39.具体的,已知交调关联表中既存在真实数据也存在噪声数据,因此结合数据类型、特点以及交通流客观规律,依据行业常识以及数据探索性分析,可制定出数据清洗规则集(也即,预设变量取值规则集合),也即,对指定属性的取值进行约束的规则集。通过判断交调关联表中的数据与预设变量取值规则集合之间的符合程度,自动计算数据相关指标等方法来进行筛选、删除、识别、处理以及生成等一系列数据清洗作业。在本发明实施例中,具体需要利用预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,以得到目标交调站的指定属性的数值缺失率。本发明实施例不对指定属性的数量以及类型进行具体限定,用户可根据实际需求进行设定。
40.需要说明的是,属性变量是否配置清洗规则是用户根据实际需求进行设定的,也就是说,并不是交调关联表中的所有属性变量一定设有对应的清洗规则。若依据行业常识以及数据探索性分析结果,为所有的属性变量共制定出数据清洗规则w条,每条规则分别记为gi,其中i=1,2,
…
,w。那么将所制定的规则进行汇总即可形成预设变量取值规则集合{g1,
…
,gw},并定义该规则集合内的所有规则为强规则。例如,对于车道数量'cdsl'这一属性,根据行业常识和数据探索性分析结果,可以制定如下规则:(1)该属性变量的取值为偶数;(2)该属性变量的取值不能大于8。对于公路设计速度'sjsd'这一属性变量,可以制定如下规则:该属性变量的取值为120,或者100,或者80,或者60。
41.步骤s108,在确定目标交调站的交调关联表有效的情况下,基于数值缺失率调整目标交调站的交调关联表,得到调整后的交调关联表。
42.在计算出目标交调站的指定属性的数值缺失率之后,如果其中某一种属性的数值缺失率过大,则判定目标交调站的交调关联表无效,也就是说,当某一属性的大量取值均不符合其相对应的规则时,即可认为该交调关联表中的数据为无效数据,无需进一步对其进行数据清洗工作。
43.如果确定目标交调站的交调关联表有效,那么就需要根据指定属性的数值缺失率进一步调整目标交调站的交调关联表,以使调整后的交调关联表中的数据符合指定属性的取值规则。调整可以是属性取值的替换,也可以是删除整条数据记录,具体调整策略需要根据实际缺失率进行适应性选择。
44.步骤s110,确定调整后的交调关联表中的异常重复数据和异常交通流速度,并剔除相应的数据记录,得到目标交调站清洗后的交调关联表。
45.得到调整后的交调关联表之后,本发明实施例需要进一步根据交通流客观规律,将异常重复数据对应的数据记录,以及异常交通流速度对应的数据记录从调整后的交调关联表中删除,以得到目标交调站清洗后的交调关联表。
46.本发明实施例提供的公路交通大数据处理方法,首先获取到交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表,然后根据交调站编号对上述多个表格进行关联整合,以得到每个交调站对应的交调关联表,接下来,利用预设变量取值规则集合和目标交调站的交调关联表计算指定属性的数值缺失率,进而调整目标交调站的交调关联表,最后剔除调整后的交调关联表中的异常重复数据和异常交通流速度对应的数据记录,从而得到目标交调站清洗后的交调关联表。该方法在对交通大数据进行处理的过程中无需人工建立数据表之间的关系及相关分析,最大限度地节约了人力资源,提高了数据清洗效率,强化了数据应用便利性。
47.在一个可选的实施方式中,上述步骤s106,基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到目标交调站的指定属性的数值缺失率,具体包括如下步骤:
48.步骤s1061,统计目标交调站的交调关联表的数据记录总数,以及确定预设变量取值规则集合中目标属性对应的子规则集合。
49.其中,目标属性表示指定属性中的任一属性。
50.步骤s1062,遍历目标交调站的交调关联表中目标属性的每一个取值,并判断取值是否符合子规则集合。
51.步骤s1063,统计交调关联表中目标属性的取值符合子规则集合的数据记录数量,得到目标数量。
52.步骤s1064,基于交调关联表的数据记录总数和目标数量,计算目标交调站的目标属性的数值缺失率。
53.具体的,在计算目标交调站的目标属性的数值缺失率时,首先需要从预设变量取值规则集合中挑选出目标属性对应的子规则集合(也即,对目标属性的取值进行约束的规则构成的集合)。然后遍历目标交调站的交调关联表中目标属性的每一行取值,依次判断每个取值是否符合上述子规则集合,在本发明实施例中,只要属性变量的某一个取值不符合子规则集合中的一条规则,那么就判定该取值不符合子规则集合。例如,车道数量'cdsl'这一属性对应的两条规则为:(1)该属性变量的取值为偶数;(2)该属性变量的取值不能大于8。如果交调关联表某一行数据记录中车道数量的取值为6,那么基于上述规则可以判定,该取值符合其对应的子规则集合;如果取值为10,那么基于上述规则可以判定,该取值不符合其对应的子规则集合。
54.遍历结束,即可统计出目标交调站的交调关联表中目标属性的取值符合子规则集合的数据记录数量,也即目标数量。进而根据交调关联表的数据记录总数和目标数量计算目标交调站的目标属性的数值缺失率。
55.在本发明实施例中,目标交调站的目标属性的数值缺失率的计算公式为:
其中,m表示交调关联表t的数据记录总数,表示目标数量,n表示子规则集合中的规则条数,t.bt.xj表示交调关联表t中目标属性bt的第j条取值,p(t.bt)表示目标交调站的目标属性bt的数值缺失率。
56.例如,对于公路设计速度'sjsd'这一属性变量,如果其对应的子规则集合中只包括一条规则:该属性变量的取值为120,或者100,或者80,或者60。那么利用上述规则计算公路设计速度的数值缺失率时,在遍历每一行数据记录的过程中,统计取值是120/100/80/60的数据记录数量,即可得到目标数量。
57.在一个可选的实施方式中,在执行步骤s108基于数值缺失率调整目标交调站的交调关联表之前,本发明方法还包括如下步骤:
58.步骤s1071,判断目标交调站的目标属性的数值缺失率是否大于或等于第一预设阈值。
59.若是,则执行下述步骤s1072;若否,则执行下述步骤s1073。
60.步骤s1072,确定目标交调站的交调关联表无效。
61.步骤s1073,确定目标交调站的交调关联表有效。
62.本发明实施例为了能够对目标交调站的交调关联表是否有效进行判定,将目标属性的数值缺失率是否大于或等于第一预设阈值作为参考条件,如果数值缺失率小于第一预设阈值,则确定目标交调站的交调关联表有效;反之,无效。本发明实施例不对第一预设阈值的取值进行具体限定,用户可以根据实际需求进行设定。如果第一预设阈值为50%,目标交调站的交调关联表的数据记录总数为100,目标属性的取值符合子规则集合的数据记录数量为85,那么通过上文中所提供的目标交调站的目标属性的数值缺失率计算方法可知,目标交调站的目标属性的数值缺失率为15%,因为15%《50%,所以目标交调站的交调关联表有效。
63.在一个可选的实施方式中,上述步骤s108中,基于数值缺失率调整目标交调站的交调关联表,具体包括如下内容:
64.若目标交调站的目标属性的数值缺失率小于或等于第二预设阈值,则将交调关联表中的目标数据记录进行删除,得到调整后的交调关联表;其中,目标数据记录表示目标属性的取值不符合子规则集合的数据记录。
65.若目标交调站的目标属性的数值缺失率大于第二预设阈值并小于第一预设阈值,则采用多重填补法替换目标数据记录中的数值,得到调整后的交调关联表。
66.以第一预设阈值为50%,第二预设阈值为10%为例,如果目标交调站的目标属性的数值缺失率小于或等于10%,那么说明目标交调站的交调关联表中目标属性只有一小部分采样值不符合相应的子规则集合,也即,不符合子规则集合的数据记录在整体数据当中
的占比较小,所以为了减少填补成本,直接删除不符合子规则集合的数据记录不会对数据总量的结构造成太大的影响。
67.但是,如果目标交调站的目标属性的数值缺失率大于10%且小于50%,那么说明缺失率相对较大,这种情况下,若直接删除不符合子规则集合的数据记录将导致数据结构变化过大,因此本发明实施例采用多重填补法来补充数据,以使补充后的数据均能符合相应的子规则集合,进而得到调整后的交调关联表。
68.在一个可选的实施方式中,上述步骤s110中,确定调整后的交调关联表中的异常重复数据和异常交通流速度,具体包括如下步骤:
69.步骤s1101,统计调整后的交调关联表中目标属性在指定时间段内的数据记录总量、取值种数和每一种取值出现的频数。
70.其中,目标属性表示指定属性中的任一属性。
71.步骤s1102,基于数据记录总量和取值种数,计算每种取值的平均出现频数。
72.步骤s1103,若目标取值出现的频数大于或者等于平均出现频数,则确定目标取值为异常重复数据。
73.其中,目标取值表示多种取值中的任一种取值。
74.基于上述步骤s1101-s1102中的描述可知,判定目标取值是否为异常重复数据的判定函数可表示为:其中,s
t
′
.bt.d
表示调整后的交调关联表t
′
中目标属性bt在指定时间段d内的数据记录总量,k表示调整后的交调关联表t
′
中目标属性bt在指定时间段d内的取值种数,t
′
.bt.yk表示调整后的交调关联表t
′
中目标属性bt的第k种取值,k=1,2,
…
,k,f(t
′
.bt.yk)表示t
′
.bt.yk在t
′
中出现的频数,表示平均出现频数。如果h(t
′
.bt.yk)=1,则说明t
′
.bt.yk是正常数据;如果h(t
′
.bt.yk)=0,则说明t
′
.bt.yk是异常重复数据。需要说明的是,进行异常重复数据的识别适用于数值型数据,并不适用于分类型数据。可选地,仅对交调关联表中各种车型的速度变量的取值进行异常重复数据识别即可。
75.步骤s1104,获取目标交调站交通流的自由流速度下限、公路通行能力和公路二级服务水平系数。
76.一般地,公路通行能力的单位是“pcu/15min.ln”或者“pcu/1h.ln”,“pcu/15min.ln”的含义是单位时间(15min)内能够通过一条车道(ln)的最多标准车辆数(pcu)。
77.步骤s1105,在调整后的交调关联表中目标采样点的实际交通流量小于目标流量,并且,目标采样点的实际交通流速度小于交通流的自由流速度下限的情况下,确定目标采样点的实际交通流速度为异常交通流速度。
78.其中,目标流量为目标交调站的公路通行能力和公路二级服务水平系数乘积后的结果。目标采样点表示调整后的交调关联表中的任一采样点,也即,任一数据记录。
79.在本发明实施例中,如果目标交调站交通流的自由流速度下限表示为目标采样点的实际交通流速度表示为g
x
,对应的实际交通流量表示为v
x
,公路通行能力表示为cw
,公路二级服务水平系数表示为lw,其中,w=0,1,2,
…
,w,w表示不同公路等级,0为高速公路,1为一级公路,以此类推,那么可定义异常交通流速度的识别函数表示为:也就是说,针对某一采样点,如果其实际交通流量v
x
满足v
x
《lw*cw时,v
x
对应的g
x
也满足那么说明该采样点的实际交通流速度为正常交通流速度;如果实际交通流量v
x
满足v
x
《lw*cw时,v
x
对应的那么说明该采样点的实际交通流速度为异常交通流速度。
80.例如,高速公路二级服务水平系数l0=0.35,一级公路二级服务水平系数l1=0.3,高速公路自由流速度下限一级公路自由流速度下限图2为本发明实施例提供的某交调站的流速关系图,图2中x轴代表交通流量,y轴代表交通流速度。该交调站位于高速公路,且对应的通行能力为c0=500pcu/15min.ln。因此,较低交通流量的临界值为l0*c0=175pcu。当v
x
《175pcu时,若g
x
《60km/h,则该采样点(v
x
,g
x
)被识别为异常。
81.在确定出调整后的交调关联表中的异常重复数据和异常交通流速度之后,将上述两种异常数据对应的数据记录从调整后的交调关联表中剔除,从而得到目标交调站清洗后的交调关联表。
82.在一个可选的实施方式中,在得到所述目标交调站清洗后的交调关联表之后,本发明方法还包括如下步骤:
83.步骤s201,对清洗后的交调关联表中的交通流量进行归一化处理,得到归一化的交调关联表。
84.具体的,对交通流量这一类属性,即小客车流量'xkc',大客车流量'dkc',小货车流量'xhc',中货车流量'zhc',大货车流量'dhc',特大货车流量'tdh'等属性变量,通常情况下,不同种类的交通流量之间量纲差异较大,无法客观观察不同车型交通流量的时变差异性。因此,本发明实施例定义数据归一化算式:其中,r表示第一属性变量的取值,第一属性变量表示任一种交通流量,r
max
表示清洗后的交调关联表中的第一属性变量取值中的最大值,r
min
表示清洗后的交调关联表中的第一属性变量取值中的最小值,r
′
表示将r归一化后的结果。利用上述归一化算式处理清洗后的交调关联表,即可得到归一化的交调关联表,以便对不同车型交通流量的时变差异进行对比。
85.例如,选取某个交调站为研究对象,图3为本发明实施例提供的某交调站的交通流量数据归一化前后的对比图,其小客车流量'xkc',大客车流量'dkc',小货车流量'xhc',中货车流量'zhc',大货车流量'dhc'以及特大货车流量'tdh'等6个属性变量的原始时变特征如图3的左侧所示。图3中小客车流量最大值为331056辆,小客车流量最小值为56辆,对小客车流量做归一化处理得到小客车流量归一化后的时变特征。以此类推,分别对大客车流量、小货车流量、中货车流量、大货车流量以及特大货车流量进行归一化处理,得到如图3右侧所示的归一化后的时变特征。
86.步骤s202,基于归一化的交调关联表和每种车型的预设当量换算系数,计算每条采样记录对应的汽车当量。
87.如果汽车当量(passenger car unit,pcu)是需求,公路通行能力就是供给(只考虑汽车当量,不考虑车型),根据供需即可判断公路服务水平。因此,可利用归一化的交调关联表进一步计算出不同采样记录对应的汽车当量。
88.对于交通流量,各车型交通流量记为vz,z=1,2,
…
,z;z为交调关联表中的车型数量;各车型当量换算系数为coez,则定义汽车当量的计算公式为:
89.例如选取六种车型对应的流量,分别为小客车流量xkc、大客车流量dkc、小货车流量xhc、中货车流量zhc、大货车流量dhc和特大货车流量tdh,客车当量为kcdl,货车当量为hcdl,汽车当量为qcdl。定义各种车型当量换算系数如下:coe
xkc
=1;coe
dkc
=1.5;coe
xhc
=1;coe
zhc
=1.5;coe
dhc
=3;coe
tdhc
=4。则qcdl=kcdl+hcdl=xkc+1.5dkc+xhc+1.5zhc+3dhc+4tdhc。
90.综上所述,本发明所提出的公路交通大数据处理方法,针对关系型数据库中的数据表,可利用计算机技术实现自动化的数据清洗作业,在数据清洗的过程中会针对数据表中的不同字段选择不同的清洗策略并加以应用,数据清洗的准确性显著提升。整个过程中无需人工建立数据表之间的关系及相关分析,最大限度地节约了人力资源,提高了数据清洗效率,强化了数据应用便利性。同时,本发明的方法从最基本的数据标准和规则出发,对数据进行清洗。并且方法本身不依赖于特定行业,具有良好的普适性和通用性。根据数据分布特征和应用需要,可以对该方法进行优化使其具有更好的场景适应性。
91.实施例二
92.本发明实施例还提供了一种公路交通大数据处理装置,该公路交通大数据处理装置主要用于执行上述实施例一所提供的公路交通大数据处理方法,以下对本发明实施例提供的公路交通大数据处理装置做具体介绍。
93.图4是本发明实施例提供的一种公路交通大数据处理装置的功能模块图,如图4所示,该装置主要包括:获取模块10,关联整合模块20,缺失值分析模块30,调整模块40,确定与剔除模块50,其中:
94.获取模块10,用于获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表。
95.关联整合模块20,用于根据交调站编号对交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表进行关联整合,得到每个交调站对应的交调关联表。
96.缺失值分析模块30,用于基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到目标交调站的指定属性的数值缺失率;其中,目标交调站表示所有交调站中的任一交调站。
97.调整模块40,用于在确定目标交调站的交调关联表有效的情况下,基于数值缺失率调整目标交调站的交调关联表,得到调整后的交调关联表。
98.确定与剔除模块50,用于确定调整后的交调关联表中的异常重复数据和异常交通流速度,并剔除相应的数据记录,得到目标交调站清洗后的交调关联表。
99.本发明实施例提供的公路交通大数据处理装置,首先获取到交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表,然后根据交调站编
号对上述多个表格进行关联整合,以得到每个交调站对应的交调关联表,接下来,利用预设变量取值规则集合和目标交调站的交调关联表计算指定属性的数值缺失率,进而调整目标交调站的交调关联表,最后剔除调整后的交调关联表中的异常重复数据和异常交通流速度对应的数据记录,从而得到目标交调站清洗后的交调关联表。该装置在对交通大数据进行处理的过程中无需人工建立数据表之间的关系及相关分析,最大限度地节约了人力资源,提高了数据清洗效率,强化了数据应用便利性。
100.可选地,缺失值分析模块30具体用于:
101.统计目标交调站的交调关联表的数据记录总数,以及确定预设变量取值规则集合中目标属性对应的子规则集合;其中,目标属性表示指定属性中的任一属性。
102.遍历目标交调站的交调关联表中目标属性的每一个取值,并判断取值是否符合子规则集合。
103.统计交调关联表中目标属性的取值符合子规则集合的数据记录数量,得到目标数量。
104.基于交调关联表的数据记录总数和目标数量,计算目标交调站的目标属性的数值缺失率。
105.可选地,该装置还用于:
106.判断目标交调站的目标属性的数值缺失率是否大于或等于第一预设阈值。
107.若是,则确定目标交调站的交调关联表无效。
108.若否,则确定目标交调站的交调关联表有效。
109.可选地,调整模块40具体用于:
110.若目标交调站的目标属性的数值缺失率小于或等于第二预设阈值,则将交调关联表中的目标数据记录进行删除,得到调整后的交调关联表;其中,目标数据记录表示目标属性的取值不符合子规则集合的数据记录。
111.若目标交调站的目标属性的数值缺失率大于第二预设阈值并小于第一预设阈值,则采用多重填补法替换目标数据记录中的数值,得到调整后的交调关联表。
112.可选地,确定与剔除模块50具体用于:
113.统计调整后的交调关联表中目标属性在指定时间段内的数据记录总量、取值种数和每一种取值出现的频数;其中,目标属性表示指定属性中的任一属性。
114.基于数据记录总量和取值种数,计算每种取值的平均出现频数。
115.若目标取值出现的频数大于或者等于平均出现频数,则确定目标取值为异常重复数据。
116.获取目标交调站交通流的自由流速度下限、公路通行能力和公路二级服务水平系数。
117.在调整后的交调关联表中目标采样点的实际交通流量小于目标流量,并且,目标采样点的实际交通流速度小于交通流的自由流速度下限的情况下,确定目标采样点的实际交通流速度为异常交通流速度;其中,目标流量为目标交调站的公路通行能力和公路二级服务水平系数乘积后的结果。
118.可选地,该装置还用于:
119.对清洗后的交调关联表中的交通流量进行归一化处理,得到归一化的交调关联
表。
120.基于归一化的交调关联表和每种车型的预设当量换算系数,计算每条采样记录对应的汽车当量。
121.可选地,目标交调站的目标属性的数值缺失率的计算公式为:其中,m表示交调关联表t的数据记录总数,表示目标数量,n表示子规则集合中的规则条数,t.bt.xj表示交调关联表t中目标属性bt的第j条取值,p(t.bt)表示目标交调站的目标属性bt的数值缺失率。
122.实施例三
123.参见图5,本发明实施例提供了一种电子设备,该电子设备包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
124.其中,存储器61可能包含高速随机存取存储器(ram,random access memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
125.总线62可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
126.其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
127.处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本
领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
128.本发明实施例所提供的一种交通大数据方法和装置的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
129.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
130.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
131.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
132.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
133.此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
134.在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
135.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
技术特征:
1.一种公路交通大数据处理方法,其特征在于,包括:获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表;根据交调站编号对所述交调站点属性表、所述交调流速数据总表、所述交调站实际自由流速度表和所述交调站实际通行能力表进行关联整合,得到每个交调站对应的交调关联表;基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到所述目标交调站的指定属性的数值缺失率;其中,所述目标交调站表示所有交调站中的任一交调站;在确定所述目标交调站的交调关联表有效的情况下,基于所述数值缺失率调整所述目标交调站的交调关联表,得到调整后的交调关联表;确定所述调整后的交调关联表中的异常重复数据和异常交通流速度,并剔除相应的数据记录,得到所述目标交调站清洗后的交调关联表。2.根据权利要求1所述的公路交通大数据处理方法,其特征在于,基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到所述目标交调站的指定属性的数值缺失率,包括:统计所述目标交调站的交调关联表的数据记录总数,以及确定所述预设变量取值规则集合中目标属性对应的子规则集合;其中,所述目标属性表示所述指定属性中的任一属性;遍历所述目标交调站的交调关联表中所述目标属性的每一个取值,并判断所述取值是否符合所述子规则集合;统计所述交调关联表中目标属性的取值符合所述子规则集合的数据记录数量,得到目标数量;基于所述交调关联表的数据记录总数和所述目标数量,计算所述目标交调站的目标属性的数值缺失率。3.根据权利要求2所述的公路交通大数据处理方法,其特征在于,在基于所述数值缺失率调整所述目标交调站的交调关联表之前,所述方法还包括:判断所述目标交调站的目标属性的数值缺失率是否大于或等于第一预设阈值;若是,则确定所述目标交调站的交调关联表无效;若否,则确定所述目标交调站的交调关联表有效。4.根据权利要求3所述的公路交通大数据处理方法,其特征在于,基于所述数值缺失率调整所述目标交调站的交调关联表,包括:若所述目标交调站的目标属性的数值缺失率小于或等于第二预设阈值,则将所述交调关联表中的目标数据记录进行删除,得到调整后的交调关联表;其中,所述目标数据记录表示所述目标属性的取值不符合所述子规则集合的数据记录;若所述目标交调站的目标属性的数值缺失率大于所述第二预设阈值并小于所述第一预设阈值,则采用多重填补法替换所述目标数据记录中的数值,得到调整后的交调关联表。5.根据权利要求1所述的公路交通大数据处理方法,其特征在于,确定所述调整后的交调关联表中的异常重复数据和异常交通流速度,包括:统计所述调整后的交调关联表中目标属性在指定时间段内的数据记录总量、取值种数
和每一种取值出现的频数;其中,所述目标属性表示所述指定属性中的任一属性;基于所述数据记录总量和所述取值种数,计算每种取值的平均出现频数;若目标取值出现的频数大于或者等于所述平均出现频数,则确定所述目标取值为异常重复数据;获取所述目标交调站交通流的自由流速度下限、公路通行能力和公路二级服务水平系数;在所述调整后的交调关联表中目标采样点的实际交通流量小于目标流量,并且,所述目标采样点的实际交通流速度小于所述交通流的自由流速度下限的情况下,确定所述目标采样点的实际交通流速度为异常交通流速度;其中,所述目标流量为所述目标交调站的公路通行能力和所述公路二级服务水平系数乘积后的结果。6.根据权利要求1所述的公路交通大数据处理方法,其特征在于,所述方法还包括:对所述清洗后的交调关联表中的交通流量进行归一化处理,得到归一化的交调关联表;基于所述归一化的交调关联表和每种车型的预设当量换算系数,计算每条采样记录对应的汽车当量。7.根据权利要求2所述的公路交通大数据处理方法,其特征在于,所述目标交调站的目标属性的数值缺失率的计算公式为:其中,m表示交调关联表t的数据记录总数,表示所述目标数量,n表示所述子规则集合中的规则条数,t.bt.x
j
表示交调关联表t中目标属性bt的第j条取值,p(t.bt)表示所述目标交调站的目标属性bt的数值缺失率。8.一种公路交通大数据处理装置,其特征在于,包括:获取模块,用于获取交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表;关联整合模块,用于根据交调站编号对所述交调站点属性表、所述交调流速数据总表、所述交调站实际自由流速度表和所述交调站实际通行能力表进行关联整合,得到每个交调站对应的交调关联表;缺失值分析模块,用于基于预设变量取值规则集合对目标交调站的交调关联表进行数据缺失值分析,得到所述目标交调站的指定属性的数值缺失率;其中,所述目标交调站表示所有交调站中的任一交调站;调整模块,用于在确定所述目标交调站的交调关联表有效的情况下,基于所述数值缺失率调整所述目标交调站的交调关联表,得到调整后的交调关联表;确定与剔除模块,用于确定所述调整后的交调关联表中的异常重复数据和异常交通流
速度,并剔除相应的数据记录,得到所述目标交调站清洗后的交调关联表。9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的公路交通大数据处理方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现权利要求1至7中任一项所述的公路交通大数据处理方法。
技术总结
本发明提供了一种公路交通大数据处理方法和装置,涉及大数据处理的技术领域,包括:获取到交调站点属性表、交调流速数据总表、交调站实际自由流速度表和交调站实际通行能力表;根据交调站编号对上述多个表格进行关联整合,以得到每个交调站对应的交调关联表;利用预设变量取值规则集合和目标交调站的交调关联表计算指定属性的数值缺失率,进而调整目标交调站的交调关联表;剔除调整后的交调关联表中的异常重复数据和异常交通流速度对应的数据记录,从而得到目标交调站清洗后的交调关联表。该方法在对交通大数据进行处理的过程中无需人工建立数据表之间的关系及相关分析,最大限度地节约了人力资源,提高了数据清洗效率,强化了数据应用便利性。化了数据应用便利性。化了数据应用便利性。
技术研发人员:刘文芝 顾明臣 刘增军 蹇峰 黄叒 徐华军 黄兴华
受保护的技术使用者:交通运输部规划研究院
技术研发日:2023.03.08
技术公布日:2023/5/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
