一种公交车出行特征识别方法、装置、设备及介质与流程
未命名
07-18
阅读:134
评论:0
1.本发明涉及数据处理技术领域,尤其是涉及一种公交车出行特征识别方法、装置、终端设备及计算机可读存储介质。
背景技术:
2.城市人口数量和空间规模的迅速扩大推动了居民出行需求的快速增长,随之带来的城市交通结构失衡和交通拥堵等问题导致交通压力和环境污染问题日益增大,严重影响人们的健康生活与城市的可持续发展。为优化出行结构、缓解交通压力,在绿色、低碳发展理念的导向下,地面公交车已逐渐成为居民日常出行的主要方式之一。作为运量大、低碳环保且性价比高的出行方式,公交车出行在城市居民日常出行中占比高,是城市交通发展的重要方向之一,准确识别并归纳公交车出行特征,对于改善出行服务水平、缓解交通拥堵、优化城市出行结构具有重要意义,在公交线网优化、动态调度、城市公共资源优化配置等方面具有重要应用。现有的公交车出行特征识别方法通常采样人工调查方式获取居民出行数据,但该方法存在数据获取周期长、时效性差、样本量小的问题,且容易因受调查者的记忆模糊或专业概念误解而导致居民出行数据失真的问题,因此现有技术难以准确地对公交车出行特征进行识别。
技术实现要素:
3.本发明提供一种公交车出行特征识别方法、装置、设备及介质,以解决现有技术难以准确地对公交车出行特征进行识别的问题,考虑了手机信令数据以及公交车场景的特点,融合了时间信息与空间信息,通过计算用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度进行公交车线路序列识别,进而确定用户的公交车出行特征,能够提高公交车出行特征的识别准确率,且适用于大规模的公交车出行特征识别场景。
4.为了解决上述技术问题,本发明实施例第一方面提供一种公交车出行特征识别方法,包括如下步骤:
5.获取待识别用户在预设识别时间段内的基站轨迹数据,并对所述基站轨迹数据进行预处理,获得目标基站轨迹数据;
6.基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,并根据所述若干停留区域对所述目标基站轨迹数据进行轨迹划分,获得用户旅程轨迹数据;
7.基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据所述相似度与预设相似度阈值的比较结果,确定所述用户旅程轨迹数据中每段旅程轨迹数据所对应的若干候选公交车线路序列;
8.根据每段旅程轨迹数据所包含的若干基站的坐标数据、旅程起始时间和旅程结束时间,计算每段旅程轨迹数据所对应的平均速度,并根据所述旅程起始时间和预先将一天划分所得的若干时间区间,确定每个平均速度所对应的时间区间;
9.将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值;
10.根据每段旅程轨迹数据与每个候选公交车线路序列的相似度、每段旅程轨迹数据所对应的平均速度与每个平均速度所对应的时间区间内的速度阈值的比较结果,确定每段旅程轨迹数据所对应的目标公交车线路序列;
11.根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据、所述旅程起始时间和所述旅程结束时间,确定所述待识别用户在所述预设识别时间段内的公交车出行特征。
12.作为优选方案,所述基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,具体包括如下步骤:
13.根据所述目标基站轨迹数据所包含的第一个基站的坐标数据、基站连接开始时间和基站连接结束时间,确定第一候选停留区域的位置信息和停留时间,并将所述第一候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;
14.按照所述目标基站轨迹数据中预设的基站顺序,依次计算所述目标基站轨迹数据所包含的第i个基站的坐标数据与当前最后一个候选停留区域的位置信息之间的相距距离;其中,i为大于1的整数;
15.当所述相距距离小于所述基站空间阈值时,根据所述第i个基站的坐标数据和基站连接结束时间对当前最后一个候选停留区域的位置信息和停留时间进行更新;
16.当所述相距距离大于或等于所述基站空间阈值时,根据所述第i个基站的坐标数据、基站连接开始时间和所述基站连接结束时间,确定新增候选停留区域的位置信息和停留时间,并将所述新增候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;
17.根据所述第一候选停留区域的停留时间和若干所述新增候选停留区域的停留时间,将所述停留时间小于所述停留时间阈值的第一候选停留区域/新增候选停留区域筛除,确定若干停留区域。
18.作为优选方案,每个公交车线路序列包括按照预设站点顺序排列的若干公交站点的位置信息;
19.则,所述基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括如下步骤:
20.基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度:
[0021][0022]
其中,lk表示第k个公交车线路序列;trai表示第i段旅程轨迹数据;s
i,j
和s
i,j+1
分别表示第i段旅程轨迹数据中第j个基站和第j+1个基站的位置信息;sim
′
(s
i,jsi,j+1
,lk)表示子轨迹(s
i,jsi,j+1
)与第k个公交车线路序列lk的距离,sim
′
(s
i,jsi,j+1
,lk)=max(dis(s
i,j
,lk),dis(s
i,j+1
,lk)),dis(s
i,j
,lk)表示第j个基站与第k个公交车线路序列的距离,dis(s
i,j+1
,lk)表示第j+1个基站与第k个公交车线路序列的距离,dis(s
i,j
,lk)=min{dis(s
i,j
,bk,q
),q=1,2,
…
,m},b
k,q
表示第k个公交车线路序列中第q个公交站点的位置信息;w
j,j+1
表示子轨迹(s
i,jsi,j+1
)的权重,由如下表达式计算获得:
[0023][0024]
表示第i段旅程轨迹数据中第j+1个基站的基站连接开始时间;表示第i段旅程轨迹数据中第j个基站的基站连接开始时间;表示第i段旅程轨迹数据中最后一个基站的基站连接开始时间;表示第i段旅程轨迹数据中第1个基站的基站连接开始时间。
[0025]
作为优选方案,所述将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值,具体包括如下步骤:
[0026]
利用k-means聚类算法将每个时间区间所对应的若干平均速度进行聚类,以将每个时间区间所对应的若干平均速度划分为四个速度类别;
[0027]
对每个时间区间内每个速度类别所对应的若干平均速度进行求平均计算,获得每个速度类别所对应的类别平均速度;
[0028]
将每个时间区间内四个速度类别所对应的类别平均速度进行降序排列,分别确定每个时间区间内的地铁平均速度、汽车平均速度、公交车平均速度和非机动车平均速度;
[0029]
根据每个时间区间内的公交车平均速度,确定所述候选公交车线路序列在每个时间区间内的速度阈值。
[0030]
作为优选方案,所述方法在基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度之前,还包括如下步骤:
[0031]
计算所述用户旅程轨迹数据所包含的每个基站与若干公交车线路序列所包含的每个公交站点之间的距离;当存在任意一个基站与任意一个公交站点之间的距离小于预设距离阈值时,将所述任意一个公交站点作为所述任意一个基站的索引站点,将包含所述任意一个公交站点的公交车线路序列作为所述任意一个基站的索引线路序列;
[0032]
则,所述基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括如下步骤:
[0033]
根据每段旅程轨迹数据中第一个基站所对应的第一索引线路序列及最后一个基站所对应的第二索引线路序列,判断任意一个公交车线路序列是否属于任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列;
[0034]
当所述任意一个公交车线路序列不属于所述任意一段旅程轨迹数据所对应的第一索引线路序列或第二索引线路序列时,判定所述任意一个公交车线路序列不为所述任意一段旅程轨迹数据所对应的候选公交车线路序列;
[0035]
当所述任意一个公交车线路序列属于所述任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列时,通过表达式:索引线路序列和第二索引线路序列时,通过表达式:计算所述任意一个公交车线路序列与所述任意一段旅程轨迹数据的相似度。
[0036]
作为优选方案,所述方法具体通过如下步骤计算参数dis(s
i,j
,b
k,q
):
[0037]
当第k个公交车线路序列中第q个公交站点b
k,q
属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据所述第j个基站s
i,j
与所述目标索引站点之间的距离,获得所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离;
[0038]
当第k个公交车线路序列中第q个公交站点b
k,q
不属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据预设的距离设定值对所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离进行赋值。
[0039]
作为优选方案,所述对所述基站轨迹数据进行预处理,获得目标基站轨迹数据,具体包括如下步骤:
[0040]
当所述基站轨迹数据中存在第i-1个基站的位置信息与第i+1个基站的位置信息相同,第i-1个基站的位置信息与第i个基站的位置信息不相同,且第i+1个基站的基站连接时间与第i-1个基站的基站连接时间之间的差值小于预设时间阈值时,将第i个基站的位置信息和基站连接时间删除,获得一次降噪基站轨迹数据;
[0041]
当所述一次降噪基站轨迹数据中存在且时,判定第i个基站的位置信息和基站连接时间为错误数据并进行删除,当所述一次降噪基站轨迹数据中存在且时,判定第i-1个基站的位置信息和基站连接时间为错误数据并进行删除,获得二次降噪基站轨迹数据;
[0042]
当所述二次降噪基站轨迹数据中存在第i-1个基站的位置信息与第i个基站的位置信息相同时,将第i-1个基站的位置信息与第i个基站的位置信息合并,并将第i-1个基站的基站连接时间作为第i-1个基站的基站连接开始时间,将第i个基站的基站连接时间作为基站连接结束时间,获得所述目标基站轨迹数据;
[0043]
其中,i为大于1的整数;s
i-1
表示第i-1个基站的位置信息;si表示第i个基站的位置信息;s
i+1
表示第i+1个基站的位置信息;t
i-1
表示第i-1个基站的基站连接时间;ti表示第i个基站的基站连接时间;t
i+1
表示第i+1个基站的基站连接时间;ρ表示预设移动速度阈值。
[0044]
本发明实施例第二方面提供一种公交车出行特征识别装置,包括:
[0045]
预处理模块,用于获取待识别用户在预设识别时间段内的基站轨迹数据,并对所述基站轨迹数据进行预处理,获得目标基站轨迹数据;
[0046]
轨迹划分模块,用于基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,并根据所述若干停留区域对所述目标基站轨迹数据进行轨迹划分,获得用户旅程轨迹数据;
[0047]
候选公交车线路序列获取模块,用于基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据所述相似度与预设相似度阈值的比较结果,确定所述用户旅程轨迹数据中每段旅程轨迹数据所对应的若干候选公交车线路序列;
[0048]
平均速度计算模块,用于根据每段旅程轨迹数据所包含的若干基站的坐标数据、旅程起始时间和旅程结束时间,计算每段旅程轨迹数据所对应的平均速度,并根据所述旅程起始时间和预先将一天划分所得的若干时间区间,确定每个平均速度所对应的时间区
间;
[0049]
速度阈值确定模块,用于将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值;
[0050]
目标公交车线路序列确定模块,用于根据每段旅程轨迹数据与每个候选公交车线路序列的相似度、每段旅程轨迹数据所对应的平均速度与每个平均速度所对应的时间区间内的速度阈值的比较结果,确定每段旅程轨迹数据所对应的目标公交车线路序列;
[0051]
公交车出行特征确定模块,用于根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据、所述旅程起始时间和所述旅程结束时间,确定所述待识别用户在所述预设识别时间段内的公交车出行特征。
[0052]
本发明实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的公交车出行特征识别方法。
[0053]
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的公交车出行特征识别方法。
[0054]
相比于现有技术,本发明实施例的有益效果在于,考虑了手机信令数据以及公交车场景的特点,融合了时间信息与空间信息,通过计算用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度进行公交车线路序列识别,进而确定用户的公交车出行特征,能够提高公交车出行特征的识别准确率,且适用于大规模的公交车出行特征识别场景。
附图说明
[0055]
图1是本发明实施例中的公交车出行特征识别方法的流程示意图;
[0056]
图2是本发明实施例中的公交车出行特征识别装置的结构示意图。
具体实施方式
[0057]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0058]
参见图1,本发明实施例第一方面提供一种公交车出行特征识别方法,包括如下步骤s1至步骤s7:
[0059]
步骤s1,获取待识别用户在预设识别时间段内的基站轨迹数据,并对所述基站轨迹数据进行预处理,获得目标基站轨迹数据;
[0060]
步骤s2,基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,并根据所述若干停留区域对所述目标基站轨迹数据进行轨迹划分,获得用户旅程轨迹数据;
[0061]
步骤s3,基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据所述相似度与预设相似度阈值的比较
结果,确定所述用户旅程轨迹数据中每段旅程轨迹数据所对应的若干候选公交车线路序列;
[0062]
步骤s4,根据每段旅程轨迹数据所包含的若干基站的坐标数据、旅程起始时间和旅程结束时间,计算每段旅程轨迹数据所对应的平均速度,并根据所述旅程起始时间和预先将一天划分所得的若干时间区间,确定每个平均速度所对应的时间区间;
[0063]
步骤s5,将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值;
[0064]
步骤s6,根据每段旅程轨迹数据与每个候选公交车线路序列的相似度、每段旅程轨迹数据所对应的平均速度与每个平均速度所对应的时间区间内的速度阈值的比较结果,确定每段旅程轨迹数据所对应的目标公交车线路序列;
[0065]
步骤s7,根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据、所述旅程起始时间和所述旅程结束时间,确定所述待识别用户在所述预设识别时间段内的公交车出行特征。
[0066]
具体地,手机信令数据是由手机用户在发生通话、发短信、使用网络或移动位置等事件时,被运营商的通信基站捕获并记录的数据,通常包含:用户id、连接时间、连接基站等。我们用si=(lati,loni)表示一个基站,其中(lati,loni)表示si的经纬度坐标。
[0067]
随着用户的移动,其手机连接的基站也会随之发生变化,因此我们可以使用用户连接的基站序列来表示用户的移动轨迹tra,称为用户的基站轨迹数据:tra={(s1,t1),(s2,t2),
…
,(si,ti),
…
(sn,tn)},其中si表示用户连接的第i个基站,ti表示其连接时间。
[0068]
由于基站覆盖范围较广,基站之间的覆盖范围存在重合的区域,因此手机信令数据往往存在较大的数据噪声与数据冗余,需要对基站轨迹数据进行预处理,从而获得目标基站轨迹数据。
[0069]
进一步地,本实施例基于预设的基站空间阈值和停留时间阈值,确定目标基站轨迹数据所对应的若干停留区域,即待识别用户在预设识别时间段内的若干停留区域,并根据若干停留区域将目标基站轨迹数据进行轨迹划分,使得每段轨迹最多只含有用户的一次公交出行。
[0070]
进一步地,本实施例使用bi=(loni,lati)表示一个公交站点的位置,其中(loni,lati)表示其经纬度坐标,公交车线路序列指的是公交站点的有序序列:lk={b
k,1,
,b
k,2
,
…
,b
k,q
,b
k,q+1
,
…
,b
k,m
},其中b
k,q
指的是第k条线路lk中的第q个公交站,通过计算用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据相似度与预设相似度阈值的比较结果,将相似度大于预设相似度阈值的若干公交车线路序列作为旅程轨迹数据所对应的若干候选公交车线路序列。
[0071]
进一步地,本实施例考虑到不同时间段(例如,高峰期与非高峰期)的速度变化差异很大,因此对于候选路线包含公交车线路序列lk的旅程轨迹数据trai,计算每段旅程轨迹数据所对应的平均速度,并根据旅程起始时间将该平均速度分配到预先划分的时间区间,平均速度的计算表达式如下:
[0072]
[0073]
其中,speed(trai)表示第i段旅程轨迹数据所对应的平均速度;s
i,j
和s
i,j+1
分别表示第i段旅程轨迹数据中第j个基站和第j+1个基站的位置信息;和分别表示旅程起始时间和旅程结束时间。
[0074]
进一步地,对于相同的行驶路线,不同的出行方式所对应的移动速度是不相同的,因此本实施例将每个时间区间所对应的若干平均速度进行聚类,确定候选公交车线路序列在每个时间区间内的速度阈值,以对用户是否采用某条公交线路进行验证。
[0075]
对于trai的候选公交车线路序列lk,如果trai的平均速度大于对应时间区间lk所对应的速度阈值,则认为lk不为trai的候选公交车线路序列,以此进行筛选,如果最终trai的候选公交车线路序列的数量仍然大于1,则选择相似度最大的候选公交车线路序列作为旅程轨迹数据所对应的目标公交车线路序列。
[0076]
进一步地,根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据,分别计算目标公交车线路序列中距离起始基站坐标数据和终点基站坐标数据最近的两个公交站点,分别作为起始站点与最终站点,将旅程轨迹数据所包含的旅程起始时间和旅程结束时间分别作为出发时间和到达时间,从而获得待识别用户在预设识别时间段内的公交车出行特征。
[0077]
作为优选方案,所述基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,具体包括如下步骤:
[0078]
根据所述目标基站轨迹数据所包含的第一个基站的坐标数据、基站连接开始时间和基站连接结束时间,确定第一候选停留区域的位置信息和停留时间,并将所述第一候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;
[0079]
按照所述目标基站轨迹数据中预设的基站顺序,依次计算所述目标基站轨迹数据所包含的第i个基站的坐标数据与当前最后一个候选停留区域的位置信息之间的相距距离;其中,i为大于1的整数;
[0080]
当所述相距距离小于所述基站空间阈值时,根据所述第i个基站的坐标数据和基站连接结束时间对当前最后一个候选停留区域的位置信息和停留时间进行更新;
[0081]
当所述相距距离大于或等于所述基站空间阈值时,根据所述第i个基站的坐标数据、基站连接开始时间和所述基站连接结束时间,确定新增候选停留区域的位置信息和停留时间,并将所述新增候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;
[0082]
根据所述第一候选停留区域的停留时间和若干所述新增候选停留区域的停留时间,将所述停留时间小于所述停留时间阈值的第一候选停留区域/新增候选停留区域筛除,确定若干停留区域。
[0083]
具体地,一开始时,第一个候选停留区域只包含即第一个基站的坐标数据、基站连接开始时间和基站连接结束时间,我们用表示该候选停留区域的位置。接着按顺序从目标基站轨迹数据中取出下一个数据即第二个基站的坐标数据、基站连接开始时间和基站连接结束时间,如果(其中,β为空间阈值,例如
100m),则将第二个基站加入该候选停留区域,同时更新该候选区域为100m),则将第二个基站加入该候选停留区域,同时更新该候选区域为为其位置,时间段为逗留时间为否则,第二个基站则形成第二个候选停留区域。
[0084]
按照目标基站轨迹数据中预设的基站顺序,依次将每个基站数据与当前最后一个候选停留区域的数据进行比较,假设当前最后一个候选停留区域包含了则将当前最后一个候选停留区域的位置表示为所有位置的经纬度的平均值:如果则将所对应的基站加入当前最后一个候选停留区域,同时更新该区域的位置为时间段更新为逗留时间更新为否则形成新增候选停留区域
[0085]
进一步地,根据第一候选停留区域的停留时间和若干新增候选停留区域的停留时间,将停留时间小于停留时间阈值(例如15分钟)的第一候选停留区域/新增候选停留区域筛除,确定若干停留区域。
[0086]
最后,根据保留的若干停留区域,对目标基站轨迹数据进行轨迹划分。在本实施例中,对于包含n个停留区域的轨迹,我们规定,第1个停留区域为第一段旅程的起点,第n个停留区域为最后一段旅程的终点,第i个停留区域(1《i《n)为第i-1段旅程的终点,同时为第i段旅程的起点。每段旅程除了起点跟终点之外,还包含了起点与终点之间连接的基站。用户的第i段旅程,我们表示为的第i段旅程,我们表示为其中s
i,j
表示第i段旅程轨迹数据中第j个基站;表示第i段旅程轨迹数据中第j个基站的基站连接开始时间;表示第i段旅程轨迹数据中第j个基站的基站连接结束时间。
[0087]
作为优选方案,每个公交车线路序列包括按照预设站点顺序排列的若干公交站点的位置信息;
[0088]
则,所述基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括如下步骤:
[0089]
基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度:
[0090][0091]
其中,lk表示第k个公交车线路序列;trai表示第i段旅程轨迹数据;s
i,j
和s
i,j+1
分别表示第i段旅程轨迹数据中第j个基站和第j+1个基站的位置信息;sim
′
(s
i,jsi,j+1
,lk)表示子轨迹(s
i,jsi,j+1
)与第k个公交车线路序列lk的距离,sim
′
(s
i,jsi,j+1
,lk)=max(dis(s
i,j
,
lk),dis(s
i,j+1
,lk)),dis(s
i,j
,lk)表示第j个基站与第k个公交车线路序列的距离,dis(s
i,j+1
,lk)表示第j+1个基站与第k个公交车线路序列的距离,dis(s
i,j
,lk)=min{dis(s
i,j
,b
k,q
),q=1,2,
…
,m},b
k,q
表示第k个公交车线路序列中第q个公交站点的位置信息;w
j,j+1
表示子轨迹(s
i,jsi,j+1
)的权重,由如下表达式计算获得:
[0092][0093]
表示第i段旅程轨迹数据中第j+1个基站的基站连接开始时间;表示第i段旅程轨迹数据中第j个基站的基站连接开始时间;表示第i段旅程轨迹数据中最后一个基站的基站连接开始时间;表示第i段旅程轨迹数据中第1个基站的基站连接开始时间。
[0094]
值得说明的是,对于两个经纬度坐标为l1=(lat1,lon1)和l2=(lat2,lon2)的位置,表示两个经纬度坐标的距离计算公式:
[0095][0096]
其中,a=lat
1-lat2,b=lon
1-lon2,6378.13为地球半径,单位为千米。
[0097]
作为优选方案,所述将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值,具体包括如下步骤:
[0098]
利用k-means聚类算法将每个时间区间所对应的若干平均速度进行聚类,以将每个时间区间所对应的若干平均速度划分为四个速度类别;
[0099]
对每个时间区间内每个速度类别所对应的若干平均速度进行求平均计算,获得每个速度类别所对应的类别平均速度;
[0100]
将每个时间区间内四个速度类别所对应的类别平均速度进行降序排列,分别确定每个时间区间内的地铁平均速度、汽车平均速度、公交车平均速度和非机动车平均速度;
[0101]
根据每个时间区间内的公交车平均速度,确定所述候选公交车线路序列在每个时间区间内的速度阈值。
[0102]
具体地,对于相同的行驶路线,一般认为地铁的速度大于汽车的速度,而汽车的速度大于公交车的速度,公交车的速度大于非机动车的速度。针对每个候选公交车线路序列的每个时间区间,本实施例利用k-means聚类算法将每个时间区间所对应的若干平均速度进行聚类,以将每个时间区间所对应的若干平均速度划分为四个速度类别,并按降序排列,根据“地铁的速度大于汽车的速度,而汽车的速度大于公交车的速度,公交车的速度大于非机动车的速度”的假设,选择排列第三的平均速度作为候选公交车线路序列在对应时间区间的速度阈值。
[0103]
值得说明的是,对于每个区间的速度{speed1,speed2,
…
,speedn},k-means聚类算法描述如下:
[0104]
(1)首先选择4个五分位数的速度样本作为初始聚类中心;
[0105]
(2)针对该时间区间所对应的若干平均速度样本,计算它到4个聚类中心的距离,
并将其分到距离最小的聚类中心所对应的类中(此处速度的距离即为速度的差值);
[0106]
(3)针对每个新的类,对该类中的速度取平均,得到新的聚类中心;
[0107]
(4)重复上述(2)、(3)的操作,直到每个类的平均速度不再变化。
[0108]
作为优选方案,所述方法在基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度之前,还包括如下步骤:
[0109]
计算所述用户旅程轨迹数据所包含的每个基站与若干公交车线路序列所包含的每个公交站点之间的距离;当存在任意一个基站与任意一个公交站点之间的距离小于预设距离阈值时,将所述任意一个公交站点作为所述任意一个基站的索引站点,将包含所述任意一个公交站点的公交车线路序列作为所述任意一个基站的索引线路序列;
[0110]
则,所述基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括如下步骤:
[0111]
根据每段旅程轨迹数据中第一个基站所对应的第一索引线路序列及最后一个基站所对应的第二索引线路序列,判断任意一个公交车线路序列是否属于任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列;
[0112]
当所述任意一个公交车线路序列不属于所述任意一段旅程轨迹数据所对应的第一索引线路序列或第二索引线路序列时,判定所述任意一个公交车线路序列不为所述任意一段旅程轨迹数据所对应的候选公交车线路序列;
[0113]
当所述任意一个公交车线路序列属于所述任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列时,通过表达式:索引线路序列和第二索引线路序列时,通过表达式:计算所述任意一个公交车线路序列与所述任意一段旅程轨迹数据的相似度。
[0114]
作为优选方案,所述方法具体通过如下步骤计算参数dis(s
i,j
,b
k,q
):
[0115]
当第k个公交车线路序列中第q个公交站点b
k,q
属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据所述第j个基站s
i,j
与所述目标索引站点之间的距离,获得所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离;
[0116]
当第k个公交车线路序列中第q个公交站点b
k,q
不属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据预设的距离设定值对所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离进行赋值。
[0117]
具体地,公交线路识别包含大量的距离计算,为了避免冗余计算,提高计算效率,本实施例建立两种索引:索引站点和索引线路序列。
[0118]
对于索引站点,首先计算用户旅程轨迹数据所包含的每个基站与若干公交车线路序列所包含的每个公交站点之间的距离;当存在任意一个基站与任意一个公交站点之间的距离小于预设距离阈值时,将所述任意一个公交站点作为所述任意一个基站的索引站点,记录如下:
[0119]
index1(si)={bj|dis(si,bj)《1km}
[0120]
dis_index(si,bj)=dis(si,bj).
[0121]
对于索引线路序列,如果公交站bj为基站si的索引站点,则经过公交站bj的公交车线路序列为基站si的索引线路序列:
[0122]
index2(si)={lk|bj∈index1(si),bj∈lk}
[0123]
在index1(si)与index2(si)的基础上,我们可以进行下述的计算加速操作:
[0124]
在需要计算任意一个公交车线路序列与任意一段旅程轨迹数据的相似度时,当任意一个公交车线路序列不属于任意一段旅程轨迹数据所对应的第一索引线路序列或第二索引线路序列时,判定所述任意一个公交车线路序列不为所述任意一段旅程轨迹数据所对应的候选公交车线路序列;即或
[0125]
当所述任意一个公交车线路序列属于所述任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列时,通过表达式:索引线路序列和第二索引线路序列时,通过表达式:计算所述任意一个公交车线路序列与所述任意一段旅程轨迹数据的相似度。
[0126]
在需要计算参数dis(s
i,j
,b
k,q
)时,当第k个公交车线路序列中第q个公交站点b
k,q
属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点,即b
k,q
∈index1(s
i,j
)时,根据所述第j个基站s
i,j
与所述目标索引站点之间的距离dis_index(s
i,j
,bj),获得所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离,不需要重复进行计算。
[0127]
当第k个公交车线路序列中第q个公交站点b
k,q
不属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点,即时,同样不需要进行计算,直接根据预设的距离设定值τ(例如3km)对所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离进行赋值:dis(s
i,j
,b
k,q
)=τ。
[0128]
作为优选方案,所述对所述基站轨迹数据进行预处理,获得目标基站轨迹数据,具体包括如下步骤:
[0129]
当所述基站轨迹数据中存在第i-1个基站的位置信息与第i+1个基站的位置信息相同,第i-1个基站的位置信息与第i个基站的位置信息不相同,且第i+1个基站的基站连接时间与第i-1个基站的基站连接时间之间的差值小于预设时间阈值时,将第i个基站的位置信息和基站连接时间删除,获得一次降噪基站轨迹数据;
[0130]
当所述一次降噪基站轨迹数据中存在且时,判定第i个基站的位置信息和基站连接时间为错误数据并进行删除,当所述一次降噪基站轨迹数据中存在且时,判定第i-1个基站的位置信息和基站连接时间为错误数据并进行删除,获得二次降噪基站轨迹数据;
[0131]
当所述二次降噪基站轨迹数据中存在第i-1个基站的位置信息与第i个基站的位置信息相同时,将第i-1个基站的位置信息与第i个基站的位置信息合并,并将第i-1个基站的基站连接时间作为第i-1个基站的基站连接开始时间,将第i个基站的基站连接时间作为基站连接结束时间,获得所述目标基站轨迹数据;
[0132]
其中,i为大于1的整数;s
i-1
表示第i-1个基站的位置信息;si表示第i个基站的位置信息;s
i+1
表示第i+1个基站的位置信息;t
i-1
表示第i-1个基站的基站连接时间;ti表示第i个基站的基站连接时间;t
i+1
表示第i+1个基站的基站连接时间;ρ表示预设移动速度阈值。
[0133]
具体地,移动通信系统中,如果在一定区域里两基站信号强度剧烈变化,手机就会在两个基站间来回切换,产生所谓的“乒乓效应”。对于用户的基站轨迹数据,如果s
i-1
=s
i+1
且s
i-1
≠si,且t
i+1-t
i-1
《θ,则认为数据(si,ti)是由于乒乓效应导致的,为了避免计算冗余与提高识别准确性,我们将乒乓效应导致的数据进行剔除。其中θ为时间阈值,示例性地,可设定为5秒。
[0134]
对于用户的基站轨迹数据,本实施例通过计算用户的移动速度,来剔除错误的数据。当所述一次降噪基站轨迹数据中存在且时,判定第i个基站的位置信息和基站连接时间为错误数据并进行删除,当所述一次降噪基站轨迹数据中存在且时,判定第i-1个基站的位置信息和基站连接时间为错误数据并进行删除,获得二次降噪基站轨迹数据。示例性地,ρ设定为150km/h。
[0135]
进一步地,本实施例对重复的数据进行合并,减少数据冗余。当所述二次降噪基站轨迹数据中存在第i-1个基站的位置信息与第i个基站的位置信息相同时,将第i-1个基站的位置信息与第i个基站的位置信息合并,并将第i-1个基站的基站连接时间作为第i-1个基站的基站连接开始时间,将第i个基站的基站连接时间作为基站连接结束时间,获得所述目标基站轨迹数据。
[0136]
合并后的目标基站轨迹数据表示为:
[0137][0138]
其中表示合并后的目标基站轨迹数据中第i个基站开始连接的时间,为其最后一次连接的时间。
[0139]
本发明实施例提供的一种公交车出行特征识别方法,考虑了手机信令数据以及公交车场景的特点,融合了时间信息与空间信息,通过计算用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度进行公交车线路序列识别,进而确定用户的公交车出行特征,能够提高公交车出行特征的识别准确率,且适用于大规模的公交车出行特征识别场景。
[0140]
此外,本发明实施例不依赖于任何训练数据,更有利于技术方案的快速、稳定部署。
[0141]
本发明实施例能够自动获取每个公交车线路序列在不同时间区间的速度阈值,相比较使用统一阈值的方法,本发明实施例更加符合真实场景,更具合理性。
[0142]
参见图2,本发明实施例第二方面提供一种公交车出行特征识别装置,包括:
[0143]
预处理模块201,用于获取待识别用户在预设识别时间段内的基站轨迹数据,并对所述基站轨迹数据进行预处理,获得目标基站轨迹数据;
[0144]
轨迹划分模块202,用于基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,并根据所述若干停留区域对所述目标基站轨迹数据进行轨迹划分,获得用户旅程轨迹数据;
[0145]
候选公交车线路序列获取模块203,用于基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据所述相
似度与预设相似度阈值的比较结果,确定所述用户旅程轨迹数据中每段旅程轨迹数据所对应的若干候选公交车线路序列;
[0146]
平均速度计算模块204,用于根据每段旅程轨迹数据所包含的若干基站的坐标数据、旅程起始时间和旅程结束时间,计算每段旅程轨迹数据所对应的平均速度,并根据所述旅程起始时间和预先将一天划分所得的若干时间区间,确定每个平均速度所对应的时间区间;
[0147]
速度阈值确定模块205,用于将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值;
[0148]
目标公交车线路序列确定模块206,用于根据每段旅程轨迹数据与每个候选公交车线路序列的相似度、每段旅程轨迹数据所对应的平均速度与每个平均速度所对应的时间区间内的速度阈值的比较结果,确定每段旅程轨迹数据所对应的目标公交车线路序列;
[0149]
公交车出行特征确定模块207,用于根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据、所述旅程起始时间和所述旅程结束时间,确定所述待识别用户在所述预设识别时间段内的公交车出行特征。
[0150]
作为优选方案,所述轨迹划分模块202用于基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,具体包括:
[0151]
根据所述目标基站轨迹数据所包含的第一个基站的坐标数据、基站连接开始时间和基站连接结束时间,确定第一候选停留区域的位置信息和停留时间,并将所述第一候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;
[0152]
按照所述目标基站轨迹数据中预设的基站顺序,依次计算所述目标基站轨迹数据所包含的第i个基站的坐标数据与当前最后一个候选停留区域的位置信息之间的相距距离;其中,i为大于1的整数;
[0153]
当所述相距距离小于所述基站空间阈值时,根据所述第i个基站的坐标数据和基站连接结束时间对当前最后一个候选停留区域的位置信息和停留时间进行更新;
[0154]
当所述相距距离大于或等于所述基站空间阈值时,根据所述第i个基站的坐标数据、基站连接开始时间和所述基站连接结束时间,确定新增候选停留区域的位置信息和停留时间,并将所述新增候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;
[0155]
根据所述第一候选停留区域的停留时间和若干所述新增候选停留区域的停留时间,将所述停留时间小于所述停留时间阈值的第一候选停留区域/新增候选停留区域筛除,确定若干停留区域。
[0156]
作为优选方案,每个公交车线路序列包括按照预设站点顺序排列的若干公交站点的位置信息;
[0157]
则,所述候选公交车线路序列获取模块203用于基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括:
[0158]
基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度:
[0159][0160]
其中,lk表示第k个公交车线路序列;trai表示第i段旅程轨迹数据;s
i,j
和s
i,j+1
分别表示第i段旅程轨迹数据中第j个基站和第j+1个基站的位置信息;sim
′
(s
i,jsi,j+1
,lk)表示子轨迹(s
i,jsi,j+1
)与第k个公交车线路序列lk的距离,sim
′
(s
i,jsi,j+1
,lk)=max(dis(s
i,j
,lk),dis(s
i,j+1
,lk)),dis(s
i,j
,lk)表示第j个基站与第k个公交车线路序列的距离,dis(s
i,j+1
,lk)表示第j+1个基站与第k个公交车线路序列的距离,dis(s
i,j
,lk)=min{dis(s
i,j
,b
k,q
),q=1,2,
…
,m},b
k,q
表示第k个公交车线路序列中第q个公交站点的位置信息;w
j,j+1
表示子轨迹(s
i,jsi,j+1
)的权重,由如下表达式计算获得:
[0161][0162]
表示第i段旅程轨迹数据中第j+1个基站的基站连接开始时间;表示第i段旅程轨迹数据中第j个基站的基站连接开始时间;表示第i段旅程轨迹数据中最后一个基站的基站连接开始时间;表示第i段旅程轨迹数据中第1个基站的基站连接开始时间。
[0163]
作为优选方案,所述速度阈值确定模块205用于将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值,具体包括:
[0164]
利用k-means聚类算法将每个时间区间所对应的若干平均速度进行聚类,以将每个时间区间所对应的若干平均速度划分为四个速度类别;
[0165]
对每个时间区间内每个速度类别所对应的若干平均速度进行求平均计算,获得每个速度类别所对应的类别平均速度;
[0166]
将每个时间区间内四个速度类别所对应的类别平均速度进行降序排列,分别确定每个时间区间内的地铁平均速度、汽车平均速度、公交车平均速度和非机动车平均速度;
[0167]
根据每个时间区间内的公交车平均速度,确定所述候选公交车线路序列在每个时间区间内的速度阈值。
[0168]
作为优选方案,所述装置还包括索引构建模块,用于:
[0169]
计算所述用户旅程轨迹数据所包含的每个基站与若干公交车线路序列所包含的每个公交站点之间的距离;当存在任意一个基站与任意一个公交站点之间的距离小于预设距离阈值时,将所述任意一个公交站点作为所述任意一个基站的索引站点,将包含所述任意一个公交站点的公交车线路序列作为所述任意一个基站的索引线路序列;
[0170]
则,所述候选公交车线路序列获取模块203用于基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括:
[0171]
根据每段旅程轨迹数据中第一个基站所对应的第一索引线路序列及最后一个基站所对应的第二索引线路序列,判断任意一个公交车线路序列是否属于任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列;
[0172]
当所述任意一个公交车线路序列不属于所述任意一段旅程轨迹数据所对应的第一索引线路序列或第二索引线路序列时,判定所述任意一个公交车线路序列不为所述任意一段旅程轨迹数据所对应的候选公交车线路序列;
[0173]
当所述任意一个公交车线路序列属于所述任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列时,通过表达式:索引线路序列和第二索引线路序列时,通过表达式:计算所述任意一个公交车线路序列与所述任意一段旅程轨迹数据的相似度。
[0174]
作为优选方案,所述候选公交车线路序列获取模块203还用于:
[0175]
当第k个公交车线路序列中第q个公交站点b
k,q
属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据所述第j个基站s
i,j
与所述目标索引站点之间的距离,获得所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离;
[0176]
当第k个公交车线路序列中第q个公交站点b
k,q
不属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据预设的距离设定值对所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离进行赋值。
[0177]
作为优选方案,所述预处理模块201用于对所述基站轨迹数据进行预处理,获得目标基站轨迹数据,具体包括:
[0178]
当所述基站轨迹数据中存在第i-1个基站的位置信息与第i+1个基站的位置信息相同,第i-1个基站的位置信息与第i个基站的位置信息不相同,且第i+1个基站的基站连接时间与第i-1个基站的基站连接时间之间的差值小于预设时间阈值时,将第i个基站的位置信息和基站连接时间删除,获得一次降噪基站轨迹数据;
[0179]
当所述一次降噪基站轨迹数据中存在且时,判定第i个基站的位置信息和基站连接时间为错误数据并进行删除,当所述一次降噪基站轨迹数据中存在且时,判定第i-1个基站的位置信息和基站连接时间为错误数据并进行删除,获得二次降噪基站轨迹数据;
[0180]
当所述二次降噪基站轨迹数据中存在第i-1个基站的位置信息与第i个基站的位置信息相同时,将第i-1个基站的位置信息与第i个基站的位置信息合并,并将第i-1个基站的基站连接时间作为第i-1个基站的基站连接开始时间,将第i个基站的基站连接时间作为基站连接结束时间,获得所述目标基站轨迹数据;
[0181]
其中,i为大于1的整数;s
i-1
表示第i-1个基站的位置信息;si表示第i个基站的位置信息;s
i+1
表示第i+1个基站的位置信息;t
i-1
表示第i-1个基站的基站连接时间;ti表示第i个基站的基站连接时间;t
i+1
表示第i+1个基站的基站连接时间;ρ表示预设移动速度阈值。
[0182]
需要说明的是,本发明实施例所提供的一种公交车出行特征识别装置,能够实现上述任一实施例所述的公交车出行特征识别方法的所有流程,装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的公交车出行特征识别方法的作用以及实现的技术效果对应相同,这里不再赘述。
[0183]
本发明实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述
存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的公交车出行特征识别方法。
[0184]
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0185]
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一实施例所述的公交车出行特征识别方法。
[0186]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0187]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
技术特征:
1.一种公交车出行特征识别方法,其特征在于,包括如下步骤:获取待识别用户在预设识别时间段内的基站轨迹数据,并对所述基站轨迹数据进行预处理,获得目标基站轨迹数据;基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,并根据所述若干停留区域对所述目标基站轨迹数据进行轨迹划分,获得用户旅程轨迹数据;基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据所述相似度与预设相似度阈值的比较结果,确定所述用户旅程轨迹数据中每段旅程轨迹数据所对应的若干候选公交车线路序列;根据每段旅程轨迹数据所包含的若干基站的坐标数据、旅程起始时间和旅程结束时间,计算每段旅程轨迹数据所对应的平均速度,并根据所述旅程起始时间和预先将一天划分所得的若干时间区间,确定每个平均速度所对应的时间区间;将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值;根据每段旅程轨迹数据与每个候选公交车线路序列的相似度、每段旅程轨迹数据所对应的平均速度与每个平均速度所对应的时间区间内的速度阈值的比较结果,确定每段旅程轨迹数据所对应的目标公交车线路序列;根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据、所述旅程起始时间和所述旅程结束时间,确定所述待识别用户在所述预设识别时间段内的公交车出行特征。2.如权利要求1所述的公交车出行特征识别方法,其特征在于,所述基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,具体包括如下步骤:根据所述目标基站轨迹数据所包含的第一个基站的坐标数据、基站连接开始时间和基站连接结束时间,确定第一候选停留区域的位置信息和停留时间,并将所述第一候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;按照所述目标基站轨迹数据中预设的基站顺序,依次计算所述目标基站轨迹数据所包含的第i个基站的坐标数据与当前最后一个候选停留区域的位置信息之间的相距距离;其中,i为大于1的整数;当所述相距距离小于所述基站空间阈值时,根据所述第i个基站的坐标数据和基站连接结束时间对当前最后一个候选停留区域的位置信息和停留时间进行更新;当所述相距距离大于或等于所述基站空间阈值时,根据所述第i个基站的坐标数据、基站连接开始时间和所述基站连接结束时间,确定新增候选停留区域的位置信息和停留时间,并将所述新增候选停留区域的位置信息和停留时间作为当前最后一个候选停留区域的位置信息和停留时间;根据所述第一候选停留区域的停留时间和若干所述新增候选停留区域的停留时间,将所述停留时间小于所述停留时间阈值的第一候选停留区域/新增候选停留区域筛除,确定若干停留区域。3.如权利要求1所述的公交车出行特征识别方法,其特征在于,每个公交车线路序列包
括按照预设站点顺序排列的若干公交站点的位置信息;则,所述基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括如下步骤:基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度:其中,l
k
表示第k个公交车线路序列;tra
i
表示第i段旅程轨迹数据;s
i,j
和s
i,j+1
分别表示第i段旅程轨迹数据中第j个基站和第j+1个基站的位置信息;sim
′
(
i,j
s
i,j+1
,l
k
)表示子轨迹(
i,j
s
i,j+1
)与第k个公交车线路序列l
k
的距离,sim
′
(s
i,j
s
i,j+
1,l
k
)=max(dis(s
i,j
,l
k
),dis(s
i,j+1
,l
k
)),dis(s
i,j
,l
k
)表示第j个基站与第k个公交车线路序列的距离,dis(s
i,j+1
,l
k
)表示第j+1个基站与第k个公交车线路序列的距离,dis(s
i,j
,l
k
)=min{dis(s
i,j
,b
k,q
),q=1,2,...,m},b
k,q
表示第k个公交车线路序列中第q个公交站点的位置信息;w
j,j+1
表示子轨迹(s
i,j
s
i,j+1
)的权重,由如下表达式计算获得:)的权重,由如下表达式计算获得:表示第i段旅程轨迹数据中第j+1个基站的基站连接开始时间;表示第i段旅程轨迹数据中第j个基站的基站连接开始时间;表示第i段旅程轨迹数据中最后一个基站的基站连接开始时间;表示第i段旅程轨迹数据中第1个基站的基站连接开始时间。4.如权利要求1所述的公交车出行特征识别方法,其特征在于,所述将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值,具体包括如下步骤:利用k-means聚类算法将每个时间区间所对应的若干平均速度进行聚类,以将每个时间区间所对应的若干平均速度划分为四个速度类别;对每个时间区间内每个速度类别所对应的若干平均速度进行求平均计算,获得每个速度类别所对应的类别平均速度;将每个时间区间内四个速度类别所对应的类别平均速度进行降序排列,分别确定每个时间区间内的地铁平均速度、汽车平均速度、公交车平均速度和非机动车平均速度;根据每个时间区间内的公交车平均速度,确定所述候选公交车线路序列在每个时间区间内的速度阈值。5.如权利要求3所述的公交车出行特征识别方法,其特征在于,所述方法在基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度之前,还包括如下步骤:计算所述用户旅程轨迹数据所包含的每个基站与若干公交车线路序列所包含的每个公交站点之间的距离;当存在任意一个基站与任意一个公交站点之间的距离小于预设距离阈值时,将所述任意一个公交站点作为所述任意一个基站的索引站点,将包含所述任意一
个公交站点的公交车线路序列作为所述任意一个基站的索引线路序列;则,所述基于预设的若干公交车线路序列,通过如下表达式计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,具体包括如下步骤:根据每段旅程轨迹数据中第一个基站所对应的第一索引线路序列及最后一个基站所对应的第二索引线路序列,判断任意一个公交车线路序列是否属于任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列;当所述任意一个公交车线路序列不属于所述任意一段旅程轨迹数据所对应的第一索引线路序列或第二索引线路序列时,判定所述任意一个公交车线路序列不为所述任意一段旅程轨迹数据所对应的候选公交车线路序列;当所述任意一个公交车线路序列属于所述任意一段旅程轨迹数据所对应的第一索引线路序列和第二索引线路序列时,通过表达式:线路序列和第二索引线路序列时,通过表达式:计算所述任意一个公交车线路序列与所述任意一段旅程轨迹数据的相似度。6.如权利要求5所述的公交车出行特征识别方法,其特征在于,所述方法具体通过如下步骤计算参数dis(s
i,j
,b
k,q
):当第k个公交车线路序列中第q个公交站点b
k,q
属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据所述第j个基站s
i,j
与所述目标索引站点之间的距离,获得所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离;当第k个公交车线路序列中第q个公交站点b
k,q
不属于第i段旅程轨迹数据中第j个基站s
i,j
所对应的目标索引站点时,根据预设的距离设定值对所述第j个基站s
i,j
与所述第q个公交站点b
k,q
之间的距离进行赋值。7.如权利要求1所述的公交车出行特征识别方法,其特征在于,所述对所述基站轨迹数据进行预处理,获得目标基站轨迹数据,具体包括如下步骤:当所述基站轨迹数据中存在第i-1个基站的位置信息与第i+1个基站的位置信息相同,第i-1个基站的位置信息与第i个基站的位置信息不相同,且第i+1个基站的基站连接时间与第i-1个基站的基站连接时间之间的差值小于预设时间阈值时,将第i个基站的位置信息和基站连接时间删除,获得一次降噪基站轨迹数据;当所述一次降噪基站轨迹数据中存在且时,判定第i个基站的位置信息和基站连接时间为错误数据并进行删除,当所述一次降噪基站轨迹数据中存在且时,判定第i-1个基站的位置信息和基站连接时间为错误数据并进行删除,获得二次降噪基站轨迹数据;当所述二次降噪基站轨迹数据中存在第i-1个基站的位置信息与第i个基站的位置信息相同时,将第i-1个基站的位置信息与第i个基站的位置信息合并,并将第i-1个基站的基站连接时间作为第i-1个基站的基站连接开始时间,将第i个基站的基站连接时间作为基站连接结束时间,获得所述目标基站轨迹数据;
其中,i为大于1的整数;s
i-1
表示第i-1个基站的位置信息;s
i
表示第i个基站的位置信息;s
i+1
表示第i+1个基站的位置信息;t
i-1
表示第i-1个基站的基站连接时间;t
i
表示第i个基站的基站连接时间;t
i+1
表示第i+1个基站的基站连接时间;ρ表示预设移动速度阈值。8.一种公交车出行特征识别装置,其特征在于,包括:预处理模块,用于获取待识别用户在预设识别时间段内的基站轨迹数据,并对所述基站轨迹数据进行预处理,获得目标基站轨迹数据;轨迹划分模块,用于基于预设的基站空间阈值和停留时间阈值,确定所述目标基站轨迹数据所对应的若干停留区域,并根据所述若干停留区域对所述目标基站轨迹数据进行轨迹划分,获得用户旅程轨迹数据;候选公交车线路序列获取模块,用于基于预设的若干公交车线路序列,计算所述用户旅程轨迹数据中每段旅程轨迹数据与每个公交车线路序列的相似度,并根据所述相似度与预设相似度阈值的比较结果,确定所述用户旅程轨迹数据中每段旅程轨迹数据所对应的若干候选公交车线路序列;平均速度计算模块,用于根据每段旅程轨迹数据所包含的若干基站的坐标数据、旅程起始时间和旅程结束时间,计算每段旅程轨迹数据所对应的平均速度,并根据所述旅程起始时间和预先将一天划分所得的若干时间区间,确定每个平均速度所对应的时间区间;速度阈值确定模块,用于将每个时间区间所对应的若干平均速度进行聚类,确定所述候选公交车线路序列在每个时间区间内的速度阈值;目标公交车线路序列确定模块,用于根据每段旅程轨迹数据与每个候选公交车线路序列的相似度、每段旅程轨迹数据所对应的平均速度与每个平均速度所对应的时间区间内的速度阈值的比较结果,确定每段旅程轨迹数据所对应的目标公交车线路序列;公交车出行特征确定模块,用于根据所述目标公交车线路序列、每段旅程轨迹数据所包含的起始基站坐标数据、终点基站坐标数据、所述旅程起始时间和所述旅程结束时间,确定所述待识别用户在所述预设识别时间段内的公交车出行特征。9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的公交车出行特征识别方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的公交车出行特征识别方法。
技术总结
本发明公开一种公交车出行特征识别方法、装置、设备及介质,方法包括:对用户的基站轨迹数据进行预处理,获得目标基站轨迹数据,确定若干停留区域并进行轨迹划分,获得用户旅程轨迹数据;计算旅程轨迹数据与公交车线路序列的相似度以确定旅程轨迹数据对应的若干候选公交车线路序列;计算旅程轨迹数据对应的平均速度,并根据旅程起始时间确定每个平均速度所属的时间区间;将每个时间区间的平均速度进行聚类,确定每个时间区间的公交速度阈值,从而确定每段旅程轨迹数据对应的目标公交车线路序列,进而根据旅程轨迹数据中的起始基站与终点基站的坐标数据、旅程的起始时间与结束时间确定公交车出行特征。本发明能够提高公交车出行特征的识别准确率。特征的识别准确率。特征的识别准确率。
技术研发人员:李冠耀 邓兴栋 毕瑜菲 刘洋 韩文超 廖顺意
受保护的技术使用者:广州市城市规划勘测设计研究院
技术研发日:2023.02.14
技术公布日:2023/5/17
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
