活动轨迹确定方法、装置、计算机设备及可读存储介质与流程

未命名 07-23 阅读:92 评论:0


1.本发明涉及数据处理技术领域,特别涉及一种活动轨迹确定方法、装置、计算机设备及可读存储介质。


背景技术:

2.一条轨迹点信息是指包含时空信息的任务特征信息,其通常包括有时间戳、坐标(经纬度)、个体特征(例如,可以是人类个体的生物特征,也可以是车牌号等物体的标识特征)及其他信息等要素信息。其中,个体特征是最关键的信息,可以进行精确比对或者模糊比对,个体特征为生物特征时,常用的生物特征如指纹信息、人脸特征信息、瞳孔信息等。其他信息较广泛,如采集设备的唯一标识、环境信息(如天气、光照等)。
3.以人脸采集为例,假设在各个地理环境上部署了若干人脸采集设备,基于这些设备,可以收集每一条轨迹点信息的要素信息,每一条轨迹点信息表示一个轨迹点,进而得到地理上离散的多个轨迹点。轨迹点信息的示例如下表1所示。
4.表1上述表1描述了4条轨迹点信息,每条轨迹点信息包含时空信息和人脸特征。基于以上轨迹点信息,可以设计算法进行轨迹聚合。假设轨迹点信息1、2、4是同一个人的不同的人脸特征,那么通过人脸聚合可以得到由轨迹点信息1、2、4构成的这个人在时空上的活动轨迹,从而可基于活动轨迹进行数据挖掘等后续工作。
5.目前,现有的聚合活动轨迹的方法是,遍历每条轨迹点信息,以计算每条轨迹点信息分别与其他各条轨迹点信息的特征相似度,进而基于特征相似度将同一个人或同一物体的轨迹点信息聚合为一条活动轨迹。
6.从计算量上看,现有的聚合活动轨迹的方法需要将每条轨迹点信息与其他的轨迹
点信息进行特征相似度的计算、比较,例如,有n条轨迹点信息,那么特征相似度比较的次数是,在实际场景中,轨迹点信息的数量n可以达到千万、甚至亿级别,这种情况下,的比较过程将会产生巨大的计算量,然而计算量过大可能导致无法在可接受的时间内完成计算,进而影响聚合活动轨迹的效率。


技术实现要素:

7.有鉴于此,本发明实施例提供了一种活动轨迹确定方法,以解决现有技术中聚合活动轨迹的效率低的技术问题。该方法包括:获取多条轨迹点信息,将其中每条所述轨迹点信息中的经纬度处理为geohash编码,每条所述轨迹点信息至少包括一个轨迹点的经纬度以及个体特征;将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类;在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,其中,每个所述轨迹组包括至少一条所述轨迹点信息;在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值;根据每个类对应的geohash编码所表示的地理位置,确定地理位置相邻的每两个类;根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组,其中,所述至少一个轨迹组中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征;将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹。
8.本发明实施例还提供了一种活动轨迹确定装置,以解决现有技术中聚合活动轨迹的效率低的技术问题。该装置包括:编码模块,用于获取多条轨迹点信息,将其中每条所述轨迹点信息中的经纬度处理为geohash编码,每条所述轨迹点信息至少包括一个轨迹点的经纬度以及个体特征;类划分模块,用于将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类;轨迹组划分模块,用于在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,其中,每个所述轨迹组包括至少一条所述轨迹点信息;特征值确定模块,用于在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值;相邻类确定模块,用于根据每个类对应的geohash编码所表示的地理位置,确定地理位置相邻的每两个类;类合并模块,用于根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相
似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组,其中,所述至少一个轨迹组中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征;轨迹聚合模块,用于将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹。
9.在一种可能的实现方式中,轨迹组划分模块,用于在每个类中,针对该类中的每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他各条所述轨迹点信息之间的第一特征相似度,生成第一相似度对,其中,所述第一相似度对包括计算第一特征相似度的两条所述轨迹点信息以及对应的第一特征相似度值;根据第一预设相似度阈值,将第一特征相似度值大于所述第一预设相似度阈值的第一相似度对确定为有效第一相似度对,并根据第一特征相似度值由大到小的顺序对所述有效第一相似度对进行排序,得到第一顺序;生成第一预设数量个第一集合,分别将该类中的每条所述轨迹点信息放入一个第一集合内,其中,所述第一预设数量与该类包括的所述轨迹点信息的数量相同;根据所述第一顺序依次遍历每个所述有效第一相似度对,并对每个所述有效第一相似度对执行以下步骤:判断每个所述有效第一相似度对中的两条所述轨迹点信息是否在同一个第一集合内;若否,则计算两条所述轨迹点信息分别所在的两个第一集合的特征平均值之间的第二特征相似度;判断所述第二特征相似度是否大于第二预设相似度阈值;若是,则将两条所述轨迹点信息分别所在的两个第一集合进行合并,得到一个新的第一集合,并计算新的第一集合的特征平均值,在遍历所述第一顺序结束时,每个第一集合所包括的所述轨迹点信息构成一个所述轨迹组,其中,每个第一集合的特征平均值是每个第一集合所包括的所述轨迹点信息的特征的平均值。
10.在一种可能的实现方式中,特征值确定模块,用于在每个类的每个所述轨迹组中,针对每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他每条所述轨迹点信息之间的特征相似度,得到多个特征相似度;计算多个特征相似度的平均值,将该平均值确定为该条所述轨迹点信息的平均特征相似度;按照平均特征相似度由大到小的顺序对各条所述轨迹点信息进行排序,将预设排位前的各个所述轨迹点信息确定为关键轨迹点;对所有所述关键轨迹点的特征计算平均值,将该平均值确定为该所述轨迹组的特征平均值。
11.在一种可能的实现方式中,类合并模块,用于循环执行以下步骤,直至当前的类的数量为1时,结束循环:判断当前的类的数量是否为1;若否,则根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类。
12.在一种可能的实现方式中,类合并模块,用于针对相邻的每两个类中的一个类,计算该一个类中每个所述轨迹组的特征平均值分别与相邻的每两个类中的另一个类内的每个所述轨迹组的特征平均值之间的第三特征相似度,生成第二相似度对,其中,所述第二相似度对包括计算第三特征相似度的两个所述轨迹组以及对应的第三特征相似度值;根据第三预设相似度阈值,将第三特征相似度值大于所述第三预设相似度阈值的第二相似度对确定为有效第二相似度对,并根据第三特征相似度值由大到小的顺序对所述有效第二相似度对进行排序,得到第二顺序;生成第二预设数量个第二集合,分别将该相邻的每两个类中的
每个所述轨迹组放入一个所述第二集合内,其中,所述第二预设数量与该相邻的每两个类所包括的所述轨迹组的总数量相同;根据所述第二顺序依次遍历每个所述有效第二相似度对,并对每个所述有效第二相似度对执行以下步骤:判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内;若否,则计算两个所述轨迹组分别所在的两个第二集合的特征平均值之间的第四特征相似度;判断所述第四特征相似度是否大于第四预设相似度阈值;若是,则将两个所述轨迹组分别所在的两个第二集合进行合并,得到一个新的第二集合,将两个所述轨迹组包括的所述轨迹点信息合并为一个新的轨迹组,新的轨迹组包括在新的第二集合中,并计算新的第二集合的特征平均值,在遍历所述第二顺序结束时,所有第二集合构成一个类,每个第二集合所包括的所述轨迹点信息构成一个轨迹组,其中,每个第二集合的特征平均值是每个第二集合所包括的所述轨迹组的特征平均值的平均值。
13.在一种可能的实现方式中,类合并模块,还用于初始化并查集生成所述第二预设数量个所述第二集合;利用所述并查集的查询操作判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内。
14.在一种可能的实现方式中,类划分模块,还用于判断获取的所述轨迹点信息是否均划分到多个类中;若否,针对每个未划分类的所述轨迹点信息,将该未划分类的所述轨迹点信息的geohash编码与每个类对应的geohash编码进行前缀字符比对确定二者包括的相同前缀字符的数量,将该未划分类的所述轨迹点信息划分到相同前缀字符数量最多的geohash编码对应的类内。
15.本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的活动轨迹确定方法,以解决现有技术中聚合活动轨迹的效率低的技术问题。
16.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的活动轨迹确定方法的计算机程序,以解决现有技术中聚合活动轨迹的效率低的技术问题。
17.与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:提出了将每条轨迹点信息中的经纬度处理为geohash编码,并将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类,进而在每个类中,根据各条轨迹点信息之间的特征相似度,将各条轨迹点信息划分为多个轨迹组,最后,在地理位置相邻的每两个类中根据轨迹组的特征平均值之间的特征相似度对轨迹组进行合并,实现多个类的两两合并,得到一个新的类,新的类中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征,将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹即可。实现了根据geohash编码将轨迹点信息在地里位置上划分为多个类后,分别对每个类包括的轨迹点信息根据特征相似度划分为多个轨迹组,并对地理位置相邻的每两个类中的轨迹组进行合并,进而实现了在每个类内轨迹点信息基于特征相似度的比较、相邻的每两个类中的轨迹组进行合并的计算过程,避免所有轨迹点信息一起进行相似度的对比,有利于降低计算量,提高聚合活动轨迹的效率;同时,由于通过geohash将空间上接近的轨迹点信息分在同一个类中,后续聚合活动轨迹的过程是基于类的概念进行的,使得聚合活动轨迹的过程在考虑特征相似度的同时,也考虑了地理距离(或空间距
离)的影响,实现了将特征上相似且空间距离上接近的轨迹点聚合在一起形成同一个体的活动轨迹,相对仅仅考虑特征上相似的聚合活动轨迹方案,本技术可以进一步提高聚合活动轨迹的准确性、可靠性。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
19.图1是本发明实施例提供的一种活动轨迹确定方法的流程图;图2是本发明实施例提供的一种计算机设备的结构框图;图3是本发明实施例提供的一种活动轨迹确定装置的结构框图。
具体实施方式
20.下面结合附图对本技术实施例进行详细描述。
21.以下通过特定的具体实例说明本技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本技术的其他优点与功效。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。本技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.从实际出发,本技术发明人发现,人在时空上活动是有地域属性的,大部分人的活动空间都长期徘徊在一个相对较小的地理空间内,偶尔出游出现在这个地理空间以外。并且人的活动轨迹具有地理位置连续性,只有借助飞机、高铁等快速交通设备才能短期快速地改变一个人的地理位置。即使是移动的物体(如汽车、移动机器人等具备一定或已知移动速度的物体),根据物体移动的速度范围,在地理位置上的变化也是相对具有连续性的,因此,本技术发明人提出活动轨迹的聚合应该考虑轨迹点信息中的地理空间因素(如,经纬度),即提出了上述活动轨迹确定方法,以提高聚合活动轨迹的准确性、可靠性。
23.在本发明实施例中,提供了一种活动轨迹确定方法,如图1所示,该方法包括:步骤s101:获取多条轨迹点信息,将其中每条所述轨迹点信息中的经纬度处理为geohash编码,每条所述轨迹点信息至少包括一个轨迹点的经纬度以及个体特征;步骤s102:将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类;步骤s103:在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,其中,每个所述轨迹组包括至少一条所述轨迹点信息;步骤s104:在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值;步骤s105:根据每个类对应的geohash编码所表示的地理位置,确定地理位置相邻的每两个类;
步骤s106:根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组,其中,所述至少一个轨迹组中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征;步骤s107:将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹。
24.由图1所示的流程可知,在本发明实施例中,实现了根据geohash编码将轨迹点信息在地里位置上划分为多个类后,分别对每个类包括的轨迹点信息根据特征相似度划分为多个轨迹组,并对地理位置相邻的每两个类中的轨迹组进行合并,进而实现了在每个类内轨迹点信息基于特征相似度的比较、相邻的每两个类中的轨迹组进行合并的计算过程,避免所有轨迹点信息一起进行相似度的对比,有利于降低计算量,提高聚合活动轨迹的效率;同时,由于通过geohash将空间上接近的轨迹点信息分在同一个类中,后续聚合活动轨迹的过程是基于类的概念进行的,使得聚合活动轨迹的过程在考虑特征相似度的同时,也考虑了地理距离(或空间距离)的影响,实现了将特征上相似且空间距离上接近的轨迹点聚合在一起形成活动轨迹,相对仅仅考虑特征上相似的聚合活动轨迹方案,本技术可以进一步提高聚合活动轨迹的准确性、可靠性。
25.具体实施时,上述活动轨迹确定方法可以应用于人类的活动轨迹确定场景,此时轨迹点信息中的个体特征可以是生物特征;也可以用于移动物体的活动轨迹确定场景,移动物体可以是汽车、移动机器人等,此时轨迹点信息中的个体特征可以是移动物体的标识特征,例如,车牌号、移动机器人的id编码等。
26.具体实施时,geohash是将地理位置信息(如经纬度)编码的一种方式,不同经纬度编码后的字符串可以进行前缀比较,两个字符串的多个前缀约相近或相同,表示两个字符串所表示的地理位置在地理空间上约相近。
27.具体的,经纬度的geohash编码方式举例如下:例如,经纬度是[31.1932993, 121.43960190000007],先处理纬度。如表2所示,地球的纬度区间是[-90,90]。把这个区间分为2部分,即[-90,0),[0,90]。31.1932993位于(0,90]区间,即右区间,标记为二进制1。然后继续把(0,90]区间二分,分为[0,45),[45,90],31.1932993位于[0,45)区间,即左区间,标记为二进制0,以此类推,一直划分下去。
[0028]
表2
再处理经度,与处理维度的方式相似。如表3所示,地球经度区间是[-180,180],把这个区间分为2部分,即[-180,0),[0,180],121.43960190000007位于[0,180]区间,即右区间,标记为二进制1。然后继续把[0,180]区间二分,分为[0,90),[90,180],121.43960190000007位于[90,180]区间,即右区间,标记为二进制1,以此类推,一直划分下去。
[0029]
表3
根据表2、表3可知,纬度产生的二进制串是101011000101110,经度产生的二进制串是110101100101101,按照“偶数位放经度,奇数位放纬度”的规则,重新组合经度和纬度的二进制串,生成新的二进制串:111001100111100000110011110110,最后,将这个新的二进制的字符串转换成十进制的字符串,进而基于十进制的字符串查找 base-32 表(如表4所示),即可将十进制的字符串转换成字符,得到geohash编码。
[0030]
表4具体的,上述二进制的字符串11100 11001 11100 00011 00111 10110转换成十进制的字符串是 28 25 28 3 7 22,经查表编码得到geohash编码的最终结果是wtw37q。
[0031]
具体实施时,根据上述geohash编码的逻辑原理,可以将每条轨迹点信息中的经纬度处理为geohash编码。通过对geohash编码的字符串比较、字符串检索的方式,可以快速得到地理空间上相近的轨迹点信息,以将地理空间上相近的轨迹点信息划分为一个类,通过各个类对应的geohash编码,可以快速得到两个类的对应区域的距离远近。
[0032]
具体实施时,在划分类的过程中,将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,为了同时兼顾计算量和聚合的准确性,上述预设数量的数值可以根据具体精度要求、轨迹所涉及的区域范围大小等情况确定,预设数量的数值越小,每个类包括的轨迹点信息的数量越多,每个类包括的轨迹点信息所分布的地理空间区域就越大,相对计算量会越大,相对聚合的准确性会越低。例如,上述预设数量的数值可以是5、6等等。
[0033]
具体实施时,将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类后,同一个类包括的轨迹点信息的地理空间分布构成一个地理区域。以上述预设数量取6为例,如前6位字符为wtw37q的geohash编码对应的轨迹点信息划分为一个类,前6位字符为wtw37p的geohash编码对应的轨迹点信息划分为一个类,前6位字符为wtw37r的geohash编码对应的轨迹点信息划分为一个类,依次类推,得到多个类,每个类覆盖了一块区域。例如,在wtw37q覆盖的一块区域下,可以有32个前7位字符相同的geohash编码对应的轨迹点信息覆盖的子区域,他们的共同前缀字符是wtw37q。
[0034]
具体实施时,以上述预设数量取5为例,则表示对geohash字符串前5位字符相同的轨迹点信息分为一个类,可以得到z个类,每个类包括的轨迹点信息的地理空间分布构成的区域用geohash5表示,一个geohash5的区域大约表示的地理块,以北京市区为例,大约有25个geohash5地理块,即这里的z=25。
[0035]
具体实施时,极少数的轨迹点信息可能会出现未划分到类内的情况,进而避免这种情况给后续类合并操作带来的额外计算,在本实施例中,提出了判断获取的所述轨迹点信息是否均划分到多个类中;若否,针对每个未划分类的所述轨迹点信息,将该未划分类的所述轨迹点信息的geohash编码与每个类对应的geohash编码进行前缀字符比对确定二者包括的相同前缀字符的数量,将该未划分类的所述轨迹点信息划分到相同前缀字符数量最多的geohash编码对应的类内。
[0036]
例如,在实际场景中,以的地理块北京市区为例,圈定geohash5区域后,如果遇到极少数的轨迹点信息并未落在圈定的25个地理块中,对这些极少数的轨迹点信息的geohash6(即geohash编码的前6位字符),与25个地理快对应的geohash编码进行前缀字符比对,将这些极少数的轨迹点信息合并到这25个地理块中地理位置最近的地理块(即与轨迹点信息的geohash编码包括相同前缀字符的数量最多的地理块)中。这样的操作,可以避免长尾的轨迹点信息给后续的类合并操作带来额外的计算。
[0037]
具体实施时,上述活动轨迹确定方法提出了将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类,实现了将地理空间上接近的轨迹点信息分在同一个类内,进而基于类的概念,在每个类内的轨迹点信息进行聚类得到多个轨迹组,并基于geohash编码对地理位置相邻的每两个类进行轨迹组合并、聚合,得到不同个体对应的活动轨迹。这样使得上述活动轨迹确定方法存在以下优点:1、在聚合活动轨迹的过程中,是基于每个类进行轨迹点信息间的相似度计算、比对的,一条轨迹点信息,只需要参与其所在类内的轨迹点信息之间的特征相似度计算、比对,无需和不同类内的轨迹点信息进行特征相似度计算、比较,和现有的基于所有轨迹点信息进行特征相似度计算、比较的方法相比,计算、比对的复杂度由下降到
,能较大的减少计算、比对的数量,极大地减少了计算复杂度、计算量,有利于提高聚合活动轨迹的效率。n1为第一个类包括的轨迹点信息的数量,n2为第二个类包括的轨迹点信息的数量,n3为第三个类包括的轨迹点信息的数量,以此类推。
[0038]
活动轨迹聚合应该有较强的时空连贯性,以确保活动轨迹的准确性。在特征比对中,两个特征的相似度,是固定的,不会因为时空关系有差异。但在活动轨迹聚合过程中,两个轨迹点信息是否相似,不仅仅取决于特征的相似,还需要考虑两个轨迹点信息之间的地理空间(或空间距离)的响应,而上述活动轨迹确定方法在通过geohash编码将地理空间上接近的轨迹点信息分在同一个类内后,再基于类的概念进行活动轨迹聚合,实现了在考虑轨迹点信息之间的相似度的同时,也考虑了轨迹点信息之间的地理空间的相似度或相近,这种活动轨迹聚合方式规避了现有活动轨迹聚合中只进行特征的相似度比对、而没有反应轨迹时空规律的问题,进而有利于提高活动轨迹聚合的准确性、可靠性。例如,一个双胞胎产生的两个轨迹点信息,两个轨迹点信息间的相似度很高,但是两个轨迹点信息的时间距离是5秒,空间距离是1000千米,在这种情况下,由于同一个人的两个相邻的轨迹点相差1000千米的可能性太小了,同一个人在移动时两个相邻的轨迹点的地理空间或地理距离变化不可能达到1000千米,因此,上述活动轨迹确定方法在根据geohash编码划分类的过程中,不可能将该两个轨迹点信息划分在一个类内,进而该两个轨迹点信息不可能在一个轨迹组内,最终也不会将该两个轨迹点信息聚合在一起。
[0039]
具体实施时,在每个类中可以直接将特征相似的轨迹点信息划分为一个轨迹组。为了实现准确地将特征相似的轨迹点信息聚合为一个轨迹组,提高聚合活动轨迹的准确性,在本实施例中,通过以下步骤根据特征相似度通过聚合方法将每个类中的各条轨迹点信息聚合为多个轨迹组:在每个类中,针对该类中的每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他各条所述轨迹点信息之间的第一特征相似度(例如,计算该条所述轨迹点信息的个体特征与除了自身之外的其他各条所述轨迹点信息的个体特征之间的第一特征相似度),生成第一相似度对,其中,所述第一相似度对包括计算第一特征相似度的两条所述轨迹点信息以及对应的第一特征相似度值;根据第一预设相似度阈值,将第一特征相似度值大于所述第一预设相似度阈值的第一相似度对确定为有效第一相似度对,并根据第一特征相似度值由大到小的顺序对所述有效第一相似度对进行排序,得到第一顺序;生成第一预设数量个第一集合,分别将该类中的每条所述轨迹点信息放入一个第一集合内,其中,所述第一预设数量与该类包括的所述轨迹点信息的数量相同;根据所述第一顺序依次遍历每个所述有效第一相似度对,并对每个所述有效第一相似度对执行以下步骤:判断每个所述有效第一相似度对中的两条所述轨迹点信息是否在同一个第一集合内;若否,则计算两条所述轨迹点信息分别所在的两个第一集合的特征平均值之间的第二特征相似度;
判断所述第二特征相似度是否大于第二预设相似度阈值;若是,则将两条所述轨迹点信息分别所在的两个第一集合进行合并,得到一个新的第一集合,并计算新的第一集合的特征平均值,在遍历所述第一顺序结束时,每个第一集合所包括的所述轨迹点信息构成一个所述轨迹组,其中,每个第一集合的特征平均值是每个第一集合所包括的所述轨迹点信息的特征(该特征可以是轨迹点信息包括的各个要素信息的特征或者轨迹点信息包括的个体特征)的平均值。
[0040]
具体实施时,为了进一步提高聚合活动轨迹的效率,在本实施例中,在将轨迹点信息聚合为轨迹组的过程中提出使用并查集,例如,初始化并查集来生成第一预设数量个第一集合,采用并查集的查询操作每个所述有效第一相似度对中的两条所述轨迹点信息是否在同一个第一集合内,并采用并查集将两条所述轨迹点信息分别所在的两个第一集合进行合并。
[0041]
具体实施时,为了进一步提高划分轨迹组的准确性,在本实施例中,在计算第一集合的特征平均值的过程中,提出了采用求平均的方式计算每个第一集合的特征平均值。在实际场景中,受制于采集设备、环境等因素,每条轨迹点信息的个体特征(如人脸特征)采集质量都有差异,如在光照环境差、采集角度等问题,可能导致采集了侧脸的人脸特征,这些侧脸的人脸特征在参与聚合的过程中,和光照环境好、正脸采集的轨迹点信息比对的结果置信度是不同的,如果使用加权平均的计算方式计算第一集合的特征平均值,即默认每个人脸特征的权重是一样的,这样必然会导致特征平均值的不准确,进而会影响轨迹组聚合的准确性,因此,本技术提出了采用求平均的方式计算每个第一集合的特征平均值,以提高特征平均值的准确性,进而提高轨迹组聚合的准确性。
[0042]
具体实施时,以一个类包括n条轨迹点信息为例,通过以下步骤详细介绍将一个类内的n条轨迹点信息(分别记为id1~idn)划分为多个轨迹组的过程:1.确定第一预设相似度阈值t1;2.对于每个轨迹点信息,遍历其他的轨迹点信息,计算两两轨迹点信息之间的第一特征相似度sim1,生成第一相似度对,并判断第一特征相似度sim1是否超过第一预设相似度阈值t1,其中,sim1 = cal(em1, embx),其中,em1为两两轨迹点信息中的一条轨迹点信息中的个体特征,embx为另一条轨迹点信息中的个体特征,cal表示计算操作,该操作的输入是两两轨迹点信息的个体特征,输出是第一相似度sim1;3.得到所有第一特征相似度超过第一预设相似度阈值的有效第一相似度对组成集合pair1,,将pair1中的各个有效第一相似度对按照sim1从大到小进行排序,得到第一顺序,其中,(id1, id2, sim1)为轨迹点信息id1、轨迹点信息id2和二者的第一特征相似度sim1组成的第一相似度对,(id2, id3, sim1)为轨迹点信息id2、轨迹点信息id3和二者的第一特征相似度sim1组成的第一相似度对;4.初始化并查集,生成n个第一集合,将轨迹点信息id1~idn分别放入一个第一集合中,此时,每个第一集合中,都有且仅有一个轨迹点信息;每个第一集合的特征平均值emb_avg1 = embx;5.按照第一顺序遍历pair1集合内所有的有效第一相似度对,利用并查集的查询
操作判断每个有效第一相似度对中的两条轨迹点信息是否在同一个第一集合内,若否,则计算两条轨迹点信息分别所在的两个第一集合的特征平均值之间的第二特征相似度;判断第二特征相似度是否大于第二预设相似度阈值;若是,则将两条轨迹点信息分别所在的两个第一集合进行合并,得到一个新的第一集合,并计算新的第一集合的特征平均值,在遍历第一顺序结束时,每个第一集合所包括的轨迹点信息构成一个轨迹组;例如,以遍历有效第一相似度对(id1, id2, sim1)为例,判断id1、id2是否在同一个第一集合内,如果不在,则计算id1、id2分别所在的两个第一集合的特征平均值之间的第二特征相似度sim2,sim2= cal(emb1_avg1, emb2_avg1),sim2满足大于第二预设相似度阈值t2,则利用并查集合并id1,id2所在的第一集合,合并后生成一个新的第一集合,用平均的方式,求出新集合的特征平均值embn+1_avg1,计算方式如,其中,emb1_avg1表示id1所在的第一集合的特征平均值,emb2_avg1表示id2所在的第一集合的特征平均值。例如,如上遍历完所有的有效第一相似度对后,每个类中会形成例如{ [id1, id2, id5],[id3,id4],[id7,id8,id9]}的聚合结果,中括号中的轨迹点信息id同属于一个第一集合,一共有3个第一集合,每个第一集合代表一个聚合的轨迹组。
[0043]
具体实施时,为了实现相邻的每两个类中轨迹组的合并,提出了确定每个轨迹组的特征平均值,该过程可以直接将每个轨迹组包括的轨迹点信息的特征求均值得到每个轨迹组的特征平均值。为了进一步提高每个轨迹组的特征平均值的准确性,提出了提取关键轨迹点并基于关键轨迹点的特征计算轨迹组的特征平均值,例如,在每个类的每个所述轨迹组中,针对每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他每条所述轨迹点信息之间的特征相似度,得到多个特征相似度;计算多个特征相似度的平均值,将该平均值确定为该条所述轨迹点信息的平均特征相似度;按照平均特征相似度由大到小的顺序对各条所述轨迹点信息进行排序,将预设排位前的各个所述轨迹点信息确定为关键轨迹点;对所有所述关键轨迹点的特征计算平均值,将该平均值确定为该所述轨迹组的特征平均值。
[0044]
具体实施时,在计算轨迹组的特征平均值的过程中,关键轨迹点的选取也是有创新性的。不但关注了轨迹点的质量,也关注了关键轨迹点的离散程度。如果只按质量选取关键轨迹点,那么选出来的关键轨迹点会出现趋同性,进而影响轨迹组的特征平均值的准确性。本技术在选取关键轨迹点时不仅关注关键轨迹点的质量,还关注关键轨迹点的覆盖情况,关键轨迹点应该更好的覆盖轨迹组中的轨迹点。例如,本技术提出“在一个轨迹组内,针对每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他每条所述轨迹点信息之间的特征相似度(例如,计算该条所述轨迹点信息的个体特征与除了自身之外的其他每条所述轨迹点信息的个体特征之间的特征相似度),得到每条轨迹点信息对应的多个特征相似度,如果轨迹组包括m条轨迹点信息,则进行次特征相似度的计算,可以对每一个轨迹点信息和其他轨迹点信息的特征相似度求平均相似度,将平均相似度最大的topn个轨迹点信息(即上述预设排位前的各个所述轨迹点信息)作为该轨迹组的关键轨迹点,对topn个关键轨迹点的特征求平均得到轨迹组的特征平均值”,这里的平均相似度最大的topn个关键轨迹点,即纳入、包括了该轨迹组中轨迹点的覆盖情况,也即考虑了关键轨迹点的离散程度;这里对topn个关键轨迹点的特征做平均,将关键轨迹点的质量纳入了
考量,也即考虑了关键轨迹点的质量,使得可以提高轨迹组的特征平均值的准确性。
[0045]
具体实施时,为了实现基于类之间的地理空间距离和各个轨迹组之间的相似度进行类的两两合并,以便可以进一步提高聚合活动轨迹的准确性,在本实施例中,提出了通过以下方式实现根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类:循环执行以下步骤,直至当前的类的数量为1时,结束循环:判断当前的类的数量是否为1;若否,则根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类。
[0046]
具体实施时,为了实现准确、高效地对相邻的每两个类中的轨迹组进行合并,提出了可以通过以下步骤实现相邻的每两个类中的轨迹组的合并:针对相邻的每两个类中的一个类,计算该一个类中每个所述轨迹组的特征平均值分别与相邻的每两个类中的另一个类内的每个所述轨迹组的特征平均值之间的第三特征相似度,生成第二相似度对,其中,所述第二相似度对包括计算第三特征相似度的两个所述轨迹组以及对应的第三特征相似度值;根据第三预设相似度阈值,将第三特征相似度值大于所述第三预设相似度阈值的第二相似度对确定为有效第二相似度对,并根据第三特征相似度值由大到小的顺序对所述有效第二相似度对进行排序,得到第二顺序;生成第二预设数量个第二集合,分别将该相邻的每两个类中的每个所述轨迹组放入一个所述第二集合内,其中,所述第二预设数量与该相邻的每两个类所包括的所述轨迹组的总数量相同;根据所述第二顺序依次遍历每个所述有效第二相似度对,并对每个所述有效第二相似度对执行以下步骤:判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内;若否,则计算两个所述轨迹组分别所在的两个第二集合的特征平均值之间的第四特征相似度;判断所述第四特征相似度是否大于第四预设相似度阈值;若是,则将两个所述轨迹组分别所在的两个第二集合进行合并,得到一个新的第二集合,将两个所述轨迹组包括的所述轨迹点信息合并为一个新的轨迹组,新的轨迹组包括在新的第二集合中,并计算新的第二集合的特征平均值,在遍历所述第二顺序结束时,所有第二集合构成一个类,每个第二集合所包括的所述轨迹点信息构成一个轨迹组,其中,每个第二集合的特征平均值是每个第二集合所包括的所述轨迹组的特征平均值的平均值。
[0047]
具体实施时,为了进一步提高聚合活动轨迹的效率,在本实施例中,在将相邻的每两个类中的轨迹组合并的过程中,提出了使用并查集,例如,生成第二预设数量个第二集合,包括:初始化并查集生成所述第二预设数量个所述第二集合;判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集
合内,包括:利用所述并查集的查询操作判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内。
[0048]
具体实施时,以相邻的两个类分别包括m、n个轨迹组为例,通过以下步骤详细介绍将相邻的每两个类内的轨迹组合并的过程:1、对z个类,按照经纬度的geohash编码确定相邻的每两个类,按照类之间的地理空间的相邻关系,按照从左到右、从上到下的顺序对各个类进行编号,编号相邻的两个类即为地理空间上相邻的两个类;2、将编号相近或相邻的两个类,进行如下步骤:(1)假设两个类分别有m、n个轨迹组,计算一个类中每个轨迹组的特征平均值分别与相邻的每两个类中的另一个类内的每个轨迹组的特征平均值之间的第三特征相似度,生成第二相似度对,共进行次第三特征相似度的计算、比对;(2)得到所有第三特征相似度超过第三预设相似度阈值t3的有效第二相似度对组成集合pair2,,将pair2中的各个有效第二相似度对按照第三特征相似sim3从大到小排序,得到第二顺序,其中,(set1, set2, sim)为轨迹组set1、轨迹组set2和二者的第三特征相似度sim3组成的第二相似度对,(set2, set3, sim3)为轨迹组set2、轨迹组set3和二者的第三特征相似度sim3组成的第二相似度对。
[0049]
(3)构建并查集,生成m+n个第二集合,将两个类中的set1,set2
……
等轨迹组编号分别放入各自的初始化的第二集合中,每个第二集合里都有一个轨迹组的编号;(4)按照第二顺序遍历pair2集合内所有的有效第二相似度对,利用并查集的查询操作判断若否,则计算两个所述轨迹组分别所在的两个第二集合的特征平均值之间的第四特征相似度;判断所述第四特征相似度是否大于第四预设相似度阈值;若是,则将两个所述轨迹组分别所在的两个第二集合进行合并,得到一个新的第二集合,将两个所述轨迹组包括的所述轨迹点信息合并为一个新的轨迹组,新的轨迹组包括在新的第二集合中,并计算新的第二集合的特征平均值,在遍历第二顺序结束时,所有第二集合构成一个类,每个第二集合所包括的所述轨迹点信息构成一个轨迹组;例如,以遍历有效第二相似度对(set1, set2, sim)为例,判断轨迹set1,set2是否在同一个第二集合内,如果不在,则计算set1,set2分别所在的两个第二集合的特征平均值之间的第四特征相似度sim4,sim4= cal(emb1_avg2, emb2_avg2),emb1_avg2表示set1所在第二集合的特征平均值,emb2_avg2表示set1所在第二集合的特征平均值,满足第四特征相似度sim4大于第四预设相似度阈值t4,则合并set1,set2所在的两个第二集合,合并后得到一个新的第二集合,将两个轨迹组set1,set2包括的轨迹点信息合并为一个新的轨迹组,新的轨迹组包括在新的第二集合中,并用平均的方式求出新的第二集合的特征平均值embm+n+1_avg2,计算方式如;3、经过以上操作得到 (z + 1) / 2个新类,如果,则 z =(z + 1) / 2,并重复第2步骤,直至(z + 1) / 2 = 1结束类的合并过程。
[0050]
具体实施时,上述聚合活动轨迹的过程中,每个类中有一个或多个轨迹组,每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征,即每个轨迹组包括的是同一个体的轨迹点信息,进而将每个轨迹组中的轨迹点信息聚合成同一个体(如同一个人)的一条活动轨迹,一个轨迹组对应生成一条活动轨迹,当类中有多个轨迹组时,就可以分别聚合生成多个个体(如,多个人)各自的活动轨迹。
[0051]
在本实施例中,提供了一种计算机设备,如图2所示,包括存储器201、处理器202及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的活动轨迹确定方法。
[0052]
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
[0053]
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的活动轨迹确定方法的计算机程序。
[0054]
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0055]
基于同一发明构思,本发明实施例中还提供了一种活动轨迹确定装置,如下面的实施例所述。由于活动轨迹确定装置解决问题的原理与活动轨迹确定方法相似,因此活动轨迹确定装置的实施可以参见活动轨迹确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0056]
图3是本发明实施例的活动轨迹确定装置的一种结构框图,如图3所示,该装置包括:编码模块301,用于获取多条轨迹点信息,将其中每条所述轨迹点信息中的经纬度处理为geohash编码,每条所述轨迹点信息至少包括一个轨迹点的经纬度以及个体特征;类划分模块302,用于将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类;轨迹组划分模块303,用于在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,其中,每个所述轨迹组包括至少一条所述轨迹点信息;特征值确定模块304,用于在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值;相邻类确定模块305,用于根据每个类对应的geohash编码所表示的地理位置,确定地理位置相邻的每两个类;
类合并模块306,用于根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组,其中,所述至少一个轨迹组中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征;轨迹聚合模块307,用于将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹。
[0057]
在一个实施例中,轨迹组划分模块303,用于在每个类中,针对该类中的每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他各条所述轨迹点信息之间的第一特征相似度,生成第一相似度对,其中,所述第一相似度对包括计算第一特征相似度的两条所述轨迹点信息以及对应的第一特征相似度值;根据第一预设相似度阈值,将第一特征相似度值大于所述第一预设相似度阈值的第一相似度对确定为有效第一相似度对,并根据第一特征相似度值由大到小的顺序对所述有效第一相似度对进行排序,得到第一顺序;生成第一预设数量个第一集合,分别将该类中的每条所述轨迹点信息放入一个第一集合内,其中,所述第一预设数量与该类包括的所述轨迹点信息的数量相同;根据所述第一顺序依次遍历每个所述有效第一相似度对,并对每个所述有效第一相似度对执行以下步骤:判断每个所述有效第一相似度对中的两条所述轨迹点信息是否在同一个第一集合内;若否,则计算两条所述轨迹点信息分别所在的两个第一集合的特征平均值之间的第二特征相似度;判断所述第二特征相似度是否大于第二预设相似度阈值;若是,则将两条所述轨迹点信息分别所在的两个第一集合进行合并,得到一个新的第一集合,并计算新的第一集合的特征平均值,在遍历所述第一顺序结束时,每个第一集合所包括的所述轨迹点信息构成一个所述轨迹组,其中,每个第一集合的特征平均值是每个第一集合所包括的所述轨迹点信息的特征的平均值。
[0058]
在一个实施例中,特征值确定模块304,用于在每个类的每个所述轨迹组中,针对每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他每条所述轨迹点信息之间的特征相似度,得到多个特征相似度;计算多个特征相似度的平均值,将该平均值确定为该条所述轨迹点信息的平均特征相似度;按照平均特征相似度由大到小的顺序对各条所述轨迹点信息进行排序,将预设排位前的各个所述轨迹点信息确定为关键轨迹点;对所有所述关键轨迹点的特征计算平均值,将该平均值确定为该所述轨迹组的特征平均值。
[0059]
在一个实施例中,类合并模块306,用于循环执行以下步骤,直至当前的类的数量为1时,结束循环:判断当前的类的数量是否为1;若否,则根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类。
[0060]
在一个实施例中,类合并模块306,用于针对相邻的每两个类中的一个类,计算该一个类中每个所述轨迹组的特征平均值分别与相邻的每两个类中的另一个类内的每个所述轨迹组的特征平均值之间的第三特征相似度,生成第二相似度对,其中,所述第二相似度对包括计算第三特征相似度的两个所述轨迹组以及对应的第三特征相似度值;根据第三预设相似度阈值,将第三特征相似度值大于所述第三预设相似度阈值的第二相似度对确定为有效第二相似度对,并根据第三特征相似度值由大到小的顺序对所述有效第二相似度对进行排序,得到第二顺序;生成第二预设数量个第二集合,分别将该相邻的每两个类中的每个
所述轨迹组放入一个所述第二集合内,其中,所述第二预设数量与该相邻的每两个类所包括的所述轨迹组的总数量相同;根据所述第二顺序依次遍历每个所述有效第二相似度对,并对每个所述有效第二相似度对执行以下步骤:判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内;若否,则计算两个所述轨迹组分别所在的两个第二集合的特征平均值之间的第四特征相似度;判断所述第四特征相似度是否大于第四预设相似度阈值;若是,则将两个所述轨迹组分别所在的两个第二集合进行合并,得到一个新的第二集合,将两个所述轨迹组包括的所述轨迹点信息合并为一个新的轨迹组,新的轨迹组包括在新的第二集合中,并计算新的第二集合的特征平均值,在遍历所述第二顺序结束时,所有第二集合构成一个类,每个第二集合所包括的所述轨迹点信息构成一个轨迹组,其中,每个第二集合的特征平均值是每个第二集合所包括的所述轨迹组的特征平均值的平均值。
[0061]
在一个实施例中,类合并模块306,还用于初始化并查集生成所述第二预设数量个所述第二集合;利用所述并查集的查询操作判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内。
[0062]
在一个实施例中,类划分模块302,还用于判断获取的所述轨迹点信息是否均划分到多个类中;若否,针对每个未划分类的所述轨迹点信息,将该未划分类的所述轨迹点信息的geohash编码与每个类对应的geohash编码进行前缀字符比对确定二者包括的相同前缀字符的数量,将该未划分类的所述轨迹点信息划分到相同前缀字符数量最多的geohash编码对应的类内。
[0063]
本发明实施例实现了如下技术效果:实现了根据geohash编码将轨迹点信息在地里位置上划分为多个类后,分别对每个类包括的轨迹点信息根据特征相似度划分为多个轨迹组,并对地理位置相邻的每两个类中的轨迹组进行合并,进而实现了在每个类内轨迹点信息基于特征相似度的比较、相邻的每两个类中的轨迹组进行合并的计算过程,避免所有轨迹点信息一起进行相似度的对比,有利于降低计算量,提高聚合活动轨迹的效率;同时,由于通过geohash将空间上接近的轨迹点信息分在同一个类中,后续聚合活动轨迹的过程是基于类的概念进行的,使得聚合活动轨迹的过程在考虑特征相似度的同时,也考虑了地理距离(或空间距离)的影响,实现了将特征上相似且空间距离上接近的轨迹点聚合在一起形成同一个体的活动轨迹,相对仅仅考虑特征上相似的聚合活动轨迹方案,本技术可以进一步提高聚合活动轨迹的准确性、可靠性。
[0064]
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
[0065]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种活动轨迹确定方法,其特征在于,包括:获取多条轨迹点信息,将其中每条所述轨迹点信息中的经纬度处理为geohash编码,每条所述轨迹点信息至少包括一个轨迹点的经纬度以及个体特征;将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类;在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,其中,每个所述轨迹组包括至少一条所述轨迹点信息;在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值;根据每个类对应的geohash编码所表示的地理位置,确定地理位置相邻的每两个类;根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组,其中,所述至少一个轨迹组中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征;将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹。2.如权利要求1所述的活动轨迹确定方法,其特征在于,在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,包括:在每个类中,针对该类中的每条所述轨迹点信息,计算该条所述轨迹点信息与除了自身之外的其他各条所述轨迹点信息之间的第一特征相似度,生成第一相似度对,其中,所述第一相似度对包括计算第一特征相似度的两条所述轨迹点信息以及对应的第一特征相似度值;根据第一预设相似度阈值,将第一特征相似度值大于所述第一预设相似度阈值的第一相似度对确定为有效第一相似度对,并根据第一特征相似度值由大到小的顺序对所述有效第一相似度对进行排序,得到第一顺序;生成第一预设数量个第一集合,分别将该类中的每条所述轨迹点信息放入一个第一集合内,其中,所述第一预设数量与该类包括的所述轨迹点信息的数量相同;根据所述第一顺序依次遍历每个所述有效第一相似度对,并对每个所述有效第一相似度对执行以下步骤:判断每个所述有效第一相似度对中的两条所述轨迹点信息是否在同一个第一集合内;若否,则计算两条所述轨迹点信息分别所在的两个第一集合的特征平均值之间的第二特征相似度;判断所述第二特征相似度是否大于第二预设相似度阈值;若是,则将两条所述轨迹点信息分别所在的两个第一集合进行合并,得到一个新的第一集合,并计算新的第一集合的特征平均值,在遍历所述第一顺序结束时,每个第一集合所包括的所述轨迹点信息构成一个所述轨迹组,其中,每个第一集合的特征平均值是每个第一集合所包括的所述轨迹点信息的特征的平均值。3.如权利要求1所述的活动轨迹确定方法,其特征在于,在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值,包括:在每个类的每个所述轨迹组中,针对每条所述轨迹点信息,计算该条所述轨迹点信息
与除了自身之外的其他每条所述轨迹点信息之间的特征相似度,得到多个特征相似度;计算多个特征相似度的平均值,将该平均值确定为该条所述轨迹点信息的平均特征相似度;按照平均特征相似度由大到小的顺序对各条所述轨迹点信息进行排序,将预设排位前的各个所述轨迹点信息确定为关键轨迹点;对所有所述关键轨迹点的特征计算平均值,将该平均值确定为该所述轨迹组的特征平均值。4.如权利要求1所述的活动轨迹确定方法,其特征在于,根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,包括:循环执行以下步骤,直至当前的类的数量为1时,结束循环:判断当前的类的数量是否为1;若否,则根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类。5.如权利要求1所述的活动轨迹确定方法,其特征在于,根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,包括:针对相邻的每两个类中的一个类,计算该一个类中每个所述轨迹组的特征平均值分别与相邻的每两个类中的另一个类内的每个所述轨迹组的特征平均值之间的第三特征相似度,生成第二相似度对,其中,所述第二相似度对包括计算第三特征相似度的两个所述轨迹组以及对应的第三特征相似度值;根据第三预设相似度阈值,将第三特征相似度值大于所述第三预设相似度阈值的第二相似度对确定为有效第二相似度对,并根据第三特征相似度值由大到小的顺序对所述有效第二相似度对进行排序,得到第二顺序;生成第二预设数量个第二集合,分别将该相邻的每两个类中的每个所述轨迹组放入一个所述第二集合内,其中,所述第二预设数量与该相邻的每两个类所包括的所述轨迹组的总数量相同;根据所述第二顺序依次遍历每个所述有效第二相似度对,并对每个所述有效第二相似度对执行以下步骤:判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内;若否,则计算两个所述轨迹组分别所在的两个第二集合的特征平均值之间的第四特征相似度;判断所述第四特征相似度是否大于第四预设相似度阈值;若是,则将两个所述轨迹组分别所在的两个第二集合进行合并,得到一个新的第二集合,将两个所述轨迹组包括的所述轨迹点信息合并为一个新的轨迹组,新的轨迹组包括在新的第二集合中,并计算新的第二集合的特征平均值,在遍历所述第二顺序结束时,所有第二集合构成一个类,每个第二集合所包括的所述轨迹点信息构成一个轨迹组,其中,每个第二集合的特征平均值是每个第二集合所包括的所述轨迹组的特征平均值的平均值。6.如权利要求5所述的活动轨迹确定方法,其特征在于,
生成第二预设数量个第二集合,包括:初始化并查集生成所述第二预设数量个所述第二集合;判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内,包括:利用所述并查集的查询操作判断每个所述有效第二相似度对中的两个所述轨迹组是否在同一个所述第二集合内。7.如权利要求1至6中任一项所述的活动轨迹确定方法,其特征在于,还包括:判断获取的所述轨迹点信息是否均划分到多个类中;若否,针对每个未划分类的所述轨迹点信息,将该未划分类的所述轨迹点信息的geohash编码与每个类对应的geohash编码进行前缀字符比对确定二者包括的相同前缀字符的数量,将该未划分类的所述轨迹点信息划分到相同前缀字符数量最多的geohash编码对应的类内。8.一种活动轨迹确定装置,其特征在于,包括:编码模块,用于获取多条轨迹点信息,将其中每条所述轨迹点信息中的经纬度处理为geohash编码,每条所述轨迹点信息至少包括一个轨迹点的经纬度以及个体特征;类划分模块,用于将geohash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,以得到多个类;轨迹组划分模块,用于在每个类中,根据各条所述轨迹点信息之间的特征相似度,将各条所述轨迹点信息划分为多个轨迹组,其中,每个所述轨迹组包括至少一条所述轨迹点信息;特征值确定模块,用于在每个类中,根据每个所述轨迹组包括的所述轨迹点信息的特征,确定每个所述轨迹组的特征平均值;相邻类确定模块,用于根据每个类对应的geohash编码所表示的地理位置,确定地理位置相邻的每两个类;类合并模块,用于根据相邻的每两个类中所述轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的所述轨迹组进行合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组,其中,所述至少一个轨迹组中每个轨迹组所包括的轨迹点信息均对应于属于同一个体的个体特征;轨迹聚合模块,用于将该新的类中每个轨迹组包括的轨迹点信息聚合为同一个体的一条活动轨迹。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的活动轨迹确定方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至7中任一项所述的活动轨迹确定方法的计算机程序。

技术总结
本发明实施例提供了一种活动轨迹确定方法、装置、计算机设备及可读存储介质,涉及数据处理技术领域,其中,该方法包括:将每条轨迹点信息中的经纬度处理为GeoHash编码;将GeoHash编码中预设数量的前缀字符相同的轨迹点信息划分为一个类,得到多个类;根据各条轨迹点信息之间的特征相似度,将各条轨迹点信息划分为多个轨迹组;确定每个迹组的特征平均值;根据每个类对应的GeoHash编码所表示的地理位置,确定地理位置相邻的每两个类;根据相邻的每两个类中轨迹组的特征平均值之间的特征相似度,对相邻的每两个类中的轨迹组合并得到一个类,对多个类进行两两合并后,得到一个新的类,该新的类包括至少一个轨迹组。新的类包括至少一个轨迹组。新的类包括至少一个轨迹组。


技术研发人员:请求不公布姓名
受保护的技术使用者:北京瑞莱智慧科技有限公司
技术研发日:2023.06.15
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐