一种实现IDMapping的方法、装置、介质及计算机设备与流程

未命名 08-26 阅读:126 评论:0

一种实现idmapping的方法、装置、介质及计算机设备
技术领域
1.本发明涉及一种实现idmapping的方法、装置、介质及计算机设备,属于数据融合技术领域。


背景技术:

2.随着信息技术的发展,为了满足人们多样性的精神文化需求,各种组织内外部的应用程序越来越多,因此也产生了海量的数据。这些数据中包含了众多的不同类型用户标识发生的行为数据。这些数据看似孤立的,但又存在着关联。如何从多种数据来源,海量的数据,复杂的关系网络中识别出同一用户或者主体的行为,把不同应用或者功能模块中的碎片化用户行为特征串联起来,从而完整准确的刻画用户画像,是idmapping技术要解决的问题。
3.现有idmapping技术主要分为两大流派:一是选择复杂的归一化算法,数据的准确性得到提高,但是由于算法复杂,随着数据量的增大计算性能瓶颈越显突出,有的只能做到t+1离线数据的归一,对于实时增量数据的更新尚没有很好的解决方法;二是选择高性能的计算引擎和k,v存储数据库,计算和查询性能得到提升,但是计算结果的准确性不高,出现误识别、漏识别的情况比比皆是。


技术实现要素:

4.本发明的目的在于克服现有技术中的不足,提供一种实现idmapping的方法、装置、介质及计算机设备,能够提供归一化速度快、结果准确性高的idmapping。为达到上述目的,本发明是采用下述技术方案实现的:
5.第一方面,本发明提供了一种实现idmapping的方法,包括:
6.获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;
7.根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;
8.根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;
9.将idmapping的数据同步至k,v内存数据库。
10.结合第一方面,可选的,所述原始用户数据还包括用于建立两个用户间关系的用户行为信息和用户业务办理信息,所述用户行为信息包括:设备识别码、用户注册信息、客户开户信息、用户登录信息。
11.结合第一方面,可选的,所述根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,包括:
12.预设两个用户标识之间关系强弱的权重;
13.基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组;
14.将用户二元关系组按预设的关系强弱的权重,从大到小按1至n进行编号;
15.从二元关系组1开始遍历关联,与下一个二元关系组2拼接成多元关系组a;若二元关系组1中用户类型与二元关系组2用户类型不重叠则多元关系组a为四元关系组,若二元关系组1中用户类型与二元关系组2用户类型有重叠则多元关系组a为三元关系组;
16.将多元关系组a作为初始多元关系组进行遍历关联,与二元关系组3构成多元关系组b;
17.将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c;
18.重复遍历关联和冲突关系的拆分、合并,直到二元关系组n遍历关联完成,得到归一化的多元关系组。
19.结合第一方面,可选的,所述将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c,包括:
20.若被关联二元关系组3只有一个用户类型或者没有用户类型包含在初始多元关系组中,则不需要处理冲突;
21.若被关联二元关系组3中用户类型均包含在初始多元关系组中,判断二元关系组2中的两种类型用户与初始多元关系组中其他类型用户的关系强弱权重,权重大的用户类型与初始多元关系组其他用户类型编成组1,权重小的用户类型单独成组2;
22.多元关系组b中,组1重复的记录判断与权重小的用户类型用户关系建立时间,保留用户关系建立时间较晚的记录,组2重复记录分两种情况来处理,第一种情况为组2对应的组1的用户类型无重复则进行合并,第二种情况为组2对应的组1的用户类型有重复,则判断比较与组1中用户的用户关系建立时间,用户关系建立时间较晚记录保留关系,用户关系建立时间较早的记录断开组1与组2的关系。
23.结合第一方面,可选的,还包括对idmapping进行增量用户关系,具体包括:
24.获取原始增量用户数据;
25.根据增量用户的用户标识判断增量用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给增量用户生成标准化用户id;
26.判断增量用户关系在idmapping数据中是否存在;若存在则无需重组;
27.若不存在,idmapping关联增量用户二元关系组,根据用户关系建立时间和预设的关系强弱的权重对多增量用户进行冲突关系的拆分、合并,实现局部重组多元关系组;比较重组多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到增量用户关系的idmapping。
28.结合第一方面,可选的,所述用户标识包括设备用户id、注册用户id和经纪客户id,所述用户标识通过用户登录行为,业务办理行为发生关联关系。
29.第二方面,本发明提供了一种实现idmapping的系统,包括:
30.获取模块:用于获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;
31.标准化用户id生成模块:用于根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;
32.id关系归一模块:用于根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;
33.数据同步模块:用于将idmapping的数据同步至k,v内存数据库。
34.结合第二方面,可选的,还包括k,v内存数据库,用于存储idmapping的数据。
35.第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现第一方面所述的实现idmapping的方法。
36.第四方面,本发明提供了一种计算机设备,包括:
37.存储器,用于存储指令;
38.处理器,用于执行所述指令,使得所述设备执行实现如第一方面所述的实现idmapping的方法的操作。
39.与现有技术相比,本发明实施例所提供的一种基于时间和关系强度的idmapping方法、装置及存储介质所达到的有益效果包括:
40.本发明获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;本发明提供一种高效的归一化方法,预设关系强度权重,节省从海量数据、复杂关系网络中挖掘关系权重计算时间;基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组,能够最大限度的清洗掉弱关系剔除无效数据,降低数据量,降低关系网络复杂度;
41.本发明将idmapping的数据同步至k,v内存数据库;本发明能够在短时间内完成全量用户数据归一化处理,能够实现秒级更新增量用户关系,计算结果准确性高,idmapping查询服务的qps能够达到20万以上。
附图说明
42.图1是本发明实施例一提供的一种实现idmapping的方法的流程图;
43.图2是本发明实施例一、实施例二提供的一种实现idmapping的方法应用环境的示意图;
44.图3是本发明实施例二提供的一种实现idmapping的方法的流程图。
具体实施方式
45.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
46.实施例一:
47.本实施例提供的一种实现idmapping的方法的应用环境如图2所示。终端102通过网络与服务器103进行通信,数据库服务器101通过网络与服务器103进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服
务器103、数据库服务器101可以是独立服务器或者多个服务器组成服务器集群来实现。
48.如图1所示,本实施例提供的一种实现idmapping的方法,包括:
49.获取原始用户数据;
50.根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;
51.根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;
52.将idmapping的数据同步至k,v内存数据库。
53.具体步骤包括:
54.步骤1:获取原始用户数据。
55.原始用户数据包括用户基本信息、用户行为信息和用户业务办理信息。用户基本信息包括用户标识、用户创建时间和用户关系建立时间。用户标识包括设备用户id(deviceid)、注册用户id(userid)和经纪客户id(custid),用户标识通过用户登录行为,业务办理行为发生关联关系。用户行为信息包括:设备识别码、用户注册信息、客户开户信息、用户登录信息。
56.原始用户数据通过网络传输至图1的104服务器。
57.步骤2:根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id。
58.标准化用户id全局唯一。
59.生成的标准化用户id的样例如下表1所示:
60.表1用户标准化id表
61.stdidusertypeusernocrt_timestdidusertypeusernocrt_time101s12022/8/1 10:001302r52022/8/13 10:00201s22022/8/2 10:001402r62022/8/14 10:00301s32022/8/3 10:001502r72022/8/15 10:00401s52022/8/4 10:001602r82022/8/16 10:00501s62022/8/5 10:001702r102022/8/17 10:00601s72022/8/6 10:001803q12022/8/18 10:00701s82022/8/7 10:001903q22022/8/19 10:00801s92022/8/8 10:002003q32022/8/20 10:00902r12022/8/9 10:002103q42022/8/21 10:001002r22022/8/10 10:002203q62022/8/22 10:001102r32022/8/11 10:002303q82022/8/23 10:001202r42022/8/12 10:002403q92022/8/24 10:00
62.步骤3:根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping。
63.步骤3.1:预设两个用户标识之间关系强弱的权重,按照权重从大到小编号。
64.用户关系如下表2-4所示:
65.表2经纪客户id(custid)和注册用户id(userid)用户关系表cust_user
66.custidcust_user_conn_tsuseridq12022/9/3 8:00r2q42022/9/4 8:00r4q32022/9/9 8:00r3q62022/9/11 8:00r6q82022/9/14 8:00r7
67.表3设备用户id(deviceid)和经纪客户id(custid)用户关系表device_cust
68.deviceiddevice_cust_conn_tscustids12022/9/2 8:00q1s22022/9/5 8:00q2s62022/9/8 8:00q6s82022/9/13 8:00q8s92022/9/16 8:00q9
69.表4设备用户id(deviceid)和注册用户id(userid)用户关系表device_user
[0070][0071][0072]
关系权重如下表5所示:
[0073]
表5关系权重
[0074]
numtbweight1cust_user0.5 2device_cust0.25 3device_user0.25
[0075]
步骤3.2:基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组。
[0076]
步骤3.2.1:将用户二元关系组按预设的关系强弱的权重,从大到小按1至n进行编号。
[0077]
在本实施例中,n为3。
[0078]
步骤3.2.2:从二元关系组1开始遍历关联,与下一个二元关系组2拼接成多元关系组a;若二元关系组1中用户类型与二元关系组2用户类型不重叠则多元关系组a为四元关系组,若二元关系组1中用户类型与二元关系组2用户类型有重叠则多元关系组a为三元关系组。
[0079]
步骤3.2.3:将多元关系组a作为初始多元关系组进行遍历关联,与二元关系组3构成多元关系组b,如下表6所示。
[0080]
表6多元关系组表6
[0081]
devceiddevice_cust_conn_tscustiddevice_user_conn_tsuseridcust_user_conn_tss12022/9/2 8:00q1 r22022/9/3 8:00s22022/9/5 8:00q2
ꢀꢀꢀ
s62022/9/8 8:00q6 r62022/9/11 8:00s82022/9/13 8:00q8 r72022/9/14 8:00s92022/9/16 8:00q9
ꢀꢀꢀ
s1
ꢀꢀ
2022/9/1 8:00r1 s2 q42022/9/6 8:00r42022/9/4 8:00s3 q32022/9/7 8:00r32022/9/9 8:00s5
ꢀꢀ
2022/9/10 8:00r5 s6
ꢀꢀ
2022/9/12 8:00r8 s7 q82022/9/15 8:00r72022/9/14 8:00s9
ꢀꢀ
2022/9/17 8:00r10 [0082]
步骤3.2.4:将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c。
[0083]
将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c,包括:
[0084]
若被关联二元关系组3只有一个用户类型或者没有用户类型包含在初始多元关系组中,则不需要处理冲突;
[0085]
若被关联二元关系组3中用户类型均包含在初始多元关系组中,判断二元关系组2中的两种类型用户与初始多元关系组中其他类型用户的关系强弱权重,权重大的用户类型与初始多元关系组其他用户类型编成组1,权重小的用户类型单独成组2;
[0086]
多元关系组b中,组1重复的记录判断与权重小的用户类型用户关系建立时间,保留用户关系建立时间较晚的记录,组2重复记录分两种情况来处理,第一种情况为组2对应的组1的用户类型无重复则进行合并,第二种情况为组2对应的组1的用户类型有重复,则判断比较与组1中用户的用户关系建立时间,用户关系建立时间较晚记录保留关系,用户关系建立时间较早的记录断开组1与组2的关系。
[0087]
多元关系组c,如下表7所示:
[0088]
表7多元关系组表7
[0089]
deviceiddevice_cust_conn_tscustiddevice_user_conn_tsuseridcust_user_conn_tss12022/9/2 8:00q1 r22022/9/3 8:00
ꢀꢀꢀꢀ
r1
ꢀꢀꢀ
q2
ꢀꢀꢀ
s2 q42022/9/6 8:00r42022/9/4 8:00
ꢀꢀ
q6 r62022/9/11 8:00
s6
ꢀꢀ
2022/9/12 8:00r8 s7 q82022/9/15 8:00r72022/9/14 8:00s92022/9/16 8:00q92022/9/17 8:00r10 s3 q32022/9/7 8:00r3 s5
ꢀꢀ
2022/9/10 8:00r5 [0090]
步骤3.3:比较多元关系组(表7)中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping。
[0091]
表8idmapping
[0092]
oneiddeviceiddevice_cust_conn_tscustiddevice_user_conn_tsuseridcust_user_conn_ts1s12022/9/2 8:00q1 r22022/9/3 8:009
ꢀꢀꢀꢀ
r1 19
ꢀꢀ
q2
ꢀꢀꢀ
2s2 q42022/9/6 8:00r42022/9/4 8:0014
ꢀꢀ
q6 r62022/9/11 8:005s6
ꢀꢀ
2022/9/12 8:00r8 6s7 q82022/9/15 8:00r72022/9/14 8:008s92022/9/16 8:00q92022/9/17 8:00r10 3s3 q32022/9/7 8:00r3 4s5
ꢀꢀ
2022/9/10 8:00r5 [0093]
步骤4:将idmapping的数据同步至k,v内存数据库。
[0094]
在本实施例中,k,v内存数据库为图1中的数据库服务器101。
[0095]
本实施例提供一种高效的归一化方法,预设关系强度权重,节省从海量数据、复杂关系网络中挖掘关系权重计算时间;基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组,能够最大限度的清洗掉弱关系剔除无效数据,降低数据量,降低关系网络复杂度。
[0096]
本实施例采用impala高效的计算引擎,采用k,v内存存储数据库redis作为存储介质对外提供id mapping查询服务,;亿级用户体量,日千万级用户关系流水,3种类型用户标识采用impala计算引擎30分钟内完成全量用户数据归一化处理,计算结果准确性高,idmapping查询服务的qps能够达到20万以上。
[0097]
实施例二:
[0098]
本实施例提供的一种实现idmapping的方法的应用环境如图2所示。终端102通过网络与服务器103进行通信,数据库服务器101通过网络与服务器103进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器103、数据库服务器101可以是独立服务器或者多个服务器组成服务器集群来实现。
[0099]
如图3所示,本实施例对实施例一得到的idmapping进行增量用户关系,包括:
[0100]
获取原始增量用户数据;
[0101]
根据增量用户的用户标识判断增量用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给增量用户生成标准化用户id;
[0102]
判断增量用户关系在idmapping数据中是否存在;若存在则无需重组;
[0103]
若不存在,idmapping关联增量用户二元关系组,根据用户关系建立时间和预设的关系强弱的权重对多增量用户进行冲突关系的拆分、合并,实现局部重组多元关系组;比较
重组多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到增量用户关系的idmapping。
[0104]
增量的用户关系如下表9所示:
[0105]
表9增量的用户关系
[0106]
deviceiddevice_cust_conn_tscustids12022/11/2 8:00q2
[0107]
增量用户关系的idmapping如下表10所示:
[0108]
表10增量用户关系的idmapping
[0109]
oneiddeviceiddevice_cust_conn_tscustiddevice_user_conn_tsuseridcust_user_conn_ts1
ꢀꢀ
q1 r22022/9/3 8:009
ꢀꢀꢀꢀ
r1 19s12022/11/2 8:00q2
ꢀꢀꢀ
2s2 q42022/9/6 8:00r42022/9/4 8:0014
ꢀꢀ
q6 r62022/9/11 8:005s6
ꢀꢀ
2022/9/12 8:00r8 6s7 q82022/9/15 8:00r72022/9/14 8:008s92022/9/16 8:00q92022/9/17 8:00r10 3s3 q32022/9/7 8:00r3 4s5
ꢀꢀ
2022/9/10 8:00r5 [0110]
本实施例采用flink实时计算引擎能够实现秒级更新增量用户关系。
[0111]
实施例三:
[0112]
本发明实施例提供一种实现idmapping的系统,包括:
[0113]
获取模块:用于获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;
[0114]
标准化用户id生成模块:用于根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;
[0115]
id关系归一模块:用于根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;
[0116]
数据同步模块:用于将idmapping的数据同步至k,v内存数据库。
[0117]
还包括k,v内存数据库,用于存储idmapping的数据。
[0118]
实施例四:
[0119]
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如实施例一、实施例二所述的实现idmapping的方法。
[0120]
实施例五:
[0121]
本发明实施例还提供一种计算机设备,包括:
[0122]
存储器,用于存储指令;
[0123]
处理器,用于执行所述指令,使得所述设备执行实现如实施例一、实施例二所述的实现idmapping的方法的操作。
[0124]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序
产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0125]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0126]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0127]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0128]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

技术特征:
1.一种实现idmapping的方法,其特征在于,包括:获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;将idmapping的数据同步至k,v内存数据库。2.根据权利要求1所述的实现idmapping的方法,其特征在于,所述原始用户数据还包括用于建立两个用户间关系的用户行为信息和用户业务办理信息,所述用户行为信息包括:设备识别码、用户注册信息、客户开户信息、用户登录信息。3.根据权利要求2所述的实现idmapping的方法,其特征在于,所述根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,包括:预设两个用户标识之间关系强弱的权重;基于用户行为信息和用户业务办理信息,提取用户关系建立时间最近的两个用户标识建立用户二元关系组;将用户二元关系组按预设的关系强弱的权重,从大到小按1至n进行编号;从二元关系组1开始遍历关联,与下一个二元关系组2拼接成多元关系组a;若二元关系组1中用户类型与二元关系组2用户类型不重叠则多元关系组a为四元关系组,若二元关系组1中用户类型与二元关系组2用户类型有重叠则多元关系组a为三元关系组;将多元关系组a作为初始多元关系组进行遍历关联,与二元关系组3构成多元关系组b;将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c;重复遍历关联和冲突关系的拆分、合并,直到二元关系组n遍历关联完成,得到归一化的多元关系组。4.根据权利要求3所述的实现idmapping的方法,其特征在于,所述将多元关系组b进行冲突关系的拆分、合并,得到多元关系组c,包括:若被关联二元关系组3只有一个用户类型或者没有用户类型包含在初始多元关系组中,则不需要处理冲突;若被关联二元关系组3中用户类型均包含在初始多元关系组中,判断二元关系组2中的两种类型用户与初始多元关系组中其他类型用户的关系强弱权重,权重大的用户类型与初始多元关系组其他用户类型编成组1,权重小的用户类型单独成组2;多元关系组b中,组1重复的记录判断与权重小的用户类型用户关系建立时间,保留用户关系建立时间较晚的记录,组2重复记录分两种情况来处理,第一种情况为组2对应的组1的用户类型无重复则进行合并,第二种情况为组2对应的组1的用户类型有重复,则判断比较与组1中用户的用户关系建立时间,用户关系建立时间较晚记录保留关系,用户关系建立时间较早的记录断开组1与组2的关系。5.根据权利要求4所述的实现idmapping的方法,其特征在于,还包括对idmapping进行增量用户关系,具体包括:
获取原始增量用户数据;根据增量用户的用户标识判断增量用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给增量用户生成标准化用户id;判断增量用户关系在idmapping数据中是否存在;若存在则无需重组;若不存在,idmapping关联增量用户二元关系组,根据用户关系建立时间和预设的关系强弱的权重对多增量用户进行冲突关系的拆分、合并,实现局部重组多元关系组;比较重组多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到增量用户关系的idmapping。6.根据权利要求1所述的实现idmapping的方法,其特征在于,所述用户标识包括设备用户id、注册用户id和经纪客户id,所述用户标识通过用户登录行为,业务办理行为发生关联关系。7.一种实现idmapping的系统,其特征在于,包括,获取模块:用于获取原始用户数据;所述原始用户数据包括用户基本信息,所述用户基本信息包括用户标识、用户创建时间和用户关系建立时间;标准化用户id生成模块:用于根据用户标识判断用户是否存在标准化用户id,若不存在则调用统一分布式自增序列给用户生成标准化用户id;id关系归一模块:用于根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户id作为oneid,得到idmapping;数据同步模块:用于将idmapping的数据同步至k,v内存数据库。8.根据权利要求7所述的实现idmapping的系统,其特征在于,还包括k,v内存数据库,用于存储idmapping的数据。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1-6中任一所述的实现idmapping的方法。10.一种计算机设备,其特征在于,包括:存储器,用于存储指令;处理器,用于执行所述指令,使得所述设备执行实现如权利要求1-6任一项所述的实现idmapping的方法的操作。

技术总结
本发明公开了一种实现IDMapping的方法、装置、介质及计算机设备,所述方法包括:获取原始用户数据;根据用户标识判断用户是否存在标准化用户ID,若不存在则调用统一分布式自增序列给用户生成标准化用户ID;根据时间和关系强度对多用户的不同标识进行归一化处理,得到归一化的多元关系组,比较多元关系组中不同类型用户的用户创建时间,将用户创建时间最早的用户的标准化用户ID作为oneID,得到IDMapping;将IDMapping的数据同步至k,v内存数据库。本发明能够提供归一化速度快、结果准确性高的IDMapping。IDMapping。IDMapping。


技术研发人员:游海波 朱阿柯 杨传海 龙建益 武永兵 张生庭 李凯平 李千顶 杜小飞
受保护的技术使用者:华泰证券股份有限公司
技术研发日:2023.05.29
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐