一种用户预购分类方法与流程
未命名
08-17
阅读:92
评论:0
1.本发明涉及用户预购技术领域,尤其是一种用户预购分类方法。
背景技术:
2.用户,又称使用者,是指使用电脑或网络服务的人,通常拥有一个用户账号,并以用户名识别,用户有时也泛指没有充分技术经验的人。
3.在现有技术中,现有的用户预购多分类模型通常由运营人员进行人工打标签或由策略部门进行简单统计描述后再打标签,此类方法存在一定的缺点,由于运营人员手动参与控制,工作量大,且对用户的刻画不够细致;同时简单统计模型只能解决基础问题,后期进行迭代优化成本大。因此,针对上述问题提出一种用户预购分类方法。
技术实现要素:
4.本发明的目的在于提供一种用户预购分类方法,具备操作简单的优点,解决了现有的用户预购分类方法工作量较大的问题。
5.一种用户预购分类方法,该分类方法包括如下步骤:
6.s1、每个workers找到局部最佳的切分点{feature,threshold};
7.s2、workers使用点对点通信,找到全局最佳切分点;
8.s3、每个worker根据全局全局最佳切分点进行节点分裂;
9.s4、数据并行使用“reducescatter”将不同worker的不同特征的直方图合并,然后workers在局部合并的直方图中找到局部最优划分,最后同步全局最优划分。
10.进一步地,通过直方图作差法得到兄弟节点的直方图,因此只需要通信一个节点的直方图,减半通信量,通过上述两点做法,通信开销降为$(0.5
××
)$。
11.进一步地,模型采用了pv-tree的算法进行投票并行(votingparallel),其实本质上也是一种数据并行。
12.进一步地,水平切分数据,不同的worker拥有部分数据。
13.进一步地,localvoting:每个worker构建直方图,找到$top-k$个最优的本地划分特征。
14.进一步地,globalvoting:中心节点聚合得到最优的$top-2k$个全局划分特征($top-2k$是看对各个worker选择特征的个数进行计数,取最多的$2k$个)。
15.进一步地,bestattributeidentification:中心节点向worker收集这$top-2k$个特征的直方图,并进行合并,然后计算得到全局的最优划分。
16.进一步地,中心节点将全局最优划分广播给所有的worker,worker进行本地划分。
17.进一步地,多分类模型使用的直方图算法:首先,对梯度的访问,因为不用对特征进行排序;同时,所有的特征都用同样的方式来访问,所以只需要对梯度访问的顺序进行重新排序,所有的特征都能连续的访问梯度。
18.进一步地,直方图算法不需要把数据id到叶子节点号上(不需要这个索引表,没有
这个缓存消失问题),大大提高cache的命中率,减少cache-miss出现的概率。
19.通过本发明上述实施例,本发明基于大数据平台以及海量用户行为特征,以用户行为特征为基础,支持自动化优化分类模型,使不同业务周期及用户特定行为发生时,模型可以更好的反馈用户特征,输出更为精确的结果,极大减少了运营人员手工参与的工作量,提升产品用户满意度以及有效触达更精准的用户。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
21.图1为本发明一种实施例的方法流程图;
22.图2为本发明一种实施例的特征并行图;
23.图3为本发明一种实施例的数据并行图。
具体实施方式
24.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
25.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.在本发明中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
27.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
28.此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
29.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相
互组合。下面将参考附图并结合实施例来详细说明本发明。
30.请参阅图1-3所示,一种用户预购分类方法,该分类方法包括如下步骤:
31.s1、每个workers找到局部最佳的切分点{feature,threshold};
32.s2、workers使用点对点通信,找到全局最佳切分点;
33.s3、每个worker根据全局全局最佳切分点进行节点分裂;
34.s4、数据并行使用“reducescatter”将不同worker的不同特征的直方图合并,然后workers在局部合并的直方图中找到局部最优划分,最后同步全局最优划分。
35.进一步地,通过直方图作差法得到兄弟节点的直方图,因此只需要通信一个节点的直方图,减半通信量,通过上述两点做法,通信开销降为$(0.5
××
)$。
36.进一步地,模型采用了pv-tree的算法进行投票并行(votingparallel),其实本质上也是一种数据并行。
37.进一步地,水平切分数据,不同的worker拥有部分数据。
38.进一步地,localvoting:每个worker构建直方图,找到$top-k$个最优的本地划分特征。
39.进一步地,globalvoting:中心节点聚合得到最优的$top-2k$个全局划分特征($top-2k$是看对各个worker选择特征的个数进行计数,取最多的$2k$个)。
40.进一步地,bestattributeidentification:中心节点向worker收集这$top-2k$个特征的直方图,并进行合并,然后计算得到全局的最优划分。
41.进一步地,中心节点将全局最优划分广播给所有的worker,worker进行本地划分。
42.进一步地,多分类模型使用的直方图算法:首先,对梯度的访问,因为不用对特征进行排序;同时,所有的特征都用同样的方式来访问,所以只需要对梯度访问的顺序进行重新排序,所有的特征都能连续的访问梯度。
43.进一步地,直方图算法不需要把数据id到叶子节点号上(不需要这个索引表,没有这个缓存消失问题),大大提高cache的命中率,减少cache-miss出现的概率。
44.本发明的有益之处在于:本发明基于大数据平台以及海量用户行为特征,以用户行为特征为基础,支持自动化优化分类模型,使不同业务周期及用户特定行为发生时,模型可以更好的反馈用户特征,输出更为精确的结果,极大减少了运营人员手工参与的工作量,提升产品用户满意度以及有效触达更精准的用户。
45.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种用户预购分类方法,其特征在于:该分类方法包括如下步骤:s1、每个workers找到局部最佳的切分点{feature,threshold};s2、workers使用点对点通信,找到全局最佳切分点;s3、每个worker根据全局全局最佳切分点进行节点分裂;s4、数据并行使用“reducescatter”将不同worker的不同特征的直方图合并,然后workers在局部合并的直方图中找到局部最优划分,最后同步全局最优划分。2.根据权利要求1所述的一种用户预购分类方法,其特征在于:通过直方图作差法得到兄弟节点的直方图,因此只需要通信一个节点的直方图,减半通信量,通过上述两点做法,通信开销降为$(0.5
××
)$。3.根据权利要求1所述的一种用户预购分类方法,其特征在于:模型采用了pv-tree的算法进行投票并行(votingparallel),其实本质上也是一种数据并行。4.根据权利要求3所述的一种用户预购分类方法,其特征在于:水平切分数据,不同的worker拥有部分数据。5.根据权利要求4所述的一种用户预购分类方法,其特征在于:localvoting:每个worker构建直方图,找到$top-k$个最优的本地划分特征。6.根据权利要求5所述的一种用户预购分类方法,其特征在于:globalvoting:中心节点聚合得到最优的$top-2k$个全局划分特征($top-2k$是看对各个worker选择特征的个数进行计数,取最多的$2k$个)。7.根据权利要求6所述的一种用户预购分类方法,其特征在于:bestattributeidentification:中心节点向worker收集这$top-2k$个特征的直方图,并进行合并,然后计算得到全局的最优划分。8.根据权利要求7所述的一种用户预购分类方法,其特征在于:中心节点将全局最优划分广播给所有的worker,worker进行本地划分。9.根据权利要求1所述的一种用户预购分类方法,其特征在于:多分类模型使用的直方图算法:首先,对梯度的访问,因为不用对特征进行排序;同时,所有的特征都用同样的方式来访问,所以只需要对梯度访问的顺序进行重新排序,所有的特征都能连续的访问梯度。10.根据权利要求9所述的一种用户预购分类方法,其特征在于:直方图算法不需要把数据id到叶子节点号上(不需要这个索引表,没有这个缓存消失问题),大大提高cache的命中率,减少cache-miss出现的概率。
技术总结
本发明公开了一种用户预购分类方法,该分类方法包括如下步骤:S1、每个workers找到局部最佳的切分点{feature,threshold};S2、workers使用点对点通信,找到全局最佳切分点;S3、每个worker根据全局全局最佳切分点进行节点分裂;S4、数据并行使用“ReduceScatter”将不同worker的不同特征的直方图合并,然后workers在局部合并的直方图中找到局部最优划分,最后同步全局最优划分。本发明基于大数据平台以及海量用户行为特征,以用户行为特征为基础,支持自动化优化分类模型,使不同业务周期及用户特定行为发生时,模型可以更好的反馈用户特征,输出更为精确的结果,极大减少了运营人员手工参与的工作量,提升产品用户满意度以及有效触达更精准的用户。以及有效触达更精准的用户。以及有效触达更精准的用户。
技术研发人员:岑袁京 郭景阳 滕雪松
受保护的技术使用者:北京比特易湃信息技术有限公司
技术研发日:2023.02.02
技术公布日:2023/8/16
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
