目标用户的确定方法、装置及可读存储介质与流程

未命名 07-14 阅读:102 评论:0


1.本技术实施例涉及数据处理技术领域,尤其涉及一种目标用户的确定方法、装置及可读存储介质。


背景技术:

2.目前,在信息推荐过程中,往往需要为待推荐的内容确定候选人群作为定向条件,以基于该定向条件进行内容的推荐。由此可见,人群定向是信息推荐的一个非常重要的环节,而人群定向的准确性与信息推荐效果密切相关。
3.但是,商品营销方或者广告缺乏有效的数据来刻画待推广的商品,导致进行用户扩展的时候精度下降,无法准确的确定待推荐的用户。


技术实现要素:

4.本技术提供了一种目标用户的确定方法、装置及可读存储介质,用于准确的确定目标对象的待推荐目标用户。
5.为达到上述目的,本技术采用如下技术方案:
6.第一方面,提供了一种目标用户的确定方法,包括:获取目标对象的多个候选用户的用户日志,并根据用户日志,确定多个候选用户的用户行为序列;用户日志表示用户行为数据;将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;确定多个候选用户的行为向量与目标对象的嵌入向量的相似度;根据相似度,从多个候选用户中确定目标用户,目标用户的行为向量与目标对象的嵌入向量的相似度大于第一阈值。
7.基于本技术提供的技术方案,确定装置在获取目标对象的多个候选用户的用户日志之后,可以根据用户日志,确定多个候选用户的用户行为序列,并将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量。如此,可以准确的量化用户的行为特征。进一步的,确定装置将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;并根据多个候选用户的行为向量与目标对象的嵌入向量的相似度,从多个候选用户中确定目标用户。如此,确定装置通过聚类方法构造目标对象的嵌入向量,可以有效的刻画目标对象与用户之间的关系,更准确的确定目标对象的目标用户。
8.可选的,目标用户的确定方法还包括:获取目标对象对应的用户标签,用户标签包括用户属性、转化行为类型;根据用户标签确定多个候选用户,多个候选用户的用户属性或转化行为类型与用户标签相同。
9.可选的,将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量,包括:基于多个候选用户的行为向量和聚类算法,将多个候选用户进行聚类,得到多个聚类簇;确定每个聚类簇的聚类中心向量,每个聚类簇的聚类中心向量为转化行为类型与用户标签中转化行为类型相同的多个候选用户的行为向量的均值;将每个聚类簇的聚类中心向量进行横向连接,得到目标对象的嵌入向量。
10.可选的,确定多个候选用户的行为向量与目标对象的嵌入向量的相似度,包括:确定多个候选用户的行为向量与目标对象的嵌入向量的余弦值,并将余弦值确定为多个候选用户的行为向量与目标对象的嵌入向量的相似度。
11.第二方面,提供了一种目标用户的确定装置,装置包括:获取单元、确定单元、处理单元;获取单元,用于获取目标对象的多个候选用户的用户日志;确定单元,用于根据用户日志,确定多个候选用户的用户行为序列;用户日志表示用户行为数据;处理单元,用于将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;处理单元,还用于将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;确定单元,还用于确定多个候选用户的行为向量与目标对象的嵌入向量的相似度;确定单元,还用于根据相似度,从多个候选用户中确定目标用户,目标用户的行为向量与目标对象的嵌入向量的相似度大于第一阈值。
12.可选的,获取单元,还用于:获取目标对象对应的用户标签,用户标签包括用户属性、转化行为类型;获取单元,还用于:根据用户标签确定多个候选用户,多个候选用户的用户属性或转化行为类型与用户标签相同。
13.可选的,处理单元,具体用于:基于多个候选用户的行为向量和聚类算法,将多个候选用户进行聚类,得到多个聚类簇;确定每个聚类簇的聚类中心向量,每个聚类簇的聚类中心向量为转化行为类型与用户标签中转化行为类型相同的多个候选用户的行为向量的均值;将每个聚类簇的聚类中心向量进行横向连接,得到目标对象的嵌入向量。
14.可选的,处理单元,具体还用于:确定多个候选用户的行为向量与目标对象的嵌入向量的余弦值,并将余弦值确定为多个候选用户的行为向量与目标对象的嵌入向量的相似度。
15.第三方面,提供了一种目标用户的确定装置,该目标用户的确定装置可以实现上述各方面或者各可能的设计中目标用户的确定装置所执行的功能,功能可以通过硬件实现,如:一种可能的设计中,该目标用户的确定装置可以包括:处理器和通信接口,处理器可以用于支持目标用户的确定装置实现上述第一方面或者第一方面的任一种可能的设计中所涉及的功能。
16.在又一种可能的设计中,目标用户的确定装置还可以包括存储器,存储器用于保存目标用户的确定装置必要的计算机执行指令和数据。当该目标用户的确定装置运行时,该处理器执行该存储器存储的该计算机执行指令,以使该目标用户的确定装置执行上述第一方面或者第一方面的任一种可能的目标用户的确定方法。
17.第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质可以为可读的非易失性存储介质,该计算机可读存储介质存储有计算机指令或者程序,当其在计算机上运行时,使得计算机可以执行上述第一方面或者上述方面的任一种可能的目标用户的确定方法。
18.第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面或者上述方面的任一种可能的设计的目标用户的确定方法。
19.第六方面,提供了一种电子设备,该电子设备包括一个或者多个处理器以及和一个或多个存储器。一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指
令时,使得电子设备执行如上述第一方面或者第一方面的任一可能的设计的目标用户的确定方法。
20.第七方面,提供了一种芯片系统,该芯片系统包括处理器以及通信接口,该芯片系统可以用于实现上述第一方面或第一方面的任一可能的设计中目标用户的确定装置所执行的功能。在一种可能的设计中,芯片系统还包括存储器,存储器,用于保存程序指令和/或数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件,不予限制。
附图说明
21.图1为本技术实施例提供的一种目标用户的确定系统的示意图;
22.图2为本技术实施例提供的一种目标用户的确定装置的结构示意图;
23.图3为本技术实施例提供的一种目标用户的确定方法的流程示意图;
24.图4为本技术实施例提供的又一种目标用户的确定方法的流程示意图;
25.图5为本技术实施例提供的又一种目标用户的确定方法的流程示意图;
26.图6为本技术实施例提供的又一种目标用户的确定系统的示意图;
27.图7为本技术实施例提供的又一种目标用户的确定装置的结构示意图。
具体实施方式
28.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
29.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术实施例的一些方面相一致的装置和方法的例子。
30.还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
31.目前,在信息推荐过程中,往往需要为待推荐的内容确定候选人群作为定向条件,以基于该定向条件进行内容的推荐。由此可见,人群定向是信息推荐的一个非常重要的环节,而人群定向的准确性与信息推荐效果密切相关。
32.但是,商品营销方或者广告缺乏有效的数据来刻画待推广的商品,导致进行用户扩展的时候精度下降,基于模型的人群定向不够准确,进而造成转化成本过高,以此降低了商品发布方的收入产出比(return on investment,roi),无法准确的确定待推荐的用户。
33.鉴于此,本技术实施例提供一种目标用户的确定方法,包括:获取目标对象的多个候选用户的用户日志,并根据用户日志,确定多个候选用户的用户行为序列;用户日志表示用户行为数据;将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;确定多个候选用户的行为向量与目标对象的嵌入向量的相似度;根据相似度,从多个候选用户中确定目标用户,目标用户的行为向量与目标对象的嵌入向量的相似度大于第一阈值。
34.需要说明的是,本技术实施例中涉及到的嵌入向量可以为embedding。
35.下面结合说明书附图对本技术实施例提供的方法进行详细说明。
36.需要说明的是,本技术实施例描述的网络系统是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络系统的演变和其他网络系统的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
37.图1示出的是本技术实施例提供的一种目标用户的确定系统的示意图。如图1所示,该目标用户的确定系统可以包括数据库11、目标用户的确定装置12。数据库11与目标用户的确定装置12(以下简称确定装置12)相连接。例如,数据库11与确定装置12之间可以通过无线的方式进行连接,也可以采用有线的方式连接,本发明实施例对此不作限定。
38.其中,本技术的实施例中涉及的数据库11,也可以称为数据存储装置等具有数据存储功能的设备等。数据库11中存储有用户日志。本技术的实施例对数据库11所采用的具体技术、具体数量和具体设备形态不做限定。
39.其中,本技术的实施例中涉及的确定装置12,可以为服务器、计算机等。其中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本技术的实施例对确定装置12所采用的具体技术、具体数量和具体设备形态不做限定。
40.其中,数据库11用于存储目标对象的多个候选用户的用户日志,并将目标对象的多个候选用户的用户日志发送给确定装置12。
41.确定装置12用于在接收到数据库11发送的目标对象的多个候选用户的用户日志之后,根据用户日志,确定多个候选用户的用户行为序列,并将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;以及,将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;并确定多个候选用户的行为向量与目标对象的嵌入向量的相似度。确定装置12还用于确定多个候选用户的行为向量与目标对象的嵌入向量的相似度;
42.在不同的应用场景中,数据库11与确定装置12可以为相互独立的设备,也可以集成于同一设备中。本发明实施例对此不作具体限定。
43.需要说明的是,图1仅为示例性框架图,图1中包括的各个设备的名称不受限制,且除图1所示功能节点外,还可以包括其他节点,本技术实施例对此不进行限定。
44.需要说明的是,图1仅为示例性框架图,图1中包括的各个模块的名称不受限制,且除图1所示功能模块外,还可以包括其他模块,本技术实施例对此不进行限定。
45.具体实现时,图1中的各个设备均可以采用图2所示的组成结构,或者包括图2所示的部件。图2为本技术实施例提供的一种确定装置200的组成示意图,该确定装置200可以为服务器,或者,该确定装置200可以为服务器中的芯片或者片上系统。如图2所示,该确定装置200包括处理器201,通信接口202以及通信线路203。
46.进一步的,该确定装置200还可以包括存储器204。其中,处理器201,存储器204以及通信接口202之间可以通过通信线路203连接。
47.其中,处理器201是cpu、通用处理器、网络处理器(network processor,np)、数字信号处理器(digital signal processing,dsp)、微处理器、微控制器、可编程逻辑器件
(programmable logic device,pld)或它们的任意组合。处理器201还可以是其它具有处理功能的装置,例如电路、器件或软件模块,不予限制。
48.通信接口202,用于与其他设备或其它通信网络进行通信。通信接口202可以是模块、电路、通信接口或者任何能够实现通信的装置。
49.通信线路203,用于在确定装置200所包括的各部件之间传送信息。
50.存储器204,用于存储指令。其中,指令可以是计算机程序。
51.其中,存储器204可以是只读存储器(read-only memory,rom)或可存储静态信息和/或指令的其他类型的静态存储设备,也可以是随机存取存储器(random access memory,ram)或可存储信息和/或指令的其他类型的动态存储设备,还可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或其他磁存储设备等,不予限制。
52.需要指出的是,存储器204可以独立于处理器201存在,也可以和处理器201集成在一起。存储器204可以用于存储指令或者程序代码或者一些数据等。存储器204可以位于确定装置200内,也可以位于确定装置200外,不予限制。处理器201,用于执行存储器204中存储的指令,以实现本技术下述实施例提供的目标用户的确定方法。
53.在一种示例中,处理器201可以包括一个或多个cpu,例如,图2中的cpu0和cpu1。
54.作为一种可选的实现方式,确定装置200包括多个处理器,例如,除图2中的处理器201之外,还可以包括处理器205。
55.需要指出的是,图2中示出的组成结构并不构成对该图1中的各个设备的限定,除图2所示部件之外,图1中的各个设备可以包括比图2更多或更少的部件,或者组合某些部件,或者不同的部件布置。
56.本技术实施例中,芯片系统可以由芯片构成,也可以包括芯片和其他分立器件。
57.此外,本技术的各实施例之间涉及的动作、术语等均可以相互参考,不予限制。本技术的实施例中各个设备之间交互的消息名称或消息中的参数名称等只是一个示例,具体实现中也可以采用其他的名称,不予限制。
58.为了便于清楚描述本技术实施例的技术方案,在本技术的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
59.需要说明的是,本技术中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
60.本技术中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:
a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
61.下面结合图1所示目标用户的确定系统,对本技术实施例提供的目标用户的确定方法进行描述。
62.图3为本技术实施例提供了一种目标用户的确定方法,应用于服务器,也可以应用于确定装置,该确定装置可以为图1中的确定装置12,还可以为确定装置12中的器件,如芯片等。本技术实施例以应用于确定装置12为例进行说明,如图3所示,该方法包括下述s301-s305:
63.s301、确定装置获取目标对象的多个候选用户的用户日志,并根据用户日志,确定多个候选用户的用户行为序列。
64.其中,目标对象可以为目标商品的推广广告。例如,目标商品可以为衣服、电影等。用户日志表示用户行为数据。即用户进行网络浏览或操作时所产生的用户行为数据。具体地,该用户日志可以包括交易日志、登录日志等信息。用户行为包括点击行为、转化行为等。
65.例如,以用户登录网络购物平台为例,该网络购物平台可以实时记录每个用户的行为,并将其进行存储。具体地,将与交易相关的行为记录在交易日志中,将与登录相关的行为记录在登录日志中。其中,交易日志可以包括用户订单数量、订购商品类别、取消订单数量等;登录日志可以包括登录时间、登录时的网络地址、输入密码次数登信息。
66.作为一种可能的实现方式,确定装置可以与网络购物平台通信连接。确定装置可以向网络购物平台发送第一订阅消息,第一订阅消息用于请求多个候选用户的用户日志。网络购物平台在接收到确定装置发送的第一订阅消息之后,可以向确定装置发送第一回复消息,第一回复消息包括多个候选用户的用户日志。确定装置在接收到网络购物平台发送的第一回复消息之后,可以基于第一回复消息获取目标对象的多个候选用户的用户日志。
67.进一步的,确定装置可以根据用户日志,按时间顺序将用户的行为数据进行排列,得到多个候选用户的用户行为序列。
68.需要说明的,多个候选用户的用户日志可以为当前时刻前一个月时间段内的用户日志,也可以为当前时刻前六个月时间段内的用户日志等。不予限制。
69.s302、确定装置将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;
70.其中,向量表示模型可以根据需要设置。例如,可以为机器学习模型、word2vec模型或者于深度双向预训练转化器(bidirectional encoder representation from transformers,bert)模型等。
71.作为一种可能的实现方式,确定装置在将多个候选用户的用户行为序列输入向量表示模型之前,可以对向量表示模型进行训练。例如,确定装置可以根据候选用户群建立训练集的正负样本集,转化用户作为正样本,点击用户及其他用户作为负样本对向量表示模型进行训练。在向量表示模型训练完成之后,向量表示模型便具备了将用户行为序列转化为向量表示的能力,以得到多个候选用户的行为向量。
72.一种示例中,确定装置可以利用字向量模型获得行为特征对应的字向量和利用字符向量模型获得用户行为特征对应的字符向量。例如,某一用户行为特征为商品名称“pen”,该用户行为特征对应的词向量为“pen”一词对应的向量,该行为对应的字符向量为“p”、“e”和“n”三个字符各自对应的字符向量。若用户行为特征为商品名称为中文,如“水
杯”,该用户行为特征对应的词向量为“水杯”一词对应的向量,该用户行为特征对应的字向量为“水”和“杯”两个字各自对应的字向量。例如,行为向量为x={x0,x1…
,xn},其中,xn表示第n个行为。对应的词向量为x
wn
、对应的字向量x
zn
、字符向量为x
cn

73.s303、确定装置将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量。
74.作为一种可能的实现方式,确定装置可以基于多个候选用户的行为向量和聚类算法,将多个候选用户进行聚类,得到多个聚类簇,并确定每个聚类簇的聚类中心向量,每个聚类簇的聚类中心向量为转化行为类型与用户标签中转化行为类型相同的多个候选用户的行为向量的均值。进一步的,确定装置可以将每个聚类簇的聚类中心向量进行横向连接,得到目标对象的嵌入向量。
75.需要说明的,该可能的实现方式中的将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量的具体说明将在后续部分进行说明,本技术在此暂不赘述。
76.s304、确定装置确定多个候选用户的行为向量与目标对象的嵌入向量的相似度。
77.作为一种可能的实现方式,确定装置可以确定多个候选用户的行为向量与目标对象的嵌入向量的余弦值,并将余弦值确定为多个候选用户的行为向量与目标对象的嵌入向量的相似度。
78.例如,确定装置可以通过以下公式一确定多个候选用户的行为向量与目标对象的嵌入向量的余弦值:
79.z=a*b/|a||b|公式一
80.其中,z表示多个候选用户的行为向量与目标对象的嵌入向量的余弦值。a表示候选用户的行为向量。b表示目标对象的嵌入向量。
81.作为又一种可能的实现方式,确定装置可以使用预设的分类算法确定多个候选用户的行为向量与目标对象的嵌入向量的相似度。例如,预设的分类算法可以为随机森林(random forest,rf),决策树算法(extreme gradient boosting,xgboost)等。
82.s305、确定装置根据相似度,从多个候选用户中确定目标用户。
83.其中,目标用户的行为向量与目标对象的嵌入向量的相似度大于第一阈值。第一阈值可以根据需要设置。例如,可以为70%、80%、90%等。
84.作为一种可能的实现方式,确定装置设置有比较器,确定装置可以通过比较器,确定每个候选用户中的行为向量和目标对象的嵌入向量的相似度,与第一阈值的大小关系,并根据该大小关系,筛选出多个候选用户中的行为向量与目标对象的嵌入向量的相似度大于第一阈值的多个候选用户确定为目标用户。
85.基于本技术提供的技术方案,确定装置在获取目标对象的多个候选用户的用户日志之后,可以根据用户日志,确定多个候选用户的用户行为序列,并将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量。如此,可以准确的量化用户的行为特征。进一步的,确定装置将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;并根据多个候选用户的行为向量与目标对象的嵌入向量的相似度,从多个候选用户中确定目标用户。如此,确定装置通过聚类方法构造目标对象的嵌入向量,可以有效的刻画目标对象与用户之间的关系,更准确的确定目标对象的目标用户。
86.一种可能的实施例,如图4所示,为了确定多个候选用户,本技术的确定方法还可
以具体包括下述s401-s402。
87.s401、确定装置获取目标对象对应的用户标签。
88.其中,用户标签包括用户属性、转化行为类型。例如,用户属性可以包括:年龄、性别、婚否、家庭人口、兴趣爱好、学历、籍贯、居住地、工作地、工作所属行业等等,在一些应用场景中,用户属性也可以认为是用户画像。转化行为类型可以包括:交易行为类型、评论行为类型等。
89.作为一种可能的实现方式,确定装置可以响应于管理员的输入操作,获取目标对象对应的用户标签。例如,确定装置可以设置有物理按键。该物理按键可以响应于管理员的按压操作,确定管理员的输入内容,以获取目标对象对应的用户标签。
90.s402、确定装置根据用户标签确定多个候选用户。
91.其中,多个候选用户的用户属性或转化行为类型与用户标签相同。
92.作为一种可能的实现方式,确定装置可以确定全量用户中每个用户的用户属性,和每个用户的转化行为类型,并根据用户标签对全量用户中每个用户的用户属性,和每个用户的转化行为类型进行匹配,得到匹配结果,并根据匹配结果确定多个候选用户。
93.需要说明的,匹配结果包括用户属性与用户标签中用户属性相同的用户,以及转化行为类型与用户标签中转化行为类型相同的用户。
94.一种示例中,在目标对象为电影推送广告的情况下,用户属性可以为年龄大于10岁、爱好影视的用户。转化行为类型可以为存在交易电影票历史记录的用户。确定装置将年龄大于10岁且爱好影视的用户,以及存在交易电影票历史记录的用户确定多个候选用户。
95.如此,可以初步筛选出目标对象的感兴趣用户。
96.一种可能的实施例,如图5所示,为了将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量,本技术的确定方法中的s303具体还可以包括下述s501-s503。
97.s501、确定装置基于多个候选用户的行为向量和聚类算法,将多个候选用户进行聚类,得到多个聚类簇。
98.其中,聚类算法可以根据需要设置。例如,划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。具体的,可以为k聚类均值kmeans算法等。kmeans算法中的k值可以根据应用场景的实际需要灵活地设置,例如,k可以为5。
99.作为一种可能的实现方式,确定装置可以在随机选取k个中心点后,定义损失函数,并将每个候选用户的行为向量,分配到欧式距离最近的中心点。进一步的,在分配完毕后,确定装置可以根据分配好的每个候选用户的行为向量,重新确定k个中心点。直至损失函数收敛,得到多个聚类簇。
100.在一些实施例中,每个聚类簇还可以设置有聚类标签。例如,在目标对象为电影的情况下,聚类标签可以为言情、武打、科幻、喜剧等。
101.s502、确定装置确定每个聚类簇的聚类中心向量。
102.其中,每个聚类簇的聚类中心向量为转化行为类型与用户标签中转化行为类型相同的多个候选用户的行为向量的均值;
103.作为一种可能的实现方式,确定装置可以将第一聚类簇中的多个候选用户的行为向量进行求和处理,得到第一聚类簇中的多个候选用户的行为向量之和,并确定第一聚类簇中的多个候选用户的行为向量之和,与第一聚类簇中的多个候选用户的数量的比值,并
将该比值确定为第一聚类簇的聚类中心向量,得到每个聚类簇的聚类中心向量。
104.需要说明的,第一聚类簇为多个聚类簇中的任一个。
105.s503、确定装置将每个聚类簇的聚类中心向量进行横向连接,得到目标对象的嵌入向量。
106.一种示例中,多个聚类簇的可以包括聚类簇1、聚类簇2、聚类簇3、聚类簇4、聚类簇5。在聚类簇1、聚类簇2、聚类簇3、聚类簇4、聚类簇5的聚类中心向量分别为0.5、0.7、0.6、0.5、0.8的情况下,确定装置可以确定目标对象的嵌入向量为[0.5,0.7,0.6,0.5,0.8]。
[0107]
如此,确定装置通过聚类算法处理多个候选用户的行为向量,得到多个聚类簇,并在确定每个聚类簇的聚类中心向量之后,将每个聚类簇的聚类中心向量进行横向连接,得到目标对象的嵌入向量。由于每个聚类簇的聚类中心向量,不仅可以抽象压缩每个聚类簇的信息,减少系统负载,而且还可以反映出每个聚类簇中的转化行为类型与用户标签中转化行为类型相同的多个候选用户的行为向量的均值,准确的体现出构造目标对象的嵌入向量,进而有效的刻画目标对象与用户之间的关系,可以更准确的确定目标对象的目标用户。
[0108]
一种可能的实施例,在确定目标用户之后,确定装置可以将该实例过程进行打包,得到人群包相似人群扩展(lookalike)模型。在得到人群包lookalike模型之后,确定装置可以对lookalik模型使用roc曲线下方面积(area under curve,auc)和人群topk召回率进行衡量。调节lookalike模型参数,直至roi指标为大于目标指标。
[0109]
进一步的,在调节lookalike模型参数之后,针对目标用户,确定装置还可以计算每一个目标用户对应的推荐参数,以此实现用户粒度的推荐参数,从而为内容发布方实现了更加精细的人群定向策略,
[0110]
一种可能的实施例,图6示出的是本技术实施例提供的一种目标用户的确定系统的示意图。如图6所示,该目标用户的确定系统可以包括数据产出存储模块、在线服务模块、模型训练模块。
[0111]
其中,数据产出存储模块用于根据用户的行为向量和聚类算法确定多个聚类中心向量。在线服务模块用于根据系统接口输入调用,获取数据产出存储模块发送的多个聚类中心向量,并根据多个聚类中心向量,遍历多个候选用户,以确定目标用户。模型训练模块用于根据用户日志,对用户的行为向量进行学习,模型训练模块还用于对用户进行聚类,对人群相似人群扩展(lookalike)进行学习。
[0112]
本技术上述实施例中的各个方案在不矛盾的前提下,均可以进行结合。
[0113]
本技术实施例可以根据上述方法示例对确定装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本技术实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0114]
在采用对应各个功能划分各个功能模块的情况下,图7示出了一种确定装置的结构示意图,该确定装置可以为服务器,也可以为应用于服务器中的芯片,该确定装置可以用于执行上述实施例中涉及的对服务器的功能。图7所示的确定装置可以包括:获取单元701、确定单元702、处理单元703;获取单元701,用于获取目标对象的多个候选用户的用户日志;确定单元702,用于根据用户日志,确定多个候选用户的用户行为序列;用户日志表示用户
行为数据;处理单元703,用于将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;处理单元703,还用于将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入向量;确定单元702,还用于确定多个候选用户的行为向量与目标对象的嵌入向量的相似度;确定单元702,还用于根据相似度,从多个候选用户中确定目标用户,目标用户的行为向量与目标对象的嵌入向量的相似度大于第一阈值。
[0115]
一种可能的设计中,获取单元701,还用于:获取目标对象对应的用户标签,用户标签包括用户属性、转化行为类型;获取单元701,还用于:根据用户标签确定多个候选用户,多个候选用户的用户属性或转化行为类型与用户标签相同。
[0116]
一种可能的设计中,处理单元703,具体用于:基于多个候选用户的行为向量和聚类算法,将多个候选用户进行聚类,得到多个聚类簇;确定每个聚类簇的聚类中心向量,每个聚类簇的聚类中心向量为转化行为类型与用户标签中转化行为类型相同的多个候选用户的行为向量的均值;将每个聚类簇的聚类中心向量进行横向连接,得到目标对象的嵌入向量。
[0117]
一种可能的设计中,处理单元703,具体还用于:确定多个候选用户的行为向量与目标对象的嵌入向量的余弦值,并将余弦值确定为多个候选用户的行为向量与目标对象的嵌入向量的相似度。
[0118]
本技术实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机程序来指令相关的硬件完成,该程序可存储于上述计算机可读存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的确定装置(包括数据发送端和/或数据接收端)的内部存储单元,例如确定装置的硬盘或内存。上述计算机可读存储介质也可以是上述终端装置的外部存储设备,例如上述终端装置上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,上述计算机可读存储介质还可以既包括上述确定装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述确定装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0119]
需要说明的是,本技术的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0120]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0121]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的
方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0122]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0123]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0124]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0125]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0126]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种目标用户的确定方法,其特征在于,所述方法包括:获取目标对象的多个候选用户的用户日志,并根据所述用户日志,确定所述多个候选用户的用户行为序列;所述用户日志表示用户行为数据;将所述多个候选用户的用户行为序列输入向量表示模型,得到所述多个候选用户的行为向量;将所述多个候选用户的行为向量进行聚类处理,得到所述目标对象的嵌入向量;确定所述多个候选用户的行为向量与所述目标对象的嵌入向量的相似度;根据所述相似度,从所述多个候选用户中确定目标用户,所述目标用户的行为向量与所述目标对象的嵌入向量的相似度大于第一阈值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取目标对象对应的用户标签,所述用户标签包括用户属性、转化行为类型;根据所述用户标签确定多个候选用户,所述多个候选用户的用户属性或转化行为类型与所述用户标签相同。3.根据权利要求1所述的方法,其特征在于,所述将所述多个候选用户的行为向量进行聚类处理,得到所述目标对象的嵌入向量,包括:基于所述多个候选用户的行为向量和聚类算法,将所述多个候选用户进行聚类,得到多个聚类簇;确定每个聚类簇的聚类中心向量,所述每个聚类簇的聚类中心向量为转化行为类型与所述用户标签中转化行为类型相同的所述多个候选用户的行为向量的均值;将所述每个聚类簇的聚类中心向量进行横向连接,得到所述目标对象的嵌入向量。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述确定所述多个候选用户的行为向量与所述目标对象的嵌入向量的相似度,包括:确定所述多个候选用户的行为向量与所述目标对象的嵌入向量的余弦值,并将所述余弦值确定为所述多个候选用户的行为向量与所述目标对象的嵌入向量的相似度。5.一种目标用户的确定装置,其特征在于,所述装置包括:获取单元、确定单元、处理单元;所述获取单元,用于获取目标对象的多个候选用户的用户日志;所述确定单元,用于根据所述用户日志,确定所述多个候选用户的用户行为序列;所述用户日志表示用户行为数据;所述处理单元,用于将所述多个候选用户的用户行为序列输入向量表示模型,得到所述多个候选用户的行为向量;所述处理单元,还用于将所述多个候选用户的行为向量进行聚类处理,得到所述目标对象的嵌入向量;所述确定单元,还用于确定所述多个候选用户的行为向量与所述目标对象的嵌入向量的相似度;所述确定单元,还用于根据所述相似度,从所述多个候选用户中确定目标用户,所述目标用户的行为向量与所述目标对象的嵌入向量的相似度大于第一阈值。6.根据权利要求5所述的装置,其特征在于,所述获取单元,还用于:获取目标对象对应的用户标签,所述用户标签包括用户属性、转化行为类型;
所述获取单元,还用于:根据所述用户标签确定多个候选用户,所述多个候选用户的用户属性或转化行为类型与所述用户标签相同。7.根据权利要求5所述的装置,其特征在于,所述处理单元,具体用于:基于所述多个候选用户的行为向量和聚类算法,将所述多个候选用户进行聚类,得到多个聚类簇;确定每个聚类簇的聚类中心向量,所述每个聚类簇的聚类中心向量为转化行为类型与所述用户标签中转化行为类型相同的所述多个候选用户的行为向量的均值;将所述每个聚类簇的聚类中心向量进行横向连接,得到所述目标对象的嵌入向量。8.根据权利要求5-7中任一项所述的装置,其特征在于,所述处理单元,具体还用于:确定所述多个候选用户的行为向量与所述目标对象的嵌入向量的余弦值,并将所述余弦值确定为所述多个候选用户的行为向量与所述目标对象的嵌入向量的相似度。9.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有指令,当所述指令被执行时,实现如权利要求1-4中任一项所述的方法。10.一种电子设备,其特征在于,包括:处理器、用于存储所述处理器可执行的指令的存储器;其中,所述处理器被配置为执行指令,以实现所述权利要求1-4中任一项所述的目标用户的确定方法。

技术总结
本申请公开了一种目标用户的确定方法、装置及可读存储介质,涉及数据处理技术领域,用于准确的确定目标对象待推荐的目标用户。该方法包括:获取目标对象的多个候选用户的用户日志,并根据用户日志,确定多个候选用户的用户行为序列;用户日志表示用户行为数据;将多个候选用户的用户行为序列输入向量表示模型,得到多个候选用户的行为向量;将多个候选用户的行为向量进行聚类处理,得到目标对象的嵌入embedding向量;确定多个候选用户的行为向量与目标对象的embedding向量的相似度;根据相似度,从多个候选用户中确定目标用户,目标用户的行为向量与目标对象的embedding向量的相似度大于第一阈值。似度大于第一阈值。似度大于第一阈值。


技术研发人员:马震 刘飞 赵君 王亮
受保护的技术使用者:联通在线信息科技有限公司
技术研发日:2023.02.10
技术公布日:2023/7/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐