一种人群离线验证方法、装置、设备及存储介质与流程
未命名
07-14
阅读:124
评论:0
1.本发明涉及离线验证领域,特别涉及一种人群离线验证方法、装置、设备及存储介质。
背景技术:
2.look-alike的输入是一个user列表(可以是user id或者电话号码等id标识),这个user列表可以是广告主上一次活动的人群,可以是广告主的已有用户中高净值人群等等。这个输入人群列表有个专有名词叫做“种子用户(seeds)”。而look-alike的输出还是一个user列表,与输入user列表存在强关联(相似)的用户群。look-alike的一般流程为根据正样本、负样本训练出lookalike模型,对全量候选人群进行模型打分,取打分头部人群作为投放目标,进行广告投放。
3.现有技术中最直接的lookalike(通过一群已有的用户发现并扩展出其他用户的推荐算法)效果评价方式是在线对目标人群进行广告投放,从而直接观测到线上ctr(click-through-rate,点击通过率)、cvr(conversion rate,转化率)等评价指标变化,判定当前目标人群的效果。但这样验证往往存在损失线上收益的风险,因此一个算法的上线往往需要先离线验证效果后才能执行在线投放测试。但现有的验证标准全面性差,且不能充分保证模型的可解释性,对模型的验证效果差。look-alike(相似受众定向)目的是根据广告主提供的用户,帮助其进行人群圈选。
技术实现要素:
4.有鉴于此,本发明的目的在于提供一种人群离线验证方法、装置、设备及存储介质,解决了现有技术中模型验证标准全面性差的问题。
5.为解决上述技术问题,本发明提供了一种人群离线验证方法,包括:
6.获取种子人群和离线验证指标,所述离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,所述lookalike人群命中占中比曲线指标用来评估所述种子人群的放大比例参数;
7.对所述种子人群进行划分确定正负样本、训练集和验证集;
8.根据所述正负样本、所述训练集和所述验证集构建lookalike模型;
9.根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型。
10.可选的,根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型,包括:
11.计算所述lookalike模型的auc值;
12.计算所述lookalike模型的tgi值;
13.确定候选人群中行为人群的覆盖率曲线与目标人群的行为率曲线的交叉点;所述交叉点为所述种子人群的放大比例参数;
14.所述目标人群的行为率曲线为所述lookalike模型放大人群中行为人群人数与所
述lookalike模型放大人群总人数的比值数据形成的曲线;所述候选人群中行为人群的覆盖率曲线为所述lookalike模型放大人群中行为人群人数与所述候选人群中行为人群人数的比值数据形成的曲线;所述行为包括点击或者转化;
15.将满足所述auc值在第一预设区间内、所述tgi值在第二预设区间内且所述交叉点符合预设条件的模型作为第一模型;
16.将所述第一模型中auc最大值对应的模型确定为所述在线投放模型。
17.可选的,所述交叉点符合预设条件,包括:
18.所述交叉点满足f(socre(xi))≥n*θ且g(socre(xi))≥δ;
19.xi表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个值;socre(xi)表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个打分结果;f(x)表示目标人群的行为率(点击率/转化率);g(x)表示候选人群中行为人群的覆盖率;δ表示覆盖率参数;θ表示候选人群的人群行为率,n表示所述种子人群的放大比例参数。
20.可选的,在所述确定在线投放模型之后,还包括:
21.确定所述在线投放模型的投放阈值;
22.根据所述投放阈值确定目标人群;
23.对所述目标人群进行广告投放。
24.可选的,所述对所述种子人群进行划分确定正负样本、训练集和验证集,包括:
25.将所述种子人群与候选人群匹配成功的人群作为正样本,将所述种子人群与所述候选人群未匹配成功的人群作为负样本;
26.对所述正样本和所述负样本进行随机采样,划分为所述训练集和所述验证集。
27.可选的,所述对所述种子人群进行划分确定正负样本、训练集和验证集,包括:
28.将所述种子人群与候选人群匹配成功的人群作为正样本,将所述种子人群与所述候选人群未匹配成功的人群作为负样本;
29.将某天的数据作为所述训练集,将所述某天后的第二天的数据作为所述验证集。
30.可选的,所述对所述种子人群进行划分确定正负样本、训练集和验证集,包括:
31.将某天转化人群作为正样本,所述某天未转化人群作为负样本;
32.对所述正样本和所述负样本进行随机采样,划分为所述训练集和所述验证集。
33.本发明还提供了一种人群离线验证装置,包括:
34.获取模块,用于获取种子人群和离线验证指标,所述离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,所述lookalike人群命中占中比曲线指标用来评估所述种子人群的放大比例参数;
35.划分模块,用于对所述种子人群进行划分确定正负样本、训练集和验证集;
36.模型构建模块,用于根据所述正负样本、所述训练集和所述验证集构建lookalike模型;
37.评估模块,用于根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型。
38.本发明还提供了一种人群离线验证设备,包括:
39.存储器,用于存储计算机程序;
40.处理器,用于执行所述计算机程序实现上述的人群离线验证方法的步骤。
41.本发明还提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述的人群离线验证方法的步骤。
42.可见,本发明通过获取种子人群和离线验证指标,离线验证指标包括auc指标和lookalike人群命中占中比曲线指标;对种子人群进行划分确定正负样本、训练集和验证集;并根据正负样本、训练集和验证集构建lookalike模型;根据离线验证指标对lookalike模型进行评估,确定在线投放模型。当具有一定区分难度时,本发明设定的离线验证指标也可以评估得出lookalike模型的区分能力,本发明确定的在线投放模型能够明显提升投放人群的行为率。
43.此外,本发明还提供了一种人群离线验证装置、设备即存储介质,同样具有上述有益效果。
附图说明
44.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
45.图1为本发明实施例提供的一种人群离线验证方法的流程图;
46.图2为本发明实施例提供的一种某lookalike模型的lookalike人群命中占比曲线示例图;
47.图3为本发明实施例提供的一种lookalike全流程图;
48.图4为本发明实施例提供的一种人群离线验证装置的结构示意图;
49.图5为本发明实施例提供的一种人群离线验证设备的结构示意图。
具体实施方式
50.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.请参考图1,图1为本发明实施例提供的一种人群离线验证方法的流程图。该方法可以包括:
52.s101:获取种子人群和离线验证指标,离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,lookalike人群命中占中比曲线指标用来评估种子人群的放大比例参数。
53.本实施例的执行主体为终端。本实施例并不限定终端的种类,只要是能够完成人群离线验证的操作即可。例如,终端可以是专用型终端,或者终端还可以是通用型终端。
54.当lookalike模型拟合数据完好,正样本的打分应该是比所有负样本人群的打分高的,因此auc(area under the curve,roc曲线下的面积)指标可以检验模型对种子人群的学习能力,但需要lookalike模型对正负样本有一定区分力的同时又希望具有一定泛化能力,从而能从候选集中对种子人群实现放大。
55.tgi指标表示不同特征用户关注问题的差异情况,其中tgi数值等于100表示平均水平,高于100,代表该类用户对某类问题的关注程度高于整体水平。为了方便理解,举例如下:在15-24岁的人群中,有8.9%的人过去一年内去过某电影网站看电影,而在总体人群中,去过该电影网站看电影的人数比例为6.6%,则该电影网站在15-24岁人群中的tgi数值是134.9(8.9%/6.6%
×
100),这说明,该电影网站主要定位在15-24岁的人群中。其数额越大,就表明目标群体吻合度就越高。
56.当lookalike模型放大种子人群时,会根据放大比例对各模型打分筛选top k%作为目标人群,进行广告投放。比例k%越高,选中人群的点击率就会越低,但选中人群中的行为(点击或转化)人群人数/候选集中总人数会越高。为了方便理解,可以参考图2,图2为某lookalike模型的lookalike人群命中占比曲线示例图,横坐标表示lookalike模型放大种子人群时的比例,按照候选集top k%,纵坐标为百分比,例如:当候选集人数约600万,其中目标人群约5万,则点击率为5w/600w=0.000778。图2中的实线表示候选人群中行为人群的覆盖率曲线,计算方式为lookalike模型放大人群中行为人群人数与候选人群中行为人群人数的比值数据形成的曲线;行为包括点击或者转化,即lookalike放大人群中行为人群人数/候选人群中行为人群人数;图2中的虚线表示目标人群的行为率曲线,计算方式为lookalike放大人群中行为(点击或者转化)人群人数与lookalike放大人群总人数的比值,即lookalike放大人群中行为(点击或者转化)人群人数/lookalike放大人群总人数。目标人群的行为率曲线可以说明选取的头部人群人数越多,目标人群的点击率就越低。因为行为人群集中在头部,随着阈值降低,圈选的未行为人群就越多。候选人群中行为人群的覆盖率曲线说明选取的头部人群人数越多,行为人群就覆盖越多。图2中最右侧top1%约覆盖了70%的行为人群。曲线上升趋势越来越平缓,说明新增覆盖人群数量变少。
57.s102:对种子人群进行划分确定正负样本、训练集和验证集。
58.本实施例并不限定种子人群具体的划分方式,例如,可以是下述方法:
59.步骤51:将种子人群与候选人群匹配成功的人群作为正样本,将种子人群与候选人群未匹配成功的人群作为负样本。
60.步骤52:对正样本和负样本进行随机采样,划分为训练集和验证集。
61.该方法行为人群中效果好,但可能是种子人群区分度本来就很高,故需要用区分度更困难的人群验证模型的效果。
62.本实施例并不限定种子人群具体的划分方式,例如,还可以是下述方法:
63.步骤61:将种子人群与候选人群匹配成功的人群作为正样本,将种子人群与候选人群未匹配成功的人群作为负样本。
64.步骤62:将某天的数据作为训练集,将某天后的第二天的数据作为验证集。
65.该方法行为人群往往会被头部人数影响,导致lookalike模型只学习了头部人数的特征偏好,并非是种子人群普遍的特征。
66.本实施例并不限定种子人群具体的划分方式,例如,还可以是下述方法:
67.步骤71:将某天转化人群作为正样本,某天未转化人群作为负样本。
68.步骤72:对正样本和负样本进行随机采样,划分为训练集和验证集。
69.该方法以天为转化单位,同时将正样本难度提升到转化级别,正负样本更相似,需要lookalike模型对样本有更强的区分能力。
70.本实施例中并不限定种子人群具体的划分方式,例如可以是上述划分方式的任一项或者任意组合。例如:第一人群包,第一人群包的正负样本、训练集和验证集划分包括:将种子人群与候选人群匹配成功的人群作为正样本,将种子人群与候选人群未匹配成功的人群作为负样本;对正样本和负样本进行随机采样,划分为训练集和验证集;第二人群包,第二人群包的正负样本、训练集和验证集划分包括:将种子人群与候选人群匹配成功的人群作为正样本,将种子人群与候选人群未匹配成功的人群作为负样本;将某天的数据作为训练集,将某天后的第二天的数据作为验证集;第三人群包,第三人群包的正负样本、训练集和验证集划分包括:将某天转化人群作为正样本,某天未转化人群作为负样本,对正样本和负样本进行随机采样,划分为训练集和验证集。相应的,根据正负样本、训练集和验证集构建lookalike模型,包括:根据第一人群包、第二人群包和第三人群包各自的正负样本、训练集和验证集构建各自对应的lookalike模型。
71.s103:根据正负样本、训练集和验证集构建lookalike模型。
72.本实施例并不限定构建lookalike模型的具体方式,可以参照现有技术中构建流程进行模型构建。图3为本发明实施例提供的一种lookalike全流程图。根据种子人群匹配数据,划分正负样本,确定训练集和验证集,进行特征提取、特征交叉和特征选择,进行模型构建,模型构建包括选择模型,模型融合以及参数调优,根据构建好的模型筛选目标以及对目标进行投放。可以参照图3中的特征工程和模型构造部分进行模型构建。
73.s104:根据离线验证指标对lookalike模型进行评估,确定在线投放模型。
74.进一步,为了保证在线投放模型确定的目标人群的准确性以及在线投放模型的可靠性,上述离线验证指标对lookalike模型进行评估,确定在线投放模型,可以包括以下步骤:
75.步骤21:计算lookalike模型的auc值;
76.步骤22:计算lookalike模型的tgi值;
77.步骤23:确定候选人群中行为人群的覆盖率曲线与目标人群的行为率曲线的交叉点;交叉点为种子人群的放大比例参数;
78.步骤24:目标人群的行为率曲线为lookalike模型放大人群中行为人群人数与lookalike模型放大人群总人数的比值数据形成的曲线;候选人群中行为人群的覆盖率曲线为lookalike模型放大人群中行为人群人数与候选人群中行为人群人数的比值数据形成的曲线;行为包括点击或者转化;
79.步骤25:将满足auc值在第一预设区间内、tgi值在第二预设区间内且交叉点符合预设条件的模型作为第一模型。
80.步骤26:将第一模型中auc最大值对应的模型确定为在线投放模型。
81.本实施例通过计算构建的lookalike模型的离线指标数据:auc值、tgi值和种子人群的放大比例参数,评价模型的好坏。
82.本实施例中并不限定第一预设区间和第二预设区间的具体内容,可以根据用户需求进行设定。例如,第一预设区间可以为[0.7,0.95],即auc需满足在[0.7.0.95]区间内,该模型才符合auc指标,说明该模型具有一定的区分能力的同时,人群包中的正负样本还有一定的区分难度。tgi值包含了重要业务指标,tgi值需满足在正常范围内即可,通过tgi指标对模型的校验,可以保证该模型的可解释性,避免出现标签泄漏等问题。本实施例将满足
auc值在第一预设区间内、tgi值在第二预设区间内且交叉点符合预设条件的模型作为第一模型,第一模型即满足离线验证指标的模型;根据auc值对第一模型中各个模型进行从高到低排序,将最大auc值对应的模型确定为在线投放模型。
[0083]
进一步,为了确保选出的在线投放模型的准确性,上述交叉点符合预设条件,可以包括以下步骤:
[0084]
交叉点满足f(socre(xi))≥n*θ且g(socre(xi))≥δ;
[0085]
xi表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个值;socre(xi)表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个打分结果;f(x)表示目标人群的行为率(点击率或者转化率);g(x)表示候选人群中行为人群的覆盖率;δ表示覆盖率参数;θ表示候选人群的人群行为率,n表示所述种子人群的放大比例参数。
[0086]
进一步,确保在线投放模型确定的目标人群更准确,在上述确定在线投放模型之后,还可以包括以下步骤:
[0087]
步骤41:确定在线投放模型的投放阈值。
[0088]
步骤42:根据投放阈值确定目标人群。
[0089]
步骤43:对所述目标人群进行广告投放。
[0090]
本实施例中投放阈值可以根据下述公式确定:
[0091]
max f(socre(xi));
[0092]
s.t.g(socre(xi))≥δ;
[0093]
s.t.(subject to/such that缩写),即当满足g(socre(xi))≥δ时取f(socre(xi))的最大值作为在线投放模型的投放阈值。
[0094]
应用本发明实施例提供的人群离线验证方法,通过获取种子人群和离线验证指标,离线验证指标包括auc指标和lookalike人群命中占中比曲线指标;对种子人群进行划分确定正负样本、训练集和验证集;并根据正负样本、训练集和验证集构建lookalike模型;根据离线验证指标对lookalike模型进行评估,确定在线投放模型。当具有一定区分难度时,本发明设定的离线验证指标也可以评估得出lookalike模型的区分能力,本发明确定的在线投放模型能够明显提升投放人群的行为率。通过分别建立不同难度区分度的正负样本作为训练数据,通过多种人群包实验和多个离线验证指标进行多角度证明在线投放模型的可靠性;保证在线投放模型确定的目标人群的准确性以及在线投放模型的可靠性,将满足auc值在第一预设区间内、tgi值在第二预设区间内且交叉点符合预设条件的模型作为第一模型,将第一模型中auc值最大的对应模型为在线投放模型;利用交叉点满足f(socre(xi))≥n*θ且g(socre(xi))≥δ,确保选出的在线投放模型的准确性。
[0095]
下面对本发明实施例提供的人群离线验证装置进行介绍,下文描述的人群离线验证装置与上文描述的人群离线验证方法可相互对应参照。
[0096]
具体请参考图4,图4为本发明实施例提供的人群离线验证装置的结构示意图,可以包括:
[0097]
获取模块100,用于获取种子人群和离线验证指标,所述离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,所述lookalike人群命中占中比曲线指标用来评估所述种子人群的放大比例参数;
[0098]
划分模块200,用于对所述种子人群进行划分确定正负样本、训练集和验证集;
[0099]
模型构建模块300,用于根据所述正负样本、所述训练集和所述验证集构建lookalike模型;
[0100]
评估模块400,用于根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型。
[0101]
基于上述实施例,其中评估模块400,可以包括:
[0102]
第一计算单元,用于计算所述lookalike模型的auc值;
[0103]
第二计算单元,用于计算所述lookalike模型的tgi值;
[0104]
交叉点确定单元,用于确定候选人群中行为人群的覆盖率曲线与目标人群的行为率曲线的交叉点;所述交叉点为所述种子人群的放大比例参数;所述目标人群的行为率曲线为所述lookalike模型放大人群中行为人群人数与所述lookalike模型放大人群总人数的比值数据形成的曲线;所述候选人群中行为人群的覆盖率曲线为所述lookalike模型放大人群中行为人群人数与所述候选人群中行为人群人数的比值数据形成的曲线;所述行为包括点击或者转化;
[0105]
第一模型确定单元,用于将满足所述auc值在第一预设区间内、所述tgi值在第二预设区间内且所述交叉点符合预设条件的模型作为第一模型;
[0106]
在线投放模型确定单元,用于将所述第一模型中auc最大值对应的模型确定为所述在线投放模型。
[0107]
基于上述实施例,其中第一模型确定单元中的交叉点符合预设条件,可以包括:
[0108]
满足条件子单元,用于所述交叉点满足f(socre(xi))≥n*θ且g(socre(xi))≥δ;xi表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个值;socre(xi)表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个打分结果;f(x)表示目标人群的行为率(点击率/转化率);g(x)表示候选人群中行为人群的覆盖率;δ表示覆盖率参数;θ表示候选人群的人群行为率,n表示所述种子人群的放大比例参数。
[0109]
基于上述实施例,其中人群离线验证装置,还可以包括:
[0110]
投放阈值确定模块,用于确定所述在线投放模型的投放阈值;
[0111]
目标人群确定模块,用于根据所述投放阈值确定目标人群;
[0112]
广告投放模块,用于对所述目标人群进行广告投放。
[0113]
基于上述是实施例,其中划分模块200,可以包括:
[0114]
第一划分单元,用于将所述种子人群与候选人群匹配成功的人群作为正样本,将所述种子人群与所述候选人群未匹配成功的人群作为负样本;
[0115]
第二划分单元,用于对所述正样本和所述负样本进行随机采样,划分为所述训练集和所述验证集。
[0116]
基于上述是实施例,其中划分模块200,可以包括:
[0117]
第三划分单元,用于将所述种子人群与候选人群匹配成功的人群作为正样本,将所述种子人群与所述候选人群未匹配成功的人群作为负样本;
[0118]
第四划分单元,用于将某天的数据作为所述训练集,将所述某天后的第二天的数据作为所述验证集。
[0119]
基于上述是实施例,其中划分模块200,可以包括:
[0120]
第五划分单元,用于将某天转化人群作为正样本,所述某天未转化人群作为负样
本;
[0121]
第六划分单元,用于对所述正样本和所述负样本进行随机采样,划分为所述训练集和所述验证集。
[0122]
需要说明的是,上述人群离线验证装置中的模块以及单元在不影响逻辑的情况下,其顺序可以前后进行更改。
[0123]
应用本发明实施例提供的人群离线验证装置,通过获取模块100,用于获取种子人群和离线验证指标,离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,lookalike人群命中占中比曲线指标用来评估种子人群的放大比例参数;划分模块200,用于对种子人群进行划分确定正负样本、训练集和验证集;模型构建模块300,用于根据正负样本、训练集和验证集构建lookalike模型;评估模块400,用于根据离线验证指标对lookalike模型进行评估,确定在线投放模型。本装置设定的离线验证指标也可以评估得出lookalike模型的区分能力,确定的在线投放模型能够明显提升投放人群的行为率。通过分别建立不同难度区分度的正负样本作为训练数据,通过多种人群包实验和多个离线验证指标进行多角度证明在线投放模型的可靠性;保证在线投放模型确定的目标人群的准确性以及在线投放模型的可靠性,将满足auc值在第一预设区间内、tgi值在第二预设区间内且交叉点符合预设条件的模型作为第一模型,将第一模型中auc值最大的对应模型为在线投放模型;利用交叉点满足f(socre(xi))≥n*θ且g(socre(xi))≥δ,确保选出的在线投放模型的准确性。
[0124]
下面对本发明实施例提供的人群离线验证设备进行介绍,下文描述的人群离线验证设备与上文描述的人群离线验证方法可相互对应参照。
[0125]
请参考图5,图5为本发明实施例提供一种人群离线验证设备的结构示意图,可以包括:
[0126]
存储器10,用于存储计算机程序;
[0127]
处理器20,用于执行计算机程序,以实现上述的人群离线验证方法。
[0128]
存储器10、处理器20、通信接口31和通信总线32。存储器10、处理器20、通信接口31均通过通信总线32完成相互间的通信。
[0129]
在本发明实施例中,存储器10中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本技术实施例中,存储器10中可以存储有用于实现以下功能的程序:
[0130]
获取种子人群和离线验证指标,离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,lookalike人群命中占中比曲线指标用来评估种子人群的放大比例参数;
[0131]
对种子人群进行划分确定正负样本、训练集和验证集;
[0132]
根据正负样本、训练集和验证集构建lookalike模型;
[0133]
根据离线验证指标对lookalike模型进行评估,确定在线投放模型。
[0134]
在一种可能的实现方式中,存储器10可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
[0135]
此外,存储器10可以包括只读存储器和随机存取存储器,并向处理器提供指令和
数据。存储器的一部分还可以包括nvram。存储器存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可以包括各种系统程序,用于实现各种基础任务以及处理基于硬件的任务。
[0136]
处理器20可以为中央处理器(central processing unit,cpu)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件,处理器20可以是微处理器或者也可以是任何常规的处理器等。处理器20可以调用存储器10中存储的程序。
[0137]
通信接口31可以为通信模块的接口,用于与其他设备或者系统连接。
[0138]
当然,需要说明的是,图5所示的结构并不构成对本技术实施例中人群离线验证设备的限定,在实际应用中人群离线验证设备可以包括比图5所示的更多或更少的部件,或者组合某些部件。
[0139]
下面对本发明实施例提供的可读存储介质进行介绍,下文描述的可读存储介质与上文描述的人群离线验证方法可相互对应参照。
[0140]
本发明还提供一种可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的人群离线验证方法的步骤。
[0141]
该可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0142]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0143]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本发明的范围。
[0144]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0145]
以上对本发明所提供的一种人群离线验证方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种人群离线验证方法,其特征在于,包括:获取种子人群和离线验证指标,所述离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,所述lookalike人群命中占中比曲线指标用来评估所述种子人群的放大比例参数;对所述种子人群进行划分确定正负样本、训练集和验证集;根据所述正负样本、所述训练集和所述验证集构建lookalike模型;根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型。2.根据权利要求1所述的人群离线验证方法,其特征在于,根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型,包括:计算所述lookalike模型的auc值;计算所述lookalike模型的tgi值;确定候选人群中行为人群的覆盖率曲线与目标人群的行为率曲线的交叉点;所述交叉点为所述种子人群的放大比例参数;所述目标人群的行为率曲线为所述lookalike模型放大人群中行为人群人数与所述lookalike模型放大人群总人数的比值数据形成的曲线;所述候选人群中行为人群的覆盖率曲线为所述lookalike模型放大人群中行为人群人数与所述候选人群中行为人群人数的比值数据形成的曲线;所述行为包括点击或者转化;将满足所述auc值在第一预设区间内、所述tgi值在第二预设区间内且所述交叉点符合预设条件的模型作为第一模型;将所述第一模型中auc最大值对应的模型确定为所述在线投放模型。3.根据权利要求2所述的人群离线验证方法,其特征在于,所述交叉点符合预设条件,包括:所述交叉点满足f(socre(x
i
))≥n*θ且g(socre(x
i
))≥δ;x
i
表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个值;socre(x
i
)表示将所述lookalike模型打分结果{x}集合按分数排序后的第i个打分结果;f(x)表示目标人群的行为率(点击率/转化率);g(x)表示候选人群中行为人群的覆盖率;δ表示覆盖率参数;θ表示候选人群的人群行为率,n表示所述种子人群的放大比例参数。4.根据权利要求1所述的人群离线验证方法,其特征在于,在所述确定在线投放模型之后,还包括:确定所述在线投放模型的投放阈值;根据所述投放阈值确定目标人群;对所述目标人群进行广告投放。5.根据权利要求1所述的人群离线验证方法,其特征在于,所述对所述种子人群进行划分确定正负样本、训练集和验证集,包括:将所述种子人群与候选人群匹配成功的人群作为正样本,将所述种子人群与所述候选人群未匹配成功的人群作为负样本;对所述正样本和所述负样本进行随机采样,划分为所述训练集和所述验证集。6.根据权利要求1所述的人群离线验证方法,其特征在于,所述对所述种子人群进行划分确定正负样本、训练集和验证集,包括:
将所述种子人群与候选人群匹配成功的人群作为正样本,将所述种子人群与所述候选人群未匹配成功的人群作为负样本;将某天的数据作为所述训练集,将所述某天后的第二天的数据作为所述验证集。7.根据权利要求1所述的人群离线验证方法,其特征在于,所述对所述种子人群进行划分确定正负样本、训练集和验证集,包括:将某天转化人群作为正样本,所述某天未转化人群作为负样本;对所述正样本和所述负样本进行随机采样,划分为所述训练集和所述验证集。8.一种人群离线验证装置,其特征在于,包括:获取模块,用于获取种子人群和离线验证指标,所述离线验证指标包括auc指标、tgi指标和lookalike人群命中占中比曲线指标,所述lookalike人群命中占中比曲线指标用来评估所述种子人群的放大比例参数;划分模块,用于对所述种子人群进行划分确定正负样本、训练集和验证集;模型构建模块,用于根据所述正负样本、所述训练集和所述验证集构建lookalike模型;评估模块,用于根据所述离线验证指标对所述lookalike模型进行评估,确定在线投放模型。9.一种人群离线验证设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序实现如权利要求1至7任一项所述的人群离线验证方法的步骤。10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的人群离线验证方法的步骤。
技术总结
本发明公开了一种人群离线验证方法、装置、设备及存储介质,应用于离线验证领域,该方法包括:获取种子人群和离线验证指标,离线验证指标包括AUC指标、TGI指标和lookalike人群命中占中比曲线指标,lookalike人群命中占中比曲线指标用来评估种子人群的放大比例参数;对种子人群进行划分确定正负样本、训练集和验证集;根据正负样本、训练集和验证集构建lookalike模型;根据离线验证指标对lookalike模型进行评估,确定在线投放模型。当具有一定区分难度时,本发明设定的离线验证指标也可以评估得出lookalike模型的区分能力,本发明确定的在线投放模型能够明显提升投放人群的行为率。为率。为率。
技术研发人员:薛睿蓉
受保护的技术使用者:上海微盟企业发展有限公司
技术研发日:2023.02.28
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种高频焊接炉的制作方法 下一篇:一种动态调整权重的负载均衡方法及装置与流程
