对象分级方法、装置、计算机设备及存储介质与流程

未命名 07-22 阅读:83 评论:0


1.本技术涉及人工智能技术领域,特别涉及一种对象分级方法、装置、计算机设备及存储介质。


背景技术:

2.随着互联网的飞速发展,用户、商户以及企业等对象能够享受不同各种各样的互联网服务,如多媒体服务、社交服务以及金融服务等。服务提供商通常会对服务的对象进行等级的划分,如风险等级、消费等级、活跃等级以及信用等级等,以便于基于对象的等级精准的向对象推荐服务。如何准确的对对象进行分级,是一个需要研究的方向。
3.目前,在对对象进行分级时,通常是基于人工经验来设置等级的划分规则。如在划分消费等级时,将具有“高学历、定居一线城市、有房产以及有汽车”这一属性的用户,划分为消费等级高的用户。
4.上述方案存在的问题是,基于人工经验来划分等级的方案,基于对象的特征来制定划分规则,不仅使用的特征较少,还无法捕捉特征之间的关联性,导致分级结果准确性低。


技术实现要素:

5.本技术实施例提供了一种对象分级方法、装置、计算机设备及存储介质,由于对象分级模型能够从获取到的对象特征中有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息,进而实现对目标对象分级,提高分级结果的准确性。所述技术方案如下:
6.一方面,提供了一种对象分级方法,所述方法包括:
7.获取目标对象的对象特征,所述对象特征包括所述目标对象的属性特征和场景行为特征,所述场景行为特征表示所述目标对象与目标业务场景相关联的行为;
8.基于对象分级模型对所述对象特征进行预测,得到所述目标对象的等级预测信息,所述对象分级模型由基于多种特征筛选方式筛选得到的特征数据训练得到,用于基于输入特征预测等级预测信息,所述等级预测信息用于指示所述目标对象属于不同对象等级的概率,所述特征数据与所述目标业务场景关联;
9.基于所述目标对象的等级预测信息,确定所述目标对象的对象等级。
10.另一方面,提供了一种对象分级装置,所述对象分级装置包括:
11.特征获取模块,用于获取目标对象的对象特征,所述对象特征包括所述目标对象的属性特征和场景行为特征,所述场景行为特征表示所述目标对象与目标业务场景相关联的行为;
12.预测模块,用于基于对象分级模型对所述对象特征进行预测,得到所述目标对象的等级预测信息,所述对象分级模型由基于多种特征筛选方式筛选得到的特征数据训练得到,用于基于输入特征预测等级预测信息,所述等级预测信息用于指示所述目标对象属于不同对象等级的概率,所述特征数据与所述目标业务场景关联;
13.确定模块,用于基于所述目标对象的等级预测信息,确定所述目标对象的对象等级。
14.在一些实施例中,所述特征获取模块,用于获取所述目标对象的所述属性特征;从所述目标对象的日志数据中,提取与所述目标业务场景相关的行为数据;对所述行为数据进行特征提取,得到所述场景行为特征;对所述属性特征和所述场景行为特征进行拼接,得到所述对象特征。
15.在一些实施例中,所述装置还包括:
16.数据获取模块,用于获取多个样本对象的样本数据,所述样本数据包括所述多个样本对象的属性数据和行为数据;
17.特征提取模块,用于对所述样本数据进行特征提取,得到第一样本特征;
18.特征筛选模块,用于基于所述多种特征筛选方式对所述第一样本特征进行筛选,得到第二样本特征,所述第二样本特征的特征维度小于所述第一样本特征的特征维度;
19.训练模块,用于基于所述第二样本特征,训练得到所述对象分级模型。
20.在一些实施例中,所述特征提取模块,用于按照第一提取方式,对所述样本数据中的数值型数据进行特征提取,得到所述第一样本特征中的数值型特征,所述第一提取方式包括分桶、截断、标准化、平滑、消偏以及特征交叉中的至少一种;按照第二提取方式,对所述样本数据中的类别型数据进行特征提取,得到所述第一样本特征中的类别型特征,所述第二提取方式包括独热编码、主成分分析降维、打分排名编码、嵌入处理、环境特征提取以及特征交叉中的至少一种。
21.在一些实施例中,所述特征筛选模块,包括:
22.第一筛选单元,用于对所述第一样本特征进行过滤式筛选,得到所述第一样本特征的相关性信息,所述相关性信息用于指示特征之间的相关程度;
23.第二筛选单元,用于对所述第一样本特征进行封装式筛选,得到所述第一样本特征的特征优化信息,所述特征优化信息用于指示特征的优化效果;
24.第三筛选单元,用于对所述第一样本特征进行嵌入式筛选,得到所述第一样本特征的重要性信息,所述重要程度信息用于指示特征的重要程度;
25.第四筛选单元,用于基于所述相关性信息、所述特征优化信息以及所述重要性信息,从所述第一样本特征中剔除不满足筛选条件的尾部特征,得到所述第二样本特征。
26.在一些实施例中,所述第一筛选单元,用于确定所述第一样本特征中每个特征的覆盖率,所述覆盖率与对应特征的相关程度正相关;确定所述每个特征的方差,所述方差与对应特征的相关程度正相关;确定所述每个特征与目标特征之间的皮尔逊相关系数,所述皮尔逊相关系数与对应特征的相关程度正相关,所述目标特征与所述目标业务场景对应。
27.在一些实施例中,所述第二筛选单元,用于基于完全搜索、启发式搜索以及随机搜索对所述第一样本特征中的特征进行筛选,得到所述第一样本特征的特征优化信息。
28.在一些实施例中,所述第三筛选单元,用于基于第一模型对所述第一样本特征中的特征进行正则化,得到所述第一样本特征的第一重要性信息,所述第一模型具有正则惩罚项;基于第二模型对所述第一样本特征中的特征进行分类,得到所述第一样本特征的第二重要性信息,所述第二模型为树模型;基于第三模型对所述第一样本特征中的特征进行排序,得到所述第一样本特征的第三重要性信息,所述第三模型为决策树模型;对所述第一
样本特征中的特征进行特征值置换,基于第四模型对置换后的特征进行预测,得到所述第一样本特征的第四重要性信息,所述第四模型为待训练的对象分级模型;将所述第一重要性信息、所述第二重要性信息、所述第三重要性信息以及所述第四重要性信息,确定为所述第一样本特征的重要性信息。
29.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行本技术实施例中的对象分级方法。
30.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行本技术实施例中的对象分级方法。
31.另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述计算机设备执行上述各个方面的各种可选实现方式中提供的对象分级方法。
32.本技术实施例提供了一种对象分级的方案,通过获取目标对象的对象特征,再基于对象分级模型对获取到的对象特征进行处理,使得该对象分级模型能够从获取到的对象特征中有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息,进而实现对目标对象分级,提高分级结果的准确性。
附图说明
33.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是根据本技术实施例提供的一种对象分级方法的实施环境示意图;
35.图2是根据本技术实施例提供的一种对象分级方法的流程图;
36.图3是根据本技术实施例提供的另一种对象分级方法的流程图;
37.图4是根据本技术实施例提供的一种特征交叉的示意图;
38.图5是根据本技术实施例提供的一种离线建模过程的流程图;
39.图6是根据本技术实施例提供的对象分级模型的结构示意图;
40.图7是根据本技术实施例提供的一种调用对象分级模型的过程的流程图;
41.图8是根据本技术实施例提供的一种auc指标对比图;
42.图9是根据本技术实施例提供的一种广告成功曝光率率指标对比图;
43.图10是根据本技术实施例提供的一种对象分级装置的框图;
44.图11是根据本技术实施例提供的另一种对象分级装置的框图;
45.图12是根据本技术实施例提供的一种终端的结构框图;
46.图13是根据本技术实施例提供的一种服务器的结构示意图。
具体实施方式
47.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
48.本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
49.本技术中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
50.需要说明的是,在本技术的实施方式中,涉及到对象的数据,如用户历史数据等,当本技术的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
51.以下,对本技术涉及的术语进行解释。
52.区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。本技术实施例中涉及的数据和模型,均可以存储在区块链中。
53.区块链底层平台包括用户管理、基础服务、智能合约以及运营监测等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监测模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监测网络情况、监测节点设备健康状态等。
54.平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
55.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
56.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
57.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
58.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本技术实施例提供的方案可以应用于智能家居、虚拟助理、智能营销、智能医疗以及智慧交通等领域。
59.拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
60.池化(pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。
61.分桶是离散化的常用方法,将连续特征离散化为一系列0/1的离散特征,离散化之后得到的稀疏向量,内积乘法运算速度更快,计算结果方便存储。
62.z-score(z-分数)标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的z-score分值进行比较。
63.pca(principal component analysis)是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。
64.3g(3th generation mobile communication technology,第三代移动通信技术)是指支持高速数据传输的蜂窝移动通讯技术。
65.4g(4th generation mobile communication technology,第四代移动通信技术)是在3g技术上的一次更好的改良,其相较于3g通信技术来说一个更大的优势,是将wlan(wireless local area network,无线局域网)技术和3g通信技术进行了很好的结合,使图像的传输速度更快,让传输图像的质量和图像看起来更加清晰。
66.5g(5th generation mobile communication technology,第五代移动通信技术)是具有高速率、低时延和大连接特点的新一代宽带移动通信技术,是实现人机物互联的网络基础设施。
67.完全系列搜索(serial exhaustive search),亦称“穷尽式系列搜索”、“完全系列扫描”,系列搜索的一种,简称为完全搜索。对保存在短时记忆中的所有项目进行完全的检索处理,使测试项目与短时记忆中的每一个项目相继进行比较和匹配,然后作出判断。
68.启发式搜索(heuristically search)又称为有信息搜索(informed search),它
是利用问题拥有的启发信息来引导搜索,达到减少搜索范围、降低问题复杂度的目的,这种利用启发信息的搜索过程称为启发式搜索。
69.随机搜索(random search)是利用随机数求极小点而求得函数近似的最优解的方法。
70.模拟退火算法来源于固体退火原理,是一种基于概率的算法,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到基态,内能减为最小。
71.遗传算法(genetic algorithm,ga)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。该算法通过数学的方式,利用计算机仿真运算,将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。在求解较为复杂的组合优化问题时,相对一些常规的优化算法,通常能够较快地获得较好的优化结果。
72.auc(area under curve)被定义为roc曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于roc曲线一般都处于y=x这条直线的上方,所以auc的取值范围在0.5和1之间。auc越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
73.xgboost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。xgboost在gradient boosting框架下实现机器学习算法。xgboost提供并行树提升,可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境上运行,并且可以解决数十亿个示例之外的问题。
74.mlp(multilayer perceptron,多层感知机)也叫人工神经网络(ann,artificial neural network),除了输入输出层,它中间可以有多个隐层,最简单的mlp只含一个隐层,即三层的结构。
75.tensorflow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库distbelief。tensorflow拥有多层级结构,可部署于各类服务器、终端和网页并支持gpu(graphics processing unit,图形处理器)和tpu(tensor processing unit,张量处理器)高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究。
76.以下,对本技术涉及的实施环境进行介绍。
77.本技术实施例提供的对象分级方法,能够由计算机设备执行,该计算机设备可以为终端或服务器。下面首先以计算机设备为服务器为例,介绍一下本技术实施例提供的对象分级方法的实施环境,图1是根据本技术实施例提供的一种对象分级方法的实施环境示意图。参见图1,该实施环境包括终端101和服务器102。
78.终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
79.在一些实施例中,终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电以及车载终端等,但并不局限于此。终端101安装和运行有应用程序。该应用程序可以为社交类应用程序、游戏类应用程序、金融类应用程序、购物类应用程序或者多媒体类应用程序等。本领域技术人员可以知晓,上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申
请实施例对终端的数量和设备类型不加以限定。
80.在一些实施例中,服务器102是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为终端101安装和运行的应用程序提供后台服务。在一些实施例中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102和终端101二者之间采用分布式计算架构进行协同计算。
81.在一些实施例中,以终端101安装和运行有游戏类应用程序,该终端101登录的目标用户账号为目标对象为例。服务器102能够基于终端101获取目标用户账号的实时数据,该实时数据包括该目标用户账号的行为数据和账号属性数据。服务器102获取该目标用户账号的对象特征,然后服务器基于102基于训练完毕的对象分级模型,对获取到的对象特征进行预测,得到该目标用户账号的等级预测信息。服务器102基于该目标用户账号的等级预测信息,来确定该目标用户账号的对象等级,如消费等级、信用等级或者风险等级等。其中,服务器102所确定的等级与训练对象分级模型时采用的样本数据相关联,即采用消费相关的数据所训练得到的对象分级模型,能够预测目标用户账号的消费等级对应的等级预测信息。
82.图2是根据本技术实施例提供的一种对象分级方法的流程图,参见图2所示,在本技术实施例中以由计算机设备执行进行说明。该对象分级方法包括以下步骤:
83.201、计算机设备获取目标对象的对象特征,该对象特征包括该目标对象的属性特征和场景行为特征,该场景行为特征表示该目标对象与目标业务场景相关联的行为。
84.在本技术实施例中,该计算机设备可以为图1所示的终端101或服务器102。该目标对象为待分级的对象,计算机设备能够在目标对象发送服务请求时,从数据库获取该目标对象日志信息,基于该日志信息获取该目标对象的在线特征。
85.202、计算机设备基于对象分级模型对该对象特征进行预测,得到该目标对象的等级预测信息,该对象分级模型由基于多种特征筛选方式筛选得到的特征数据训练得到,用于基于输入特征预测等级预测信息,该等级预测信息用于指示该目标对象属于不同对象等级的概率,该特征数据与该目标业务场景关联。
86.在本技术实施例中,该对象分级模型能够基于输入模型的对象特征来预测目标对象属于不同等级的概率,或者评分。其中,采用不同应用场景下的特征数据,能够训练得到不同的对象分级模型,如预测信用等级的模型、预测风险等级的模型以及预测消费等级的模型等。在训练该对象分级模型时,通过采用多种特征筛选方式对训练用的特征数据进行筛选,能够使得训练得到的对象分级模型,能够有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息。
87.203、计算机设备基于目标对象的等级预测信息,确定目标对象的对象等级。
88.在本技术实施例中,计算机设备能够根据对象分级模型输出的等级预测信息,确定该目标对象所属的对象等级。
89.本技术实施例提供了的对象分级方法,通过获取目标对象的对象特征,再基于对象分级模型对获取到的对象特征进行处理,使得该对象分级模型能够从获取到的对象特征
中有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息,进而实现对目标对象分级,提高分级结果的准确性。
90.图2示例性示出了本技术实施例提供的对象分级方法的流程。本技术实施例提供的对象分级方法,能够应用于多种应用场景中,如识别账号信用等级、账号风险等级、账号消费等级以及账号活跃等级等。下面基于一种应用场景,对该对象分级方法进行详细的描述。在该应用场景中,以目标对象为目标用户账号,目标对象的对象等级为账号消费等级为例进行说明。图3是根据本技术实施例提供的另一种对象分级方法的流程图,参见图3所示,在本技术实施例中以由服务器执行为例进行说明。该对象分级方法包括以下步骤:
91.301、服务器获取多个样本对象的样本数据,该样本数据包括多个样本对象的属性数据和行为数据。
92.在本技术实施例中,服务器在训练对象分级模型之前,需要准备训练模型所需的样本数据,该样本数据为离线数据。服务器获取多个样本对象的样本数据的步骤包括3011-3014。
93.3011、服务器基于规则召回多个种子对象,然后从该多个种子对象中筛选出符合预设筛选条件的多个种子对象,最后对筛选得到的种子对象进行验证,剔除未通过验证的种子对象,其中,通过不同规则召回的种子用户具有不同的消费等级标签,验证的目的是确认种子用户是否符合对应的消费等级标签。
94.例如,以规则为在节假日使用某游戏应用程序的时间占比超过80%为例,服务器基于上述规则获取到多个用户账号作为种子对象,该多个用户账号使用游戏应用程序的时间占比很高,所以消费等级标签为中级。然而,由于准确率达不到100%的原因,服务器可能会获取到不满足上述规则的用户账号,然后服务器再以上述规则或者其他规则为预设的筛选条件,对获取到的多个用户账号进行进一步的筛选,得到满足预设筛选条件的多个用户账号。最后,服务器再向上述多个用户账号投放促销信息,根据该多个用户账号在收到促销信息之后的消费行为,来验证该多个用户账号的消费等级是否为中级。
95.3012、服务器获取样本对象的画像信息。其中,该画像信息包括样本对象的行为数据。
96.例如,该画像信息为用户账号是否安装了与游戏应用程序关联的某个安全类应用程序、是否使用了该安全类应用程序的某些功能。如无线连接功能、骚扰拦截功能或者接听助理功能等。服务器能够获用户账号在多个时间周期内的行为数据,然后使用池化的方式对获取到的行为数据进行压缩,得到用户账号的画像信息。
97.3013、服务器确定异常行为指标。该异常行为指标用于剔除非真实的对象,也即剔除虚假的对象。
98.例如,在实际业务场景中,可能存在虚假用户账号、电脑操控手机的情况,服务器通过用户账号使用应用程序的情况,如使用游戏应用程序的流量使用情况、流量产生的时间分布等,来计算得到异常行为指标。
99.3014、服务器基于分布异常定理,过滤异常种子对象。其中,服务器能够使用拉依达准则来判断异常值。
100.服务器能够将剩余的种子对象作为样本对象,将上述样本对象离线存储在hdfs(hadoop distributed file system,分布式文件系统),以便于后续流程能够快速访问上
述数据。
101.需要说明的是,服务器还能够判断是否获取到了足够的样本对象,如果为获取到足够的样本对象,则服务器可以通过本步骤再次获取样本对象。如获取10万个正负样本对象。然后,服务器获取样本对象的属性数据和行为数据作为样本数据。其中,该样本数据按照数学属性可以被划分为数值型数据和类别型数据。服务器能够采用不同的提取方式,对样本数据中的数值型数据和类别型数据分别进行特征提取。
102.302、服务器按照第一提取方式,对样本数据中的数值型数据进行特征提取,得到第一样本特征中的数值型特征,该第一提取方式包括分桶、截断、标准化、平滑、消偏以及特征交叉中的至少一种。
103.在本技术实施例中,以第一提取方式包括分桶、截断、标准化、平滑、消偏以及特征交叉为例进行说明。
104.在本技术实施例中,分桶用于减少次要观察误差的影响。其中,分桶包括等距分桶、等频分桶以及模型分桶三种可选的方式。等距分桶时每个桶的值域固定,适用于样本分布较为均匀的情况。等频分桶时每个桶里数据一样多,能够保证每个桶有相同的样本数,同时也会出现特征值差异非常大的样本被放在一个桶中的情况。模型分桶时使用模型找到最佳分桶,如利用聚类方式将数据分成多个类别,或者使用树模型进行分桶。树模型这种非线性模型具有对连续性特征切分的能力,能够利用分割点对数据进行离散化。
105.在本技术实施例中,截断用于处理长尾的数据。服务器能够先对数值型数据进行对数缩放,然后再进行精度截断,将截断后的数据作为类别变量做二值化处理。例如,对于每月使用无线管家程序的次数少于5次的数据,全部设置为1。
106.在本技术实施例中,标准化用于按比例对数值型数据进行缩放,将数值型数据转化为无量纲的纯数值,使得不同单位或者量级的数值型数据之间具有可比性。与标准化类似的处理方式为归一化,即将数值型数据缩放至[0-1]。通过对数据值数据进行标准化,使得在利用梯度下降算法来训练模型参数时,能够显著的提升模型的收敛速度。其中,标准化包括z-score标准化和非线性标准化两种可选的方式。经过z-score标准化处理的数值型数据符合标准正态分布,即均值为0,标准差为1。非线性标准化通过对数、指数、正切等运算方式,对数值型数据的原始值做映射变换,以实现对数值型数据进行缩放的目的。而缩放对处理长尾分布且取值为正数的数值变量非常有效,可以压缩数据范围,将长尾数据变为短尾数据。
[0107]
在一些实施例中,z-score标准化的计算方式参见公式(1)所示:
[0108][0109]
其中,z表示任一数值型数据x标准化后的值;x表示任一数值型数据;μ表示数值型数据的均值;σ表示数值型数据的标准差。
[0110]
在本技术实施例中,数据平滑用于处理数值型数据中的比值类数据。如常用的行为次数与曝光次数的比值,由于数据的稀疏性,使得通过对比值进行统计得到的统计量通常会具有较大的偏差,需要做平滑处理。其中,数据平滑包括贝叶斯平滑和威尔逊区间平滑。
[0111]
在一些实施例中,威尔逊区间平滑的计算方式参见公式(2)所示:
[0112][0113]
其中,表示数值型数据的好评率;n表示评价总数;α表示置信区间;z表示对应某个置信水平的统计量。例如,在95%的置信水平下,z的取值为1.96。
[0114]
在本技术实施例中,消偏是指bias(偏差)消除,用于降低或者提高部分数值型数据的权重。其中,消偏时采用不同时间窗口以及实时的统计数据。
[0115]
例如,对于不同类目或者不同时长区间下的完播率、平均播放时长等数值型数据。由于冷门类目和热门类目、长视频和短视频在统计量上具有明显的差异,则服务器在对完播率、平均播放时长等数值型数据进行平滑处理之后,使用统计量均值或者统计量的中位数进行消偏,起到对热门视频降权、对长视频提权的作用。
[0116]
在本技术实施例中,特征交叉用于表示特征之间的相互影响,有助于表示非线性关系,增强对问题的刻画和信息的提取。服务器对数值型数据进行分桶、截断、标准化、平滑以及消偏之后,将数值型数据表示为向量形式,得到数值型特征。其中,特征交叉包括笛卡尔积和哈达玛积(hadamard product)。笛卡尔积是将所有元素两两相乘。例如,a={a,b},b={0,1,2},则a
×
b={a
×
0,a
×
1,a
×
2,b
×
0,b
×
1,b
×
2}。哈达玛积是将对应位置的元素相乘。例如,a={a,b},b={0,1},则a
×
b={a
×
0,b
×
1}。
[0117]
需要说明的是,服务器能够存储该第一提取方式,然后周期性采取该第一提取方式对新产生的数值型数据进行自动化处理,将处理得到的数值型特征发送至数据库。服务器还可以将处理得到的数值型特征提交至区块链系统,在此不再赘述。
[0118]
303、服务器按照第二提取方式,对样本数据中的类别型数据进行特征提取,得到第一样本特征中的类别型特征,该第二提取方式包括独热编码、主成分分析降维、打分排名编码、嵌入处理、环境特征提取以及特征交叉中的至少一种。
[0119]
在本技术实施例中,以第二提取方式包括独热编码、主成分分析降维、打分排名编码、嵌入处理、环境特征提取以及特征交叉为例进行说明。
[0120]
在本技术实施例中,独热编码(one-hot encoding)用于对用户账号对应的用户的性别等类别型数据进行处理。
[0121]
例如,男性编码为10,女性编码为01。
[0122]
在本技术实施例中,主成分分析降维用于处理取值较多的类别型数据。使用独热编码的方式来编码取值较多的类别型数据会导致得到的特征矩阵非常稀疏,后续通过笛卡尔积构造组合特征时,会导致特征维度爆炸式增长。通过主成分分析降维,能够将具有相关性的高维变量合成线性无关的低维变量,本技术实施例对主成分分析降维的具体计算方式不进行限定。
[0123]
例如,服务器对1000维的高维稀疏向量进行pca降维处理,得到400维的低维度向量,且该400维的向量能够保留原向量空间的大部分信息。
[0124]
在本技术实施例中,打分排名编码用于强化排名在前的类别。
[0125]
例如,服务器对用户的兴趣类型进行独热编码,然后基于兴趣类型的排名对兴趣类型进一步的编码,从而强化兴趣打分排名的作用。
[0126]
在本技术实施例中,嵌入处理用于确定类别型数据的嵌入表示。服务器使用softmax loss(归一化指数函数损失)学习一个dnn(deep neural networks,深度神经网络),将训练好的dnn模型最后一层隐层的输出作为嵌入结果。在一些实施例中,服务器对类别型数据进行嵌入处理后的结果是一个向量,该向量可以为128维或者256维等,本技术实施例对此不进行限制。
[0127]
例如,将一段时间内用户账号点击过的视频嵌入表示的平均作为该用户账号的嵌入特征。其中,上述平均可以为算数平均;也可以为加权平均,如服务器根据视频的热度和时间属性等进行加权平均。服务器还可以通过使用循环神经网络(recurrent neural network,rnn)来替换上述平均的步骤。若服务器获取较长时间跨度内的视频,嵌入处理得到的嵌入特征能够表示用户账号的长期兴趣;若服务器获取较短时间跨度内的视频,则嵌入处理得到的嵌入特征能够表示用户账号的短期兴趣。如果用户账号最近一周内点击观看的都是关于猫的视频,则服务器嵌入处理得到的嵌入特征会与表示“猫”的向量距离相近。
[0128]
在本技术实施例中,环境特征提取用于提取用户账号当前登录的终端的信息中的特征。终端的信息包括请求时间、手机品牌、手机型号、操作系统以及当前的网络状态等,本技术实施例对此不进行限制。其中,网络状态包括3g、4g、5g以及wi-fi等。
[0129]
在本技术实施例中,特征交叉用于表示特征之间的相互影响。服务器对类别型特征进行独热编码、主成分分析降维、打分排名编码、嵌入处理以及环境特征提取之后,将类别型数据表示为向量形式,得到类别型特征。其中,特征交叉包括笛卡尔积和哈达玛积,在此不再赘述。
[0130]
需要说明的是,服务器除了能够对类别型特征进行特征交叉,还能够将类别型特征和数值型特征进行特征交叉。
[0131]
例如,图4是根据本技术实施例提供的一种特征交叉的示意图。参见图4所示,以类别型特征为性别、数值型特征为平均播放时长为例,采用笛卡尔积的方式进行特征交叉时,男性这一类别型特征和男性平均播放时长以及女性平均播放时长这两个数值型特征分别相乘;女性这一类别型特征和男性平均播放时长以及女性平均播放时长这两个数值型特征分别相乘。采用哈达玛积的方式进行特征交叉时,男性这一类别型特征和男性平均播放时长这一数值型特征相乘;女性这一类别型特征和女性平均播放时长这一数值型特征分别相乘。
[0132]
需要说明的是,服务器能够存储该第二提取方式,然后周期性采取该第二提取方式对新产生的类别型数据进行自动化处理,将处理得到的类别型特征发送至数据库。服务器还可以将处理得到的类别型特征提交至区块链系统,在此不再赘述。
[0133]
需要说明的是,服务器能够采用多种特征筛选方式对上述第一样本特征中的数值型特征和类别型特征进行筛选,得到第二样本特征。在本技术实施例中,以采用过滤式筛选、封装式筛选以及嵌入式筛选为例进行说明,参见步骤304-步骤307所示。
[0134]
304、服务器对第一样本特征进行过滤式筛选,得到第一样本特征的相关性信息,该相关性信息用于指示特征之间的相关程度。
[0135]
在本技术实施例中,过滤式筛选在进行特征筛选时使用独立的学习算法,不需要依赖模型,直接由第一样本特征得到,依赖于第一样本特征本身。服务器基于过滤式筛选来评估第一样本特征中各特征和目标特征之间的相关程度以及第一样本特征中各特征之间
的相关关系,过滤式筛选也可以称为过滤式评估。
[0136]
在一些实施例中,过滤式筛选的方式包括计算第一样本特征中每个特征的覆盖率、方差以及皮尔逊相关系数。服务器对第一样本特征进行过滤式筛选,得到第一样本特征中特征的相关程度的步骤,包括:服务器能够确定第一样本特征中每个特征的覆盖率,该覆盖率与对应特征的相关程度正相关。由于覆盖率很小的特征对对象分级模型的预测效果作用不大,因此服务器能够剔除覆盖率小于覆盖率阈值的特征。其中,该覆盖率阈值可以为10%、20%或者30等,本技术实施例对此不进行限制。服务器能够确定每个特征的方差,方差与对应特征的相关程度正相关。服务器能够基于特征的方差来得到特征的分布。若某个特征的方差接近于0,表示不同样本在这个特征上不存在差异,服务器能够剔除方差小于方差阈值的特征。其中,该方差阈值可以为0.03、0.05或者0.07,本技术实施例对此不进行限制。服务器能够确定每个特征与目标特征之间的皮尔逊相关系数,该皮尔逊相关系数与对应特征的相关程度正相关,目标特征与当前业务场景对应。其中,皮尔逊相关系数用于衡量特征之间的线性相关性,取值范围为[-1,1],取值为-1表示完全的负相关,取值为+1表示完全的正相关,取值为0表示没有线性相关。服务器能够选择与目标特征相关程度高的特征,剔除相关程度低的特征。在本技术实施例中,皮尔逊相关系数的系数阈值范围为[-0.1,0.1],即将皮尔逊相关系数处于该系数阈值范围的特征剔除。当然,服务器还可以选择其他阈值范围,如[-0.2,0.2]、[-0.5,0.5]等,本技术实施例对此不进行限制。
[0137]
305、服务器对第一样本特征进行封装式筛选,得到第一样本特征的特征优化信息,该特征优化信息用于指示特征的优化效果。
[0138]
在本技术实施例中,服务器能够使用机器学习算法来评估特征子集的效果。服务器对第一样本特征进行封装式筛选,得到第一样本特征中特征的优化效果的步骤,包括:服务器基于完全搜索、启发式搜索以及随机搜索对第一样本特征中的特征进行筛选,得到第一样本特征的特征优化信息。其中,启发式搜索为基于贪心算法的启发式搜索,包括前向搜索和后向搜索。随机搜索包括模拟退火和遗传算法。
[0139]
306、服务器对第一样本特征进行嵌入式筛选,得到第一样本特征的重要性信息,该重要性信息用于指示特征的重要程度。
[0140]
在本技术实施例中,嵌入式筛选包括正则化、树模型、单特征auc以及特征置换,用于评估特征的重要程度,嵌入式筛选也可以称为嵌入式评估。
[0141]
在一些实施例中,服务器对第一样本特征进行嵌入式筛选,得到第一样本特征的重要性信息的步骤,包括(1)-(5)这五个部分。
[0142]
(1)服务器基于第一模型对第一样本特征中的特征进行正则化,得到第一样本特征的第一重要性信息,该第一重要性信息表示第一样本特征中各特征的重要程度,该第一模型具有正则惩罚项。
[0143]
例如,该第一模型为带正则惩罚项的l1正则化模型,服务器能够通过对回归系数添加l1惩罚项来防止过拟合。因为会产生稀疏解,因此能够起到特征选择的作用,从而确定第一样本特征中各特征的重要程度。
[0144]
(2)服务器基于第二模型对第一样本特征中的特征进行分类,得到第一样本特征的第二重要性信息,该第二重要性信息表示第一样本特征中各特征的重要程度。其中,该第二模型为树模型。
[0145]
例如,服务器使用xgboost模型,基于决策树的算法在每次选择分类节点时,都选择最佳分类特征来进行切分,使得重要程度高的特征更有可能出现在分裂较早的节点,作为分裂节点的次数也就越多。
[0146]
(3)服务器基于第三模型对第一样本特征中的特征进行排序,得到第一样本特征的第三重要性信息,该第三重要性信息表示第一样本特征中各特征的重要程度,该第三模型为决策树模型。
[0147]
例如,服务器对每个单特征训练模型,该模型为决策树模型,服务器计算每个特征的auc,并对特征按照auc进行排名,auc越高表示该特征重要程度越高。
[0148]
(4)服务器对第一样本特征中的特征进行特征值置换,基于第四模型对置换后的特征进行预测,得到第一样本特征的第四重要性信息,该第四重要性信息表示该第一样本特征中各特征的重要程度,其中,该第四模型为待训练的对象分级模型。特征置换的方式包括特征值置为0、特征取随机值以及特征值随机打乱三种可选的方式。在训练过程中,服务器在基于对象分级模型进行预测时,能够依次将某个特征的取值置为0,即实现不考虑该特征对对象分级模型的影响的效果,然后计算对象分级模型的auc,对象分级模型的精度降低越多,表示该特征对对象分级模型的预测越重要。在训练过程中,服务器能够将某个特征随机取值,如使用均匀或者高斯分布随机抽取值,然后计算对象分级模型的准确率,对于某个特征,若用一个随机值替代该特征的原始值之后,对象分级模型的准确率下降越多,表示该特征越重要。在训练过程中,服务器能够随机打乱验证集中某一特征的值,若服务器使用训练好的对象分级模型进行预测时,该对象分级模型的精度损失越多,则表示该特征对预测结果的影响越大,则服务器能够按照精度损失对特征的重要性进行排序。例如,若对象分级模型在验证集上的均方根误差是120,在把年龄特征打乱后重新预测,此时均方根误差变为520,则年龄特征的重要性记为400,表示如果没有年龄特征,则对象分级模型的损失会增加400。
[0149]
(5)服务器将第一重要性信息、第二重要性信息、第三重要性信息以及第四重要性信息,确定为该第一样本特征的重要性信息。
[0150]
307、服务器基于相关性信息、特征优化信息以及重要性信息,从第一样本特征中剔除不满足筛选条件的尾部特征,得到第二样本特征。
[0151]
在本技术实施例中,服务器能够从第一样本特征中,剔除表现较差的特征,以降低整体的特征空间维度。其中,服务器能够基于相关性信息,剔除覆盖率小于覆盖率阈值的特征、剔除方差小于方差阈值的特征、剔除皮尔逊相关系数处于系数阈值范围的特征剔除;服务器能够基于特征优化信息,剔除对模型训练的优化效果不佳的特征;服务器能够基于重要性信息,剔除对模型训练的重要程度不高的特征。也即,本技术实施例提供的多种特征筛选方式,涉及模型训练的各个过程,也即在模型训练前、训练中以及训练后,均能够对特征进行筛选,从而确定哪些特征对模型训练具有积极影响,也即模型训练需要使用哪些特征,进而剔除对模型训练增益较低的无用特征,避免给后续的模型训练输入无用或干扰信息。
[0152]
需要说明的是,为了使上述步骤301至步骤307所描述的数据处理过程更容易理解,本技术实施例提供了图5,图5是根据本技术实施例提供的一种离线建模过程的流程图。参见图5所示,该流程图示例性的示出了模型训练前的数据准备流程,该流程包括样本准备、数值型特征处理、类别型特征处理以及多路径特征评估四大部分。其中,样本准备流程
对应上述步骤301,数值型特征处理对应上述步骤302,类别型特征处理对应上述步骤303,多路径特征评估对应上述步骤304-步骤307。以样本对象为样本用户账号为例,样本准备流程包括501-505。501、基于人工标注或业务逻辑,获取带有标签的种子用户账号。获取方式为基于预设规则粗召回一批种子用户账号,然后基于人工筛查的方式进行过滤,再基于业务逻辑进行验证。502、获取种子用户账号的基础画像。获取方式为计算种子用户账号在多个时间周期内特征,然后使用sum-pooling进行池化,实现特征压缩。503、计算异常用户账号类型评价指标。评价指标包括用户账号使用应用程序的流量消耗信息以及流量产生的时间分布等。504、基于分布异常规则,过滤异常种子用户账号。其中分布异常规则采用拉依达准则作为异常值判断标准。505、判断种子用户账号的量级是否达标。其中达标的标准为正负样本的种子用户账号的数量超过10万,若未达标则继续执行上述步骤501-505直至达标;若已达标,则执行步骤506。506、构建用户账号特征。构建用户账号的特征时,从特征的业务属性角度来说,用户账号的特征包括基础画像特征和业务垂直类型特征。其中,基础画像特征包括年龄、性别等;业务垂直类型特征包括用户账号在当前业务场景下的行为特征,如在游戏场景下游戏程序的使用时长、使用的时间段以及网络环境等。而从特征的数学属性角度来说,用户账号的特征包括数值型特征和类别型特征。数值型特征处理流程包括:507、分桶。508、截断,509、标准化与缩放,510、数据平滑,511、偏差消除,512特征交叉,详见步骤302,在此不再赘述。类别型特征处理流程包括:513、独热编码,514、主成分分析,515、打分排名编码,516、嵌入处理,517、环境特征提取,518、特征交叉,详见步骤303,在此不再赘述。多路径特征评估流程包括:519、过滤式评估。过滤式评估采用的参数是覆盖率、方差以及皮尔逊相关系数。其中,根据特征的覆盖率,剔除覆盖率小于20%的特征;根据特征的方差,剔除方差值小于0.05的特征;根据特征的皮尔逊相关系数,当特征的皮尔逊相关系数在阈值范围[-0.1,0.1]内时,剔除该特征。520、封装式评估。封装式评估采用完全搜索、启发式搜索(前向/后向搜索)以及随机搜索的方式实现。其中,随机搜索包括模拟退火、遗传算法等。521、嵌入式评估。嵌入式评估采用基于正则化的方式、基于树模型的方式、基于单特征auc的方式以及基于特征置换的方式实现。其中,特征置换包括见将特征值置为0、将特征值置为随机值以及将特征值随机打乱。522、剔除评估中的尾部特征。
[0153]
308、服务器基于第二样本特征,训练得到对象分级模型。
[0154]
在本技术实施例中,服务器能够基于上述多个样本特征进行多轮迭代训练,得到对象分级模型。其中,服务器能够采用autoint模型进行建模。autoint模型能够实现特征自动进行高阶交叉,从而既能弥补mlp对乘性特征组合捕获能力不强的弱点,又能够较好的解释哪些特征组合比较有效。服务器在训练autoint模型时,采用如下参数:batch size(批尺寸)=1024,嵌入维度d=16,使用adam优化器,dropout(丢弃)参数设置为0.5。需要说明的是,上述参数为经验积累后选取的参数,本技术实施例对上述参数不进行限制。
[0155]
例如,图6是根据本技术实施例提供的对象分级模型的结构示意图。参见图6所示,该对象分级模型包括输入层、嵌入层、交互层以及输出层。其中,嵌入层用于将数值型特征和类别型特征映射为等长的嵌入向量。类别型特征通过查询嵌入表的方式进行映射,具有多个取值的类别型特征使用平均池化操作进行映射。数值型特征通过乘以一个不含偏差的稠密层输出进行映射。对象分级模型的核心为交互层,该交互层基于多头注意力机制来实现,通过叠加多层,能够实现特征的高阶交叉。原因在于,特征组合的关键是确定哪些特征
组合在一起具有强大的表征能力,相当于人工特征工程中进行特征选择。基于自注意力机制,让每个领域的特征与其他领域的特征分别做attention,根据attention的权重来判断该领域的特征与其他领域的特征组合的重要性,越重要的组合给予的权重越高。最后,生成加权后的sum-pooling(总和池化)作为该领域的特征与其他领域的特征组合的结果。
[0156]
需要说明的是,为了验证训练得到的对象分级模型的性能,服务器还通过离线实验对该对象分级模型的性能进行了评估。评估方式包括数学指标评估和线上实验评估。其中,数学评估指标为auc,auc值越大,表示对象分级模型的分级效果越好。线上实验评估基于ab实验的线上流量对对象分级模型的效果进行评估,评估的指标有广告点击率、广告转换率,也即根据对象分级模型输出的等级预测信息确定实验对象的对象等级,然后根据对象等级投放不同的广告,基于广告点击率和广告转化率来验证实验对象对广告的交互行为是否符合上述对象等级。
[0157]
309、服务器获取目标对象的对象特征,该对象特征包括该目标对象的属性特征和场景行为特征,该场景行为特征表示该目标对象与目标业务场景相关联的行为。
[0158]
在本技术实施例中,服务器能够在目标对象发起服务请求时,获取目标对象的属性特征,该属性特征由服务器周期性更新并存储;服务器从目标对象的日志数据中,提取与目标业务场景相关的行为数据。也即,服务器根据目标业务场景,从目标对象的日志数据中,导出与目标业务场景相关的原始数据。然后服务器对行为数据进行特征提取,得到场景行为特征。最后服务器对属性特征和场景行为特征进行拼接,得到对象特征。其中,服务器能够基于在线的特征计算引擎,来进行特征计算,得到上述场景行为特征。
[0159]
例如,以目标对象为目标用户账号为例,服务器基于定时器,按照固定的计算逻辑,定时从线上存储引擎拉取各用户账号最新的特征集合,得到目标用户账号的通用特征,该通用特征即为上述属性特征。其中,该通用特征包括目标用户账号的账号属性特征、用户账号登录的设备属性特征以及用户账号使用的网络属性特征等。账号属性特征包括性别、年龄等。设备属性特征包括设备型号、设备品牌等。网络属性特征包括3g、4g以及wifi的连接次数和时长等。需要说明的是,上述数据均在得到用户账号的授权的情况下获取,并且应用时符合当地的法律法规。目标用户账号每次发送服务器请求时,服务器能够基于当前业务场景获取特征计算信息,该特征计算信息用于指示当前引用场景的特征计算逻辑,如游戏场景中的游戏时长、首次开启时刻等。服务器从线上实时日志中,导出当前业务场景对应的原始数据,也即行为数据。服务器基于线上计算引擎和上述特征计算逻辑,完成特征计算,得到场景行为特征,实时特征是至预设的时间粒度内的特征,该时间粒度可以为半小时、一小时或者一个半小时等,本技术实施例对此不进行限制。服务器将该场景行为特征与上述通用特征进行拼接,得到上述对象特征。
[0160]
在一些实施例中,上述对象特征被称为在线特征,服务器还能够在该在线特征上拼接离线特征,拼接的方式为concat(合并),得到一个长向量,该长向量的前部为离线特征,后部为在线特征,或者该长向量的前部为在线特征,后部为离线特征。该离线特征由服务器采用上述步骤301至步骤307所描述的方式生成。该离线特征存储在数据库中,或者该离线特征存储在区块链系统中。服务器在接收到目标对象的服务请求时,能够从数据库中拉取该离线特征。
[0161]
310、服务器基于对象分级模型对对象特征进行预测,得到目标对象的等级预测信
息,等级预测信息用于指示目标对象属于不同对象等级的概率。
[0162]
在本技术实施例中,服务器能够将上述对象特征输入对象分级模型,由该对象分级模型对该对象特征进行处理,输出该目标对象属于不同对象等级的概率或者评分。
[0163]
311、服务器基于目标对象的等级预测信息,确定目标对象的对象等级。
[0164]
在本技术实施例中,服务器能够基于该目标对象属于不同等级的概率或者评分所在的评分区间,确定该目标对象的对象等级。该对象等级可以包括低级、中级以及高级三种等级,该对象等级也可以包括第一级、第二级、第三级以及第四级四种等级,本技术实施例对对象等级的划分方式不进行限定。
[0165]
需要说明的是,为了是上述步骤309至步骤311所描述的过程更容易理解,本技术实施例提供了图7,图7是根据本技术实施例提供的一种调用对象分级模型的过程的流程图。参见图7所示,该流程图示例性的示出了基于对象分级模型确定对象等级的流程。该流程包括701、读入训练好的对象分级模型。其中,模型训练好后,服务器能够基于tensorflow的save()方法固化训练好的对象分级模型。然后服务器或者终端中的客户端基于调用服务接口的方式,使用固化好的对象分级模型。702、拉取在线特征。其中,服务器能够定时计算对象的通用特征,然后基于业务场景的特征计算逻辑,从线上实时日志获取相关的原数据后进行计算,得到实时特征,最后服务器将通用特征和实时特征进行拼接,得到在线特征。703、读取离线特征。服务能够基于spark和tensorflow两个计算引擎,基于上述特征处理方式,生成离线特征。其中,特征处理方式包括:独热编码、数字编码、数据填充、特征缩放、wifi轨迹嵌入以及应用程序流量嵌入等。704、拼接离线特征和在线特征。拼接的方式是直接concat,形成一个长向量。705、将拼接后的特征输入到对象分级模型。服务器基于该对象分级模型进行预测,输出等级预测信息。706、基于等级预测信息,确定对象等级。
[0166]
需要说明的是,本技术实施例提供的对象分级模型具有较高的复用性,通过更换样本数据,如将游戏场景的样本数据更换为金融场景的样本数据,再用相同的方式进行数据处理和模型训练,这样训练得到的模型,能够从预测用户账号的消费等级的模型,复用为预测用户账号的信用等级的模型。当然还可以复用为预测用户账号其他等级的模型,如活跃等级、社交等级等,本技术实施例对此不进行限制。当然,通过调整模型的参数,还能够使用相同的方法训练得到具有不同作用的模型,如预测用户账号是否为低龄用户的低龄分类模型,或者预测用户账号是否为正常账号的异常检测模型等,本技术实施例对此不进行限制。
[0167]
下面通过auc和广告成功曝光率这两个方面,来验证基于本技术实施例提供的方案得到的对象分级模型,在对用户账号的消费等级进行分级时的效果。首先,图8是根据本技术实施例提供的一种auc指标对比图。参见图8所示,参与对比的方案为:方案一:基于人工制定规则进行分级。方案二:非深度学习的方案进行分级。本方案:基于autoint构建对象分级模型的方案。评判指标为线下auc和线上auc。从线下auc效果来看,本方案相比其它技术方案,平均提高41.67%。从线上auc效果来看,本方案相比其它技术方案,平均提高41.16%。图9是根据本技术实施例提供的一种广告成功曝光率率指标对比图。参见图9所示,参与对比的方案为:方案一:基于人工制定规则进行分级。方案二:非深度学习的方案进行分级。本方案:基于autoint构建对象分级模型的方案。评判指标为广告点击率和广告转化率。从广告点击率来看,本方案相比其它技术方案,平均提高162.36%。从广告转化率来
看,本方案相比其它技术方案,平均提高94.46%。
[0168]
本技术实施例提供了一种对象分级方法,通过获取目标对象的对象特征,再基于对象分级模型对获取到的对象特征进行处理,使得该对象分级模型能够从获取到的对象特征中有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息,进而实现对目标对象分级,提高分级结果的准确性。
[0169]
图10是根据本技术实施例提供的一种对象分级装置的框图。该对象分级装置用于执行上述对象分级方法中的步骤,参见图10所示,装置包括:特征获取模块1001、预测模块1002以及确定模块1003。
[0170]
特征获取模块1001,用于获取目标对象的对象特征,该对象特征包括该目标对象的属性特征和场景行为特征,该场景行为特征表示该目标对象与目标业务场景相关联的行为;
[0171]
预测模块1002,用于基于对象分级模型对该对象特征进行预测,得到该目标对象的等级预测信息,该对象分级模型由基于多种特征筛选方式筛选得到的特征数据训练得到,用于基于输入特征预测等级预测信息,该等级预测信息用于指示该目标对象属于不同对象等级的概率,该特征数据与该目标业务场景关联;
[0172]
确定模块1003,用于基于该目标对象的等级预测信息,确定该目标对象的对象等级。
[0173]
在一些实施例中,该特征获取模块1001,用于获取该目标对象的该属性特征;从该目标对象的日志数据中,提取与该目标业务场景相关的行为数据;对该行为数据进行特征提取,得到该场景行为特征;对该属性特征和该场景行为特征进行拼接,得到该对象特征。
[0174]
在一些实施例中,图11是根据本技术实施例提供的另一种对象分级装置的框图,参见图11所示,该装置还包括:
[0175]
数据获取模块111,用于获取多个样本对象的样本数据,该样本数据包括该多个样本对象的属性数据和行为数据;
[0176]
特征提取模块112,用于对该样本数据进行特征提取,得到第一样本特征;
[0177]
特征筛选模块113,用于基于该多种特征筛选方式对该第一样本特征进行筛选,得到第二样本特征,该第二样本特征的特征维度小于该第一样本特征的特征维度;
[0178]
训练模块114,用于基于该第二样本特征,训练得到该对象分级模型。
[0179]
在一些实施例中,该特征提取模块112,用于按照第一提取方式,对该样本数据中的数值型数据进行特征提取,得到该第一样本特征中的数值型特征,该第一提取方式包括分桶、截断、标准化、平滑、消偏以及特征交叉中的至少一种;按照第二提取方式,对该样本数据中的类别型数据进行特征提取,得到该第一样本特征中的类别型特征,该第二提取方式包括独热编码、主成分分析降维、打分排名编码、嵌入处理、环境特征提取以及特征交叉中的至少一种。
[0180]
在一些实施例中,该特征筛选模块113,包括:
[0181]
第一筛选单元1131,用于对该第一样本特征进行过滤式筛选,得到该第一样本特征的相关性信息,该相关性信息用于指示特征之间的相关程度;
[0182]
第二筛选单元1132,用于对该第一样本特征进行封装式筛选,得到该第一样本特征的特征优化信息,该特征优化信息用于指示特征的优化效果;
[0183]
第三筛选单元1133,用于对该第一样本特征进行嵌入式筛选,得到该第一样本特征的重要性信息,该重要程度信息用于指示特征的重要程度;
[0184]
第四筛选单元1134,用于基于该相关性信息、该特征优化信息以及该重要性信息,从该第一样本特征中剔除不满足筛选条件的尾部特征,得到该第二样本特征。
[0185]
在一些实施例中,该第一筛选单元1131,用于确定该第一样本特征中每个特征的覆盖率,该覆盖率与对应特征的相关程度正相关;确定该每个特征的方差,该方差与对应特征的相关程度正相关;确定该每个特征与目标特征之间的皮尔逊相关系数,该皮尔逊相关系数与对应特征的相关程度正相关,该目标特征与该目标业务场景对应。
[0186]
在一些实施例中,该第二筛选单元1132,用于基于完全搜索、启发式搜索以及随机搜索对该第一样本特征中的特征进行筛选,得到该第一样本特征的特征优化信息。
[0187]
在一些实施例中,该第三筛选单元1133,用于基于第一模型对该第一样本特征中的特征进行正则化,得到该第一样本特征的第一重要性信息,该第一模型具有正则惩罚项;基于第二模型对该第一样本特征中的特征进行分类,得到该第一样本特征的第二重要性信息,该第二模型为树模型;基于第三模型对该第一样本特征中的特征进行排序,得到该第一样本特征的第三重要性信息,该第三模型为决策树模型;对该第一样本特征中的特征进行特征值置换,基于第四模型对置换后的特征进行预测,得到该第一样本特征的第四重要性信息,该第四模型为待训练的对象分级模型;将该第一重要性信息、该第二重要性信息、该第三重要性信息以及该第四重要性信息,确定为该第一样本特征的重要性信息。
[0188]
本技术实施例提供了对象分级的装置,通过获取目标对象的对象特征,再基于对象分级模型对获取到的对象特征进行处理,使得该对象分级模型能够从获取到的对象特征中有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息,进而实现对目标对象分级,提高分级结果的准确性。
[0189]
需要说明的是:上述实施例提供的对象分级装置在进行对象分级时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对象分级装置与对象分级方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0190]
在本技术实施例中,计算机设备能够被配置为终端或者服务器,当计算机设备被配置为终端时,可以由终端作为执行主体来实施本技术实施例提供的技术方案,当计算机设备被配置为服务器时,可以由服务器作为执行主体来实施本技术实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本技术提供的技术方案,本技术实施例对此不作限定。
[0191]
图12是根据本技术实施例提供的一种终端1200的结构框图。该终端1200可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0192]
通常,终端1200包括有:处理器1201和存储器1202。
[0193]
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处
理器1201可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0194]
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1201所执行以实现本技术中方法实施例提供的对象分级方法。
[0195]
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:显示屏1204、音频电路1205和电源1206中的至少一种。
[0196]
外围设备接口1203可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0197]
显示屏1204用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1204是触摸显示屏时,显示屏1204还具有采集在显示屏1204的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时,显示屏1204还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1204可以为一个,设置在终端1200的前面板;在另一些实施例中,显示屏1204可以为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在另一些实施例中,显示屏1204可以是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,显示屏1204还可以设置成非矩形的不规则图形,也即异形屏。显示屏1204可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0198]
音频电路1205可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将
电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1205还可以包括耳机插孔。
[0199]
电源1206用于为终端1200中的各个组件进行供电。电源1206可以是交流电、直流电、一次性电池或可充电电池。当电源1206包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0200]
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0201]
图13是根据本技术实施例提供的一种服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1301和一个或一个以上的存储器1302,其中,该存储器1302中存储有至少一条计算机程序,该至少一条计算机程序由该处理器1301加载并执行以实现上述各个方法实施例提供的对象分级方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0202]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段计算机程序,该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的对象分级方法中计算机设备所执行的操作。例如,所述计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、光盘只读存储器(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0203]
在一些实施例中,本技术实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0204]
本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的对象分级方法。
[0205]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0206]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种对象分级方法,其特征在于,所述方法包括:获取目标对象的对象特征,所述对象特征包括所述目标对象的属性特征和场景行为特征,所述场景行为特征表示所述目标对象与目标业务场景相关联的行为;基于对象分级模型对所述对象特征进行预测,得到所述目标对象的等级预测信息,所述对象分级模型由基于多种特征筛选方式筛选得到的特征数据训练得到,用于基于输入特征预测等级预测信息,所述等级预测信息用于指示所述目标对象属于不同对象等级的概率,所述特征数据与所述目标业务场景关联;基于所述目标对象的等级预测信息,确定所述目标对象的对象等级。2.根据权利要求1所述的方法,其特征在于,所述获取目标对象的对象特征,包括:获取所述目标对象的所述属性特征;从所述目标对象的日志数据中,提取与所述目标业务场景相关的行为数据;对所述行为数据进行特征提取,得到所述场景行为特征;对所述属性特征和所述场景行为特征进行拼接,得到所述对象特征。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取多个样本对象的样本数据,所述样本数据包括所述多个样本对象的属性数据和行为数据;对所述样本数据进行特征提取,得到第一样本特征;基于所述多种特征筛选方式对所述第一样本特征进行筛选,得到第二样本特征,所述第二样本特征的特征维度小于所述第一样本特征的特征维度;基于所述第二样本特征,训练得到所述对象分级模型。4.根据权利要求3所述的方法,其特征在于,所述对所述样本数据进行特征提取,得到第一样本特征,包括:按照第一提取方式,对所述样本数据中的数值型数据进行特征提取,得到所述第一样本特征中的数值型特征,所述第一提取方式包括分桶、截断、标准化、平滑、消偏以及特征交叉中的至少一种;按照第二提取方式,对所述样本数据中的类别型数据进行特征提取,得到所述第一样本特征中的类别型特征,所述第二提取方式包括独热编码、主成分分析降维、打分排名编码、嵌入处理、环境特征提取以及特征交叉中的至少一种。5.根据权利要求3所述的方法,其特征在于,所述基于所述多种特征筛选方式对所述第一样本特征进行筛选,得到第二样本特征,包括:对所述第一样本特征进行过滤式筛选,得到所述第一样本特征的相关性信息,所述相关性信息用于指示特征之间的相关程度;对所述第一样本特征进行封装式筛选,得到所述第一样本特征的特征优化信息,所述特征优化信息用于指示特征的优化效果;对所述第一样本特征进行嵌入式筛选,得到所述第一样本特征的重要性信息,所述重要程度信息用于指示特征的重要程度;基于所述相关性信息、所述特征优化信息以及所述重要性信息,从所述第一样本特征中剔除不满足筛选条件的尾部特征,得到所述第二样本特征。6.根据权利要求5所述的方法,其特征在于,所述对所述第一样本特征进行过滤式筛
选,得到所述第一样本特征的相关性信息,包括:确定所述第一样本特征中每个特征的覆盖率,所述覆盖率与对应特征的相关程度正相关;确定所述每个特征的方差,所述方差与对应特征的相关程度正相关;确定所述每个特征与目标特征之间的皮尔逊相关系数,所述皮尔逊相关系数与对应特征的相关程度正相关,所述目标特征与所述目标业务场景对应。7.根据权利要求5所述的方法,其特征在于,所述对所述第一样本特征进行封装式筛选,得到所述第一样本特征的特征优化信息,包括:基于完全搜索、启发式搜索以及随机搜索对所述第一样本特征中的特征进行筛选,得到所述第一样本特征的特征优化信息。8.根据权利要求5所述的方法,其特征在于,所述对所述第一样本特征进行嵌入式筛选,得到所述第一样本特征的重要性信息,包括:基于第一模型对所述第一样本特征中的特征进行正则化,得到所述第一样本特征的第一重要性信息,所述第一模型具有正则惩罚项;基于第二模型对所述第一样本特征中的特征进行分类,得到所述第一样本特征的第二重要性信息,所述第二模型为树模型;基于第三模型对所述第一样本特征中的特征进行排序,得到所述第一样本特征的第三重要性信息,所述第三模型为决策树模型;对所述第一样本特征中的特征进行特征值置换,基于第四模型对置换后的特征进行预测,得到所述第一样本特征的第四重要性信息,所述第四模型为待训练的对象分级模型;将所述第一重要性信息、所述第二重要性信息、所述第三重要性信息以及所述第四重要性信息,确定为所述第一样本特征的重要性信息。9.一种对象分级装置,其特征在于,所述对象分级装置包括:特征获取模块,用于获取目标对象的对象特征,所述对象特征包括所述目标对象的属性特征和场景行为特征,所述场景行为特征表示所述目标对象与目标业务场景相关联的行为;预测模块,用于基于对象分级模型对所述对象特征进行预测,得到所述目标对象的等级预测信息,所述对象分级模型由基于多种特征筛选方式筛选得到的特征数据训练得到,用于基于输入特征预测等级预测信息,所述等级预测信息用于指示所述目标对象属于不同对象等级的概率,所述特征数据与所述目标业务场景关联;确定模块,用于基于所述目标对象的等级预测信息,确定所述目标对象的对象等级。10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行权利要求1至8任一项权利要求所述的对象分级方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段计算机程序,所述至少一段计算机程序用于执行权利要求1至8任一项权利要求所述的对象分级方法。12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项权利要求所述的对象分级方法。

技术总结
本申请提供了一种对象分级方法、装置、计算机设备及存储介质,能够应用于人工智能、机器学习、自动驾驶以及智慧交通等技术领域。所述方法包括:获取目标对象的对象特征;基于对象分级模型对所述对象特征进行预测,得到所述目标对象的等级预测信息;基于所述目标对象的等级预测信息,确定所述目标对象的对象等级。上述方案,通过获取目标对象的对象特征,再基于对象分级模型对获取到的对象特征进行处理,使得该对象分级模型能够从获取到的对象特征中有效的捕捉特征之间的关联性,从而得到目标对象的等级预测信息,进而实现对目标对象分级,提高分级结果的准确性。提高分级结果的准确性。提高分级结果的准确性。


技术研发人员:樊鹏
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.04
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐