虚假交易对象的检测方法、装置及服务器与流程

未命名 07-23 阅读:77 评论:0


1.本公开属于安全技术领域,具体涉及一种虚假交易对象的检测方法、装置及服务器。


背景技术:

2.在电商行业中,存在部分店铺为了提升销量,雇佣大量的用户虚假购买店铺的商品,进行刷单,从而产生虚假交易。
3.目前,为了检测一个交易是否为虚假交易,主要是将用户、订单和商品连接起来构建一个异构图。该构图方式通常会根据两个订单是否来自同一个用户,或者两个订单是否包含同一件商品,进行边的连接,最终构建一张“用户-订单-商品”的异构图。然后在图上进行图神经网络训练,从而得到一个训练模型,用于判断一个订单是否为虚假交易的订单。
4.然而,电商平台每天产生海量的交易行为,涉及大量的商品和用户,直接将有购买关系的用户、商品和订单连接起来构成的图,会使得图的规模巨大,训练难度激增,可能导致训练的模型不够准确,导致虚假交易检测准确率低。


技术实现要素:

5.本公开实施例的目的是提供一种虚假交易对象的检测方法、装置及服务器,能够解决训练的模型不够准确,导致虚假交易检测准确率低的问题。
6.为了解决上述技术问题,本公开是这样实现的:
7.第一方面,本公开实施例提供了一种虚假交易对象的检测方法,该方法包括:确定m个第一同构图中每个同构图的边的连接价值,所述m个第一同构图为包括用户的同构图和商品的同构图中至少一个,m为正整数;裁剪所述m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;根据所述m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;根据所述目标模型,检测目标订单是否存在虚假交易对象,所述目标订单为任意一个订单。
8.第二方面,本公开实施例提供了一种虚假交易对象的检测装置,所述检测装置包括:确定模块、裁剪模块、模型训练模块和检测模块;所述确定模块,用于确定m个第一同构图中每个同构图的边的连接价值,所述m个第一同构图包括用户的同构图和商品的同构图中至少一个,m为正整数;所述裁剪模块,用于根据所述确定模块确定的连接价值,裁剪所述m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;所述模型训练模块,用于根据所述裁剪模块裁剪得到的所述m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;所述检测模块,用于根据所述模型训练模块训练得到的目标模型,检测目标订单是否存在虚假交易对象,所述目标订单为任意一个订单。
9.第三方面,本公开实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
10.第四方面,本公开实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
11.第五方面,本公开实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
12.第六方面,本公开实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面所述的方法的步骤。
13.在本公开实施例中,首先,服务器可以先确定m个第一同构图中每个同构图的边的连接价值,然后,服务器裁剪m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;之后,服务器可以根据m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;最后,服务器可以根据目标模型确定任意一个订单是否存在虚假交易对象。由于m个第一同构图包括用户的同构图和商品的用户图中至少一个,m为正整数,因此本公开实施例首先在模型训练时的数据量相比于相关技术中采用用户-订单-商品的同构图进行模型训练的数据量小。其次,本公开实施例还将m个第一同构图中连接价值小于或等于预设连接价值的边裁剪掉,一方面可以再次减少模型训练中的数据的处理量,提高模型训练的速率;另一方面删除一些噪声数据,可以提高训练出的目标模型的准确率,可以使得确定虚假交易的准确性更高,例如,可以更准确地区分一个订单中的用户是刷单用户还是普通用户,更准确区分一个订单中的商品是刷单商品还是普通商品,更准确区分一个订单是否为虚假交易订单。
附图说明
14.图1为本公开实施例提供的一种虚假交易对象的检测方法的流程示意图;
15.图2为本公开实施例提供的一种同构图的结构示意图;
16.图3为本公开实施例提供的一种同构图的剪枝的逻辑示意图;
17.图4为本公开实施例提供的一种异构图的结构示意图;
18.图5为本公开实施例提供的一种多任务学习框架的示意图;
19.图6为本公开实施例提供的一种虚假交易对象的检测装置可能的结构示意图;
20.图7为本公开实施例提供的一种服务器可能的结构示意图;
21.图8为本公开实施例提供的一种服务器的硬件示意图。
具体实施方式
22.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
23.本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可
以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
24.下面结合附图,通过具体的实施例及其应用场景对本公开实施例提供的检测方法进行详细地说明。
25.图1为本公开实施例提供的一种虚假交易对象的检测方法的流程示意图,如图1中所示,该方法包括下述的s101至s104:
26.s101、服务器确定m个第一同构图中每个同构图的边的连接价值。
27.其中,该m个第一同构图包括用户的同构图和商品的同构图中至少一个,m为正整数。
28.具体地,用户的同构图中,边连接价值可以与该边的两个节点的用户特征关联,商品的同构图中,边的连接价值可以与该边的两个节点的商品特征关联。
29.通常,同构图的连接节点为同一类型的连接节点。异构图的连接节点至少包括两个类型的连接节点。
30.在本公开实施例中,用户的同构图指示的是购买同一商品的用户连接起来的图,商品的同构图指示的是同一个用户购买的商品连接起来的图。
31.为了便于描述,下述的示意图中,以ui表示用户节点i,pj表示商品节点j。
32.示例性地,图2为本公开实施例提供的一种同构图的结构示意图,如图2中的(a)所示,为用户-用户的同构图,其中,u1、u2、u3、u4两两连接,各个连接的用户曾购买过同一个商品。即,u1和u2曾购买过同一个商品,u1和u3曾购买过同一个商品,u1和u4曾购买过同一个商品,u2和u3曾购买过同一个商品,u3和u4曾购买过同一个商品;如图2中的(b)所示,为商品-商品的同构图,其中,p1、p2、p3、p4两两连接,各个连接的商品为同一个用户购买过的商品。即,p1和p2为同一个用户购买过的商品,p1和p3为同一个用户购买过的商品,p1和p4为同一个用户购买过的商品,p2和p3为同一个用户购买过的商品,p3和p4为同一个用户购买过的商品。
33.需要说明的是,上述仅为一种同构图的简单示例,实际应用中,一个同构图中的节点的数量可以多于或少于上述的示例,一个同构图中的边的数量可以多于或少于上述的示例,且同构图中的节点可以不全和其他节点连接。
34.s102、服务器裁剪m个第一同构图中连接价值小于或等于第一预设连接价值的边,得到m个第二同构图。
35.示例性地,图3为本公开实施例提供的一种同构图的剪枝的逻辑示意图。结合图2中的(a),如图3中的(a)所示,为用户的同构图的剪枝的逻辑示意图,服务器可以确定用户节点之间的边的连接价值,分别为图3中的(a)中所示,其中,e34表示用户节点3和用户节点4之间的边的连接价值,若e34小于预设连接价值,则服务器可以裁剪掉用户节点3和用户节点4之间的边,即图3中的(b)所示。同样的,结合图2中的(b),如图3中的(c)所示,为商品的同构图的剪枝的逻辑示意图,服务器可以确定商品节点之间的边的连接价值,分别为图3中的(c)所示,其中e24表示商品节点2和商品节点4之间的边的连接价值,若e24小于预设连接价值,则服务器可以裁剪掉商品节点2和商品节点4之间的边。
36.s103、服务器根据m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型。
37.示例性地,服务器可以根据采样的邻居特征进行平均聚合(mean aggregator),并采用graph sage进行图神经网络训练,得到m个第二同构图的graph embedding。其中,mean aggregator为图算法的一种聚合方式,取一个节点及其所有邻域的印象量的平均值:
38.具体地,在m个第二同构图为用户的同构图的情况下,服务器可以将用户的同构图的graph embedding输入一个softmax层(归一化指数函数)中,进行模型训练得到用户分类模型,从而可以根据用户分类模型实现用户分类,区分出刷单用户和正常用户。其中,
39.具体地,在m个第二同构图为商品的同构图的情况下,服务器可以将商品的同构图的graph embedding输入一个softmax层中,进行模型训练得到商品分类模型,从而可以根据商品分类模型实现商品分类,区分出刷单商品和正常商品。
40.在m个第二同构图包括用户的同构图和商品的同构图的情况下,服务器还可以结合用户的同构图的graph embedding、商品的同构图的graph embedding,以及订单的特征,输入mlp(multiple layer perceptron,多层感知机)神经网络模型中进行模型训练得到订单分类模型,从而可以根据订单分类模型实现订单分类,区分出虚假交易订单和正常订单。
41.也就是说,在本公开实施例中,服务器可以根据用户、商品、订单的结构关系和特征信息融合,进行多任务训练,得到多个分类模型。
42.s104、服务器根据目标模型,检测目标订单是否存在虚假交易对象。
43.其中,目标订单为任意一个订单。
44.示例性地,若目标模型为第一模型,服务器可以根据第一模型检测一个订单中的用户是否为刷单用户;若目标模型为第二模型,服务器可以根据第二模型检测一个订单中的商品是否为刷单商品;若目标模型为第三模型,服务器可以根据第三模型检测一个订单是否为虚假交易订单。
45.通常,电商平台中存在一些虚假交易行为,有些店铺的商家会雇佣团伙大量虚假购买直接店铺的商品,例如虚假发货,从而提升店铺的销量,这种行为不仅破坏电商平台的公平稳定的交易秩序,影响客户的购物体验和其他店铺的营收。
46.结合本公开实施例提供的虚假交易对象的检测方法,可以检测的虚假交易对象可以包括刷单用户、刷单商品、刷单订单、刷单商家、刷单评论中的至少一项。
47.其中,可以结合用户的同构图和商品的评论的同构图,可以确定哪些评论是刷单评论。
48.本公开实施例提供的一种虚假交易对象的检测方法,首先,服务器可以先确定m个第一同构图中每个同构图的边的连接价值,然后,服务器裁剪m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;之后,服务器可以根据m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;最后,服务器可以根据目标模型确定任意一个订单是否存在虚假交易对象。由于m个第一同构图包括用户的同构图和商品的用户图中至少一个,m为正整数,因此本公开实施例首先在模型训练时的数据量相比于相关技术中
采用用户-订单-商品的同构图进行模型训练的数据量小。其次,本公开实施例还将m个第一同构图中连接价值小于或等于预设连接价值的边裁剪掉,一方面可以再次减少模型训练中的数据的处理量,提高模型训练的速率;另一方面删除一些噪声数据,可以提高训练出的目标模型的准确率,可以使得确定虚假交易的准确性更高,例如,可以更准确地区分一个订单中的用户是刷单用户还是普通用户,更准确区分一个订单中的商品是刷单商品还是普通商品,更准确区分一个订单是否为虚假交易订单。
49.可选地,本公开实施例提供虚假交易对象的检测方法,在上述的s103之前,还可以包括下述的s105至s107:
50.s105、服务器获取m个第二同构图中每个同构图的每个节点的目标特征。
51.其中,目标特征包括属性特征和结构特征。
52.其中,一个节点的属性特征可以为包括该同构图中该节点的属性,一个节点的结构特征可以为包括该节点和相邻节点的结构关系。
53.示例性地,在用户的同构图中,用户的属性特征可以包括用户的年龄、注册事件等信息;用户的结构特征可以采用用户的同构图的邻接矩阵表征。
54.示例性地,在商品的同构图中,商品的属性特征可以包括商品的种类、数量和购买次数等信息,商品的结构特征可以采用商品的同构图的连接矩阵表征。
55.s106、服务器根据目标特征确定每个节点和邻居节点的目标相似度。
56.在本公开实施例中,目标相似度为属性相似度和结构相似度的加权和。
57.示例性地,第一节点和第二节点的目标相似度为第一节点和第二节点的属性相似度,与第一节点和第二节点的结构相似度的加权和。
58.第一节点和第二节点的属性相似度为节点本身属性的相似程度,第一节点和第二节点的结构相似度为节点在同构图中的结构关系的相似程度。
59.s107、服务器根据目标相似度,依概率采样邻居节点得到邻居特征。
60.具体地,服务器根据目标相似度,可以先确定每个节点的被采集到的采样概率,然后,根据节点的采集概率采样得到一个节点的邻居特征。
61.示例性地,假设与节点1连接的节点为节点2和节点3,其中,节点1和节点2的目标相似度s12=5,节点1和节点3的目标相似度s13=1,则在采集节点1的邻居特征时,节点2被采集到的概率为5/(5+1)=5/6,节点3被采集到的概率为1/(5+1)=1/6。
62.可以理解的是,假设一个节点存在100个邻居节点,需要采集10个邻居节点确定该节点的邻居特征,则可以按照每个节点的采样概率进行采样。
63.需要说明的是,在邻居节点的数量小于或等于需要采集的邻居节点的数量的情况下,邻居节点可以被重复采样。
64.基于该方案,服务器在获取每个节点的邻居特征时,可以根据目标同构图中的节点的目标相似度,依概率进行采样,可以使得采样得到的节点的目标相似度的更高,从而得到的邻居特征更加能准确的表征一个节点和邻居节点的邻居特征。
65.可以理解,在本公开实施例中,上述s101中的同构图可以为根据户-订单-商品的关系生成的同构图,也可以为根据传统的用户-订单-商品的异构图获取的同构图,本公开实施例对此不作具体限定。
66.可选地,本公开实施例提供的虚假交易对象的检测方法,在上述的s101之前,还可
以包括下述的s108:
67.s108、服务器将目标异构图拆分为m个第一同构图。
68.其中,目标异构图为用户-订单-商品的异构图,该m个第一同构图包括用户的同构图和商品的同构图中的至少一个。
69.示例性地,图4为本公开实施例提供的一种异构图的结构示意图,如图4中所示,以用户u对商品p发出了交易a,构成的异构图中,用户u(节点)和交易a(节点)之间存在一条边,交易a(节点)和商品p(节点)之间存在一条边。具体的,该异构图中,u1购买了4个商品,分别为p1、p2、p3、p4,产生的交易依次为a1、a2、a3、a4;u2购买了商品p4,产生的交易为a5;u3购买了商品p4,产生的交易为a6;u4购买了商品p4,产生的交易为a7。
70.结合图4,服务器对图4的异构图可以进行分图处理,将购买过相同商品的用户连接起来,从而可以得到用户的同构图,将被相同用户购买的商品连接起来,从而可以得到商品的同构图。
71.基于该方案,服务器可以采用传统的异构图进行拆分,从而获取到图结构简单的同构图,依据图结构简单的同构图进行模型训练,相比于采用异构图进行模型训练,可以减少在模型训练时的数据量,降低模型训练的复杂度,可以提高模型训练的训练效率。
72.可选地,本公开实施例提供的虚假交易对象的检测方法,上述的s101具体可以通过下述的s11和s12执行:
73.s11、服务器确定m个第一同构图中每个同构图的节点的连接热度。
74.其中,用户的同构图中节点的连接热度与用户的购买量关联,商品的同构图中节点的连接热度与商品的销量关联
75.示例性地,连接热度可以指示的是该节点在同构图中与其他节点的连接权重。
76.例如,若m个第一同构图为用户的同构图,则一个用户节点的连接热度与用户的购买量相关。其中,若用户的购买量越高,该用户节点的连接热度越低;若用户的购买量越低,该用户节点的连接热度越高。
77.需要说明的是,若一个用户的购买量越高,则该用户为正常用户的概率远高于为刷单用户的概率,则由该用户发出的边对于服务器后续确定虚假交易的帮助较少,是数据处理过程中的噪声信息,若将该类用户发出的边均联系起来,容易造成图规模激增。
78.例如,若m个第一同构图为商品的同构图,则一个商品节点的连接热度与商品的销量相关,其中,若商品的销售量越高,该商品节点的连接热度越低;若商品的销售量越低,该商品节点的连接热度越高。
79.需要说明的是,若一个商品的销售量越高,该商品为正常商品的概率远高于为刷单的商品的概率,则由该商品产生的边对于服务器后续确定虚假交易的帮助较少,是数据处理过程中的噪声信息,若将该类商品发出的边均联系起来,容易造成图规模激增。
80.s12、服务器根据连接热度,确定m个第一同构图中每个同构图的边的连接价值。
81.示例性地,边的连接价值指示的是连接的两个节点之间的边的连接权重。
82.例如,对于用户的同构图,若两个用户共同购买的商品越多,这两个用户之间的边的连接价值越高;若两个用户共同购买的商品越少,这两个用户之间的边的连接价值越低。
83.例如,对于商品的同构图,若两个商品共同购买的用户越多,这两个商品之间的边的连接价值越高;若两个商品共同购买的用户越少,这两个商品之间的边的连接价值越低。
84.基于该方案,服务器可以确定m个第一同构图中的每个节点的连接热度,然后根据各个节点的连接热度确定m个第一同构图中每个边的连接价值。由于用户的同构图的边的连接价值可以反应用户共同购买商品的情况,商品的同构图的边的连接价值可以反应商品是否被不同用户均购买的情况,使用边的连接价值对同构图剪枝,可以使得m个第二同构图的结构更加精简,为后续机器学习剔除噪声信息,减少图数据的处理量,从而可以提高虚假交易模型训练的效率。
85.可选地,本公开实施例提供的虚假交易对象的检测方法,上述的s11具体可以通过下述的s11a或s11b执行:
86.s11a、服务器根据公式(1)和商品的销量,确定商品的同构图中节点的连接热度。
[0087][0088]
其中,vpi表示商品i的节点的连接热度,si表示商品i的销量(sale)。
[0089]
需要说明的是,在本公开实施例中,商品的销量可以采用该商品的历史销量总量,可以采用预设时长内的销量,例如最近一个月内、最近半年内、最近一年内的销量。
[0090]
s11b、服务器根据公式(2)和用户的购买量,确定用户的同构图中节点的连接热度。
[0091][0092]
其中,vuj表示用户j的节点的连接热度,pj表示用户j的购买量(purchase)。
[0093]
需要说明的是,用户的购买量指示的是用户的购买商品的订单的数量。
[0094]
在本公开实施例中,可以采用用户在平台中的所有的历史订单,也可以采用预设时长内的历史订单,例如最近一个月内、最近半年内、最近一年内的历史订单的数据。
[0095]
基于该方案,服务器可以基于上述两个公式,分别基于用户的购买量确定用户节点的连接热度,基于商品的销量确定商品节点的连接热度。
[0096]
可选地,本公开实施例提供的虚假交易对象的检测方法,上述的s12具体可以通过下述的s12a或s12b执行:
[0097]
s12a、服务器根据公式(3)和每个节点的连接热度,确定商品的同构图中边的连接价值。
[0098][0099]
其中,eu
ab
表示用户a和用户b之间的边的连接价值,p
ab
表示用户a和用户b都购买过的商品集合,pa表示用户a购买过的商品集合,pb表示用户b购买过的商品集合。
[0100]
可以理解,在两个用户购买的商品中,若两个用户共同购买的商品越少,即公共商品的连接热度越低,则该两个用户在同构图中的边的连接价值越低。
[0101]
基于该方案,服务器可以准确地基于上述的公式(3)确定出用户同构图中每个边的连接价值。
[0102]
s12b、服务器根据公式(4)和每个节点的连接热度,确定用户的同构图中边的连接价值。
[0103][0104]
其中,ep
xy
表示商品x和商品y之间的边的连接价值,p
xy
表示共同购买过商品x和商品y的用户集合,u
x
表示购买过商品x的用户集合;uy表示购买过商品y的用户集合;u
xy
表示购买过商品x和商品y的用户集合。
[0105]
可以理解,对于两个商品,若均购买该商品的用户的连接热度越低,即公共用户的连接热度越低,则该两个商品在同构图中的节点之间的边的连接价值也越低。
[0106]
基于该方案,服务器可以准确地基于上述的公式(4)确定出商品同构图中每个边的连接价值。
[0107]
可选地,本公开实施例提供的虚假交易对象的检测方法,上述的s107具体可以通过下述的s71执行:
[0108]
s71、服务器根据节点的属性相似度和结构相似度的加权和,依概率采样邻居节点得到邻居特征。
[0109]
示例性地,在节点为用户节点的情况下,服务器根据用户节点的属性相似度和用户节点的结构相似度的加权和,依概率采样用户节点的邻居节点得到用户对应的邻居特征;在节点为商品节点的情况下,服务器根据商品节点的属性相似度和商品节点的结构相似度的加权和,依概率采样商品节点的邻居节点得到用户对应的邻居特征。
[0110]
基于该方案,服务器可以结合节点的属性相似度和结构相似度,依概率为一个节点采样邻居节点,可以使得采样到的邻居节点与该节点的相似度更高,从而可以提高模型训练的准确率。
[0111]
可选地,目标特征包括属性特征和结构特征。进而,在本公开实施例提供的虚假交易对象的检测方法中,上述的s106具体可以通过下述的s61至s63执行:
[0112]
s61、服务器根据节点的属性特征和公式(5),确定每个节点和邻居节点的属性相似度。
[0113][0114]
其中,表示节点i和节点j的属性相似度,表示节点i的属性特征,表示节点j的属性特征。
[0115]
需要说明的是,上述公式计算的节点i和节点j的属性相似度,也可以称为节点i和节点j的余弦相似度。
[0116]
s62、服务器根据节点的结构特征和公式(6),确定每个节点和邻居节点的结构相似度。
[0117][0118]
其中,表示节点i和节点j的结构相似度,表示节点i的结构特征,表示节点j的结构特征。
[0119]
需要说明的是,上述公式计算的节点i和节点j的结构相速度,也可以称为节点i和节点j的欧氏距离。
[0120]
s63、服务器根据属性相似度、结构相似度和公式(7),确定每个节点和邻居节点的目标相似度。
[0121][0122]
其中,s
ij
表示节点i和节点j的目标相似度,ω表示权重因子。
[0123]
需要说明的是,ω用于平衡属性相似度和结构相似度。ω的取值可以为预设的值,可以为依经验设置的。示例性地,ω可以取0.5。
[0124]
基于该方案,服务器可以基于上述公式分别计算节点和该节点的邻居节点的特征相似度和结构相似度。
[0125]
可选地,本公开实施例提供的虚假交易对象的检测方法,虚假交易对象包括刷单用户、刷单商品和虚假交易订单中的至少一个;上述的s104具体可以通过下述的s41、s42或s43执行:
[0126]
s41、服务器根据目标模型,检测目标订单是否为虚假交易订单。
[0127]
示例性地,服务器可以根据用户同构图和商品的同构图学习得到的交易检测模型,检测一个订单对应的交易是否为虚假交易订单。
[0128]
s42、服务器根据目标模型,检测目标订单的买家是否为刷单买家。
[0129]
示例性地,服务器可以根据用户同构图学习得到的用户检测模型,检测一个订单中的买家是否为刷单买家。
[0130]
s43、服务器根据目标模型,检测目标订单的商品是否为刷单商品。
[0131]
示例性地,服务器可以根据商品同构图学习得到的商品检测一个订单中的商品是否为刷单商品。
[0132]
需要说明的是,上述仅以虚假交易对象分别为刷单用户、刷单商品和虚假交易订单进行示例性说明,在实际应用中,可以确定更多类型的虚假交易对象,例如,刷单评论、刷单商家等。
[0133]
基于该方案,服务器可以根据不同的分类模型执行不同的分类任务,例如可以分类订单是正常订单还是虚假交易订单,分类买家是刷单买家还是正常买家,分类商品是正常商品还是刷单商品。
[0134]
示例性地,图5为本公开实施例提供的一种多任务学习框架的示意图,如图中所示,该多任务学习框架包括分图、剪枝、基于相似度的邻居特征聚合、模型训练、用户分类、交易分类,以及商品分类。具体地,服务器首先对初始异构图进行分图,得到商品的同构图
和用户的同构图;其次,对每个同构图可以根据连接价值进行剪枝;之后,根据剪枝后的商品的同构图和用户的同构图基于相似度进行邻居特征聚合,并根据聚合后的相似度依概率采样邻居节点,得到邻居特征;然后根据邻居特征进行平均聚合(mean aggregator)并采用graphsage进行图神经网络训练,得到用户的graph embedding和商品的graph embedding。然后将用户的graph embedding输入一个softmax层中训练得到用户分类模型;将商品的graph embedding输入一个softmax层中训练得到商品分类模型;将用户的graph embedding和商品的graph embedding输入一个mlp模型中训练和交易分类模型。最后服务器可以根据训练得到的三个模型分别检测订单中的用户、商品和交易是否为虚假交易对象。
[0135]
下面为本公开实施例提供的同构图的模型训练和相关方法的模型训练的数据,以及本公开不同角度性能的测试结果。
[0136]
在本公开实施例中,选择常用的图数据集yelpnyc进行试验,其中,2%的数据集为训练集,2%的数据集为验证集,96%的数据集为测试集。分别比较原始异构图和本公开实施例中剪枝后的同构图的边的数量、所占内存,以及训练图模型所消耗的事件。结果如表1中所示,可以看出,经过本公开的分图剪枝策略,相比于传统直接采用异构图进行模型训练的方法,边的数量减少了一半以上、内存占用也减少了一半以上,图模型训练时间缩短了接近一半。
[0137]
表1
[0138]
方法边的数量内存占用图模型训练时间相关方法492721291940mb40分钟本公开方法24142907836mb21分钟
[0139]
在本公开实施例中,针对分类任务的auc、ap、acc和f1共4个测试指标进行测试,分别测试了本公开实施例对用户分类、商品分类和订单分类的性能。测试结果如表2所示,识别结果均比较高,准确率均在90%以上。其中,auc值是一个概率值,随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的score值将这个正样本排在负样本前面的概率为auc。auc越接近于1,分类器性能越好。acc表示识别正确的数量占总数量的比例。ap表示平均精度(average precision),f1表示查准率与召回率的调和平均。
[0140]
表2
[0141]
节点aucapaccf1用户0.92810.80490.90270.7764商品0.88450.72060.90430.7176订单0.97320.88030.95670.8119
[0142]
需要说明的是,本公开实施例提供的虚假交易对象的检测方法,执行主体可以为虚假交易对象的检测装置,或者该虚假交易对象的检测装置中的用于执行虚假交易对象的检测的方法的控制模块。本公开实施例中以虚假交易对象的检测装置执行虚假交易对象的检测的方法为例,说明本公开实施例提供的虚假交易对象的检测的装置。
[0143]
图6为公开实施例提供的一种虚假交易对象的检测装置的结构示意图,如图6中所示,该虚假交易对象的检测装置600包括:确定模块601、裁剪模块602、模型训练模块603、检测模块604;确定模块601,用于确定m个第一同构图中每个同构图的边的连接价值,该m个第
一同构图包括用户的同构图和商品的同构图中至少一个,m为正整数;裁剪模块602,用于裁剪m个第一同构图中确定模块601确定的连接价值小于或等于预设连接价值的边,得到m个第二同构图;模型训练模块603,用于根据裁剪模块602裁剪得到的m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;检测模块604,用于根据模型训练模块603训练得到的目标模型,检测目标订单是否存在虚假交易对象,目标订单为任意一个订单。
[0144]
可选地,虚假交易对象的检测装置还包括:获取模块和采样模块;该获取模块,还用于在模型训练模块根据m个第二同构图中邻居节点的邻居特征进行图训练之前,获取m个第二同构图中每个同构图的每个节点的目标特征;确定模块,还用于根据获取模块获取的目标特征确定每个节点和邻居节点的目标相似度;采样模块,用于根据确定模块确定的目标相似度,依概率采样邻居节点得到邻居特征。
[0145]
可选地,虚假交易对象的检测装置还包括:拆分模块;该拆分模块,用于在确定模块确定m个第一同构图中每每个同构图的边的连接价值之前,将目标异构图拆分为m个第一同构图,目标异构图为用户-订单-商品的异构图,所述m个第一同构图包括用户的同构图和商品的同构图中的至少一个。
[0146]
可选地,所述虚假交易对象包括刷单用户、刷单商品和虚假交易订单中的至少一个;检测模块具体用于:检测目标订单是否为虚假交易订单;或者,检测目标订单的买家是否为刷单买家;或者,检测目标订单的商品是否为刷单商品。
[0147]
可选地,确定模块具体用于:确定m个第一同构图中每个节点的连接热度;根据连接热度,确定m个第一同构图中每个同构图的边的连接价值;其中,用户的同构图中节点的连接热度与用户的购买量关联,商品的同构图中节点的连接热度与商品的销量关联。
[0148]
可选地,确定模块具体用于:根据第一预设公式和商品的销量,确定商品的同构图中每个同构图的节点的连接热度;第一预设公式为:其中,vpi表示商品i的节点的连接热度,si表示商品i的销量。
[0149]
可选地,确定模块具体用于:根据第二预设公式和用户的购买量,确定用户的同构图中节点的连接热度;第二预设公式为:其中,vuj表示用户j的节点的连接热度,pj表示用户j的购买量。
[0150]
可选地,确定模块具体用于:根据第三预设公式和每个节点的连接热度,确定商品的同构图中边的连接价值;第三预设公式为:其中,eu
ab
表示用户a和用户b之间的边的连接价值,p
ab
表示用户a和用户b都购买过的商品集合,pa表示用户a购买过的商品集合,pb表示用户b购买过的商品集合。
[0151]
可选地,确定模块具体用于:根据第四预设公式每个节点的连接热度,确定用户的
同构图中边的连接价值;第四预设公式为:其中,ep
xy
表示商品x和商品y之间的边的连接价值,p
xy
表示共同购买过商品x和商品y的用户集合,u
x
表示购买过商品x的用户集合;uy表示购买过商品y的用户集合;u
xy
表示购买过商品x和商品y的用户集合。
[0152]
可选地,目标特征包括属性特征和结构特征;采样模块具体用于:根据节点的属性相似度和结构相似度的加权和,依概率采样邻居节点得到邻居特征。
[0153]
可选地,确定模块具体用于:根据节点的属性特征和第五预设公式,确定每个节点和邻居节点的属性相似度;根据节点的结构特征和第六预设公式,确定每个节点和邻居节点的结构相似度;根据属性相似度、结构相似度和第七预设公式,确定每个节点和邻居节点的目标相似度;第五预设公式为:第六预设公式为:第七预设公式为:其中,表示节点i和节点j的属性相似度,表示节点i的属性特征,表示节点j的属性特征;表示节点i和节点j的结构相似度,表示节点i的结构特征,表示节点j的结构特征;s
ij
表示节点i和节点j的目标相似度,ω表示权重因子。
[0154]
本公开实施例提供一种虚假交易对象的检测装置,首先,虚假交易对象的检测装置可以先确定m个第一同构图中每个同构图的边的连接价值,然后,虚假交易对象的检测装置裁剪m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;之后,虚假交易对象的检测装置可以根据m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;最后,虚假交易对象的检测装置可以根据目标模型确定任意一个订单是否存在虚假交易对象。由于m个第一同构图包括用户的同构图和商品的用户图中至少一个,m为正整数,因此本公开实施例首先在模型训练时的数据量相比于相关技术中采用用户-订单-商品的同构图进行模型训练的数据量小。其次,本公开实施例还将m个第一同构图中连接价值小于或等于预设连接价值的边裁剪掉,一方面可以再次减少模型训练中的数据的处理量,提高模型训练的速率;另一方面删除一些噪声数据,可以提高训练出的目标模型的准确率,可以使得确定虚假交易的准确性更高,例如,可以更准确地区分一个订单中的用户是刷单用户还是普通用户,更准确区分一个订单中的商品是刷单商品还是普通商品,更准确区分一个订单是否为虚假交易订单。
[0155]
本公开实施例中的虚假交易对象的检测装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,
移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、umpc(ultra-mobile personal computer,超级移动个人计算机)、上网本或者pda(personal digital assistant,个人数字助理)等,非移动电子设备可以为服务器、nas(networkattached storage,网络附属存储器)、pc(personal computer,个人计算机)、tv(television,电视机)、柜员机或者自助机等,本公开实施例不作具体限定。
[0156]
本公开实施例中的虚假交易对象的检测装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本公开实施例不作具体限定。
[0157]
本公开实施例提供的虚假交易对象的检测装置能够实现图1至图5的方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0158]
可选地,如图7所示,本公开实施例还提供一种服务器700,包括处理器701,存储器702,存储在存储器702上并可在处理器701上运行的程序或指令,该程序或指令被处理器701执行时实现上述虚假交易对象的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0159]
需要说明的是,本公开实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0160]
需要说明的是,图8示出的服务器800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0161]
如图8所示,服务器800包括中央处理单元(central processing unit,cpu)801,其可以根据存储在rom(read onlymemory,只读存储器)802中的程序或者从存储部分808加载到ram(randomaccess memory,随机访问存储器)803中的程序而执行各种适当的动作和处理。在ram 803中,还存储有系统操作所需的各种程序和数据。cpu 801、rom 802以及ram 803通过总线804彼此相连。i/o(input/output,输入/输出)接口805也连接至总线804。
[0162]
以下部件连接至i/o接口805:包括键盘、鼠标等的输入部分806;包括诸如crt(cathode raytube,阴极射线管)、lcd(liquid crystal display,液晶显示器)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan(localareanetwork,无线网络)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0163]
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(cpu 801)执行时,执行本技术的系统中限定的各种功能。
[0164]
本公开实施例提供一种服务器,首先,服务器可以先确定m个第一同构图中每个同构图的边的连接价值,然后,服务器裁剪m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;之后,服务器可以根据m个第二同构图中邻居节点的邻居特征
进行图训练,得到目标模型;最后,服务器可以根据目标模型确定任意一个订单是否存在虚假交易对象。由于m个第一同构图包括用户的同构图和商品的用户图中至少一个,m为正整数,因此本公开实施例首先在模型训练时的数据量相比于相关技术中采用用户-订单-商品的同构图进行模型训练的数据量小。其次,本公开实施例还将m个第一同构图中连接价值小于或等于预设连接价值的边裁剪掉,一方面可以再次减少模型训练中的数据的处理量,提高模型训练的速率;另一方面删除一些噪声数据,可以提高训练出的目标模型的准确率,可以使得确定虚假交易的准确性更高,可以更准确地区分一个订单中的用户是刷单用户还是普通用户,更准确区分一个订单中的商品是刷单商品还是普通商品,更准确区分一个订单是否为虚假交易订单。
[0165]
本公开实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述虚假交易对象的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0166]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read-only memory,rom)、随机存取存储器(randomaccess memory,ram)、磁碟或者光盘等。
[0167]
本公开实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述虚假交易对象的检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0168]
应理解,本公开实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0169]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本公开实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0170]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
[0171]
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。

技术特征:
1.一种虚假交易对象的检测方法,其特征在于,所述方法包括:确定m个第一同构图中每个同构图的边的连接价值,所述m个第一同构图包括用户的同构图和商品的同构图中至少一个,m为正整数;裁剪所述m个第一同构图中连接价值小于或等于预设连接价值的边,得到m个第二同构图;根据所述m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;根据所述目标模型,检测目标订单是否存在虚假交易对象,所述目标订单为任意一个订单。2.根据权利要求1所述的方法,其特征在于,所述根据所述m个第二同构图中邻居节点的邻居特征进行图训练之前,所述方法还包括:获取所述m个第二同构图中每个同构图的每个节点的目标特征;根据目标特征确定每个节点和邻居节点的目标相似度;根据目标相似度,依概率采样邻居节点得到邻居特征。3.根据权利要求1所述的方法,其特征在于,所述确定所述m个第一同构图中每个同构图的边的连接价值之前,所述方法还包括:将目标异构图拆分为所述m个第一同构图,所述目标异构图为用户-订单-商品的异构图,所述m个第一同构图包括用户的同构图和商品的同构图中的至少一个。4.根据权利要求1所述的方法,其特征在于,所述虚假交易对象包括刷单用户、刷单商品和虚假交易订单中的至少一个;所述检测目标订单是否存在虚假交易对象,包括:检测所述目标订单是否为虚假交易订单;或者,检测所述目标订单的买家是否为刷单买家;或者,检测所述目标订单的商品是否为刷单商品。5.根据权利要求1所述的方法,其特征在于,所述确定m个第一同构图中每个同构图的边的连接价值,包括:确定所述m个第一同构图中每个同构图的节点的连接热度;根据连接热度,确定所述m个第一同构图中每个同构图的边的连接价值;其中,用户的同构图中节点的连接热度与用户的购买量关联,商品的同构图中节点的连接热度与商品的销量关联。6.根据权利要求5所述的方法,其特征在于,所述确定所述m个第一同构图中每个同构图的节点的连接热度,包括:根据第一预设公式和商品的销量,确定商品的同构图中节点的连接热度;所述第一预设公式为:其中,vp
i
表示商品i的节点的连接热度,s
i
表示商品i的销量。7.根据权利要求5所述的方法,其特征在于,所述确定所述m个第一同构图中每个同构图的节点的连接热度,包括:根据第二预设公式和用户的购买量,确定所述用户的同构图中节点的连接热度;
所述第二预设公式为:其中,vu
j
表示用户j的节点的连接热度,p
j
表示用户j的购买量。8.根据权利要求6所述的方法,其特征在于,根据连接热度,确定所述m个第一同构图中每个同构图的边的连接价值,包括:根据第三预设公式和每个节点的连接热度,确定商品的同构图中边的连接价值;或者,所述第三预设公式为:其中,eu
ab
表示用户a和用户b之间的边的连接价值,p
ab
表示用户a和用户b都购买过的商品集合,p
a
表示用户a购买过的商品集合,p
b
表示用户b购买过的商品集合。9.根据权利要求6所述的方法,其特征在于,根据连接热度,确定所述m个第一同构图中每个同构图的边的连接价值,包括:根据第四预设公式每个节点的连接热度,确定用户的同构图中边的连接价值;所述第四预设公式为:其中,ep
xy
表示商品x和商品y之间的边的连接价值,p
xy
表示共同购买过商品x和商品y的用户集合,u
x
表示购买过商品x的用户集合;u
y
表示购买过商品y的用户集合;u
xy
表示购买过商品x和商品y的用户集合。10.根据权利要求2所述的方法,其特征在于,所述目标特征包括属性特征和结构特征;所述根据所述目标相似度,依概率采样邻居节点得到邻居特征,包括:根据所述节点的属性相似度和结构相似度的加权和,依概率采样邻居节点得到邻居特征。11.根据权利要求10所述的方法,其特征在于,所述根据所述目标特征确定每个节点和邻居节点的目标相似度,包括:根据节点的属性特征和第五预设公式,确定每个节点和邻居节点的属性相似度;根据节点的结构特征和第六预设公式,确定每个节点和邻居节点的结构相似度;根据属性相似度、结构相似度和第七预设公式,确定每个节点和邻居节点的目标相似度;所述第五预设公式为:
所述第六预设公式为:所述第七预设公式为:其中,表示节点i和节点j的属性相似度,表示节点i的属性特征,表示节点j的属性特征;表示节点i和节点j的结构相似度,表示节点i的结构特征,表示节点j的结构特征;s
ij
表示节点i和节点j的目标相似度,ω表示权重因子。12.一种虚假交易对象的检测装置,其特征在于,所述虚假交易对象的检测装置包括:确定模块、裁剪模块、模型训练模块和检测模块;所述确定模块,用于确定m个第一同构图中每个同构图的边的连接价值,所述m个第一同构图包括用户的同构图和商品的同构图中的至少一个,m为正整数;所述裁剪模块,用于根据所述确定模块确定的连接价值,裁剪所述m个第一同构图中每个同构图的连接价值小于或等于预设连接价值的边,得到m个第二同构图;所述模型训练模块,用于根据所述裁剪模块裁剪得到的所述m个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;所述检测模块,用于根据所述模型训练模块训练得到的目标模型,检测目标订单是否存在虚假交易对象。13.一种服务器,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至11任一项所述的虚假交易对象的检测方法的步骤。14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至11任一项所述的虚假交易对象的检测方法的步骤。

技术总结
本公开提供了一种虚假交易对象的检测方法,属于安全技术领域。该方法包括:确定M个第一同构图中每个同构图的边的连接价值,该M个第一同构图包括用户的同构图和商品的同构图中的至少一个,M为正整数;裁剪M个第一同构图中连接价值小于或等于预设连接价值的边,得到M个第二同构图;根据M个第二同构图中邻居节点的邻居特征进行图训练,得到目标模型;根据目标模型,检测目标订单是否存在虚假交易对象,目标订单为任意一个订单。通过本公开实施例提供的技术方案,可以解决训练的模型不够准确,导致虚假交易检测准确率低的问题。导致虚假交易检测准确率低的问题。导致虚假交易检测准确率低的问题。


技术研发人员:张浩鑫 王黎 林睿
受保护的技术使用者:北京京东世纪贸易有限公司
技术研发日:2022.01.05
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐