异常用户群组识别方法、装置、存储介质与电子设备与流程
未命名
07-27
阅读:136
评论:0
1.本公开涉及数据处理技术领域,尤其涉及一种异常用户群组识别方法、异常用户群组识别装置、计算机可读存储介质与电子设备。
背景技术:
2.异常用户群组是指具有关联的异常用户所形成的群体,其可能对他人的利益造成非法侵害。例如,在互联网金融领域,异常用户群组可能表现为欺诈团队,该类欺诈团伙通常表现为存在着非常多的网上交易行为,由于此类交易行为是虚拟的,需要通过对数据的处理才能实现。因此,在金融数据处理的过程中,为了降低欺诈团伙恶意篡改和攻击金融数据造成的用户损失,形成了金融交易的反欺诈行为。比如:在金融贷款、交易欺诈等金融行为中,通常需要对用户的信息进行核查、分析与识别,以进行风险管控,最大限度地保护用户权益;或者,在电商或社交等平台上,同一机构或同一人可能创建大量“小号”,用于刷单、刷评论、粉丝买卖等,这些“小号”也形成异常用户群组。
3.相关技术中,采用知识图谱进行异常用户群组的识别,传统的知识图谱运用方法主要是通过计算最短路径、扩散汇聚、节点重要性等抽取节点特征。近年来对于异构图的研究比较多,然而,相关技术中,异构图存在数据稀疏、节点和边的异质等问题,导致基于异构图对异常用户群组的识别较为困难。
技术实现要素:
4.本公开提供一种异常用户群组识别方法、异常用户群组识别装置、计算机可读存储介质与电子设备,以至少在一定程度上降低异常用户群组的识别难度。
5.根据本公开的第一方面,提供一种异常用户群组识别方法,包括:以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图;根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图;对所述同构图中的用户节点进行聚类,得到若干个用户群组;根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组。
6.在一种实施方式中,所述以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图,包括:以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关系、不同用户之间的关系为边,构建异构图;对应的,所述根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图,包括:根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,和直接连接的不同用户之间的关联关系,构建以所述用户为节点的同构图。
7.在一种实施方式中,在所述对所述同构图中的用户节点进行聚类,得到若干个用户群组之前,所述方法还包括:根据所述异构图中两个用户在不同关联关系下的预设边权
重,将所述异构图中所述两个用户在每一关联关系下的预设边权重累加,得到所述同构图中所述两个用户之间的边权重。
8.在一种实施方式中,所述方法还包括:当所述同构图中两个用户之间的边权重大于边权重阈值时,将所述边权重阈值作为所述同构图中所述两个用户之间的边权重。
9.在一种实施方式中,所述对所述同构图中的用户节点进行聚类,得到若干个用户群组,包括:采用带权重的leiden社区发现算法对所述同构图中的用户节点进行聚类,得到若干个用户群组。
10.在一种实施方式中,所述采用带权重的leiden社区发现算法对所述同构图中的用户节点进行聚类,得到若干个用户群组,包括:基于质量函数增大的原则,对所述同构图中的用户节点进行快速局部移动,得到第一聚类结果;基于质量函数增大的原则,对所述第一聚类结果中的用户节点进行合并,得到第二聚类结果;对所述第二聚类结果进行凝聚操作,并对所述第一聚类结果进行初始化凝聚操作;重复上述步骤,直到所述质量函数不再增大,得到若干个所述群组。
11.在一种实施方式中,所述根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组,包括:根据所述预设指标确定所述用户群组的各真实指标值;根据所述预设指标对应的预设权重,对所述用户群组的各真实指标值进行加权求和,得到所述用户群组的风险评分;获取风险评分高于风险阈值的候选用户群组的源数据,并对所述候选用户群组的源数据进行分析,以从所述候选用户群组中确定所述异常用户群组;所述源数据包括征信数据和逾期数据。
12.在一种实施方式中,所述预设指标包括:平均节点排序(pagerank)、平均局部集聚系数、群组的直径、群组的节点数量、群组的异常用户数量、群组的异常用户占比、群组中用户之间关联关系的平均权重。
13.在一种实施方式中,所述方法还包括:基于所述异常用户群组的同构图构建所述异常用户群组的异构图,并生成群组报告,以展示所述异常用户群组的特征;所述群组报告包括群组的各真实指标值、群组中的重要程度高于预设阈值的用户和/或个人信息、群组中用户和/或个人信息的分布情况。
14.根据本公开的第二方面,提供一种异常用户群组识别装置,包括:异构图构建模块,被配置为以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图;图谱转换模块,被配置为根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图;聚类模块,被配置为对所述同构图中的用户节点进行聚类,得到若干个用户群组;识别模块,被配置为根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组。
15.在一种实施方式中,所述异构图构建模块还被配置为:以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关系、不同用户之间的关系为边,构建异构图;对应的,所述图谱转换模块被配置为:根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,和直接连接的不同用户之间的关联关系,构建以所述用户为节点的同构图。
16.在一种实施方式中,所述图谱转换模块还被配置为:根据所述异构图中两个用户
在不同关联关系下的预设边权重,将所述异构图中所述两个用户在每一关联关系下的预设边权重累加,得到所述同构图中所述两个用户之间的边权重。
17.在一种实施方式中,所述聚类模块被配置为:采用带权重的leiden社区发现算法对所述同构图中的用户节点进行聚类,得到若干个用户群组。
18.在一种实施方式中,所述聚类模块被配置为:基于质量函数增大的原则,对所述同构图中的用户节点进行快速局部移动,得到第一聚类结果;基于质量函数增大的原则,对所述第一聚类结果中的用户节点进行合并,得到第二聚类结果;对所述第二聚类结果进行凝聚操作,并对所述第一聚类结果进行初始化凝聚操作;重复上述步骤,直到所述质量函数不再增大,得到若干个所述群组。
19.在一种实施方式中,所述识别模块被配置为:根据所述预设指标确定所述用户群组的各真实指标值;根据所述预设指标对应的预设权重,对所述用户群组的各真实指标值进行加权求和,得到所述用户群组的风险评分;获取风险评分高于风险阈值的候选用户群组的源数据,并对所述候选用户群组的源数据进行分析,以从所述候选用户群组中确定所述异常用户群组;所述源数据包括征信数据和逾期数据。
20.在一种实施方式中,所述预设指标包括:平均节点排序、平均lcc、群组的直径、群组的节点数量、群组的异常用户数量、群组的异常用户占比、群组中用户之间关联关系的平均权重。
21.在一种实施方式中,所述异常用户群组识别装置还包括展示模块,所述展示模块被配置为:基于所述异常用户群组的同构图构建所述异常用户群组的异构图,并生成群组报告,以展示所述异常用户群组的特征;所述群组报告包括群组的各真实指标值、群组中的重要程度高于预设阈值的用户和/或个人信息、群组中用户和/或个人信息的分布情况。
22.根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的异常用户群组识别方法及其可能的实现方式。
23.根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的异常用户群组识别方法及其可能的实现方式。
24.本方案以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关联关系为边,构建异构图;根据异构图中连接到相同个人信息的不同用户之间的关联关系,构建以用户为节点的同构图;对同构图中的用户节点进行聚类,得到若干个用户群组;根据预设指标确定用户群组的风险评分,并根据风险评分确定用户群组是否为异常用户群组。如此,基于同构图对异常用户群组进行识别,降低了异常用户群组的识别难度;同时,由于同构图中仅包括一种类型的节点和边,因此,采用统一的算法即可实现异常用户群组的识别,降低了对算法的要求。
附图说明
25.图1示出本示例性实施方式中一种异常用户群组识别方法的系统架构的示意图;
26.图2示出本示例性实施方式中一种异常用户群组识别方法的流程图;
27.图3示出本示例性实施方式中一种异构图示意图;
28.图4示出本示例性实施方式中另一种异构图示意图;
29.图5示出本示例性实施方式中一种异构图转同构图的示意图;
30.图6示出本示例性实施方式中一种异常用户群组识别方法的一种子流程图;
31.图7示出本示例性实施方式中另一种异构图转同构图的示意图;
32.图8示出本示例性实施方式中再一种异构图转同构图的示意图;
33.图9示出本示例性实施方式中一种带权重的异构图转同构图的示意图;
34.图10示出本示例性实施方式中另一种带权重的异构图转同构图的示意图;
35.图11示出本示例性实施方式中一种异常用户群组识别方法的另一种子流程图;
36.图12示出本示例性实施方式中一种欺诈团伙识别方法的流程图;
37.图13示出本示例性实施方式中一种异常用户群组识别装置的结构示意图;
38.图14示出本示例性实施方式中一种电子设备的结构示意图。
具体实施方式
39.下文将结合附图更全面地描述本公开的示例性实施方式。
40.附图为本公开的示意性图解,并非一定是按比例绘制。附图中所示的一些方框图可能是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在硬件模块或集成电路中实现这些功能实体,或在网络、处理器或微控制器中实现这些功能实体。实施方式能够以多种形式实施,不应被理解为限于在此阐述的范例。本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或多个实施方式中。在下文的描述中,提供许多具体细节从而给出对本公开实施方式的充分说明。然而,本领域技术人员应意识到,可以在实现本公开的技术方案时省略其中的一个或多个特定细节,或者可以采用其它的方法、组元、装置、步骤等替代一个或多个特定细节。
41.异构图指的是包含多种类型的节点和边的图,节点和边之间的连接关系也可以是不同的。异构图存在以下两个缺陷:
42.(1)数据稀疏:异构图中的节点和边往往是高度稀疏的;这意味着许多节点之间可能没有直接的连接,或者两种类型的节点之间只有很少的连接。这使得在异构图上对数据进行有效的分析和识别变得更加困难;
43.(2)节点和边的异质:由于异构图中的节点和边类型不同,它们可能在结构、性质和语义上有很大的差异;这意味着相同的算法或方法可能不适用于所有类型的节点和边,需要针对每种类型的节点和边进行特定的处理。
44.鉴于上述问题,本公开的示例性实施方式首先提供一种异常用户群组识别方法,用于更为准确的从多个用户群组中识别出异常用户群组。
45.下面对本文中出现的名词术语进行解释。
46.实体:可以是现实世界的任何事物,比如:用户,以及企业、电话、邮箱、地址等个人信息。
47.关系:是客观世界中各实体之间的关系,比如:不同用户之间的亲属关系、用户与公司之间的就职(任职)关系等。
48.属性:是实体和关系的普适性描述,比如:用户的年龄、用户的性别、投资关系的投资时间、投资关系的投资金额。
49.图schema:一个知识图谱的schema相当于一个领域内的数据模型,包含了这个领域里面有意义的概念类型以及这些类型的属性。任何一个领域的schema主要由概念类型和类型属性来表达。这里,图schema包括异构图和同构图,是刻画实体、关系及其属性的图谱。
50.异构图:具有多种类型的节点和边的图。
51.同构图:节点的类型和边的类型有且只有一种的图。
52.leiden算法:针对louvain算法可能会产生任意的连接性不好的社区(甚至不连通)的缺点,进行改进的一种算法,该算法能够保证产生的社区是连通的;此外,leiden算法比louvain算法更高效。
53.群组(团伙、社区):知识图谱的一个子集,是基于算法或规则从知识图谱中识别出的特定实体和关系的集合,比如:异常用户群组、欺诈社区。
54.下面结合图1对本示例性实施方式运行环境的系统架构与应用场景进行示例性说明。
55.图1示出了系统架构的示意图,该系统架构100可以包括终端110与服务器120。其中,终端110可以是智能手机、平板电脑、个人电脑等,终端110可以接收用户输入的个人信息、与其他用户之间的关系信息等。服务器120可以泛指提供异常用户群组识别相关服务的后台系统(如智能识别服务系统),可以是一台服务器或多台服务器形成的集群。终端110与服务器120之间可以通过有线或无线的通信链路形成连接,以进行数据交互。
56.下面结合图2对本示例性实施方式中的异常用户群组识别方法进行说明,图2示出了该异常用户群组识别方法的示例性流程,可以包括以下步骤s210至s240:
57.步骤s210,以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关联关系为边,构建异构图;
58.步骤s220,根据异构图中连接到相同个人信息的不同用户之间的关联关系,构建以用户为节点的同构图;
59.步骤s230,对同构图中的用户节点进行聚类,得到若干个用户群组;
60.步骤s240,根据预设指标确定用户群组的风险评分,并根据风险评分确定用户群组是否为异常用户群组。
61.在上述异常用户群组识别方法中,以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关联关系为边,构建异构图;根据异构图中连接到相同个人信息的不同用户之间的关联关系,构建以用户为节点的同构图;对同构图中的用户节点进行聚类,得到若干个用户群组;根据预设指标确定用户群组的风险评分,并根据风险评分确定用户群组是否为异常用户群组。如此,基于同构图对异常用户群组进行识别,降低了异常用户群组的识别难度;同时,由于同构图中仅包括一种类型的节点和边,因此,采用统一的算法即可实现异常用户群组的识别,降低了对算法的要求。
62.下面对图2中的每个步骤进行具体说明。
63.参考图2,在步骤s210中,以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关联关系为边,构建异构图。
64.其中,个人信息包括用户的电话、邮箱、地址、公司、ip、设备等。
65.在存在一个用户的情况下,异构图中的节点为用户以及与用户相关的个人信息,异构图中的边为用户与个人信息之间的关联关系,比如:如图3所示,用户与公司之间的关
联关系为任职(就职),用户与ip之间的关联关系为登录ip,用户与设备之间的关联关系为使用设备。
66.在存在两个用户的情况下,不同的异构图中的用户可能连接到相同的个人信息;即,不同异构图中的不同用户可能通过相同的个人信息产生关联联系,比如:如图4所示,用户a与公司1之间的关联关系为任职(就职),用户a与ip1之间的关联关系为登录ip,用户a与设备1之间的关联关系为使用设备,用户b与公司1之间的关联关系为任职(就职),用户b与ip2之间的关联关系为登录ip,用户b与设备2之间的关联关系为使用设备,即,用户a与用户b任职(就职)于同一家公司,是具有关联关系的不同用户,且通过公司产生关联关系。
67.在存在两个以上的用户的情况下,异构图与两个用户的情况类似,此处不再赘述。
68.继续参考图2,在步骤s220中,根据异构图中连接到相同个人信息的不同用户之间的关联关系,构建以用户为节点的同构图。
69.其中,通过删除异构图中不同用户连接的相同的个人信息的节点,实现异构图到同构图的转换,比如:如图5所示在异构图中,用户a与用户b连接到相同的公司,用户c与用户d连接到相同的住宅地址,用户e与用户f连接到相同的户籍地址,那么,在同构图中,直接将用户a与用户b连接,将用户c与用户d连接,将用户e与用户f连接。
70.再比如:在异构图中,用户g与用户h连接到相同的公司和相同的住宅地址,用户i与用户j连接到相同的公司和相同的户籍地址,那么,如图6所示,直接将用户g与用户h连接,将用户i与用户j连接。
71.继续参考图2,在步骤s230中,对同构图中的用户节点进行聚类,得到若干个用户群组。
72.其中,聚类可以通过社区发现算法实现,比如:louvain社区发现算法、leiden社区发现算法等。这里,可以将社区视为团伙、群、群组。
73.louvain社区发现算法的流程如下:
74.(1)初始时将每个节点视为一个单独的社区,社区个数与节点个数相同;
75.(2)依次将每个节点和与之相邻的节点合并在一起,计算它们最大的模块度增益是否大于0;如果大于0,则将该节点放入模块度增益最大的相邻节点所在的社区;
76.(3)迭代上述第(2)步,直至算法稳定,即,所有节点所属的社区不再变化;
77.(4)将各个社区所有节点压缩为一个节点,社区内节点的权重转化为新节点环的权重,社区间权重转化为新节点边的权重;
78.(5)重复上述步骤(1)至(3),直至算法稳定。
79.louvain社区发现算法有一个主要的缺陷:可能会产生任意的连接性不好的社区(甚至不连通)。为了解决这个问题,出现了leiden社区发现算法,该算法产生的社区保证是连通的。此外,leiden社区发现算法迭代时,收敛于一个划分,其中所有社区的所有子集都是局部最优分配的,并且算法速度比louvain社区发现算法更快。
80.leiden社区发现算法的流程如下:
81.(1)初始时将每个节点视为一个单独的社区,社区个数与节点个数相同;
82.(2)将单个节点从一个社区移动至另一个社区,以提高质量函数,得到分区;
83.(3)采用带权重的模块度对分区进行改善,得到改善后的分区;
84.(4)基于改善后的分区凝聚网络,并将改善前的分区作为凝聚网络的分区结果;
85.(5)继续移动凝聚后的网络节点,直到分区结果不再改善;
86.(6)重复上述步骤,直到无法进一步改善。
87.继续参考图2,在步骤s240中,根据预设指标确定用户群组的风险评分,并根据风险评分确定用户群组是否为异常用户群组。
88.其中,预设指标包括:平均节点排序(pagerank,pr)、平均局部集聚系数(local clustering coefficient,lcc)、群组的直径、群组的节点数量、群组的异常用户数量、群组的异常用户占比、群组中用户之间关联关系的平均权重。
89.平均节点排序:是一种对网络中节点的重要性排序的算法。
90.平均局部集聚系数:是用来描述一个图中的顶点之间聚集成团的程度的系数;具体来说,指的是一个点的邻接点之间相互连接的程度。
91.在一种实施方式中,可以将群组的各预设指标对应的各真实指标值之和作为群组的风险评分;也可以将群组的各预设指标对应的各真实指标值之和的归一化结果作为群组的风险评分;还可以将群组预设指标归一化后,对不同的预设指标赋予不同的权重,将群组的各预设指标对应的各真实指标值加权求和值,作为群组的风险评分,此处不做限制。
92.在一种实施方式中,可以将风险评分高于预设阈值的群组确定为异常用户群组,也可以将风险评分高于风险阈值的群组确定为候选用户群组,通过获取候选用户群组的征信数据从候选用户群组中确定异常用户群组,比如:候选用户群组a的征信数据中当前逾期期数大于最大可逾期期数,和/或候选用户群组a的账单逾期不是首期账单逾期,和/或候选用户群组a的账单逾期不是首期账单m1逾期,和/或候选用户群组a的账单逾期不是首期账单m2逾期,和/或候选用户群组a的账单逾期是历史最大逾期期数,和/或候选用户群组a命中行内欺诈黑名单等,那么,将候选用户群组a确定为异常用户群组。
93.上述将群组的各预设指标对应的各真实指标值加权求和值,作为群组的风险评分,具体的,可以参考图6,上述步骤s240可以进一步包括以下步骤s610至s630:
94.步骤s610、根据预设指标确定用户群组的各真实指标值。
95.其中,可以通过各预设指标的计算公式计算具体群组的各真实指标值。
96.举例而言,一个节点的局部集聚系数等于所有与它相连的节点之间所连的边的数量,除以这些节点之间可以连出的最大边数。
97.平均局部集聚系数,具体来说就是所有节点的局部集聚系数的算术平均数;平均局部集聚系数的计算如下公式(1)所示:
[0098][0099]
其中,a表示节点数目;i表示具体的节点。
[0100]
步骤s620、根据预设指标对应的预设权重,对用户群组的各真实指标值进行加权求和,得到用户群组的风险评分。
[0101]
其中,预设权重可以是根据历史指标值归一化结果得到的;具体的,可以将历史指标值的归一化结果作为预设权重;比如:如表1所示各预设指标的对应的预设权重依次为:0.1、0.15、0.1、0.05、0.25、0.25、0.25、0.1。
[0102]
预设指标预设权重
平均节点排序0.1平均lcc0.15直径0.1节点数量0.05欺诈客户数量0.25群组欺诈客户占比0.25群组中关系平均权重0.1
[0103]
表1
[0104]
步骤s630、获取风险评分高于风险阈值的候选用户群组的源数据,并对候选用户群组的源数据进行分析,以从候选用户群组中确定异常用户群组。
[0105]
其中,源数据包括征信数据和逾期数据。
[0106]
具体而言,可以通过确定征信数据和逾期数据中的当前逾期期数、是否首期账单逾期、是否首期账单m1逾期、是否首期账单m2逾期、历史最大逾期期数、是否命中行内欺诈黑名单等从候选用户群组中确定异常用户群组。
[0107]
在实际应用中,源数据可以通过金融管理系统获得,也可以通过金融机构的数据库获得,此处不做限定。
[0108]
在一种实施方式中,异构图中不止包括用户与个人信息之间的连接,还包括不同用户之间的连接,具体的,上述步骤s210可以进一步包括以下步骤:
[0109]
以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关系、不同用户之间的关系为边,构建异构图。
[0110]
其中,在异构图中连接的不同的用户是具有关联关系的用户,比如:用户a与用户b是亲属关系,和/或用户a与用户b为紧急联系人关系。
[0111]
对应的,上述步骤s220可以进一步包括以下步骤:
[0112]
根据异构图中连接到相同个人信息的不同用户之间的关联关系,和直接连接的不同用户之间的关联关系,构建以用户为节点的同构图。
[0113]
其中,通过删除异构图中不同用户连接的相同的个人信息的节点,将直接连接的不同用户作为同构图中的用户节点,实现异构图到同构图的转换;比如:如图7所示,在异构图中,用户a与用户b连接到相同的公司,用户c与用户d连接到相同的住宅地址,用户e与用户f连接到相同的户籍地址,用户g与用户h是直接连接的亲属关系,用户i与用户j是直接连接的联系人关系,那么,在同构图中,直接将用户a与用户b连接,将用户c与用户d连接,将用户e与用户f连接,将用户g和用户h连接,将用户i与用户j连接。
[0114]
再比如:如图8所示在异构图中,用户k与用户l连接到相同的公司和相同的住宅地址,用户m与用户n连接到相同的公司和相同的户籍地址,用户o与用户p是直接连接的联系人关系和亲属关系,那么,直接将用户k与用户l连接,将用户m与用户n连接,将用户o与用户p连接。
[0115]
在一种实施方式中,将异构图转换为同构图之后,还会根据异构图确定同构图中的边权重,具体的,在上述步骤s230之前,可以包括以下步骤:
[0116]
根据异构图中两个用户在不同关联关系下的预设边权重,将异构图中两个用户在每一关联关系下的预设边权重累加,得到同构图中两个用户之间的边权重。
[0117]
其中,预设边权重可以是根据异常用户群组的历史特征数据确定,比如:同单位地址的两个用户之间的相关性较小,但是具有相同住宅地址(或者户籍地址、通信地址)的两个用户之间的相关性较大,存在团伙性质或者欺诈性质,从而可以将同单位地址关系的权重设置小一些,或者一方是单位地址,一方是非单位地址的同地址关系的权重设置小一些;而将同非单位地址的关系权重设置大一些。
[0118]
举例而言,如图10所示,异构图中,对于地址1,用户a、用户b与地址1之间的关系均为单位地址;对于地址2,用户a与地址2之间的关系为单位地址,用户b与地址2之间的关系为通信地址;对于地址3,用户a与地址3之间的关系为通信地址,用户b与地址3之间的关系为住宅地址;对于地址4,用户a与地址4之间的关系为单位地址,用户b与地址4之间的关系为住宅地址;对于地址5,用户a与地址5之间的关系为住宅地址,用户b与地址5之间的关系为户籍地址;对于地址6,用户a与地址6之间的关系为住宅地址,用户b与地址6之间的关系为户籍地址;那么,在同构图中,用户a与用户b在不同关联关系下的预设边权重可以依次设置为1、1、2、2、2、2,进而,同构图中,用户a与用户b之间的边权重为10。
[0119]
同理,可以设置同构图中同电话、同邮箱、同公司、同ip、同设备、同亲属、同联系人关系的权重。
[0120]
需要说明的是,该步骤可以与步骤s220同时进行,也可以在步骤s220之后进行,此处不做限定。
[0121]
在一种实施方式中,为了避免两个用户之间的相同个人信息过多而导致边权重过大出现异常值,可以设置边权重阈值,具体的,该异常用户群组识别方法还可以包括以下步骤:
[0122]
当同构图中两个用户之间的边权重大于边权重阈值时,将边权重阈值作为同构图中两个用户之间的边权重。
[0123]
接上述例子举例而言,上述用户a与用户b之间的边权重为10,该权重过大,增加了其为异常值的概率,因此,可以设置边权重阈值,比如:设置边权重阈值为8,那么,上述用户a与用户b之间的边权重不再是10,而是8。
[0124]
在一种实施方式中,由于louvain算法可能产生连接性不好的社区,因此,采用leiden算法进行社区识别,以保证所有社区连通,具体的,上述步骤s230可以进一步包括以下步骤:
[0125]
采用带权重的leiden社区发现算法对同构图中的用户节点进行聚类,得到若干个用户群组。
[0126]
其中,通过模块度衡量采用leiden社区发现算法确定的聚类结果(若干个用户群组)是否优良;带权重的leiden社区发现算法,即,模块度中的边是带权重的边;模块度的计算如下公式(2)所示:
[0127][0128]
其中,m表示网络内的总边数;ec表示社区c内的边数;kc表示社区内c节点的度和(节点c所连接的分支数);γ>0,表示分辨率参数,分辨率越高,社区越多,分辨率越低,社区越少。
[0129]
在一种实施方式中,参考图11,采用带权重的leiden社区发现算法进行社区识别,
可以包括以下步骤:
[0130]
步骤s1110、基于质量函数增大的原则,对同构图中的用户节点进行快速局部移动,得到第一聚类结果。
[0131]
其中,质量函数q如下公式(3)所示:
[0132][0133]
其中,nc表示社区c内的节点的数目;ec表示社区c内的边数;γ表示分辨率参数,社区的密度应至少为γ,而社区之间的密度应低于γ;分辨率越高,社区越多,分辨率越低,社区越少。
[0134]
步骤s1120、基于质量函数增大的原则,对第一聚类结果中的用户节点进行合并,得到第二聚类结果。
[0135]
其中,节点合并能够产生质量更大的节点,节点的质量越大,节点的直径越大。
[0136]
步骤s1130、对第二聚类结果进行凝聚操作,并对第一聚类结果进行初始化凝聚操作。
[0137]
其中,凝聚操作是指逐步合并最接近的两个节点,直至无法合并。
[0138]
步骤s1140、重复上述步骤,直到质量函数不再增大,得到若干个群组。
[0139]
其中,质量函数不再增大,表示群组中的节点无法再合并,群组的划分已达到最优,因此,此时可以停止算法。
[0140]
在一种实施方式中,确定出异常用户群组之后,可以对异常用户群组进行展示,具体的,该异常用户群组识别方法还可以包括以下步骤:
[0141]
基于异常用户群组的同构图构建异常用户群组的异构图,并生成群组报告,以展示异常用户群组的特征。
[0142]
其中,群组报告包括群组的各真实指标值、群组中的重要程度高于预设阈值的用户和/或个人信息、群组中用户和/或个人信息的分布情况。
[0143]
这里,同构图转异构图为上述异构图转同构图的逆过程,此处不再赘述。此外,这里的真实指标值为上述预设指标对应的真实指标值。
[0144]
群组中用户和/或个人信息的分布情况可以通过统计用户和/或个人信息的分布确定,具体的展示方式可以采用直方图、曲线图等各种形式,此处不做限制。
[0145]
在一种实施方式中,如图12所示,欺诈团伙识别方法可以通过以下过程实现:
[0146]
步骤s1210、获取源数据;其中,源数据包括进件数据、用户信息、征信数据、逾期数据、登录信息等;
[0147]
进件是指把资料准备好后提交给贷款公司或银行的系统里面,进件数据是通过进件得到的数据。
[0148]
步骤s1220、对源数据进行预处理和清洗,去除不可用的数据和重复数据,保留可用的数据;
[0149]
步骤s1230、采用图schema对源数据进行加工,得到实体关系表;
[0150]
步骤s1240、根据实体关系表构建异构图;
[0151]
步骤s1250、将异构图转换为同构图;
[0152]
步骤s1260、基于同构图进行群组识别,得到若干个用户群组;
[0153]
步骤s1270、对若干个用户群组进行风险评分,对风险评分高的群组进行群组分析、查证,识别出欺诈团伙;
[0154]
步骤s1280、将识别出的欺诈团伙同构图转换为异构图,生成群组报告,以进行展示。
[0155]
以上对欺诈团伙识别过程进行了说明,下面对异常用户群组识别装置进行说明。
[0156]
本公开的示例性实施方式还提供一种异常用户群组识别装置。参考图13所示,该异常用户群组识别装置1300可以包括:
[0157]
异构图构建模块1310,被配置为以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关联关系为边,构建异构图;
[0158]
图谱转换模块1320,被配置为根据异构图中连接到相同个人信息的不同用户之间的关联关系,构建以用户为节点的同构图;
[0159]
聚类模块1330,被配置为对同构图中的用户节点进行聚类,得到若干个用户群组;
[0160]
识别模块1340,被配置为根据预设指标确定用户群组的风险评分,并根据风险评分确定用户群组是否为异常用户群组。
[0161]
在一种实施方式中,异构图构建模块1310还被配置为:以用户以及与用户相关的个人信息为节点,以用户和个人信息之间的关系、不同用户之间的关系为边,构建异构图;对应的,图谱转换模块1320被配置为:根据异构图中连接到相同个人信息的不同用户之间的关联关系,和直接连接的不同用户之间的关联关系,构建以用户为节点的同构图。
[0162]
在一种实施方式中,图谱转换模块1320还被配置为:根据异构图中两个用户在不同关联关系下的预设边权重,将异构图中两个用户在每一关联关系下的预设边权重累加,得到同构图中两个用户之间的边权重。
[0163]
在一种实施方式中,聚类模块1330被配置为:采用带权重的leiden社区发现算法对同构图中的用户节点进行聚类,得到若干个用户群组。
[0164]
在一种实施方式中,聚类模块1330被配置为:基于质量函数增大的原则,对同构图中的用户节点进行快速局部移动,得到第一聚类结果;基于质量函数增大的原则,对第一聚类结果中的用户节点进行合并,得到第二聚类结果;对第二聚类结果进行凝聚操作,并对第一聚类结果进行初始化凝聚操作;重复上述步骤,直到质量函数不再增大,得到若干个群组。
[0165]
在一种实施方式中,识别模块1340被配置为:根据预设指标确定用户群组的各真实指标值;根据预设指标对应的预设权重,对用户群组的各真实指标值进行加权求和,得到用户群组的风险评分;获取风险评分高于风险阈值的候选用户群组的源数据,并对候选用户群组的源数据进行分析,以从候选用户群组中确定异常用户群组;源数据包括征信数据和逾期数据。
[0166]
在一种实施方式中,预设指标包括:平均节点排序、平均lcc、群组的直径、群组的节点数量、群组的异常用户数量、群组的异常用户占比、群组中用户之间关联关系的平均权重。
[0167]
在一种实施方式中,异常用户群组识别装置还包括展示模块,展示模块被配置为:基于异常用户群组的同构图构建异常用户群组的异构图,并生成群组报告,以展示异常用
户群组的特征;群组报告包括群组的各真实指标值、群组中的重要程度高于预设阈值的用户和/或个人信息、群组中用户和/或个人信息的分布情况。
[0168]
上述装置中各部分的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
[0169]
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0170]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0171]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0172]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0173]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0174]
本公开的示例性实施方式还提供一种电子设备,该电子设备例如可以是上述终端110与服务端120。该电子设备可以包括处理器与存储器。存储器存储有处理器的可执行指令,如可以是程序代码。处理器通过执行该可执行指令来执行本示例性实施方式中的异常用户群组识别方法,如可以执行图2的方法步骤。
[0175]
下面参考图14,以通用计算设备的形式对电子设备进行示例性说明。应当理解,图14显示的电子设备1400仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来限制。
[0176]
如图14所示,电子设备1400可以包括:处理器1410、存储器1420、总线1430、i/o(输入/输出)接口1440、网络适配器1450。
[0177]
存储器1420可以包括易失性存储器,例如ram 1421、缓存单元1422,还可以包括非易失性存储器,例如rom 1423。存储器1420还可以包括一个或多个程序模块1424,这样的程序模块1424包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。例如,程序模块1424可以包括上述意图识别装置900中的各模块。
[0178]
总线1430用于实现电子设备1400的不同组件之间的连接,可以包括数据总线、地址总线和控制总线。
[0179]
电子设备1400可以通过i/o接口1440与一个或多个外部设备2000(例如键盘、鼠标、外置控制器等)进行通信。
[0180]
电子设备1400可以通过网络适配器1450与一个或者多个网络通信,例如网络适配器1450可以提供如3g/4g/5g等移动通信解决方案,或者提供如无线局域网、蓝牙、近场通信等无线通信解决方案。网络适配器1450可以通过总线1430与电子设备1400的其它模块通信。
[0181]
尽管图14中未示出,还可以在电子设备1400中设置其它硬件和/或软件模块,包括但不限于:显示器、微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0182]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0183]
本领域技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0184]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。
技术特征:
1.一种异常用户群组识别方法,其特征在于,包括:以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图;根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图;对所述同构图中的用户节点进行聚类,得到若干个用户群组;根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组。2.根据权利要求1所述的异常用户群组识别方法,其特征在于,所述以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图,包括:以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关系、不同用户之间的关系为边,构建异构图;对应的,所述根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图,包括:根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,和直接连接的不同用户之间的关联关系,构建以所述用户为节点的同构图。3.根据权利要求1所述的异常用户群组识别方法,其特征在于,在所述对所述同构图中的用户节点进行聚类,得到若干个用户群组之前,所述方法还包括:根据所述异构图中两个用户在不同关联关系下的预设边权重,将所述异构图中所述两个用户在每一关联关系下的预设边权重累加,得到所述同构图中所述两个用户之间的边权重。4.根据权利要求3所述的异常用户群组识别方法,其特征在于,所述方法还包括:当所述同构图中两个用户之间的边权重大于边权重阈值时,将所述边权重阈值作为所述同构图中所述两个用户之间的边权重。5.根据权利要求1所述的异常用户群组识别方法,其特征在于,所述对所述同构图中的用户节点进行聚类,得到若干个用户群组,包括:采用带权重的leiden社区发现算法对所述同构图中的用户节点进行聚类,得到若干个用户群组。6.根据权利要求5所述的异常用户群组识别方法,其特征在于,所述采用带权重的leiden社区发现算法对所述同构图中的用户节点进行聚类,得到若干个用户群组,包括:基于质量函数增大的原则,对所述同构图中的用户节点进行快速局部移动,得到第一聚类结果;基于质量函数增大的原则,对所述第一聚类结果中的用户节点进行合并,得到第二聚类结果;对所述第二聚类结果进行凝聚操作,并对所述第一聚类结果进行初始化凝聚操作;重复上述步骤,直到所述质量函数不再增大,得到若干个所述群组。7.根据权利要求1所述的异常用户群组识别方法,其特征在于,所述根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组,
包括:根据所述预设指标确定所述用户群组的各真实指标值;根据所述预设指标对应的预设权重,对所述用户群组的各真实指标值进行加权求和,得到所述用户群组的风险评分;获取风险评分高于风险阈值的候选用户群组的源数据,并对所述候选用户群组的源数据进行分析,以从所述候选用户群组中确定所述异常用户群组;所述源数据包括征信数据和逾期数据。8.一种异常用户群组识别装置,其特征在于,包括:异构图构建模块,被配置为以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图;图谱转换模块,被配置为根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图;聚类模块,被配置为对所述同构图中的用户节点进行聚类,得到若干个用户群组;识别模块,被配置为根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。10.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
技术总结
本公开提供一种异常用户群组识别方法、异常用户群组识别装置、存储介质与电子设备,涉及数据处理技术领域。该异常用户群组识别方法包括:以用户以及与所述用户相关的个人信息为节点,以所述用户和所述个人信息之间的关联关系为边,构建异构图;根据所述异构图中连接到相同个人信息的不同用户之间的关联关系,构建以所述用户为节点的同构图;对所述同构图中的用户节点进行聚类,得到若干个用户群组;根据预设指标确定所述用户群组的风险评分,并根据所述风险评分确定所述用户群组是否为异常用户群组。本公开降低了异常用户群组的识别难度。度。度。
技术研发人员:徐天石 戴卫宇 符国辉
受保护的技术使用者:同盾科技有限公司
技术研发日:2023.04.25
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
