一种账号分类方法、系统、计算机设备和存储介质与流程

未命名 08-06 阅读:152 评论:0


1.本技术属于计算机技术领域,具体的涉及一种基于兴趣网络的账号分类方法、系统、计算机设备和存储介质。


背景技术:

2.随着网络的飞速发展,社交网络空间成为信息传播的前沿阵地,每个用户结合自身的兴趣点组合成一个庞大的信息关系网络。在众多账号宣传正能量的同时也有许多不法分子对特定领域进行恶意抹黑诋毁、不良宣传、操纵舆论,同时还有众多被操纵的机器人账号在不同领域发声,给反恐维稳、社会治理带来了新的考验。
3.基于账号内容的检测技术门槛高,由于在线社交网络平台的用户多、语种多、新词多,要识别账号观点倾向的难度较大。现有的分析一般是基于文本语义分析,需要大量的标注文本数据,而且对于众多语种与新词,也需要众多专业的人员进行标注查看,获取各个语种数据的人工成本高、耗时长。同时,由于正向宣传账号与反向宣传账号的工作方式比较接近,单纯文本分析方法无法匹配日益复杂的账号分类需求。


技术实现要素:

4.针对上述问题,本技术第一方面提出一种基于兴趣网络的账号分类方法,包括步骤:
5.获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,兴趣关系数据包括用户账号列表和事件列表;
6.将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量;
7.利用graphsage算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。
8.进一步地,用户账号列表中包括通过当前用户的at、转发、评论、收藏和点赞中的至少一种兴趣行为与当前用户关联的用户的账号,事件列表中包括当前用户发表的内容中包含的事件关键词和对应的事件关键词出现的次数,事件关键词为url、话题、图片和视频中的至少一种。
9.进一步地,将用户账号列表转化为无向的账号连接网络图具体为,将用户账号列表转化为有向的账号连接网络图,将有向的账号连接网络图中的节点的流出边和流入边进行加权合并,获得无向的账号连接网络图。
10.进一步地,基于deepwalk算法计算节点特征向量,其中不同节点转移概率为节点间的兴趣值相似度,所述兴趣值为对应的事件关键词出现的次数。。
11.进一步地,graphsage算法采用归一化加权聚合,归一化加权聚合的公式表达为:
12.[0013][0014]
其中,u、v为节点编号,n为所有边,w
min
为所有权重的最小值,w
max
为所有权重的最大值,w
vu
为边v到边u的权重,k为层数,aggregatek为第k层的聚合函数,为v节点在第k次聚合生成的特征向量。
[0015]
进一步地,在graphsage算法的计算过程中引入剪枝操作,对每个节点,保留权重最大的指定条边。
[0016]
进一步地,在graphsage算法的计算过程中利用concat操作融合当前节点的特征向量和其所有邻居节点的特征向量的均值。
[0017]
本技术第二方面提出一种基于兴趣网络的账号分类系统,包括:
[0018]
兴趣关系数据处理模块,配置用于获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,兴趣关系数据包括用户账号列表和事件列表;
[0019]
模型数据处理模块,配置用于将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量;
[0020]
分类运算模块,配置用于利用graphsage算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。
[0021]
本技术第三方面提出一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如第一方面中任一项所述方法。
[0022]
本技术第四方面提出一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现如第一方面中任一项所述方法。
[0023]
本发明提供一种基于兴趣网络的账号分类方法及终端,该方法以用户之间的兴趣行为关联构建账号连接网络图,以用户关注的事件为兴趣节点,基于改进的graphsage算法进行账号分类。该方法可实现对海量账号的有效分类,且不依赖于语种与关键词,无需各类语种的专业人员进行标注,可用于舆情大数据分析相关任务,同时,具备良好的扩展性,可以根据需要不断扩大账号分类范围。
附图说明
[0024]
附图帮助进一步理解本技术。附图的元件不一定是相互按照比例的。为了便于描述,附图中仅示出了与有关发明相关的部分。
[0025]
图1为本发明一实施例中基于兴趣网络的账号分类方法过程示意图;
[0026]
图2为本发明一实施例中账号连接网络有向图;
[0027]
图3为本发明另一实施例中基于兴趣网络的账号分类系统的结构示意图。
具体实施方式
[0028]
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。
[0029]
图1为本发明一实施例中基于兴趣网络的账号分类方法示意图,本实施例对某个社交媒体官网的用户账号进行分类,其具体包括步骤:
[0030]
s1,获取待分类账号的数据,并进行预处理,获得与账号的兴趣行为相关的兴趣关系数据。
[0031]
具体地,根据指定的采集策略,采集社交媒体官网上的用户账号信息、用户发送的帖子等活动数据信息。由于用户信息与帖子信息存在着许多不确定的信息,比如特殊字符、表情等,所采集的信息需要经过处理后才能入库,具体地,通过数据抽取及清洗,检查数据一致性,处理重复值、无效值和缺失值,以便于后续兴趣网络的构建。
[0032]
在具体实施例中,数据清洗还包括清洗出每个用户账号的关注列表、粉丝列表、转发列表、评论列表、at列表(@列表)、点赞列表、收藏列表、url列表、话题列表、图片地址列表、视频地址列表等数据。其中,关注列表、粉丝列表、at列表、转发列表、评论列表、点赞列表、收藏列表均为用户账号列表,例如,转发列表中包括当前用户转发文章所属的用户;url列表、话题列表、图片地址列表、视频地址列表均为事件列表,这类列表中包含2个值,一个是事件关键词,另一个是次数,例如,话题列表中包含当前用户发表的内容中包括的话题,以及各个话题提及的次数;url列表中包含当前用户发表的内容中包括的url,以及各个url提及的次数;图片地址列表中包含当前用户发表图片的url,以及各个图片url提及的次数;视频地址列表中包含当前用户发表视频的url,以及各个视频url提及的次数。
[0033]
根据研究,在社交媒体中,用户与用户之间的连接主要可以分为两种,一种是社交关联,例如通过“关注”、“粉丝”等关联的两个用户,另外一种是兴趣关联,例如通过“转发”、“评论”、“at”、“点赞”、“收藏”、“url链接”、“话题”等行为关联的两个用户。在上述的两种连接中,前者的关系不仅包含了兴趣关系,也包含社交关系,而后者更多是兴趣关系。经过实测,在为了舆情监测的账号分类过程中,用户之间的兴趣关系更有价值,因此,本实施例基于与账号的兴趣行为相关的兴趣关系数据进行后续的处理,即用户之间的“转发”、“评论”、“点赞”、“收藏”、“url链接”、“话题”等行为关联的数据。
[0034]
s2,将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量。
[0035]
用户账号列表表示账号之间的兴趣关联。在本实施例中,将当前账号的at列表、转发列表、评论列表、点赞列表、收藏列表共五个列表合并,用来表示用户-用户的兴趣关联。
[0036]
根据前述内容可知,用户账号列表的两个账户之间的兴趣关联是具有方向性的,从而直接生成的账号连接网络图是有向图。图2为本实施例中账号连接网络有向图,可见,每个节点的边可以分为流出边和流入边,将流出边的总数记为出度,流入边的总数记为入度。例如,对于节点1,其出度为2,入度也为2。本发明利用graphsage算法进行账号分类,该算法对数据的要求是无向图,因此,本实施例将流出边和流入边进行合并,合并的公式表示为:
[0037]wi,j
=αλ
i,j
+βλ
j,i
[0038]
其中,w
i,j
表示的节点j到节点i的权重,λ
i,j
表示的是节点i到节点j的权重,λ
j,i
表示的是节点j到节点i的权重。通过参数α和参数β可以调节不同的权重比例,默认参数α=0.6,参数β=0.4,去掉w
i,j
=低于阀值的连接线,通过上述公式可以把用户账号列表对应的账号连接网络图转化为无向图。
[0039]
事件列表表示账号对事件的兴趣。在本实施例中,将url列表、话题列表、图片地址列表、视频地址列表共四个列表合并成为事件列表,用来表示用户对某一事件的兴趣,如果
多个用户都提到相同的事件,那么可以认为这些用户对某一事件都很感兴趣,从侧面反应了这些用户在兴趣上的相似性。事件列表还包含了用户对于这个事件的兴趣值,即用户的提及次数。
[0040]
对于事件列表,可采用deepwalk算法得到节点特征向量。deepwalk利用word2vec的思想将拿到的随机游走的节点序列作为语料库,训练神经网络模型,进而学习每个节点的向量表示。其中不同节点转移概率为节点间的兴趣值相似度,所述兴趣值为对应的事件关键词出现的次数。
[0041]
s3,利用graphsage算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。
[0042]
在上述账号连接网络图及节点特征向量的基础上,本发明利用graphsage算法来实现账号分类。graphsage是能够利用网络图中节点的属性信息产生未知节点embedding的一种归纳式(inductive)学习的框架。graphsage通过邻居采样的方式解决了gcn内存爆炸的问题,更适用于大规模图;将直推式学习(transductive)转化为归纳式学习,避免节点的特征每次都需要重训的情况,支持增量特征;引入邻居采样,将直推式节点只表示一种局部结构转变为对应多种局部结构的节点归纳表示,可有效防止训练过拟合,增强泛化能力。
[0043]
本实施例在常规的graphsage算法基础上进行了改进,从而能够实现本发明目标应用场景下的技术问题。
[0044]
graphsage存在无法处理加权图,仅可以邻居节点等权聚合的问题。因此,在优选实施例中,对于无法处理加权图的问题,利用前述将流出边和流入边进行合并的方法,把有向图转成无向图解决;对于仅可以邻居节点等权聚合问题,在聚合之前对边的权重进行归一化,然后将归一化后的权重与对应的邻居节点特征相乘,最后再进行特征融合。
[0045]
graphsage等权聚合公式表示如下:
[0046][0047]
本实施例中归一化加权聚合公式如下:
[0048][0049][0050]
其中,u、v为节点编号,n为所有边,w
min
为所有权重的最小值,w
max
为所有权重的最大值,w
vu
为边v到边u的权重,k为层数,aggregatek为第k层的聚合函数,为v节点在第k次聚合生成的特征向量。节点权重归一化w

vu
在预处理时即可完成,不影响算法速度。边权重计算,采用事件列表的兴趣值的相似度来计算,得到相邻节点的边权重。
[0051]
graphsage的采样引入了随机过程,推理阶段同一节点embedding特征不稳定,且邻居采样会导致反向传播时带来较大梯度方差。针对这个问题,在优选实施例中,对账号连接网络图进行剪枝操作,仅保留每个节点权重最大的k条边,使网络结构不变的情况下,保证同一节点的embedding特征相同,并且大幅度降低图的稠密程度,降低计算内存开销。
[0052]
采样数目限制会导致部分节点的重要局部信息丢失。针对这个问题,在优选实施例中,提前对每一个节点的特征与其所有邻居特征的均值进行concat操作,以融合特征,通过该种方式在采样相同节点的前提下可获得更多的局部信息。
[0053]
图3为另一实施例中基于兴趣网络的账号分类系统300的结构示意图,其具体包括:
[0054]
兴趣关系数据处理模块301,配置用于获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,兴趣关系数据包括用户账号列表和事件列表;
[0055]
模型数据处理模块302,配置用于将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量;
[0056]
分类运算模块303,配置用于利用graphsage算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。
[0057]
通过上述实施例可见,本发明提出的方法和系统可以有针对性地对特别关注的一类站点进行账号勘查。勘查后,还可以接入下游其他的功能,例如对用户行为进行预警推送等,可满足用户勘查分析与行为监测等多种需要。
[0058]
尽管结合优选实施方案具体展示和介绍了本技术的内容,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本技术的精神和范围内,没有做出创造性劳动的情况下,在形式上和细节上对本技术做出的各种变化,均为本技术的保护范围。

技术特征:
1.一种基于兴趣网络的账号分类方法,其特征在于,包括步骤:获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,所述兴趣关系数据包括用户账号列表和事件列表;将所述用户账号列表转化为无向的账号连接网络图;从所述事件列表中计算节点特征向量;利用graphsage算法,以所述账号连接网络图和所述节点特征向量为输入,获得账号分类结果。2.根据权利要求1所述的基于兴趣网络的账号分类方法,其特征在于,所述用户账号列表中包括通过当前用户的at、转发、评论、收藏和点赞中的至少一种兴趣行为与当前用户关联的用户的账号,所述事件列表中包括当前用户发表的内容中包含的事件关键词和对应的事件关键词出现的次数,所述事件关键词为url、话题、图片和视频中的至少一种。3.根据权利要求1所述的基于兴趣网络的账号分类方法,其特征在于,将所述用户账号列表转化为无向的账号连接网络图具体为,将所述用户账号列表转化为有向的账号连接网络图,将所述有向的账号连接网络图中的节点的流出边和流入边进行加权合并,获得所述无向的账号连接网络图。4.根据权利要求1所述的基于兴趣网络的账号分类方法,其特征在于,基于deepwalk算法计算节点特征向量,其中不同节点转移概率为节点间的兴趣值相似度,所述兴趣值为对应的事件关键词出现的次数。5.根据权利要求1所述的基于兴趣网络的账号分类方法,其特征在于,所述graphsage算法采用归一化加权聚合,所述归一化加权聚合的公式表达为:算法采用归一化加权聚合,所述归一化加权聚合的公式表达为:其中,u、v为节点编号,n为所有边,w
min
为所有权重的最小值,w
max
为所有权重的最大值,w
vu
为边v到边u的权重,k为层数,aggregate
k
为第k层的聚合函数,为v节点在第k次聚合生成的特征向量。6.根据权利要求1所述的基于兴趣网络的账号分类方法,其特征在于,在所述graphsage算法的计算过程中引入剪枝操作,对每个节点,保留权重最大的指定条边。7.根据权利要求1所述的基于兴趣网络的账号分类方法,其特征在于,在所述graphsage算法的计算过程中利用concat操作融合当前节点的特征向量和其所有邻居节点的特征向量的均值。8.一种基于兴趣网络的账号分类系统,其特征在于,包括:兴趣关系数据处理模块,配置用于获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,所述兴趣关系数据包括用户账号列表和事件列表;模型数据处理模块,配置用于将所述用户账号列表转化为无向的账号连接网络图;从所述事件列表中计算节点特征向量;分类运算模块,配置用于利用graphsage算法,以所述账号连接网络图和所述节点特征
向量为输入,获得账号分类结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

技术总结
本申请提出一种基于兴趣网络的账号分类方法、系统、计算机设备和存储介质,方法包括步骤:获取待分类账号的数据,并进行预处理,获得与账号所属用户的兴趣行为相关的兴趣关系数据,兴趣关系数据包括用户账号列表和事件列表;将用户账号列表转化为无向的账号连接网络图;从事件列表中计算节点特征向量;利用GraphSAGE算法,以账号连接网络图和节点特征向量为输入,获得账号分类结果。该方法以用户之间的兴趣行为关联构建账号连接网络图,以用户关注的事件为兴趣节点,基于改进的GraphSAGE算法进行账号分类。方法可实现对海量账号的有效分类,且不依赖于语种与关键词,无需各类语种的专业人员进行标注,可用于舆情大数据分析相关任务,同时,具备良好的扩展性。具备良好的扩展性。具备良好的扩展性。


技术研发人员:林志扬 徐晓文 韩君梅 薛健武 黄南松
受保护的技术使用者:厦门市美亚柏科信息股份有限公司
技术研发日:2023.03.22
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐