基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置

未命名 09-13 阅读:82 评论:0


1.本发明属于社交机器人检测的技术领域,具体涉及一种基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置。


背景技术:

2.随着在线社交网络的广泛流行,近年来用户数量也呈指数增长。在线社交网络使用户能够进行大规模的实时交流,对公众生活产生了重大影响。然而,在线社交网络广泛流行的同时,逐渐出现了一类由程序控制的用户,即社交机器人。虽然在线社交网络中存在良性的社交机器人,但一些恶意社交机器人的出现却给在线社交网络带来严重的不良影响。随着恶意社交机器人的不断发展,其网络舆论导向、恶意评论、发布虚假信息等行为已经成为严重威胁在线社交网络健康发展的网络安全问题。因此,社交机器人检测对于在线社交网络的安全至关重要,该问题也成为网络安全领域的研究热点。然而,一方面,传统的社交机器人检测方法采用通用型的分类算法以及分析其是否是独立账户的方法,这些方法已经难以检测如今快速发展的社交机器人。另一方面,为了逃避传统方法的检测,设计者在设计社交机器人时会调整其行为,即将社交机器人的活动行为模式与正常用户混淆,给检测识别的准确性带来了高度挑战。与此同时,机器学习、深度学习、神经网络等人工智能技术逐渐兴起并得到广泛应用,因其本身适用于数据处理、特征提取和模型优化等任务,故可以为社交机器人检测提供帮助。
3.纵观社交机器人检测领域在学术界和工业界的发展动态,针对相关技术的研究可以分为两个阶段。早期,传统的社交机器人检测方法采用通用型的分类算法以及分析其是否是独立账户的方法,这些方法在最初取得较高的检测准确率,但后来随着社交机器人的发展,设计者会采取各种策略调整社交机器人,来逃避这些通用的分类算法,同样分析独立账户的方法也失去了其适用性。近年来,国内外逐渐开始关注人工智能技术在这一工作中的应用,旨在提升社交机器人检测的有效性。现有的方法一般分为两类:特征工程和深度学习。然而,现有的基于特征工程的方法的局限性在于,它们需要手动构造特征,而且往往只关注用户一方面的特征,未能够采用全面的用户特征表示来对在线社交网络用户建模。基于深度学习的方法解决了基于特征工程方法的局限性,但是,基于深度学习的方法也没有采用用户的全面信息来建立模型,导致检测准确率较低或只能检测特定类别的社交机器人。另外,在线社交网络其实是一张大规模的图,若采用一般的深度神经网络训练,特征和模型训练会消耗大量时间,造成检测社交机器人的性能下降。此外,目前的方法倾向于构建单一的模型,仅仅依靠这样的自动化策略虽能在理想情况下取得较好的检测效果,但始终无法解决真实环境中社交媒体机器人用户分布不均匀带来的负面影响,使得模型退化严重。


技术实现要素:

4.本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置,本发明从用户属性、用户发布内容、时间信息、用户活动行为等多个维度构造和提取了有利于检测社交机器人的特征,并进行了有效的特征融合操作,解决了现有技术中只关注用户一方面特征或只能检测特定类别社交机器人的问题,提升了检测准确率。
5.为了达到上述目的,本发明采用以下技术方案:
6.第一方面,本发明提供了一种基于多维度特征融合和残差图神经网络的社交机器人检测方法,包括下述步骤:
7.基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;
8.基于用户属性数据、用户发布内容数据进行各维度的单特征的提取,得到基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征横向拼接融合得到用户在全面维度上的特征向量;
9.依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将通过图表示学习并行训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;由于不同维度的特征重要性不同,在图表示学习中引入注意力机制,所述注意力机制会在训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题;
10.使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。
11.作为优选的技术方案,所述社交关系数据包括账号id和社交关系类型,所述账号id包括主节点账号id、社交关系类型和关系账号id;将账号id去重后重新索引,将索引后的账号id作为图的节点;所述社交关系类型包括社交关系followers和社交关系friends,所述社交关系followers表示关系账号关注主节点账号;所述社交关系friends表示主节点账号关注关系账号;根据社交关系的类型,确定每个社交关系的源节点和目标节点,即社交关系类型为followers表示源节点是关系账号,目标节点是主节点账号;社交关系类型为friends表示源节点是主节点账号,目标节点是关系账号;如此,将账号之间的社交关系作为边,得到每条边的源节点和目标节点,获取节点和边的信息后,将节点和边的信息输入至图学习框架,从而构建起一张以用户作为节点、用户社交关系作为边的图。
12.作为优选的技术方案,所述基于用户属性的特征提取方法如下:
13.将用户属性数据中的基础特征和类别型特征横向拼接融合,得到基于用户属性特征的第一部分特征向量;所述基础特征包括账号id、用户昵称、个人描述、粉丝数、关注数、发文数、时间信息、账户设置信息;所述类别型特征包括是否是认证账户、是否使用系统默认头像;
14.将用户属性数据中的文本类型特征进行tf-idf处理,从而得到一个关于文本信息的特征矩阵,其中,每个用户的文本信息特征向量对应特征矩阵的每一个行向量,从而得到基于用户属性特征的第二部分特征向量;
15.将所述第一部分特征向量和第二部分特征向量进行横向拼接得到每位用户基于用户属性的特征向量;
16.所述基于用户发布内容的特征提取方法如下:
17.构建一个用户发布内容中词汇的共现矩阵,利用glove方法对共现矩阵进行降维处理,从而将用户发布内容数据转换为特征矩阵,得到基于用户发布内容的特征;
18.所述基于时间信息的特征提取方法如下:
19.时间信息包括用户属性数据中的注册时间和用户发布内容数据中发布文章的时间;
20.对于用户属性数据中的注册时间,其格式为utc格式,将其转换为datetime类型数据,然后从中提取出时间特征,拼接融合之后得到用户在注册时间上的特征向量;
21.对于用户发布内容数据中发布文章的时间,将用户每一天划分为以分钟为单位的时间间隔的序列,得到一天中每分钟是否发布文章的特征向量,将每一天是否发布文章的特征向量纵向拼接起来,得到用户发布内容数据中该用户发布文章的时间的特征向量。
22.作为优选的技术方案,所述基于用户活动行为的特征,具体为:
23.用户发布内容数据中还记录了用户发布文章的类型,包含普通发布文章、转发文章、回复文章、评论文章这四种类型,文章类型体现了用户的活动行为,基于用户发布内容数据中文章类型来构造活动行为特征矩阵,首先,对四种文章类型进行编码,其中普通发布文章由“0”编码;转发文章由“1”编码;回复文章由“2”编码;评论文章由“3”编码,其次,根据每位用户发布文章的类型,发布的每篇文章都基于上述的编码规则进行编码;对每位用户进行上述操作后,得到用户活动行为的特征向量。
24.作为优选的技术方案,特征横向拼接融合得到用户在全面维度上的特征,具体为:
25.在完成了单一特征的提取之后,得到每位用户基于用户属性的特征向量i、基于用户发布内容的特征矩阵c、基于用户注册时间的特征向量r、基于用户活动时间的特征矩阵γ、基于用户活动行为的特征向量a;首先,为了方便特征之间的融合,先将特征矩阵c和γ转换为一维特征向量c和τ;其次,将r和τ拼接,构成t=[r τ],作为基于时间的特征;最后,将特征向量i、c、t、a横向拼接融合:
[0026]
u=[i c t a]
[0027]
从而构成用户在全面维度上的特征向量,记为u;为了研究各维度特征对检测社交机器人的重要性,从全面维度特征组合中剔除各个维度的特征,得到特征消融分析数据,通过特征消融分析数据反映被剔除的维度特征的重要性。
[0028]
作为优选的技术方案,依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量。由于不同维度的特征重要性不同,在图神经网络中引入注意力机制,所述注意力机制会在表示学习训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题。
[0029]
作为优选的技术方案,采用基于残差结构的三种图神经网络模型,分别是resgat、resgcn、resappnp,来进行半监督学习训练,得到对类别未知用户的预测概率;此外,基于特征融合阶段构建的特征消融分析数据,分别是(1)u1=[c t a]:{基于用户发布内容的特征、基于时间信息的特征、基于用户活动行为的特征}、(2)u2=[i t a]:{基于用户属性的特征、基于时间信息的特征、基于用户活动行为的特征}、(3)u3=[i c a]:{基于用户属性的特征、基于用户发布内容的特征、基于用户活动行为的特征}、(4)u4=[i c t]:{基于用
户属性的特征、基于用户发布内容的特征、基于时间信息的特征},将这四种特征组合之后的数据进行图表示学习之后,输入至resgat、resgcn、resappnp三个模型中,通过模型性能的变化表征每个维度的特征对检测社交机器人的影响。
[0030]
作为优选的技术方案,在resgat、resgcn、resappnp这三个模型训练之后,分别得到类别未知用户的预测概率,由于每个模型学习到的特征有所不同,选择使用投票集成的策略,挖掘每个模型的优点,将三个模型的预测概率值进行加权平均,实现多模型的集成处理,得到最终的预测概率结果。
[0031]
第二方面,本发明提供了一种基于多维度特征融合和残差图神经网络的社交机器人检测系统,应用于所述的基于多维度特征融合和残差图神经网络的社交机器人检测方法,包括图构建模块、特征提取模块、图表示学习模块以及模型训练与集成模块;
[0032]
所述图构建模块,用于基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;
[0033]
所述特征提取模块,用于基于用户属性数据、用户发布内容数据进行各维度的单特征的提取,得到基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征横向拼接融合得到用户在全面维度上的特征向量;
[0034]
所述图表示学习模块,用于依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;由于不同维度的特征重要性不同,在图神经网络中引入注意力机制,所述注意力机制会在训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题;
[0035]
所述模型训练与集成模块,用于使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。
[0036]
第四方面,本发明提供了一种电子设备,所述电子设备包括:
[0037]
至少一个处理器;以及,
[0038]
与所述至少一个处理器通信连接的存储器;其中,
[0039]
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于多维度特征融合和残差图神经网络的社交机器人检测方法。
[0040]
本发明与现有技术相比,具有如下优点和有益效果:
[0041]
1.本发明为检测在线社交网络中的社交机器人做的特征工程工作较详细。从用户属性、用户发布内容、时间信息、用户活动行为等多个维度构造和提取了有利于检测社交机器人的特征,并进行了有效的特征融合操作,解决了以往方法往往只关注用户一方面特征或只能检测特定类别社交机器人的问题,提升了检测准确率,在一定程度上为检测真实社交网络中的社交机器人提供了可行的思路。此外,本发明还进行了特征消融分析,研究各维度特征对模型性能的影响,从而挖掘对检测社交机器人作用更大的特征。
[0042]
2.本发明采用引入注意力机制的图神经网络模型来进行基于节点特征的图表示学习,该种表示学习充分考虑了节点的特征数据以及图的拓扑结构信息,从而为每个节点赋予低维稠密的特征向量。另外,本发明为了解决在大规模图上进行表示学习耗时长、模型性能可能下降的问题,采用批量抽取部分节点放入模型中进行并行训练,然后在节点级别
上进行融合的方法,能够学习到更有效的低维稠密的节点向量。
[0043]
3.本发明在构建模型时,采用基于残差结构的图神经网络模型,残差图神经网络模型有利于降低模型训练的误差,提升检测社交机器人的准确率。此外,本发明充分利用了模型集成的优势,挖掘每个残差图神经网络模型的优点,提升了检测准确率,为解决真实环境中社交机器人用户分布不均匀带来的影响提供了方法。
附图说明
[0044]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1为本发明实施例基于多维度特征融合和残差图神经网络的社交机器人检测方法的流程图;
[0046]
图2为为本发明残差网络的结构示意图;
[0047]
图3为本发明实施例基于多维度特征融合和残差图神经网络的社交机器人检测系统的方框图;
[0048]
图4为本发明实施例电子设备的结构图。
具体实施方式
[0049]
为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0050]
在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
[0051]
请参阅图1,本发明基于多维度特征融合和残差图神经网络的社交机器人检测方法,首先该方法基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;其次基于用户属性数据、用户发布内容数据和用户社交关系数据进行各维度的特征提取,在此基础上进行特征融合,并在后续研究了各维度特征对检测社交机器人的重要性;然后使用图表示学习技术进行批量节点并行训练,从而获取节点的特征向量表示;同时使用残差图神经网络和模型集成等人工智能策略,构建一个检测准确率高、泛化能力强的社交机器人检测模型;具体包括下述步骤:
[0052]
s1、图构建;
[0053]
首先,将json形式的用户社交关系数据转换为结构化数据,该数据包含账号之间的社交关系数据,包含主节点账号id、社交关系类型、关系账号id三个字段。账号id原本是随机无序的,不利于构建图。因此需要通过构造编码映射字典,即将用户社交关系数据中的账号id合并去重后(总数为n),对其进行排序,然后利用python中的dict函数和zip函数将
原先的账号id映射到范围是[0,n-1]的索引。账号id重新索引后,将其作为图的节点。社交关系类型包括followers和friends,社交关系followers表示关系账号关注主节点账号;社交关系friends表示主节点账号关注关系账号。根据社交关系的类型,可以确定每个社交关系的源节点和目标节点,即社交关系类型为followers表示源节点是关系账号,目标节点是主节点账号;社交关系类型为friends表示源节点是主节点账号,目标节点是关系账号。如此,将账号之间的社交关系作为边,便得到每条边的源节点和目标节点。获取节点和边的信息后,将其输入至图学习框架,从而构建起一张以用户作为节点、用户社交关系作为边的图。此外,根据用户标签数据,在该图中,只有部分节点具有标签,即是否是社交机器人用户,其中“0”表示正常用户,“1”表示社交机器人用户。
[0054]
s2、单特征提取;提取的特征包括基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,具体如下:
[0055]
s2.1、基于用户属性的特征
[0056]
首先,该模块将json形式的用户属性数据转换为结构化数据。用户属性数据的基础特征包括账号id、用户昵称、个人描述、粉丝数、关注数、发文数、时间信息、账户设置信息等。基于上一步构造的编码映射字典,将用户属性数据中的账号id重新索引。对于粉丝数和关注数,可以结合时间信息统计一段时间内的粉丝增长率和关注增长率,这将为检测有规律性的社交机器人带来帮助。其次,对于用户属性基础特征中的类别型特征,例如是否是认证账户、是否使用系统默认头像,则采用类别型特征编码技术对其进行处理。例如,若不是认证账户,则标记为“0”;若是认证账户,则标记为“1”。据此,将用户属性基础特征、构造特征和类别型特征横向拼接融合,得到基于用户属性特征的第一部分特征向量,记为b。用户属性数据中还存在许多文本类型的特征,例如用户昵称、个人描述、用户定义位置、url信息等,这些文本信息可以进一步挖掘对检测社交机器人有帮助的特征。但是,文本类型特征并不能直接用于模型训练,因此要先提取这些文本信息的tf-idf(term frequency-inverse document frequency)特征。tf-idf特征是指针对用户属性数据中的文本类型基础特征进行词频-逆文本频率(tf-idf)处理后得到的特征。tf-idf的主要思想是:用户信息中某个词、短语或句子在该用户中的出现次数为n,但为了便于不同用户之间的比较,会进行词频tf的标准化:
[0057][0058]
然后,计算idf:
[0059][0060]
其中,n表示用户文本信息的总数,df表示包含该词的用户数,加1的作用是为了防止df=0的情况。那么,计算tf-idf:
[0061]
tf-idf=tf
×
idf
[0062]
通俗解释就是,若某个词、短语或句子在该用户中出现频率较高,而在其他用户中出现很少,则认为此词、短语或句子具有很好的类别区分能力,适合用来检测社交机器人。
[0063]
基于这一思想,本发明对用户属性数据中的文本类型特征进行tf-idf处理,从而得到一个关于文本信息的特征矩阵t。其中,每个用户的文本信息特征向量对应特征矩阵t
的每一个行向量,从而得到基于用户属性特征的第二部分特征向量,记为吉。然后,将特征向量b和t进行横向拼接,即i=[b t],可得到每位用户基于用户属性的特征向量i。
[0064]
s2.2、基于用户发布内容的特征;
[0065]
用户发布内容数据记录了每位用户发布的200条文章、文章类型以及时间信息。本小节先对200条文章进行处理。同样,文章数据作为文本类型的数据,也不能直接用于模型训练。本发明采用glove(global vectors for word representation)方法对文章数据进行处理,将文章编码为矩阵形式。对于语料库中的每个词都可以看作是一段句子的中心词,而以该词为中心可以在其上下文划定一个一定尺寸的窗口。据此,首先构建一个文章数据中词汇的共现矩阵x,x
ij
表示语料库中单词j出现在单词i的上下文窗口中出现的次数。在单词i上下文窗口中出现单词的总数表示为:
[0066][0067]
由于上下文窗口并不至一种单词i,而是多种单词的组合,其维度非常大,由此就需要在该维度上进行降维,学习单词的低维表示。因此,glove本质上是对共现矩阵进行降维。本发明基于免费开源的语料库,对每位用户发布的文章数据进行训练,从而将文章数据转换为特征矩阵,记为c。这个过程将包含用户主观性行为和用户发布内容规律性的文章转换为数字向量,这样的向量化表示将为检测社交机器人带来帮助。
[0068]
s2.3、基于时间信息的特征
[0069]
时间信息包含两部分,分别是用户属性数据中的注册时间和用户发布内容数据中发布文章的时间。一方面,对于用户属性数据中的注册时间,其格式为utc格式,将其转换为datetime类型数据,然后从中提取出“month”、“day”、“weekofyear”、“dayofyear”、“dayofweek”、“is_weekend”、“is_month_start”、“is_month_end”等时间特征,拼接融合之后得到用户在注册时间上的特征向量,记为r,这些特征体现了正常用户或社交机器人注册账号在时间上的规律性。另一方面,由于社交机器人在发布文章的时间上并不是随机的,而是遵循一定的规律。因此,为了去挖掘更有利于检测社交机器人的特征,对用户发布文章的时间进行特征提取是有必要的。本发明将用户u发布文章的时间区间以天为单位进行划分(d),|d|表示该用户发布第一篇文章与最后一篇文章的时间间隔。根据一天等于1440分钟,本发明将每一天d∈d划分为以分钟为时间间隔的序列,即γd={τ1,τ2,τ3,...,τ
1440
}。进一步地,从用户发布文章时间(utc格式)中提取出“天”和“分钟”的信息,将其对应至时间间隔序列γd中,并将τ
kd
(k取值范围为:1~1440)标记为“1”,表明这一天中的这一分钟该用户发布了文章;否则标记为“0”,表明这一天中的这一分钟该用户没有发布文章。得到用户u每一天是否发布文章的特征向量γd之后,本发明将该用户在|d|内每一天所有的特征向量γd纵向拼接起来,形成该用户活动时间的特征矩阵γ,即:
[0070][0071]
s2.4、基于用户活动行为的特征
[0072]
在线社交网络中,正常用户的活动往往是随机的,而社交机器人执行的活动会遵循一定的规律。因此,用户的活动行为是检测社交机器人的一个很好的指标。用户发布内容数据中还记录了用户发布文章的类型,包含普通发布文章、转发文章、回复文章、评论文章这四种类型,文章类型体现了用户的活动行为。本发明基于用户发布内容数据中每位用户发布200条文章的类型来构造它们的活动行为特征矩阵。首先,对四种文章类型进行编码,其中普通发布文章由“0”编码;转发文章由“1”编码;回复文章由“2”编码;评论文章由“3”编码。其次,根据每位用户发布文章的类型,其发布的每篇文章都基于上述的编码规则进行编码。例如,对于用户u,其活动行为可以编码为:
[0073]au
={01,12,33,34,15,

,2
199
,0
200
}
[0074]
其中33表示该用户发布的第三篇文章是评论文章。由于用户发布内容数据中每位用户记录的都是200篇文章,所以每位用户活动行为向量都是等长的。对每位用户进行上述操作后,它们的活动行为都将编码为一个特征向量,记为a。
[0075]
s3、特征融合;
[0076]
在完成了单一特征的提取之后,本发明考虑对各部分特征进行融合处理,通常经过特定特征之间的拼接合并,使模型的分类准确率提高。在完成单特征提取之后,本发明得到每位用户基于用户属性的特征向量i、基于用户发布内容的特征矩阵c、基于用户注册时间的特征向量r、基于用户活动时间的特征矩阵γ、基于用户活动行为的特征向量a。首先,为了方便特征之间的融合,先将特征矩阵c和γ转换为一维特征向量c和τ。其次,将r和τ拼接,构成t=[r τ],作为基于时间的特征。最后,将特征向量i、c、t、a横向拼接融合:
[0077]
u=[i c t a]
[0078]
从而构成用户在全面维度上的特征向量,记为u。为了研究各维度特征对检测社交机器人的重要性,本发明从全面维度特征组合中剔除各个维度的特征,得到特征消融分析数据,即{基于用户发布内容的特征、基于时间信息的特征、基于用户活动行为的特征},表示为u1=[c t a];{基于用户属性的特征、基于时间信息的特征、基于用户活动行为的特征},表示为u2=[i t a];{基于用户属性的特征、基于用户发布内容的特征、基于用户活动行为的特征},表示为u3=[i c a];{基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征},表示为u4=[i c t]。例如,为了研究用户属性特征i的重要程度,则将其从全面维度特征组合中剔除,得到u1{基于用户发布内容的特征、基于时间信息的特征、基于用户活动行为的特征},来观测其余三个维度特征融合对模型性能的影响,以此来反映用户属性特征对检测社交机器人的重要性。
[0079]
s4、基于节点特征的图表示学习;
[0080]
基于单一特征提取和特征融合,构成了用户在全面维度上的特征向量。该特征向量中的“账户id”字段可以唯一标识每一位用户,由此可以对应至图中每一个节点,即为每一个节点赋予节点的特征向量。该特征向量的维度较高,因此本发明将用户的特征向量输入至图神经网络模型中进行批量节点并行训练。据此,通过基于节点特征的图表示学习将节点特征数据转换为低维稠密的向量,同时尽可能多地保留图的拓扑结构信息,确保结构和特征数据的性质在向量空间也能够得到映射。一方面,在线社交网络形成的是大规模图,若在全部节点上进行图表示学习,会因为模型性能下降而导致学习的效果下降。因此本发明采用依次抽取部分节点放入图神经网络模型中进行并行训练,最后将训练出的低维稠密
向量在节点级别别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;另一方面,本发明在图神经网络中引入注意力机制,该机制会在训练时为不同维度的特征赋予不同的权重,其主要原理是:在特征融合阶段得到用户在全面维度上的特征向量u=[i c t a],为了给四个维度的特征向量uk∈u分配权重,采用组件级别注意力机制,其中w和b分别表示权重和偏置,vc表示组件级别上下文向量。最终uu表示四个维度的加权特征向量。
[0081]
uk′
=tanh(wuk+b)
[0082][0083][0084]
引入注意力机制后,有利于提高模型效果的特征将会被赋予更大的权重,从而提升模型性能。
[0085]
s5、模型训练
[0086]
基于图表示学习模块,在尽可能保留图的拓扑结构信息的条件下,将节点特征数据转换为低维稠密的向量,该节点向量作为模型训练的输入。本发明采用残差图神经网络来训练模型。残差网络结构是由若干个残差块组成的深度卷积网络结构,如图2所示是一个残差块:在图2中,x是该残差块的输入,h(x)是期望输出。identity表示恒等映射,即输入是x,输出也是x。f(x)表示期望输出h(x)与输入x的残差,即f(x)=h(x)-x,因此残差结构学习的是残差。在图神经网络中引入残差结构,即使网络层数增加,至少也不会导致误差增加,能够提升模型的准确率。
[0087]
本发明采用基于残差结构的三种图神经网络模型,分别是resgat、resgcn、resappnp,来进行半监督学习训练,得到对类别未知用户的预测概率。此外,基于特征融合阶段构建的特征消融分析数据,分别是(1)u1=[c t a]:{基于用户发布内容的特征、基于时间信息的特征、基于用户活动行为的特征}、(2)u2=[i t a]:{基于用户属性的特征、基于时间信息的特征、基于用户活动行为的特征}、(3)u3=[i c a]:{基于用户属性的特征、基于用户发布内容的特征、基于用户活动行为的特征}、(4)u4=[i c t]:{基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征}。将这四种特征组合之后的数据进行图表示学习之后,输入至三个模型中,观测模型性能的变化,以此来研究每个维度的特征对检测社交机器人的影响。
[0088]
s6、模型集成;
[0089]
resgat、resgcn、resappnp这三个模型训练之后,分别得到类别未知用户的预测概率。因为每个模型学习到的特征有所不同,所以本发明选择使用投票集成的策略,挖掘每个模型的优点。本发明将三个模型的预测概率值进行加权平均,实现多模型的集成处理,得到最终的预测概率结果。
[0090]
现有技术无论是基于特征工程还是基于深度学习,尤其是图神经网络,一般未采用在线社交网络中用户的全面信息来建立模型,本发明基于用户属性、用户发布内容、时间信息、用户活动行为提取了多个维度的关键特征,在此基础上进行特征融合,并在图表示学
习中考虑了不同维度特征的重要性,以此更好地应对社交机器人的逃避技术,不局限于检测特定类别的社交机器人。
[0091]
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
[0092]
基于与上述实施例中的基于多维度特征融合和残差图神经网络的社交机器人检测方法相同的思想,本发明还提供了基于多维度特征融合和残差图神经网络的社交机器人检测系统,该系统可用于执行上述基于多维度特征融合和残差图神经网络的社交机器人检测方法。为了便于说明,基于多维度特征融合和残差图神经网络的社交机器人检测系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0093]
请参阅图3,在本技术的另一个实施例中,提供了一种基于多维度特征融合和残差图神经网络的社交机器人检测系统100,该系统包括图构建模块101、特征提取模块102、图表示学习模块103以及模型训练与集成模块104;
[0094]
所述图构建模块101,用于基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;
[0095]
所述特征提取模块102,用于基于用户属性数据、用户发布内容数据和用户社交关系数据进行各维度的单特征的提取,得到基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征横向拼接融合得到用户在全面维度上的特征向量;
[0096]
所述图表示学习模块103,用于依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;由于不同维度的特征重要性不同,在图神经网络中引入注意力机制,所述注意力机制会在训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题;
[0097]
所述模型训练与集成模块104,用于使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。
[0098]
需要说明的是,本发明的基于多维度特征融合和残差图神经网络的社交机器人检测系统与本发明的基于多维度特征融合和残差图神经网络的社交机器人检测方法一一对应,在上述基于多维度特征融合和残差图神经网络的社交机器人检测方法的实施例阐述的技术特征及其有益效果均适用于基于多维度特征融合和残差图神经网络的社交机器人检测的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
[0099]
此外,上述实施例的基于多维度特征融合和残差图神经网络的社交机器人检测系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于多维度特征融合和残差图神经网络的社交机器人检测系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
[0100]
请参阅图4,在一个实施例中,提供了一种实现基于多维度特征融合和残差图神经
网络的社交机器人检测方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如交机器人检测程序203。
[0101]
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(securedigital,sd)卡、闪存卡(flash card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如交机器人检测程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0102]
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
[0103]
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0104]
所述电子设备200中的所述第一存储器202存储的交机器人检测程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
[0105]
基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;
[0106]
基于用户属性数据、用户发布内容数据和用户社交关系数据进行各维度的单特征的提取,得到基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征横向拼接融合得到用户在全面维度上的特征向量;
[0107]
依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;由于不同维度的特征重要性不同,在图神经网络中引入注意力机制,所述注意力机制会在训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题;
[0108]
使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。
[0109]
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0110]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0111]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0112]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,包括下述步骤:基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;基于用户属性数据、用户发布内容数据进行各维度的单特征的提取,得到基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征横向拼接融合得到用户在全面维度上的特征向量;依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将通过图表示学习并行训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;由于不同维度的特征重要性不同,在图表示学习中引入注意力机制,所述注意力机制会在训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题;使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。2.根据权利要求1所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,所述社交关系数据包括账号id和社交关系类型,所述账号id包括主节点账号id、社交关系类型和关系账号id;将账号id去重后重新索引,将索引后的账号id作为图的节点;所述社交关系类型包括社交关系followers和社交关系friends,所述社交关系followers表示关系账号关注主节点账号;所述社交关系friends表示主节点账号关注关系账号;根据社交关系的类型,确定每个社交关系的源节点和目标节点,即社交关系类型为followers表示源节点是关系账号,目标节点是主节点账号;社交关系类型为friends表示源节点是主节点账号,目标节点是关系账号;如此,将账号之间的社交关系作为边,得到每条边的源节点和目标节点,获取节点和边的信息后,将节点和边的信息输入至图学习框架,从而构建起一张以用户作为节点、用户社交关系作为边的图。3.根据权利要求1所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,所述基于用户属性的特征提取方法如下:将用户属性数据中的基础特征和类别型特征横向拼接融合,得到基于用户属性特征的第一部分特征向量;所述基础特征包括账号id、用户昵称、个人描述、粉丝数、关注数、发文数、时间信息、账户设置信息;所述类别型特征包括是否是认证账户、是否使用系统默认头像;将用户属性数据中的文本类型特征进行tf-idf处理,从而得到一个关于文本信息的特征矩阵,其中,每个用户的文本信息特征向量对应特征矩阵的每一个行向量,从而得到基于用户属性特征的第二部分特征向量;将所述第一部分特征向量和第二部分特征向量进行横向拼接得到每位用户基于用户属性的特征向量;所述基于用户发布内容的特征提取方法如下:构建一个用户发布内容中词汇的共现矩阵,利用glove方法对共现矩阵进行降维处理,从而将用户发布内容数据转换为特征矩阵,得到基于用户发布内容的特征;所述基于时间信息的特征提取方法如下:时间信息包括用户属性数据中的注册时间和用户发布内容数据中发布文章的时间;
对于用户属性数据中的注册时间,其格式为utc格式,将其转换为datetime类型数据,然后从中提取出时间特征,拼接融合之后得到用户在注册时间上的特征向量;对于用户发布内容数据中发布文章的时间,将用户每一天划分为以分钟为单位的时间间隔的序列,得到一天中每分钟是否发布文章的特征向量,将每一天是否发布文章的特征向量纵向拼接起来,得到用户发布内容数据中该用户发布文章的时间的特征向量。4.根据权利要求1所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,所述基于用户活动行为的特征,具体为:用户发布内容数据中还记录了用户发布文章的类型,包含普通发布文章、转发文章、回复文章、评论文章这四种类型,文章类型体现了用户的活动行为,基于用户发布内容数据中文章类型来构造活动行为特征矩阵,首先,对四种文章类型进行编码,其中普通发布文章由“0”编码;转发文章由“1”编码;回复文章由“2”编码;评论文章由“3”编码,其次,根据每位用户发布文章的类型,发布的每篇文章都基于上述的编码规则进行编码;对每位用户进行上述操作后,得到用户活动行为的特征向量。5.根据权利要求1所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,特征横向拼接融合得到用户在全面维度上的特征,具体为:在完成了单一特征的提取之后,得到每位用户基于用户属性的特征向量、基于用户发布内容的特征矩阵、基于用户注册时间的特征向量、基于用户活动时间的特征矩阵、基于用户活动行为的特征向量;首先,为了方便特征之间的融合,先将特征矩阵和转换为一维特征向量和;其次,将和拼接,构成,作为基于时间的特征;最后,将特征向量、、、横向拼接融合:从而构成用户在全面维度上的特征向量,记为;为了研究各维度特征对检测社交机器人的重要性,从全面维度特征组合中剔除各个维度的特征,得到特征消融分析数据,通过特征消融分析数据反映被剔除的维度特征的重要性。6.根据权利要求1所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量。由于不同维度的特征重要性不同,在图神经网络中引入注意力机制,所述注意力机制会在表示学习训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题。7.根据权利要求6所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,采用基于残差结构的三种图神经网络模型,分别是resgat、resgcn、resappnp,来进行半监督学习训练,得到对类别未知用户的预测概率;此外,基于特征融合阶段构建的特征消融分析数据,分别是(1):{基于用户发布内容的特征、基于时间信息的特征、基于用户活动行为的特征}、(2):{基于用户属性的特征、基于时间信息的特征、基于用户活动行为的特征}、(3):{基于用户属性的特征、基于用户发布内容的特征、基于用户活动行为的特征}、(4):{基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征},将这四种特征组合之后的数据进行图表示学习之后,输入至resgat、resgcn、resappnp三个模型中,通过模型性能的变化表征每个维度的特征对检测社交机器人的影响。8.根据权利要求7所述基于多维度特征融合和残差图神经网络的社交机器人检测方法,其特征在于,在resgat、resgcn、resappnp这三个模型训练之后,分别得到类别未知用户
的预测概率,由于每个模型学习到的特征有所不同,选择使用投票集成的策略,挖掘每个模型的优点,将三个模型的预测概率值进行加权平均,实现多模型的集成处理,得到最终的预测概率结果。9.基于多维度特征融合和残差图神经网络的社交机器人检测系统,其特征在于,应用于权利要求1-8中任一项所述的基于多维度特征融合和残差图神经网络的社交机器人检测方法,包括图构建模块、特征提取模块、图表示学习模块以及模型训练与集成模块;所述图构建模块,用于基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;所述特征提取模块,用于基于用户属性数据、用户发布内容数据进行各维度的单特征的提取,得到基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征横向拼接融合得到用户在全面维度上的特征向量;所述图表示学习模块,用于依次抽取部分节点及其全面维度上的特征向量放入图神经网络模型中进行并行训练,最后将训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;由于不同维度的特征重要性不同,在图神经网络中引入注意力机制,所述注意力机制会在训练时为不同维度的特征赋予不同的权重,避免不同维度的特征却具有相同权重的问题;所述模型训练与集成模块,用于使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。10.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8中任意一项所述的基于多维度特征融合和残差图神经网络的社交机器人检测方法。

技术总结
本发明公开了一种基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置,包括:基于用户社交关系数据构建由用户作为节点、用户社交关系作为边的图;获取基于用户属性的特征、基于用户发布内容的特征、基于时间信息的特征和基于用户活动行为的特征,将上述特征拼接融合得到用户在全面维度上的特征向量;将引入注意力机制的图表示学习并行训练出的低维稠密向量在节点级别上进行融合,形成基于每个节点特征数据以及拓扑结构的低维稠密向量;采用特征消融分析研究每个维度特征的重要性;使用残差图神经网络和模型集成策略,构建基于多维度特征融合和残差图神经网络的社交机器人模型。本发明可以显著提高社交机器人的检测准确率。的检测准确率。的检测准确率。


技术研发人员:李树栋 黄小慧 吴晓波 黄兹勤 陈昭阳 李雪斌 杨鹏伟 韩伟红
受保护的技术使用者:广州大学
技术研发日:2023.05.17
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐