社交网络中恶意账户检测方法、设备及存储介质

未命名 08-27 阅读:105 评论:0


1.本发明属于网络安全监测技术领域,尤其涉及一种社交网络中恶意账户检测方法、设备及存储介质。


背景技术:

2.随着互联网以及各种移动智能终端的发展,在线社交网络(online social networks,osn)平台得到迅猛发展。在线社交网络已经逐渐代替传统网络社交方式(如电子邮件),成为人们广泛选择的一种交友、工作、生活以及娱乐的方式。并且随着在线社交网络用户规模的不断扩大,也为媒体、广告、娱乐以及体育等行业带来巨大的商业机会。
3.在在线社交网络给人们生活带来方便,给商业者带来利益的同时,也存在巨大的新型安全隐患——面向在线社交网络的攻击。在线社交网络的攻击者们利用在线社交网络中创建的恶意账户以及盗用的被劫持账户(统称为恶意账户)来进行攻击行为,以牟取利益,例如发送垃圾信息,进行点击欺诈来获得付费的广告点击量,传播恶意软件,甚至非法获取用户隐私信息等。这些恶意账户有着比真实用户更快速、更大量的传播内容的能力。
4.为了减少利用恶意账户攻击带来的安全隐患,近几年,研究者们提出了各种各样的检测方法(参见sheikhi,s.."an efficient method for detection of fake accounts on the instagram platform."revue d intelligence artificielle 34.4(2020):429-436)。社交网络的恶意账户检测方法按照检测依赖的特征主要分为三类(参见elvis h.w.xu,pak ming hui:uncovering complex overlapping pattern of communities in large-scale social networks.appl.netw.sci.4(1):27:1-27:16(2019)):
5.第一类是基于行为特征的方法。恶意账户的建立大多是为了执行恶意攻击行为来获取非法利益,比如发送垃圾信息,点击欺诈,恶意软件的传播等。正常用户和恶意用户在社交网络中有不同的行为模式。因此,可以通过建立用户的行为模型来检测恶意账户。
6.第二类方法是基于内容特征的方法。从用户发布的信息或交互信息等寻找切入点,并从这些切入点中寻找特征,然后使用机器学习算法训练相应的分类器。
7.这两类方法都需要大量的真实结果作为依据,来增强检测模型或者不断训练检测系统以提高检测性能(参见g.wang,t.konolige,c.wilson,x.wang,h.zheng,and b.y.zhao.you are how you click:clickstream analysis for sybil detection.in usenix security,2013),但恶意账户之间往往存在一些密切的关联,但这两类方法往往忽略了用户和用户之间的关系特征,因此它们都有较高的漏报率和误报率。
8.第三类方法是基于社交网络拓扑结构特征的分析方法(参见bt,a,and z.li."local preserving logistic i-relief for semi-supervised feature selection."neurocomputing 399(2020):48-64)。将社交网络看作是一个完整的图,在社交网络中,两个用户之间如果建立了一个关系,则共享一条边,每个用户代表社交网络图的一个顶点,通过分析社交网络图结构特征,从其中获得特征并建立一个高效的检测算法。攻击者虽然能够模仿正常用户的任意行为,但是很难和正常用户建立大量良好的社交关系(参见
computing and systems(icpics)ieee,2019),另一种不常用的方法是通过聚类算法来标记数据,然后将无监督特征选择转换到全监督框架下(参见benabdeslem,k,and m.hindawi."efficient semi-supervised feature selection:constraint,relevance,and redundancy."ieee transactions on knowledge&data engineering26.5(2014):1131-1143)。由于没有先验知识的指导,无监督方法忽略了特征与任务之间可能产生的联系。因此,所得到的特征子集对于实际的判别任务可能不是最佳的。并且无监督依赖于某些假设原理,但并不能保证这些假设原理对所有的数据集都通用。
13.相比之下,半监督特征选择有着更好的适用性。当标记数据的数量有限时,半监督特征选择方法能够充分利用未标记的数据选择特征。在半监督特征选择算法中,标记数据用于最大化不同类别样本之间的边距,而未标记数据则用于发现特征空间的几何结构。常见的半监督方法有基于拉普拉斯算子的方法,如半监督判别分析(seim-supervised discriminant analysis,sda)。然而,在处理大规模数据集时图的构造比较耗时且效率较低。基于对约束,zhang等人提出了一种有效的降维方法,称为半监督降维(semi-sopervised dimensionality reduction,ssdr),该方法使用约束信息保留数据的局部结构。benadeslem和hindawi(benabdeslem,k,and m.hindawi."efficient semi-supervised feature selection:constraint,relevance,and redundancy."ieee transactions on knowledge&data engineering 26.5(2014):1131-1143)探索了另一种基于对约束的半监督方法,称为约束拉普拉斯得分(constrained laplacian score,cls)。cls可以通过事先设置的“必须链接”约束和“未链接”约束获得相似样本与相异样本,然后使用得到的信息构建相邻图并计算特征的约朿拉普拉斯得分。根据得分结果,cls消除数据中的冗余特征。但在这种情况下,cls算法取决于用户定义的链接。因此,如果用户重新定义约束集,则相应的特征分数也会被修改,这些方法是全监督方法在半监督领域的拓展。
14.在社交网络中的恶意账户检测方面存在一些问题:
15.首先,特征收集。大部分研究都是根据经验提出一系列特征,且以行为特征,内容特征和属性特征居多,往往忽略了恶意用户与正常用户在做出不同行为时的时段特征和行为协同特征。
16.第二,特征选择。大部分文献在特征提出来之后并没有对特征进行重要性分析,部分文献也仅仅采取了不同特征值进行组合对比的人工方法,没有考虑到特征冗余的情况。大量的特征会对数据的存储和模型的运算带来挑战,同时随着时间的推移和恶意用户的不断升级与改变,一些经典的特征也不会长久的适用于恶意用户的检测,所以在进行模型训练之前作特征工程选取重要特征非常有必要,选择重要程度高的特征用于模型的训练,不仅减少了运算时间和存储复杂度,还能对恶意用户的识别特征更加明确,同时,也减少了噪声或无关数据,提升了模型的识别性能。
17.第三,模型选择。近些年,大部分研究人员对恶意账户的检测使用的是基于行为特征和社交特征的机器学习模型,很少有文献去同时关注账户本身的特征以及账户间的关系,以此来判断账户的属性。
18.因此,针对账户自身的特征以及账户间的相互关系发明一种灵活而又精确的恶意账户检测方法是具有挑战性的。


技术实现要素:

19.本发明的目的在于提供一种社交网络中恶意账户检测方法、设备及存储介质,以解决由于社交网络中用户行为数据具有众多特征属性,数据量大,且有标签的数量少,传统检测方法没有将账户自身特征与账户间的关系同时考虑而导致考虑不够全面,检测精确率低的问题。
20.本发明是通过如下的技术方案来解决上述技术问题的:一种社交网络中恶意账户检测方法,包括以下步骤:
21.获取多条账户行为记录数据,对每条所述账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组;
22.对分组处理后的数据进行特征提取,得到各账户的自身特征;
23.将同一账户的自身特征进行组合,生成该账户的特征矩阵;
24.基于账户与账户之间的交互关系得到邻接矩阵;
25.对每个账户的所述特征矩阵与所述邻接矩阵进行特征融合,得到对应账户的特征融合矩阵;
26.对每个账户的特征融合矩阵进行归一化处理;
27.对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。
28.进一步地,所述预处理的具体实现过程为:
29.将缺失值大于95%的账户行为记录数据删除,并将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型。
30.进一步地,所述将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型的具体实现过程为:
31.对所述账户行为记录数据中的每项进行分段拼接、数字特征提取或编码处理,使每项均转换成数字类型。
32.进一步地,采用xgboost算法对分组处理后的数据进行特征提取。
33.进一步地,所述邻接矩阵的具体表达式为:
[0034][0035]
其中,a为具有自我连接的邻接矩阵,n为账户数量;当账户i与账户j之间有交互时,a
ij
=1,否则a
ij
=0,且当i=j时,a
ij
=0。
[0036]
进一步地,利用训练好的图卷积神经网络对每个账户的特征矩阵与所述邻接矩阵进行特征融合,特征融合具体公式为:
[0037]
x'=σ(d-1/2
ad-1/2
xw
(l)
)
[0038]
其中,x'为特征融合矩阵;a为具有自我连接的邻接矩阵;d为对角矩阵,对角矩阵d
中的每个元素d
ii
表示节点的度;σ()为激活函数;w
(l)
为图卷积神经网络第l层的训练参数;x为账户的特征矩阵。
[0039]
进一步地,所述图卷积神经网络的具体训练过程为:
[0040]
将每个账户的特征矩阵和邻接矩阵输入到图卷积神经网络中,输出特征融合矩阵;
[0041]
对所述特征融合矩阵进行归一化处理,得到归一化值;
[0042]
对所述归一化值和随机设置的阈值进行比较,得到账户的检测结果;
[0043]
当检测结果的精确率和查全率不满足要求时,根据所述检测结果的精确率和查全率对所述阈值和图卷积神经网络的训练参数进行调整;
[0044]
重复上述输入、归一化处理、比较和调整步骤,直到得到的检测结果的精确率和查全率满足要求,即得到训练好的图卷积神经网络。
[0045]
进一步地,利用sigmoid函数对每个账户的特征融合矩阵进行归一化处理,得到(0,1)间的映射值。
[0046]
基于同一发明构思,本发明还提供一种交网络中恶意账户检测设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行如上所述社交网络中恶意账户检测方法的步骤。
[0047]
基于同一发明构思,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述社交网络中恶意账户检测方法的步骤。
[0048]
有益效果
[0049]
与现有技术相比,本发明的优点在于:
[0050]
本发明所提供的一种社交网络中恶意账户检测方法,采用xgboost算法从众多特征属性中提取对检测恶意账户相对重要的特征,并将该特征(即账户自身特征)与账户间关系(即邻接矩阵)进行融合后再进行检测判断,解决了传统检测方法中特征属性过多以及自身特征与关系特征难以融合导致检测效率低的问题,以及未考虑自身特征与账户间关联导致考虑不全面的问题;本发明仅提取相对重要的特征,并充分全面挖掘账户自身特征与账户间的关联,更贴近实际应用情况,提高了恶意账户检测精确率和检测效率。
附图说明
[0051]
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0052]
图1是本发明实施例中社交网络中恶意账户检测方法流程图;
[0053]
图2是本发明实施例中xgboot与前后端图卷积层之间的关系图。
具体实施方式
[0054]
下面结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的
实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055]
下面以具体地实施例对本技术的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0056]
实施例一
[0057]
如图1所示,本实施例所提供的一种社交网络中恶意账户检测方法,包括以下步骤:
[0058]
步骤1:数据预处理
[0059]
获取多条账户行为记录数据,对每条账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组,得到分组处理后的数据。
[0060]
如表1所示的账户行为记录数据,每条账户行为记录数据包括账户ip号、ip号地址、邮箱前缀、邮箱提供者、行为时间、资源目录等等项。如果单条账户行为记录数据的缺失值大于95%,则该条数据对恶意账户检测意义较小,因此删除对恶意账户检测无意义或意义较小的数据,一方面降低了处理数据条数,提高了检测效率,另一方面避免了无意义数据影响检测结果,提高了检测精确率。
[0061]
表1单条账户行为记录数据
[0062][0063]
后续将采用特征提取算法从剩余的账户行为记录数据中提取出账户的自身特征,因此需要将每条账户行为记录数据转换成特征提取算法可识别的数据类型。本实施例中,特征提取算法采用xgboost算法,因此需将每条账户行为记录数据转换成xgboost算法可识别的数据类型,具体转换过程为:
[0064]
对账户行为记录数据中的每项进行分段拼接、数字特征提取或编码处理,使每项均转换成数字类型。
[0065]
示例性的,如表2所示,对账户ip号(119.28.62.29)进行分段、拼接处理,使账户ip号转换成数字类型。
[0066]
表2账户ip号分段拼接处理
[0067]
原ipip_1ip_2ip_3ip_4ip_12ip_123119.28.62.29119.028.062.029.0119028.0119028062.0
[0068]
示例性的,如表3所示,对time_stamp提取事件发生前两个小时,使time_stamp转换成数字类型。其中,原时间10/1218:49:51代表10月12日18点49分51秒,1218代表12日18时,1217代表12日17时即事件发生前一小时,1216代表12日16时即事件发生前两小时。
[0069]
表3time_stamp数字特征提取
[0070]
time_stamptime_stamp_daytime_stamp_hourtime_stamp_hour1time_stamp_hour210/12 18:49:5112121812171216
[0071]
示例性的,对ip_city/mobile_city进行编码处理,用编码代表城市名,例如如果hongkong为1,则ip_city=1。
[0072]
恶意账户行为在时间上有聚集性,按照时间维度对剩余的多条账户行为记录数据进行分组能够更好的提取账户自身特征。本实施例中,以一小时为单位,将一小时内的多条账户行为记录数据分为一组。
[0073]
步骤2:特征提取
[0074]
采用特征提取算法对分组处理后的数据进行特征提取,得到所有账户的自身特征。本实施例中,特征提取算法采用xgboost算法。xgboost算法使用正则化学习和缓存感知的块状结构树进行集合空间的学习,如图2所示,采用xgboost算法进行特征提取的具体实现过程为:
[0075]
生成k棵cart决策树;
[0076]
对k棵cart决策树进行加总,将包含m个特征、容量为n的数据集记为d={(xi,yi)(|d|=n,xi∈rm,yi∈r)},cart决策树的模型函数表示为:
[0077][0078]
其中,f(x)是其中一棵回归树,f={f(x)=w
q(x)
}(q:rm→
t,w∈r
t
)为回归树的集合空间,w
q(x)
为叶子节点q的分数;
[0079]
使用正则化学习和缓存感知的块状结构树进行集合空间的学习,具体实现过程为:通过迭代的二阶泰勒序列提取特征:
[0080][0081]
其中,l
(t)
为第t次迭代时的损失函数,l为可微的凸损失函数,是第i个实例在第t-1次迭代时的预测值,f
t
是一个t层梯度提升决策树,gi和hi表示损失函数的一阶和二阶梯度,ω(f
t
)为正则化项;
[0082]
使用增益来确定最佳分割节点:
[0083][0084]
其中,i
l
和ir分别代表分割后左、右节点的样本;i=i
l
∪ir,λ,γ为惩罚参数;增益gain表示树的每个分裂的增益分数,最终的特征重要性分数是由平均增益计算的,平均增益是所有树的总增益除以每个特征的总分裂数。xgboost的特征重要性分数越高,相应的特征就越重要和有效;提升树的数量和最大深度被设置为参数,损失函数为二进制:logistic,其他使用默认参数。采用xgboost算法进行特征提取的具体实现过程可参考multi-layer resnet-densenet architecture in consort with the xgboost classifier for intracranial hemorrhage(ich)subtype detection and classification.(journal of intelligent and fuzzy systems).
[0085]
xgboost算法的特征提取过程就是训练过程,xgboost算法训练完成时,特征也被
提取出来,平均增益大的特征就是提取出的特征。
[0086]
步骤3:特征矩阵的生成
[0087]
步骤2得到所有账户的自身特征,将同一账户的自身特征进行组合即得到该账户的特征矩阵。
[0088]
步骤4:邻接矩阵的获取
[0089]
设邻接矩阵为a,则邻接矩阵a的具体表达式为:
[0090][0091]
其中,n为账户数量;当账户i与账户j之间有交互时,a
ij
=1,否则a
ij
=0,且当i=j时,a
ij
=0。
[0092]
步骤5:特征融合
[0093]
本实施例中,采用训练好的图卷积神经网络对每个账户的特征矩阵x与邻接矩阵a进行特征融合,得到对应账户的特征融合矩阵,特征融合具体公式为:
[0094]
x'=σ(d-1/2
ad-1/2
xw
(l)
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0095]
其中,x'为特征融合矩阵;a为具有自我连接的邻接矩阵;d为对角矩阵,对角矩阵d中的每个元素d
ii
表示节点的度;σ()为激活函数;w
(l)
为图卷积神经网络第l层的训练参数;x为账户的特征矩阵。
[0096]
将每个账户的特征矩阵x与邻接矩阵a输入至训练好的图卷积神经网络即可得到对应的特征融合矩阵。本实施例中,图卷积神经网络的具体训练过程为:
[0097]
步骤5.1:将每个账户的特征矩阵和邻接矩阵输入到图卷积神经网络中,输出特征融合矩阵(参见式(1));
[0098]
步骤5.2:利用sigmoid函数对所述特征融合矩阵进行归一化处理,得到(0,1)间的归一化值;
[0099]
步骤5.3:对所述归一化值和随机设置的阈值进行比较,得到账户的检测结果;
[0100]
步骤5.4:根据所述检测结果的精确率和查全率对所述阈值和图卷积神经网络的训练参数进行调整;
[0101]
步骤5.5:重复步骤5.1~5.4,直到得到的检测结果满足精确率和查全率,即得到训练好的图卷积神经网络。
[0102]
阈值是由随机函数随机生成的,满足精确率和查全率的检测结果所对应的阈值即为最优阈值,将最优阈值作为步骤6中的预设阈值,同时保存满足精确率和查全率的检测结果所对应图卷积神经网络的训练参数,即得到训练好的图卷积神经网络。
[0103]
精确率(precision)和查全率(recall)的计算方式如下:
[0104]
[0105][0106]
其中:tp为正确判断为恶意账户的数目;fn为把恶意账户识别为非恶意账户的数目;fp为把非恶意账户识别为恶意账户的数目;tn正确判断为非恶意账户的数目。
[0107]
步骤6:归一化处理
[0108]
利用sigmoid函数对每个账户的特征融合矩阵进行归一化处理,得到(0,1)间的映射值。归一化处理的目的是便于将特征融合矩阵与预设阈值进行比较判断。
[0109]
步骤7:对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。
[0110]
实施例二
[0111]
以某知名代表性社交网站的用户行为数据集为例来说明本发明检测方法的有效性。由多条账户行为记录数据构成的数据集是由国内某知名人工智能技术公司提供的非公开数据集,该公司为金融机构提供智能风险控制和监管。本实施例数据集由138万用户的538万条行为记录数据组成。
[0112]
对数据集中的每条行为记录数据进行预处理,并使用xgboost算法来获得特征的重要性。在训练过程中,使用70%的标记样本数据作为训练集,其余30%的标记数据作为测试集。在建立树模型时,算法的参数需要定义具体数值,将树的数量定义为估计值,树的深度设置为4。
[0113]
表4列出了不同参数对应的精确率和特征重要性(前5个特征)的排名结果。
[0114]
表4不同参数对应的精确率和特征重要性的排名结果
[0115][0116]
从表4可以看出,当树的数量为n=30时,精确率是最高的。对17个特征(即表1中列举的行为记录数据的17项)进行了编号,选定的特征用数字表示。同时,将xgboost算法与其他几种常用的特征选择(fs)方法进行比较。如表5所示的其他fs算法得到的特征重要性排名(前5名)。
[0117]
表5其他fs算法得到的特征重要性排名
[0118]
算法特征gini权重3,5,7,8,15chi-square权重3,5,7,9,15分层变量聚类1,3,6,9,13相关性权重3,5,8,12,16信息量权重3,5,7,8,16
[0119]
从表4和5可以看出,有些特征出现在多个特征选择算法的结果中,这些特征将被用于下部分关于检测社交网络中恶意账户检测方法的对比实验。
[0120]
为了验证基于xgboost的图卷积神经网络算法在社交网络中检测恶意账户的有效性,在服务器下运行来实现本发明方法(配置:xeon 4核cpu 8g内存os:centos7.2.6网络带宽200mbps),使用开源的deepwalk(参见c.yang and z.liu,comprehend deepwalk as matrix factorization,computer science,2015)、matapath2vec(参见y.dong,n.v.chawla,and a.swami,metapath2vec:scalable representation learning for heterogeneous networks,in proceedings of the 23rd acm sigkdd international conference on knowledge discovery and data mining,2017,pp.135-144.)和graph convolution neural networks(gcn)算法随机选择特征的java实现,以比较本发明方法各方面性能。同时,将xgboost算法与其他几种常用的特征选择fs(feature selection)方法进行了比较。
[0121]
实验分析:将利用各种fs算法选择的重要特征与本发明xgboost算法提取的特征相比较,每个fs算法都会筛选出前五个特征,如表5所示,并计算各fs算法的精确率,如表6所示。
[0122]
表6各fs算法的精确率
[0123]
算法精确率gini权重0.6875chi-square权重0.5774分层变量聚类0.6487相关性权重0.4298信息量权重0.6099xgb-gcn0.7584
[0124]
从表6中可以看出,通过xgboost算法获得的重要特征在后续图卷积神经网络gcn中更为突出。与其他机器学习算法相比,如表7所示,随机gcn模型(randomgcn)取得了比deepwalk更好的性能,因为随机gcn模型不仅考虑了图的结构,而且还处理了节点的特征。metapath2vec比deepwalk和随机gcn要好,这是因为在恶意账户检测的实例中,隐藏在不同关系中的信息比账户本身包含的信息更重要。本发明xgb-gcn方法优于所有比较的方法,因为它可以联合处理节点特征和节点关系信息。
[0125]
表7本发明算法与其他算法的比较
[0126][0127][0128]
本发明提出基于xgboost的gcn模型来检测社交网络中活跃的恶意账户,使用xgboost算法来过滤特征,从而达到降维的目的;同时,使用gcn模型来检测恶意账户,gcn模型不仅考虑账户之间的联系,还考虑账户本身的特征。在实验中,本发明xgb-gcn模型可以达到比其他算法更高的精确性,同时大大减少了训练时间,特别是在特征选择和检测部分。因此,事实证明,本发明方法可实际应用于社交网络中主动恶意账户检测。
[0129]
以上所揭露的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或变型,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种社交网络中恶意账户检测方法,其特征在于,包括以下步骤:获取多条账户行为记录数据,对每条所述账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组;对分组处理后的数据进行特征提取,得到各账户的自身特征;将同一账户的自身特征进行组合,生成该账户的特征矩阵;基于账户与账户之间的交互关系得到邻接矩阵;对每个账户的所述特征矩阵与所述邻接矩阵进行特征融合,得到对应账户的特征融合矩阵;对每个账户的特征融合矩阵进行归一化处理;对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。2.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,所述预处理的具体实现过程为:将缺失值大于95%的账户行为记录数据删除,并将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型。3.根据权利要求2所述的社交网络中恶意账户检测方法,其特征在于,所述将剩余的账户行为记录数据转换成特征提取算法可识别的数据类型的具体实现过程为:对所述账户行为记录数据中的每项进行分段拼接、数字特征提取或编码处理,使每项均转换成数字类型。4.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,采用xgboost算法对分组处理后的数据进行特征提取。5.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,所述邻接矩阵的具体表达式为:其中,a为具有自我连接的邻接矩阵,n为账户数量;当账户i与账户j之间有交互时,a
ij
=1,否则a
ij
=0,且当i=j时,a
ij
=0。6.根据权利要求1~5中任一项所述的社交网络中恶意账户检测方法,其特征在于,利用训练好的图卷积神经网络对每个账户的特征矩阵与所述邻接矩阵进行特征融合,特征融合具体公式为:x'=σ(d-1/2
ad-1/2
xw
(l)
)其中,x'为特征融合矩阵;a为具有自我连接的邻接矩阵;d为对角矩阵,对角矩阵d中的每个元素d
ii
表示节点的度;σ()为激活函数;w
(l)
为图卷积神经网络第l层的训练参数;x为账户的特征矩阵。
7.根据权利要求6所述的社交网络中恶意账户检测方法,其特征在于,所述图卷积神经网络的具体训练过程为:将每个账户的特征矩阵和邻接矩阵输入到图卷积神经网络中,输出特征融合矩阵;对所述特征融合矩阵进行归一化处理,得到归一化值;对所述归一化值和随机设置的阈值进行比较,得到账户的检测结果;当检测结果的精确率和查全率不满足要求时,根据所述检测结果的精确率和查全率对所述阈值和图卷积神经网络的训练参数进行调整;重复上述输入、归一化处理、比较和调整步骤,直到得到的检测结果的精确率和查全率满足要求,即得到训练好的图卷积神经网络。8.根据权利要求1所述的社交网络中恶意账户检测方法,其特征在于,利用sigmoid函数对每个账户的特征融合矩阵进行归一化处理,得到(0,1)间的映射值。9.一种交网络中恶意账户检测设备,其特征在于,所述设备包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行如权利要求1~8中任一项所述社交网络中恶意账户检测方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1~8中任一项所述社交网络中恶意账户检测方法的步骤。

技术总结
本发明公开了一种社交网络中恶意账户检测方法、设备及存储介质,所述方法包括获取多条账户行为记录数据,对每条账户行为记录数据进行预处理,并根据时间维度对所有预处理后的账户行为记录数据进行分组;对分组处理后的数据进行特征提取,得到各账户的自身特征;将同一账户的自身特征进行组合,生成该账户的特征矩阵;基于账户与账户之间的交互关系得到邻接矩阵;对每个账户的特征矩阵与邻接矩阵进行特征融合,得到对应账户的特征融合矩阵;对每个账户的特征融合矩阵进行归一化处理;对每个账户归一化处理后的值与预设阈值进行比较,得到该账户的检测结果。本发明解决了特征属性过多以及自身特征与关系特征难以融合导致检测效率低的问题。率低的问题。率低的问题。


技术研发人员:张大方 汤玉婷
受保护的技术使用者:湖南大学
技术研发日:2023.04.10
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐