一种钓鱼网站检测方法、系统、设备及介质与流程

未命名 08-15 阅读:163 评论:0


1.本发明涉及计算机网络安全领域,特别是涉及一种钓鱼网站检测方法、系统、设备及介质。


背景技术:

2.随着互联网技术的蓬勃发展,网络安全问题层出不穷。违规网站是一种典型的在线欺诈行为,包括网络钓鱼、色情赌博、恶意软件传播等。其中,钓鱼网站以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗的用户会产生不同程度的个人信息泄漏,继而导致经济损失。如何快速准确的检测钓鱼网站的统一资源定位符(uniform resource locator,url)是网络安全研究热点。目前,现有的钓鱼网站检测技术主要包括:
3.(1)基于黑白名单机制的检测技术:作为一种实用的核心技术,黑白名单具有高效准确的优点。通过对域名的判定,可以快速定位钓鱼网站,是最常用的实现技术之一。
4.(2)基于贝叶斯算法的检测技术:金庆等人基于规则的贝叶斯算法,制定了一系列的匹配钓鱼网站的规则。随后为每个规则分配其相应的权值,计算其修正系数,得出被测网站是钓鱼网站的概率。进而可通过概率阈值判断其是否为钓鱼网站。
5.(3)基于文档结构的检测技术:郭敏哲等人分析了web网页文档对象,提取文本对象模型中的常被钓鱼者利用的网络钓鱼敏感信息特征,来判断该网站是否为钓鱼网站。该算法有效地滤除了网站中的网络钓鱼(phishing)页面,强有力地制止了网络钓鱼者的恶意钩鱼攻击。
6.(4)基于深度学习的钓鱼网站检测技术:许珑于结合深度学习的技术,提出了多层结构的dbn-knn模型,将其运用到钓鱼网站的特征识别中,识别出钓鱼网站。
7.在上述现有的钓鱼网站检测技术中,基于黑白名单的检测方法不仅时效性较差,而且名单范围也存在不足,准确性低;基于贝叶斯算法的检测技术在稳定性和泛化性能上不是很理想;基于文档结构的检测技术存在特征覆盖不全面的问题,漏报较多,准确性差;基于深度学习的钓鱼网站检测技术在特征识别上有优势,但特征的稳定性较差,容易受到样本污染的干扰。因此,如何实时、准确、稳定地实现钓鱼网站检测成为目前亟待解决的问题。


技术实现要素:

8.基于此,本发明实施例提供一种钓鱼网站检测方法、系统、设备及介质,以实时、准确、稳定地实现钓鱼网站的检测。
9.为实现上述目的,本发明实施例提供了如下方案:
10.一种钓鱼网站检测方法,包括:
11.基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权
重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;
12.基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;
13.基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;
14.将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;
15.将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;
16.计算所述目标向量和所述白名单向量的视觉距离;
17.根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。
18.可选地,所述视觉距离的计算公式为:
[0019][0020]
其中,m(v,u)表示目标向量和白名单向量的视觉距离;v表示目标向量;u表示白名单向量。
[0021]
可选地,根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站,具体包括:
[0022]
判断所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离是否存在处于相应的阈值范围的情况;
[0023]
若是,则确定所述目标网站为钓鱼网站,否则,所述目标网站为正常网站。
[0024]
可选地,所述字符串操作,包括:插入字符和删除字符。
[0025]
可选地,所述白名单二值图片和所述目标二值图片的像素均为16*16或32*32。
[0026]
本发明还提供了一种钓鱼网站检测系统,包括:
[0027]
字符串视觉特征测量器,用于:
[0028]
基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;
[0029]
基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;
[0030]
基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;
[0031]
字符相似距离测量器,用于:
[0032]
将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;
[0033]
将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;
[0034]
计算所述目标向量和所述白名单向量的视觉距离;
[0035]
钓鱼网站检测器,用于:
[0036]
根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。
[0037]
本发明还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的钓鱼网站检测方法。
[0038]
本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的钓鱼网站检测方法。
[0039]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0040]
本发明实施例提出了一种钓鱼网站检测方法、系统、设备及介质,基于视觉特征实现钓鱼网站的统一资源定位符的检测,能对钓鱼网站进行实时检测,具有较高的准确性、召回率和鲁棒性,并可以实用于在线的工程系统中,有较高的可用性和稳定性。因此,本发明实施例能实时、准确、稳定地实现钓鱼网站的检测。
附图说明
[0041]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0042]
图1为本发明实施例提供的钓鱼网站检测方法的流程图;
[0043]
图2为将字符转换为黑白二值图片的示意图;
[0044]
图3为本发明实施例提供的钓鱼网站检测系统的结构图;
[0045]
图4为本发明实施例提供的钓鱼网站检测系统的部署图。
具体实施方式
[0046]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实
施方式对本发明作进一步详细的说明。
[0048]
实施例一
[0049]
参见图1,本实施例的钓鱼网站检测方法,包括:
[0050]
步骤101:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重。
[0051]
其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符。
[0052]
步骤102:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重。
[0053]
其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大。
[0054]
步骤103:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重。
[0055]
其中,不同的字符串操作对应不同的操作相似度权重。所述字符串操作,包括:插入字符和删除字符。
[0056]
步骤104:将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片。
[0057]
其中,所述白名单二值图片和所述目标二值图片的像素均为16*16或32*32。
[0058]
步骤105:将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量。
[0059]
步骤106:计算所述目标向量和所述白名单向量的视觉距离。所述视觉距离的计算公式为:
[0060][0061]
其中,m(v,u)表示目标向量和白名单向量的视觉距离;v表示目标向量;u表示白名单向量。两个向量越相似,视觉距离越趋近于0。
[0062]
步骤107:根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。具体的:
[0063]
判断所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离是否存在处于相应的阈值范围的情况。
[0064]
若是,则确定所述目标网站为钓鱼网站,否则,所述目标网站为正常网站。
[0065]
本实施例的钓鱼网站检测方法,是基于视觉特征的钓鱼网站url检测方法,能对钓鱼网站的url进行实时检测,具有较高的准确性、召回率和鲁棒性;能够处理海量url的高性能实时检测;可以实用于在线的工程系统中,有较高的可用性和稳定性。
[0066]
在实际应用中,上述实施例的钓鱼网站检测方法的一个具体实现过程如下。
[0067]
(1)对目标网站的url的字符串进行字符位置的测量和权重标注。从人类视觉的角度考虑字符串之间的距离,url中的字符位置,在域名位置的权重和路径位置的权重是不相同的,不同的字符位置对人视觉的影响不同,应对不同位置的字符赋予不同的权重。如“icbc.com.cn”与“icdc.com.cn”中b和d的差异都在域名中,相似度的权重和“icbc.com.cn/regedit.asp”与“icbc.com.cn/regedic.asp”中t和c的权重应该是不一样的。
[0068]
(2)对目标网站的url的字符串的相似度进行测量和权重标注。在传统的字符的编辑距离基础上,根据人类视觉的错误相似度,对不同的字符赋予不同的权重。如小写字母“l”和数字1之间的视觉效果基本一致。
[0069]
(3)对目标网站的url的字符串操作进行分类和权重标注。对于插入和删除某些字符的前后词组合,要赋予不同的权重。如“china.net”和“chna.net”之间的删除字符“i”对两个域名的区分度要比“microsoft.com”和“micrsoft.com”中删除“o”要小。
[0070]
(4)将目标网站和白名单网站的url字符均转换为黑白二值图片,得到目标二值图片和白名单二值图片。目标二值图片和白名单二值图片的像素为16*16或者32*32。二值图片是0-1矩阵,图2示出了数字0对应的黑白二值图片。
[0071]
(5)将目标二值图片和白名单二值图片均转换为一维向量,得到目标向量v=[0,0,...,0,1,1,...,0,0]和白名单向量u=[0,0,...,1,1,1,...,0,0]。
[0072]
(6)计算两个向量直接的视觉距离,目标向量v和白名单向量u的视觉距离定义为:
[0073][0074]
基于视觉距离m(v,u)获取目标网站是否为钓鱼网站。
[0075]
实施例二
[0076]
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种钓鱼网站检测系统。
[0077]
参见图3,所述系统,包括:字符串视觉特征测量器301、字符相似距离测量器302和钓鱼网站检测器303。
[0078]
字符串视觉特征测量器301,用于:
[0079]
基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符。
[0080]
基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大。
[0081]
基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重。
[0082]
字符相似距离测量器302,用于:
[0083]
将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片。
[0084]
将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量。
[0085]
计算所述目标向量和所述白名单向量的视觉距离。
[0086]
钓鱼网站检测器303,用于:
[0087]
根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。
[0088]
实施例三
[0089]
本实施例为实现对上述实施例二的钓鱼网站检测系统的部署,部署图如图4所示。参见图4,url字符信息预处理服务器401完成url信息的预处理,为视觉特征获取提供输入的数据源。视觉特征获取服务器402主要获取位置相似度、视觉相似度、操作相似度等相关的距离值。字符串违规url服务器403包括了字符串视觉特征测量器301、字符相似距离测量器302和钓鱼网站检测器303,实现对目标网站的检测。组网交换机404用于实现url字符信息预处理服务器401、视觉特征获取服务器402以及字符串违规url服务器403之间的网络连接。
[0090]
基于上述部署,钓鱼网站检测系统各部分可实现如下功能。
[0091]
(1)字符串视觉特征测量器301:从人类视觉的角度考虑字符串之间的距离,主要完成功能包括:1)url中字符的位置,字符在url不同位置的权重赋予不同的值,如在域名的部分和路径部分的取值不同;2)字符相似度,分为单字符和具有词素片段的组合字符之间的相似度距离度量;3)字符的插入及删除。在计算字符串的编辑距离时,根据不同的操作,对变化的字符进行权重赋值。
[0092]
(2)字符相似距离测量器302:主要完成功能包括:1)字符到黑白二值图片的转换;2)黑白二值图片转换为一维向量;3)计算两个向量的视觉距离。其中,黑白二值图片的转换,是将字符转换成32*32像素大小的黑白二值图片,将黑白二值图片转换成1*1024的一维向量。在计算两个向量的视觉距离中,采用实施例一中的视觉距离的计算公式计算即可,在此不再赘述。
[0093]
(3)钓鱼网站检测器303:将输入的url字符串进行向量化,计算与白名单网站url字符串进行向量化后向量的视觉距离,视觉距离在阈值范围内的url对应的网站为钓鱼网站url,将检测判断日志通过api接口输出到相关业务系统中。
[0094]
实施例四
[0095]
本实施例提供一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例一的钓鱼网站检测方法。
[0096]
可选地,上述电子设备可以是服务器。
[0097]
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一的钓鱼网站检测方法。
[0098]
上述所有实施例,具有如下优点:
[0099]
(1)采用仅基于url字符串的轻量级检测策略进行钓鱼网站检测,降低了计算和存
储开销,适合应用在大规模url应用环境下的场景检测。
[0100]
(2)提出了url视觉相似度的计算方法。一方面,结合url视觉相似度构建违规url网站检测模型以解决传统编辑距离在违规url网站检测上带来的假阳性问题;另一方面,从视觉角度检测违规url可以很好地处理url视觉模仿的情况。
[0101]
(3)在真实数据集上进行了大量实验,验证了检测效果。
[0102]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0103]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种钓鱼网站检测方法,其特征在于,包括:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;计算所述目标向量和所述白名单向量的视觉距离;根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。2.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述视觉距离的计算公式为:其中,m(v,u)表示目标向量和白名单向量的视觉距离;v表示目标向量;u表示白名单向量。3.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站,具体包括:判断所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离是否存在处于相应的阈值范围的情况;若是,则确定所述目标网站为钓鱼网站,否则,所述目标网站为正常网站。4.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述字符串操作,包括:插入字符和删除字符。5.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述白名单二值图片和所述目标二值图片的像素均为16*16或32*32。6.一种钓鱼网站检测系统,其特征在于,包括:字符串视觉特征测量器,用于:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行
测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;字符相似距离测量器,用于:将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;计算所述目标向量和所述白名单向量的视觉距离;钓鱼网站检测器,用于:根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。7.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至5中任一项所述的钓鱼网站检测方法。8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的钓鱼网站检测方法。

技术总结
本发明公开了一种钓鱼网站检测方法、系统、设备及介质,涉及计算机网络安全领域,所述方法,包括:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置、相似度进行测量和权重标注,得到各字符的位置相似度权重和视觉相似度权重;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到操作相似度权重;将白名单网站、目标网站的统一资源定位符转换为二值图片,得到白名单二值图片和目标二值图片,并将二值图片转换为一维向量;计算所两个向量的视觉距离;根据权重和视觉距离确定目标网站是否为钓鱼网站。本发明能实时、准确、稳定地实现钓鱼网站的检测。稳定地实现钓鱼网站的检测。稳定地实现钓鱼网站的检测。


技术研发人员:薛晨 任彦 易立 陆希玉 窦禹 郑礼雄 王一宇 杨昕雨 叶瑞杰
受保护的技术使用者:北京锐驰信安技术有限公司
技术研发日:2023.05.06
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐