域名类型的确定方法、装置、电子设备及存储介质与流程
未命名
07-14
阅读:93
评论:0
1.本技术实施例涉及计算机技术领域,尤其涉及一种域名类型的确定方法、 装置、电子设备及存储介质。
背景技术:
2.随着移动家庭业务的不断推进,通过对互联网流量中包含的大量请求域名 进行分类,可以满足精细化场景的运营分析需求。常见的域名分类方法是根据 域名指向的网站进行分类,尤其以网站文本内容为主要特征,主要方法有人工 审核、关键词匹配、机器学习技术、深度学习模型等方式。现有的域名分类方 案通常采用网页标题、关键词、描述等内容进行自然语言处理(nlp,naturallanguage processing)文本分类,主要实现过程为:从已标注域名类型标签的网 站中提取文本信息,通过词频统计建立字典,提取特征输入机器学习、深度学 习模型进行训练,模型输出得到的类别即可认为预测域名的分类类别,然而这 些方法不能将隐藏在语料间的基本特征提取出来,且未考虑域名对应的各类型 标签之间的依赖关系,导致对域名的分类的准确率不高。
技术实现要素:
3.为解决上述技术问题,本技术实施例提供了一种域名类型的确定方法、装 置、电子设备及存储介质。
4.本技术实施例提供了一种域名类型的确定方法,所述方法包括:
5.获得多个数据源的域名、与所述域名对应的域名类型标签以及与所述域名 对应的文本内容;
6.基于预设的标签映射关系将所述多个数据源的所述域名对应的域名类型标 签进行融合得到包括至少两个级别的标签分类结构;
7.基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对 待训练的文本分类模型进行训练,得到文本分类模型;
8.将待检测域名对应的文本内容输入至所述文本分类模型,利用所述文本分 类模型输出所述待检测域名的域名类型标签。
9.本技术一可选实施方式中,所述基于所述标签分类结构以及所述多个数据 源的所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分 类模型,包括:
10.基于所述标签分类结构以及交叉熵确定正则化参数,并基于所述正则化参 数确定用于训练所述待训练的文本分类模型的损失函数;所述交叉熵为所述文 本分类模型输出的所述域名对应的文本内容对应的域名类型标签与所述域名对 应的文本内容对应的真实域名类型标签的分布之间的交叉熵;
11.基于所述损失函数以及所述多个数据源的所述域名对应的文本内容对所述 待训练的文本分类模型进行训练,得到所述文本分类模型。
12.本技术一可选实施方式中,所述基于所述标签分类结构以及所述多个数据 源的
所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分 类模型,包括:
13.对所述多个数据源的所述域名对应的文本内容进行分词处理,构建分词信 息表;
14.基于所述分词信息表构建与所述文本内容对应的第一特征序列;所述第一 特征序列包括:所述文本内容的文本分词序列、关键词序列以及长度为n的单 词片段序列;
15.基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对 应的特征序列对待训练的文本分类模型进行训练,得到文本分类模型。
16.本技术一可选实施方式中,所述将待检测域名对应的文本内容输入至所述 文本分类模型,包括:
17.对所述待检测域名对应的文本内容进行分词处理,得到所述待检测域名对 应的文本内容所对应的第二特征序列;所述第二特征序列包括:所述待检测域 名对应的文本内容的文本分词序列、所述待检测域名对应的文本内容的关键词 序列以及所述待检测域名对应的文本内容所对应的长度为n的单词片段序列;
18.将所述第二特征序列输入至所述文本分类模型。
19.本技术一可选实施方式中,所述待检测域名为筛选后的待检测域名,所述 将待检测域名对应的文本内容输入至所述文本分类模型之前,所述方法还包括:
20.对所述待检测域名发起请求,验证是否可获取所述待检测域名对应的网页 文本内容;
21.在能够获取所述待检测域名对应的网页文本内容的情况下,过滤所述待检 测域名中指向无效网页信息的域名,得到筛选后的待检测域名以及与所述待检 测域名对应的文本内容。
22.本技术一可选实施方式中,所述获得多个数据源的域名、与所述域名对应 的域名类型标签以及与所述域名对应的文本内容之后,所述方法还包括:
23.基于获得的多个数据源的域名构建域名信息表;
24.将所述待检测域名与所述域名信息表信息进行匹配,若所述域名信息表中 存在与所述待检测域名匹配的域名,则将与所述待检测域名匹配的域名所对应 的域名类型标签确定为所述待检测域名的域名类型标签。
25.本技术一可选实施方式中,所述获得多个数据源的域名、与所述域名对应 的域名类型标签以及与所述域名对应的文本内容,包括:
26.对于各网站数据源,基于各网站的网页对应的分类信息确定各网站的域名 对应的域名标签类型,基于各网站的网页内容确定各网站的域名对应的文本内 容;
27.对于各应用程序数据源,对使用各应用程序时发起的请求信息进行分析和 过滤,提取所述请求信息中的域名信息,并将各应用程序的类型标签、描述信 息和所述域名信息进行关联。
28.本技术实施例还提供了一种域名类型的确定装置,所述装置包括:
29.获得单元,用于获得多个数据源的域名、与所述域名对应的域名类型标签 以及与所述域名对应的文本内容;
30.融合单元,用于基于预设的标签映射关系将所述多个数据源的所述域名对 应的域名类型标签进行融合得到包括至少两个级别的标签分类结构;
31.训练单元,用于基于所述标签分类结构以及所述多个数据源的所述域名对 应的
文本内容对待训练的文本分类模型进行训练,得到文本分类模型;
32.输出单元,用于将待检测域名对应的文本内容输入至所述文本分类模型, 以利用所述文本分类模型输出所述待检测域名的域名类型标签。
33.本技术一可选实施方式中,所述训练单元,具体用于:基于所述标签分类 结构以及交叉熵确定正则化参数,并基于所述正则化参数确定用于训练所述待 训练的文本分类模型的损失函数;所述交叉熵为所述文本分类模型输出的所述 域名对应的文本内容对应的域名类型标签与所述域名对应的文本内容对应的真 实域名类型标签的分布之间的交叉熵;基于所述损失函数以及所述多个数据源 的所述域名对应的文本内容对所述待训练的文本分类模型进行训练,得到所述 文本分类模型。
34.本技术一可选实施方式中,所述训练单元,具体用于:对所述多个数据源 的所述域名对应的文本内容进行分词处理,构建分词信息表;基于所述分词信 息表构建与所述文本内容对应的第一特征序列;所述第一特征序列包括:所述 文本内容的文本分词序列、关键词序列以及长度为n的单词片段序列;基于所 述标签分类结构以及所述多个数据源的所述域名对应的文本内容对应的特征序 列对待训练的文本分类模型进行训练,得到文本分类模型。
35.本技术一可选实施方式中,所述输出单元,具体用于:对所述待检测域名 对应的文本内容进行分词处理,得到所述待检测域名对应的文本内容所对应的 第二特征序列;所述第二特征序列包括:所述待检测域名对应的文本内容的文 本分词序列、所述待检测域名对应的文本内容的关键词序列以及所述待检测域 名对应的文本内容所对应的长度为n的单词片段序列;将所述第二特征序列输 入至所述文本分类模型。
36.本技术一可选实施方式中,所述输出单元基于待检测域名为筛选后的待检 测域名,所述将待检测域名对应的文本内容输入至所述文本分类模型之前,所 述装置还包括:
37.验证单元,用于对所述待检测域名发起请求,验证是否可获取所述待检测 域名对应的网页文本内容;在能够获取所述待检测域名对应的网页文本内容的 情况下,过滤所述待检测域名中指向无效网页信息的域名,得到筛选后的待检 测域名以及与所述待检测域名对应的文本内容。
38.本技术一可选实施方式中,所述获得单元获得多个数据源的域名、与所述 域名对应的域名类型标签以及与所述域名对应的文本内容之后,所述装置还包 括:
39.构建单元,用于基于获得的多个数据源的域名构建域名信息表;将所述待 检测域名与所述域名信息表信息进行匹配,若所述域名信息表中存在与所述待 检测域名匹配的域名,则将与所述待检测域名匹配的域名所对应的域名类型标 签确定为所述待检测域名的域名类型标签。
40.本技术一可选实施方式中,所述获得单元,具体用于:对于各网站数据源, 基于各网站的网页对应的分类信息确定各网站的域名对应的域名标签类型,基 于各网站的网页内容确定各网站的域名对应的文本内容;对于各应用程序数据 源,对使用各应用程序时发起的请求信息进行分析和过滤,提取所述请求信息 中的域名信息,并将各应用程序的类型标签、描述信息和所述域名信息进行关 联。
41.本技术实施例还提供了一种电子设备,所述电子设备包括:存储器和处理 器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的 计算机可执行指
令时可实现上述实施例所述的方法。
42.本技术实施例还提供了一种计算机存储介质,所述存储介质上存储有可执 行指令,该可执行指令被处理器执行时实现上述实施例所述的方法。
43.本技术实施例的技术方案,通过获得多个数据源的域名、与所述域名对应 的域名类型标签以及与所述域名对应的文本内容;基于预设的标签映射关系将 所述多个数据源的所述域名对应的域名类型标签进行融合得到包括至少两个级 别的标签分类结构;基于所述标签分类结构以及所述多个数据源的所述域名对 应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型;将待检 测域名对应的文本内容输入至所述文本分类模型,利用所述文本分类模型输出 所述待检测域名的域名类型标签。如此,能够通过为多个数据源的域名类型标 签建立多级标签分类结构,并在训练文本分类模型时引入该标签分类结构,使 得利用文本分类模型对待检测域名的类型进行预测时,充分考虑各标签之间的 依赖关系,可以有效地利用域名类型标签之间的层次依赖关系,提升对域名的 分类效果。
附图说明
44.图1为本技术实施例提供的域名类型的确定方法的流程示意图;
45.图2为本技术实施例提供的数据源的数据处理方式示意图;
46.图3为本技术实施例提供的域名类型的确定过程的数据处理过程示意图;
47.图4为本技术实施例提供的域名类型的确定装置的结构组成示意图;
48.图5为本技术实施例提供的电子设备的结构组成示意图。
具体实施方式
49.为了能够更加详尽地了解本技术实施例的特点与技术内容,下面结合附图 对本技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来 限定本技术实施例。
50.目前的域名分类方法主要是采用对域名对应的网站标题、关键词、描述信 息等内容进行文本分类的方式来实现,主要实现过程为:首先从网站中提取文 本信息,然后利用关键词匹配、机器学习、神经网络的等方式对网站文本进行 标签分类,最终得到的标签类别即可认为网站域名的分类类别。以下对几种域 名分类方法介绍如下。
51.在第一种方案中,首先通过建立统一资源定位器(url,uniform resourcelocator)清洗的知识库,通过清洗推理机过滤掉不是访问者最终浏览到内容, 即“垃圾”。然后,根据url分类知识库和代表词分类知识库、以及相关推理 机,将移动互联网访问的“有效”的内容进行分类,包括对url清洗、url 内容分类和代表词内容分类三大知识库的更新。
52.在第二种方案中,可以爬取待分类的互联网网站的网站内容;根据互联网 网站所属的应用领域,构建应用领域匹配的原始词典:中文分词词典和停止词 词典;根据综合词典,训练原始词典对应的关键词库,并根据关键词库优化原 始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,关键词库包 括多个网站内容的类别关键词且多个类别关键词均按照其在各个类别中的权重 值从大到小的顺序排列设置;根据优化关键词库中的类别关键词对待分类的互 联网网站的网站内容进行计算,得到互联网网站的类别;该方
案可以降低业务 分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进 行分类,提高了分类精度。
53.上述第一种方案中,在获取待分类文本页面特征向量和知识库中的词特征 向量的基础上,通过计算向量距离作为相似度来确定分类的方法;上述第二中 方案中,根据互联网网站所属的应用领域,构建相应的关键词词典,并直接通 过匹配关键词的方法对待分类网站内容进行计算,得到其类别;上述两种方案 不能将隐藏在语料间的基本特征提取出来,导致对域名分类的准确率不高。
54.在第三种方案中,可以构建网站数据训练集;提取训练集中的类别关键字; 基于关键字,将网站数据训练集的文本数值化;构建网站主题分类框架模型; 用网站数据训练集的数值化文本对网站主题分类框架模型进行训练,形成可自 主分类的网站主题分类模型,实现网站主题的自动化分类。
55.该方案通过构建基于textcnn算法的网站分类模型,将网站信息文本的数 值向量输入模型进行分类。该方法根据所选取的网站训练数据集包含的所述标 签信息,对网站数据通过人工标记的手段标记分类类型,然而忽略了类型标签 之间可能存在相互依赖的关系,也不能解决数据稀疏性的问题。
56.总的来说,以上三种方案均是通过网站文本内容来进行分类预测,实际上, 互联网中的大量域名无法通过网页形式访问得到其文本信息,或是对应网站内 容为无用的信息(如服务器默认页、报错页面等),无法直接进行分类。并且, 各种不同来源的域名数量庞大,也带来了丰富的类型标签,并且各类型标签之 间往往也存在着依赖关系,常见的二分类和多分类方法不能很好的利用这些依 赖信息。另外,部分标签存在数据稀疏性的问题,其对应的正样本数量较小, 训练分类模型时可能发生过拟合而导致分类效果不佳。
57.本技术实施例的技术方案可以提供一种基于递归正则化的域名多级标签分 类方法。其中,域名类型标签数据来自于网站分类、应用程序分类等多个来源, 不同来源域名类型标签之间进行融合,并通过映射形成多级分类结构,可以较 好地组织和展现多层次细粒度的非结构化域名类型标签数据。构建域名类型标 签-文本内容(标题、关键词、描述信息等)作为训练数据,并在神经网络文本 分类模型中加入递归正则化参数,可以有效地利用域名类型标签之间的层次依 赖关系,提升对域名的分类效果。
58.图1为本技术实施例提供的域名类型的确定方法的流程示意图,如图1所 示,本技术实施例提供的域名类型的确定方法包括如下步骤:
59.步骤101:获得多个数据源的域名、与所述域名对应的域名类型标签以及 与所述域名对应的文本内容。
60.本技术实施例中,步骤101通过对数据的收集和预处理操作来实现,其中, 数据源包括网站数据源和应用程序数据源。下面,结合图2所示的数据源的数 据处理方式示意图来说明本技术实施例的数据收集和预处理过程。
61.本技术一可选实施方式中,上述步骤101可具体通过如下步骤实现:
62.对于各网站数据源,基于各网站的网页对应的分类信息确定各网站的域名 对应的域名标签类型,基于各网站的网页内容确定各网站的域名对应的文本内 容;
63.对于各应用程序数据源,对使用各应用程序时发起的请求信息进行分析和 过滤,提取所述请求信息中的域名信息,并将各应用程序的类型标签、描述信 息和所述域名信息
进行关联。
64.具体的,如图2所示的步骤
①
,可以基于各大门户导航网站、行业分类排 行网站以及其他公开数据源,获取各网站对应的域名、域名类型标签以及文本 内容(标题、关键词、描述等),作为主流网站数据来源。
65.如图2所示的步骤
②
,基于主流应用app(即应用程序)日常使用时发起的 http请求,通过人工和自动化脚本方式进行流量分析,通过设计规则过滤干扰 信息,并提取有效域名,最后将应用app的域名类型标签、描述信息与域名相 关联,作为主流app数据来源。
66.本技术实施例中,如图2所示的步骤
③
,对主流网站数据来源和主流app 数据来源的域名、域名标签类型、文本信息进行处理,可以构建训练数据表。
67.本技术一可选实施方式中,在执行上述步骤101之后,还可以具体执行如 下步骤:
68.基于获得的多个数据源的域名构建域名信息表;
69.将所述待检测域名与所述域名信息表信息进行匹配,若所述域名信息表中 存在与所述待检测域名匹配的域名,则将与所述待检测域名匹配的域名所对应 的域名类型标签确定为所述待检测域名的域名类型标签。
70.本技术实施例中,基于图2所示的步骤
③
获得的多个域名信息,通过步骤
ꢀ④
可以将域名信息涉及的域名后缀、域名级别、归属顶级域名、归属应用/网 站储存为域名信息表。
71.在判断待检测域名的域名类型时,如图3中的步骤
⑧
,将待检测域名样本 直接匹配域名信息表,可以设定匹配级别阈值(完全匹配、匹配二级域名、匹 配三级域名等)来决定域名是否匹配成功;若域名匹配成功,则使用归属的网 站/应用对应的分类标签信息作为域名的分类标签输出;若域名匹配失败,则进 行图3中的步骤
⑨
。
72.步骤102:基于预设的标签映射关系将所述多个数据源的所述域名对应的 域名类型标签进行融合得到包括至少两个级别的标签分类结构。
73.具体的,如图2中的步骤
⑤
,将多个数据来源的域名类型标签进行融合, 通过设计的标签映射关系,具体为:父标签指向0或多个子标签,子标签可以 从属于1或多个父标签,形成不少于2个级别的多级分类结构,将得到的标签 分类结构储存为标签信息表。
74.本技术实施例中,除域名信息表和标签信息表外,如图2中的步骤
⑦
,还 可以整合各应用/网站对应的基础信息,并保存对应的域名类型标签,构建产品 信息表。
75.步骤103:基于所述标签分类结构以及所述多个数据源的所述域名对应的 文本内容对待训练的文本分类模型进行训练,得到文本分类模型。
76.本技术实施例中,文本分类模型用于对待检测域名进行分类,在训练文本 分类模型时,引入标签分类结构,相当于引入了域名类型标签之间的依赖关系, 提升了模型对待检测域名进行分类的准确性。
77.本技术一可选实施方式中,上述步骤103具体可通过如下步骤实现:
78.对所述多个数据源的所述域名对应的文本内容进行分词处理,构建分词信 息表;
79.基于所述分词信息表构建与所述文本内容对应的第一特征序列;所述第一 特征序列包括:所述文本内容的文本分词序列、关键词序列以及长度为n的单 词片段序列;
80.基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对 应的特征序列对待训练的文本分类模型进行训练,得到文本分类模型。
81.如图2中的步骤
⑥
,将各类型标签对应的文本内容(标题、关键词、描述 等)通过分词器处理,构建分词信息表,具体包括:词频统计表、word-ngrams 表(长度为n的单词片段序列,示例性的,可以取2-gram)以及关键词表(复 用已有关键词字段或统计词频提取)。
82.在得到分析信息表后,基于图3中的步骤
①
,根据分词信息表构建各域名 网页内容对应的文本分词序列、关键词序列以及word-ngrams序列;
83.基于图3中的步骤
②
,将得到的文本分词序列、关键词序列以及word-ngrams 序列等特征序列输入文本分类模型;
84.这里,如图3中的步骤
③
,文本分类模型基于神经网络,输入的特征序列 将在输入层(input layer)进行处理;在模型的嵌入层(embedding layer),可选 用随机嵌入、区域嵌入等方式,将上一层输入的高维稀疏向量进行降维处理, 输出到编码层(encoder layer)。
85.进一步的,基于图3中的步骤
④
,编码层可采用textcnn、textrnn、 textrcnn等流行的文本编码器,上一层输出的向量通过编码器处理,提取出 关键的特征信息,最后输入到全连接层分类器得到k个输出,对应标签分类结 构中的k个标签;对于一组数量为m的训练样本,计算实际的标签类型值分 布与输出标签类型值分布之间的交叉熵(cross entropy)h。
86.本技术一可选实施方式中,上述步骤103具体可通过如下步骤实现:
87.基于所述标签分类结构以及交叉熵确定正则化参数,并基于所述正则化参 数确定用于训练所述待训练的文本分类模型的损失函数;所述交叉熵为所述文 本分类模型输出的所述域名对应的文本内容对应的域名类型标签与所述域名对 应的文本内容对应的真实域名类型标签的分布之间的交叉熵;
88.基于所述损失函数以及所述多个数据源的所述域名对应的文本内容对所述 待训练的文本分类模型进行训练,得到所述文本分类模型。
89.具体的,如图3中的步骤
⑤
,域名类型标签具有多级结构,引入标签类型 之间的依赖性可以显著提高对域名的分类效果。对于标签分类结构,当叶子节 点的训练实例较少时,可以通过其父节点进行正则化决策。在多级标签分类结 构中,接近的两个标签应该具有相似的模型参数,因此在计算文本分类模型损 失函数(loss)时加入如下具有递归形式的正则化参数:
[0090][0091]
其中,li代表标签分类结构中的类型标签,代表li的子标签,w
l
表示标签 l在全连接层中的权重参数,c为惩罚项参数。
[0092]
进一步的,如图3中的步骤
⑥
,根据损失函数反向传播,更新文本分类模 型的权重参数。通过重复图3中的步骤
②
至
⑥
,不断迭代进行训练,直到loss 小于设定值。
[0093]
本技术实施例,由于域名各类型标签之间存在着依赖关系,常见的二分类 和多分类方法不能很好的利用这些依赖信息;并且,部分域名类型标签存在数 据稀疏性的问题,其对应的正样本数量较小,训练文本分类模型时可能发生过 拟合而导致文本分类模型对待检测域名的分类效果不佳。本技术通过构建包含 多个级别的域名标签分类结构,可以较
好地组织和展现多级标签之间的依赖关 系;通过在损失函数中加入正则化参数,使得多级域名标签分类结构中相邻的 类型标签具有相似的权重参数。本技术通过在文本分类模型中引入标签之间的 依赖关系,能够提升文本分类模型的域名分类效果,同时可以避免由于数据稀 疏性导致的文本分类模型训练过程的过拟合现象。
[0094]
步骤104:将待检测域名对应的文本内容输入至所述文本分类模型,利用所 述文本分类模型输出所述待检测域名的域名类型标签。
[0095]
本技术一可选实施方式中,在执行上述步骤104之前,还可以执行如下步 骤:
[0096]
对所述待检测域名发起请求,验证是否可获取所述待检测域名对应的网页 文本内容;
[0097]
在能够获取所述待检测域名对应的网页文本内容的情况下,过滤所述待检 测域名中指向无效网页信息的域名,得到筛选后的待检测域名以及与所述待检 测域名对应的文本内容。
[0098]
具体的,如图3中的步骤
⑧
,对检测域名样本发起请求,验证是否可获取 网页文本内容(根据请求返回码判断),若成功获取,则进行图3中步骤
⑨
;
[0099]
图3的,图3的步骤
⑨
中,对指向无效信息网页的域名进行过滤(服务器 默认页、报错页面等等,利用关键词过滤、目标检索方法),得到有效的网页文 本内容。
[0100]
本技术一可选实施方式中,上述步骤104具体可通过如下步骤实现:
[0101]
对所述待检测域名对应的文本内容进行分词处理,得到所述待检测域名对 应的文本内容所对应的第二特征序列;所述第二特征序列包括:所述待检测域 名对应的文本内容的文本分词序列、所述待检测域名对应的文本内容的关键词 序列以及所述待检测域名对应的文本内容所对应的长度为n的单词片段序列;
[0102]
将所述第二特征序列输入至所述文本分类模型。
[0103]
具体的,基于图3中的步骤
⑩
,对筛选后的域名预测样本的文本内容进行 分词处理,并根据分词信息表构建该域名网页内容的文本分词序列、关键词序 列、以及word-ngrams序列,将特征序列输入文本分类模型,将模型预测输出 作为域名的分类标签输出。
[0104]
本技术实施例中,由于互联网中的大量域名无法通过网页形式访问得到其 文本信息,或是对应网页内容为无用的信息(服务器默认页、报错页面等等), 无法直接对其分类。本技术实施例可以从多个数据来源特别是应用app获取域 名的标签数据,同时利用关键词过滤、目标检索方法对域名无效信息过滤。通 过分析应用app使用时发起的http请求提取有效域名,将应用app的类型标签、 描述信息与域名相关联,可以将解决许多域名无法通过网页文本内容分类的问 题。
[0105]
本技术实施例的技术方案,通过对来自于网站分类、应用程序分类等多个 来源的域名类型标签数据进行融合,并通过映射形成多级标签分类结构,可以 较好地组织和展现多层次细粒度的非结构化域名类型标签数据,通过构建域名 类型标签-文本内容(标题、关键词、描述信息等)作为训练数据,并在神经网 络文本分类模型中加入递归正则化参数,可以有效地利用域名类型标签之间的 层次依赖关系,提升对域名的分类效果。
[0106]
本技术实施例还提供了一种域名类型的确定装置,图4为本技术实施例提 供的域名类型的确定装置的结构组成示意图,如图4所示,所述装置包括:
[0107]
获得单元401,用于获得多个数据源的域名、与所述域名对应的域名类型 标签以
及与所述域名对应的文本内容;
[0108]
融合单元402,用于基于预设的标签映射关系将所述多个数据源的所述域 名对应的域名类型标签进行融合得到包括至少两个级别的标签分类结构;
[0109]
训练单元403,用于基于所述标签分类结构以及所述多个数据源的所述域 名对应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型;
[0110]
输出单元404,用于将待检测域名对应的文本内容输入至所述文本分类模 型,以利用所述文本分类模型输出所述待检测域名的域名类型标签。
[0111]
本技术一可选实施方式中,所述训练单元403,具体用于:基于所述标签 分类结构以及交叉熵确定正则化参数,并基于所述正则化参数确定用于训练所 述待训练的文本分类模型的损失函数;所述交叉熵为所述文本分类模型输出的 所述域名对应的文本内容对应的域名类型标签与所述域名对应的文本内容对应 的真实域名类型标签的分布之间的交叉熵;基于所述损失函数以及所述多个数 据源的所述域名对应的文本内容对所述待训练的文本分类模型进行训练,得到 所述文本分类模型。
[0112]
本技术一可选实施方式中,所述训练单元403,具体用于:对所述多个数 据源的所述域名对应的文本内容进行分词处理,构建分词信息表;基于所述分 词信息表构建与所述文本内容对应的第一特征序列;所述第一特征序列包括: 所述文本内容的文本分词序列、关键词序列以及长度为n的单词片段序列;基 于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对应的特 征序列对待训练的文本分类模型进行训练,得到文本分类模型。
[0113]
本技术一可选实施方式中,所述输出单元404,具体用于:对所述待检测 域名对应的文本内容进行分词处理,得到所述待检测域名对应的文本内容所对 应的第二特征序列;所述第二特征序列包括:所述待检测域名对应的文本内容 的文本分词序列、所述待检测域名对应的文本内容的关键词序列以及所述待检 测域名对应的文本内容所对应的长度为n的单词片段序列;将所述第二特征序 列输入至所述文本分类模型。
[0114]
本技术一可选实施方式中,所述输出单元404基于待检测域名为筛选后的 待检测域名,所述将待检测域名对应的文本内容输入至所述文本分类模型之前, 所述装置还包括:
[0115]
验证单元405,用于对所述待检测域名发起请求,验证是否可获取所述待 检测域名对应的网页文本内容;在能够获取所述待检测域名对应的网页文本内 容的情况下,过滤所述待检测域名中指向无效网页信息的域名,得到筛选后的 待检测域名以及与所述待检测域名对应的文本内容。
[0116]
本技术一可选实施方式中,所述获得单元401获得多个数据源的域名、与 所述域名对应的域名类型标签以及与所述域名对应的文本内容之后,所述装置 还包括:
[0117]
构建单元406,用于基于获得的多个数据源的域名构建域名信息表;将所 述待检测域名与所述域名信息表信息进行匹配,若所述域名信息表中存在与所 述待检测域名匹配的域名,则将与所述待检测域名匹配的域名所对应的域名类 型标签确定为所述待检测域名的域名类型标签。
[0118]
本技术一可选实施方式中,所述获得单元401,具体用于:对于各网站数 据源,基于各网站的网页对应的分类信息确定各网站的域名对应的域名标签类 型,基于各网站的
网页内容确定各网站的域名对应的文本内容;对于各应用程 序数据源,对使用各应用程序时发起的请求信息进行分析和过滤,提取所述请 求信息中的域名信息,并将各应用程序的类型标签、描述信息和所述域名信息 进行关联。
[0119]
本领域技术人员应当理解,图4所示的域名类型的确定装置中的各单元的 实现功能可参照前述域名类型的确定方法的相关描述而理解。图4所示的域名 类型的确定装置中的各单元的功能可通过运行于处理器上的程序而实现,也可 通过具体的逻辑电路而实现。
[0120]
本技术实施例还提供了一种电子设备。图5为本技术实施例的电子设备的 硬件结构示意图,如图5所示,电子设备包括:用于进行数据传输的通信组件 503、至少一个处理器501和用于存储能够在处理器501上运行的计算机程序的 存储器502。终端中的各个组件通过总线系统504耦合在一起。可理解,总线 系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之 外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在 图5中将各种总线都标为总线系统504。
[0121]
其中,所述处理器501执行所述计算机程序时至少执行图1所示的方法的 步骤。
[0122]
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括 易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmableread-only memory)、可擦除可编程只读存储器(eprom,erasableprogrammable read-only memory)、电可擦除可编程只读存储器(eeprom, electrically erasable programmable read-only memory)、磁性随机存取存储器 (fram,ferromagnetic random access memory)、快闪存储器(flash memory)、 磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory); 磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取 存储器(ram,random access memory),其用作外部高速缓存。通过示例性 但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram, static random access memory)、同步静态随机存取存储器(ssram, synchronous static random access memory)、动态随机存取存储器(dram, dynamic random access memory)、同步动态随机存取存储器(sdram, synchronous dynamic random access memory)、双倍数据速率同步动态随机存 取存储器(ddrsdram,double data rate synchronous dynamic random accessmemory)、增强型同步动态随机存取存储器(esdram,enhanced synchronousdynamic random access memory)、同步连接动态随机存取存储器(sldram, synclink dynamic random access memory)、直接内存总线随机存取存储器 (drram,direct rambus random access memory)。本技术实施例描述的存储 器502旨在包括但不限于这些和任意其它适合类型的存储器。
[0123]
上述本技术实施例揭示的方法可以应用于处理器501中,或者由处理器501 实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过 程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软 件形式的指令完成。上述的处理器501可以是通用处理器、dsp,或者其他可 编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可 以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理 器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法 的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬 件
及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于 存储器502,处理器501读取存储器502中的信息,结合其硬件完成前述方法 的步骤。
[0124]
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(asic, application specific integrated circuit)、dsp、可编程逻辑器件(pld, programmable logic device)、复杂可编程逻辑器件(cpld,complexprogrammable logic device)、fpga、通用处理器、控制器、mcu、微处理器 (microprocessor)、或其他电子元件实现,用于执行前述的通话录音方法。
[0125]
本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序, 其特征在于,该程序被处理器执行时至少用于执行图1所示方法的步骤。所述 计算机可读存储介质具体可以为存储器。所述存储器可以为如图5所示的存储 器502。
[0126]
本技术实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
[0127]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和智能设备, 可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如, 所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方 式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可 以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直 接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接, 可以是电性的、机械的或其它形式的。
[0128]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为 单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可 以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来 实现本实施例方案的目的。
[0129]
另外,在本技术各实施例中的各功能单元可以全部集成在一个第二处理单 元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集 成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬 件加软件功能单元的形式实现。
[0130]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本技术的保护范围之内。
技术特征:
1.一种域名类型的确定方法,其特征在于,所述方法包括:获得多个数据源的域名、与所述域名对应的域名类型标签以及与所述域名对应的文本内容;基于预设的标签映射关系将所述多个数据源的所述域名对应的域名类型标签进行融合得到包括至少两个级别的标签分类结构;基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型;将待检测域名对应的文本内容输入至所述文本分类模型,利用所述文本分类模型输出所述待检测域名的域名类型标签。2.根据权利要求1所述的方法,其特征在于,所述基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型,包括:基于所述标签分类结构以及交叉熵确定正则化参数,并基于所述正则化参数确定用于训练所述待训练的文本分类模型的损失函数;所述交叉熵为所述文本分类模型输出的所述域名对应的文本内容对应的域名类型标签与所述域名对应的文本内容对应的真实域名类型标签的分布之间的交叉熵;基于所述损失函数以及所述多个数据源的所述域名对应的文本内容对所述待训练的文本分类模型进行训练,得到所述文本分类模型。3.根据权利要求1所述的方法,其特征在于,所述基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型,包括:对所述多个数据源的所述域名对应的文本内容进行分词处理,构建分词信息表;基于所述分词信息表构建与所述文本内容对应的第一特征序列;所述第一特征序列包括:所述文本内容的文本分词序列、关键词序列以及长度为n的单词片段序列;基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对应的特征序列对待训练的文本分类模型进行训练,得到文本分类模型。4.根据权利要求1所述的方法,其特征在于,所述将待检测域名对应的文本内容输入至所述文本分类模型,包括:对所述待检测域名对应的文本内容进行分词处理,得到所述待检测域名对应的文本内容所对应的第二特征序列;所述第二特征序列包括:所述待检测域名对应的文本内容的文本分词序列、所述待检测域名对应的文本内容的关键词序列以及所述待检测域名对应的文本内容所对应的长度为n的单词片段序列;将所述第二特征序列输入至所述文本分类模型。5.根据权利要求1所述的方法,其特征在于,所述待检测域名为筛选后的待检测域名,所述将待检测域名对应的文本内容输入至所述文本分类模型之前,所述方法还包括:对所述待检测域名发起请求,验证是否可获取所述待检测域名对应的网页文本内容;在能够获取所述待检测域名对应的网页文本内容的情况下,过滤所述待检测域名中指向无效网页信息的域名,得到筛选后的待检测域名以及与所述待检测域名对应的文本内容。
6.根据权利要求1所述的方法,其特征在于,所述获得多个数据源的域名、与所述域名对应的域名类型标签以及与所述域名对应的文本内容之后,所述方法还包括:基于获得的多个数据源的域名构建域名信息表;将所述待检测域名与所述域名信息表信息进行匹配,若所述域名信息表中存在与所述待检测域名匹配的域名,则将与所述待检测域名匹配的域名所对应的域名类型标签确定为所述待检测域名的域名类型标签。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述获得多个数据源的域名、与所述域名对应的域名类型标签以及与所述域名对应的文本内容,包括:对于各网站数据源,基于各网站的网页对应的分类信息确定各网站的域名对应的域名标签类型,基于各网站的网页内容确定各网站的域名对应的文本内容;对于各应用程序数据源,对使用各应用程序时发起的请求信息进行分析和过滤,提取所述请求信息中的域名信息,并将各应用程序的类型标签、描述信息和所述域名信息进行关联。8.一种域名类型的确定装置,其特征在于,所述装置包括:获得单元,用于获得多个数据源的域名、与所述域名对应的域名类型标签以及与所述域名对应的文本内容;融合单元,用于基于预设的标签映射关系将所述多个数据源的所述域名对应的域名类型标签进行融合得到包括至少两个级别的标签分类结构;训练单元,用于基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型;输出单元,用于将待检测域名对应的文本内容输入至所述文本分类模型,以利用所述文本分类模型输出所述待检测域名的域名类型标签。9.一种电子设备,其特征在于,所述电子设备包括:存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至7中任一项所述的方法。10.一种计算机存储介质,其特征在于,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现权利要求1至7中任一项所述的方法。
技术总结
本申请公开了一种域名类型的确定方法及装置,所述方法包括:获得多个数据源的域名、与域名对应的域名类型标签以及与域名对应的文本内容;基于预设的标签映射关系将所述多个数据源的所述域名对应的域名类型标签进行融合得到包括至少两个级别的标签分类结构;基于所述标签分类结构以及所述多个数据源的所述域名对应的文本内容对待训练的文本分类模型进行训练,得到文本分类模型;将待检测域名对应的文本内容输入至所述文本分类模型,利用所述文本分类模型输出所述待检测域名的域名类型标签。本申请通过为域名类型标签建立多级标签分类结构,使得利用文本分类模型对待检测域名的类型进行预测时,考虑各标签之间的依赖关系,提升对域名的分类效果。提升对域名的分类效果。提升对域名的分类效果。
技术研发人员:王坚凯 韩凯 徐悦 鲁银冰
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2021.12.28
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
