一种文本分类方法、装置、电子设备和存储介质与流程
未命名
08-27
阅读:146
评论:0
1.本技术涉及计算机技术领域,尤其涉及一种文本分类方法、装置、电子设备和存储介质。
背景技术:
2.目前,基于深度学习模型的文本分类任务依赖于大量、高质量的标注样本,然而在文本分类任务启动初期,充足且高质量的训练样本的获取时间和人力成本往往很高,在项目冷启动阶段,没有足够的标注数据,从而限制了模型拟合能力的上限以及模型迭代速度。
3.相关技术中,处理冷启动的方式往往有两种,一是对文本进行人工标注,但是人工标注往往成本较高,且标注周期长;二是使用小样本学习的方法,但小样本学习依赖于模型的泛化性能,结果相对不可控。
4.因此,在文本分类任务冷启动阶段,如何快速且准确的标注样本是目前亟待解决的问题。
技术实现要素:
5.本技术实施例提供一种文本分类方法、装置、电子设备和存储介质,用以提高提高样本标注的准确率,进而提高文本分类准确率。
6.本技术实施例提供的一种文本分类方法,包括:
7.获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定所述各待标注文本各自的初始标注信息;
8.分别基于所述各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,所述参考样本用于对对应的查询样本的初始标注信息进行调整;
9.基于各查询样本和各参考样本的初始标注信息,确定所述各查询样本各自的目标标注信息;
10.基于所述各查询样本和各自的目标标注信息构建训练样本数据集,并基于所述训练样本数据集进行文本分类模型训练,所述文本分类模型用于对待分类文本进行分类。
11.本技术实施例提供的一种文本分类装置,包括:
12.获取单元,用于获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定所述各待标注文本各自的初始标注信息;
13.构建单元,用于分别基于所述各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,所述参考样本用于对对应的查询样本的初始标注信息进行调整;
14.确定单元,用于基于各查询样本和各参考样本的初始标注信息,确定所述各查询样本各自的目标标注信息;
15.训练单元,用于基于所述各查询样本和各自的目标标注信息构建训练样本数据集,并基于所述训练样本数据集进行文本分类模型训练,所述文本分类模型用于对待分类
文本进行分类。
16.可选的,所述初始标注信息包括:相应的待标注文本对应各类别的第一概率,所述反馈行为信息包括各搜索结果的点击次数和曝光次数;所述获取单元具体用于:
17.对于每个待标注文本,分别执行以下操作:
18.分别基于一个待标注文本对应的同一类别搜索结果的曝光总次数和点击总次数,确定所述一个待标注文本对应各类别的曝光率和点击率;
19.分别基于所述一个待标注文本对应各类别的曝光率和点击率,确定所述一个待标注文本对应各类别的第一概率。
20.可选的,所述获取单元具体用于:
21.基于一个待标注文本对应的同一类别搜索结果的曝光总次数,以及所述一个待标注文本对应的所有搜索结果的曝光总次数,确定所述一个待标注文本对应各类别的曝光率;
22.基于一个待标注文本对应的同一类别的搜索结果的点击总次数,以及各待标注文本对应的所有搜索结果的点击总次数,确定所述一个待标注文本对应各类别的点击率。
23.可选的,所述确定单元具体用于:
24.按照预设的字符分割方式分别将各查询样本和各参考样本进行字符分割,获得各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符;
25.分别基于各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符,获得所述各查询样本各自对应的查询样本向量,和所述各参考样本各自对应的参考样本向量;
26.分别基于各查询样本向量与各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。
27.可选的,所述确定单元具体用于:
28.分别基于已训练的语言模型对各查询样本包含的查询样本字符,和各参考样本包含的参考样本字符进行编码,获得各查询样本各自对应的至少一个查询样本字符向量,和各参考样本各自对应的至少一个参考样本字符向量;
29.分别基于所述各查询样本各自对应的至少一个查询样本字符向量,确定所述各查询样本各自对应的查询样本向量,以及,分别基于所述各参考样本各自对应的至少一个参考样本字符向量,确定所述各参考样本各自对应的参考样本向量。
30.可选的,按照以下至少一种预设的字符分割方式将各待分割文本进行字符分割,所述待分割文本为参考样本或查询样本:
31.对于每个查询样本,分别执行以下操作:
32.将一个待分割文本按照预设字符粒度进行字符分割;
33.将一个待分割文本按照以实体词语作为整体字符,以非实体词语依据预设字符粒度的方式,进行字符分割。
34.可选的,每个查询样本对应至少一个查询样本向量,每个参考样本对应至少一个参考样本向量,所述确定单元具体用于:
35.分别基于各查询样本向量对应的字符分割方式,筛选出与各查询样本向量字符分割方式相同的各参考样本向量;
36.分别基于各查询样本向量与相应的各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。
37.可选的,通过以下方式获得已训练的语言模型:
38.从历史数据中获取至少一个待评估文本组成的语料集,并按照预设的字符分割方式将所述语料集分割成字符集;
39.基于所述字符集对待训练的语言模型进行训练,获得训练好的语言模型。
40.可选的,所述初始标注信息包括:相应的待标注文本对应各类别的第一概率;所述确定单元具体用于:
41.对于每个查询样本,分别执行以下操作:
42.基于一个查询样本对应的各参考样本的第一概率,以及相应的参考样本与所述一个查询样本之间的相似度,确定所述一个查询样本对应各类别的第二概率,所述一个查询样本对应至少一个第二概率;
43.基于所述至少一个第二概率,以及所述一个查询样本的第一概率,确定所述一个查询样本的目标标注信息。
44.可选的,所述确定单元具体用于:
45.基于所述至少一个第二概率与所述一个查询样本的第一概率之和,确定所述查询样本对应各搜索结果的类别的第三概率;
46.将最高的第三概率对应的类别,作为所述查询样本的目标标注信息。
47.可选的,所述文本分类模型包括至少一个文本二分类模型,每个文本二分类模型的训练样本数据集包括正样本集和负样本集;所述训练单元具体用于:
48.将所述查询样本中目标标注信息为目标类别的查询样本作为正样本集;
49.按照分层抽样的方式,在所述查询样本中目标标注信息为非目标类别的各类查询样本中,分别抽取预设比例的查询样本组成负样本集。
50.本技术实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述任意一种文本分类方法的步骤。
51.本技术实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述任意一种文本分类方法的步骤。
52.本技术实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行上述任意一种文本分类方法的步骤。
53.本技术有益效果如下:
54.本技术实施例提供了一种文本分类方法、装置、电子设备和存储介质。具体地,首先,获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定各待标注文本各自的初始标注信息,能够根据待标注文本对应的搜索结果类别,初步获得待标注文本的类别分布;然后,分别基于各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,并基于各查询样本和各参考样本的初始标注
信息,确定各查询样本各自的目标标注信息,能够基于参考样本的初始标注信息,对查询样本的初始标注信息进行调整,提高查询样本标注的准确率;最后,基于各查询样本和各自的目标标注信息构建训练样本数据集,并基于训练样本数据集进行文本分类模型训练。基于上述方式,能够实现快速的样本自动标注,提高样本标注准确率,进而基于生成的训练样本进行文本分类模型训练,能够提高文本分类准确率。
55.本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
56.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
57.图1为本技术实施例中的一种应用场景的一个可选的示意图;
58.图2为本技术实施例中的一种文本分类方法的实施流程图;
59.图3为本技术实施例中的一种待评估文本对应的搜索结果示意图;
60.图4为本技术实施例中的一种查询样本向量的生成示意图;
61.图5为本技术实施例中的一种参考样本向量的生成示意图;
62.图6为本技术实施例中的一种查询样本与参考样本的对应关系示意图;
63.图7为本技术实施例中的一种文本分类方法的具体流程示意图;
64.图8a为本技术实施例中的一种文本分类方法的逻辑示意图;
65.图8b为本技术实施例中的一种标注信息调整过程的示意图;
66.图9为本技术实施例中的一种文本分类装置的组成结构示意图;
67.图10为应用本技术实施例的一种电子设备的一个硬件组成结构示意图;
68.图11为应用本技术实施例的另一种电子设备的一个硬件组成结构示意图。
具体实施方式
69.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术技术方案的一部分实施例,而不是全部的实施例。基于本技术文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术技术方案保护的范围。
70.下面对本技术实施例中涉及的部分概念进行介绍。
71.文本分类:是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程,是模式识别与自然语言处理密切结合的研究课题。文本分类的效果依赖大量、高质量的标注样本,训练样本的质量决定了模型拟合能力上限以及模型迭代速度。
72.参考样本:使用某种手段(如对象搜索行为)初步打标的样本集合,该样本集的标注信息具有一定的准确性,但仍存在一定程度的误差,还需要进一步去除噪声影响。
73.查询样本:需要获取标注信息的样本,查询样本通过向参考样本发起查询,通过参
考样本的标注信息调整自身的标注信息,并基于调整后的查询样本构建训练样本数据集,进行文本分类模型训练。
74.faiss(facebook ai similarity search):是用于高效相似性搜索和密集向量聚类的库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是一种近似近邻搜索库。它包含多种搜索任意大小向量集的算法,以及用于算法评估和参数调整的计算机程序。其中,向量集大小由随机存取存储器(random-access memory,ram)内存决定。
75.本技术实施例涉及人工智能(artificial intelligence,ai)、自然语言处理(nature language processing,nlp)和机器学习技术(machine learning,ml),基于人工智能中的计算机视觉技术和机器学习而设计。
76.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
77.人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
78.自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
79.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言,机器学习更加注重算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。
80.机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本技术实施例中的机器翻译质量评估模型就是采用机器学习或深度学习技术训练得到的。基于本技术实施例中的文本分类方法,可以提高机器翻译质量评估模型的准确率。
81.下面对本技术实施例的设计思想进行简要介绍:
82.目前,基于深度学习模型的文本分类任务依赖于大量、高质量的标注样本,然而在文本分类任务启动初期,充足且高质量的训练样本的获取时间和人力成本往往很高,在项目冷启动阶段,没有足够的标注数据,从而限制了模型拟合能力的上限以及模型迭代速度。
83.相关技术中,处理冷启动的方式往往有两种,一是对文本进行人工标注,但是人工
标注往往成本较高,且标注周期长;二是使用小样本学习的方法,但小样本学习依赖于模型的泛化性能,结果相对不可控。因而,在文本分类任务冷启动阶段,如何快速且准确的标注样本是目前亟待解决的问题。
84.有鉴于此,本技术实施例提供了一种文本分类方法、装置、电子设备和存储介质,首先,获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定各待标注文本各自的初始标注信息,能够根据待标注文本对应的搜索结果类别,初步获得待标注文本的类别分布;然后,分别基于各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,并基于各查询样本和各参考样本的初始标注信息,确定各查询样本各自的目标标注信息,能够基于参考样本的初始标注信息,对查询样本的初始标注信息进行调整,提高查询样本标注的准确率;最后,基于各查询样本和各自的目标标注信息构建训练样本数据集,并基于训练样本数据集进行文本分类模型训练。基于上述方式,能够实现快速的样本自动标注,提高样本标注准确率,进而基于生成的训练样本进行文本分类模型训练,能够提高文本分类准确率。
85.以下结合说明书附图对本技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本技术,并不用于限定本技术,并且在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
86.如图1所示,其为本技术实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。
87.在本技术实施例中,终端设备110包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备;终端设备上可以安装有文本分类相关的客户端,该客户端可以是软件(例如浏览器、视频软件等),也可以是网页、小程序等,服务器120则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行文本分类的服务器,本技术不做具体限定。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
88.需要说明的是,本技术各实施例中的方法可以由电子设备执行,该电子设备可以为服务器120或者终端设备110,即,该方法可以由服务器120或者终端设备110单独执行,也可以由服务器120和终端设备110共同执行。比如由服务器120单独执行时,服务器120获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定各待标注文本各自的初始标注信息;分别基于各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,并基于各查询样本和各参考样本的初始标注信息,确定各查询样本各自的目标标注信息;基于各查询样本和各自的目标标注信息构建训练样本数据集,并基于训练样本数据集进行文本分类模型训练。
89.需要说明的是,在不同的文本分类场景下所使用的训练样本不同。以浏览器搜索关键词分类的场景为例,待评估文本为搜索关键词,训练样本中的目标标注信息可以是电视剧、小说等类别;在新闻文本分类的场景下,待评估文本为新闻文本,训练样本中的目标标注信息可以是科技、娱乐等类别。
90.在一种可选的实施方式中,终端设备110与服务器120之间可以通过通信网络进行通信。
91.在一种可选的实施方式中,通信网络是有线网络或无线网络。
92.需要说明的是,图1所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本技术实施例中不做具体限定。
93.本技术实施例中,当服务器的数量为多个时,多个服务器可组成为一区块链,而服务器为区块链上的节点;如本技术实施例所公开的文本分类方法,其中所涉及的待评估文本、查询样本、参考样本等数据可保存于区块链上。
94.此外,本技术实施例可应用于各种场景,不仅包括文本分类场景,还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。在这些场景下,都可涉及一些文本分类相关的应用,比如,用户在智慧交通场景下,可以对用户在地图导航应用中输入搜索的地点文本进行分类,将热门地点与非热门地点进行分类,向用户提供更有针对性的选择。
95.可以理解的是,在本技术的具体实施方式中,涉及到用户信息等相关的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
96.下面结合上述描述的应用场景,参考附图来描述本技术示例性实施方式提供的文本分类方法,需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。
97.参阅图2所示,为本技术实施例提供的一种文本分类的方法的实施流程图,以执行主体为服务器为例,该方法的具体实施流程包括如下步骤s21-s24:
98.s21:服务器获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定各待标注文本各自的初始标注信息;
99.其中,待标注文本可以是新闻文本、翻译文本等不同类型的文本,在此不做具体限定。本技术中主要是以待标注文本为搜索关键词为例进行说明的,例如,搜索关键词可以是“2020全明星赛”,“种菜小能手”等等,待标注文本对应的搜索结果可以是每个搜索关键词下对应的视频,反馈行为信息包括各搜索结果的点击次数和曝光次数,初始标注信息包括相应的待标注文本对应各类别的第一概率。
100.具体地,待标注文本1为“2020全明星赛”,基于2020全明星赛进行搜索,获得视频1、视频2和视频3,视频1的类别为体育,曝光次数1000,点击次数700,视频2的类别为体育,曝光次数1200,点击次数800,视频3的类别为游戏,曝光次数1100,点击次数60,基于待评估文本1对应的各视频的类别及点击次数、曝光次数,确定待评估文本1对应体育和游戏的第一概率。
101.s22:服务器分别基于各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本;
102.其中,参考样本用于对对应的查询样本的初始标注信息进行调整。
103.具体地,每个参考样本和每个查询样本均由待标注文本及对应的初始标注信息组成,参考样本和查询样本均来源于用户的搜索日志,将t天的搜索关键词分别作为待评估文本进行标注并获得初始标注信息,基于t天的搜索关键词和各自的初始标注信息构建多个查询样本,将t-1天的搜索关键词分别作为待评估文本进行标注并获得初始标注信息,基于
t-1天的搜索关键词和各自的初始标注信息构建多个参考样本。
104.s23:服务器基于各查询样本和各参考样本的初始标注信息,确定各查询样本各自的目标标注信息;
105.具体地,基于各查询样本各自对应的各参考样本的初始标注信息,对各查询样本的各自的初始标注信息进行调整,获得目标标注信息。例如,查询样本1对应的参考样本为参考样本1、参考样本2和参考样本3,则基于参考样本1、参考样本2和参考样本3的初始标注信息对查询样本1的初始标注信息进行调整,获得查询样本1的目标标注信息。
106.s24:服务器基于各查询样本和各自的目标标注信息构建训练样本数据集,并基于训练样本数据集进行文本分类模型训练。
107.其中,文本分类模型用于对待分类文本进行分类,基于训练数据集进行文本分类模型训练,获得已训练的文本分类模型。
108.在本技术实施例中,根据待标注文本对应的搜索结果类别,初步获得待标注文本的类别分布,并基于参考样本的初始标注信息,对查询样本的初始标注信息进行调整,提高查询样本标注的准确率,能够实现快速的样本自动标注,提高样本标注准确率,进而基于生成的训练样本进行文本分类模型训练,能够提高文本分类准确率。
109.在一种可选的实施方式中,对于每个待标注文本,通过以下方式获得此待标注文本的初始标注信息:
110.首先,基于一个待标注文本对应的同一类别搜索结果的曝光总次数,以及所述一个待标注文本对应的所有搜索结果的曝光总次数,确定所述一个待标注文本对应各类别的曝光率;其次,基于一个待标注文本对应的同一类别的搜索结果的点击总次数,以及各待标注文本对应的所有搜索结果的点击总次数,确定所述一个待标注文本对应各类别的点击率;最后,分别基于一个待标注文本对应各类别的曝光率和点击率,确定一个待标注文本对应各类别的第一概率。
111.具体地,如图3所示,为待标注文本1对应的搜索结果示意图。类别1的曝光总次数为40,所有搜索结果的曝光总次数为100,则待标注文本1对应类别1的曝光率为0.4,同理,待标注文本1对应类别2的曝光率为0.35,对应类别3的曝光率为0.25;类别1的点击总次数为25,所有搜索结果的点击总次数为50,则待标注文本1对应类别1的曝光率为0.5,同理,待标注文本1对应类别2的点击率为0.4,对应类别3的点击率为0.1;将每个类别的曝光率和点击率相加计算平均值获得第一概率,待标注文本1对应类别1的第一概率为0.45,对应类别:2的第一概率为0.375,对应类别3的第一概率为0.175。
112.可以将初始标注信息表示为概率分布形式,形如:dist={类别1:prob1,类别2:prob2,
…
,类别c:probc},其中,c为类别总量,prob为待标注文本属于该类别的概率值,取值范围为[0,1],则待标注文本1的初始标注信息={类别1:0.45,类别2:0.375,类别3:0.175}。
[0113]
需要说明的是,对待标注文本进行标注的方法,并不限于本技术实施例中的基于点击次数和曝光次数的方式,还可以是人工标注,以及其他机器打标方式,如通过神经网络模型预测结果,在此不做具体限定。
[0114]
在本技术实施例中,通过基于待标注文本对应的搜索结果的类别以及曝光次数、点击次数,对待标注文本进行初步标注,初步获得待标注文本的类别分布,能够在文本分类
项目启动初期快速自动进行文本标注,缓解标注样本的缺乏。
[0115]
在一种可选的实施方式中,统计用户过去t天的搜索关键词作为待评估文本,过滤掉只有曝光没有点击的搜索关键词,对待评估文本进行自动标注,获得初始标注信息,通过t天的搜索关键词和对应的初始标注信息构建查询样本;统计用户过去t-1天的搜索关键词作为待评估文本,过滤掉只有曝光没有点击的搜索关键词,对待评估文本进行自动标注,获得初始标注信息,通过t-1天的搜索关键词和对应的初始标注信息构建参考样本。
[0116]
在一种可选的实施方式中,通过下列方式获得各查询样本各自对应的各参考样本:
[0117]
首先,按照预设的字符分割方式分别将各查询样本和各参考样本进行字符分割,获得各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符;分别基于各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符,获得各查询样本各自对应的查询样本向量,和各参考样本各自对应的参考样本向量;分别基于各查询样本向量与各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。
[0118]
在本技术实施例中,通过将参考样本和查询样本进行向量表示,能够基于向量间的相似度,快速获得查询样本对应的参考样本,
[0119]
在一种可选的实施方式中,待分割文本为参考样本或查询样本,预设的字符分割方式包括以下至少一种:
[0120]
方式一:将一个待分割文本按照预设字符粒度进行字符分割;
[0121]
其中,按照预设字符粒度分割是指按照每个字符进行分割,其中每个中文、特殊符号均作为一个字符,连续的数据数字和英文则按照空格或标点符号分割,如“2020全明星赛”的分割结果为:[2020,全,明,星,赛]。
[0122]
方式二:将一个待分割文本按照以实体词语作为整体字符,以非实体词语依据预设字符粒度的方式,进行字符分割。
[0123]
其中,实体词语包括名称类(节目名、地名、人名、商品名等)、属性类(系列词、版本词等)、以及特殊表达的短语等,例如“2020全明星赛”的分割结果为:[2020,全明星赛]。
[0124]
在本技术实施例中,预设的字符分割方式包括按照预设字符粒度分割,和将实体词语作为整体字符,非实体依据预设字符开度进行分割的方式,从两种分割维度对待分割文本进行字符分割,能够获得更多维度的分割字符,进而提升查询样本与参考样本之间对应的准确率。
[0125]
在一种可选的实施方式中,基于预设的字符分割方式分别对查询样本和参考样本进行字符分割之后,通过以下方式获得查询样本向量和参考样本向量:
[0126]
首先,分别基于已训练的语言模型对各查询样本包含的查询样本字符,和各参考样本包含的参考样本字符进行编码,获得各查询样本各自对应的至少一个查询样本字符向量,和各参考样本各自对应的至少一个参考样本字符向量;
[0127]
然后,分别基于各查询样本各自对应的至少一个查询样本字符向量,确定各查询样本各自对应的查询样本向量,以及,分别基于各参考样本各自对应的至少一个参考样本字符向量,确定各参考样本各自对应的参考样本向量。
[0128]
具体地,根据上述两种字符分割方式对查询样本进行分割,能够获得每个查询样本对应的两种分割方式的字符,例如,查询样本1为“年度最佳歌手”,字符分割后获得:分割
字符集1[年,度,最,佳,歌,手]和分割字符集2[年度最佳,歌手],将分割字符集1输入已训练的语言模型,语言模型将每个分割字符表示为d维的向量,d是每个分割字符的词向量维度,则查询样本1可以被表示为5
×
d维的向量,将5
×
d维的向量按行相加后取平均,得到d维的向量作为查询样本1的第一种句向量,即第一种查询样本向量;将分割字符集2输入已训练的语言模型,查询样本1可以被表示为2
×
d维的向量,将2
×
d维的向量按行相加后取平均,得到d维的向量作为查询样本1的第二种句向量,即第二种查询样本向量。相应的,每个参考样本也通过上述方式获得两种参考样本向量,在此不做赘述。
[0129]
在本技术实施例中,基于已训练的语言模型获得每个查询样本对应的两种查询样本向量,和每个参考样本对应的两种参考样本向量,能够提高获得查询样本向量和参考样本向量的准确率。
[0130]
参阅图4,其为本技术实施例中的一种查询样本向量的生成示意图,首先分别按照两种字符分割方式对查询样本进行字符分割,获得两种分割维度的分割字符集,然后分别通过语言模型对两种分割字符集进行编码,获得每个字符的字符向量,最后对字符向量进行按行相加求平均值,获得查询样本对应的两种查询样本向量。
[0131]
参阅图5,其为本技术实施例中的一种参考样本向量的生成示意图,首先分别按照两种字符分割方式对参考样本进行字符分割,获得两种分割维度的分割字符集,然后分别通过语言模型对两种分割字符集进行编码,获得每个字符的字符向量,最后对字符向量进行按行相加求平均值,获得参考样本对应的两种参考样本向量。
[0132]
在一种可选的实施方式中,通过以下方式获得已训练的语言模型:
[0133]
首先,从历史数据中获取至少一个待评估文本组成的语料集,并按照预设的字符分割方式将语料集分割成字符集;然后,基于字符集对待训练的语言模型进行训练,获得训练好的语言模型。
[0134]
具体地,从用户搜索日志中获取一定时间跨度的搜索关键词组成一个规模较大的语料集合d,时间跨度可以选择一周、半个月等,根据上述两种预设的字符分割方式,分别将语料集合d中的样本分割成字符集,并分别训练两种分割维度的word2vec(词向量嵌入模型),获得训练好的语言模型。
[0135]
需要说明的是,基于上述方式会获得两种分割维度的语言模型,在使用语言模型对查询样本字符或参考样本字符进行编码时,查询样本字符或参考样本字符需要使用分割维度相同的语言模型对其进行编码。
[0136]
需要说明的是,本技术中的语言模型并不限于所列举的word2vec,还可以是tfidf(文本频率与逆文档频率指数)、doc2vec(文档嵌入模型)、神经网络特征提取等方式,在此不做具体限定。
[0137]
在本技术实施例中,基于用户的搜索日志获得搜索关键词的语料集合,并基于语料集合训练语言模型,能够获得两种分割维度训练的语言模型,能够提高语言模型的编码准确率。
[0138]
在一种可选的实施方式中,获得每个查询样本对应的两种查询样本向量,以及每个参考样本对应的两种参考样本向量之后,通过以下方式获得各查询样本各自对应的参考样本:
[0139]
首先,分别基于各查询样本向量对应的字符分割方式,筛选出与各查询样本向量
字符分割方式相同的各参考样本向量;然后,分别基于各查询样本向量与相应的各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。
[0140]
具体地,对每个查询样本的两种分割维度的句向量,基于各查询样本向量对应的字符分割方式,筛选出与各查询样本向量字符分割方式相同的各参考样本向量,分别使用最近邻算法knn找到与之相似度最高的n个参考样本。查询样本向量和参考样本向量之间的相似度度量方式可以选择使用余弦相似度,相似度是一个[-1,1]范围内的数值,值越大说明向量越相似,这里由于数据量很大,使用开源的向量检索工具faiss提升查找速度。
[0141]
需要说明的是,本技术中的获得查询样本对应的参考样本的方式,不限于使用余弦相似度的方法,还可以是其他可以计算向量之间距离的方式,在此不做具体限定。
[0142]
在本技术实施例中,在字符分割方式相同的查询样本向量与参考样本向量之间计算相似度,能够获得查询样本与参考样本之间的对应关系,提高查询样本与参考样本对应的准确性。
[0143]
参阅图6,其为本技术实施例中的一种查询样本与参考样本的对应关系示意图,在按照两种字符分割方式获得两种分割维度的查询样本向量之后,基于向量间相似度,分别获得每个查询样本向量对应的n个相似度最高的参考样本向量,并且每个查询样本向量与对应的参考样本向量的字符分割方式相同,最后获得查询样本对应的两种参考样本。
[0144]
在一种可选的实施方式中,获得查询样本对应的参考样本之后,通过以下方式获得各查询样本各自的目标标注信息:
[0145]
对于每个查询样本,分别执行以下操作:基于一个查询样本对应的各参考样本的第一概率,以及相应的参考样本与一个查询样本之间的相似度,确定一个查询样本对应各类别的第二概率,一个查询样本对应至少一个第二概率;基于至少一个第二概率,以及一个查询样本的第一概率,确定一个查询样本的目标标注信息。
[0146]
具体地,对于召回的查询样本的两种分割维度参考样本,分别计算查询样本的n个参考样本类别分布的加权平均值,作为此查询样本的目标标注信息,计算方法如下公式:
[0147][0148]
其中,xj为第j个查询样本,qi为此查询样本在i类别上综合n个参考样本结果产生的概率值,n为对应的参考样本个数,xk为第k个参考样本,s为此查询样本与参考样本之间的相似度,ci为参考样本在i类别上的概率值;如果查询样本和参考样本越相似,则此参考样本的类别概率分布对查询样本的类别概率分布影响也越大,最后每个查询样本均可得到两种分割维度的第二概率。
[0149]
例如,查询样本a对应的第一种分割维度的第二概率为{类别1:0.4,类别2:0.3,类别3:0.3},第二种分割维度的第二概率为{类别1:0.6,类别2:0.3,类别3:0.1}。
[0150]
在本技术实施例中,基于查询样本对应的两种参考样本的初始标注信息,以及自身的初始标注信息,对查询样本的初始标注信息进行调整,若参考样本与此查询样本的相似度较高,则目标标注信息很大程度上依赖参考样本的初始标注信息,若参考样本与此查询样本的相似度较低,则目标标注信息很大程度上依赖查询样本自身的初始标注信息,能够获得查询样本的较为准确的标注信息。
[0151]
在一种可选的实施方式中,基于至少一个第二概率与一个查询样本的第一概率之和,确定查询样本对应各搜索结果的类别的第三概率;将最高的第三概率对应的类别,作为查询样本的目标标注信息。
[0152]
具体地,两种分割维度获得的第二概率和查询样本本身的类别概率分布(即第一概率)三者进行叠加,得到第三概率,将最终计算得到的第三概率中的类别按照概率值从高到低排序,取概率值最高的类别作为该查询样本的最终标签(即目标标注信息),用于构造正负样本集合进行模型训练。如果n个参考样本中有和查询样本相似度较高的样本,则查询样本的目标标注信息很大程度上依赖这些参考样本的类别分布;反之,如果参考样本中和查询样本的相似度都较低,则查询样本更多参考自身的标注结果。
[0153]
仍以上述列举的查询样本a为例,查询样本a的第一概率为{类别1:0.5,类别2:0.3,类别3:0.2},将第一概率与两种第二概率对应的同一类别的概率相加,获得第三概率为{类别1:1.5,类别2:0.9,类别3:0.6},则将类别1作为查询样本a的目标标注信息。
[0154]
需要说明的是,上述仅以第一概率与至少一个第二概率分别基于类别概率求和,获得第三概率为例进行说明,实际上还可以加权求均值等方式,在此不做具体限定。
[0155]
需要说明的是,基于参考样本的初始标注信息对查询样本的初始标注信息进行调整的方式,不限于上述列举的基于两种参考样本的初始标注信息和查询样本自身的初始标注信息,确定目标标注信息的方式,还可以是仅基于参考样本的初始标注信息的方式,在此不做具体限定。
[0156]
在本技术实施例中,将概率最高的类别作为查询样本的目标标注信息,自动化的获得了查询样本的较为准确的标注信息,为模型训练和模型的快速迭代提供数据支持。
[0157]
在一种可选的实施方式中,文本分类模型包括至少一个文本二分类模型,每个文本二分类模型的训练样本数据集包括正样本集和负样本集,通过以下方式获得正样本集合负样本集:
[0158]
将查询样本中目标标注信息为目标类别的查询样本作为正样本集;按照分层抽样的方式,在查询样本中目标标注信息为非目标类别的各类查询样本中,分别抽取预设比例的查询样本组成负样本集。
[0159]
具体地,假设分类任务共有c个类别,根据用户输入的待分类文本,需要将用户的输入划分到c个类别中的某一类或某几类。这里将多标签分类问题转换成c个二分类问题,即构建c个文本二分类模型,每个二分类模型中的正类为目标类,负类为非目标类。每个二分类模型的正负样本构造方式如下:选择查询样本中标签信息(即目标标注信息)为目标类的样本作为正样本集,查询样本中标签信息不为目标类的样本作为负样本的候选集合;负样本候选集合中往往包含多个类别,按照分层抽样的方式,随机的在每个类别中抽取一定比例的样本,将所有非目标类上抽样获得的负样本合并在一起组成最终的负样本集,最后正负样本集共同构成训练样本集合,用于文本分类模型的训练,文本分类模型可以选择各种基于卷积神经网络、循环神经网络、编码器的模型,例如textcnn(文本分类网络),在此不做具体限定。
[0160]
在本技术实施例中,通过对待评估文本进行自动标注的方式,获得查询样本和目标标注信息,并构建训练样本数据集,将查询样本输入文本分类模型,并基于模型输出结果和目标标注信息进行模型参数调整,获得已训练的文本分类模型,提高文本分类准确率。
[0161]
参阅图7所示,为本技术中的一种文本分类方法的具体流程图,以待标注文本为搜索关键词,执行主体为服务器为例,具体包括以下步骤s701-s708:
[0162]
s701:服务器获取待标注搜索关键词;
[0163]
s702:服务器获取搜索结果页的视频曝光结果;
[0164]
s703:服务器基于每个视频的类别以及曝光次数、点击次数,获得搜索关键词的类别信息;
[0165]
s704:服务器基于搜索关键词和对应的类别,构建参考样本和查询样本;
[0166]
s705:服务器将查询样本和参考样本分别表示为特征向量;
[0167]
s706:服务器查找与查询样本相似度最高的n个参考样本;
[0168]
s707:服务器基于n个参考样本的类别信息对查询样本的类别信息进行调整;
[0169]
s708:服务器通过调整后的查询样本构建训练样本数据集,训练文本分类模型。
[0170]
在本技术实施例中,首先获取用户的搜索关键词文本集合,以及用户搜索结果曝光页中视频类别信息,根据视频类型计算出用户搜索关键词的类别分布,从而对用户搜索关键词的类别初步标注;将一部分初步标注好的样本作为参考样本,构造参考样本集合;将剩下的初步标注的样本保留初始的标注信息,组成查询样本集合;分别将伪专家样本集和查询样本集中的样本表示成向量形式,对每一个查询样本向量,查找与之相似度最高的n个参考样本,参考这n个参考样本的标注信息对该查询样本自身的标注做调整;最终获得查询样本集合的标注结果,用该查询样本集作为训练样本,完成文本分类模型的训练。
[0171]
基于本技术中的文本分类方法,能够对用户搜索关键词的意图进行分类,可以挖掘用户潜在的核心搜索需求,根据不同的用户需求搜索引擎会使用不同的检索策略,最终返回满足用户需求的内容。在“教育”,“音乐”,“游戏”,“体育”等四种意图类别上,使用本技术中方法自动标注获得的标注样本训练模型,可以在人工评估的测试集上均获得f1分数在0.85左右的基础效果,可以初步投入到线上的应用中。此过程积累的训练样本和模型可以作为一个比较不错的迭代起点,支持后续的模型优化。同时,本技术中提出的方法可以实现自动化的样本标注,因此可以实现自动化的线上模型迭代更新。
[0172]
参阅图8a,其为本技术实施例中的一种文本分类方法的逻辑示意图,首先输入多个待标注文本,基于待标注文本的搜索结果对待标注文本进行初步标注,获得多个查询样本和多个参考样本。以查询样本1“2020全明星赛”为例,对应的初始标注信息为:第一概率={类别1:0.5,类别2:0.3,类别3:0.2},基于字符分割方式一进行字符分割获得查询样本向量a,基于字符分割方式二进行字符分割获得查询样本向量b;通过向量相似度,获得查询样本向量a对应的参考样本向量1和参考样本向量2,也即查询样本1对应参考样本1和参考样本2,基于参考样本1和参考样本2对查询样本1的第一概率进行调整,获得查询样本1对应各类别的第一种第二概率={体育:0.4,游戏:0.3,音乐:0.3};通过向量相似度,获得查询样本向量b对应的参考样本向量3和参考样本向量4,也即查询样本1对应参考样本3和参考样本4,基于参考样本3和参考样本4对查询样本1的第一概率进行调整,获得查询样本1对应各类别的第二种第二概率={体育:0.6,游戏:0.3,音乐:0.1};基于查询样本1对应的两种第二概率和自身的第一概率,获得查询样本1对应的第三概率={体育:1.5,游戏:0.9,音乐:0.6},则查询样本1的目标标注信息为体育,即查询样本1对应的类别为体育。基于上述方式可以对多个待标注文本进行分类,并基于查询样本和对应的目标标注信息构建训练样
本数据集,用于训练文本分类模型。
[0173]
本技术实施例提供了一种可以快速自动化的获取样本标注信息的方式,根据搜索关键词在搜索结果页面中曝光的视频类型,初步获取搜索关键词的类别;但这种自动化的方式会存在一些噪声,因此随后使用无监督的方式对搜索关键词的类别做矫正,获得较为准确的类别标注信息,为模型训练和模型的快速迭代提供数据支持。
[0174]
参阅图8b,其为本技术实施例中的一种标注信息调整过程的示意图,输入的待标注文本为“2021西部总决赛”,通过基于“2021西部总决赛”的搜索结果的类别以及曝光次数、次数,进行初步标注后,获得“2021西部总决赛”的初始标注信息为{体育:0.6,游戏2:0.3,音乐:0.1},进一步的,对“2021西部总决赛”进行字符分割、编码,根据余弦相似度获得“2021西部总决赛”对应的参考样本“2021东部半决赛”和参考样本“世界杯总决赛”,分别基于“2021东部总决赛”的初始标注信息{体育:0.5,游戏2:0.3,音乐:0.2},和“世界杯总决赛”的初始标注信息{体育:0.4,游戏2:0.4,音乐:0.2},对“2021西部总决赛”的初始标注信息进行调整,获得对应的目标标注信息为体育,即“2021西部总决赛”对应的类别为体育。
[0175]
基于相同的发明构思,本技术实施例还提供一种文本分类装置。如图9所示,其为文本分类装置900的结构示意图,可以包括:
[0176]
获取单元901,用于获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定各待标注文本各自的初始标注信息;
[0177]
构建单元902,用于分别基于各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,参考样本用于对对应的查询样本的初始标注信息进行调整;
[0178]
确定单元903,用于基于各查询样本和各参考样本的初始标注信息,确定各查询样本各自的目标标注信息;
[0179]
训练单元904,用于基于各查询样本和各自的目标标注信息构建训练样本数据集,并基于训练样本数据集进行文本分类模型训练,文本分类模型用于对待分类文本进行分类。
[0180]
可选的,初始标注信息包括:相应的待标注文本对应各类别的第一概率,反馈行为信息包括各搜索结果的点击次数和曝光次数;获取单元901具体用于:
[0181]
对于每个待标注文本,分别执行以下操作:
[0182]
分别基于一个待标注文本对应的同一类别搜索结果的曝光总次数和点击总次数,确定一个待标注文本对应各类别的曝光率和点击率;
[0183]
分别基于一个待标注文本对应各类别的曝光率和点击率,确定一个待标注文本对应各类别的第一概率。
[0184]
可选的,获取单元901具体用于:
[0185]
基于一个待标注文本对应的同一类别搜索结果的曝光总次数,以及一个待标注文本对应的所有搜索结果的曝光总次数,确定一个待标注文本对应各类别的曝光率;
[0186]
基于一个待标注文本对应的同一类别的搜索结果的点击总次数,以及各待标注文本对应的所有搜索结果的点击总次数,确定一个待标注文本对应各类别的点击率。
[0187]
可选的,确定单元903具体用于:
[0188]
按照预设的字符分割方式分别将各查询样本和各参考样本进行字符分割,获得各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符;
[0189]
分别基于各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符,获得各查询样本各自对应的查询样本向量,和各参考样本各自对应的参考样本向量;
[0190]
分别基于各查询样本向量与各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。
[0191]
可选的,确定单元903具体用于:
[0192]
分别基于已训练的语言模型对各查询样本包含的查询样本字符,和各参考样本包含的参考样本字符进行编码,获得各查询样本各自对应的至少一个查询样本字符向量,和各参考样本各自对应的至少一个参考样本字符向量;
[0193]
分别基于各查询样本各自对应的至少一个查询样本字符向量,确定各查询样本各自对应的查询样本向量,以及,分别基于各参考样本各自对应的至少一个参考样本字符向量,确定各参考样本各自对应的参考样本向量。
[0194]
可选的,按照以下至少一种预设的字符分割方式将各待分割文本进行字符分割,待分割文本为参考样本或查询样本:
[0195]
对于每个查询样本,分别执行以下操作:
[0196]
将一个待分割文本按照预设字符粒度进行字符分割;
[0197]
将一个待分割文本按照以实体词语作为整体字符,以非实体词语依据预设字符粒度的方式,进行字符分割。
[0198]
可选的,每个查询样本对应至少一个查询样本向量,每个参考样本对应至少一个参考样本向量,确定单元903具体用于:
[0199]
分别基于各查询样本向量对应的字符分割方式,筛选出与各查询样本向量字符分割方式相同的各参考样本向量;
[0200]
分别基于各查询样本向量与相应的各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。
[0201]
可选的,通过以下方式获得已训练的语言模型:
[0202]
从历史数据中获取至少一个待评估文本组成的语料集,并按照预设的字符分割方式将语料集分割成字符集;
[0203]
基于字符集对待训练的语言模型进行训练,获得训练好的语言模型。
[0204]
可选的,初始标注信息包括:相应的待标注文本对应各类别的第一概率;确定单元903具体用于:
[0205]
对于每个查询样本,分别执行以下操作:
[0206]
基于一个查询样本对应的各参考样本的第一概率,以及相应的参考样本与一个查询样本之间的相似度,确定一个查询样本对应各类别的第二概率,一个查询样本对应至少一个第二概率;
[0207]
基于至少一个第二概率,以及一个查询样本的第一概率,确定一个查询样本的目标标注信息。
[0208]
可选的,确定单元903具体用于:
[0209]
基于至少一个第二概率与一个查询样本的第一概率之和,确定查询样本对应各搜索结果的类别的第三概率;
[0210]
将最高的第三概率对应的类别,作为查询样本的目标标注信息。
[0211]
可选的,文本分类模型包括至少一个文本二分类模型,每个文本二分类模型的训练样本数据集包括正样本集和负样本集;训练单元904具体用于:
[0212]
将查询样本中目标标注信息为目标类别的查询样本作为正样本集;
[0213]
按照分层抽样的方式,在查询样本中目标标注信息为非目标类别的各类查询样本中,分别抽取预设比例的查询样本组成负样本集。
[0214]
由于本技术实施例中,首先获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定各待标注文本各自的初始标注信息,能够根据待标注文本对应的搜索结果类别,初步获得待标注文本的类别分布;然后,分别基于各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,并基于各查询样本和各参考样本的初始标注信息,确定各查询样本各自的目标标注信息,能够基于参考样本的初始标注信息,对查询样本的初始标注信息进行调整,提高查询样本标注的准确率;最后,基于各查询样本和各自的目标标注信息构建训练样本数据集,并基于训练样本数据集进行文本分类模型训练。基于上述方式,能够实现快速的样本自动标注,提高样本标注准确率,进而基于生成的训练样本进行文本分类模型训练,能够提高文本分类准确率。
[0215]
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本技术时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
[0216]
所属技术领域的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0217]
与上述方法实施例基于同一发明构思,本技术实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是服务器,如图1所示的服务器120。在该实施例中,电子设备的结构可以如图10所示,包括存储器1001,通讯模块1003以及一个或多个处理器1002。
[0218]
存储器1001,用于存储处理器1002执行的计算机程序。存储器1001可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
[0219]
存储器1001可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器1001也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);或者存储器1001是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1001可以是上述存储器的组合。
[0220]
处理器1002,可以包括一个或多个中央处理单元(central processing unit,cpu)或者为数字处理单元等等。处理器1002,用于调用存储器1001中存储的计算机程序时实现上述文本分类方法。
[0221]
通讯模块1003用于与终端设备和其他服务器进行通信。
[0222]
本技术实施例中不限定上述存储器1001、通讯模块1003和处理器1002之间的具体连接介质。本技术实施例在图10中以存储器1001和处理器1002之间通过总线1004连接,总
线1004在图10中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1004可以分为地址总线、数据总线、控制总线等。为便于描述,图10中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
[0223]
存储器1001中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本技术实施例的文本分类方法。处理器1002用于执行上述的文本分类方法,如图2所示。
[0224]
在另一种实施例中,电子设备也可以是其他电子设备,如图1所示的终端设备110。在该实施例中,电子设备的结构可以如图11所示,包括:通信组件1110、存储器1120、显示单元1130、摄像头1140、传感器1150、音频电路1160、蓝牙模块1170、处理器1180等部件。
[0225]
通信组件1110用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(wireless fidelity,wifi)模块,wifi模块属于短距离无线传输技术,电子设备通过wifi模块可以帮助用户收发信息。
[0226]
存储器1120可用于存储软件程序及数据。处理器1180通过运行存储在存储器1120的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。本技术中存储器1120可以存储操作系统及各种应用程序,还可以存储执行本技术实施例文本分类方法的计算机程序。
[0227]
显示单元1130还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,gui)。具体地,显示单元1130可以包括设置在终端设备110正面的显示屏1132。显示单元1130可以用于显示本技术实施例中的机器翻译用户界面等。
[0228]
显示单元1130还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1130可以包括设置在终端设备110正面的触摸屏1131,可收集用户在其上或附近的触摸操作。
[0229]
其中,触摸屏1131可以覆盖在显示屏1132之上,也可以将触摸屏1131与显示屏1132集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本技术中显示单元1130可以显示应用程序以及对应的操作步骤。
[0230]
摄像头1140可用于捕获静态图像,用户可以将摄像头1140拍摄的图像通过应用发布评论。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1180转换成数字图像信号。
[0231]
终端设备还可以包括至少一种传感器1150,比如加速度传感器1151、距离传感器1152、指纹传感器1153、温度传感器1154。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
[0232]
音频电路1160、扬声器1161、传声器1162可提供用户与终端设备110之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出。另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出至通信组件1110以发送给比如另一终端设备110,或者将音频数据输出至存储器1120以便进一步处理。
[0233]
蓝牙模块1170用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。
[0234]
处理器1180是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1120内的软件程序,以及调用存储在存储器1120内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1180可包括至少一个处理单元;处理器1180还可以集成应用处理器和基带处理器。本技术中处理器1180可以运行操作系统、应用程序、用户界面显示及触控响应,以及本技术实施例的文本分类方法。另外,处理器1180与显示单元1130耦接。
[0235]
在一些可能的实施方式中,本技术提供的文本分类方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的文本分类方法中的步骤,例如,电子设备可以执行如图2中所示的步骤。
[0236]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0237]
本技术的实施方式的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括计算机程序,并可以在电子设备上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
[0238]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
[0239]
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0240]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
[0241]
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多
单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0242]
此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0243]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0244]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0245]
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0246]
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0247]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0248]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:
1.一种文本分类方法,其特征在于,该方法包括:获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定所述各待标注文本各自的初始标注信息;分别基于所述各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,所述参考样本用于对对应的查询样本的初始标注信息进行调整;基于各查询样本和各参考样本的初始标注信息,确定所述各查询样本各自的目标标注信息;基于所述各查询样本和各自的目标标注信息构建训练样本数据集,并基于所述训练样本数据集进行文本分类模型训练,所述文本分类模型用于对待分类文本进行分类。2.如权利要求1所述的方法,其特征在于,所述初始标注信息包括:相应的待标注文本对应各类别的第一概率,所述反馈行为信息包括各搜索结果的点击次数和曝光次数;所述根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定所述各待标注文本各自的初始标注信息,包括:对于每个待标注文本,分别执行以下操作:分别基于一个待标注文本对应的同一类别搜索结果的曝光总次数和点击总次数,确定所述一个待标注文本对应各类别的曝光率和点击率;分别基于所述一个待标注文本对应各类别的曝光率和点击率,确定所述一个待标注文本对应各类别的第一概率。3.如权利要求2所述的方法,其特征在于,所述分别基于一个待标注文本对应的同一类别搜索结果的曝光总次数和点击总次数,确定所述一个待标注文本对应各类别的曝光率和点击率,包括:基于一个待标注文本对应的同一类别搜索结果的曝光总次数,以及所述一个待标注文本对应的所有搜索结果的曝光总次数,确定所述一个待标注文本对应各类别的曝光率;基于一个待标注文本对应的同一类别的搜索结果的点击总次数,以及各待标注文本对应的所有搜索结果的点击总次数,确定所述一个待标注文本对应各类别的点击率。4.如权利要求1所述的方法,其特征在于,通过下列方式获得各查询样本各自对应的各参考样本:按照预设的字符分割方式分别将各查询样本和各参考样本进行字符分割,获得各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符;分别基于各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符,获得所述各查询样本各自对应的查询样本向量,和所述各参考样本各自对应的参考样本向量;分别基于各查询样本向量与各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。5.如权利要求4所述的方法,其特征在于,所述分别基于各查询样本各自包含的查询样本字符,和各参考样本各自包含的参考样本字符,获得所述各查询样本各自对应的查询样本向量,和所述各参考样本各自对应的参考样本向量,包括:分别基于已训练的语言模型对各查询样本包含的查询样本字符,和各参考样本包含的参考样本字符进行编码,获得各查询样本各自对应的至少一个查询样本字符向量,和各参
考样本各自对应的至少一个参考样本字符向量;分别基于所述各查询样本各自对应的至少一个查询样本字符向量,确定所述各查询样本各自对应的查询样本向量,以及,分别基于所述各参考样本各自对应的至少一个参考样本字符向量,确定所述各参考样本各自对应的参考样本向量。6.如权利要求4所述的方法,其特征在于,按照以下至少一种预设的字符分割方式将各待分割文本进行字符分割,所述待分割文本为参考样本或查询样本:对于每个查询样本,分别执行以下操作:将一个待分割文本按照预设字符粒度进行字符分割;将一个待分割文本按照以实体词语作为整体字符,以非实体词语依据预设字符粒度的方式,进行字符分割。7.如权利要求4所述的方法,其特征在于,每个查询样本对应至少一个查询样本向量,每个参考样本对应至少一个参考样本向量,所述分别基于各查询样本向量与各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本,包括:分别基于各查询样本向量对应的字符分割方式,筛选出与各查询样本向量字符分割方式相同的各参考样本向量;分别基于各查询样本向量与相应的各参考样本向量之间的相似度,获得各查询样本各自对应的参考样本。8.如权利要求5所述的方法,其特征在于,通过以下方式获得已训练的语言模型:从历史数据中获取至少一个待评估文本组成的语料集,并按照预设的字符分割方式将所述语料集分割成字符集;基于所述字符集对待训练的语言模型进行训练,获得训练好的语言模型。9.如权利要求1~8任一项所述的方法,其特征在于,所述初始标注信息包括:相应的待标注文本对应各类别的第一概率;所述基于各查询样本和各参考样本的初始标注信息,获得所述各查询样本各自的目标标注信息,包括:对于每个查询样本,分别执行以下操作:基于一个查询样本对应的各参考样本的第一概率,以及相应的参考样本与所述一个查询样本之间的相似度,确定所述一个查询样本对应各类别的第二概率,所述一个查询样本对应至少一个第二概率;基于所述至少一个第二概率,以及所述一个查询样本的第一概率,确定所述一个查询样本的目标标注信息。10.如权利要求9所述的方法,其特征在于,所述基于所述至少一个第二概率,以及所述一个查询样本的第一概率,确定所述一个查询样本的目标标注信息:基于所述至少一个第二概率与所述一个查询样本的第一概率之和,确定所述查询样本对应各搜索结果的类别的第三概率;将最高的第三概率对应的类别,作为所述查询样本的目标标注信息。11.如权利要求1~8中任一项所述的方法,其特征在于,所述文本分类模型包括至少一个文本二分类模型,每个文本二分类模型的训练样本数据集包括正样本集和负样本集;所述基于所述各查询样本和各自的目标标注信息构建训练样本数据集,包括:将所述查询样本中目标标注信息为目标类别的查询样本作为正样本集;
按照分层抽样的方式,在所述查询样本中目标标注信息为非目标类别的各类查询样本中,分别抽取预设比例的查询样本组成负样本集。12.一种文本分类装置,其特征在于,该装置包括:获取单元,用于获取多个待标注文本,并根据各待标注文本各自对应的各搜索结果的类别及相关的反馈行为信息,确定所述各待标注文本各自的初始标注信息;构建单元,用于分别基于所述各待标注文本以及各自的初始标注信息,构建多个查询样本和多个参考样本,所述参考样本用于对对应的查询样本的初始标注信息进行调整;确定单元,用于基于各查询样本和各参考样本的初始标注信息,确定所述各查询样本各自的目标标注信息;训练单元,用于基于所述各查询样本和各自的目标标注信息构建训练样本数据集,并基于所述训练样本数据集进行文本分类模型训练,所述文本分类模型用于对待分类文本进行分类。13.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~11中任一所述方法的步骤。14.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~11中任一所述方法的步骤。15.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序存储在计算机可读存储介质中;当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时,所述处理器执行所述计算机程序,使得所述电子设备执行权利要求1~11中任一所述方法的步骤。
技术总结
本申请涉及计算机技术领域,尤其涉及一种文本分类方法、装置、电子设备和存储介质,用以快速且准确的标注样本。其中,方法包括:获取多个待标注文本,并根据对应的搜索结果的类别及相关的反馈行为信息,确定待标注文本各自的初始标注信息;基于待标注文本以及初始标注信息,构建多个查询样本和多个参考样本;基于查询样本和参考样本的初始标注信息,确定查询样本各自的目标标注信息;基于查询样本和各自的目标标注信息构建训练样本数据集,并进行文本分类模型训练。由于本申请通过参考样本对对应的查询样本的初始标注信息进行调整,并基于调整后的查询样本构建训练样本数据集,能够提高样本标注的准确率,进而提高文本分类准确率。进而提高文本分类准确率。进而提高文本分类准确率。
技术研发人员:刘婧月
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.02.10
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
