一种内容识别的方法、相关装置、设备以及存储介质与流程

未命名 08-25 阅读:129 评论:0


1.本技术涉及计算机技术领域,尤其涉及一种内容识别的方法、相关装置、设备以及存储介质。


背景技术:

2.在公众号内容的日常运营中,由于进行内容创作的门槛不低,因此,存在一些主体通过无授权转载、抄袭、机器造文以及复制粘贴等方式,矩阵式群发图文内容。以低成本且廉价的方式获得大量流量,然后通过广告和导流等方式变现,获取大量利益。
3.矩阵式群发的内容可能会给公众号内容的生态带来较大的损失。目前,通常可采用聚类算法识别出属于矩阵式群发的内容。具体而言,当累积到一定数量的内容时,对这些内容进行聚类,再根据聚类结果确定属于矩阵式群发的内容。
4.发明人发现现有方案中至少存在如下问题,上述方式虽然能在一定程度上节省人工审核的成本。但是,一方面需要等待内容累积到一定数量才能进行聚类,另一方面,还要考虑将前后两次的聚类结果进行合并或重新聚类,因此,导致内容识别的实时性较差。


技术实现要素:

5.本技术实施例提供了一种内容识别的方法、相关装置、设备以及存储介质。本技术对于获取到的待识别内容而言,可直接对其进行聚类,从而能够更好地适应于流式内容场景,并且提升内容识别的实时性。
6.有鉴于此,本技术一方面提供一种内容识别的方法,包括:
7.获取待识别内容所对应的第一特征向量;
8.根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,从q个内容样本中召回满足相似度条件的m个内容样本,其中,每个内容样本对应于一个类别标识,m与q均为大于或等于1的整数,且m小于或等于q;
9.根据m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到所述各个类别标识所对应的内容样本数量;
10.根据各个类别标识所对应的内容样本数量,获取待识别内容所对应的目标类别标签。
11.本技术另一方面提供一种内容识别装置,包括:
12.获取模块,用于获取待识别内容所对应的第一特征向量;
13.获取模块,还用于根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,从q个内容样本中召回满足相似度条件的m个内容样本,其中,每个内容样本对应于一个类别标识,m与q均为大于或等于1的整数,且m小于或等于q;
14.确定模块,用于根据m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到所述各个类别标识所对应的内容样本数量;
15.获取模块,还用于根据各个类别标识所对应的内容样本数量,获取待识别内容所
对应的目标类别标签。
16.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,内容识别装置还包括处理模块;
17.处理模块,还用于获取待识别内容所对应的第一特征向量之前,对在预设时长内获取到的内容进行两两相似度计算;
18.确定模块,还用于将相似度大于或等于相似度阈值的内容作为同一个聚类结果;
19.获取模块,还用于根据同一个聚类结果获取待识别内容。
20.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
21.处理模块,还用于获取待识别内容所对应的第一特征向量之前,若在预设时长内获取到的内容数量达到数量阈值,则对在预设时长内获取到的内容进行两两相似度计算,其中,n为大于1的整数;
22.确定模块,还用于将相似度大于或等于相似度阈值的内容作为同一个聚类结果;
23.获取模块,还用于根据同一个聚类结果获取待识别内容。
24.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
25.处理模块,还用于获取待识别内容所对应的第一特征向量之后,若不存在内容样本,则生成待识别内容的新增类别标识;
26.处理模块,还用于根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
27.处理模块,还用于根据新增类别标识与待识别内容之间的映射关系,将待识别内容的标识以及新增类别标识存储至第二数据库。
28.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
29.获取模块,具体用于根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本,其中,t为大于或等于1的整数;
30.从前t个内容样本中获取满足相似度条件的m个内容样本。
31.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
32.获取模块,还用于根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本之前,获取召回数设置请求,其中,召回数设置请求携带t的值;
33.获取模块,具体用于若t的值小于或等于q的值,则执行根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本的步骤;
34.获取模块,还用于若t的值大于q的值,则通过调用第一数据库召回q个内容样本;
35.获取模块,还用于从q个内容样本中获取满足相似度条件的m个内容样本。
36.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
37.获取模块,具体用于针对前t个内容样本中的每个内容样本,根据第一特征向量与内容样本的第二特征向量,确定待识别内容与内容样本的相似度;
38.若前t个内容样本中存在相似度大于或等于相似度阈值的至少一个内容样本,则
将至少一个内容样本作为m个内容样本;
39.或者,
40.获取模块,具体用于针对前t个内容样本中的每个内容样本,根据第一特征向量与内容样本的第二特征向量,确定待识别内容与内容样本的相似距离;
41.若前t个内容样本中存在相似距离小于或等于相似距离阈值的至少一个内容样本,则将至少一个内容样本作为m个内容样本。
42.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
43.处理模块,还用于获取待识别内容所对应的第一特征向量之后,若不存在满足相似度条件的内容样本,则生成待识别内容的新增类别标识;
44.处理模块,还用于根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
45.处理模块,还用于根据新增类别标识与待识别内容之间的映射关系,将待识别内容的标识以及新增类别标识存储至第二数据库。
46.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
47.确定模块,具体用于根据m个内容样本中每个内容样本的类别标识,将具有相同类别标识的内容样本关联至同一个类别标识,得到各个类别标识所对应的内容样本数量;
48.获取模块,具体用于根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识;
49.根据目标类别标识,确定待识别内容所对应的目标类别标签。
50.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
51.处理模块,还用于根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识之后,根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
52.处理模块,还用于根据目标类别标识与待识别内容之间的映射关系,将待识别内容的标识以及目标类别标识存储至第二数据库。
53.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
54.获取模块,具体用于确定至少一个类别标识中每个类别标识所关联的内容样本数量;
55.将内容样本数量最大值所对应的类别标识作为待识别内容的目标类别标识;
56.根据目标类别标识,确定待识别内容所对应的目标类别标签。
57.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
58.获取模块,具体用于确定至少一个类别标识中每个类别标识所关联的内容样本数量;
59.若存在至少两个类别标识所关联的内容样本数量相等,则根据至少两个类别标识中每个类别标识所关联的内容样本,以及,内容样本的召回相似度排名,计算每个类别标识所对应的平均排名;
60.将最高平均排名所对应的类别标识作为待识别内容的目标类别标识。
61.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
62.获取模块,具体用于确定至少一个类别标识中每个类别标识所关联的内容样本数量;
63.若存在至少两个类别标识所关联的内容样本数量相等,则根据至少两个类别标识中每个类别标识所关联的内容样本,计算每个类别标识所对应的平均特性向量;
64.根据每个类别标识所对应的平均特性向量与第一特征向量之间的相似度,确定作为待识别内容的目标类别标识。
65.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
66.获取模块,具体用于响应针对于目标类别标识的标签标注指令,确定待识别内容所对应的目标类别标签;
67.获取模块,还用于将与目标类别标识关联的内容样本以及待识别内容作为待训练样本集合,其中,待训练样本集合标注为目标类别标签;
68.获取模块,还用于获取待训练样本集合中每个待训练样本的内容特征以及账号信息;
69.获取模块,还用于获取待训练样本集合的聚类相似特征;
70.获取模块,还用于基于待训练样本集合的聚类相似特征、每个待训练样本的内容特征以及账号信息,通过类别识别模型获取第一类别概率分布;
71.处理模块,还用于根据目标类别标签以及第一类别概率分布,对类别识别模型的模型参数进行更新。
72.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
73.获取模块,具体用于将与目标类别标识关联的内容样本以及待识别内容作为预测样本集合;
74.获取预测样本集合中每个预测样本的内容特征以及账号信息;
75.获取预测样本集合的聚类相似特征;
76.基于预测样本集合的聚类相似特征、每个预测样本的内容特征以及账号信息,通过类别识别模型获取第二类别概率分布;
77.根据第二类别概率分布确定待识别内容所对应的目标类别标签。
78.在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,
79.处理模块,还用于若待识别内容为文本内容,则对待识别内容进行特征提取,得到第一特征向量;
80.或者,
81.处理模块,还用于若待识别内容为图片内容,则通过编码器对待识别内容进行编码,得到图像特征向量;
82.处理模块,还用于通过投影头对图像特征向量进行非线性变换,得到第一特征向量。
83.本技术另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
84.其中,存储器用于存储程序;
85.处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
86.总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
87.本技术的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
88.本技术的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
89.从以上技术方案可以看出,本技术实施例具有以下优点:
90.本技术实施例中,提供了一种内容识别的方法,首先可获取待识别内容所对应的第一特征向量,然后根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,从q个内容样本中召回满足相似度条件的m个内容样本。基于此,可根据m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到各个类别标识所对应的内容样本数量。最后,结合至少一个类别标识,获取待识别内容的目标类别标签。通过上述方式,当获得新的待识别内容时,先召回与待识别内容相似程度较高的若干内容样本,然后基于这些内容样本已知的聚类类别,确定待识别内容可归入的聚类类别,进而得到目标类别标签。可见,对于获取到的待识别内容而言,可采用统计类别标识的形式对其进行聚类,从而能够更好地适应于流式内容场景,并且提升内容识别的实时性。
附图说明
91.图1为本技术实施例中内容识别系统的一个物理架构示意图;
92.图2为本技术实施例中内容识别系统的一个逻辑架构示意图;
93.图3为本技术实施例中内容识别方法的一个流程示意图;
94.图4为本技术实施例中内容识别系统的一个设置界面示意图;
95.图5为本技术实施例中内容识别系统的一个标注界面示意图;
96.图6为本技术实施例中类别识别模型的一个结构示意图;
97.图7为本技术实施例中内容识别系统的一个结果展示界面示意图;
98.图8为本技术实施例中基于文本内容进行识别的一个示意图;
99.图9为本技术实施例中基于图片内容进行识别的一个示意图;
100.图10为本技术实施例中内容识别装置的一个示意图;
101.图11为本技术实施例中终端设备的一个结构示意图;
102.图12为本技术实施例中服务器的一个结构示意图。
具体实施方式
103.本技术实施例提供了一种内容识别的方法、相关装置、设备以及存储介质。本技术对于获取到的待识别内容而言,可直接对其进行聚类,从而能够更好地适应于流式内容场景,并且提升内容识别的实时性。
104.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除
了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
105.随着互联网技术的发展,可供用户浏览和搜索的数据量也不断增加。为了能够更好地分析和运用这些数据,可采用聚类算法对数据进行相似度比较,将相似度高的数据归为一类。聚类是一种无监督学习方式,目的是把一个数据根据某种规则划分为多个子数据,一个子数据就称为一个聚类。聚类分析在文本分析、图片分析、商务应用、网页搜索、推荐系统和生物医学等多个领域都有着十分广泛的应用。
106.为了能够对数据进行实时性更好的处理,本技术提供一种流式聚类方法,能够应用于如下场景。需要说明的是,实际应用场景不仅限于此。
107.一、检测矩阵式内容;
108.矩阵式内容主要是指一些主体(例如,工作室、个人商户或者个人等)批量注册大批公众号,然后发布一些不需要太多成本创作的内容。这些内容通常是相似的、模板式的、转载抄袭的或者复制黏贴的等。通过极低的内容创作成本,利用其经营的大量账号进行海量群发。其中,一批账号之间的文章相似程度极高,且内容上无太多可用信息。
109.二、去重用户已读文章;
110.对于热点时事可能会有大量的相关报道和新闻内容,用户可能会读到很多内容相似的文章。为此,推荐系统利用本技术提供的内容识别方法,能够识别出用户已经读过的文章,从而为用户推送更多内容重复度更少的文章。
111.下面将以物理架构的角度对内容识别系统进行介绍。
112.本技术提出的内容识别方法可应用于图1所示的内容识别系统,请参阅图1,图1为本技术实施例中内容识别系统的一个物理架构示意图,如图所示,互动信息的好友推荐系统包括服务器和终端设备,且客户端部署于终端设备上,其中,客户端可以通过浏览器的形式运行于终端设备上,也可以通过独立的应用程序(application,app)的形式运行于终端设备上等,对于客户端的具体展现形式,此处不做限定。本技术涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。服务器和终端设备的数量也不做限制。本技术提供的方案可以由终端设备独立完成,也可以由服务器独立完成,还可以由终端设备与服务器配合完成,对此,本技术并不做具体限定。
113.以图1所示的内容识别系统为例,作者可通过终端设备发布内容(例如,文章或图片等)。服务器基于实时获取到的内容,通过调用数据库中已有内容的特征向量对获取到的内容进行聚类处理,并将聚类情况反馈到后台。后台人员可基于聚类结果审核是否属于相似内容,或者,通过神经网络自动对聚类结果进行分析,得到是否属于相似内容的反馈结果。对于相似内容可以不再为用户推送。
114.下面将以逻辑架构的角度对内容识别系统进行介绍。
115.本技术提出的内容识别方法可应用于图2所示的内容识别系统,请参阅图2,图2为本技术实施例中内容识别系统的一个逻辑架构示意图,如图所示,内容识别系统主要分为数据层、聚类层和索引层,具体地:
116.示例性地,针对数据层,在步骤s11中,获取群发的x个新的样例(例如,文章),x为大于或等于1的整数。对此,在步骤s12中,计算每个新样例的特征向量。基于此,如果x的值较大(例如,大于5000),则在步骤s13中,对这x个新样例进行预聚类。由此,在步骤s14中,得到聚类后的y个聚类中心,通常情况下,y小于x。
117.示例性地,针对聚类层,将y个聚类中心作为y个样例,为了便于说明,下面将以y个样例中的任意一个样例为例进行介绍。在步骤s21中,从第一数据库中召回与样例最相近的若干个(例如,1k个)样例样本。在步骤s22中,通过查询第二数据库,分别获取若干个(例如,1k个)样例样本的类别记录。在步骤b23中,以投票的方式统计t个样例样本的类别数量,将具有最多数量的类别作为该样例的类别。
118.示例性地,针对聚类层,在步骤b31中,将样例的标识及其对应的特征向量写入至第一数据库,并且,在步骤b32中,将样例的标识及其对应的类别标识写入至第二数据库。
119.结合上述介绍,下面将对本技术中内容识别的方法进行介绍,请参阅图3,本技术实施例中内容识别方法的一个实施例包括:
120.110、获取待识别内容所对应的第一特征向量;
121.在一个或多个实施例中,内容识别装置获取待识别内容,并对待识别内容进行特征提取的处理,得到第一特征向量。
122.需要说明的是,内容识别装置可部署于服务器,也可以部署于终端设备,或者,部署于由服务器和终端设备组成的系统,本技术不做限定。
123.120、根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,从q个内容样本中召回满足相似度条件的m个内容样本,其中,每个内容样本对应于一个类别标识,m与q均为大于或等于1的整数,且m小于或等于q;
124.在一个或多个实施例中,内容识别装置基于第一特征向量,从第一数据库中先召回t个内容样本,再从t个内容样本中选择满足相似度条件的m个内容样本。其中,第一数据库属于相似向量检索的数据库,能够提供模糊匹配的功能。
125.具体地,第一数据库存储有q组内容样本信息,每组内容样本信息包括内容样本的标识(identity document,id)及其对应的第二特征向量,例如,内容样本的id为“0”,其对应的第二特征向量为“[101,108,3523,656,

,7984]”。
[0126]
需要说明的是,第一数据库包含但不仅限于基于人工智能的相似向量检索(facebook artificial intelligence similarity search,faiss)数据库,以及,可导航小世界网络(hierarchical navigable small world,hnsw)。
[0127]
130、根据m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到各个类别标识所对应的内容样本数量;
[0128]
在一个或多个实施例中,内容识别装置基于内容样本中每个内容样本的id,从第二数据库中查找到每个内容样本的类别标识。由此,可统计各个类别标识下的内容样本数量,即,进行对各个类别标识进行投票。从而得到各个类别标识所对应的内容样本数量。其
中,第二数据库属于关系型数据库或键值数据库。
[0129]
具体地,第二数据库存储内容样本的id及其对应的类别标识。例如,内容样本的id为“0”的类别标识为“a”。
[0130]
需要说明的是,第二数据库包含但不仅限于关系型数据库管理系统(mysql),以及,结构化查询语言服务器(structured query language server,sql server)数据库。
[0131]
140、根据各个类别标识所对应的内容样本数量,获取待识别内容所对应的目标类别标签。
[0132]
在一个或多个实施例中,内容识别装置根据各个类别标识所对应的内容样本数量,可选择内容样本数量最多的类别标识作为目标类别标识。基于此,将同样属于目标类别标识的待识别内容和内容样本作为一个聚类结果,并对该聚类结果打上标签,得到该聚类结果的目标类别标签。由此,可确定待识别内容的目标类别标签。
[0133]
示例性地,目标类别标签可以表示为一个标签,例如,“1”或“0”,其中,目标类别标签为“1”表示属于内容相似度较大的类别(例如,属于矩阵式内容),目标类别标签为“0”表示属于内容相似度较小的类别(例如,不属于矩阵式内容)。
[0134]
示例性地,目标类别标签可以表示为一个概率值,概率值为0至1。概率值越大,表示属于内容的相似程度越大,反之,概率值越低,表示属于内容的相似程度越小。
[0135]
本技术实施例中,提供了一种内容识别的方法。通过上述方式,当获得新的待识别内容时,先召回与待识别内容相似程度较高的若干内容样本,然后基于这些内容样本已知的聚类类别,确定待识别内容可归入的聚类类别,进而得到目标类别标签。可见,对于获取到的待识别内容而言,可采用统计类别标识的形式对其进行聚类,从而能够更好地适应于流式内容场景,并且提升内容识别的实时性。
[0136]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,获取待识别内容所对应的第一特征向量之前,还可以包括:
[0137]
对在预设时长内获取到的内容进行两两相似度计算;
[0138]
将相似度大于或等于相似度阈值的内容作为同一个聚类结果;
[0139]
根据同一个聚类结果获取待识别内容。
[0140]
在一个或多个实施例中,介绍了一种基于时长进行预聚类的方式。由前述实施例可知,对于流式聚类而言,可能存在内容高并发的情况。对此,本技术设置一个预设时长,可对预设时长内获取到的内容先进行聚类,即,进行预聚类。由此,得到y个聚类结果。
[0141]
具体地,假设预设时长为10秒,在预设时长内接收到x个新的内容。对此,分别计算每个内容的特征向量。示例性地,一种情况下,可计算两两之间的相似度(例如,余弦相似度),即,得到[x(x-1)/2]个相似度,将相似度大于或等于相似度阈值的内容作为同一个聚类结果,由此,可得到y个聚类结果。示例性地,另一种情况下,可计算两两之间的相似距离(例如,余弦距离),即,得到[x(x-1)/2]个相似距离,将相似距离小于或等于相似距离阈值的内容作为同一个聚类结果,由此,可得到y个聚类结果。
[0142]
基于此,针对于y个聚类结果中的每个聚类结果,确定其对应的聚类中心,将该聚类中心作为所属聚类结果对应的待识别内容。因此,y个聚类结果可得到y个聚类中心,每个聚类中心属于一个待识别内容。
[0143]
可以理解的是,聚类中心是所属聚类结果中的一个内容。可将聚类结果中的第一
个内容作为聚类中心,或者,从聚类结果中随机选择一个内容作为聚类中心,此处不做限定。
[0144]
需要说明的是,如果聚类中心属于目标类别标识,那么该聚类中心所属聚类结果中的其他内容也标记为该目标类别标识。
[0145]
其次,本技术实施例中,提供了一种基于时长进行预聚类的方式。通过上述方式,可对一段时间内获取到的内容进行预聚类,得到多个聚类中心。将一个聚类中心作为一个新的内容(即,待识别内容),从而减少内容的数量,由此,能够面对内容高并发的情况。
[0146]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,获取待识别内容所对应的第一特征向量之前,还可以包括:
[0147]
若在预设时长内获取到的内容数量达到数量阈值,则对在预设时长内获取到的内容进行两两相似度计算,其中,n为大于1的整数;
[0148]
将相似度大于或等于相似度阈值的内容作为同一个聚类结果;
[0149]
根据同一个聚类结果获取待识别内容。
[0150]
在一个或多个实施例中,介绍了一种基于数量进行预聚类的方式。由前述实施例可知,对于流式聚类而言,可能存在内容高并发的情况。对此,本技术设置一个预设时长和数量阈值。如果在预设时长内获取到的内容数量达到数量阈值,可对该预设时长内获取到的内容先进行聚类,即,进行预聚类。由此,得到y个聚类结果。
[0151]
具体地,假设预设时长为10秒,数量阈值为5000。在预设时长内(例如,3秒内)接收到x个新的内容,即,此时x等于5000。对此,分别计算每个内容的特征向量。示例性地,一种情况下,可计算两两之间的相似度(例如,余弦相似度),将相似度大于或等于相似度阈值的内容作为同一个聚类结果,由此,可得到y个聚类结果。示例性地,另一种情况下,可计算两两之间的相似距离(例如,余弦距离),将相似距离小于或等于相似距离阈值的内容作为同一个聚类结果,由此,可得到y个聚类结果。
[0152]
基于此,针对于y个聚类结果中的每个聚类结果,确定其对应的聚类中心,将该聚类中心作为所属聚类结果对应的待识别内容。因此,y个聚类结果可得到y个聚类中心,每个聚类中心属于一个待识别内容。
[0153]
可以理解的是,聚类中心是所属聚类结果中的一个内容。可将聚类结果中的第一个内容作为聚类中心,或者,从聚类结果中随机选择一个内容作为聚类中心,此处不做限定。
[0154]
需要说明的是,如果聚类中心属于目标类别标识,那么该聚类中心所属聚类结果中的其他内容也标记为该目标类别标识。
[0155]
其次,本技术实施例中,提供了一种基于数量进行预聚类的方式。通过上述方式,可对一定数量的内容进行预聚类,得到多个聚类中心。将一个聚类中心作为一个新的内容(即,待识别内容),从而减少内容的数量,由此,能够面对内容高并发的情况。
[0156]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,获取待识别内容所对应的第一特征向量之后,还可以包括:
[0157]
若不存在内容样本,则生成待识别内容的新增类别标识;
[0158]
根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
[0159]
根据新增类别标识与待识别内容之间的映射关系,将待识别内容的标识以及新增类别标识存储至第二数据库。
[0160]
在一个或多个实施例中,介绍了一种对首个内容进行自动归类的方式。由前述实施例可知,对于第一个进入系统的待识别内容而言,由于还没有可供聚类的其他内容样本,因此,可将该待识别内容作为第一个内容样本。
[0161]
具体地,对于第一个获取到的待识别内容,默认该待识别内容自成一类,并对该类别设置一个新的类别标识,即得到新增类别标识。基于此,可将待识别内容作为新的内容样本,并基于待识别内容的id、待识别内容的第一特征向量以及待识别内容的新增类别标识,更新第一数据库以及第二数据库。
[0162]
假设待识别内容的id为“0”,待识别内容的第一特征向量为[-0.39,0.75,0.82,

,-0.11],待识别内容的新增类别标识为“a”。基于此,为了便于介绍,请参阅表1,表1为第一数据库存储关系的一个示意。
[0163]
表1
[0164]
内容样本的id特征向量0[-0.39,0.75,0.82,

,-0.11]
[0165]
由此可见,待识别内容即作为第一数据库中新加入的内容样本,而待识别内容的第一特征向量即为内容样本的第二特征向量。
[0166]
请参阅表2,表2为第二数据库存储关系的一个示意。
[0167]
表2
[0168]
内容样本的id类别标识0a
[0169]
由此可见,待识别内容即作为第二数据库中新加入的内容样本,而待识别内容的新增类别标识即为内容样本的类别标识。
[0170]
需要说明的是,上述列表中的信息和表头仅为一个示意,在实际应用中,还有添加其他表头,此处不做限定。
[0171]
其次,本技术实施例中,提供了一种对首个内容进行自动归类的方式。通过上述方式,对于第一个进入系统的待识别内容,默认将该待识别内容划分为一类,由此,实现对内容的自动归类,便于进行后续处理。
[0172]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,从q个内容样本中召回满足相似度条件的m个内容样本,具体可以包括:
[0173]
根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本,其中,t为大于或等于1的整数;
[0174]
从前t个内容样本中获取满足相似度条件的m个内容样本。
[0175]
在一个或多个实施例中,介绍了一种从q个内容样本中提取m个内容样本的方式。由前述实施例可知,第一数据库可从已存储的q个内容样本中,召回与待识别内容相似度最大的前t个内容样本。然后进一步从这前t个内容样本中获取满足相似度条件的m个内容样本。
[0176]
具体地,假设t为1000,q为5000万,基于此,第一数据库根据待识别内容的第一特征向量以及q个内容样本中每个内容样本的第二特征向量,召回前1000个最相似的内容样本。由于这里的前t个内容样本未必都与待识别内容足够相似,因此,需要对前t个内容样本进行截断筛选,去除掉不满足相似度条件的内容样本,得到剩下的m个内容样本用于后续聚类继续。其中,m为小于或等于t的整数。
[0177]
其次,本技术实施例中,提供了一种从q个内容样本中提取m个内容样本的方式。通过上述方式,调用第一数据库可召回最近似的t个内容样本,由此,使得聚类效率与已有类别数量基本无关,从而提高实时性。而从t个内容样本中筛选出满足相似度条件的m个内容样本,能够控制聚类时内容样本的合理性。
[0178]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本之前,还可以包括:
[0179]
获取召回数设置请求,其中,召回数设置请求携带t的值;
[0180]
根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本,具体可以包括:
[0181]
若t的值小于或等于q的值,则执行根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本的步骤;
[0182]
还可以包括:
[0183]
若t的值大于q的值,则通过调用第一数据库召回q个内容样本;
[0184]
从q个内容样本中获取满足相似度条件的m个内容样本。
[0185]
在一个或多个实施例中,介绍了一种自定义设置召回数量的方式。由前述实施例可知,t的取值可根据实际情况设置,如果出现召回数量(即,t值)大于第一数据库中已存储的内容样本数量(即,q值),则直接召回所有的q个内容样本。基于此,可从q个内容样本中获取满足相似度条件的m个内容样本。
[0186]
具体地,为了便于理解,请参阅图4,图4为本技术实施例中内容识别系统的一个设置界面示意图,如图所示,a1用于指示设置控件,a2用于指示召回数量输入区域,a3用于指示预设时长输入区域,a4用于指示数量阈值输入区域,a5用于指示确认控件。假设在召回数量输入区域中输入“1000”,并点击确认控件,即,触发召回数设置请求,其中,召回数设置请求携带t的值(例如,1000)。
[0187]
示例性地,可以在预设时长输入区域内输入预设时长,例如,10秒。示例性地,可以在数量阈值入区域内输入数量阈值,例如,5000。
[0188]
需要说明的是,图4所示的界面元素和界面布局方式仅为一个示意,不应理解为对本技术的限定。
[0189]
再次,本技术实施例中,提供了一种自定义设置召回数量的方式。通过上述方式,后台人员可根据实际情况设置召回数量,由此,提升操作的灵活性。
[0190]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,从前t个内容样本中获取满足相似度条件的m个内容样本,具体可以包括:
[0191]
针对前t个内容样本中的每个内容样本,根据第一特征向量与内容样本的第二特
征向量,确定待识别内容与内容样本的相似度;
[0192]
若前t个内容样本中存在相似度大于或等于相似度阈值的至少一个内容样本,则将至少一个内容样本作为m个内容样本;
[0193]
或者,
[0194]
从前t个内容样本中获取满足相似度条件的m个内容样本,具体可以包括:
[0195]
针对前t个内容样本中的每个内容样本,根据第一特征向量与内容样本的第二特征向量,确定待识别内容与内容样本的相似距离;
[0196]
若前t个内容样本中存在相似距离小于或等于相似距离阈值的至少一个内容样本,则将至少一个内容样本作为m个内容样本。
[0197]
在一个或多个实施例中,介绍了一种基于相似度或相似距离获取m个内容样本的方式。由前述实施例可知,衡量待识别内容与内容样本之间相似程度时,可采用相似度或相似距离,为了便于理解,下面将以余弦相似度和余弦距离为例进行说明。
[0198]
一、采用余弦相似度;
[0199]
具体地,可基于第一特征向量与内容样本的第二特征向量,计算余弦相似度。余弦相似度越接近1,表示待识别内容与内容样本越相似。基于此,如果待识别内容与内容样本的余弦相似度大于或等于相似度阈值,则可将该内容样本作为用于聚类的样本。
[0200]
二、采用余弦距离;
[0201]
具体地,可基于第一特征向量与内容样本的第二特征向量,计算余弦距离和余弦相似度,余弦距离就是用1减去余弦相似度。余弦距离越接近0,表示待识别内容与内容样本越相似。基于此,如果待识别内容与内容样本的余弦距离小于或等于相似距离阈值,则可将该内容样本作为用于聚类的样本。
[0202]
需要说明的是,在实际应用中,还可以采用欧式距离,曼哈顿距离或海明距离等方式,计算待识别内容与内容样本之间的相似程度,此处不做限定。
[0203]
再次,本技术实施例中,提供了一种基于相似度或相似距离获取m个内容样本的方式。通过上述方式,可以筛选出与待识别内容足够相似的内容样本进行聚类,能够控制聚类时内容样本的合理性,从而有利于提升聚类效果。
[0204]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,获取待识别内容所对应的第一特征向量之后,还可以包括:
[0205]
若不存在满足相似度条件的内容样本,则生成待识别内容的新增类别标识;
[0206]
根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
[0207]
根据新增类别标识与待识别内容之间的映射关系,将待识别内容的标识以及新增类别标识存储至第二数据库。
[0208]
在一个或多个实施例中,介绍了一种待识别内容不满足相似度条件时的处理方式。由前述实施例可知,对于与内容样本不相似的待识别内容而言,由于没有可供聚类的其他内容样本,因此,可将该待识别内容作为一个新类别下的内容样本。
[0209]
具体地,将待识别内容归为新的一个类别之后,需要对该类别设置一个新的类别标识,即得到新增类别标识。基于此,可将待识别内容作为新的内容样本,并基于待识别内容的id、待识别内容的第一特征向量以及待识别内容的新增类别标识,更新第一数据库以
及第二数据库。
[0210]
假设待识别内容的id为“618”,待识别内容的第一特征向量为[-0.39,0.75,0.82,

,-0.11],待识别内容的新增类别标识为“e”。基于此,为了便于介绍,请参阅表3,表3为第一数据库存储关系的一个示意。
[0211]
表3
[0212]
内容样本的id特征向量0[-0.41,0.52,0.33,

,-0.20]
……
618[-0.39,0.75,0.82,

,-0.11]
[0213]
由此可见,待识别内容即作为第一数据库中新加入的内容样本,而待识别内容的第一特征向量即为内容样本的第二特征向量。
[0214]
请参阅表4,表4为第二数据库存储关系的一个示意。
[0215]
表4
[0216]
内容样本的id类别标识0a
……
618e
[0217]
由此可见,待识别内容即作为第二数据库中新加入的内容样本,而待识别内容的新增类别标识即为内容样本的类别标识。第一数据库和第二数据库可存储当前生命周期(例如,最近三个月)内所有的内容样本的类别标识。
[0218]
需要说明的是,上述列表中的信息和表头仅为一个示意,在实际应用中,还有添加其他表头,此处不做限定。
[0219]
其次,本技术实施例中,提供了一种待识别内容不满足相似度条件时的处理方式。通过上述方式,对于与内容样本不相似的待识别内容而言,默认将该待识别内容划分为新的一类,由此,实现对内容的自动归类,便于进行后续处理。
[0220]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到各个类别标识所对应的内容样本数量,具体可以包括:
[0221]
根据m个内容样本中每个内容样本的类别标识,将具有相同类别标识的内容样本关联至同一个类别标识,得到各个类别标识所对应的内容样本数量;
[0222]
根据各个类别标识所对应的内容样本数量,获取待识别内容所对应的目标类别标签,具体可以包括:
[0223]
根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识;
[0224]
根据目标类别标识,确定待识别内容所对应的目标类别标签。
[0225]
在一个或多个实施例中,介绍了一种基于投票机制确定目标类别标签的方式。由前述实施例可知,筛选出m个内容样本之后,可通过查询第二数据库获取m个内容样本中每个内容样本的类别标识,基于此,可将具有相同类别标识的内容样本关联至同一个类别标识,由此,得到各个类别标识所对应的内容样本数量。
[0226]
具体地,m个内容样本中每个内容样本属于一张“票”,每个内容样本的类别标识作为“票的类型”。因此,根据这m个内容样本的类别标识,对各个类别标识进行投票,分别统计得到与各个类别标识关联的内容样本数量。根据各个类别标识所对应的内容样本数量,可以从中选出一个类别标识作为待识别内容的目标类别标识。
[0227]
示例性地,目标类别标识可关联到已知的目标类别标签,由此,直接确定目标类别标签。例如,目标类别标识为“w”,其对应的目标类别标签表示待识别内容属于矩阵式内容。
[0228]
示例性地,目标类别标识可关联到未知的目标类别标签,由此,可采用人工标注的方式,或者,模型预测的方式确定目标类别标签。
[0229]
其次,本技术实施例中,提供了一种基于投票机制确定目标类别标签的方式。通过上述方式,考虑到加入第一数据库的召回流程可能会降低精度,因此,这里引入了投票机制能够在一定程度上提升精度,从而兼顾了聚类的效率和准确性。
[0230]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识之后,还可以包括:
[0231]
根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
[0232]
根据目标类别标识与待识别内容之间的映射关系,将待识别内容的标识以及目标类别标识存储至第二数据库。
[0233]
在一个或多个实施例中,介绍了一种将待识别内容作为内容样本加入数据库的方式。由前述实施例可知,对待识别内容进行聚类之后,可将该待识别内容作为一个新类别下的内容样本。
[0234]
具体地,可将待识别内容作为新的内容样本,并基于待识别内容的id、待识别内容的第一特征向量以及待识别内容的目标类别标识,更新第一数据库以及第二数据库。
[0235]
假设待识别内容的id为“618”,待识别内容的第一特征向量为[-0.39,0.75,0.82,

,-0.11],待识别内容的目标类别标识为“a”。基于此,为了便于介绍,请参阅表5,表5为第一数据库存储关系的一个示意。
[0236]
表5
[0237]
内容样本的id特征向量0[-0.41,0.52,0.33,

,-0.20]
……
618[-0.39,0.75,0.82,

,-0.11]
[0238]
由此可见,待识别内容即作为第一数据库中新加入的内容样本,而待识别内容的第一特征向量即为内容样本的第二特征向量。
[0239]
请参阅表6,表6为第二数据库存储关系的一个示意。
[0240]
表6
[0241]
内容样本的id类别标识0a
……
618a
[0242]
由此可见,待识别内容即作为第二数据库中新加入的内容样本,而待识别内容的目标类别标识即为内容样本的类别标识。
[0243]
需要说明的是,上述列表中的信息和表头仅为一个示意,在实际应用中,还有添加其他表头,此处不做限定。第一数据库和第二数据库可存储当前生命周期(例如,最近三个月)内所有的内容样本的类别标识。
[0244]
再次,本技术实施例中,提供了一种将待识别内容作为内容样本加入数据库的方式。通过上述方式,对于聚类后的待识别内容,可将其作为新的内容样本并更新数据库。由此,能够不断增加内容样本的数量,有利于提升聚类的准确性。
[0245]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识,具体可以包括:
[0246]
确定至少一个类别标识中每个类别标识所关联的内容样本数量;
[0247]
将内容样本数量最大值所对应的类别标识作为待识别内容的目标类别标识;
[0248]
根据目标类别标识,确定待识别内容所对应的目标类别标签。
[0249]
在一个或多个实施例中,介绍了一种基于内容样本数量确定目标类别标签的方式。由前述实施例可知,基于筛选出m个内容样本之后,经过“投票”之后可得到各个类别标识所对应的内容样本数量。
[0250]
具体地,假设m为500,根据这500个内容样本的类别标识,对各个类别标识进行投票,分别统计得到与各个类别标识关联的内容样本数量。为了便于理解,请参阅表7,表7为各个类别标识与内容样本数量之间关系的一个示意。
[0251]
表7
[0252]
类别标识内容样本数量a300b100c50d50
[0253]
由此可见,以500个内容样本为例,其中,300个内容样本的类别标识为“a”,100个内容样本的类别标识为“b”,50个内容样本的类别标识为“c”,50个内容样本的类别标识为“d”。相当于给待识别内容投了300张类别标识为“a”的票,此时,类别标识为“a”的票数远大于其它类别的票数,所以可以将待识别内容归为类别标识“a”(即,此时目标类别标识为类别标识“a”)。
[0254]
再次,本技术实施例中,提供了一种基于内容样本数量确定目标类别标签的方式。通过上述方式,可将投票数量最多的类别标识作为待识别内容的目标类别标识,从而在一定程度上提升聚类精度,兼顾了聚类的效率和准确性。
[0255]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识,具体可以包括:
[0256]
确定至少一个类别标识中每个类别标识所关联的内容样本数量;
[0257]
若存在至少两个类别标识所关联的内容样本数量相等,则根据至少两个类别标识
中每个类别标识所关联的内容样本,以及,内容样本的召回相似度排名,计算每个类别标识所对应的平均排名;
[0258]
将最高平均排名所对应的类别标识作为待识别内容的目标类别标识。
[0259]
在一个或多个实施例中,介绍了一种基于平均排名确定目标类别标识的方式。由前述实施例可知,基于筛选出m个内容样本之后,经过“投票”之后可得到各个类别标识所对应的内容样本数量。
[0260]
具体地,假设m为500,根据这500个内容样本的类别标识,对各个类别标识进行投票,分别统计得到与各个类别标识关联的内容样本数量。以500个内容样本为例,其中,200个内容样本的类别标识为“a”,200个内容样本的类别标识为“b”,75个内容样本的类别标识为“c”,25个内容样本的类别标识为“d”。相当于给待识别内容投了200张类别标识为“a”的票,以及投了200张类别标识为“b”的票。此时,类别标识“a”与类别标识“b”平票。
[0261]
基于此,可获取m个内容样本中每个内容样本在t个内容样本中的相似度排名,内容样本的名次越高,表示内容样本与待识别内容越相似。例如,相似度排名为第一的内容样本,与待识别内容最为相似。假设属于类别标识“a”的200个内容样本,在t个内容样本的平均排名为52,属于类别标识“b”的200个内容样本,在t个内容样本的平均排名为78,那么平均排名52高于平均排名78。因此,可以将待识别内容归为类别标识“a”(即,此时目标类别标识为类别标识“a”)。
[0262]
再次,本技术实施例中,提供了一种基于平均排名确定目标类别标识的方式。通过上述方式,对于投票数量相同的情况,可采用平均排名的策略选择一个类别标识作为待识别内容的目标类别标识,一方面可以提升聚类精度,兼顾了聚类的效率和准确性。另一方面,增加了方案的可行性和可操作性。
[0263]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识,具体可以包括:
[0264]
确定至少一个类别标识中每个类别标识所关联的内容样本数量;
[0265]
若存在至少两个类别标识所关联的内容样本数量相等,则根据至少两个类别标识中每个类别标识所关联的内容样本,计算每个类别标识所对应的平均特性向量;
[0266]
根据每个类别标识所对应的平均特性向量与第一特征向量之间的相似度,确定作为待识别内容的目标类别标识。
[0267]
在一个或多个实施例中,介绍了一种基于平均排名确定目标类别标识的方式。由前述实施例可知,基于筛选出m个内容样本之后,经过“投票”之后可得到各个类别标识所对应的内容样本数量。
[0268]
具体地,假设m为500,根据这500个内容样本的类别标识,对各个类别标识进行投票,分别统计得到与各个类别标识关联的内容样本数量。以500个内容样本为例,其中,200个内容样本的类别标识为“a”,200个内容样本的类别标识为“b”,75个内容样本的类别标识为“c”,25个内容样本的类别标识为“d”。相当于给待识别内容投了200张类别标识为“a”的票,以及投了200张类别标识为“b”的票。此时,类别标识“a”与类别标识“b”平票。
[0269]
基于此,可从第一数据库中获取m个内容样本中每个内容样本的第二特性向量。针对属于类别标识“a”的200个内容样本,可计算一个平均特性向量,即得到类别标识“a”的平
均特性向量。类似地,针对属于类别标识“b”的200个内容样本,可计算一个平均特性向量,即得到类别标识“b”的平均特性向量。于是,分别计算类别标识“a”的平均特性向量与第一特征向量之间的相似度,以及,类别标识“b”的平均特性向量与第一特征向量之间的相似度。例如,类别标识“a”的平均特性向量与第一特征向量之间的相似度更大,那么可以将待识别内容归为类别标识“a”(即,此时目标类别标识为类别标识“a”)。
[0270]
再次,本技术实施例中,提供了一种基于平均排名确定目标类别标识的方式。通过上述方式,对于投票数量相同的情况,可采用向量平均值的策略选择一个类别标识作为待识别内容的目标类别标识,一方面可以提升聚类精度,兼顾了聚类的效率和准确性。另一方面,增加了方案的可行性和可操作性。
[0271]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据目标类别标识,确定待识别内容所对应的目标类别标签,具体可以包括:
[0272]
响应针对于目标类别标识的标签标注指令,确定待识别内容所对应的目标类别标签;
[0273]
还可以包括:
[0274]
将与目标类别标识关联的内容样本以及待识别内容作为待训练样本集合,其中,待训练样本集合标注为目标类别标签;
[0275]
获取待训练样本集合中每个待训练样本的内容特征以及账号信息;
[0276]
获取待训练样本集合的聚类相似特征;
[0277]
基于待训练样本集合的聚类相似特征、每个待训练样本的内容特征以及账号信息,通过类别识别模型获取第一类别概率分布;
[0278]
根据目标类别标签以及第一类别概率分布,对类别识别模型的模型参数进行更新。
[0279]
在一个或多个实施例中,介绍了一种对类别识别模型进行训练的方式。由前述实施例可知,对于目标类别标识对应的聚类结果,后台人员可结合账号本身的注册信息,进行人工审核,从而获取账号本身是否属于矩阵式运营的低成本内容账号,由这种账号发出的内容均为矩阵式内容。基于此,后台人员可对聚类结果进行手动打标,得到类别标签,并将该类别标签作为待识别内容所对应的目标类别标签。
[0280]
具体地,为了便于理解,请参阅图5,图5为本技术实施例中内容识别系统的一个标注界面示意图,如图所示,b1用于指示标注控件,b2用于指示类别标签输入区域,b3用于指示确认控件。假设当前聚类结果的类别标识为“a”,即,目标类别标识为“a”。待识别内容的id为“77”。对此,假设在类别标签输入区域中输入“1”,并点击确认控件,即,触发目标类别标识的标签标注指令,其中,标签标注指令携带目标类别标签(例如,“1”)。
[0281]
需要说明的是,图5所示的界面元素和界面布局方式仅为一个示意,不应理解为对本技术的限定。
[0282]
基于此,可根据标注的标签对类别识别模型进行训练。示例性地,假设待训练样本集合包括与目标类别标识关联的内容样本以及待识别内容。其中,待训练样本集合中的每个待训练样本均标注为目标类别标签(例如,“1”或“0”)。
[0283]
示例性地,需要获取待训练样本集合中每个待训练样本的内容特征以及账号信息,其中,假设内容特征为文本特征,该文本特征包含但不限于待训练样本中的关键词特
征、固定句式特征、词频特征、词向量(word2vec)、基于转换器的双向编码表征(bidirectional encoder representation from transformers,bert)模型输出的特征向量。账号信息包含但不限于昵称、简介、主体、管理员、运营者、处罚记录和群发消息。
[0284]
示例性地,还需要获取待训练样本集合的聚类相似特征。其中,聚类相似特征包含但不限于聚类id、聚类大小和聚类中心点的文本特征。
[0285]
采用待训练样本集合的聚类相似特征、每个待训练样本的内容特征以及账号信息,通过类别识别模型输出第一类别概率分布,由此,基于第一类别概率分布和目标类别标签,可采用交叉熵损失函数计算得到梯度值,利用梯度值对类别识别模型的模型参数进行更新。其中,第一类别概率分布可以表示为一个概率值,或,多个概率值。
[0286]
以类别识别模型为深度因子分解机(deep factorization machines,deepfm)模型为例,请参阅图6,图6为本技术实施例中类别识别模型的一个结构示意图,如图所示,可将内容特征、账号信息以及聚类相似特征中的相关特征(例如,群发消息特征和账号行为特征等)作为稠密特征。可将账号信息以及聚类相似特征中的相关特征(例如,聚类id和聚类大小等)作为离散特征。将稠密特征和离散特征作为类别识别模型输入,通过类别识别模型输出第一类别概率分布。假设第一类别概率分布为一个概率值,即,该概率值表示待训练样本集合属于矩阵式内容的概率。
[0287]
需要说明的是,本技术采用deepfm模型作为类别识别模型。这是因为deepfm模型能同时较好地利用人工构造的业务特征和模型自己学习出来的特征,将基本特征放在深度(deep)部分,人工构造的业务特征放在因子分解机(factorization machines,fm)部分,具有较好的效果。在实际应用中,也可以采用极端梯度提升树(xgboost)模型作为类别识别模型。或者,自动特征交互(automatic feature interaction,autoint)作为类别识别模型,此处不做限定。
[0288]
再次,本技术实施例中,提供了一种对类别识别模型进行训练的方式。通过上述方式,采用已有的样本数据对类别识别模型进行定期训练,便于后续对聚类结果进行预测,从而节省了人工标注的成本,有利于提升内容识别的效率。
[0289]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,根据目标类别标识,确定待识别内容所对应的目标类别标签,具体可以包括:
[0290]
将与目标类别标识关联的内容样本以及待识别内容作为预测样本集合;
[0291]
获取预测样本集合中每个预测样本的内容特征以及账号信息;
[0292]
获取预测样本集合的聚类相似特征;
[0293]
基于预测样本集合的聚类相似特征、每个预测样本的内容特征以及账号信息,通过类别识别模型获取第二类别概率分布;
[0294]
根据第二类别概率分布确定待识别内容所对应的目标类别标签。
[0295]
在一个或多个实施例中,介绍了一种利用类别识别模型预测目标类别标识的方式。由前述实施例可知,对于目标类别标识对应的聚类结果,可将该聚类结果作为预测样本集合,其中,预测样本集合包括与目标类别标识关联的内容样本以及待识别内容。基于此,获取预测样本集合中每个预测样本的内容特征以及账号信息,以及,预测样本集合的聚类相似特征。再将预测样本集合的聚类相似特征、每个预测样本的内容特征以及账号信息,作为类别识别模型的输入,通过类别识别模型输出第二类别概率分布。示例性地,第二类别概
率分布为一个概率值,例如,可将大于或等于0.8的概率值作为类别标签“1”,将小于0.8的概率值作为类别标签“0”。假设第二类别概率分布为0.9,则预测样本集合的目标类别标签为“1”,且,待识别内容所对应的目标类别标签为“1”。
[0296]
具体地,为了便于理解,请参阅图7,图7为本技术实施例中内容识别系统的一个结果展示界面示意图,如图所示,c1用于指示详情查看控件。可见,对于某个聚类结果,可查看其对应的类别标识为“a”,即,目标类别标识为“a”。其对应的类别标签为“1”,即,目标类别标签为“1”,此时,认为属于矩阵式内容。
[0297]
需要说明的是,图7所示的界面元素和界面布局方式仅为一个示意,不应理解为对本技术的限定。
[0298]
再次,本技术实施例中,提供了一种利用类别识别模型预测目标类别标识的方式。通过上述方式,节省了人工标注类别标签的成本,有利于提升内容识别的效率。
[0299]
可选地,在上述图3对应的各个实施例的基础上,本技术实施例提供另的一个可选实施例中,还可以包括;
[0300]
若待识别内容为文本内容,则对待识别内容进行特征提取,得到第一特征向量;
[0301]
或者,
[0302]
还可以包括:
[0303]
若待识别内容为图片内容,则通过编码器对待识别内容进行编码,得到图像特征向量;
[0304]
通过投影头对图像特征向量进行非线性变换,得到第一特征向量。
[0305]
在一个或多个实施例中,介绍了一种对不同类型待识别内容的处理方式。由前述实施例可知,待识别内容可以是文本内容或图片内容,而不同类型的内容采用不同方式提取其对应的特征向量,下面将分别进行说明。
[0306]
一、对文本内容进行聚类;
[0307]
具体地,若待识别内容为文本内容,那么可采用文本特征提取网络来提取第一特征向量,例如,采用bert模型来提取特征,得到第一特征向量。可以理解的是,第一特征向量可是768维,或,1024维,又或者其他维数,此处不做限定。
[0308]
为了便于理解,请参阅图8,图8为本技术实施例中基于文本内容进行识别的一个示意图,如图所示,通过调用第一数据库和第二数据库,对流式的文本内容进行聚类,由此,得到每个文本内容的聚类结果。基于此,将各个聚类结果对应的特征作为类别识别模型的输入,由类别识别模型输出每个文本内容的类别标签。
[0309]
二、对图片内容进行聚类;
[0310]
具体地,若待识别内容为图片内容,那么可采用图片特征提取网络来提取第一特征向量,例如,采用视觉表征对比学习的简单框架(simple framework for contrastive learning of visual representations,simclr)来提取特征,得到第一特征向量。simclr包括基本编码器(base encoder)以及投影头(projection head)。采用编码器对待识别内容进行编码,提取表示向量,得到图像特征向量。其中,编码器可以采用残差网络-50(residual neural network-50,resnet-50)。将图像特征向量输入至投影头,通过投影头对图像特征向量进行非线性变换,得到第一特征向量。其中,投影头可采用多层感知机(multilayer perceptron,mlp)以及激活函数。
[0311]
为了便于理解,请参阅图9,图9为本技术实施例中基于图片内容进行识别的一个示意图,如图所示,通过调用第一数据库和第二数据库,对流式的图片内容进行聚类,由此,得到每个图片内容的聚类结果。基于此,将各个聚类结果对应的特征作为类别识别模型的输入,由类别识别模型输出每个图片内容的类别标签。
[0312]
其次,本技术实施例中,提供了一种对不同类型待识别内容的处理方式。通过上述方式,可对文本内容或者图片内容进行流式聚类,并识别出其对应类别标签,由此,可应对更丰富的场景。
[0313]
低成本内容账号的流量在平台主动推荐业务中占比约为40%。灰度此方案的过程中,采用本技术提供的方案,使得矩阵式运营低成本下降至5%以内,效果明显,有利于提高平台内容推荐业务的调性和效果,为c端用户带来了更多的有用资讯和实用信息。由于识别出低成本内容账号,因此,对优质创作者获得了更多的流量扶持,该部分作者回流37%,阅读量上涨50%,作者活跃度明显上升,并且愿意在平台上发布更多优质的创作内容。
[0314]
下面对本技术中的内容识别装置进行详细描述,请参阅图10,图10为本技术实施例中内容识别装置的一个实施例示意图,内容识别装置20包括:
[0315]
获取模块210,用于获取待识别内容所对应的第一特征向量;
[0316]
获取模块210,还用于根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,从q个内容样本中召回满足相似度条件的m个内容样本,其中,每个内容样本对应于一个类别标识,m与q均为大于或等于1的整数,且m小于或等于q;
[0317]
确定模块220,用于根据m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到各个类别标识所对应的内容样本数量;
[0318]
处理模块230,还用于根据各个类别标识所对应的内容样本数量,获取待识别内容所对应的目标类别标签。
[0319]
本技术实施例中,提供了一种内容识别装置。采用上述装置,当获得新的待识别内容时,先召回与待识别内容相似程度较高的若干内容样本,然后基于这些内容样本已知的聚类类别,确定待识别内容可归入的聚类类别,进而得到目标类别标签。可见,对于获取到的待识别内容而言,可采用统计类别标识的形式对其进行聚类,从而能够更好地适应于流式内容场景,并且提升内容识别的实时性。
[0320]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,内容识别装置20还包括处理模块230;
[0321]
处理模块230,还用于获取待识别内容所对应的第一特征向量之前,对在预设时长内获取到的内容进行两两相似度计算;
[0322]
确定模块220,还用于将相似度大于或等于相似度阈值的内容作为同一个聚类结果;
[0323]
获取模块210,还用于根据同一个聚类结果获取待识别内容。
[0324]
本技术实施例中,提供了一种内容识别装置。采用上述装置,可对一段时间内获取到的内容进行预聚类,得到多个聚类中心。将一个聚类中心作为一个新的内容(即,待识别内容),从而减少内容的数量,由此,能够面对内容高并发的情况。
[0325]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0326]
处理模块230,还用于获取待识别内容所对应的第一特征向量之前,若在预设时长内获取到的内容数量达到数量阈值,则对在预设时长内获取到的内容进行两两相似度计算,其中,n为大于1的整数;
[0327]
确定模块220,还用于将相似度大于或等于相似度阈值的内容作为同一个聚类结果;
[0328]
获取模块210,还用于根据同一个聚类结果获取待识别内容。
[0329]
本技术实施例中,提供了一种内容识别装置。采用上述装置,可对一定数量的内容进行预聚类,得到多个聚类中心。将一个聚类中心作为一个新的内容(即,待识别内容),从而减少内容的数量,由此,能够面对内容高并发的情况。
[0330]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0331]
处理模块230,还用于获取待识别内容所对应的第一特征向量之后,若不存在内容样本,则生成待识别内容的新增类别标识;
[0332]
处理模块230,还用于根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
[0333]
处理模块230,还用于根据新增类别标识与待识别内容之间的映射关系,将待识别内容的标识以及新增类别标识存储至第二数据库。
[0334]
本技术实施例中,提供了一种内容识别装置。采用上述装置,对于第一个进入系统的待识别内容,默认将该待识别内容划分为一类,由此,实现对内容的自动归类,便于进行后续处理。
[0335]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0336]
获取模块210,具体用于根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本,其中,t为大于或等于1的整数;
[0337]
从前t个内容样本中获取满足相似度条件的m个内容样本。
[0338]
本技术实施例中,提供了一种内容识别装置。采用上述装置,调用第一数据库可召回最近似的t个内容样本,由此,使得聚类效率与已有类别数量基本无关,从而提高实时性。而从t个内容样本中筛选出满足相似度条件的m个内容样本,能够控制聚类时内容样本的合理性。
[0339]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0340]
获取模块210,还用于根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本之前,获取召回数设置请求,其中,召回数设置请求携带t的值;
[0341]
获取模块210,具体用于若t的值小于或等于q的值,则执行根据第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从q个内容样本中召回相似度最大的前t个内容样本的步骤;
[0342]
获取模块210,还用于若t的值大于q的值,则通过调用第一数据库召回q个内容样本;
[0343]
获取模块210,还用于从q个内容样本中获取满足相似度条件的m个内容样本。
[0344]
本技术实施例中,提供了一种内容识别装置。采用上述装置,后台人员可根据实际情况设置召回数量,由此,提升操作的灵活性。
[0345]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0346]
获取模块210,具体用于针对前t个内容样本中的每个内容样本,根据第一特征向量与内容样本的第二特征向量,确定待识别内容与内容样本的相似度;
[0347]
若前t个内容样本中存在相似度大于或等于相似度阈值的至少一个内容样本,则将至少一个内容样本作为m个内容样本;
[0348]
或者,
[0349]
获取模块210,具体用于针对前t个内容样本中的每个内容样本,根据第一特征向量与内容样本的第二特征向量,确定待识别内容与内容样本的相似距离;
[0350]
若前t个内容样本中存在相似距离小于或等于相似距离阈值的至少一个内容样本,则将至少一个内容样本作为m个内容样本。
[0351]
本技术实施例中,提供了一种内容识别装置。采用上述装置,以筛选出与待识别内容足够相似的内容样本进行聚类,能够控制聚类时内容样本的合理性,从而有利于提升聚类效果。
[0352]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0353]
处理模块230,还用于获取待识别内容所对应的第一特征向量之后,若不存在满足相似度条件的内容样本,则生成待识别内容的新增类别标识;
[0354]
处理模块230,还用于根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
[0355]
处理模块230,还用于根据新增类别标识与待识别内容之间的映射关系,将待识别内容的标识以及新增类别标识存储至第二数据库。
[0356]
本技术实施例中,提供了一种内容识别装置。采用上述装置,对于与内容样本不相似的待识别内容而言,默认将该待识别内容划分为新的一类,由此,实现对内容的自动归类,便于进行后续处理。
[0357]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0358]
确定模块220,具体用于根据m个内容样本中每个内容样本的类别标识,将具有相同类别标识的内容样本关联至同一个类别标识,得到各个类别标识所对应的内容样本数量;
[0359]
获取模块210,具体用于根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识;
[0360]
根据目标类别标识,确定待识别内容所对应的目标类别标签。
[0361]
本技术实施例中,提供了一种内容识别装置。采用上述装置,考虑到加入第一数据库的召回流程可能会降低精度,因此,这里引入了投票机制能够在一定程度上提升精度,从而兼顾了聚类的效率和准确性。
[0362]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0363]
处理模块230,还用于根据各个类别标识所对应的内容样本数量,确定待识别内容所对应的目标类别标识之后,根据第一特征向量与待识别内容之间的映射关系,将待识别内容的标识以及第一特征向量存储至第一数据库,其中,待识别内容的标识用于唯一标识待识别内容;
[0364]
处理模块230,还用于根据目标类别标识与待识别内容之间的映射关系,将待识别内容的标识以及目标类别标识存储至第二数据库。
[0365]
本技术实施例中,提供了一种内容识别装置。采用上述装置,对于聚类后的待识别内容,可将其作为新的内容样本并更新数据库。由此,能够不断增加内容样本的数量,有利于提升聚类的准确性。
[0366]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0367]
获取模块210,具体用于确定至少一个类别标识中每个类别标识所关联的内容样本数量;
[0368]
将内容样本数量最大值所对应的类别标识作为待识别内容的目标类别标识;
[0369]
根据目标类别标识,确定待识别内容所对应的目标类别标签。
[0370]
本技术实施例中,提供了一种内容识别装置。采用上述装置,可将投票数量最多的类别标识作为待识别内容的目标类别标识,从而在一定程度上提升聚类精度,兼顾了聚类的效率和准确性。
[0371]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0372]
获取模块210,具体用于确定至少一个类别标识中每个类别标识所关联的内容样本数量;
[0373]
若存在至少两个类别标识所关联的内容样本数量相等,则根据至少两个类别标识中每个类别标识所关联的内容样本,以及,内容样本的召回相似度排名,计算每个类别标识所对应的平均排名;
[0374]
将最高平均排名所对应的类别标识作为待识别内容的目标类别标识。
[0375]
本技术实施例中,提供了一种内容识别装置。采用上述装置,对于投票数量相同的情况,可采用平均排名的策略选择一个类别标识作为待识别内容的目标类别标识,一方面可以提升聚类精度,兼顾了聚类的效率和准确性。另一方面,增加了方案的可行性和可操作性。
[0376]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0377]
获取模块210,具体用于确定至少一个类别标识中每个类别标识所关联的内容样本数量;
[0378]
若存在至少两个类别标识所关联的内容样本数量相等,则根据至少两个类别标识中每个类别标识所关联的内容样本,计算每个类别标识所对应的平均特性向量;
[0379]
根据每个类别标识所对应的平均特性向量与第一特征向量之间的相似度,确定作为待识别内容的目标类别标识。
[0380]
本技术实施例中,提供了一种内容识别装置。采用上述装置,对于投票数量相同的情况,可采用向量平均值的策略选择一个类别标识作为待识别内容的目标类别标识,一方面可以提升聚类精度,兼顾了聚类的效率和准确性。另一方面,增加了方案的可行性和可操作性。
[0381]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0382]
获取模块210,具体用于响应针对于目标类别标识的标签标注指令,确定待识别内容所对应的目标类别标签;
[0383]
获取模块210,还用于将与目标类别标识关联的内容样本以及待识别内容作为待训练样本集合,其中,待训练样本集合标注为目标类别标签;
[0384]
获取模块210,还用于获取待训练样本集合中每个待训练样本的内容特征以及账号信息;
[0385]
获取模块210,还用于获取待训练样本集合的聚类相似特征;
[0386]
获取模块210,还用于基于待训练样本集合的聚类相似特征、每个待训练样本的内容特征以及账号信息,通过类别识别模型获取第一类别概率分布;
[0387]
处理模块230,还用于根据目标类别标签以及第一类别概率分布,对类别识别模型的模型参数进行更新。
[0388]
本技术实施例中,提供了一种内容识别装置。采用上述装置,采用已有的样本数据对类别识别模型进行定期训练,便于后续对聚类结果进行预测,从而节省了人工标注的成本,有利于提升内容识别的效率。
[0389]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0390]
获取模块210,具体用于将与目标类别标识关联的内容样本以及待识别内容作为预测样本集合;
[0391]
获取预测样本集合中每个预测样本的内容特征以及账号信息;
[0392]
获取预测样本集合的聚类相似特征;
[0393]
基于预测样本集合的聚类相似特征、每个预测样本的内容特征以及账号信息,通过类别识别模型获取第二类别概率分布;
[0394]
根据第二类别概率分布确定待识别内容所对应的目标类别标签。
[0395]
本技术实施例中,提供了一种内容识别装置。采用上述装置,节省了人工标注类别标签的成本,有利于提升内容识别的效率。
[0396]
可选地,在上述图10所对应的实施例的基础上,本技术实施例提供内容识别装置20的另一实施例中,
[0397]
处理模块230,还用于若待识别内容为文本内容,则对待识别内容进行特征提取,得到第一特征向量;
[0398]
或者,
[0399]
处理模块230,还用于若待识别内容为图片内容,则通过编码器对待识别内容进行编码,得到图像特征向量;
[0400]
处理模块230,还用于通过投影头对图像特征向量进行非线性变换,得到第一特征向量。
[0401]
本技术实施例中,提供了一种内容识别装置。采用上述装置,可对文本内容或者图片内容进行流式聚类,并识别出其对应类别标签,由此,可应对更丰富的场景。
[0402]
本技术实施例还提供了另一种内容识别装置,可应用于终端设备。如图11所示,为了便于说明,仅示出了与本技术实施例相关的部分,具体技术细节未揭示的,请参照本技术实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant,pda)、销售终端设备、车载电脑等任意终端设备,以终端设备为手机为例:
[0403]
图11示出的是与本技术实施例提供的终端设备相关的手机的部分结构的框图。参考图11,手机包括:射频(radio frequency,rf)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wifi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0404]
下面结合图11对手机的各个构成部件进行具体的介绍:
[0405]
rf电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器380处理;另外,将设计上行的数据发送给基站。通常,rf电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier,lna)、双工器等。此外,rf电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(global system of mobile communication,gsm)、通用分组无线服务(general packet radio service,gprs)、码分多址(code division multiple access,cdma)、宽带码分多址(wideband code division multiple access,wcdma)、长期演进(long term evolution,lte)、电子邮件、短消息服务(short messaging service,sms)等。
[0406]
存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0407]
输入单元330可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元330可包括触控面板331以及其他输入设备332。触控面板331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板331可包括触摸检测装置和触摸
控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331,输入单元330还可以包括其他输入设备332。具体地,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0408]
显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341,可选的,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板341。进一步的,触控面板331可覆盖显示面板341,当触控面板331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图11中,触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。
[0409]
手机还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在手机移动到耳边时,关闭显示面板341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0410]
音频电路360、扬声器361,传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经rf电路310以发送给比如另一手机,或者将音频数据输出至存储器320以便进一步处理。
[0411]
wifi属于短距离无线传输技术,手机通过wifi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了wifi模块370,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0412]
处理器380是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行手机的各种功能和处理数据。可选的,处理器380可包括一个或多个处理单元;可选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。
[0413]
手机还包括给各个部件供电的电源390(比如电池),可选的,电源可以通过电源管理系统与处理器380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0414]
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0415]
上述实施例中由终端设备所执行的步骤可以基于该图11所示的终端设备结构。
[0416]
本技术实施例还提供了另一种内容识别装置,可应用于服务器。图12是本技术实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
[0417]
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
,freebsd
tm
等等。
[0418]
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
[0419]
本技术实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
[0420]
本技术实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
[0421]
可以理解的是,在本技术的具体实施方式中,涉及到账号信息等相关的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0422]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0423]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0424]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0425]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0426]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0427]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种内容识别的方法,其特征在于,包括:获取待识别内容所对应的第一特征向量;根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,从所述q个内容样本中召回满足相似度条件的m个内容样本,其中,所述每个内容样本对应于一个类别标识,所述m与所述q均为大于或等于1的整数,且所述m小于或等于所述q;根据所述m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到所述各个类别标识所对应的内容样本数量;根据所述各个类别标识所对应的内容样本数量,获取所述待识别内容所对应的目标类别标签。2.根据权利要求1所述的方法,其特征在于,所述获取待识别内容所对应的第一特征向量之前,所述方法还包括:对在预设时长内获取到的内容进行两两相似度计算;将相似度大于或等于相似度阈值的内容作为同一个聚类结果;根据所述同一个聚类结果获取所述待识别内容。3.根据权利要求1所述的方法,其特征在于,所述获取待识别内容所对应的第一特征向量之前,所述方法还包括:若在预设时长内获取到的内容数量达到数量阈值,则对在所述预设时长内获取到的内容进行两两相似度计算,其中,所述n为大于1的整数;将相似度大于或等于相似度阈值的内容作为同一个聚类结果;根据所述同一个聚类结果获取所述待识别内容。4.根据权利要求1所述的方法,其特征在于,所述获取待识别内容所对应的第一特征向量之后,所述方法还包括:若不存在内容样本,则生成所述待识别内容的新增类别标识;根据所述第一特征向量与所述待识别内容之间的映射关系,将所述待识别内容的标识以及所述第一特征向量存储至第一数据库,其中,所述待识别内容的标识用于唯一标识所述待识别内容;根据所述新增类别标识与所述待识别内容之间的映射关系,将所述待识别内容的标识以及所述新增类别标识存储至第二数据库。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,从所述q个内容样本中召回满足相似度条件的m个内容样本,包括:根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从所述q个内容样本中召回相似度最大的前t个内容样本,其中,所述t为大于或等于1的整数;从所述前t个内容样本中获取满足所述相似度条件的所述m个内容样本。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从所述q个内容样本中召回相似度最大的前t个内容样本之前,所述方法还包括:获取召回数设置请求,其中,所述召回数设置请求携带所述t的值;
所述根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从所述q个内容样本中召回相似度最大的前t个内容样本,包括:若所述t的值小于或等于所述q的值,则执行所述根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,通过调用第一数据库从所述q个内容样本中召回相似度最大的前t个内容样本的步骤;所述方法还包括:若所述t的值大于所述q的值,则通过调用所述第一数据库召回所述q个内容样本;从所述q个内容样本中获取满足所述相似度条件的所述m个内容样本。7.根据权利要求5所述的方法,其特征在于,所述从所述前t个内容样本中获取满足所述相似度条件的所述m个内容样本,包括:针对所述前t个内容样本中的每个内容样本,根据所述第一特征向量与内容样本的第二特征向量,确定所述待识别内容与所述内容样本的相似度;若所述前t个内容样本中存在相似度大于或等于相似度阈值的至少一个内容样本,则将所述至少一个内容样本作为所述m个内容样本;或者,所述从所述前t个内容样本中获取满足所述相似度条件的所述m个内容样本,包括:针对所述前t个内容样本中的每个内容样本,根据所述第一特征向量与内容样本的第二特征向量,确定所述待识别内容与所述内容样本的相似距离;若所述前t个内容样本中存在相似距离小于或等于相似距离阈值的至少一个内容样本,则将所述至少一个内容样本作为所述m个内容样本。8.根据权利要求1所述的方法,其特征在于,所述获取待识别内容所对应的第一特征向量之后,所述方法还包括:若不存在满足所述相似度条件的内容样本,则生成所述待识别内容的新增类别标识;根据所述第一特征向量与所述待识别内容之间的映射关系,将所述待识别内容的标识以及所述第一特征向量存储至第一数据库,其中,所述待识别内容的标识用于唯一标识所述待识别内容;根据所述新增类别标识与所述待识别内容之间的映射关系,将所述待识别内容的标识以及所述新增类别标识存储至第二数据库。9.根据权利要求1所述的方法,其特征在于,所述根据所述m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到所述各个类别标识所对应的内容样本数量,包括:根据所述m个内容样本中每个内容样本的类别标识,将具有相同类别标识的内容样本关联至同一个类别标识,得到所述各个类别标识所对应的内容样本数量;所述根据所述各个类别标识所对应的内容样本数量,获取所述待识别内容所对应的目标类别标签,包括:根据所述各个类别标识所对应的内容样本数量,确定所述待识别内容所对应的目标类别标识;根据所述目标类别标识,确定所述待识别内容所对应的所述目标类别标签。10.根据权利要求9所述的方法,其特征在于,所述根据所述各个类别标识所对应的内
容样本数量,确定所述待识别内容所对应的目标类别标识之后,所述方法还包括:根据所述第一特征向量与所述待识别内容之间的映射关系,将所述待识别内容的标识以及所述第一特征向量存储至第一数据库,其中,所述待识别内容的标识用于唯一标识所述待识别内容;根据所述目标类别标识与所述待识别内容之间的映射关系,将所述待识别内容的标识以及所述目标类别标识存储至第二数据库。11.根据权利要求9所述的方法,其特征在于,所述根据所述各个类别标识所对应的内容样本数量,确定所述待识别内容所对应的目标类别标识,包括:确定所述至少一个类别标识中每个类别标识所关联的内容样本数量;将内容样本数量最大值所对应的类别标识作为所述待识别内容的目标类别标识;根据所述目标类别标识,确定所述待识别内容所对应的所述目标类别标签。12.根据权利要求9所述的方法,其特征在于,所述根据所述各个类别标识所对应的内容样本数量,确定所述待识别内容所对应的目标类别标识,包括:确定所述至少一个类别标识中每个类别标识所关联的内容样本数量;若存在至少两个类别标识所关联的内容样本数量相等,则根据所述至少两个类别标识中每个类别标识所关联的内容样本,以及,内容样本的召回相似度排名,计算所述每个类别标识所对应的平均排名;将最高平均排名所对应的类别标识作为所述待识别内容的目标类别标识。13.根据权利要求9所述的方法,其特征在于,所述根据所述各个类别标识所对应的内容样本数量,确定所述待识别内容所对应的目标类别标识,包括:确定所述至少一个类别标识中每个类别标识所关联的内容样本数量;若存在至少两个类别标识所关联的内容样本数量相等,则根据所述至少两个类别标识中每个类别标识所关联的内容样本,计算所述每个类别标识所对应的平均特性向量;根据所述每个类别标识所对应的平均特性向量与所述第一特征向量之间的相似度,确定作为所述待识别内容的目标类别标识。14.根据权利要求9所述的方法,其特征在于,所述根据所述目标类别标识,确定所述待识别内容所对应的所述目标类别标签,包括:响应针对于所述目标类别标识的标签标注指令,确定所述待识别内容所对应的所述目标类别标签;所述方法还包括:将与所述目标类别标识关联的内容样本以及所述待识别内容作为待训练样本集合,其中,所述待训练样本集合标注为所述目标类别标签;获取所述待训练样本集合中每个待训练样本的内容特征以及账号信息;获取所述待训练样本集合的聚类相似特征;基于所述待训练样本集合的聚类相似特征、所述每个待训练样本的内容特征以及账号信息,通过类别识别模型获取第一类别概率分布;根据所述目标类别标签以及所述第一类别概率分布,对所述类别识别模型的模型参数进行更新。15.根据权利要求9所述的方法,其特征在于,所述根据所述目标类别标识,确定所述待
识别内容所对应的所述目标类别标签,包括:将与所述目标类别标识关联的内容样本以及所述待识别内容作为预测样本集合;获取所述预测样本集合中每个预测样本的内容特征以及账号信息;获取所述预测样本集合的聚类相似特征;基于所述预测样本集合的聚类相似特征、所述每个预测样本的内容特征以及账号信息,通过类别识别模型获取第二类别概率分布;根据所述第二类别概率分布确定所述待识别内容所对应的所述目标类别标签。16.根据权利要求1至15中任一项所述的方法,其特征在于,所述方法还包括;若所述待识别内容为文本内容,则对所述待识别内容进行特征提取,得到所述第一特征向量;或者,所述方法还包括:若所述待识别内容为图片内容,则通过编码器对所述待识别内容进行编码,得到图像特征向量;通过投影头对所述图像特征向量进行非线性变换,得到所述第一特征向量。17.一种内容识别装置,其特征在于,包括:获取模块,用于获取待识别内容所对应的第一特征向量;所述获取模块,还用于根据所述第一特征向量与q个内容样本中每个内容样本的第二特征向量,从所述q个内容样本中召回满足相似度条件的m个内容样本,其中,所述每个内容样本对应于一个类别标识,所述m与所述q均为大于或等于1的整数,且所述m小于或等于所述q;确定模块,用于根据所述m个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到所述各个类别标识所对应的内容样本数量;所述获取模块,还用于根据所述各个类别标识所对应的内容样本数量,获取所述待识别内容所对应的目标类别标签。18.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;其中,所述存储器用于存储程序;所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至16中任一项所述的方法;所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。19.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至16中任一项所述的方法。20.一种计算机程序产品,包括计算机程序和指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至16中任一项所述的方法。

技术总结
本申请公开了一种内容识别的方法,可作为公众号的支持技术。本申请包括获取待识别内容所对应的第一特征向量;根据第一特征向量与Q个内容样本中每个内容样本的第二特征向量,从Q个内容样本中召回满足相似度条件的M个内容样本;根据M个内容样本中每个内容样本的类别标识,针对各个类别标识的内容样本进行统计,得到各个类别标识所对应的内容样本数量;根据各个类别标识所对应的内容样本数量,获取待识别内容所对应的目标类别标签。本申请还提供了相关装置、设备以及存储介质。本申请对于获取到的待识别内容而言,可直接对其进行聚类,从而能够更好地适应于流式内容场景,并且提升内容识别的实时性。容识别的实时性。容识别的实时性。


技术研发人员:彭颖鸿
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.02.09
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐