一种产品标签的建立方法及其建立系统与流程
未命名
08-26
阅读:253
评论:0
1.本发明涉及信息处理技术领域,尤其涉及对于各类产品建立标签的方法及其系统。
背景技术:
2.随着互联网的急速发展,各个行业都选择了通过网络进行电子商务交易,并依存网络建立对于各种产品信息的交流,该种交流包括产品售卖后的评价,也包括链接或未链接产品的讨论、测评等,这些评价、讨论、测评等均可作为有关产品的数据,通过对数据进行处理整合可以获知对应产品的品类或性能等方面的标签信息,这些标签信息对于消费者的选购或者商家的产品更新改进均有重大意义。此外,还可以借助这些标签信息实行推荐算法,或者对使用此类产品的用户进行用户画像等。
3.但是,目前对于产品数据的处理整合基本采用人工方式,人工中以售后客服查看售后评价的方式为主,由此获取与所售产品相对应的品类或性能标签,该种人工方式一来获取的信息范围过小,局限于产品的售后评价,关于产品数据的数量少,导致获取的标签准确性和客观性差,二来人工处理效率低下,且所需的人工成本较高。
4.基于此,需要设置一种便于对海量产品数据进行处理以建立准确产品标签的方法。
技术实现要素:
5.本发明的目的在于提供一种产品标签的建立方法及其建立系统,该方法通过提取产品数据中的特性关键词并对特性关键词进行处理得到特性特征,将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性,保证了产品属性和产品数据更新的一致性,并保证了产品标准名称和产品属性的关联性和准确性,建立与时俱进的产品标签。
6.为实现上述目的,本发明采用如下技术方案。
7.一种产品标签的建立方法,包括如下步骤:
8.s1、建立产品的标准名称和产品属性之间的对应关系;
9.s2、收集关于产品的数据并对数据进行文本特征提取以保留数据的特性关键词,利用特性关键词与标准名称进行匹配以实现对产品数据的初步分类;
10.s3、对分至同一类中的特性关键词进行特性分类以获得不同的特性特征,将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性,形成产品标签;
11.如此,产品属性依据产品数据而实现更新,使得标签的形成具有与时俱进性,在针对消费者的特定筛选需求时,可以便于消费者选购参照,也便于作为推荐算法使用;
12.进一步的,步骤s1中,还包括通过整合初步建立标准名称和别名之间的名称对应关系,并通过对可获知产品名称的信息进行降维处理以获得名称特性,将名称特性和标准
名称进行匹配以完善名称对应关系,不存在可与之匹配的标准名称的,则对应设立新的标准名称;如此,或通过匹配将名称特性纳入已有的标准名称中,或不存在与之匹配的标准名称而自行建立新的标准名称,保证了不同的名称特性均有与之对应的标准名称;
13.进一步的,采用相似度算法、机器学习模型或人工审核的方式对名称特性和标准名称进行匹配;
14.进一步的,步骤s1中,所述产品属性包括品类属性、参数属性和性能属性,所述品类属性是指产品所属的类别或种类,所述参数属性是指产品的具体参数,所述性能属性是指产品的性能表现;
15.进一步的,步骤s2中,所述的特性关键词包括可获知产品名称的名称型特性关键词和可获知产品属性的属性型特性关键词,通过名称型特性关键词和标准名称进行匹配,将产品数据分类到与其匹配的标准名称中;
16.进一步的,步骤s3中,对特性关键词以特征嵌入方法或文本特征处理方法处理后再进行相似度匹配、分类或聚类,实现特性分类以得到不同的特性特征;
17.进一步的,其还包括如下步骤:
18.步骤s4、选取所包含的特性关键词数量排名靠前的若干个特性特征作为核心特征;
19.步骤s5、通过最近邻搜索,将该产品数据划分到核心特征与其特性关键词最相近的标准名称中以实现产品数据的再分类;
20.步骤s6、重复步骤s4和s5,直至分类不再发生变更;
21.如此,不仅仅可以形成产品标签,还可以拉取相对应的产品数据,进一步丰富产品标签内容;
22.进一步的,步骤s4中,将核心特征转换转换成词向量再进行最近邻搜索。
23.一种产品标签的建立系统,包括对应模块、处理模块和第一匹配模块,所述对应模块用于建立产品的标准名称和产品属性之间的对应关系,所述处理模块用于从关于产品的数据中提取特性关键词,利用特性关键词与标准名称进行匹配以实现对产品数据的初步分类,对分至同一类中的特性关键词进行特性分类以获得不同的特性特征,所述第一匹配模块将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性;
24.进一步的,还包括标准模块,所述标准模块用于建立标准名称和别名之间的名称对应关系,并通过对可获知产品名称的信息进行降维处理以获得名称特性,将名称特性和标准名称进行匹配以完善名称对应关系,不存在可与之匹配的标准名称的,则对应设立新的标准名称;
25.进一步的,还包括第二匹配模块,所述第二匹配模块选取所包含的特性关键词数量排名靠前的若干个特性特征作为核心特征,通过最近邻搜索,将该产品数据划分到核心特征与其特性关键词最相近的标准名称中。
26.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现产品数据的分类方法。
27.一种终端设备,包括存储器和处理器,所述处理器被配置为基于存储在所述存储器的指令,执行时实现产品数据的分类方法。
28.本发明的有益效果为:
29.一方面,通过提取产品数据中的特性关键词并对特性关键词进行处理得到特性特征,将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性,保证了产品属性和产品数据更新的一致性,并保证了产品标准名称和产品属性的关联性和准确性,建立与时俱进的产品标签,利于推荐算法;
30.另一方面,通过产品数据中的特性关键词与标准名称进行匹配实现初步分类,并借助产品的标准名称和产品属性之间的对应关系,将分类后的产品数据带入到该分类中,通过提取产品数据中的特性关键词并对特性关键词进行处理获得核心特征,通过将产品数据中的特性关键词和核心特征进行最近邻搜索,调整产品数据的分类,保证产品数据分类的准确性,将产品数据直接关联产品标签,可以拉取对应的产品数据,丰富了产品标签的表现形式。
附图说明
31.图1是本发明一实施例所述的产品标签的建立方法流程示意图。
具体实施方式
32.在本发明的描述中,需要理解的是,指示方位的术语或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
33.以下结合列表对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。需说明的是,列表均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
34.在本发明的一个实施例中,如图1所示,产品标签的建立方法包括如下步骤:
35.1)通过对产品进行整合,建立标准名称和别名之间的名称对应关系;
36.该整合包括前期的人工整合,也包括后续的自动整合,所述的自动整合是指对可获知产品名称的信息进行降维处理以获得名称特性,将名称特性和标准名称进行匹配以完善名称对应关系,不存在可与之匹配的标准名称的,则对应设立新的标准名称。
37.所述的可获知机油名称的信息包括名称信息、型号信息等,所述的名称信息包括全名和缩略名,也包括标准名和别名。
38.所述的降维处理是指采用的降维技术进行处理,包括基于pca(全称principal component analysis)思想的降维技术,如kernel pca、incremental pca、sparse pca、robust pca、nmf(全称non-negative matrix factorization)、ica(全称independent component analysis)等。
39.所述的匹配包括采用相似度算法、机器学习模型或人工审核的方式对名称特性和标准名称进行匹配,所述的相似度算法如余弦相似度、jaccard相似度等,计算降维获得的名称特性和标准名称之间的相似度,以确定它们之间的匹配程度;所述的机器学习模型如分类模型、聚类模型等,对降维获得的名称特性和标准名称进行分类或聚类,以确定它们之间的匹配关系;所述的人工审核是通过人工审核和校对,对降维获得的名称特性和标准名称进行匹配和调整,以确保匹配结果的准确性和可靠性。
40.鉴于可以通过对产品数据的收集处理不断完善名称对应关系,因此可以很好的与产品的更新换代技术相匹配,及时获取最新的产品别名和标准名称。
41.2)建立标准名称和产品属性之间的对应关系;
42.所述产品属性包括品类属性、参数属性和性能属性,所述品类属性是指产品所属的类别或种类,以机油为例,如将机油划分为合成机油、半合成机油和矿物油,所述参数属性是指产品的具体参数,同样以机油为例,如适配的车型、粘度等级、机油规范、机油容量等,所述性能属性是指产品的性能表现,同样以机油为例,如粘度强、抗磨性好、耐低温、价格便宜等。
43.同样,产品属性包括人工整合也包括自动整合,对于自动整合的,其方法继续查看下文。
44.3)收集关于产品的数据并对数据进行文本特征提取以保留数据的特性关键词,利用特性关键词与标准名称进行匹配以实现对产品数据的初步分类;
45.关于产品的数据包括但不限于产品信息(如品牌、型号、规格、容量、价格等)、产品参数(如粘度、黏度指数、闪点、凝点、插值点等)、用户评价(如用户对产品的评论、留言、文章、贴吧等)。
46.所述的文本特征提取是用于去除杂质提取关键信息的技术,包括关键词过滤(如tf-idf、textrank、lda等)、基于规则的匹配(如正则表达式)、基于词频的过滤(如统词频)或基于机器学习的分类等。
47.特性关键词包括可获知产品名称的名称型特性关键词和可获知产品属性的属性型特性关键词,通过名称型特性关键词和标准名称进行匹配,将产品数据分类到与其匹配的标准名称中。其匹配方法参照步骤1)。
48.4)对分至同一类中的特性关键词以特征嵌入方法或文本特征处理方法处理后再进行相似度匹配、分类或聚类,实现特性分类以得到不同的特性特征;
49.所述的特征嵌入方法(如word2vec、glove、fasttext、doc2vec等)用于将特征转换成向量,所述的文本特征处理方法(如tf-idf、bm25、lda词袋模型、n-gram等)用于将文本转换为向量,再进行相似度匹配、分类或聚类实现分类。较为常见的前述方法的应用包括相似度匹配、机器学习分类、深度学习分类、聚类分类、朴素贝叶斯分类器、支持向量机分类器、卷积神经网络、循环神经网络等。
50.5)将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性。此外,选取所包含的特性关键词数量排名靠前的若干个特性特征作为核心特征;
51.通过数量选取排除少数的特性特征,避免误差影响,因为包含的特性关键词少的大概率为笔误、不准确或不客观的描述,以此保证核心特征的准确性,便于后续产品数据的分类。通过设置阈值来选择可以关联标准名称的产品属性,如此可以进一步完善产品属性,便于形成准确且与时俱进的产品标签。
52.6)将核心特征转换为词向量;
53.7)通过最近邻搜索,将该产品数据划分到核心特征与其特性关键词最相近的标准名称中以实现产品数据的再分类;
54.所述的最近邻搜索包括精确最近邻和近似最近邻,所述精确最近邻是指在给定数
据集中,找到与查询点最近的数据点,如线性扫描、kd树等ball树等,所述的近似最近邻是指在给定数据集中,找到与查询点最近的数据点的近似值,过程使用一些近似算法来加速计算,以减少计算时间和空间复杂度,如局部敏感哈希(lsh)、随机化kd树、近似最近邻树(ann树)、graph-based nearest neighbor search等。
55.8)重复步骤4)-7),直至分类不再发生变更。
56.基于前述实施例的说明,下文提供具体事例,如,以机油且将机油分为普通矿物油、半合成机油、全合成机油三类为例进行具体说明。当然,需要注意的是,其并不局限于机油,其并不局限于前述的分类方式,可根据需要调整,例如:1、食品,如饮料、糖果、零食、方便食品、调味品,饮料继续划分为不同品牌不同类型的饮料等,下文的分类也同理,为了简化说明,下文仅做最简单的分类列举;2、化妆品,如护肤品、彩妆、香水、洗发水、沐浴露等;3、服装,如男装、女装、童装、运动装、内衣等;4、家居用品,如家具、家纺、厨具、卫浴用品等;5、电子产品,如手机、电脑、平板、相机、音响等;6、汽车配件,如轮胎、刹车片、空气滤清器、火花塞等;7、医疗器械如血压计、血糖仪、体温计、口罩等;8、运动器材,如跑步机、健身器材、自行车、游泳用品等。综上,本技术并不局限于某一种分类,只要保证类别的划分具有较为明显的区别以便分类即可。
57.依照本实施例的产品标签的建立方法,以建立机油标签为例,以列表的形式进行说明。
58.①
建立别名、标准名称和机油属性的对应表;
59.本实施例中,机油属性包括品牌、类别和性能,表格仅进行示例性列举以便于说明,具体参见表1所示:
[0060][0061]
表1
[0062]
②
收集关于机油的评论,通过统词频处理保留每条评论的特性关键词;如表2所示:
[0063][0064]
表2
[0065]
③
借助获得的特性关键词中的名称型特性关键词将其初步分类到与之匹配的标准名称上;所述的名称型特性关键词如本实施例中的美孚、一号、昆仑、天润、kr9等,根据这些名称型特性关键词将其匹配到与之对应的标准名称上,参照表3所示:
[0066][0067]
表3
[0068]
④
对特性关键词进行特征分类,得到不同的特性特征;
[0069]
以表3中的美孚一号为例,在实现对于标准名称的匹配后,也实现了对机油评论的临时匹配,使得机油评论中可作用于对应的标准名称,如表3中所示,可作用于美孚一号中的机油评论的特性关键词包括持久、便宜、抗磨、清洁、保护引擎,因为表3只是部分示意,假设在其他机油评论中,还存在类似的对于美孚一号的评价,例如,美孚1号很经济、美1很划算、美孚一号抗磨性棒棒的、美1很耐磨等等,那么美孚1号很经济、美1很划算、便宜等可以归类到便宜这一特性特征上,抗磨、美孚一号抗磨性棒棒的、美1很耐磨等可以归类到抗磨性这一特性特征上,如此就完成了对于特性关键词的特征分类从而得到对应美孚一号这一标准名称下的不同特性特征,参照表4所示:
[0070][0071]
表4
[0072]
⑤
将包含有特性关键词的数量超过30个的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性,如此形成该机油的关联标签;例如,对于美孚一号的特性特征为便宜的特性关键词的数量超过了30个,那么认定该种认知具有大众性,如果原始的和美孚一号这一标准名称对应的产品属性中没有“便宜”这一属性的话,则将“便宜”这一特性特征添加到和美孚一号这一标准名称对应的产品属性中,如此一来,可以根据消费者的实际体验不断丰富产品的属性,使得产品属性更贴合实际使用体验,进一步完善标准名称和产品属性的对应关系,参见表5所示:
[0073][0074]
表5
[0075]
为了进一步丰富机油标签,将机油评论和前述建立的机油标签关联,加之步骤
③
中因为是通过名称型特性关键词进行初步划分的,当一个机油评论中同时涉及两种分类不同的产品时,将会将该条评价同时划分到两个标准名称中,与之对应了两种不同的机油属性,导致标签关联错误;例如表6所示,因“长城金吉星j500跟美孚一号我都用过,但个人感觉美孚一号比较好,抗磨能力和清洁能力都很强”这条机油评论错误的关联到了长城金吉星j500上,在拉取长城金吉星j500有关标签时,则会附带拉出该条机油评论,导致标签错误:
[0076][0077]
表6
[0078]
如此,继续进行如下步骤,以确保产品数据的分类准确,也即确保产品数据和标签关联的准确:
[0079]
⑥
选取所包含的特性关键词数量排名靠前的50个特性特征作为核心特征;以美孚一号为例,假设属于保护引擎这一特征特征的特性关键词有8000个,属于清洁性这一特征特征的特性关键词有7982个,属于抗磨这一特征特征的特性关键词有7820个
······
依照该排名,选出包含的特性关键词数量排名靠前的50个特性特征作为核心特征。
[0080]
⑦
将其核心特征转换为词向量,通过近似最近邻查找,将每条机油评论划分到与其特征关键词最相近的标准名称中,实现机油评论的再分类,重复步骤
④⑤⑥
,直至分类不再变化,完成对机油评论的分类,与此丰富了机油标签内容。承接表6的案例,通过近似最近
语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0093]
处理器可以包括一个或者多个处理核,处理器利用各种接口和线路连接整个终端设备内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端设备的各种功能和处理数据。可选地,处理器可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块通信芯片进行实现。
[0094]
存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个方法实施例的指令等。存储数据区还可以是存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
[0095]
此外,应当理解,虽然本说明书按照实施方式加以描述,但是所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
技术特征:
1.一种产品标签的建立方法,其特征在于,包括如下步骤:s1、建立产品的标准名称和产品属性之间的对应关系;s2、收集关于产品的数据并对数据进行文本特征提取以保留数据的特性关键词,利用特性关键词与标准名称进行匹配以实现对产品数据的初步分类;s3、对分至同一类中的特性关键词进行特性分类以获得不同的特性特征,将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性,形成产品标签。2.根据权利要求1所述的产品标签的建立方法,其特征在于,步骤s1中,还包括通过整合初步建立标准名称和别名之间的名称对应关系,并通过对可获知产品名称的信息进行降维处理以获得名称特性,将名称特性和标准名称进行匹配以完善名称对应关系,不存在可与之匹配的标准名称的,则对应设立新的标准名称。3.根据权利要求1所述的产品标签的建立方法,其特征在于,采用相似度算法、机器学习模型或人工审核的方式对名称特性和标准名称进行匹配。4.根据权利要求1所述的产品标签的建立方法,其特征在于,步骤s1中,所述产品属性包括品类属性、参数属性和性能属性,所述品类属性是指产品所属的类别或种类,所述参数属性是指产品的具体参数,所述性能属性是指产品的性能表现。5.根据权利要求1所述的产品标签的建立方法,其特征在于,步骤s2中,所述的特性关键词包括可获知产品名称的名称型特性关键词和可获知产品属性的属性型特性关键词,通过名称型特性关键词和标准名称进行匹配,将产品数据分类到与其匹配的标准名称中。6.根据权利要求1所述的产品标签的建立方法,其特征在于,步骤s3中,对特性关键词以特征嵌入方法或文本特征处理方法处理后再进行相似度匹配、分类或聚类,实现特性分类以得到不同的特性特征。7.根据权利要求1所述的产品标签的建立方法,其特征在于,其还包括如下步骤:步骤s4、选取所包含的特性关键词数量排名靠前的若干个特性特征作为核心特征;步骤s5、通过最近邻搜索,将该产品数据划分到核心特征与其特性关键词最相近的标准名称中以实现产品数据的再分类;步骤s6、重复步骤s4和s5,直至分类不再发生变更。8.根据权利要求7所述的产品标签的建立方法,其特征在于,步骤s4中,将核心特征转换转换成词向量再进行最近邻搜索。9.一种用于实现权利要求1-8任一所述产品标签的建立方法的建立系统,其特征在于,包括对应模块、处理模块和第一匹配模块,所述对应模块用于建立产品的标准名称和产品属性之间的对应关系,所述处理模块用于从关于产品的数据中提取特性关键词,利用特性关键词与标准名称进行匹配以实现对产品数据的初步分类,对分至同一类中的特性关键词进行特性分类以获得不同的特性特征,所述第一匹配模块将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性。10.根据权利要求9所述的产品标签的建立系统,其特征在于,还包括标准模块,所述标准模块用于建立标准名称和别名之间的名称对应关系,并通过对可获知产品名称的信息进行降维处理以获得名称特性,将名称特性和标准名称进行匹配以完善名称对应关系,不存在可与之匹配的标准名称的,则对应设立新的标准名称。
11.根据权利要求9所述的产品标签的建立系统,其特征在于,还包括第二匹配模块,所述第二匹配模块选取所包含的特性关键词数量排名靠前的若干个特性特征作为核心特征,通过最近邻搜索,将该产品数据划分到核心特征与其特性关键词最相近的标准名称中。12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任一所述产品标签的建立方法。13.一种终端设备,包括存储器和处理器,其特征在于,所述处理器被配置为基于存储在所述存储器的指令,执行时实现权利要求1-8任一所述产品标签的建立方法。
技术总结
一种产品标签的建立方法及其建立系统,涉及信息处理技术领域,其中方法包括如下步骤:S1、建立产品的标准名称和产品属性之间的对应关系;S2、收集关于产品的数据并对数据进行文本特征提取以保留数据的特性关键词,利用特性关键词与标准名称进行匹配以实现对产品数据的初步分类;S3、对分至同一类中的特性关键词进行特性分类以获得不同的特性特征,将包含有特性关键词的数量超过设定阈值的特性特征补入产品属性中,由此建立新的产品属性或完善已有的产品属性,形成产品标签。如此,产品属性依据产品数据而实现更新,使得标签的形成具有与时俱进性,在针对消费者的特定筛选需求时,可以便于消费者选购参照,也便于作为推荐算法使用。用。用。
技术研发人员:李丽君 孙素 任跃锋
受保护的技术使用者:上海桥创科技有限公司
技术研发日:2023.06.14
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
