基于知识图谱的时尚分析方法、装置、设备及存储介质与流程
未命名
07-19
阅读:68
评论:0
1.本技术涉及时尚分析技术领域,尤其涉及一种基于知识图谱的时尚分析方法、装置、设备及存储介质。
背景技术:
2.现如今互联网行业高速发展带动了时尚产业的发展,时尚产业涌现出越来越多的新商品,分析发掘出新商品可能的销售量、销售区域、销售群体等时尚特征是企业进行决策的数据支撑。但目前主要通过人工对时尚领域的商品进行分类和整理后,进而手动分析商品的时尚特征,分析效率低下。
技术实现要素:
3.本技术的主要目的在于提供一种基于知识图谱的时尚分析方法、装置、设备及存储介质,旨在解决如何提高对商品时尚特征的分析效率的技术问题。
4.为实现上述目的,本技术提供一种基于知识图谱的时尚分析的方法,包括以下步骤:
5.获取电商网站上历史商品的文本数据与图像数据,根据预设的超分辨率算法处理所述图像数据得到目标图像;
6.对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;
7.基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。
8.可选地,所述基于所述文本特征向量与所述图像特征向量构建目标知识图谱的步骤,包括:
9.融合所述文本特征向量与所述图像特征向量得综合特征向量;
10.基于预设的规则从所述文本数据中提取出所述历史商品对应的商品节点,其中,所述商品节点包括商品颜色、商品尺寸、商品材质与商品分类中的一种或多种;
11.将所述综合特征向量与所述商品节点分别与所述历史商品关联,并将所述综合特征向量标记为所述历史商品对应的时尚结果,以构建得到目标知识图谱。
12.可选地,所述基于所述文本特征向量与所述图像特征向量构建目标知识图谱的步骤之后,包括:
13.从预设场景中获取待进行时尚分析的新商品,在所述目标知识图谱中查找与所述新商品匹配度最高的目标商品;
14.将所述目标知识图谱中所述目标商品对应的时尚结果作为时尚分析结果进行输出。
15.可选地,所述根据预设的超分辨率算法处理所述图像数据得到目标图像的步骤,包括:
16.删除所述图像数据中的无效图像数据,以获取有效图像数据,其中,所述无效图像数据至少包括所述图像数据中图像清晰度低于预设清晰度的模糊图像数据;
17.对所述有效图像数据进行降噪处理得到目标图像数据,根据预设的超分辨率算法处理所述目标图像数据得到目标图像。
18.可选地,所述根据预设的超分辨率算法处理所述目标图像数据得到目标图像的步骤,包括:
19.若所述目标图像数据的分辨率小于预设分辨率,将所述目标图像数据输入到预训练的超分辨率模型中进行图像重建,输出得到目标图像,其中,所述目标图像的分辨率大于或等于预设分辨率。
20.可选地,所述对所述文本数据进行特征提取得到文本特征向量的步骤,包括:
21.对所述文本数据进行分词处理,以得到分词文本;
22.在所述分词文本中查找和预设停用词表匹配的单词作为停用词,并去除所述分词文本中的所述停用词,对去除停用词后的分词文本进行词干提取得到低维文本向量;
23.将所述低维文本向量映射到高维向量空间中,得到所述文本数据的文本特征向量。
24.可选地,所述获取电商网站上历史商品的文本数据与图像数据的步骤,包括:
25.获取电商网站上历史商品的统一资源资源定位符,将所述统一资源资源定位符编写到预设的爬虫工具中;
26.通过所述爬虫工具打开所述统一资源资源定位符,抓取所述历史商品的文本数据与图像数据,其中,所述文本数据至少包括商品描述与商品名称,所述图像数据至少包括商品图片。
27.此外,为实现上述目的,本技术还提供一种基于知识图谱的时尚分析装置,包括:
28.数据获取模块,获取电商网站上历史商品的文本数据与图像数据,以预设的图像处理算法处理所述图像数据得到目标图像,其中,预设的图像处理算法包括超分辨率算法;
29.特征提取模块,用于对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;
30.图谱构建模块,用于基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。
31.此外,为实现上述目的,本技术还提供一种基于知识图谱的时尚分析设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于知识图谱的时尚分析程序,所述基于知识图谱的时尚分析程序被所述处理器执行时实现如上述的基于知识图谱的时尚分析方法的步骤。
32.此外,为实现上述目的,本技术还提供一种存储介质,存储介质上存储有基于知识图谱的时尚分析程序,基于知识图谱的时尚分析程序被处理器执行时实现如上述的基于知识图谱的时尚分析方法的步骤。
33.本技术通过获取电商网站上历史商品的文本数据与图像数据,提取出文本数据中文本特征向量,根据预设的超分辨率算法处理所述图像数据得到高分辨率的目标图像,对所述目标图像进行特征提取得到图像特征向量,基于所述文本特征向量与所述图像特征向
量构建目标知识图谱,从而能够基于构建好的目标知识图谱中自动实现对新商品的时尚分析,并且输出时尚分析的分析结果,完成对新商品时尚特征的分析与发掘,克服了现有技术中通过人工手动分析发掘新商品的时尚特惠征,导致对商品时尚特征的分析效率低下的的技术缺陷,本技术通过获取电商网站上历史商品的文本数据与图像数据构建出适用于商品时尚分析的目标知识图谱,由目标知识图谱自动完成对商品时尚特征的分析,从而提高了商品时尚特征的分析效率。
附图说明
34.本技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
35.图1是本技术实施例方案涉及的硬件运行环境的终端\装置结构示意图;
36.图2为本技术基于知识图谱的时尚分析方法第一实施例的流程示意图;
37.图3为本技术基于知识图谱的时尚分析方法的目标知识图谱构建流程示意图;
38.图4为本技术基于知识图谱的时尚分析方法中商品时尚分析流程示意图;
39.图5是本技术基于知识图谱的时尚分析装置的装置模块示意图。
具体实施方式
40.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
41.参照图1,图1为本技术实施例方案涉及的硬件运行环境的基于知识图谱的时尚分析设备结构示意图。
42.如图1所示,该基于知识图谱的时尚分析设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
43.本领域技术人员可以理解,图1中示出的结构并不构成对基于知识图谱的时尚分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
44.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于知识图谱的时尚分析程序。
45.在图1所示的基于知识图谱的时尚分析设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本技术基于知识图谱的时尚分析设备中的处理器1001、存储器1005可以设置在基于知识图谱的时尚分析设备中,所述基于知识图谱的时尚分析设备通过处理器1001调用存储器1005中存储的基于知识图谱的时尚分析程序,并执行本技术实施例提供的基于知识图谱的时尚分析方法。
46.参照图2,本技术提供一种基于知识图谱的时尚分析方法,在基于知识图谱的时尚分析方法的第一实施例中,基于知识图谱的时尚分析方法包括以下步骤:
47.步骤s10,获取电商网站上历史商品的文本数据与图像数据,根据预设的超分辨率算法处理所述图像数据得到目标图像;
48.获取电商网站上预设时间区段内历史商品的文本数据与图像数据,其中,电商网站可以是淘宝、天猫、京东、亚马逊等等,预设时间区段可以是用户设置的任意时间区段,例如当前日期前往前一年内或一个季度内的电商网站上的历史商品,可以通过爬虫工具抓取历史商品的文本数据与图像数据。
49.需要说明的是传统的图像处理方法通常采用低通滤波、插值等技术对图像进行处理,以提高图像的质量和清晰度。然而,在时尚领域的跨境电商平台中,这种方法的效果较差,无法处理复杂的时尚图像。
50.基于上述现象,本实施例中通过预设的超分辨率算法对图像数据进行处理,以得到高分辨率的目标图像,其中,超分辨率(super-resolution)算法可以在提高图像或视频的分辨率方面发挥作用。超分辨率算法旨在通过重建低分辨率图片,而不是将其直接复制,来改善图像的质量。它使用诸如图像复原、深度学习等技术,以生成更高分辨率的图像。该算法的核心部分是在低分辨率图片中收集信息,然后使用此信息来填充高分辨率图片。超分辨率算法可以改善图像的清晰度,并有助于增加图像的像素数量,从而提升图像的质量。
51.步骤s20,对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;
52.可以分别对文本数据与目标图像进行特征提取,对文本数据进行特征提取得到文本特征向量,对目标图像进行特征提取得到图像特征向量。特征提取从初始的一组测量数据开始,并建立旨在提供信息和非冗余的派生值(特征),从而促进后续的学习和泛化步骤,并且在某些情况下带来更好的可解释性。特征提取与降维有关。特征的好坏对泛化能力有至关重要的影响。
53.进一步地,为了提高特征提取的准确度,可以提前训练专门用于文本提取的文本特征提取模型,与专门用于图像提取的图像特征数据提取模型,其中,文本特征提取模型与图像数据特征提取模型可以是卷积神经网络,只是可以用不同的训练集与测试集提前训练出用于文本数据特征提取的文本卷积神经网络,与用于图像特征提取的图像卷积神经网络。
54.卷积神经网络,是一种专门用来处理具有类似网格结构的数据的神经网络。卷积网络是指那些至少在网络的一层中使用卷积运算来替代一般的矩阵乘法运算的神经网络。卷积神经网络的基本结构由以下几个部分组成:输入层,卷积层,池化层,激活函数层和全连接层,本实施例在处理图像的卷积神经网络中,输入层一般代表了一张图片的像素矩阵,卷积神经网络的核心是卷积层,卷积层的核心部分是卷积操作,对图像和滤波矩阵(一组固定的权重:因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器)做内积(逐个元素相乘再求和)的就是所谓的卷积操作,池化操作将输入矩阵某一位置相邻区域的总体统计特征作为该位置的输出,主要有平均池化、最大池化等。激活函数(非线性激活函数,如果激活函数使用线性函数的话,那么它的输出还是一个线性函数。)但使用非线性激活函数可以得到非线性的输出值。在经过多轮卷积层和池化层的处理之后,完整的卷积神经网络在最后一般会由1到2个全连接层来给出最后的分类结果。
55.在本实施例中,可以将目标图像输入到预训练好的图像卷积神经网络的输入层,
然后经过卷积层和池化层自动完成对图像特征的提取得到图像特征向量。
56.而对于文本数据的特征提取,由于文本数据的特征提取的关键在于准确提炼文本数据中文档或者句子的中心思想,而提炼中心思想的方法是抽取文档或句子的关键词作为特征,基于这些特征去训练分类器并分类。因为卷积神经网络的卷积层和池化层过程就是一个抽取特征的过程,当于训练好可以准确抽取关键词的特征的文本卷积神经网络之后,就能准确的提炼出文本数据中的体征得到文本特征向量。
57.此外,也可以使用自然语言处理方式提取文本数据中的特征,以得到文本特征向量,即可以利用自然语言处理工具包对文本数据进行特征提取,如对文本数据进行分词、去停用词、词干提取等自然语言处理得到多个单词,在以词嵌入的方式将每个单词映射到高维向量空间中,实现对文本数据的特征提取得到文本特征向量。
58.步骤s30,基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。
59.提取出文本特征向量与图像特征向量之后,就可以基于文本特征向量与图像特征向量构建目标知识图谱,构建得到适用于时尚领域的目标知识图谱之后,可以使用目标时尚图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果,构建得到的目标知识图谱中存储的各商品对应的时尚结果通常包括但不限于销售量、点击量、销售人群、销售地区与商品所属种类等时尚特征。
60.本实施例中通过获取电商网站上历史商品的文本数据与图像数据,提取出文本数据中文本特征向量,根据预设的超分辨率算法处理所述图像数据得到高分辨率的目标图像,对所述目标图像进行特征提取得到图像特征向量,基于所述文本特征向量与所述图像特征向量构建目标知识图谱,从而能够基于构建好的目标知识图谱中自动实现对新商品的时尚分析,并且输出时尚分析的分析结果,完成对新商品时尚特征的分析与发掘,克服了现有技术中通过人工手动分析发掘新商品的时尚特惠征,导致对商品时尚特征的分析效率低下的的技术缺陷,本技术通过获取电商网站上历史商品的文本数据与图像数据构建出适用于商品时尚分析的目标知识图谱,由目标知识图谱自动完成对商品时尚特征的分析,从而提高了商品时尚特征的分析效率。
61.进一步地,基于上述本技术的第一实施例,提出本技术基于知识图谱的时尚分析方法的第二实施例,在本实施例中,上述实施例步骤s30,基于所述文本特征向量与所述图像特征向量构建目标知识图谱步骤的细化,包括:
62.步骤a,融合所述文本特征向量与所述图像特征向量得综合特征向量;
63.在本实施例中,将文本特征向量与图像特征向量得进行融合得到综合特征,可以是将文本特征向量与图像特征向量合并,并删除特征向量合并后重复的特征,或者可以依次计算合并后的特征向量中每个特征与其他特征之间的相似度,对于相似度高于预设阈值的特征,仅保留一个即可直至特征向量中各特征向量之间的相似度低于预设阈值,以得到综合特征向量,其中,预设阈值可以提前设置好的相似度阈值(如95%等)。
64.此外,可以采用多通道的卷积神经网络,将文本特征向量与图像特征向量等多个不同方面的表示特征利用卷积融合得到新的综合特征向量,以聚合多种角度的特征表示。然后将综合特征向量与背景知识图谱中的商品节点关联后构建目标知识图谱。
65.步骤b,基于预设的规则从所述文本数据中提取出所述历史商品对应的商品节点,
其中,所述商品节点包括商品颜色、商品尺寸、商品材质与商品分类中的一种或多种;
66.基于预设的规则从文本数据中提取出历史商品的商品颜色、商品尺寸、商品材质与商品分类等信息作为历史商品对应的商品节点,其中,预设的规则可以是提前设置好的文本识别规则,即以预设的文本识别规则对文本数据进行识别,如果文本数据中包含有商品颜色(如红色、蓝色等)、商品尺寸(如s码、m码、l码、均码等)、商品材质(如纯棉、羊毛、棉麻等)、商品分类(如短裙、衬衫、长裤、大衣等)等信息,则提取出这些信息作为历史商品对应的商品节点。
67.进一步地,在用户搜索某个商品的场景中,可以使用自然语言处理的方式(如依次经过分词、去停用词与词干提取等自然语言处理步骤)提取用户输入的搜索文本中的搜索关键词,将每个搜索关键词与目标知识图谱中各商品的商品节点匹配,若某个商品节点与一个搜索关键词匹配之后,则可以通过商品节点回溯到与此商品节点关联的商品并将商品展示在用户的搜索结果页面,可以在查找与商品关联的综合特征向量,将所有与搜索关键词匹配的商品节点关联的商品对应的综合特征向量与搜索文本或搜索关键词进行匹配,以匹配度高低依次在搜索结果展示页面展示所有与搜索关键词匹配的商品,从而提高对商品的搜索效率,实现对商品的智能化与个性化展示,使得展示结果更加贴合搜索的内容。
68.步骤c,将所述综合特征向量与所述商品节点分别与所述历史商品关联,并将所述综合特征向量标记为所述历史商品对应的时尚结果,以构建得到目标知识图谱。
69.将综合特征向量与商品节点分别与历史商品关联存储,并将综合特征向量标记为历史商品对应的时尚结果,构建得到目标知识图谱。
70.在本实施例中,从所述文本数据中提取出历史商品对应的商品节点,在融合文本特征向量与图像特征向量得到综合特征向量,将综合特征向量与商品节点分别与历史商品关联,并将综合特征向量标记为历史商品对应的时尚结果,从而构建得到适用于时尚领域专用的目标知识图谱,保证构建的目标知识图谱的有效性,并且在目标知识图谱中标记有时尚结果,为自动化实现对新商品的时尚分析提供了可能性,提高跨境电商平台的商品推荐和营销的效果,满足跨境电商行业自动化分析和识别的需求。
71.在一实施例中,所述基于所述文本特征向量与所述图像特征向量构建目标知识图谱的步骤之后,包括:
72.步骤d,从预设场景中获取待进行时尚分析的新商品,在所述目标知识图谱中查找与所述新商品匹配度最高的目标商品;
73.步骤e,将所述目标知识图谱中所述目标商品对应的时尚结果作为时尚分析结果进行输出。
74.在本实例中,从预设场景中获取待进行时尚分析的新商品,其中,预设场景是指需要进行时尚分析的场景,如可以是在特定平台中上传待进行时尚分析的新商品的商品图片或者商品描述,此时就可以从平台中获取待进行时尚分析的新商品,将新商品与目标知识图谱中的各商品进行匹配,选择与新商品与目标知识图谱中匹配度最高的目标商品,以目标知识图谱中标记的目标商品对应的时尚结果作为新商品的时尚分析结果进行输出,完成对新商品的时尚分析。
75.并且,在构建得到目标知识图谱之后,可以通过文本挖掘如自然语言处理、知识图谱推理算法等从知识图谱文本中提取实体与关系,例如商品、人物、地点等,并对它们进行
分类和命名。关系提取:在文本中识别实体之间的关系,例如“某个商品被某个用户购买了”或“某个商品有哪些特性”,实体可以是文本中的基本对象或事物,例如客户、商品、订单和评价等。这些实体都具有一些属性或特征,例如商品的名称、价格、描述和评价等。关系指的是不同实体之间的相互作用或联系。例如,一个订单可能与一个客户和多个商品相关联,一个评价可能与一个商品和一个客户相关联。关系还可以描述实体之间的层次结构、依赖关系和其他关联信息。
76.识别出实体与关系之后,可以利用识别出的实体和关系进行时尚领域分析,包括时尚趋势分析、时尚风格分析、时尚关联分析等,例如,分析不同商品的销售情况,并找到热门商品和不受欢迎的商品。为了做到这一点,可以通过挖掘目标知识图谱中订单实体中的商品信息,并对其进行分类,例如按照销售数量、销售额、销售地区等方面进行分类。然后,提取出各类别中的热门商品和不受欢迎的商品,完成对不同商品的销售情况的分析。
77.在本实施例中,以提前构建好的目标知识图谱对新商品进行时尚分析,在目标知识图谱中查找与所述新商品匹配度最高的目标商品,将目标知识图谱中目标商品对应的时尚结果作为时尚分析结果进行输出,实现了对商品时尚特征的自动分析与挖掘,提高了对商品时尚特征的分析效率。
78.在一实施例中,所述根据预设的超分辨率算法处理所述图像数据得到目标图像的步骤,包括:
79.步骤f,删除所述图像数据中的无效图像数据,以获取有效图像数据,其中,所述无效图像数据至少包括所述图像数据中图像清晰度低于预设清晰度的模糊图像数据;
80.步骤g,对所述有效图像数据进行降噪处理得到目标图像数据,根据预设的超分辨率算法处理所述目标图像数据得到目标图像。
81.当获取到历史商品的图像数据后,可以先确定各个图像数据中哪些图像数据是不清晰,或者重复的,并将其作为无效图像数据,再将这些无效图像数据进行删除。并将经过删除处理后,剩下的图像数据作为有效图像数据,并可以对有效图像数据进行降噪处理得到目标图形数据,可以通过低通滤波、插值等技术对有效图像数据进行降噪处理,以提高图像的质量和清晰度,在对目标图像数据以预设的超分辨率算法进行超分辨率处理得到目标图像。
82.在本实施例中,通过删除各个图像数据中的无效图像数据,并对有效图像数据进行降噪处理得到,减少了超分辨率处理的图像数据数量,提高了超了分辨率处理的处理效率。
83.在一实施例中,所述根据预设的超分辨率算法处理所述目标图像数据得到目标图像的步骤,包括:
84.步骤h,若所述目标图像数据的分辨率小于预设分辨率,将所述目标图像数据输入到预训练的超分辨率模型中进行图像重建,输出得到目标图像,其中,所述目标图像的分辨率大于或等于预设分辨率。
85.可以对原始高分辨率的商品图像进行下采样得到低分辨的商品图像作为超分辨率模型的仿真输入,原始高分辨率的商品图像作为输出完成对超分辨率模型的训练,完成超分辨率模型的预训练,预训练完成后,将目标图像输入预训练的超分辨率模型中进行训练,在超分辨率模型中使用超分辨率算法对目标图像进行重建,输出得到分辨率大于目标
图像数据分辨率的目标图像,此外,还可以提前设置预设分辨率,若目标图像数据的分辨率小于预设分辨率,将目标图像数据输入到预训练的超分辨率模型中进行图像重建,若目标图像数据的分辨率大于或等于预设分辨率,则可以不进行图像重建。
86.使用超分辨率算法对目标图像数据进行图像重建,得到高分辨率的目标图像后,就可以对目标图像进行特征提取得到图像特征向量,可以使用卷积神经网络提前目标图像的特征得到图像特征向量,也可以将目标图像输入到预训练的图像特征提取模型中进行训练,输出得到图像特征向量,其中预训练的图像特征提取模型可以是任意具有图像特征提取功能的模型,如卷积神经网络、图像识别模型等,可以预训练的图像特征提取模型提取目标图像中的商品的logo(标志)、商品的颜色、商品的款式等特征,以得到图像特征向量,具体提取目标图像中的哪些特征可以是用户根据实际需要的特征对图像特征提取模型进行训练,训练完成后,即可通过预训练的图像特征提取模型提取出目标图像中的图像特征向量。
87.在本实例中,通过超分辨率算法对低分辨率目标图像数据进行图像重建,得到高分辨率的目标图像,在从高分辨率的目标图像中提取图像特征向量,提高了商品图片识别的准确性以及保证了图像特征向量的高质量性。
88.在一实施例中,所述对所述文本数据进行特征提取得到文本特征向量的步骤,包括:
89.步骤i,对所述文本数据进行分词处理,以得到分词文本;
90.步骤j,在所述分词文本中查找和预设停用词表匹配的单词作为停用词,并去除所述分词文本中的所述停用词,对去除停用词后的分词文本进行词干提取得到低维文本向量;
91.步骤k,将所述低维文本向量映射到高维向量空间中,得到所述文本数据的文本特征向量。
92.传统的文本处理采用基于规则的文本分析方法,此方法通常采用手动编写规则和正则表达式的方式,对文本进行分析和提取。然而,时尚领域的文本信息具有复杂的语义和隐含信息,基于规则的方法无法处理这些信息。
93.基于上述现象,本实施例中通过自然语言处理对文本进行特征提取得到文本特征向量,可选的,对文本数据进行分词处理,得到分词文本,在分词文本中查找和预设停用词表匹配的单词作为停用词,并去除分词文本中的停用词,对去除停用词后的分词文本进行词干提取得到低维文本向量,以词嵌入将低维文本向量映射到高维向量空间中,得到文本数据的文本特征向量,即对文本数据依次经过分词、去停用词、词干提取与词嵌入等自然语言处理处理方式得到文本特征向量,还可以根据实际情况对文本数据进行其他自然语言处理方式,如词法分析、词向量表示等,本实施例对文本数据的自然语言处理方式不做限制,且分词、去停用词、词干提取与词嵌入是自然语言处理的现有方式,本实施例不在详述。
94.本实施例通过对文本数据依次经过分词、去停用词、词干提取与词嵌入的得到文本特征向量,以自然语言处理方式提取文本数据中的文本特征向量,提高了文本数据中文本特征向量的提取精度,以及快速且准确的提取到文本特征向量。
95.在一实施例中,所述获取电商网站上历史商品的文本数据与图像数据的步骤,包括:
96.步骤l,获取电商网站上历史商品的统一资源资源定位符,将所述统一资源资源定位符编写到预设的爬虫工具中;
97.步骤m,通过所述爬虫工具打开所述统一资源资源定位符,抓取所述历史商品的文本数据与图像数据,其中,所述文本数据至少包括商品描述与商品名称,所述图像数据至少包括商品图片。
98.网络爬虫(又称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。可以将历史商品所在网页的统一资源标识符编写到预设的爬虫工具中,由爬虫工具打开此统一资源资源定位符所在的网页之后,自动地抓取网页中的信息,从而获取到历史商品的文本数据与图像数据,可选地,可以根据实际情况对由爬虫工具抓取到的文本数据与图像数据进行过滤,仅保留需要的文本数据与图像数据,至少文本数据中应该留商品描述与商品名称,图像至少应该留有商品图片。
99.本实施例中,通过预设的爬虫工具自动抓取历史商品的文本数据与图像数据,为知识图谱的构建提供了数据基础。
100.此外,参照图5,本技术还提供一种基于知识图谱的时尚分析装置,商品时尚分析装置,包括:
101.数据获取模块a10,获取电商网站上历史商品的文本数据与图像数据,以预设的图像处理算法处理所述图像数据得到目标图像,其中,预设的图像处理算法包括超分辨率算法;
102.特征提取模块a20,用于对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;
103.图谱构建模块a30,用于基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。
104.此外,本技术实施例还提出一种基于知识图谱的时尚分析设备,基于知识图谱的时尚分析设备括存储器、处理器及存储在所述存储器上并可在所述处理器上执行的基于知识图谱的时尚分析程序,所述基于知识图谱的时尚分析程序被所述处理器执行时实现如上述的基于知识图谱的时尚分析方法的步骤。
105.此外,为实现上述目的,本技术还提供一种存储介质,存储介质上存储有基于知识图谱的时尚分析程序,基于知识图谱的时尚分析程序被处理器执行时实现如上述的基于知识图谱的时尚分析方法的步骤。
106.本技术计算机可读存储介质具体实施方式与上述基于知识图谱的时尚分析方法各实施例基本相同,在此不再赘述。
107.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
108.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
109.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方
法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
110.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
技术特征:
1.一种基于知识图谱的时尚分析方法,其特征在于,所述时尚分析方法包括以下步骤:获取电商网站上历史商品的文本数据与图像数据,根据预设的超分辨率算法处理所述图像数据得到目标图像;对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。2.如权利要求1所述的基于知识图谱的时尚分析方法,其特征在于,所述基于所述文本特征向量与所述图像特征向量构建目标知识图谱的步骤,包括:融合所述文本特征向量与所述图像特征向量得综合特征向量;基于预设的规则从所述文本数据中提取出所述历史商品对应的商品节点,其中,所述商品节点包括商品颜色、商品尺寸、商品材质与商品分类中的一种或多种;将所述综合特征向量与所述商品节点分别与所述历史商品关联,并将所述综合特征向量标记为所述历史商品对应的时尚结果,以构建得到目标知识图谱。3.如权利要求2所述的基于知识图谱的时尚分析方法,其特征在于,所述基于所述文本特征向量与所述图像特征向量构建目标知识图谱的步骤之后,包括:从预设场景中获取待进行时尚分析的新商品,在所述目标知识图谱中查找与所述新商品匹配度最高的目标商品;将所述目标知识图谱中所述目标商品对应的时尚结果作为时尚分析结果进行输出。4.如权利要求1所述的基于知识图谱的时尚分析方法,其特征在于,所述根据预设的超分辨率算法处理所述图像数据得到目标图像的步骤,包括:删除所述图像数据中的无效图像数据,以获取有效图像数据,其中,所述无效图像数据至少包括所述图像数据中图像清晰度低于预设清晰度的模糊图像数据;对所述有效图像数据进行降噪处理得到目标图像数据,根据预设的超分辨率算法处理所述目标图像数据得到目标图像。5.如权利要求4所述基于知识图谱的时尚分析方法,其特征在于,所述根据预设的超分辨率算法处理所述目标图像数据得到目标图像的步骤,包括:若所述目标图像数据的分辨率小于预设分辨率,将所述目标图像数据输入到预训练的超分辨率模型中进行图像重建,输出得到目标图像,其中,所述目标图像的分辨率大于或等于预设分辨率。6.如权利要求1所述的基于知识图谱的时尚分析方法,其特征在于,所述对所述文本数据进行特征提取得到文本特征向量的步骤,包括:对所述文本数据进行分词处理,以得到分词文本;在所述分词文本中查找和预设停用词表匹配的单词作为停用词,并去除所述分词文本中的所述停用词,对去除停用词后的分词文本进行词干提取得到低维文本向量;将所述低维文本向量映射到高维向量空间中,得到所述文本数据的文本特征向量。7.如权利1所述基于知识图谱的时尚分析方法,其特征在于,所述获取电商网站上历史商品的文本数据与图像数据的步骤,包括:获取电商网站上历史商品的统一资源资源定位符,将所述统一资源资源定位符编写到
预设的爬虫工具中;通过所述爬虫工具打开所述统一资源资源定位符,抓取所述历史商品的文本数据与图像数据,其中,所述文本数据至少包括商品描述与商品名称,所述图像数据至少包括商品图片。8.一种基于知识图谱的时尚分析装置,其特征在于,所述基于知识图谱的时尚分析装置包括:数据获取模块,获取电商网站上历史商品的文本数据与图像数据,以预设的图像处理算法处理所述图像数据得到目标图像,其中,预设的图像处理算法包括超分辨率算法;特征提取模块,用于对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;图谱构建模块,用于基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。9.一种基于知识图谱的时尚分析设备,其特征在于,所述基于知识图谱的时尚分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于知识图谱的时尚分析程序,所述基于知识图谱的时尚分析程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于知识图谱的时尚分析方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有基于知识图谱的时尚分析程序,所述基于知识图谱的时尚分析程序被处理器执行时实现如权利要求1至7中任一项所述的基于知识图谱的时尚分析方法的步骤。
技术总结
本申请公开了一种基于知识图谱的时尚分析方法、装置、设备及存储介质,基于知识图谱的时尚分析方法包括:获取电商网站上历史商品的文本数据与图像数据,根据预设的超分辨率算法处理所述图像数据得到目标图像;对所述文本数据进行特征提取得到文本特征向量,对所述目标图像进行特征提取得到图像特征向量;基于所述文本特征向量与所述图像特征向量构建目标知识图谱,以便基于所述目标知识图谱对待进行时尚分析的新商品进行时尚分析,并输出时尚分析结果。本申请提高了在对商品时尚特征的分析效率。率。率。
技术研发人员:邓加亮
受保护的技术使用者:深圳市公狼科技有限公司
技术研发日:2023.03.23
技术公布日:2023/7/18
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
