数据对象的处理方法、电子设备和存储介质与流程
未命名
10-19
阅读:114
评论:0
1.本技术实施例涉及通信技术领域,特别是涉及一种数据对象的处理方法、一种电子设备和一种存储介质。
背景技术:
2.随着通信技术的发展,通关商品等数据对象的分类越来越重要。世界海关组织制定了hs(协调制度,harmonized system)编码,以数字编码的形式代表和识别跨境贸易的商品。hs编码分类是根据商品信息为待分类商品找到hs编码的过程。hs编码作为通关商品的通用类别标识,是海关进行商品分类管理、审核征税标准、检验商品品质指标的基本依据。申报的hs编码与商品实际类别不一致会引起商品的管理模式、征缴税、检验标准的适用、计费、统计等相关服务的一系列工作质量问题。
3.目前的hs编码分类方法,通常首先利用数学模型确定数据对象对应的特征表示,然后,根据数据对象对应的特征表示,确定数据对象对应的编码信息。目前的hs编码分类方法存在分类准确率较低的技术问题。
技术实现要素:
4.本技术实施例提供了一种数据对象的处理方法,能够提高分类准确率。
5.相对应的,本技术实施例还提供了一种数据对象的处理装置、一种电子设备和一种存储介质,用以实现上述方法的实现及应用。
6.为了解决上述问题,本技术实施例公开了一种数据对象的处理方法,所述方法包括:
7.确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,所述第二特征表示与对象属性的属性内容相应;所述第三特征表示与对象属性相应;
8.根据对象属性对应的关系信息,确定所述第一特征表示和所述第二特征表示在所述关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息;
9.根据所述匹配信息,确定所述数据对象对应的目标候选类别信息。
10.为了解决上述问题,本技术实施例公开了一种数据对象的处理方法,所述方法包括:
11.确定三元组对象样本;所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,第二对象样本与第一对象样本对应相同的类别信息;第三对象样本与第一对象样本对应不同的类别信息;
12.根据三元组对象样本对应的特征表示、以及属性权重,确定所述第一对象样本与
所述第二对象样本之间的第一匹配信息、以及所述第一对象样本与所述第三对象样本之间的第二匹配信息;所述三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间具有对应关系;
13.根据损失信息与第一匹配信息、以及第二匹配信息之间的映射关系,对所述属性权重进行更新。
14.为了解决上述问题,本技术实施例公开了一种数据对象的处理方法,所述方法包括:
15.根据第一数据分析器,确定数据对象对应的第一类别信息;所述第一类别信息对应类别信息的部分;所述第一数据分析器用于表征对象信息与第一类别信息之间的映射关系;
16.从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息;
17.根据所述数据对象与所述候选类别信息之间的匹配信息,确定所述数据对象对应的目标候选类别信息。
18.为了解决上述问题,本技术实施例公开了一种数据对象的处理装置,所述装置包括:
19.特征确定模块,用于确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,所述第二特征表示与对象属性的属性内容相应;所述第三特征表示与对象属性相应;
20.映射匹配模块,用于根据对象属性对应的关系信息,确定所述第一特征表示和所述第二特征表示在所述关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息;
21.目标类别确定模块,用于根据所述匹配信息,确定所述数据对象对应的目标候选类别信息。
22.为了解决上述问题,本技术实施例公开了一种数据对象的处理装置,所述装置包括:
23.样本确定模块,用于确定三元组对象样本;所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,第二对象样本与第一对象样本对应相同的类别信息;第三对象样本与第一对象样本对应不同的类别信息;
24.匹配模块,用于根据三元组对象样本对应的特征表示、以及属性权重,确定所述第一对象样本与所述第二对象样本之间的第一匹配信息、以及所述第一对象样本与所述第三对象样本之间的第二匹配信息;所述三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间具有对应关系;
25.更新模块,用于根据损失信息与第一匹配信息、以及第二匹配信息之间的映射关系,对所述属性权重进行更新。
26.为了解决上述问题,本技术实施例公开了一种数据对象的处理装置,所述装置包括:
27.第一类别确定模块,用于根据第一数据分析器,确定数据对象对应的第一类别信
息;所述第一类别信息对应类别信息的部分;所述第一数据分析器用于表征对象信息与第一类别信息之间的映射关系;
28.候选类别确定模块,用于从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息;
29.目标类别确定模块,用于根据所述数据对象与所述候选类别信息之间的匹配信息,确定所述数据对象对应的目标候选类别信息。
30.为了解决上述问题,本技术实施例公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述实施例中任一项所述的方法。
31.为了解决上述问题,本技术实施例公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如上述实施例中任一项所述的方法。
32.与现有技术相比,本技术实施例包括以下优点:
33.本技术实施例的技术方案中,确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,可以将第一特征表示和第二特征表示,映射到对象属性对应的关系信息所表征的关系空间;这样,可以在一定程度上避免相同品类的不同商品对应相同的特征表示的问题。在此基础上,本技术实施例根据第一映射表示和第二映射表示确定数据对象对应的目标候选类别信息,能够提高分类准确率。
附图说明
34.图1是本技术一个实施例的数据对象的处理方法的步骤流程图;
35.图2是本技术一个实施例的编码信息的示例;
36.图3是本技术一个实施例的知识图谱的示例;
37.图4是本技术一个实施例的数据对象的处理方法的步骤流程图;
38.图5是本技术一个实施例的数据对象的处理方法的步骤流程图;
39.图6是本技术一个实施例的数据对象的处理方法的步骤流程图;
40.图7是本技术一个实施例的训练阶段的处理过程的示意图;
41.图8是本技术一个实施例的分类阶段的处理过程的示意图;
42.图9是本技术一个实施例的数据对象的处理装置的结构示意图;
43.图10是本技术一个实施例的数据对象的处理装置的结构示意图;
44.图11是本技术一个实施例的数据对象的处理装置的结构示意图;
45.图12是本技术一个实施例提供的示例性装置的结构示意图。
具体实施方式
46.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
47.本技术实施例中,数据对象可以是由软件理解的复合信息表示。数据对象可以是实体、事物、偶发事件或事件、角色、组织单位、地点或结构等。例如,数据对象可以包括:商品、货物等用于通关或报关的数据对象。本技术实施例用于确定数据对象对应的类别信息,
该类别信息可以包括数据对象在hs编码分类场景下的编码信息,可以理解,本技术实施例对于具体的类别信息不加以限制。
48.目前的hs编码分类方法,通常首先利用数学模型确定数据对象对应的特征表示,然后,根据数据对象对应的特征表示,确定数据对象对应的编码信息。目前的hs编码分类方法存在分类准确率较低的技术问题。
49.目前,数学模型可以具备特征提取能力,其可用于表征对象信息与特征表示之间的映射关系。对象信息可以为浅层的信息,其通常呈现为文本形式。特征表示可以为深层的信息,其通常呈现为向量形式。以数据对象为商品为例,对象信息可以包括:品类、材质、含量等数据对象的对象属性。
50.在不同商品对应相同品类的场景下,传统的数学模型通常给出相同的特征表示。例如,商品a的品类是
‘
洗面奶’,商品b的品类也是
‘
洗面奶’,传统的数学模型将针对商品a和商品b给出相同的特征表示,这导致特征表示的准确度不够,进而导致商品的分类准确率较低。
51.针对分类准确率较低的技术问题,本技术实施例提供了一种数据对象的处理方案,该方案具体包括:确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,第二特征表示可以与对象属性的属性内容相应;第三特征表示可以与对象属性相应;根据对象属性对应的关系信息,确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据第一映射表示、第二映射表示和第三特征表示,确定数据对象与候选类别信息之间的匹配信息;根据匹配信息,确定数据对象对应的目标候选类别信息。
52.本技术实施例确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,可以将第一特征表示和第二特征表示,映射到对象属性对应的关系信息所表征的关系空间,这样,可以在一定程度上避免相同品类的不同商品对应相同的特征表示的问题。在此基础上,本技术实施例根据第一映射表示和第二映射表示确定数据对象对应的目标候选类别信息,能够提高分类准确率。
53.方法实施例一
54.参照图1,示出了本技术一个实施例的数据对象的处理方法的步骤流程图,具体可以包括如下步骤:
55.步骤101、确定训练数据;训练数据可以包括:对象样本、对象属性、第一属性内容和第二属性内容;其中,第一属性内容表征与对象样本的类别信息相同的样本在对象属性的条件下对应的属性内容;第二属性内容表征与对象样本的类别信息不同的样本在对象属性的条件下对应的属性内容;
56.步骤102、根据对象属性对应的第一关系信息,确定对象样本、第一属性内容和第二属性内容对应的特征表示在第一关系信息的条件下分别对应的训练映射表示;
57.步骤103、根据损失信息与训练映射表示和对象属性对应的特征表示之间的映射关系,对第一关系信息、以及训练数据对应的特征表示进行更新。
58.本技术实施例可用于对训练数据进行训练,以得到符合要求的第一关系信息和特征表示。
59.本技术实施例可以基于数据分析器对训练数据进行训练,在训练过程中,可以对
第一关系信息、以及训练数据对应的特征表示进行更新,以得到符合要求的第一关系信息和特征表示。
60.本技术实施例可以基于训练样本对数学模型进行训练,以得到数据分析器。数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:cnn(卷积神经网络,convolutional neural networks)、lstm(长短期记忆网络,long short-term memory)、gru(门控循环单元,gated recurrent unit)等。
61.本技术实施例的数据分析器对应的数学模型可以包括:具有特征提取能力的数学模型、和/或、具有解释能力的数学模型。例如,具有特征提取能力的数学模型可以包括:bert(基于转换器的双向编码表征,bidirectional encoder representation from transformers)、electra (准确分类令牌替换且能高效学习的编码器,efficiently learning an encoder that classifies token replacement accurately)、transformer(转换器)、rnn、cnn等。又如,具有解释能力的数学模型可以包括:知识图谱嵌入的数学模型,如transr(translatingonrelation space)、transh(translating on hyperplanes)等。
62.数据分析器的训练过程可以包括:前向传播和反向传播。
63.其中,前向传播(forward propagation)可以根据输入信息,按照从输入层到输出层的顺序,依次计算最后得到输出信息。其中,输出信息可用于确定损失信息。本技术实施例的输入信息可以包括:对象样本、对象属性、第一属性内容和第二属性内容分别对应的特征表示、以及第一关系信息。
64.反向传播(backward propagation)可以根据损失信息,按照从输出层到输入层的顺序,依次计算并对输入信息进行更新。其中,反向传播过程中,可以确定输入信息的梯度信息,并利用该梯度信息,对输入信息进行更新。例如,反向传播可以依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储输入信息的梯度信息。
65.在步骤101中,可以构建对象样本集合,该对象样本集合中可以包括:经过标注的多个对象样本。
66.以数据对象为商品等数据对象为例,对象样本可以对应有类别信息,类别信息可以为编码信息。hs编码可以包括:22大类98章。国际通行的hs编码可以包括:前2位码、第3-4位码、及第5-6位码,第7位码及其之后的编码可由国家确定。例如,中国海关采用十位的hs编码体系,十位的hs编码体系可以包括:国际标准对应的6位编码信息和国家标准对应的4位编码信息。
67.本技术实施例的编码信息可以包括:6位编码或者6位以上的编码,可以理解,本技术实施例对于编码信息对应的数字位数不加以限制。
68.参照图2,示出了本技术一个实施例的编码信息的示例。其中,该编码信息按照从前到后的顺序可以依次包括:国际标准对应的6位编码信息和国家标准对应的4位编码信息。其中,国际标准对应的6位编码信息可以包括:章对应的2位编码信息、税目对应的2位编码信息和子目对应的2位编码信息。
69.本技术实施例的对象样本对应的编码信息可以包括:6位编码信息;此种情况下,本技术实施例可用于确定数据对象在国际标准下对应的6位编码信息。当然,本技术实施例的对象样本对应的编码信息可以包括:10位编码信息;此种情况下,本技术实施例可用于确定数据对象在国际标准和中国标准下对应的10位编码信息。此外,在除了中国之外的其他国家的标准下,编码信息对应的数字位数可能不等于10。
70.在实际应用中,可以针对通关商品,标注对应的10位编码信息,和/或,可以从关务的备案数据中抽取出10位编码信息;以及,可以将上述10位编码信息对应的通关商品保存至对象样本集合。
71.本技术实施例的对象样本既可以与类别信息相对应,还可以与对象属性和属性内容相对应。换言之,对象样本、类别信息、对象属性和属性内容之间具有对应关系。
72.在实际应用中,可以对对象样本对应的对象属性和属性内容进行ner(命名实体识别,named entity recognition),以得到实体形式的对象属性和属性内容。ner可用于从原始语料中自动识别出命名实体。
73.进一步,本技术实施例可以经由知识图谱,保存对象样本、对象属性、属性内容之间的映射关系。知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系。知识图谱可以是一种揭示实体之间关系的语义网络。知识图谱还可以保存对象样本、类别信息、对象属性、属性内容之间的映射关系。
74.实体(entity)是指客观存在并可相互区别的事务,包括具体的人、事、物、抽象的概念或联系等。实体可以是具体的对象,如:洗面奶或上衣等。实体可以有很多特性,单个特性称为对象属性。每种对象属性可以有一个或多个属性内容。
75.在实际应用中,知识图谱可以用(实体、对象属性,属性内容)这样的三元组来表达事实,可选择图数据库作为存储介质。
76.图3是本技术一个实施例的知识图谱的示例,其中,商品可以对应有品类、品牌、材质、含量、风格等多种对象属性,一种对象属性可以对应有属性内容。
77.本技术实施例的训练数据可以表示为(i,p,v+,v-)。其中,i可以表征对象样本、p可以表征对象属性,v+可以表征第一属性内容,v-可以表征第二属性内容。p与v之间可以为对象属性与属性内容之间的关系。比如,对象属性为品类,属性内容可以为洗面奶或上衣等。又如,对象属性为材质,属性内容可以为纯棉或皮质等。再如,对象属性为含量,属性内容可以为丝》=70%、或者棉》=90%等。
78.在实际应用中,v+对应的对象样本i1与i可以对应相同的编码信息。以图2所示的编码信息为例,假设对象样本i的编码信息对应的类别信息包括如下3个级别的子类别信息:章、税目和子目,则可以针对对象样本i,在其所属“章”及所属“税目”及所属“子目”对应的类别信息下,随机采样若干个对象样本i1,i1在p条件下对应的属性内容可以记录为v+。
79.在实际应用中,v-对应的对象样本i1与i可以对应不同的编码信息。以图2所示的编码信息为例,假设对象样本i的编码信息对应的类别信息包括如下3个级别的子类别信
息:章、税目和子目,则可以针对对象样本i,在其所属“章”及所属“税目”、且不同“子目”对应的类别信息下,随机采样若干个对象样本i2;和/或,在其所属“章”、不同“税目”对应的类别信息下,随机采样若干个对象样本i2;和/或,在其不同“章”对应的类别信息下,随机采样若干个对象样本i2。i2在p条件下对应的属性内容可以记录为v-。对象样本i1与对象样本i2的数量可以匹配,以实现v+与v-的匹配。其中,v+与v-可以对应相同的对象属性p。
80.(i,p,v+,v-)的例子可以包括:(i,品类,洗面奶,牛奶)、(i,材质,纯棉,莫代尔)等。
81.在步骤102中,对象属性对应的第一关系信息,可用于将对象样本、第一属性内容和第二属性内容对应的特征表示映射到对象属性对应的关系空间。
82.在具体实现中,可以根据对象样本对应的描述信息(如商品标题信息),确定对象样本对应的特征表示ie。例如,可以将对象样本对应的描述信息输入向量模型,由向量模型输出对象样本对应的特征表示ie。向量模型可以包括:句向量模型和/或词向量模型。其中,句向量模型的输入可以为:未经过分词的描述信息。句向量模型可以为语言模型。词向量模型的输入可以为:经过分词的描述信息。向量模型或词向量模型可以为预训练模型。预训练可以首先在大量通用语料上训练预训练模型,学习到通用的语言知识,然后再针对性地针对任务进行迁移训练。本技术实施例的任务可以为数据对象的分类任务。上述迁移训练可以对预训练模型的参数进行调整,以更新对象样本对应的特征表示ie。
83.对象属性对应的特征表示pe和第一关系信息mp、第一属性内容对应的特征表示ve1和第一属性内容对应的特征表示ve2,可以经由初始化的方式确定。
84.本技术实施例中,一个实体可以是多种属性的综合体,不同关系可以关注实体的不同属性。不同的关系可以拥有不同的语义空间和关系空间,将对象样本和属性内容对应的实体映射至对象属性对应的关系空间,这样,可以在一定程度上避免相同品类的不同商品对应相同的特征表示的问题。上述映射能够使得具有该关系的对象样本和属性内容对应的实体在这个关系下真实地靠近彼此,使得不具有该关系的对象样本和属性内容对应的实体彼此远离。
85.本技术实施例可以将对象样本对应的特征表示ie在第一关系信息mp对应的关系空间下进行映射,可以根据ie与mp的乘积得到ie对应的训练映射表示iep。本技术实施例可以将第一属性内容对应的特征表示ve1在第一关系信息mp对应的关系空间下进行映射,可以根据ve1与mp的乘积得到ve1对应的训练映射表示vep1。本技术实施例可以将第二属性内容对应的特征表示ve2在第一关系信息mp对应的关系空间下进行映射,可以根据ve2与mp的乘积得到ve2对应的训练映射表示vep2。上述映射操作可由数据分析器执行,当然本技术实施例对于映射操作对应的具体执行主体不加以限制。
86.在步骤103中,可以根据训练映射表示和对象属性对应的特征表示,确定对象样本与第一属性内容之间的第一匹配信息a,以及对象样本与第二属性内容之间的第二匹配信息a。
87.对象样本与第一属性内容对应相同的类别信息,故第一匹配信息a可以表征类内匹配信息,第一匹配信息a可以记为dis_pos。对象样本与第二属性内容对应不同的类别信息,故第二匹配信息a可以表征类间匹配信息,第二匹配信息a可以记为dis_neg。
88.本技术实施例将对象样本和属性内容对应的实体映射至对象属性对应的关系空
间,可以得到投影实体,如对象样本对应的第一投影实体、第一属性内容对应的第二投影实体和第二属性内容对应的第三投影实体。
89.本技术实施例还可以在两个投影实体之间构建对应关系a。该对应关系a可以认为,第二投影实体为第一投影实体和对象属性对应的特征表示pe的融合,以及,第三投影实体为第一投影实体和对象属性对应的特征表示pe的融合。因此,第一匹配信息a可以为训练映射表示iep与训练映射表示vep1与特征表示pe的第一差表示之间的匹配信息,以及,第二匹配信息a可以为训练映射表示iep与训练映射表示vep2与特征表示pe的第二差表示之间的匹配信息。
90.本技术实施例可以利用度量方法,确定第一匹配信息a和第二匹配信息a。度量方法可以包括:欧式距离、或者夹角余弦、或者信息熵等,可以理解,本技术实施例对于具体的度量方法不加以限制。
91.在实际应用中,可以经由第一损失函数表征第一损失信息与训练映射表示和对象属性对应的特征表示之间的映射关系。该第一损失函数可以表征第一类间维度信息和第一类内维度信息之间的第一差值信息。
92.第一类间维度信息可以为根据第二匹配信息a得到。第一类内维度信息可以为根据第一匹配信息a得到。例如,可以根据第一类间维度信息与第一类内维度信息之间的第一差值信息和第一参数的融合结果、以及预设值进行比较运算,该比较运算中数值较大的一者可以为第一损失信息。第一参数可用于对第一类间维度信息与第一类内维度信息之间的第一差值信息进行调整,例如,第一参数可以为1等正数。
93.本技术实施例中,由于第一匹配信息a可以表征类内匹配信息,第二匹配信息a可以表征类间匹配信息。故第一匹配信息a或第二匹配信息a均表征两个向量之间的距离信息的情况下,第一匹配信息a的实际值可以为0,第二匹配信息a的实际值可以为1。本技术实施例可以根据第一匹配信息a的实际值和第二匹配信息a的实际值,确定预设值为0,当然,本技术实施例对于具体的预设值不加以限制。
94.由于第一匹配信息a和第二匹配信息a与第一关系信息、训练数据对应的特征表示相关,故本技术实施例的第一损失信息可以根据第一关系信息、训练数据对应的特征表示、以及第一损失函数表征的映射关系得到。进一步,本技术实施例可以将第一损失信息为预设值作为优化目标,更新第一关系信息、以及训练数据对应的特征表示。优化方法可以包括:梯度下降法、牛顿法、拟牛顿法、共轭梯度法等,可以理解,本技术实施例对于具体的优化方法不加以限制。
95.在实际应用中,可以对第一损失函数的参数(如第一关系信息、以及训练数据对应的特征表示等)求偏导数,把求得的参数的偏导数以向量的形式写出来,偏导数对应的向量可以称为参数对应的梯度信息。可以根据梯度信息及步长信息,得到参数对应的更新量。
96.在采用梯度下降法的情况下,可以采用批量梯度下降法、随机梯度下降法、或者小批量梯度下降法等。在具体实现中,可以根据一个对象样本对应的一组训练数据进行迭代;或者,可以根据一个对象样本对应的多组训练数据进行迭代;或者,可以根据多个对象样本对应的多组训练数据进行迭代。上述迭代的收敛条件可以为:第一损失函数对应的第一损失信息符合收敛条件。收敛条件可以为:第一损失信息对应的损失值等于预设值,或者,迭代次数超过次数阈值等。换言之,在第一损失函数对应的第一损失信息符合收敛条件的情
况下,可以结束迭代;此种情况下,可以得到第一目标参数,该第一目标参数可以用于数据对象的分类。
97.综上,本技术实施例的数据对象的处理方法,对训练数据进行训练,得到了符合要求的第一目标参数,上述第一目标参数可以包括:符合要求的关系信息和特征表示等。符合要求的特征表示可以包括:对象样本对应的特征表示、对象属性对应的特征表示、第一属性内容对应的特征表示和第二属性内容对应的特征表示等。
98.在实际应用中,可以对符合要求的关系信息和特征表示进行保存,以供数据对象的分类过程使用。
99.方法实施例二
100.参照图4,示出了本技术一个实施例的数据对象的处理方法的步骤流程图,具体可以包括如下步骤:
101.步骤401、确定三元组对象样本;三元组对象样本可以包括:第一对象样本、第二对象样本和第三对象样本;其中,三元组对象样本可以包括:第一对象样本、第二对象样本和第三对象样本;其中,第二对象样本与第一对象样本可以对应相同的类别信息;第三对象样本与第一对象样本可以对应不同的类别信息;
102.步骤402、根据三元组对象样本对应的特征表示、以及属性权重,确定第一对象样本与第二对象样本之间的第一匹配信息b、以及第一对象样本与第三对象样本之间的第二匹配信息b;三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间可以具有对应关系b;
103.步骤403、根据第二损失信息与第一匹配信息b以及第二匹配信息b之间的映射关系,对属性权重进行更新。
104.本技术实施例可用于基于训练,确定对象属性对应的属性权重。属性权重可以表征对象属性对于数据对象的分类的贡献度。属性权重可用于在数据对象的分类过程中对不同的对象属性给予不同的关注度和注意力,以提高分类准确率。
105.在步骤401中,三元组对象样本可以表示为(iemb,i_pos,i_neg)。其中,iemb可以表征第一对象样本,i_pos可以表征第二对象样本,i_neg可以表征第三对象样本。
106.在实际应用中,第二对象样本与第一对象样本可以对应相同的编码信息。以图2所示的编码信息为例,假设第一对象样本i的编码信息对应的类别信息包括如下3个级别的子类别信息:章、税目和子目,则可以针对第一对象样本iemb,在其所属“章”及所属“税目”及所属“子目”对应的类别信息下,随机采样若干个第二对象样本i_pos。
107.在实际应用中,第三对象样本与第一对象样本可以对应不同的编码信息。以图2所示的编码信息为例,假设第一对象样本iemb的编码信息对应的类别信息包括如下3个级别的子类别信息:章、税目和子目,则可以针对第一对象样本iemb,在其所属“章”及所属“税目”、且不同“子目”对应的类别信息下,随机采样若干个第三对象样本i_neg;和/或,在其所属“章”、不同“税目”对应的类别信息下,随机采样若干个第三对象样本i_neg;和/或,在其不同“章”对应的类别信息下,随机采样若干个对象样本第三对象样本i_neg。第二对象样本i_pos与第三对象样本i_neg的数量可以匹配。
108.三元组对象样本可以表示(iemb,i_pos_1,i_neg1),(iemb,i_pos_2,i_neg1),
…
,(iemb,i_pos_n,i_negn),其中,n可以为三元组对象样本的数量,n可以为正整数。
109.本技术实施例可以对第一对象样本iemb对应的对象属性和属性内容进行ner,以得到第一对象样本iemb对应的对象属性和属性内容。同理,可以得到第二对象样本i_pos对应的对象属性和属性内容、以及第三对象样本i_neg对应的对象属性和属性内容。
110.在步骤402中,可以采用向量模型,确定对象属性对应的特征表示、以及属性内容对应的特征表示。向量模型可以包括:句向量模型和/或词向量模型。对象属性对应的对象权重,可以经由初始化的方式确定。
111.三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间可以具有对应关系b。该对应关系b可以认为,三元组对象样本对应的特征表示和对象属性对应的特征表示的融合尽可能地靠近属性内容对应的特征表示。根据该对应关系b,可以根据属性内容对应的特征表示与对象属性对应的特征表示之间的第二差值信息,并根据该第二差值信息与属性权重的乘积,得到三元组对象样本对应的特征表示。需要说明的是,一种三元组对象样本可以对应有多种对象属性,一种对象属性可以对应有一种第二差值信息,可以对多种第二差值信息对应的乘积进行融合,以得到三元组对象样本对应的特征表示。
112.在实际应用中,可以根据对应关系b、对象权重、对象属性对应的特征表示、以及属性内容对应的特征表示,确定出三元组对象样本对应的特征表示,也即,分别得到第一对象样本iemb对应的特征表示第二对象样本i_pos对应的特征表示以及第三对象样本i_neg对应的特征表示
113.第一对象样本与第二对象样本对应相同的类别信息,故第一匹配信息b可以表征类内匹配信息,第一匹配信息b可以记为dis1。第一对象样本与第三对象样本对应不同的类别信息,故第二匹配信息b可以表征类间匹配信息,第二匹配信息b可以记为dis2。
114.本技术实施例可以利用度量方法,确定第一匹配信息b和第二匹配信息b。度量方法可以包括:欧式距离、或者夹角余弦、或者信息熵等。
115.在步骤403中,可以经由第二损失函数表征第二损失信息与第一匹配信息b以及第二匹配信息b之间的映射关系。
116.第二类间维度信息可以为根据第二匹配信息b得到。第二类内维度信息可以为根据第二匹配信息b得到。例如,可以根据第二类间维度信息与第二类内维度信息之间的第三差值信息和第二参数的融合结果、以及预设值进行比较运算,该比较运算中数值较大的一者可以为第二损失信息。第二参数可用于对第二类间维度信息与第二类内维度信息之间的第三差值信息进行调整,例如,第二参数可以为1等正数。
117.本技术实施例中,由于第一匹配信息b可以表征类内匹配信息,第二匹配信息b可以表征类间匹配信息。故第一匹配信息b或第二匹配信息b均表征两个向量之间的距离信息的情况下,第一匹配信息b的实际值可以为0,第二匹配信息b的实际值可以为1。本技术实施例可以根据第一匹配信息b的实际值和第二匹配信息b的实际值,确定预设值为0,当然,本技术实施例对于具体的预设值不加以限制。
118.由于第一匹配信息b或第二匹配信息b与对象权重、对象属性对应的特征表示和属性内容对应的特征表示相关,本技术实施例的第二损失信息可以为根据对象权重、对象属性对应的特征表示和属性内容对应的特征表示相关等参数得到。进一步,本技术实施例可
以将第二损失信息为预设值作为优化目标,更新对象权重、对象属性对应的特征表示和属性内容对应的特征表示相关等。优化方法可以包括:梯度下降法、牛顿法、拟牛顿法、共轭梯度法等,可以理解,本技术实施例对于具体的优化方法不加以限制。
119.在实际应用中,可以对第一损失函数的参数(如第一关系信息、以及训练数据对应的特征表示等)求偏导数,把求得的参数的偏导数以向量的形式写出来,偏导数对应的向量可以称为参数对应的梯度信息。可以根据梯度信息及步长信息,得到参数对应的更新量。
120.在采用梯度下降法的情况下,可以采用批量梯度下降法、随机梯度下降法、或者小批量梯度下降法等。在具体实现中,可以根据一个第一对象样本对应的一组三元组对象样本进行迭代;或者,可以根据一个第一对象样本对应的多组三元组对象样本进行迭代;或者,可以根据多个第一对象样本对应的多组三元组对象样本进行迭代。上述迭代的收敛条件可以为:第二损失函数对应的第二损失信息符合收敛条件。收敛条件可以为:第二损失信息对应的损失值等于预设值,或者,迭代次数超过次数阈值等。换言之,在第二损失函数对应的第二损失信息符合收敛条件的情况下,可以结束迭代;此种情况下,可以得到第二目标参数,该第二目标参数可以用于数据对象的分类。
121.综上,本技术实施例的数据对象的处理方法,对三元组对象样本进行训练,得到了符合要求的第二目标参数,上述第二目标参数可以包括:符合要求的对象权重等。在实际应用中,可以对符合要求的对象权重进行保存,以供数据对象的分类过程使用。
122.在实际应用中,可以首先根据一个第一对象样本对应的训练,确定对象属性对应的对象权重,也即,得到对象属性在一个第一对象样本的条件下对应的对象权重;接着,可以对对象属性在多个第一对象样本的条件下对应的对象权重进行融合(如平均),以得到最终的对象权重。例如,品类对应的对象权重是0.5,材质对应的对象权重是0.2等等。
123.需要说明的是,有些对象属性由于字符长度较长等原因,可以不参与本技术实施例的训练,“按毫升计”,“按重量计”是这一类对象属性的例子。对于这一类对象属性,可以根据参与训练的对象权重的融合结果(如平均结果),确定这一类对象属性对应的对象权重。
124.方法实施例三
125.本技术实施例用于对第一数据分析器的训练过程进行说明。第一数据分析器用于确定数据对象对应的第一类别信息,第一数据分析器用于表征对象信息与第一类别信息之间的映射关系。对象信息可以为文本信息的信息,如数据对象对应的描述信息(如商品标题信息),又如,数据对象对应的属性内容(如品类、材质、含量等)。
126.类别信息可以包括:多位字符,第一类别信息可以包括:多位字符中的前m位或者后m位,m可以为正整数。或者,类别信息可以包括:多个级别的子类别信息,则第一类别信息可以包括:多个级别中的部分级别的信息。以图2所示的编码信息为例,编码信息对应的类别信息包括如下3个级别的子类别信息:章、税目和子目,则第一数据分析器可用于确定章对应的编码信息、或者章和税目对应的编码信息。
127.在实际应用中,第一数据分析器可以包括:具有特征提取能力的特征提取单元和具有分类能力的分类单元。其中,特征提取单元可以为预训练模型。分类单元可以包括:激活函数等。
128.在第一数据分析器的训练过程中,特征提取单元可以确定对象样本对应的特征表
示,分类单元可以对对象样本进行分类,对应的分类结果与实际结果(可以根据对象样本的正负性确定实际结果)之间的第三损失信息,可用于更新特征提取单元和分类单元的参数,直至第三损失信息符合预设条件。
129.在第一数据分析器的使用过程中,特征提取单元可以确定数据对象对应的特征表示,分类单元可以对数据对象进行分类,此种情况下,可以得到数据对象对应的第一类别信息。
130.方法实施例四
131.参照图5,示出了本技术一个实施例的数据对象的处理方法的步骤流程图,具体可以包括如下步骤:
132.步骤501、确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,第二特征表示与对象属性的属性内容相应;第三特征表示与对象属性相应;
133.步骤502、根据对象属性对应的关系信息,确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据第一映射表示、第二映射表示和第三特征表示,确定数据对象与候选类别信息之间的匹配信息;
134.步骤503、根据匹配信息,确定数据对象对应的目标候选类别信息。
135.本技术实施例可用于对数据对象进行分类,以得到数据对象对应的目标候选类别信息,例如,目标候选类别信息可以为编码信息。
136.在步骤501中,可以根据数据对象对应的描述信息(如商品标题信息),确定数据对象对应的第一特征表示ie1。例如,可以将数据对象对应的描述信息输入向量模型,由向量模型输出数据对象对应的特征表示ie1。向量模型可以包括:句向量模型和/或词向量模型。本技术实施例可以根据图1所示方法实施例,对向量模型的参数进行更新,以提高向量模型输出的特征表示的准确度。需要说明的是,在同时采用句向量模型和词向量模型的情况下,可以对句向量模型和词向量模型的输出进行拼接,以得到数据对象对应的第一特征表示ie1。
137.候选类别信息可以与对象样本集合中全量的对象样本相对应。例如,可以将对象样本集合中全量的对象样本对应的类别信息,作为候选类别信息。
138.候选类别信息可以与对象样本集合中部分的对象样本相对应。例如,候选类别信息的确定过程可以包括:根据第一数据分析器,确定数据对象对应的第一类别信息;第一类别信息可以对应类别信息的部分;第一数据分析器可用于表征对象信息与第一类别信息之间的映射关系;从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息。
139.类别信息可以包括:多位字符,第一类别信息可以包括:多位字符中的前m位;这样,可以从对象样本对应的类别信息中获取以第一类别信息为前缀的类别信息,作为候选类别信息。当然,在第一类别信息包括:多位字符中的后m位的情况下,可以从对象样本对应的类别信息中获取以第一类别信息为后缀的类别信息,作为候选类别信息。
140.在实际应用中,多位字符的全部对应类别信息的数量通常比较庞大,该数量的数量级通常为万、十万等。如果利用第一数据分析器对多位字符的全部进行分类,将影响第一数据分析器的分类准确率。而本技术实施例利用第一数据分析器对多位字符的部分进行分
类,可以提高第一数据分析器的分类准确率。进一步,本技术实施例还可以根据第一数据分析器输出的第一类别信息,对多位字符的全部进行分类。
141.候选类别信息对应的第二特征表示可以表示为p1,候选类别信息对应的第三特征表示可以表示为v1。在图1所示方法实施例中,在得到了符合要求的第一目标参数后,可以对符合要求的关系信息和特征表示进行保存。故在此处可以从保存的特征表示中,获取候选类别信息对应的第二特征表示p1和第三特征表示v1。
142.在步骤502中,可以从保存的关系信息中,获取对象属性对应的关系信息mp。
143.本技术实施例中,对象属性对应的关系信息可以为根据训练数据的训练得到;该训练数据可以包括:对象样本、对象属性、第一属性内容和第二属性内容;其中,第一属性内容可以表征与对象样本的类别信息相同的样本在对象属性的条件下对应的属性内容;第二属性内容可以表征与对象样本的类别信息不同的样本在对象属性的条件下对应的属性内容。
144.本技术实施例中,训练数据的训练过程可以包括:根据对象属性对应的第一关系信息,确定所述对象样本、第一属性内容和第二属性内容对应的特征表示在第一关系信息的条件下分别对应的训练映射表示,并根据损失信息与训练映射表示和对象属性对应的特征表示之间的映射关系,对第一关系信息、以及训练数据对应的特征表示进行更新。
145.本技术实施例可以将第一特征表示ie1和第二特征表示p1,映射到对象属性对应的关系信息所表征的关系空间;这样,可以在一定程度上避免相同品类的不同商品对应相同的特征表示的问题。第一特征表示ie1对应的第一映射表示iep1可以为第一特征表示ie1与关系信息对应关系矩阵mp的乘积。第二特征表示p1对应的第二映射表示vep1可以为第二特征表示p1与关系信息对应关系矩阵mp的乘积。
146.本技术实施例可以在第一映射表示iep1和第二映射表示vep1对应的两个投影实体之间构建对应关系a。该对应关系a可以认为,第二映射表示vep1对应的投影实体为第一映射表示iep1对应的投影实体和对象属性对应的特征表示pe的融合。因此,匹配信息dis可以为第一映射表示iep与第二映射表示vep1与特征表示pe的第二差表示之间的匹配信息。
147.在一种实现方式中,根据第一映射表示、第二映射表示和第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息的过程,具体可以包括:根据第一映射表示、第二映射表示和第三特征表示,确定数据对象在对象属性的条件下对应的属性匹配信息;根据对象属性的属性权重、以及所述属性匹配信息,确定数据对象与候选类别信息之间的匹配信息。
148.属性匹配信息可以表征在一种对象属性p的条件下对应的匹配信息。在实际应用中,数据对象与候选类别信息在对象属性p1、对象属性p2、对象属性p3
……
对象属性pn等对象属性的条件下均对应有属性匹配信息;本技术实施例可以根据属性权重,对多种对象属性对应的属性匹配信息进行融合,以得到数据对象与候选类别信息之间的匹配信息。对应的融合方式可以包括:加权平均方式等。
149.属性权重可以表征对象属性对于数据对象的分类的贡献度。属性权重可用于在数据对象的分类过程中对不同的对象属性给予不同的关注度和注意力,以提高分类准确率。
150.本技术实施例中,所述属性权重可以为根据三元组对象样本的训练得到;所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,第二对象样本与
第一对象样本对应相同的类别信息;第三对象样本与第一对象样本对应不同的类别信息;所述三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间具有对应关系。
151.在步骤503中,本技术实施例可以利用度量方法,确定匹配信息dis。在匹配信息dis为0的情况下,说明数据对象与候选类别信息之间的匹配度较高。在匹配信息dis为1的情况下,说明数据对象与候选类别信息之间的匹配度较低。本技术实施例还可以根据1与匹配信息dis的差值,得到匹配得分,并根据匹配得分从大到小的顺序,对候选类别信息进行排序,并根据排序结果选取排在前q为的候选类别信息,作为目标候选类别信息,q可以为正整数。
152.综上,本技术实施例的数据对象的处理方法,确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,可以将第一特征表示和第二特征表示,映射到对象属性对应的关系信息所表征的关系空间;这样,可以在一定程度上避免相同品类的不同商品对应相同的特征表示的问题。在此基础上,本技术实施例根据第一映射表示和第二映射表示确定数据对象对应的目标候选类别信息,能够提高分类准确率。
153.方法实施例五
154.参照图6,示出了本技术一个实施例的数据对象的处理方法的步骤流程图,具体可以包括如下步骤:
155.步骤601、根据第一数据分析器,确定数据对象对应的第一类别信息;所述第一类别信息可以对应类别信息的部分;所述第一数据分析器用于表征对象信息与第一类别信息之间的映射关系;
156.步骤602、从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息;
157.步骤603、根据数据对象与候选类别信息之间的匹配信息,确定数据对象对应的目标候选类别信息。
158.在实际应用中,多位字符的全部对应类别信息的数量通常比较庞大,该数量的数量级通常为万、十万等。如果利用第一数据分析器对多位字符的全部进行分类,将影响第一数据分析器的分类准确率。
159.而本技术实施例将数据对象的分类划分为第一分类阶段和第二分类阶段。其中,在第一分类阶段,利用第一数据分析器对多位字符的部分进行分类,可以提高第一数据分析器的分类准确率。在第二分类阶段,可以根据第一数据分析器输出的第一类别信息,对多位字符的全部进行分类;具体地,可以根据数据对象与候选类别信息之间的匹配信息,确定数据对象对应的目标候选类别信息。
160.数据对象与候选类别信息之间的匹配信息的确定过程可以包括:根据数据对象对应的第一特征表示与候选类别信息对应对象样本的第四特征表示之间的匹配信息,确定数据对象与候选类别信息之间的匹配信息。
161.数据对象与候选类别信息之间的匹配信息的确定过程可以包括:根据对象属性对应的关系信息,确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据第一映射表示、第二映射表示和第三特征表示,确定数据对
象与候选类别信息之间的匹配信息。
162.数据对象与候选类别信息之间的匹配信息的确定过程可以包括:根据第一映射表示、第二映射表示和第三特征表示,确定数据对象在对象属性的条件下对应的属性匹配信息;根据对象属性的属性权重、以及所述属性匹配信息,确定数据对象与候选类别信息之间的匹配信息。
163.综上,本技术实施例的数据对象的处理方法,将数据对象的分类划分为第一分类阶段和第二分类阶段。其中,在第一分类阶段,利用第一数据分析器对多位字符的部分进行分类,可以提高第一数据分析器的分类准确率。在第二分类阶段,可以根据第一数据分析器输出的第一类别信息,对多位字符的全部进行分类。
164.方法实施例六
165.本技术实施例的数据对象的处理方法可以包括:训练阶段和分类阶段。
166.参照图7,示出了本技术一个实施例的训练阶段的处理过程的示意图。其中,可以根据备案数据,训练前m位的第一数据分析器。备案数据可以为关务保存的数据。本技术实施例可以根据备案数据中的对象样本,进行第一数据分析器的训练,具体可以参照方法实施例三的说明。
167.本技术实施例可以根据备案数据,确定训练数据(i,p,v+,v-),并根据训练数据对向量模型和第二数据分析器进行训练。其中,向量模型可以具有特征提取能力,用于确定输入(如i)对应的特征表示。第二数据分析器可用于根据对象属性对应的关系信息,确定第一特征表示和第二特征表示在关系信息的条件下分别对应的第一映射表示和第二映射表示,根据第一映射表示、第二映射表示和第三特征表示,确定数据对象与候选类别信息之间的匹配信息,并根据匹配信息,确定数据对象对应的目标候选类别信息。第二数据分析器可以包括:深度神经网络和transr等结构。可以理解,本技术实施例对于第二数据分析器的具体结构不加以限制。
168.参照图8,示出了本技术一个实施例的分类阶段的处理过程的示意图。其中,可以将数据对象的描述信息输入第一数据分析器,由第一数据分析器输出数据对象对应的前m位类别信息。进一步,可以获得以前m位类别信息为前缀的候选类别信息,根据知识图谱,确定候选类别信息对应的p1和v1,并基于方法实施例一保存的内容,确定p1对应的第三特征表示和v1对应的第二特征表示。
169.本技术实施例还可以将数据对象的描述信息输入向量模型,由向量模型输出数据对象对应的第一特征表示。进一步,可以将第一特征表示、第二特征表示、第三特征表示输入第二数据分析器,第二数据分析器可以保存有关系信息,根据图5所示方法实施例的处理,确定候选类别信息的匹配得分。本技术实施例可以根据匹配得分从高到低的顺序,选取若干个目标候选类别信息,并将目标候选类别信息及其对应的p1和v1进行输出。
170.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术实施例并不受所描述的动作顺序的限制,因为依据本技术实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本技术实施例所必须的。
171.在上述实施例的基础上,本技术实施例还提供了一种数据对象的处理装置,参照
图9,该装置可以包括如下模块:
172.特征确定模块901,用于确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,所述第二特征表示与对象属性的属性内容相应;所述第三特征表示与对象属性相应;
173.映射匹配模块902,用于根据对象属性对应的关系信息,确定所述第一特征表示和所述第二特征表示在所述关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息;
174.目标类别确定模块903,用于根据所述匹配信息,确定所述数据对象对应的目标候选类别信息。
175.为了解决上述问题,本技术实施例公开了一种数据对象的处理装置,参照图10,该装置可以包括:
176.样本确定模块1001,用于确定三元组对象样本;所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,第二对象样本与第一对象样本对应相同的类别信息;第三对象样本与第一对象样本对应不同的类别信息;
177.匹配模块1002,用于根据三元组对象样本对应的特征表示、以及属性权重,确定所述第一对象样本与所述第二对象样本之间的第一匹配信息、以及所述第一对象样本与所述第三对象样本之间的第二匹配信息;所述三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间具有对应关系;
178.更新模块1003,用于根据损失信息与第一匹配信息、以及第二匹配信息之间的映射关系,对所述属性权重进行更新。
179.为了解决上述问题,本技术实施例公开了一种数据对象的处理装置,参照图11,该装置可以包括:
180.第一类别确定模块1101,用于根据第一数据分析器,确定数据对象对应的第一类别信息;所述第一类别信息对应类别信息的部分;所述第一数据分析器用于表征对象信息与第一类别信息之间的映射关系;
181.候选类别确定模块1102,用于从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息;
182.目标类别确定模块1103,用于根据所述数据对象与所述候选类别信息之间的匹配信息,确定所述数据对象对应的目标候选类别信息。
183.本技术实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本技术实施例中各方法步骤的指令(instructions)。
184.本技术实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本技术实施例中,所述电子设备包括服务器、终端设备等设备。
185.本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端等电子设备。图12示意性地示出了
可被用于实现本技术中所述的各个实施例的示例性装置1300。
186.对于一个实施例,图12示出了示例性装置1300,该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(nvm)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310,以及被耦合到控制模块1304的网络接口1312。
187.处理器1302可包括一个或多个单核或多核处理器,处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1300能够作为本技术实施例中所述服务端、终端等设备。
188.在一些实施例中,装置1300可包括具有指令1314的一个或多个计算机可读介质(例如,存储器1306或nvm/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。
189.对于一个实施例,控制模块1304可包括任意适当的接口控制器,以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
190.控制模块1304可包括存储器控制器模块,以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
191.存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例,存储器1306可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
192.对于一个实施例,控制模块1304可包括一个或多个输入/输出控制器,以向nvm/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
193.例如,nvm/存储设备1308可被用于存储数据和/或指令1314。nvm/存储设备1308可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
194.nvm/存储设备1308可包括作为装置1300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,nvm/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
195.(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信,输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信,装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如wifi、2g、3g、4g、5g等,或它们的组合进行无线通信。
196.对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多
个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
197.在各个实施例中,装置1300可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
198.其中,装置1300中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或nvm/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
199.本技术实施例还提供了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本技术实施例中一个或多个所述的方法。
200.本技术实施例还提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本技术实施例中一个或多个所述的方法。
201.对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
202.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
203.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
204.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
205.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
206.尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
207.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
208.以上对本技术所提供的一种数据对象的处理方法、一种数据对象的处理装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种数据对象的处理方法,其特征在于,所述方法包括:确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,所述第二特征表示与对象属性的属性内容相应;所述第三特征表示与对象属性相应;根据对象属性对应的关系信息,确定所述第一特征表示和所述第二特征表示在所述关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息;根据所述匹配信息,确定所述数据对象对应的目标候选类别信息。2.根据权利要求1所述的方法,其特征在于,所述对象属性对应的关系信息为根据训练数据的训练得到;所述训练数据包括:对象样本、对象属性、第一属性内容和第二属性内容;其中,所述第一属性内容表征与对象样本的类别信息相同的样本在对象属性的条件下对应的属性内容;所述第二属性内容表征与对象样本的类别信息不同的样本在对象属性的条件下对应的属性内容。3.根据权利要求2所述的方法,其特征在于,所述训练数据的训练过程包括:根据对象属性对应的第一关系信息,确定所述对象样本、第一属性内容和第二属性内容对应的特征表示在所述第一关系信息的条件下分别对应的训练映射表示,并根据损失信息与训练映射表示和对象属性对应的特征表示之间的映射关系,对所述第一关系信息、以及所述训练数据对应的特征表示进行更新。4.根据权利要求1至3中任一所述的方法,其特征在于,所述候选类别信息的确定过程包括:根据第一数据分析器,确定数据对象对应的第一类别信息;所述第一类别信息对应类别信息的部分;所述第一数据分析器用于表征对象信息与第一类别信息之间的映射关系;从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息。5.根据权利要求1至3中任一所述的方法,其特征在于,所述根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息,包括:根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象在对象属性的条件下对应的属性匹配信息;根据对象属性的属性权重、以及所述属性匹配信息,确定所述数据对象与所述候选类别信息之间的匹配信息。6.根据权利要求5所述的方法,其特征在于,所述属性权重为根据三元组对象样本的训练得到;所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,第二对象样本与第一对象样本对应相同的类别信息;第三对象样本与第一对象样本对应不同的类别信息;所述三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间具有对应关系。7.一种数据对象的处理方法,其特征在于,所述方法包括:确定三元组对象样本;所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;其中,所述三元组对象样本包括:第一对象样本、第二对象样本和第三对象样本;
其中,第二对象样本与第一对象样本对应相同的类别信息;第三对象样本与第一对象样本对应不同的类别信息;根据三元组对象样本对应的特征表示、以及属性权重,确定所述第一对象样本与所述第二对象样本之间的第一匹配信息、以及所述第一对象样本与所述第三对象样本之间的第二匹配信息;所述三元组对象样本对应的特征表示与属性权重、对象属性对应的特征表示和属性内容对应的特征表示之间具有对应关系;根据损失信息与第一匹配信息、以及第二匹配信息之间的映射关系,对所述属性权重进行更新。8.一种数据对象的处理方法,其特征在于,所述方法包括:根据第一数据分析器,确定数据对象对应的第一类别信息;所述第一类别信息对应类别信息的部分;所述第一数据分析器用于表征对象信息与第一类别信息之间的映射关系;从对象样本对应的类别信息中获取与第一类别信息相匹配的候选类别信息;根据所述数据对象与所述候选类别信息之间的匹配信息,确定所述数据对象对应的目标候选类别信息。9.一种电子设备,其特征在于,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-8中任一项所述的方法。10.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-8中任一项所述的方法。
技术总结
本申请实施例提供了一种数据对象的处理方法、电子设备和存储介质,其中的方法具体包括:确定数据对象对应的第一特征表示、以及候选类别信息对应的第二特征表示和第三特征表示;其中,所述第二特征表示与对象属性的属性内容相应;所述第三特征表示与对象属性相应;根据对象属性对应的关系信息,确定所述第一特征表示和所述第二特征表示在所述关系信息的条件下分别对应的第一映射表示和第二映射表示,并根据所述第一映射表示、所述第二映射表示和所述第三特征表示,确定所述数据对象与所述候选类别信息之间的匹配信息;根据所述匹配信息,确定所述数据对象对应的目标候选类别信息。本申请实施例能够提高分类准确率。本申请实施例能够提高分类准确率。本申请实施例能够提高分类准确率。
技术研发人员:戈伟 吕建新 傅笑宽
受保护的技术使用者:浙江菜鸟供应链管理有限公司
技术研发日:2022.03.28
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
