一种基于表格的关键信息提取方法及装置与流程

未命名 08-24 阅读:145 评论:0


1.本技术涉及商品信息提取技术领域,尤其是涉及一种基于表格的关键信息提取方法及装置。


背景技术:

2.在仓储人员采购商品时,一般需要先以表格的格式批量导入商品信息,提取表格中的关键信息,以便实现后续的商品检索和配型。
3.目前,用户一般无法规范化填写表格中的区分型号、订货号、商品名称、关键属性等信息,导致提供的信息非常模糊,难以有效区分,再者,市面上大多数识别表格的表头是基于规则,即通过不同字符排列组合推断表头的类型,这种方式的弊端如下:
4.1)如果出现新增类型,需要重新定义规则;
5.2)在规则多的情况下,新旧规则之间容易产生冲突,进而影响表格的识别精度;
6.3)若用户出现部分错别字,则无法识别表格的表头类型,容错效果较差;
7.4)中文是多语义的,针对于不同的用户,同一表格的表头类型可用多个词语表达,较难识别出不同表述方式所对应的实际语义。
8.针对上述中的相关技术,发明人发现现有的表格关键信息提取方法存在有适用性和容错性较差,难以准确从表格中提取到所需商品的关键信息的问题。


技术实现要素:

9.为了改善表格关键信息提取时的适用性和容错性,提高从表格中提取所需商品的关键信息的准确率,本技术提供了一种基于表格的关键信息提取方法及装置。
10.第一方面,本技术提供一种基于表格的关键信息提取方法。
11.本技术是通过以下技术方案得以实现的:
12.一种基于表格的关键信息提取方法,包括以下步骤,
13.获取表格文件;
14.采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
15.基于所述表头类型,获取每项表头类型对应的商品信息;
16.根据所述商品信息,进行分词转换处理,确定目标词组;
17.按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
18.基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
19.本技术在一较佳示例中可以进一步配置为:所述朴素贝叶斯算法模型的训练步骤包括,
20.对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;
21.采用字典树对所述初始数据集进行分词;
22.根据划分结果确定划分数据集;
23.基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;
24.当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。
25.本技术在一较佳示例中可以进一步配置为:所述根据所述商品信息,进行分词转换处理,确定目标词组的步骤包括,
26.基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;
27.若型号的模糊匹配失败,则对型号进行截断匹配,若截断匹配成功,则得到匹配结果;
28.针对所述匹配结果,先判断是否包含属性词;
29.若存在属性词,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。
30.本技术在一较佳示例中可以进一步配置为:按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性的步骤包括,
31.根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;
32.将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;
33.基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。
34.本技术在一较佳示例中可以进一步配置为:所述对采集的表格文件进行预处理的步骤包括,
35.在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;
36.基于所述sku号,进行商品类别匹配,得到商品类别;
37.根据所述商品类别,进行商品品牌匹配,得到商品品牌;
38.对所述商品品牌执行规则匹配,得到初始数据集。
39.本技术在一较佳示例中可以进一步配置为:所述表格文件还包括实时获取的用户纠正目标时产生的表格样本数据。
40.本技术在一较佳示例中可以进一步配置为:所述若存在属性词,再进行分词转换处理得到分词词组的步骤包括,
41.基于所述匹配结果进行字符归一化,得到第一词组;
42.对所述第一词组进行词语拆分,得到第二词组;
43.根据所述第二词组进行词性选举,得到所述分词词组。
44.本技术在一较佳示例中可以进一步配置为:还包括以下步骤,
45.若截断匹配失败,则将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;
46.若所述商品信息的用户点击量达到预设阈值,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。
47.本技术在一较佳示例中可以进一步配置为:所述商品知识图谱的创建步骤包括,
48.获取的订单数据,汇聚至数据仓库里;
49.对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
50.使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。
51.第二方面,本技术提供一种基于表格的关键信息提取装置。
52.本技术是通过以下技术方案得以实现的:
53.一种基于表格的关键信息提取装置,包括,
54.表格文件获取模块,用于获取表格文件;
55.表头类型识别模块,用于采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
56.商品信息获取模块,用于基于所述表头类型,获取每项表头类型对应的商品信息;
57.分词处理模块,用于根据所述商品信息,进行分词转换处理,确定目标词组;
58.词性确定模块,用于按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
59.关键信息提取模块,用于基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
60.本技术在一较佳示例中可以进一步配置为:所述表头类型识别模块包括,
61.初始数据集子模块,用于对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;
62.划分数据集子模块,用于采用字典树对所述初始数据集进行分词,得到划分数据集;
63.训练子模块,用于基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;
64.模型子模块,用于当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。
65.本技术在一较佳示例中可以进一步配置为:所述分词处理模块包括,
66.模糊匹配子模块,用于基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;
67.截断匹配子模块,用于在型号的模糊匹配失败时,对型号进行截断匹配,若截断匹配成功,则得到匹配结果;
68.属性词子模块,用于针对所述匹配结果,先判断是否包含属性词;
69.目标词组子模块,用于在存在属性词时,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。
70.本技术在一较佳示例中可以进一步配置为:所述词性确定模块包括,
71.理论词性单元,用于根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;
72.同义词单元,用于将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;
73.词性确定单元,用于基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。
74.本技术在一较佳示例中可以进一步配置为:所述初始数据集子模块包括,
75.sku单元,用于在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;
76.商品类别单元,用于基于所述sku号,进行商品类别匹配,得到商品类别;
77.商品品牌单元,用于根据所述商品类别,进行商品品牌匹配,得到商品品牌;
78.规则匹配单元,用于对所述商品品牌执行规则匹配,得到初始数据集。
79.本技术在一较佳示例中可以进一步配置为:所述表格文件获取模块包括,
80.实时表格样本数据单元,用于实时获取用户纠正目标时产生的表格样本数据。
81.本技术在一较佳示例中可以进一步配置为:所述目标词组子模块包括,
82.归一化单元,用于基于所述匹配结果进行字符归一化,得到第一词组;
83.词语拆分单元,用于对所述第一词组进行词语拆分,得到第二词组;
84.词性选举单元,用于根据所述第二词组进行词性选举,得到所述分词词组。
85.本技术在一较佳示例中可以进一步配置为:所述分词处理模块还包括,
86.不可分词组子模块,用于在截断匹配失败时,将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;
87.剔除子模块,用于在所述商品信息的用户点击量达到预设阈值时,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。
88.本技术在一较佳示例中可以进一步配置为:所述关键信息提取模块包括,
89.订单数据单元,用于获取的订单数据,汇聚至数据仓库里;
90.字典分词单元,用于对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
91.商品知识图谱单元,用于使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。
92.第三方面,本技术提供一种计算机设备。
93.本技术是通过以下技术方案得以实现的:
94.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一种基于表格的关键信息提取方法的步骤。
95.第四方面,本技术提供一种计算机可读存储介质。
96.本技术是通过以下技术方案得以实现的:
97.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种基于表格的关键信息提取方法的步骤。
98.综上所述,与现有技术相比,本技术提供的技术方案带来的有益效果至少包括:
99.获取表格文件,采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达,使未来输入相似词语也可以实现智能识别,即可以识别同一表头类型的不同词语表达,相比于其他语义识别算法的分类效果更精准,且通过把已知数据收集起来用于进行监督学习训
练,通过训练可以把多种规则更精细化区分,能够提高表格关键信息提取时的适用性;基于表头类型,获取每项表头类型对应的商品信息;根据商品信息,进行分词转换处理,确定目标词组,以通过分词转换处理滤除重复的词语,减少关键信息提取时的干扰因子,达到初步降噪效果;按照目标词组,结合预设的数据库关系,确定目标词组对应的词性,以预测目标词组的所有可能词性;基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合词性,提取关键信息,以过滤不在任何关系链路中存在的词语,从表头对应的文字内容里去除不相干的词语,得到高度相关的关键词,达到二次降噪效果,进而改善了表格关键信息提取时的容错性,提高了从表格中提取所需商品关键信息的准确率。
附图说明
100.图1为本技术一个示例性实施例提供的一种基于表格的关键信息提取方法的主要流程示意图。
101.图2为本技术又一个示例性实施例提供的一种基于表格的关键信息提取方法的朴素贝叶斯算法模型的训练流程图。
102.图3为本技术另一个示例性实施例提供的一种基于表格的关键信息提取方法的确定目标词组的流程图。
103.图4为本技术一个示例性实施例提供的一种基于表格的关键信息提取方法的确定目标词组对应的词性的流程图。
104.图5为本技术一个示例性实施例提供的一种基于表格的关键信息提取方法的对采集的表格文件进行预处理的流程图。
105.图6为本技术一个示例性实施例提供的一种基于表格的关键信息提取方法的分词转换处理的流程图。
106.图7为本技术一个示例性实施例提供的一种基于表格的关键信息提取方法的商品知识图谱的创建流程图。
107.图8为本技术一个示例性实施例提供的一种基于表格的关键信息提取装置的结构框图。
具体实施方式
108.本具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的权利要求范围内都受到专利法的保护。
109.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
110.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
111.下面结合说明书附图对本技术实施例作进一步详细描述。
112.参照图1,本技术实施例提供一种基于表格的关键信息提取方法,所述方法的主要步骤描述如下。
113.s1:获取表格文件;
114.s2:采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
115.s3:基于所述表头类型,获取每项表头类型对应的商品信息;
116.s4:根据所述商品信息,进行分词转换处理,确定目标词组;
117.s5:按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
118.s6:基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
119.具体地,用户在页面以表格形式输入信息得到表格文件,或者,用户上传一个表格文件。
120.后台获取表格文件,并采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达,使未来输入相似词语也可以实现智能识别,即可以识别同一表头类型的不同词语表达,适用性更强。
121.通过监督学习训练的方式,实现多种表头识别规则的更精细化区分,采用训练好的朴素贝叶斯算法模型对表头信息进行识别,获得商品名称、型号、属性等信息,识别结果更适用于表头信息的多样化分类,识别效果更精准。
122.基于表头类型,从商品数据库中匹配获取每项表头类型对应的商品信息。
123.根据商品信息,进行分词转换处理,确定目标词组,以通过分词转换处理滤除重复的词语,减少关键信息提取时的干扰因子,达到初步降噪效果;
124.按照目标词组,结合预设的数据库关系,确定目标词组对应的词性,以预测目标词组的所有可能词性;
125.基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合词性,提取关键信息,以过滤不在任何关系链路中存在的词语,从表头对应的文字内容里去除不相干的词语,得到高度相关的关键词,达到二次降噪效果,进而改善了表格关键信息提取时的容错性,提高了从表格中提取所需商品关键信息的准确率。
126.参照图2,在一实施例中,s2:所述朴素贝叶斯算法模型的训练步骤包括,
127.s21:对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;
128.s22:采用字典树对所述初始数据集进行分词;
129.s23:根据划分结果确定划分数据集;
130.s24:基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;
131.s25:当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。
132.具体地,朴素贝叶斯算法模型训练中采用的表头样本是表头名称,输出目标值是商品名称、型号、品牌、包装和数量信息。
133.通过朴素贝叶斯分类器,基于贝叶斯定理进行监督学习,在训练模型之前,根据数
据特征和模型的性质来调整模型的参数,以使模型更好地适应数据。
134.根据拟学习的数据集的性质,确定分布模型,本实施例中,分布模型选用多项式分布,以获得更好的分类效果。
135.调整分布模型的参数,如多项式分布中的平滑参数等,在模型训练时加载参数,以获得更好的分类效果。
136.若出现了新的表头类型,仅需在模型训练过程中增加新的表头样本及其对应的输出目标值进行训练,即可实现新增表头类型的识别,无需重新定义规则,提高了表格关键信息提取时的适用性。
137.在朴素贝叶斯算法模型的训练过程中,通过对模型的样本数据和输出结果进行回溯,不断纠正和调整模型中的错误数据,改善样本数据质量,以提高朴素贝叶斯算法模型的识别精度。
138.进一步地,可以使用贝叶斯公式权重调整方法调整朴素贝叶斯分类器的权重,以进一步提高模型分类的准确度。
139.参照图3,在一实施例中,s4:所述根据所述商品信息,进行分词转换处理,确定目标词组的步骤包括,
140.s41:基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;
141.s42:若型号的模糊匹配失败,则对型号进行截断匹配,若截断匹配成功,则得到匹配结果;
142.s43:针对所述匹配结果,先判断是否包含属性词;
143.s44:若存在属性词,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。
144.具体地,基于型号信息对商品信息进行模糊匹配,其中,模糊匹配包括前缀模糊匹配和后缀模糊匹配,通过截取型号信息中位于头部的预设字符个数作为前缀部分进行前缀模糊匹配,或者,通过截取型号信息中位于尾部的预设字符个数作为后缀部分进行后缀模糊匹配,预测商品信息属于同一表头类型的概率,通过输出0-100范围内的数字,表征同一表头类型的可能性,数值愈大则属于同一表头类型的概率愈高,以减少数据歧义对识别结果造成的影响,降低用户因无法规范化填写表格信息而对关键信息匹配精度的影响。
145.若型号的模糊匹配失败,则再对型号进行截断匹配,通过预设字符串,如
“‑”
,并设定从型号信息的尾部到头部的匹配规则,截取位于预设的字符串后的型号信息内容作为搜索目标,实现型号的截断匹配,以降低型号信息匹配的难度。
146.再基于匹配结果,先判断是否包含属性词,以确定匹配结果的相关度;若存在属性词,即匹配结果的相关度较高,再进行分词转换处理,过滤掉虚词“了”、“的”等,再提取实词,得到分词词组。
147.采用字典树分词法对分词词组进行提取,得到目标词组,以减少无意义的字符串匹配,提高匹配的效率。
148.参照图4,在一实施例中,s5:按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性的步骤包括,
149.s51:根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;
150.s52:将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义
词,得到含有多个词性的多个词组;
151.s53:基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。
152.具体地,根据现有的数据库关系,映射确定提取的词组对应的词性,将其与数据库中的商品属性进行匹配,得到属于同义词的多个词性的多个词组,再基于用户历史输入数据的统计结果对词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性,例如,3m有两个词性,品牌一个属性,当平台80%的用户都搜的是属性时,可以判断用户是要查的是属性,则3m的词性为属性,将3m的品牌词性剔除。
153.参照图5,在一实施例中,s21:所述对采集的表格文件进行预处理的步骤包括,
154.s211:在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;
155.s212:基于所述sku号,进行商品类别匹配,得到商品类别;
156.s213:根据所述商品类别,进行商品品牌匹配,得到商品品牌;
157.s214:对所述商品品牌执行规则匹配,得到初始数据集。
158.在一实施例中,所述表格文件还包括实时获取的用户纠正目标时产生的表格样本数据。
159.通过实时获取用户纠正目标时产生的样本数据,对朴素贝叶斯算法模型进行优化训练,以提高其识别的准确性。
160.参照图6,在一实施例中,s44:所述若存在属性词,再进行分词转换处理得到分词词组的步骤包括,
161.s441:基于所述匹配结果进行字符归一化,得到第一词组;
162.s442:对所述第一词组进行词语拆分,得到第二词组;
163.s443:根据所述第二词组进行词性选举,得到所述分词词组。
164.具体地,基于匹配结果进行字符归一化,如将汉字数字统一转化为阿拉伯数字,得到第一词组,以实现匹配结果的统一,得到标准数据格式,减少后期的处理工作量。
165.对第一词组进行词语拆分,通过预先设置目标词语,基于设置的目标词语对第一词组进行拆分,得到包含目标词语的若干个第二词组。
166.根据第二词组进行词性选举,包括基于历史数据预先设定词组的对应词性,任一词组可以对应多个词性,并统计分析历史数据中出现的词性的词性频率,以选取词性频率最高的词性作为第二词组的目标词性,将目标词性作为目标词,即得到分词词组。
167.在一实施例中,还包括以下步骤,
168.若截断匹配失败,则将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;
169.若所述商品信息的用户点击量达到预设阈值,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。
170.通过对未成功分词或分词错误的词组进行定期统计,优化样本数据,使得模型的泛化能力更强。例如,当某个词组的点击量达到预设阈值时,可将其自动改写为可分词,如果持续预设时间后还没有点击的话,再将其改分至不可分词组。
171.参照图7,在一实施例中,s6:所述商品知识图谱的创建步骤包括,
172.s61:获取的订单数据,汇聚至数据仓库里;
173.s62:对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
174.s63:使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。
175.通过将所有订单的商品信息全部划分到一个数据库里,对数据库内的所有商品相关词汇采用字典分词法进行分词,然后使用深度学习模型,如cnn、lstm中的任一种对分词得到的所有词组进行学习,得到商品知识图谱,该商品知识图谱中包含有两种:
176.(1)由产品关键词、分类和属性形成的关系链路,例如小米手机,其分类是手机,属性是32g/64g;
177.(2)不同的商品之间的关联关系,例如手机和手机壳。
178.综上所述,一种基于表格的关键信息提取方法通过获取表格文件,采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达,使未来输入相似词语也可以实现智能识别,即可以识别同一表头类型的不同词语表达,相比于其他语义识别算法的分类效果更精准,且通过把已知数据收集起来用于进行监督学习训练,通过训练可以把多种规则更精细化区分,能够提高表格关键信息提取时的适用性;基于表头类型,获取每项表头类型对应的商品信息;根据商品信息,进行分词转换处理,确定目标词组,以通过分词转换处理滤除重复的词语,减少关键信息提取时的干扰因子,达到初步降噪效果;按照目标词组,结合预设的数据库关系,确定目标词组对应的词性,以预测目标词组的所有可能词性;基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合词性,提取关键信息,以过滤不在任何关系链路中存在的词语,从表头对应的文字内容里去除不相干的词语,得到高度相关的关键词,达到二次降噪效果,进而改善了表格关键信息提取时的容错性,提高了从表格中提取所需商品关键信息的准确率。
179.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
180.参照图8,本技术实施例还提供一种基于表格的关键信息提取装置,该一种基于表格的关键信息提取装置与上述实施例中一种基于表格的关键信息提取方法一一对应。该一种基于表格的关键信息提取装置包括,
181.表格文件获取模块,用于获取表格文件;
182.表头类型识别模块,用于采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
183.商品信息获取模块,用于基于所述表头类型,获取每项表头类型对应的商品信息;
184.分词处理模块,用于根据所述商品信息,进行分词转换处理,确定目标词组;
185.词性确定模块,用于按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
186.关键信息提取模块,用于基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
187.进一步地,所述表头类型识别模块包括,
188.初始数据集子模块,用于对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;
189.划分数据集子模块,用于采用字典树对所述初始数据集进行分词,得到划分数据集;
190.训练子模块,用于基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;
191.模型子模块,用于当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。
192.进一步地,所述分词处理模块包括,
193.模糊匹配子模块,用于基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;
194.截断匹配子模块,用于在型号的模糊匹配失败时,对型号进行截断匹配,若截断匹配成功,则得到匹配结果;
195.属性词子模块,用于针对所述匹配结果,先判断是否包含属性词;
196.目标词组子模块,用于在存在属性词时,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。
197.进一步地,所述词性确定模块包括,
198.理论词性单元,用于根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;
199.同义词单元,用于将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;
200.词性确定单元,用于基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。
201.进一步地,所述初始数据集子模块包括,
202.sku单元,用于在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;
203.商品类别单元,用于基于所述sku号,进行商品类别匹配,得到商品类别;
204.商品品牌单元,用于根据所述商品类别,进行商品品牌匹配,得到商品品牌;
205.规则匹配单元,用于对所述商品品牌执行规则匹配,得到初始数据集。
206.进一步地,所述表格文件获取模块包括,
207.实时表格样本数据单元,用于实时获取用户纠正目标时产生的表格样本数据。
208.进一步地,所述目标词组子模块包括,
209.归一化单元,用于基于所述匹配结果进行字符归一化,得到第一词组;
210.词语拆分单元,用于对所述第一词组进行词语拆分,得到第二词组;
211.词性选举单元,用于根据所述第二词组进行词性选举,得到所述分词词组。
212.进一步地,所述分词处理模块还包括,
213.不可分词组子模块,用于在截断匹配失败时,将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;
214.剔除子模块,用于在所述商品信息的用户点击量达到预设阈值时,将所述商品信
息从所述不可分词组中间剔除,并重新进行模糊匹配。
215.进一步地,所述关键信息提取模块包括,
216.订单数据单元,用于获取的订单数据,汇聚至数据仓库里;
217.字典分词单元,用于对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
218.商品知识图谱单元,用于使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。
219.关于一种基于表格的关键信息提取装置的具体限定可以参见上文中对于一种基于表格的关键信息提取方法的限定,在此不再赘述。上述一种基于表格的关键信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
220.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任意一种基于表格的关键信息提取方法。
221.在一个实施例中,提供了一种计算机可读存储介质,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
222.s1:获取表格文件;
223.s2:采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;
224.s3:基于所述表头类型,获取每项表头类型对应的商品信息;
225.s4:根据所述商品信息,进行分词转换处理,确定目标词组;
226.s5:按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;
227.s6:基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。
228.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
229.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

技术特征:
1.一种基于表格的关键信息提取方法,其特征在于,包括以下步骤,获取表格文件;采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;基于所述表头类型,获取每项表头类型对应的商品信息;根据所述商品信息,进行分词转换处理,确定目标词组;按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。2.根据权利要求1所述的基于表格的关键信息提取方法,其特征在于,所述朴素贝叶斯算法模型的训练步骤包括,对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;采用字典树对所述初始数据集进行分词,得到划分数据集;基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。3.根据权利要求1所述的基于表格的关键信息提取方法,其特征在于,所述根据所述商品信息,进行分词转换处理,确定目标词组的步骤包括,基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到匹配结果;若型号的模糊匹配失败,则对型号进行截断匹配,若截断匹配成功,则得到匹配结果;针对所述匹配结果,先判断是否包含属性词;若存在属性词,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。4.根据权利要求1所述的基于表格的关键信息提取方法,其特征在于,按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性的步骤包括,根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。5.根据权利要求2所述的基于表格的关键信息提取方法,其特征在于,所述对采集的表格文件进行预处理的步骤包括,在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;基于所述sku号,进行商品类别匹配,得到商品类别;根据所述商品类别,进行商品品牌匹配,得到商品品牌;对所述商品品牌执行规则匹配,得到初始数据集。6.根据权利要求2所述的基于表格的关键信息提取方法,其特征在于,所述获取表格文件时,还包括以下步骤,
实时获取用户纠正目标时产生的表格样本数据。7.根据权利要求3所述的基于表格的关键信息提取方法,其特征在于,所述若存在属性词,再进行分词转换处理得到分词词组的步骤包括,基于所述匹配结果进行字符归一化,得到第一词组;对所述第一词组进行词语拆分,得到第二词组;根据所述第二词组进行词性选举,得到所述分词词组。8.根据权利要求3所述的基于表格的关键信息提取方法,其特征在于,还包括以下步骤,若截断匹配失败,则将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;若所述商品信息的用户点击量达到预设阈值,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。9.根据权利要求1-8任意一项所述的基于表格的关键信息提取方法,其特征在于,所述商品知识图谱的创建步骤包括,获取的订单数据,汇聚至数据仓库里;对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。10.一种基于表格的关键信息提取装置,其特征在于,包括,表格文件获取模块,用于获取表格文件;表头类型识别模块,用于采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;商品信息获取模块,用于基于所述表头类型,获取每项表头类型对应的商品信息;分词处理模块,用于根据所述商品信息,进行分词转换处理,确定目标词组;词性确定模块,用于按照所述目标词组,结合预设的数据库关系,确定所述目标词组对应的词性;关键信息提取模块,用于基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合所述词性,提取关键信息。11.根据权利要求10所述的基于表格的关键信息提取装置,其特征在于,所述表头类型识别模块包括,初始数据集子模块,用于对采集的表格文件进行预处理,得到初始数据集,所述初始数据集包括所有订单的表头名称;划分数据集子模块,用于采用字典树对所述初始数据集进行分词,得到划分数据集;训练子模块,用于基于朴素贝叶斯算法,加载参数,输入所述划分数据集进行模型训练,输出商品名称、型号、品牌、包装和数量信息;模型子模块,用于当模型的训练精度达到预设要求时,获得所述朴素贝叶斯算法模型。12.根据权利要求10所述的基于表格的关键信息提取装置,其特征在于,所述分词处理模块包括,模糊匹配子模块,用于基于型号对所述商品信息进行模糊匹配,若模糊匹配成功,得到
匹配结果;截断匹配子模块,用于在型号的模糊匹配失败时,对型号进行截断匹配,若截断匹配成功,则得到匹配结果;属性词子模块,用于针对所述匹配结果,先判断是否包含属性词;目标词组子模块,用于在存在属性词时,再进行分词转换处理得到分词词组,采用字典树分词法对所述分词词组进行提取,得到目标词组。13.根据权利要求10所述的基于表格的关键信息提取装置,其特征在于,所述词性确定模块包括,理论词性单元,用于根据预设的数据库关系,映射确定提取的所述目标词组对应的理论词性;同义词单元,用于将所述理论词性与数据库中的商品属性进行匹配,查询所述理论词性的同义词,得到含有多个词性的多个词组;词性确定单元,用于基于用户历史输入数据的统计结果对所述词组的词性进行概率预测,选取概率最大的所述词性作为所述目标词组对应的词性。14.根据权利要求11所述的基于表格的关键信息提取装置,其特征在于,所述初始数据集子模块包括,sku单元,用于在所述表格文件中进行商品最小出库单位的sku匹配,得到sku号;商品类别单元,用于基于所述sku号,进行商品类别匹配,得到商品类别;商品品牌单元,用于根据所述商品类别,进行商品品牌匹配,得到商品品牌;规则匹配单元,用于对所述商品品牌执行规则匹配,得到初始数据集。15.根据权利要求11所述的基于表格的关键信息提取装置,其特征在于,所述表格文件获取模块包括,实时表格样本数据单元,用于实时获取用户纠正目标时产生的表格样本数据。16.根据权利要求12所述的基于表格的关键信息提取装置,其特征在于,所述目标词组子模块包括,归一化单元,用于基于所述匹配结果进行字符归一化,得到第一词组;词语拆分单元,用于对所述第一词组进行词语拆分,得到第二词组;词性选举单元,用于根据所述第二词组进行词性选举,得到所述分词词组。17.根据权利要求12所述的基于表格的关键信息提取装置,其特征在于,所述分词处理模块还包括,不可分词组子模块,用于在截断匹配失败时,将所述商品信息划分至不可分词组,并监测所述商品信息的用户点击量;剔除子模块,用于在所述商品信息的用户点击量达到预设阈值时,将所述商品信息从所述不可分词组中间剔除,并重新进行模糊匹配。18.根据权利要求10-17任意一项所述的基于表格的关键信息提取装置,其特征在于,所述关键信息提取模块包括,订单数据单元,用于获取的订单数据,汇聚至数据仓库里;字典分词单元,用于对所述数据仓库的所述订单数据的所有商品相关词汇采用字典分词法进行分词;
商品知识图谱单元,用于使用深度学习模型对所述分词的所有词组进行学习,得到包含由产品关键词、分类和属性形成关系链路,以及不同的商品之间的关联关系的商品知识图谱。19.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现权利要求1至9任意一项所述方法的步骤。20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任意一项所述方法的步骤。

技术总结
本申请涉及商品信息提取技术领域,公开了一种基于表格的关键信息提取方法及装置,其方法包括获取表格文件;采用训练好的朴素贝叶斯算法模型对表格里的每项表头的文字进行识别,确定每项表头对应的表头类型,其中,同一表头类型采用至少两种词语表达;基于表头类型,获取每项表头类型对应的商品信息;根据商品信息,进行分词转换处理,确定目标词组;按照目标词组,结合预设的数据库关系,确定目标词组对应的词性;基于商品知识图谱中的产品关键词、分类和属性组成的关系链路,结合词性,提取关键信息。本申请具有识别同一表头类型的不同词语表达,提高表格关键信息提取时的适用性和容错性,提取精度更高的效果。提取精度更高的效果。提取精度更高的效果。


技术研发人员:周艳华 李振波 钟浩 王策 马浩然
受保护的技术使用者:上海固瑞捷工业科技有限公司
技术研发日:2023.04.28
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐