一种基于文本挖掘的标准智能生成方法与流程

未命名 07-23 阅读:101 评论:0


1.本发明涉及数据处理技术领域,尤其涉及一种基于文本挖掘的标准智能生成方法。


背景技术:

2.当前,随着信息技术的不断发展,各行业内部之间的信息交流需求越来越多。但是,现如今,在同一行业内,或者,同一机构内,若干信息系统呈现“信息孤岛”的局面。
3.针对信息系统所形成的文本数据而言,由于各个信息系统所采用的数据操作规范不统一,因此,无法得到关于文本数据的规范化的标准化数据,这无疑会影响各信息系统间的互操作能力以及对于行业规范化和整体效率的提升。因此,需要对不同的信息系统的文本数据进行有效地标准化处理。


技术实现要素:

4.基于背景技术存在的技术问题,本发明提出了一种基于文本挖掘的标准智能生成方法。
5.本发明提出的一种基于文本挖掘的标准智能生成方法,包括如下步骤:
6.s1接收针对目标文本发起的标准文本生成请求;
7.s2获取待数据标准化的目标文本数据;
8.s3提取目标文本数据所包括的目标文本要素;
9.s4根据目标文本要素确定所述目标文本数据的多个分词;
10.s5将得到的每一分词输入至最近邻模型中,通过最近邻模型在预设数据库中筛选与标准文本满足预设相似度要求的指定语句向量;
11.s6获取所述指定语句向量对应的文本数据,将所述指定语句向量对应的文本数据作为标准文本。
12.优选的,所述步骤s5通过所述最近邻模型在预设数据库中筛选与所述标准文本满足预设相似度要求的指定语句向量的步骤之后,包括:
13.将所述标准文本对应的向量,以及所述指定语句向量进行向量拼接,形成拼接向量;
14.将所述拼接向量输入bert分类模型进行降序排序;
15.获取排列于所述降序排序中靠前排列的指定数量的拼接向量;
16.根据所述指定数量的拼接向量,确定标准文本。
17.优选的,所述步骤s3基于目标文本确定所述目标文本要素在目标文本中的目标位置信息,并按照所述目标位置信息对转换为所述标准格式的目标文本要素进行排版。
18.优选的,所述步骤s4基于预定的分隔符,对所述目标文本要素进行分割,得到至少一个子文本,对各个子文本进行修正处理,得到修正后的各个子文本;其中,修正后的每一子文本中包括所述多个指定字段下的数据内容,且所述多个指定字段中的特定字段下的数
据内容的数量为一个;对修正后的各个子文本进行分词处理,得到各个子文本的分词。
19.优选的,所述目标文本数据包含多个指定字段下的数据内容,所述多个指定字段为:预设有标准化数据库的字段。
20.优选的,所述步骤s4针对每一分词,基于所述多个指定字段的标准化数据库中的标准词,确定与该分词相匹配的标准词,以及该分词所属的指定字段;其中,该分词所属的指定字段为:与该分词相匹配的标准词所属的指定字段。
21.优选的,所述方法还包括:建立所述目标文本数据与该目标文本数据的所述标准化数据之间的关联关系。
22.本发明中,所述一种基于文本挖掘的标准智能生成方法,可以对文本数据进行标准化处理,得到文本数据的标准化数据,从而,建立文本数据与所得到的标准化数据之间的关联关系;提高了文本数据生成效率,便可以对不同的信息系统的文本数据进行有效地标准化处理。
附图说明
23.图1为本发明提出的一种基于文本挖掘的标准智能生成方法的流程示意图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
25.参照图1,一种基于文本挖掘的标准智能生成方法,包括如下步骤:
26.s1接收针对目标文本发起的标准文本生成请求;
27.s2获取待数据标准化的目标文本数据;
28.s3提取目标文本数据所包括的目标文本要素;
29.s4根据目标文本要素确定所述目标文本数据的多个分词;
30.s5将得到的每一分词输入至最近邻模型中,通过最近邻模型在预设数据库中筛选与标准文本满足预设相似度要求的指定语句向量;
31.s6获取所述指定语句向量对应的文本数据,将所述指定语句向量对应的文本数据作为标准文本。
32.本发明中,所述步骤s5通过所述最近邻模型在预设数据库中筛选与所述标准文本满足预设相似度要求的指定语句向量的步骤之后,包括:
33.将所述标准文本对应的向量,以及所述指定语句向量进行向量拼接,形成拼接向量;
34.将所述拼接向量输入bert分类模型进行降序排序;
35.获取排列于所述降序排序中靠前排列的指定数量的拼接向量;
36.根据所述指定数量的拼接向量,确定标准文本。
37.本发明中,所述步骤s3基于目标文本确定所述目标文本要素在目标文本中的目标位置信息,并按照所述目标位置信息对转换为所述标准格式的目标文本要素进行排版。
38.本发明中,所述步骤s4基于预定的分隔符,对所述目标文本要素进行分割,得到至少一个子文本,对各个子文本进行修正处理,得到修正后的各个子文本;其中,修正后的每
一子文本中包括所述多个指定字段下的数据内容,且所述多个指定字段中的特定字段下的数据内容的数量为一个;对修正后的各个子文本进行分词处理,得到各个子文本的分词。
39.本发明中,所述目标文本数据包含多个指定字段下的数据内容,所述多个指定字段为:预设有标准化数据库的字段。
40.本发明中,所述步骤s4针对每一分词,基于所述多个指定字段的标准化数据库中的标准词,确定与该分词相匹配的标准词,以及该分词所属的指定字段;其中,该分词所属的指定字段为:与该分词相匹配的标准词所属的指定字段。
41.本发明中,所述方法还包括:建立所述目标文本数据与该目标文本数据的所述标准化数据之间的关联关系。
42.本发明:接收针对目标文本发起的标准文本生成请求;获取待数据标准化的目标文本数据;提取目标文本数据所包括的目标文本要素;根据目标文本要素确定所述目标文本数据的多个分词;将得到的每一分词输入至最近邻模型中,通过最近邻模型在预设数据库中筛选与标准文本满足预设相似度要求的指定语句向量;获取所述指定语句向量对应的文本数据,将所述指定语句向量对应的文本数据作为标准文本。
43.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。


技术特征:
1.一种基于文本挖掘的标准智能生成方法,其特征在于,包括如下步骤:s1接收针对目标文本发起的标准文本生成请求;s2获取待数据标准化的目标文本数据;s3提取目标文本数据所包括的目标文本要素;s4根据目标文本要素确定所述目标文本数据的多个分词;s5将得到的每一分词输入至最近邻模型中,通过最近邻模型在预设数据库中筛选与标准文本满足预设相似度要求的指定语句向量;s6获取所述指定语句向量对应的文本数据,将所述指定语句向量对应的文本数据作为标准文本。2.根据权利要求1所述的一种基于文本挖掘的标准智能生成方法,其特征在于,所述步骤s5通过所述最近邻模型在预设数据库中筛选与所述标准文本满足预设相似度要求的指定语句向量的步骤之后,包括:将所述标准文本对应的向量,以及所述指定语句向量进行向量拼接,形成拼接向量;将所述拼接向量输入bert分类模型进行降序排序;获取排列于所述降序排序中靠前排列的指定数量的拼接向量;根据所述指定数量的拼接向量,确定标准文本。3.根据权利要求1所述的一种基于文本挖掘的标准智能生成方法,其特征在于,所述步骤s3基于目标文本确定所述目标文本要素在目标文本中的目标位置信息,并按照所述目标位置信息对转换为所述标准格式的目标文本要素进行排版。4.根据权利要求1所述的一种基于文本挖掘的标准智能生成方法,其特征在于,所述步骤s4基于预定的分隔符,对所述目标文本要素进行分割,得到至少一个子文本,对各个子文本进行修正处理,得到修正后的各个子文本;其中,修正后的每一子文本中包括所述多个指定字段下的数据内容,且所述多个指定字段中的特定字段下的数据内容的数量为一个;对修正后的各个子文本进行分词处理,得到各个子文本的分词。5.根据权利要求1所述的一种基于文本挖掘的标准智能生成方法,其特征在于,所述目标文本数据包含多个指定字段下的数据内容,所述多个指定字段为:预设有标准化数据库的字段。6.根据权利要求1所述的一种基于文本挖掘的标准智能生成方法,其特征在于,所述步骤s4针对每一分词,基于所述多个指定字段的标准化数据库中的标准词,确定与该分词相匹配的标准词,以及该分词所属的指定字段;其中,该分词所属的指定字段为:与该分词相匹配的标准词所属的指定字段。7.根据权利要求1所述的一种基于文本挖掘的标准智能生成方法,其特征在于,所述方法还包括:建立所述目标文本数据与该目标文本数据的所述标准化数据之间的关联关系。

技术总结
本发明公开了一种基于文本挖掘的标准智能生成方法,包括如下步骤:接收针对目标文本发起的标准文本生成请求;获取待数据标准化的目标文本数据;提取目标文本数据所包括的目标文本要素;根据目标文本要素确定所述目标文本数据的多个分词;将得到的每一分词输入至最近邻模型中,通过最近邻模型在预设数据库中筛选与标准文本满足预设相似度要求的指定语句向量;获取所述指定语句向量对应的文本数据,将所述指定语句向量对应的文本数据作为标准文本。本发明提高了文本数据生成效率,便可以对不同的信息系统的文本数据进行有效地标准化处理。处理。处理。


技术研发人员:张曦 于钢 王静雅 孙宇宁
受保护的技术使用者:中国标准化研究院
技术研发日:2023.04.06
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐