一种基于文本挖掘的标准要素查重方法与流程

未命名 08-27 阅读:136 评论:0


1.本发明涉及文本查重技术领域,尤其涉及一种基于文本挖掘的标准要素查重方法。


背景技术:

2.当今世界,标准化水平已成为各国各地区核心竞争力的基本要素。随着新标准化法的作用日益显现、全国各标准化试点建设发展,国家、地方、企业、行业、团体的各类标准的编写制定任务日益繁重,而标准制定涉及知识产权保护的复杂性,故在具体标准编写完毕之后、正式发布之前,对标准文本进行查重比对工作十分重要。而目前针对这一块工作的查重方法及系统建设十分匮乏,亟需填补。


技术实现要素:

3.基于背景技术存在的技术问题,本发明提出了一种基于文本挖掘的标准要素查重方法。
4.本发明提出的一种基于文本挖掘的标准要素查重方法,包括如下步骤:
5.s1根据上传的标准文本,从中提取有关信息;
6.s2对提取的有关信息进行特征抽取,即对文件进行切分,从而组成文本的特征集合;
7.s3经过特征抽取后的文本集合经数学描述计算相似度;
8.s4计算标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比标准文本的总相似度;将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度;
9.s5抽样分析聚类结果是否符合要求;
10.s6不符合要求,则设定相似度计算参数,继续进行文本相似度计算;符合要求,则建立索引进行数据库查重。
11.优选的,所述特征抽取可以选择字、词、词组、短语、句子或句群作为文本特征项,按照最能代表词条特征的一组词来抽取特征词。
12.优选的,所述对文件进行切分时去掉表示词条特征没有任何意义的介词、连词、助词,对表示词条特征帮助不大的词语也去掉,以减少向量维数及提高聚类效率。
13.优选的,所述步骤s3通过向量空间模型计算相似度,向量空间模型中,每个特征词作为特征空间中的一维,每个文本被视为特征空间中的一个向量,若该特征空间的维数为n,则每个文本d可表示为一个特征向量vd=(w1,w2,...,wi,...,wn),其中,wi表示特征向量中第i个特征项的权重。
14.优选的,所述特征词权重的计算方法有多种:tf算法、idf算法、tf-idf算法。
15.优选的,所述文本相似度计算:采用余弦公式进行相似度计算。
16.优选的,所述步骤s1对提取的有关信息进行预处理,即按照标准文本的要素格式
将提取的有关信息划分为不同要素板块的待查重数据。
17.优选的,所述步骤s5设定相关参数,并用统计分析软件进行聚类分析。
18.本发明中,所述一种基于文本挖掘的标准要素查重方法,减少查重的工作量,减少词条交叉重复问题,准确度高,且流程易操作,能极大的提高对标准文本进行查重比对工作的效率。
附图说明
19.图1为本发明提出的一种基于文本挖掘的标准要素查重方法的流程示意图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
21.参照图1,一种基于文本挖掘的标准要素查重方法,包括如下步骤:
22.s1根据上传的标准文本,从中提取有关信息;
23.s2对提取的有关信息进行特征抽取,即对文件进行切分,从而组成文本的特征集合;
24.s3经过特征抽取后的文本集合经数学描述计算相似度;
25.s4计算标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比标准文本的总相似度;将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度;
26.s5抽样分析聚类结果是否符合要求;
27.s6不符合要求,则设定相似度计算参数,继续进行文本相似度计算;符合要求,则建立索引进行数据库查重。
28.本发明中,所述特征抽取可以选择字、词、词组、短语、句子或句群作为文本特征项,按照最能代表词条特征的一组词来抽取特征词。
29.本发明中,所述对文件进行切分时去掉表示词条特征没有任何意义的介词、连词、助词,对表示词条特征帮助不大的词语也去掉,以减少向量维数及提高聚类效率。
30.本发明中,所述步骤s3通过向量空间模型计算相似度,向量空间模型中,每个特征词作为特征空间中的一维,每个文本被视为特征空间中的一个向量,若该特征空间的维数为n,则每个文本d可表示为一个特征向量vd=(w1,w2,...,wi,...,wn),其中,wi表示特征向量中第i个特征项的权重。
31.本发明中,所述特征词权重的计算方法有多种:tf算法、idf算法、tf-idf算法。
32.本发明中,所述文本相似度计算:采用余弦公式进行相似度计算。
33.本发明中,所述步骤s1对提取的有关信息进行预处理,即按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据。
34.本发明中,所述步骤s5设定相关参数,并用统计分析软件进行聚类分析。
35.本发明:根据上传的标准文本,从中提取有关信息;对提取的有关信息进行特征抽取,即对文件进行切分,从而组成文本的特征集合;经过特征抽取后的文本集合经数学描述计算相似度;计算标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比
标准文本的总相似度;将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度;抽样分析聚类结果是否符合要求;不符合要求,则设定相似度计算参数,继续进行文本相似度计算;符合要求,则建立索引进行数据库查重。
36.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。


技术特征:
1.一种基于文本挖掘的标准要素查重方法,其特征在于,包括如下步骤:s1根据上传的标准文本,从中提取有关信息;s2对提取的有关信息进行特征抽取,即对文件进行切分,从而组成文本的特征集合;s3经过特征抽取后的文本集合经数学描述计算相似度;s4计算标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比标准文本的总相似度;将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度;s5抽样分析聚类结果是否符合要求;s6不符合要求,则设定相似度计算参数,继续进行文本相似度计算;符合要求,则建立索引进行数据库查重。2.根据权利要求1所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述特征抽取可以选择字、词、词组、短语、句子或句群作为文本特征项,按照最能代表词条特征的一组词来抽取特征词。3.根据权利要求1所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述对文件进行切分时去掉表示词条特征没有任何意义的介词、连词、助词,对表示词条特征帮助不大的词语也去掉,以减少向量维数及提高聚类效率。4.根据权利要求1所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述步骤s3通过向量空间模型计算相似度,向量空间模型中,每个特征词作为特征空间中的一维,每个文本被视为特征空间中的一个向量,若该特征空间的维数为n,则每个文本d可表示为一个特征向量v
d
=(w1,w2,...,w
i
,...,w
n
),其中,w
i
表示特征向量中第i个特征项的权重。5.根据权利要求4所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述特征词权重的计算方法有多种:tf算法、idf算法、tf-idf算法。6.根据权利要求1所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述文本相似度计算:采用余弦公式进行相似度计算。7.根据权利要求1所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述步骤s1对提取的有关信息进行预处理,即按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据。8.根据权利要求1所述的一种基于文本挖掘的标准要素查重方法,其特征在于,所述步骤s5设定相关参数,并用统计分析软件进行聚类分析。

技术总结
本发明公开了一种基于文本挖掘的标准要素查重方法,包括如下步骤:根据上传的标准文本,从中提取有关信息;对提取的有关信息进行特征抽取,即对文件进行切分,从而组成文本的特征集合;经过特征抽取后的文本集合经数学描述计算相似度;计算标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比标准文本的总相似度;将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度;抽样分析聚类结果是否符合要求。本发明减少查重的工作量,减少词条交叉重复问题,准确度高,且流程易操作,能极大的提高对标准文本进行查重比对工作的效率。作的效率。作的效率。


技术研发人员:张曦 王静雅 孙宇宁 于钢
受保护的技术使用者:中国标准化研究院
技术研发日:2023.04.11
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐