一种基于K近邻模型的专业名词识别方法及装置与流程

未命名 08-14 阅读:120 评论:0

一种基于k近邻模型的专业名词识别方法及装置
技术领域
1.本发明涉及自然语言识别技术领域,特别涉及一种基于k近邻模型的专业名词识别方法及装置。


背景技术:

2.为了研究某一专业的相关知识,人们往往需要先对该专业的专业名词进行辨识,基于这些构建了的专业名词,才可进行更进一步的研究。针对新型行业,行业内往往缺少实质性可以对该专业名词辨识的方法,因此找到一个合适的识别方法是一个亟待解决的问题。


技术实现要素:

3.为了解决这一问题,本发明提供了一种基于k近邻模型的专业名词识别方法,包括:
4.(1)获取一定数量所属领域的文档集合,记为d;
5.(2)随机抽取一部分所述文档集合中的文档合并,得到合并文档d1;将剩余部分的所述文档集合中的文档合并,得到合并文档d2;
6.(3)建立停用词集合记为s、常用动词集合记为m以及常用名词集合记为l;
7.(4)将所述合并文档d1中对应在集合s中的元素标签记为1,对应集合m中的元素签记为2,以及对应集合l中的元素标签记为3;
8.(5)确定所属领域的标识词,在d1中选取所有所述标识词后的h个字作为候选名词,记为标签4;
9.(6)利用k近邻算法构建模型,其中k取4,分别对应4个标签,该模型记为u;
10.(7)将所述合并文档d2送入所述模型u中,对所述合并文档d2中的语料按照4类标签进行打标,找出被完整定义为标签4的语料,作为有效候选名词记入集合r中;
11.(8)判断h是否等于0,如果等于0则存储最终的r后,结束步骤,否则h更新为h-1,回到第(5)步
12.(9)将所述集合r中的所有有效候选名词加上所述所属领域的标识词,即得到所有专业名词的识别结果。
13.进一步的,所述步骤3选取所述标识词后h个字作为候选名词时,当选定的h个字中包含标点符号时,则截断取词,此时h为所述标识词后标点符号前的字数。
14.进一步的,所述步骤5中,如果标签4中的所述候选名词是所述有效的候选名词,那么在d1中这个所述候选名词中的元素包含的停用词,名词与动词的组合不会被分到其他标签内,即该数据会完整的被定义为标签4。
15.本发明还提供了一种基于k近邻模型的专业名词识别装置,包括:
16.语料文档获取模块:用于获取一定数量所属领域的文档集合,记为d;随机抽取一部分所述文档集合中的文档合并,得到合并文档d1;将剩余部分的所述文档集合中的文档
合并,得到合并文档d2;
17.语料预处理模块:用于建立停用词集合记为s、常用动词集合记为m以及常用名词集合记为l;将所述合并文档d1中对应在集合s中的元素标签记为1,对应集合m中的元素签记为2,以及对应集合l中的元素标签记为3;确定所属领域的标识词,在d1中选取所有所述标识词后的h个字作为候选名词,记为标签4;
18.k近邻算法模型构建模块:用于利用k近邻算法构建模型,其中k取4,分别对应4个标签,该模型记为u;
19.专业名词判断模块:用于将所述合并文档d2送入所述模型u中,对所述合并文档d2中的语料按照4类标签进行打标,找出被完整定义为标签4的语料,作为有效候选名词记入集合r中;依次减少h值得到所有有效候选名词;将所述集合中获得的所有候选名词加上所述所属领域的标识词,即得到所有专业名词的识别结果。
20.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的基于k近邻模型的专业名词识别方法。
21.本发明还提供了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于k近邻模型的专业名词识别方法。
22.本发明的有益效果:
23.本发明根据k近邻算法给出了一种专业名词的识别机制,可以解决新兴行业建立专业名词库的问题。
附图说明
24.图1是本发明实施例基于k近邻模型的专业名词识别方法的流程示意图。
25.图2是本发明实施例于k近邻模型的专业名词识别装置的结构示意图。
具体实施方式
26.下面结合附图和实施例对本发明做进一步的注释。
27.本实施例以“双碳”领域专业名词识别为例进行介绍。
28.实施例一,如图1所示,一种基于k近邻模型的专业名词识别方法,包括:
29.s101、获取一定数量所属领域的文档集合,记为d;
30.本实施例以“碳”为标识词,搜索一定数量(至少不少于2000篇,不少于20万字)的与双碳各方面有关的语料,记为d。
31.具体的查找方法可以有多种,例如可以将整个“双碳”划分成:“碳盘查”,“碳监测”,“碳分析”,“碳优化”,“碳资产管理”,“碳咨询”和“碳足迹”,假设所有的“双碳”领域的专业名词只会涉及上述七个领域。搜索引擎对“盘查”,“监测”,“分析”,“优化”,“资产管理”,“咨询”和“足迹”关键词分别搜索并下载,得到所需数量的文档集合。
32.s102、随机抽取一部分所述文档集合中的文档合并,得到合并文档d1;将剩余部分的所述文档集合中的文档合并,得到合并文档d2;
33.本发明实施例中随机抽取50%文档集合中的文档合并得到d1,剩余50%的文档集合中的文档合并得到d2。
34.s103、建立停用词集合记为s、常用动词集合记为m以及常用名词集合记为l;
35.建立中文里停用词(stop words,即介词,代词这种过滤词)的集合,记为s;中文里常见动词的集合,记为m;中文里常见名词的集合,记为l。
36.s104、将所述合并文档d1中对应在集合s中的元素标签记为1,对应集合m中的元素签记为2,以及对应集合l中的元素标签记为3;
37.在合并文档d中,寻找上述3种集合中的词语,并进行标签设定。
38.s105、确定所属领域的标识词,在d1中,选取所述标识词后h个字作为候选名词,记为标签4;
39.本实施例中以“碳”为标识词,在文档d1中寻找“碳”字,然后将其后h个字设为候选名词,当选定的h个字中包含标点符号时,则进行截断,h为标识词后标点符号前的字数,即不可跨标点符号取词,本实施例中选择h=15。
40.s106、利用k近邻算法构建模型,其中k取4,分别对应4个标签,该模型记为u;
41.建立k近邻模型,分为4类词语,对应上述4个标签。
42.s107、将所述合并文档d2送入所述模型u,对所述合并文档d2中的语料按照4类标签进行打标,找出被完整定义为标签4的语料,作为有效候选名词记入集合r中;
43.对于合并文档d2使用u模型,在文档中针对4类标签打标,找到被完整定义为标签4的语料,其作为有效候选名词记入集合r中。
44.如果标签4中的候选名词是有效的候选名词,那么在d1中这个候选名词中的元素包含的停用词,名词与动词的组合不会被分到其他标签内,即该数据会完整的被定义为标签4。
45.s108、判断h是否等于0,如果等于0则执行步骤s109,否则h更新为h-1,回到步骤s105;
46.依次减少h,直至到h=0,完成所有有效候选名词的判断。
47.s109、将所述集合r中的所有有效候选名词加上所述所属领域的标识词,即得到所有专业名词的识别结果。
48.实施例二,如图2所示,本发明还提供了一种基于k近邻模型的专业名词识别装置,包括:
49.语料文档获取模块210:用于获取一定数量所属领域的文档集合,记为d;随机抽取50%所述文档集合中的文档合并,得到合并文档d1;将剩余50%的所述文档集合中的文档合并,得到合并文档d2;
50.语料预处理模块220:用于建立停用词集合记为s、常用动词集合记为m以及常用名词集合记为l;将所述合并文档d1中对应在集合s中的元素标签记为1,对应集合m中的元素签记为2,以及对应集合l中的元素标签记为3;
51.k近邻模型构建模块230:用于根据所属领域的标识词,在d1中,选取所有所述标识词后的h个字作为候选名词,记为标签4;利用k近邻算法构建模型,其中k取4,分别对应4个标签,该模型记为u;
52.专业名词判断模块240:将所述合并文档d2送入所述模型u,对所述合并文档d2中的语料按照4类标签进行打标,找出被完整定义为标签4的语料,作为有效候选名词记入集合r中;h更新为h-1循环判断得到所有有效候选名词;将所述集合中获得的所有候选名词加
上所述所属领域的标识词,即得到所有专业名词的识别结果。
53.实施例三,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的基于k近邻模型的专业名词识别方法。
54.实施例四,本发明还提供了一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于k近邻模型的专业名词识别方法。
55.以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

技术特征:
1.一种基于k近邻模型的专业名词识别方法,其特征在于,包括:、(1)获取一定数量所属领域的文档集合,记为d;(2)随机抽取一部分所述文档集合中的文档合并,得到合并文档d1;将剩余部分的所述文档集合中的文档合并,得到合并文档d2;(3)建立停用词集合记为s、常用动词集合记为m以及常用名词集合记为l;(4)将所述合并文档d1中对应在集合s中的元素标签记为1,对应集合m中的元素签记为2,以及对应集合l中的元素标签记为3;(5)确定所属领域的标识词,在d1中选取所有所述标识词后的h个字作为候选名词,记为标签4;(6)利用k近邻算法构建模型,其中k取4,分别对应4个标签,该模型记为u;(7)将所述合并文档d2送入所述模型u中,对所述合并文档d2中的语料按照4类标签进行打标,找出被完整定义为标签4的语料,作为有效候选名词记入集合r中;(8)判断h是否等于0,如果等于0则存储最终的r后,结束步骤,否则h更新为h-1,回到第(5)步(9)将所述集合r中的所有有效候选名词加上所述所属领域的标识词,即得到所有专业名词的识别结果。2.根据权利要求1所述的基于k近邻模型的专业名词识别方法,其特征在于:所述步骤3选取所述标识词后h个字作为候选名词时,当选定的h个字中包含标点符号时,则截断取词,此时h为所述标识词后标点符号前的字数。3.根据权利要求1所述的基于k近邻模型的专业名词识别方法,其特征在于:所述步骤5中,如果标签4中的所述候选名词是所述有效的候选名词,那么在d1中这个所述候选名词中的元素包含的停用词,名词与动词的组合不会被分到其他标签内,即该数据会完整的被定义为标签4。4.一种基于k近邻模型的专业名词识别装置,其特征在于,包括:语料文档获取模块:用于获取一定数量所属领域的文档集合,记为d;随机抽取一部分所述文档集合中的文档合并,得到合并文档d1;将剩余部分的所述文档集合中的文档合并,得到合并文档d2;语料预处理模块:用于建立停用词集合记为s、常用动词集合记为m以及常用名词集合记为l;将所述合并文档d1中对应在集合s中的元素标签记为1,对应集合m中的元素签记为2,以及对应集合l中的元素标签记为3;确定所属领域的标识词,在d1中选取所有所述标识词后的h个字作为候选名词,记为标签4;k近邻算法模型构建模块:用于利用k近邻算法构建模型,其中k取4,分别对应4个标签,该模型记为u;专业名词判断模块:用于将所述合并文档d2送入所述模型u中,对所述合并文档d2中的语料按照4类标签进行打标,找出被完整定义为标签4的语料,作为有效候选名词记入集合r中;依次减少h值得到所有有效候选名词;将所述集合中获得的所有候选名词加上所述所属领域的标识词,即得到所有专业名词的识别结果。5.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~3任一项所述的基于k近邻模型的专业名词识别方法。
6.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~3任一项所述的基于k近邻模型的专业名词识别方法。

技术总结
本发明公开了一种基于K近邻模型的专业名词识别方法,属于自然语言识别技术领域。该方法包括:获取文档集合;随机抽取一部分文档合并得到合并文档D1;将剩余部分文档合并得到合并文档D2;建立停用词集合、常用动词集合以及常用名词集合;在D1中根据3种集合打标签;确定所属领域的标识词,在D1中选取标识词后的h个字作为候选名词,记为标签4;利用K近邻算法构建模型;将合并文档D2送入模型,按照4类标签进行打标,找出被完整定义为标签4的语料作为有效候选名词;依次减少h值,重复上述操作获得所有有效候选名词。本发明基于K近邻模型给出了一种专业名词的识别方法,解决了对新兴行业专业名词进行辨识、建立专业名词库的问题。建立专业名词库的问题。建立专业名词库的问题。


技术研发人员:张毅骏
受保护的技术使用者:亿可能源科技(上海)有限公司
技术研发日:2023.05.31
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐