一种基于深度学习的自然语言处理系统的制作方法

未命名 07-15 阅读:105 评论:0


1.本发明涉及自然语言处理技术领域,具体为一种基于深度学习的自然语言处理系统。


背景技术:

2.自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
3.现有技术中自然语言处理系统进行语料获取时,常获取本地语料库和下载语料库中的语料,语料词汇量有限,进行后续的学习时,得到的模型训练效果有限,只能算是浅度学习。


技术实现要素:

4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种基于深度学习的自然语言处理系统,具备将抓取的语料库分割为指定大小的文件,抓取时间为线性,不用建dom树、与html标签无关,抓取语料高效、准确,可利用全网语料,使本语言处理系统可进行深度的抓取语料并进行模型训练和深度学习,与现有技术相比,具有较强的优异性的优点。
6.(二)技术方案
7.为实现上述目的,本发明提供如下技术方案:一种基于深度学习的自然语言处理系统,其特征在于,包括获取语料单元、语料预处理单元、特征工程单元、特征选择单元、模型训练单元和模型应用单元;
8.所述获取语料单元用一个文本合集作为语料库,所述获取语料单元的语料来源有现存语料库、下载语料库和抓取语料库,其中抓取语料库的库源为全网;
9.抓取语料时应用wikiextractor工具,wikiextractor把语料库分割为指定大小的文件,文件的格式默认为xml格式,具体格式如下:
10.《docid="xxx"url="xxx"title="xxxx"》
11.xxxxx
12.《/doc》
13.每个生成的文件包含若干个词条,生成xml格式的语料,使用以下命令:
14.wikiextractor-oextracted_xml
‑‑
process2-b512k
‑‑
json zhwiki-latest-pages-articles.xml.bz2
[0015]-o用来指定输出目录,
‑‑
process用来指定使用的进程数目(默认为1),-b选项用
来控制单个生成文件的大小(默认为1m,文件越大,包含的词条也越多),最后的参数为要处理的原始压缩语料文件名称,程序运行完成以后,在输出目录下面会生成多个子目录,每个目录下面有一些生成的文件;
[0016]
["id":"xxx","url":"xxx","title":"xxx","text":"xxxxxx"]
[0017]
text对应词条的真正内容。
[0018]
采用上述技术方案:本系统,在进行学习时,获取语料单元的来源有现存语料库、下载语料库和抓取语料库,其中现存语料库为积累的本地文档,下载语料库为百度语料、新华社语料,重点在于抓取语料库的库源为全网,以全网为抓取语料库,并使用wikiextractor工具,使用python命令,将抓取的语料库分割为指定大小的文件,抓取时间为线性,不用建dom树、与html标签无关,抓取语料高效、准确,可利用全网语料,使本语言处理系统可进行深度的抓取语料并进行模型训练和深度学习,与现有技术相比,具有较强的优异性。
[0019]
其中,现存语料库为积累的本地文档,下载语料库为百度语料、新华社语料。
[0020]
优选的,所述语料预处理单元包括语料清洗模块、分词模块、词性标注模块和去停用词模块,其中语料清洗模块删掉噪音数据,并进行数据清洗,进行人工去重、对齐、删除和标注,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理,其中分词模块将文本分为词语。
[0021]
采用上述技术方案:常见的分词算法,基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法。
[0022]
优选的,所述词性标注模块给词语打词类标签,所述取停用词模块去掉对文本特征没有任何贡献作业的字词。
[0023]
采用上述技术方案:给词语打词类标签,如形容词、动词、名词等,在情感分析、知识推理等任务中需要。
[0024]
优选的,所述特征工程单元把分词表示成计算机能够计算的类型,表示模型有词袋模型tf-idf、词向量one-hot、word2vec。
[0025]
优选的,所述特征选择单元选择合适的、表达能力强的特征,特征选择方法有df、mi、ig、chi、wllr和wfo。
[0026]
优选的,所述模型训练单元包括机器学习模型和深度学习模型,其中深度学习模型包括cnn、rnn、lstm、seq2seq、fasttext。
[0027]
采用上述技术方案:在模型训练时注意过拟合,过拟合:在训练集上表现很好,但是在测试集上表现很差,解决方法有,增大数据的训练量;增加正则化项,如l1正则和l2正则;特征选取不合理,人工筛选特征和使用特征选择算法采用dropout方法。
[0028]
采用上述技术方案:在模型训练时注意欠拟合问题,欠拟合:就是模型不能够很好地拟合数据,解决方法有,添加其他特征项,增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强,减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。
[0029]
优选的,所述模型应用单元进行在线训练,在线训练完成后把模型pickle持久化。
[0030]
(三)有益效果
[0031]
与现有技术相比,本发明提供了一种基于深度学习的自然语言处理系统,具备以
下有益效果:
[0032]
该基于深度学习的自然语言处理系统,在进行学习时,获取语料单元的来源有现存语料库、下载语料库和抓取语料库,其中现存语料库为积累的本地文档,下载语料库为百度语料、新华社语料,重点在于抓取语料库的库源为全网,以全网为抓取语料库,并使用wikiextractor工具,使用python命令,将抓取的语料库分割为指定大小的文件,抓取时间为线性,不用建dom树、与html标签无关,抓取语料高效、准确,可利用全网语料,使本语言处理系统可进行深度的抓取语料并进行模型训练和深度学习,与现有技术相比,具有较强的优异性。
附图说明
[0033]
图1为本发明提出的一种基于深度学习的自然语言处理系统结构示意图。
具体实施方式
[0034]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035]
请参阅图1,一种基于深度学习的自然语言处理系统,包括获取语料单元、语料预处理单元、特征工程单元、特征选择单元、模型训练单元和模型应用单元;
[0036]
获取语料单元用一个文本合集作为语料库,获取语料单元的语料来源有现存语料库、下载语料库和抓取语料库,其中抓取语料库的库源为全网;
[0037]
抓取语料时应用wikiextractor工具,wikiextractor把语料库分割为指定大小的文件,文件的格式默认为xml格式,具体格式如下:
[0038]
《docid="xxx"url="xxx"title="xxxx"》
[0039]
xxxxx
[0040]
《/doc》;
[0041]
每个生成的文件包含若干个词条,生成xml格式的语料,使用以下命令:
[0042]
wikiextractor-oextracted_xml
‑‑
process2-b512k
‑‑
json zhwiki-latest-pages-articles.xml.bz2
[0043]-o用来指定输出目录,
‑‑
process用来指定使用的进程数目(默认为1),-b选项用来控制单个生成文件的大小(默认为1m,文件越大,包含的词条也越多),最后的参数为要处理的原始压缩语料文件名称,程序运行完成以后,在输出目录下面会生成多个子目录,每个目录下面有生成的文件;
[0044]
["id":"xxx","url":"xxx","title":"xxx","text":"xxxxxx"]
[0045]
text对应词条的真正内容。
[0046]
本系统,在进行学习时,获取语料单元的来源有现存语料库、下载语料库和抓取语料库,其中现存语料库为积累的本地文档,下载语料库为百度语料、新华社语料,重点在于抓取语料库的库源为全网,以全网为抓取语料库,并使用wikiextractor工具,使用python命令,将抓取的语料库分割为指定大小的文件,抓取时间为线性,不用建dom树、与html标签
无关,抓取语料高效、准确,可利用全网语料,使本语言处理系统可进行深度的抓取语料并进行模型训练和深度学习,与现有技术相比,具有较强的优异性。其中,现存语料库为积累的本地文档,下载语料库为百度语料、新华社语料。
[0047]
实施例1:语料预处理单元包括语料清洗模块、分词模块、词性标注模块和去停用词模块,其中语料清洗模块删掉噪音数据,并进行数据清洗,进行人工去重、对齐、删除和标注,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理,其中分词模块将文本分为词语。常见的分词算法,基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法。
[0048]
实施例2:词性标注模块给词语打词类标签,取停用词模块去掉对文本特征没有任何贡献作业的字词。给词语打词类标签,如形容词、动词、名词等,在情感分析、知识推理等任务中需要。
[0049]
实施例3:特征工程单元把分词表示成计算机能够计算的类型,表示模型有词袋模型tf-idf、词向量one-hot、word2vec。特征选择单元选择合适的、表达能力强的特征,特征选择方法有df、mi、ig、chi、wllr和wfo。模型训练单元包括机器学习模型和深度学习模型,其中深度学习模型包括cnn、rnn、lstm、seq2seq、fasttext。在模型训练时注意过拟合,过拟合:在训练集上表现很好,但是在测试集上表现很差,解决方法有,增大数据的训练量;增加正则化项,如l1正则和l2正则;特征选取不合理,人工筛选特征和使用特征选择算法采用dropout方法。
[0050]
实施例4:在模型训练时注意欠拟合问题,欠拟合:就是模型不能够很好地拟合数据,解决方法有,添加其他特征项,增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强,减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。模型应用单元进行在线训练,在线训练完成后把模型pickle持久化。
[0051]
综上,该基于深度学习的自然语言处理系统,在进行学习时,获取语料单元的来源有现存语料库、下载语料库和抓取语料库,其中现存语料库为积累的本地文档,下载语料库为百度语料、新华社语料,重点在于抓取语料库的库源为全网,以全网为抓取语料库,并使用wikiextractor工具,使用python命令,将抓取的语料库分割为指定大小的文件,抓取时间为线性,不用建dom树、与html标签无关,抓取语料高效、准确,可利用全网语料,使本语言处理系统可进行深度的抓取语料并进行模型训练和深度学习,与现有技术相比,具有较强的优异性。
[0052]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0053]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换
和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种基于深度学习的自然语言处理系统,其特征在于,包括获取语料单元、语料预处理单元、特征工程单元、特征选择单元、模型训练单元和模型应用单元;所述获取语料单元用一个文本合集作为语料库,所述获取语料单元的语料来源有现存语料库、下载语料库和抓取语料库,其中抓取语料库的库源为全网;抓取语料时应用wikiextractor工具,wikiextractor把语料库分割为指定大小的文件,文件的格式默认为xml格式,具体格式如下:<docid="xxx"url="xxx"title="xxxx">xxxxx</doc>;每个生成的文件包含若干个词条,生成xml格式的语料,使用以下命令:wikiextractor-oextracted_xml
‑‑
process2-b512k
‑‑
json zhwiki-latest-pages-articles.xml.bz2-o用来指定输出目录,
‑‑
process用来指定使用的进程数目(默认为1),-b选项用来控制单个生成文件的大小(默认为1m,文件越大,包含的词条也越多),最后的参数为要处理的原始压缩语料文件名称,程序运行完成以后,在输出目录下面会生成多个子目录,每个目录下面有生成的文件;["id":"xxx","url":"xxx","title":"xxx","text":"xxxxxx"]text对应词条的真正内容。2.根据权利要求1所述的一种基于深度学习的自然语言处理系统,其特征在于:所述语料预处理单元包括语料清洗模块、分词模块、词性标注模块和去停用词模块,其中语料清洗模块删掉噪音数据,并进行数据清洗,进行人工去重、对齐、删除和标注,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理,其中分词模块将文本分为词语。3.根据权利要求3所述的一种基于深度学习的自然语言处理系统,其特征在于:所述词性标注模块给词语打词类标签,所述取停用词模块去掉对文本特征没有任何贡献作业的字词。4.根据权利要求3所述的一种基于深度学习的自然语言处理系统,其特征在于:所述特征工程单元把分词表示成计算机能够计算的类型,表示模型有词袋模型tf-idf、词向量one-hot、word2vec。5.根据权利要求4所述的一种基于深度学习的自然语言处理系统,其特征在于:所述特征选择单元选择合适的、表达能力强的特征,特征选择方法有df、mi、ig、chi、wllr和wfo。6.根据权利要求5所述的一种基于深度学习的自然语言处理系统,其特征在于:所述模型训练单元包括机器学习模型和深度学习模型,其中深度学习模型包括cnn、rnn、lstm、seq2seq、fasttext。7.根据权利要求1所述的一种基于深度学习的自然语言处理系统,其特征在于:所述模型应用单元进行在线训练,在线训练完成后把模型pickle持久化。

技术总结
本发明公开了一种基于深度学习的自然语言处理系统,包括获取语料单元、语料预处理单元、特征工程单元、特征选择单元、模型训练单元和模型应用单元,所述获取语料单元用一个文本合集作为语料库,所述获取语料单元的语料来源有现存语料库、下载语料库和抓取语料库,其中抓取语料库的库源为全网。本发明的优点在于,重点在于抓取语料库的库源为全网,以全网为抓取语料库,并使用WikiExtractor工具,使用python命令,将抓取的语料库分割为指定大小的文件,抓取时间为线性,不用建DOM树、与HTML标签无关,抓取语料高效、准确,可利用全网语料,使本语言处理系统可进行深度的抓取语料并进行模型训练和深度学习,与现有技术相比,具有较强的优异性。较强的优异性。较强的优异性。


技术研发人员:洪创波
受保护的技术使用者:广东潮庭集团有限公司
技术研发日:2023.03.20
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐