一种技术专利数据的关键信息分析系统
未命名
10-09
阅读:128
评论:0
1.本发明涉及专利分析技术领域,尤其涉及一种技术专利数据的关键信息分析系统。
背景技术:
2.专利,从字面上是指专有的权利和利益,专利意为公开的信件或公共文献,专利在现代一般是由政府机关或者代表若干国家的区域性组织,根据申请而颁发的一种文件,这种文件记载了发明创造的内容,并且在一定时期内产生这样一种法律状态,即获得专利的发明创造在一般情况下他人只有经专利权人许可才能予以实施,专利以技术专利数据的形式存在。
3.在企业对一批专利数据的查阅和寻找中,需要阅览大量的信息,而一篇专利数据的字数一般较多,理解时,需要很多的时间进行分析,在多个专利中寻找目标专利,则需要依次阅读理解,花费大量的时间,而且一些专利内容冗杂繁多,在大批量阅读理解时,难以理解完全,影响后续针对该专利的开发应用,因此,本发明提出一种技术专利数据的关键信息分析系统以解决现有技术中存在的问题。
技术实现要素:
4.针对上述问题,本发明提出一种技术专利数据的关键信息分析系统,该技术专利数据的关键信息分析系统通过将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,查阅人从短数据报表中即可快速连接每个专利的关键信息,节省理解时间,便于筛选。
5.为实现本发明的目的,本发明通过以下技术方案实现:一种技术专利数据的关键信息分析系统,包括采集储存层、分析层和应用层,所述采集储存层包括采集模块和储存模块,所述分析层包括文字转换提取模块、关键词基准库、提取模块、比重值分析模块、总结归纳模块和分类模块。
6.所述采集模块用于采集所有格式的技术专利数据,所述储存模块用于储存数据技术专利数据,所述文字转换提取模块用于将所有格式的技术专利数据转换为专利文字数据,所述关键词基准库包括所有与专利数据核心关键内容相关、相似的词语,所述提取模块用于以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,所述总结归纳模块用于将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,所述比重分析模块用于计算每个关键词在相应专利文字数据中的出现频率,生成专利技术的侧重点,同步总结至短数据报表中,所述分类模块用于将多个专利文字数据分析出的短数据进行分类排版。
7.进一步改进在于:所述采集模块用于接收和传输xml、文本、pdf、图像和其他任何格式的文件,并且融合了big data技术,采用分布式快速交换技术进行信息传输。
8.进一步改进在于:所述储存模块包括储存库和检索模块,所述储存库用于储存采
集模块采集的所有数据,并打上时间戳,所述检索模块提供检索功能,用于根据时间戳在储存库中检索技术专利数据。
9.进一步改进在于:所述文字转换提取模块包括文字提取模块和图片转换模块,所述文字提取模块用于提取所有文档格式的技术专利数据的文字,并转化为可编辑的文字文档,所述图片转换模块通过cnn获取图像的视觉特征,通过rnn获取图像的序列特征,通过分类器ctc或解码器attention获取文字序列信息,基于opencv提取出图片中的文档,接着转化为可编辑的文字文档。
10.进一步改进在于:所述关键词基准库包括背景技术基准库、有益效果基准库、工作原理基准库和领域基准库,所述背景技术基准库包括如下关键词:“背景”、“现有技术”、“缺点”、“差”以及与上述关键词相似、相近的词语,所述有益效果基准库包括如下关键词:“效果”、“效率”、“优秀”、“完善”、“推广”、“好”以及与上述关键词相似、相近的词语,所述工作原理基准库包括如下关键词:“通过”、“驱动”、“使用”以及与上述关键词相似、相近的词语,所述领域基准库包括如下关键词:“技术”、“领域”。
11.进一步改进在于:所述提取模块包括关键词扫描识别模块和上下文采集模块,所述关键词扫描识别模块基于关键词基准库,基于对比神经元技术对专利文字数据进行扫描,标记出专利文字数据中的关键词,所述上下文采集模块用于根据关键词的标记,摘取属于该关键词上下文的1-3条语句,集成摘取集合。
12.进一步改进在于:所述总结归纳模块包括语义分析模块、除重模块和报表生成模块,所述语义分析模块用于接入摘取集合,通过dinfo-oec非结构化模型结合自然语言处理nlp技术分析摘取集合中语句的语义,分析出每个语句所代表的专利技术的领域、优点、技术手段,所述除重模块用于根据分析的语义,删除重复的句子,保留至少一句代表领域、优点、技术手段的句子,所述报表生成模块用于将除重保留后的句子组合成代表相应技术专利的短数据,并将多个技术专利的短数据分隔集成到一张报表上。
13.进一步改进在于:所述比重分析模块基于tf-idf统计文档检索算法,评估摘取集合中每个关键词出现的频率,从而判断该关键词对于该技术专利的重要程度,以此将该关键词作为专利技术侧重点的代表词,归纳到相应技术专利的短数据中。
14.进一步改进在于:所述分类模块包括归类系统和绑定系统,所述归类系统识别报表中多个技术专利的短数据,并接入dinfo-oec非结构化模型结合自然语言处理nlp技术分析语义,基于领域将不同技术专利的短数据进行归类,在相同领域下,再基于技术方向将不同技术专利的短数据进行归类,以此归类在报表上进行排版,所述绑定系统将每条短数据与该技术专利的原始数据进行绑定,提供原始数据查询功能。
15.进一步改进在于:所述应用层包括显示模块和安全模块,所述显示模块用于将总结归纳模块生成的报表在人机交互面板上进行显示,所述安全模块用于采用用户访问授权、用户访问检测、用户控制授权、数据导出授权、反向控制授权和数据控制加密的手段对系统整体进行加密验证。
16.本发明的有益效果为:
17.1、本发明采集技术专利数据后,以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,通过将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,查阅人从短数据报表中即可快速连
接每个专利的关键信息,节省理解时间,便于筛选。
18.2、本发明基于背景技术基准库、有益效果基准库、工作原理基准库和领域基准库的关键词对专利数据进行扫描识别和上下文采集,摘取关键语句,集成摘取集合,通过dinfo-oec非结构化模型结合自然语言处理nlp技术分析摘取集合中语句的语义,分析出每个语句所代表的专利技术的领域、优点、技术手段,由此,使得生成短数据报表可以精确代表专利数据的关键信息,便于理解,为后续针对该专利的开发应用提供便利。
19.3、本发明通过比重分析模块评估摘取集合中每个关键词出现的频率,从而判断该关键词对于该技术专利的重要程度,以此将该关键词作为专利技术侧重点的代表词,在专利有多个技术点的时候,判断处侧重的技术点,功能多样化。
20.4、本发明通过分类模块基于领域将不同技术专利的短数据归类,在相同领域下基于技术方向将不同技术专利的短数据进行归类,以此排版,为查阅提供便利,并将每条短数据与该技术专利的原始数据进行绑定,方便原始数据的快速获取,提高效率。
附图说明
21.图1为本发明的组成图。
具体实施方式
22.为了加深对本发明的理解,下面将结合实施例对本发明做进一步详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
23.实施例一
24.根据图1所示,本实施例提出了一种技术专利数据的关键信息分析系统,包括采集储存层、分析层和应用层,所述采集储存层包括采集模块和储存模块,所述分析层包括文字转换提取模块、关键词基准库、提取模块、比重值分析模块、总结归纳模块和分类模块。
25.所述采集模块用于采集所有格式的技术专利数据,所述储存模块用于储存数据技术专利数据,所述文字转换提取模块用于将所有格式的技术专利数据转换为专利文字数据,所述关键词基准库包括所有与专利数据核心关键内容相关、相似的词语,所述提取模块用于以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,所述总结归纳模块用于将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,所述比重分析模块用于计算每个关键词在相应专利文字数据中的出现频率,生成专利技术的侧重点,同步总结至短数据报表中,所述分类模块用于将多个专利文字数据分析出的短数据进行分类排版。本发明采集技术专利数据后,以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,通过将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,查阅人从短数据报表中即可快速连接每个专利的关键信息,节省理解时间,便于筛选。
26.所述采集模块用于接收和传输xml、文本、pdf、图像和其他任何格式的文件,并且融合了big data技术,采用分布式快速交换技术进行信息传输。便于获取并利用多种格式的文件,更加方便。
27.所述储存模块包括储存库和检索模块,所述储存库用于储存采集模块采集的所有
数据,并打上时间戳,所述检索模块提供检索功能,用于根据时间戳在储存库中检索技术专利数据。好处是可以根据时间检索,方便查阅。
28.所述文字转换提取模块包括文字提取模块和图片转换模块,所述文字提取模块用于提取所有文档格式的技术专利数据的文字,并转化为可编辑的文字文档,所述图片转换模块通过cnn获取图像的视觉特征,通过rnn获取图像的序列特征,通过分类器ctc或解码器attention获取文字序列信息,基于opencv提取出图片中的文档,接着转化为可编辑的文字文档。
29.opencv配合text扩展模块进行文字识别,opencv基于极值区域文本定位与识别、并添加了卷积神经网络实现文字检测,双重检测识别,使得提取图片中的文档更加精准。
30.所述关键词基准库包括背景技术基准库、有益效果基准库、工作原理基准库和领域基准库,所述背景技术基准库包括如下关键词:“背景”、“现有技术”、“缺点”、“差”以及与上述关键词相似、相近的词语,所述有益效果基准库包括如下关键词:“效果”、“效率”、“优秀”、“完善”、“推广”、“好”以及与上述关键词相似、相近的词语,所述工作原理基准库包括如下关键词:“通过”、“驱动”、“使用”以及与上述关键词相似、相近的词语,所述领域基准库包括如下关键词:“技术”、“领域”。囊括了背景技术、有益效果、工作原理和领域,代表了专利的关键技术信息。
31.所述提取模块包括关键词扫描识别模块和上下文采集模块,所述关键词扫描识别模块基于关键词基准库,基于对比神经元技术对专利文字数据进行扫描,标记出专利文字数据中的关键词,所述上下文采集模块用于根据关键词的标记,摘取属于该关键词上下文的1-3条语句,集成摘取集合。比对时,采用yoyo神经元网络,基于tensorflow和pytorch平台以卷积神经网络为基本框架进行交叉比对验证,快速判断比对结果,标记出专利文字数据中的关键词。
32.所述总结归纳模块包括语义分析模块、除重模块和报表生成模块,所述语义分析模块接入摘取集合,通过dinfo-oec非结构化模型结合自然语言处理nlp技术分析摘取集合中语句的语义,分析出每个语句所代表的专利技术的领域、优点、技术手段,所述除重模块用于根据分析的语义,删除重复的句子,保留至少一句代表领域、优点、技术手段的句子,所述报表生成模块用于将除重保留后的句子组合成代表相应技术专利的短数据,并将多个技术专利的短数据分隔集成到一张报表上。本发明基于背景技术基准库、有益效果基准库、工作原理基准库和领域基准库的关键词对专利数据进行扫描识别和上下文采集,摘取关键语句,集成摘取集合,通过dinfo-oec非结构化模型结合自然语言处理nlp技术分析摘取集合中语句的语义,分析出每个语句所代表的专利技术的领域、优点、技术手段,由此,使得生成短数据报表可以精确代表专利数据的关键信息,便于理解,为后续针对该专利的开发应用提供便利。
33.自然语言处理(natural language processing,nlp)技术是与自然语言的计算机处理有关的所有技术的统称,其目的是使计算机能够理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能,dinfo-oec平台支持三位一体的多维度业务建模能力,结合自然语言处理、深度学习等统计文本挖掘算法,基于平台立体式的业务模型的智能语义感知技术,提供对非结构化大数据智能理解与自动化处理能力,实现文本知识的多维度的业务标签标记功能,将无序的非结构化信息转换为满足业务需求的结构化数
据,dinfo-oec平台支持与主流hadoop、spark等大数据平台实现对接,利用hadoop平台提供的分布式存储和map/reduce分布式计算能力,实现复杂、批量的大数据分析挖掘,利用spark、kafka等提供的实时分布式计算能力,提供海量数据的实时分析计算能力,融合主流的搜索引擎技术,支持基于海量历史数据的交互式搜索功能,dinfo-oec平台支持与常用的智能系统进行融合,实现结构化数据和非结构化数据的融合分析挖掘,最大化的挖掘大数据的语义价值。
34.所述比重分析模块基于tf-idf统计文档检索算法,评估摘取集合中每个关键词出现的频率,从而判断该关键词对于该技术专利的重要程度,以此将该关键词作为专利技术侧重点的代表词,归纳到相应技术专利的短数据中。本发明通过比重分析模块评估摘取集合中每个关键词出现的频率,从而判断该关键词对于该技术专利的重要程度,以此将该关键词作为专利技术侧重点的代表词,在专利有多个技术点的时候,判断处侧重的技术点,功能多样化。
35.tf-idf是一种用于信息检索与数据挖掘的加权技术,tf是词频,idf是逆文本频率指数,用以评估一字词对于一个文件集的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
36.所述分类模块包括归类系统和绑定系统,所述归类系统识别报表中多个技术专利的短数据,并接入dinfo-oec非结构化模型结合自然语言处理nlp技术分析语义,基于领域将不同技术专利的短数据进行归类,在相同领域下,再基于技术方向将不同技术专利的短数据进行归类,以此归类在报表上进行排版,所述绑定系统将每条短数据与该技术专利的原始数据进行绑定,提供原始数据查询功能。本发明通过分类模块基于领域将不同技术专利的短数据归类,在相同领域下基于技术方向将不同技术专利的短数据进行归类,以此排版,为查阅提供便利,并将每条短数据与该技术专利的原始数据进行绑定,方便原始数据的快速获取,提高效率。
37.实施例二
38.根据图1所示,本实施例提出了一种技术专利数据的关键信息分析系统,包括采集储存层、分析层和应用层,所述采集储存层包括采集模块和储存模块,所述分析层包括文字转换提取模块、关键词基准库、提取模块、比重值分析模块、总结归纳模块和分类模块。
39.所述采集模块用于采集所有格式的技术专利数据,所述储存模块用于储存数据技术专利数据,所述文字转换提取模块用于将所有格式的技术专利数据转换为专利文字数据,所述关键词基准库包括所有与专利数据核心关键内容相关、相似的词语,所述提取模块用于以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,所述总结归纳模块用于将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,所述比重分析模块用于计算每个关键词在相应专利文字数据中的出现频率,生成专利技术的侧重点,同步总结至短数据报表中,所述分类模块用于将多个专利文字数据分析出的短数据进行分类排版。本发明采集技术专利数据后,以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,通过将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,查阅人从短数据报表中即可快速连接每个专利的关键信息,节省理解时间,便于筛选。
40.所述应用层包括显示模块和安全模块,所述显示模块用于将总结归纳模块生成的报表在人机交互面板上进行显示,所述安全模块采用用户访问授权、用户访问检测、用户控制授权、数据导出授权、反向控制授权和数据控制加密的手段对整体系统进行加密验证。本发明将总结归纳模块生成的报表在人机交互面板上进行显示,便于人机操作和查阅,设定用户访问授权、用户访问检测、用户控制授权、数据导出授权、反向控制授权和数据控制加密的手段,提高专利数据的安全性,避免被未授权的人盗用。
41.该技术专利数据的关键信息分析系统采集技术专利数据后,以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,通过将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,查阅人从短数据报表中即可快速连接每个专利的关键信息,节省理解时间,便于筛选。且本发明基于背景技术基准库、有益效果基准库、工作原理基准库和领域基准库的关键词对专利数据进行扫描识别和上下文采集,摘取关键语句,集成摘取集合,通过dinfo-oec非结构化模型结合自然语言处理nlp技术分析摘取集合中语句的语义,分析出每个语句所代表的专利技术的领域、优点、技术手段,由此,使得生成短数据报表可以精确代表专利数据的关键信息,便于理解,为后续针对该专利的开发应用提供便利。同时,本发明通过比重分析模块评估摘取集合中每个关键词出现的频率,从而判断该关键词对于该技术专利的重要程度,以此将该关键词作为专利技术侧重点的代表词,在专利有多个技术点的时候,判断处侧重的技术点,功能多样化。另外,本发明通过分类模块基于领域将不同技术专利的短数据归类,在相同领域下基于技术方向将不同技术专利的短数据进行归类,以此排版,为查阅提供便利,并将每条短数据与该技术专利的原始数据进行绑定,方便原始数据的快速获取,提高效率。
42.以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
技术特征:
1.一种技术专利数据的关键信息分析系统,包括采集储存层、分析层和应用层,其特征在于:所述采集储存层包括采集模块和储存模块,所述分析层包括文字转换提取模块、关键词基准库、提取模块、比重值分析模块、总结归纳模块和分类模块;所述采集模块用于采集所有格式的技术专利数据,所述储存模块用于储存数据技术专利数据,所述文字转换提取模块用于将所有格式的技术专利数据转换为专利文字数据,所述关键词基准库包括所有与专利数据核心关键内容相关、相似的词语,所述提取模块用于以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,所述总结归纳模块用于将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,所述比重分析模块用于计算每个关键词在相应专利文字数据中的出现频率,生成专利技术的侧重点,同步总结至短数据报表中,所述分类模块用于将多个专利文字数据分析出的短数据进行分类排版。2.根据权利要求1所述的一种技术专利数据的关键信息分析系统,其特征在于:所述采集模块用于接收和传输xml、文本、pdf、图像和其他任何格式的文件,并且融合了bigdata技术,采用分布式快速交换技术进行信息传输。3.根据权利要求2所述的一种技术专利数据的关键信息分析系统,其特征在于:所述储存模块包括储存库和检索模块,所述储存库用于储存采集模块采集的所有数据,并打上时间戳,所述检索模块提供检索功能,用于根据时间戳在储存库中检索技术专利数据。4.根据权利要求3所述的一种技术专利数据的关键信息分析系统,其特征在于:所述文字转换提取模块包括文字提取模块和图片转换模块,所述文字提取模块用于提取所有文档格式的技术专利数据的文字,并转化为可编辑的文字文档,所述图片转换模块通过cnn获取图像的视觉特征,通过rnn获取图像的序列特征,通过分类器ctc或解码器attention获取文字序列信息,基于opencv提取出图片中的文档,接着转化为可编辑的文字文档。5.根据权利要求4所述的一种技术专利数据的关键信息分析系统,其特征在于:所述关键词基准库包括背景技术基准库、有益效果基准库、工作原理基准库和领域基准库,所述背景技术基准库包括如下关键词:“背景”、“现有技术”、“缺点”、“差”以及与上述关键词相似、相近的词语,所述有益效果基准库包括如下关键词:“效果”、“效率”、“优秀”、“完善”、“推广”、“好”以及与上述关键词相似、相近的词语,所述工作原理基准库包括如下关键词:“通过”、“驱动”、“使用”以及与上述关键词相似、相近的词语,所述领域基准库包括如下关键词:“技术”、“领域”。6.根据权利要求5所述的一种技术专利数据的关键信息分析系统,其特征在于:所述提取模块包括关键词扫描识别模块和上下文采集模块,所述关键词扫描识别模块基于关键词基准库,基于对比神经元技术对专利文字数据进行扫描,标记出专利文字数据中的关键词,所述上下文采集模块用于根据关键词的标记,摘取属于该关键词上下文的1-3条语句,集成摘取集合。7.根据权利要求6所述的一种技术专利数据的关键信息分析系统,其特征在于:所述总结归纳模块包括语义分析模块、除重模块和报表生成模块,所述语义分析模块用于接入摘取集合,通过dinfo-oec非结构化模型结合自然语言处理nlp技术分析摘取集合中语句的语义,分析出每个语句所代表的专利技术的领域、优点、技术手段,所述除重模块用于根据分析的语义,删除重复的句子,保留至少一句代表领域、优点、技术手段的句子,所述报表生成
模块用于将除重保留后的句子组合成代表相应技术专利的短数据,并将多个技术专利的短数据分隔集成到一张报表上。8.根据权利要求7所述的一种技术专利数据的关键信息分析系统,其特征在于:所述比重分析模块基于tf-idf统计文档检索算法,评估摘取集合中每个关键词出现的频率,从而判断该关键词对于该技术专利的重要程度,以此将该关键词作为专利技术侧重点的代表词,归纳到相应技术专利的短数据中。9.根据权利要求8所述的一种技术专利数据的关键信息分析系统,其特征在于:所述分类模块包括归类系统和绑定系统,所述归类系统识别报表中多个技术专利的短数据,并接入dinfo-oec非结构化模型结合自然语言处理nlp技术分析语义,基于领域将不同技术专利的短数据进行归类,在相同领域下,再基于技术方向将不同技术专利的短数据进行归类,以此归类在报表上进行排版,所述绑定系统将每条短数据与该技术专利的原始数据进行绑定,提供原始数据查询功能。10.根据权利要求1-9中任意一项所述的一种技术专利数据的关键信息分析系统,其特征在于:所述应用层包括显示模块和安全模块,所述显示模块用于将总结归纳模块生成的报表在人机交互面板上进行显示,所述安全模块采用用户访问授权、用户访问检测、用户控制授权、数据导出授权、反向控制授权和数据控制加密的手段对系统整体进行加密验证。
技术总结
本发明提供了一种技术专利数据的关键信息分析系统,涉及专利分析技术领域,包括采集储存层、分析层和应用层,所述采集储存层包括采集模块和储存模块,所述分析层包括文字转换提取模块、关键词基准库、提取模块、比重值分析模块、总结归纳模块和分类模块;所述采集模块用于采集所有格式的技术专利数据,所述储存模块用于储存数据技术专利数据;本发明采集技术专利数据后,以关键词基准库作为基准,提取专利文字数据中相关、相似的关键词以及其上下文,通过将提取的关键词及其上下文总结为代表专利技术的领域、优点、技术手段的文字,并归纳成短数据报表,查阅人从短数据报表中即可快速连接每个专利的关键信息,节省理解时间,便于筛选。筛选。筛选。
技术研发人员:李少华 刘锟 吕玉正 张晓岚 李晓鹏 杨帆 马悦
受保护的技术使用者:中国人民解放军军事科学院国防工程研究院
技术研发日:2023.06.09
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
