一种基于语意理解的专利汇总信息生成方法与系统与流程

未命名 10-09 阅读:144 评论:0


1.本技术涉及专利检索的技术领域,具体涉及一种基于语意理解的专利汇总信息生成方法与系统。


背景技术:

2.随着我国经济的快速发展,各个企业也逐渐加大在科技创新方面的投入。而为了避免研究成果的抄袭,专利成为了十分有效的防护手段。
3.当企业在申报专利的准备阶段时,需要对准备申报的专利方案进行专利检索,从而降低专利方案已被公开的风险。目前,企业在专利检索时,主要通过用户在专利查询网站输入检索词,然后专利查询网站根据输入的检索词匹配出多个相似的对比文件,以帮助用户快速找到最接近的对比文件。
4.在上述专利检索的过程中,用户在确定最接近的对比文件时,往往需要花费大量的时间阅读和理解专利文献,从而导致用户的检索效率较低。


技术实现要素:

5.针对用户在确定最接近的对比文件时,往往需要花费大量的时间阅读和理解专利文献,从而导致用户的检索效率较低的问题,本技术提供一种基于语意理解的专利汇总信息生成方法与系统。
6.第一方面,本技术提供一种基于语意理解的专利汇总信息生成方法,应用于服务器,该方法包括:获取用户输入的专利检索词;将专利检索词与预设专利数据库进行匹配,得到多个对比文件;提取第一对比文件中的多个关键词,第一对比文件为多个对比文件中任意一个;将多个关键词进行专利汇总,生成专利汇总信息,专利汇总信息包括多个信息类别,多个信息类别包括技术问题、技术方案、技术核心以及技术效果;将专利汇总信息展示给用户。
7.通过采用上述技术方案,服务器将专利文献中的关键信息提取出来,再重新进行汇总,即提供技术问题、技术方案、技术核心以及技术效果的简要描述,使用户能够快速了解专利的技术内容和创新点。为用户提供最容易理解的专利汇总信息,减少其阅读和理解专利的难度;并且提高用户专利检索过程中的用户体验和检索效率,帮助用户更准确的筛选和评估专利。
8.第二方面,本技术提供一种基于语意理解的专利汇总信息的生成系统,述系统为服务器,服务器包括获取模块、处理模块以及发送模块,其中:获取模块,用于获取用户输入的专利检索词;处理模块,用于将专利检索词与预设专利数据库进行匹配,得到多个对比文件;提取第一对比文件中的多个关键词,第一对比文件为多个对比文件中任意一个;将多个关键词进行专利汇总,生成专利汇总信息,专利汇总信息包括多个信息类别,多个信息类别包括技术问题、技术方案、技术核心以及技术效果;
发送模块,用于将专利汇总信息展示给用户。
9.可选的,处理模块用于对第一对比文件进行数据清洗,得到多个特征词;计算多个特征词各自对应的权重值;将多个特征词对应的权重值按照从大到小的顺序进行排序,得到权重排序结果;若第一特征词的权重值大于或等于预设排名,则确定第一特征词为关键词,第一特征词为多个特征词中任意一个。
10.通过采用上述技术方案,在提取对比文件中的关键词时,首先通过数据清洗的方式初步筛掉第一对比文件中关联度较低的词,从而得到关联度较高的多个特征词;再对多个特征词进行权重值计算,根据权重值大小做进一步的精筛,得到权重值符合预设标准的特征词,从而提升了关键词提取的准确度。
11.可选的,处理模块用于将第二特征词与第一对比文件进行匹配,得到第二特征词的词频,第二特征词为多个特征词中任意一个;将第二特征词与多个对比文件进行匹配,得到包含第二特征词的文档的第一文档数量;根据第一文档数量与第二文档数量,计算第二特征词的逆文档频率,第二文档数量为多个对比文件的总数量;基于第一特征词的词频与逆文档频率,得到第一特征词的权重。
12.通过采用上述技术方案,对于关键词权重值的计算,通过计算第二特征词在第一对比文件中的词频,从而确定第二关键词在第一对比文件中的重要程度;再通过计算多个对比文件中出现第二特征词的文档数量,从而确定第二特征词在多个对比文件中的重要程度,最后综合第二特征词对两者的整体影响程度,从而提升关键词判断的准确度。
13.可选的,获取模块用于获取第一关键词的识别区域,识别区域包括摘要、权利要求书以及说明书,第一关键词为多个关键词中任意一个;处理模块用于基于第一关键词的识别区域,确定第一关键词对应的信息类别;根据预设的信息类别与信息处理规则之间的对应关系,确定第一关键词的信息处理规则;采用第一关键词的信息处理规则,将第一关键词生成专利汇总信息。
14.通过采用上述技术方案,由于专利文献中每个识别区域内所记载的内容有特定的信息记载格式;此时,根据每个识别区域的特点,预先设定信息处理规则,根据每个识别区域内的内容生成专利汇总信息中各个信息类别的信息,提高了各个信息类别记载信息的准确度。
15.可选的,将专利汇总信息展示给用户,具体还包括:获取模块用于响应于用户对第一信息类别的选取操作,第一信息类别为多个信息类别中任意一个;处理模块用于基于第一信息类别,计算多个对比文件与专利检索词的相似度值;若第一对比文件的相似度值大于或等于第二对比文件的相似度值,则优先展示第一对比文件的专利汇总信息,第二对比文件为多个对比文件中任意一个。
16.通过采用上述技术方案,由于专利汇总信息包含多个信息类别的内容,若用户的检索词大部分归类与某一个信息类别时,则此时根据该信息类别,将专利检索词与多个对比文件进行相似度计算,从而确定优先展示的对比文件,进而帮助用户快速找到需要的专利。
17.可选的,获取模块用于获取第一对比文件中第一信息类别对应的多个关键词;处理模块用于将第一对比文件中第一信息类别对应的多个关键词与专利检索词进行相似度计算,得到第一对比文件的相似度值。
18.通过采用上述技术方案,根据从对比文件筛选出的多个关键词计算检索词与对比文件的相似度,从而便于筛选出与检索词关联度较高的对比文件,并且由于多个关键词已经是对比文件中的关键信息,通过关键信息筛选关联度较高的对比文件更为准确。
19.可选的,优先展示第一对比文件的专利汇总信息,还包括:发送模块用于将第一信息类别对应的专利汇总信息进行展示,且将第二信息类别对应的专利汇总信息进行折叠展示,第二信息类别为多个信息类别中除第一信息类别的任意一个信息类别。
20.通过采用上述技术方案,由于专利汇总信息在展示时有多个信息类别需要展示,此时需要占用较多的阅读空间;此时,将用户需要的信息类别对应的专利汇总信息进行展示,而其他信息类别的专利汇总信息进行折叠展示,从而降低了阅读空间,为用户提供了较好的阅读体验。
21.第三方面,本技术提供一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如第一方面中任意一项所述的方法。
22.综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:1、服务器将专利文献中的关键信息提取出来,再重新进行汇总,即提供技术问题、技术方案、技术核心以及技术效果的简要描述,使用户能够快速了解专利的技术内容和创新点。为用户提供最容易理解的专利汇总信息,减少其阅读和理解专利的难度;并且提高用户专利检索过程中的用户体验和检索效率,帮助用户更准确的筛选和评估专利2、由于专利文献中每个识别区域内所记载的内容有特定的信息记载格式;此时,根据每个识别区域的特点,预先设定信息处理规则,根据每个识别区域内的内容生成专利汇总信息中各个信息类别的信息,提高了各个信息类别记载信息的准确度
附图说明
图1是本技术实施例提供的一种基于语意理解的专利汇总信息生成方法的流程示意图。
23.图2是本技术实施例提供的一种基于语意理解的专利汇总信息生成系统的结构示意图。
24.图3是本技术实施例提供的一种电子设备的结构示意图。
25.附图标记说明:1、获取模块;2、处理模块;3、发送模块;300、电子设备;301、处理器;302、通信总线;303、用户接口;304、网络接口;305、存储器。
具体实施方式
26.为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
27.在本技术实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解
释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
28.在本技术实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
29.随着我国经济的快速发展,各个企业也具有了更多在科技创新上的投入资金。企业为了保护所研发的科技成果,往往会通过申请专利对科技成果进行保护。企业在申请专利时,为了增加专利的授权率,在申请专利之前需要进行专利的查新检索。目前,主要的检索手段是通过用户在专利查询网站输入检索词,然后专利查询网站根据输入的检索词匹配出多个相似度较高的对比文件,用户通过阅读这些对比文件,从而找到与企业申报专利最接近的专利文献。
30.然而,在这个过程中,用户往往需要花费大量的时间阅读理解专利文献,从而导致用户检索效率较低。并且所检索出的对比文件是将专利文献的摘要与技术领域等信息完整的显示出来,而这部分内容往往是采用专利的特有语言进行描述,从而导致非专业人士对专利文献的阅读难度较大,降低了用户体验。
31.为了解决上述问题,本技术提供一种基于语意理解的专利汇总信息生成方法,该方法应用服务器,服务器在本技术中可以理解为提供专利检索服务的专利查询网站,如图1所示,该方法包括步骤s101至步骤s105。
32.s101、获取用户输入的专利检索词。
33.在上述步骤中,专利检索词为用户根准备申请的专利申报材料总结的关键词,专利检索词包括但不限于专利检索式,还可以为段落或语句。
34.在具体实施过程中,用户根据自己的专利查询网站账号登录专利查询网站,然后手动在专利检索栏中输入专利检索词或专利检索语句。服务器此时通过读取专利检索栏的内容获取用户输入的专利检索词。
35.s102、将专利检索词与预设专利数据库进行匹配,得到多个对比文件。
36.在上述步骤中,预设专利数据库收录了国内以及国外的已经申报登记的所有专利。服务器在将专利检索词与预设专利数据库进行匹配时,通过计算专利检索词与预设专利数据库的相似度,从而得到相似度高于预设阈值的专利文献,即得到多个相似度较高的对比文件。其中,专利检索词与预设专利数据库之间的相似度计算为本领域技术人员的常规技术手段,例如,可采用余弦相似度计算或者汉明距离相似度计算,本技术不再过多赘述。
37.s103、提取第一对比文件中的多个关键词,第一对比文件为多个对比文件中任意一个。
38.在上述步骤中,对于匹配出的多个对比文件,对于非专业人士来说,阅读难度较大。因此,在从专利数据库返回多个对比文件的过程中,本技术对匹配出的多个对比文件进行关键词提取,从而得到对比文件的关键信息。以第一对比文件为例,第一对比文件为多个
对比文件中任意一个;专利检索网站对第一对比文件进行数据清洗,得到多个特征词;数据清洗可以可以理解为将第一对比文件中的数据进行预处理,以去除数据中的噪声、异常值、重复值以及缺失值等,在本技术中,数据清洗包括去除特殊字符、处理缩略词、处理翻译文本、去除重复信息以及处理分词问题。其中,对于去除特殊字符,由于专利文本中可能包含一些特殊字符,例如标点符号、数字、空格等,需要将其去除或替换为合适的字符,以保证数据的准确性和完整性。对于处理缩略词,由于专利文本中可能包含一些缩写词,例如“ai”、“ml”等,需要将其转换为全称,以便于后续的数据分析处理。对于处理翻译文本,如果专利文本是翻译文本,需要将其转换为原文,以保证数据的准确性和完整性;对于去除重复信息,由于专利文本中可能包含一些重复的信息,例如同一专利的多个版本,需要将其去除,以避免数据分析时出现偏差。对于处理分词问题,由于专利文本中可能存在分词问题,例如一个词被分割成了多个部分,需要将其合并为一个完整的词,以保证数据的准确性和完整性。
39.在对第一对比文件进行数据清洗后,此时得到多个特征词,但多个特征词中可能仍存在关联度较低的特征词。为了提高关键信息的提取准确度,本技术通过计算多个特征词各自对应的权重值,以此来确定特征词在对比文件中的重要程度。针对特征词的权重计算方式可采用如下方式:以第二特征词为例,第二特征词为第一对比文件中多个特征词任意一个。首先将第二特征词与第一对比文件进行匹配,得到第二特征词的词频,词频可以理解为第二特征词在对第一对比文件中出现的次数,此时,词频可反映第二特征在第一对比文件中的重要程度。然后,将第二特征词再与多个对比文件进行匹配,得到包含第二特征词的文档的第一文档数量,例如,100篇对比文件中,有50篇对比文件出现了第二特征词,则第一文档数量为50。然后,将多个对比文件的总数量计为第二文档数量,根据第一文档数量与第二文档数量,计算第二特征词的逆文档频率,此时,逆文档频率可反映第二特征词在所有对比文件中的重要程度。逆文档频率计算方式具体为:t=log(第二文档数量/第一文档数量),以上述例子为例,100篇对比文件中,有50篇出现了第二特征词,则逆文档频率为log(100/50)=0.3。最后,将第二特征词的词频与第二特征词的逆文档频率相乘,得到第二特征词的权重。
40.采用上述特征词的权重计算方式得到第一对比文件多个特征词的权重后,为了筛选出影响程度较高的特征词,将多个特征词的权重值按照从大到小的顺序进行排序,得到权重排序结果;此时,通过预设排名,从而实现筛选的效果。若第一特征词的排名大于预设排名,则可以确定第一特征词为关键词。
41.s104、将多个关键词进行专利汇总,生成专利汇总信息,专利汇总信息包括多个信息类别,多个信息类别包括技术问题、技术方案、技术核心以及技术效果。
42.在上述步骤中,由于专利文献包括多个特征部分,例如,摘要、权利要求书、说明书以及说明书附图,而各个部分有各自的撰写逻辑,因此,对于非专业人士来说,经常会出现看不懂专利的情况。为了解决这个问题,在本技术的实施例中,可将整个专利文案分为4个信息类别,即技术问题、技术方案、技术核心以及技术效果,每个信息类别均有各自的识别区域。识别区域可以理解为专利文献的各个特征部分。在服务器提取关键词时,还会获取所提取关键词的识别区域。以第一关键词为例,第一关键词为第一对比文件多个关键词中任意一个。然后基于第一关键词的识别区域,确定第一关键词对应的信息类别。举例来说,若
第一关键词从权利要求书中提取,则识别区域为权利要求书。根据权利要求书,可得第一关键词对应的信息类别为技术方案,需进行说明的是,专利文案的各个特征部分与信息类别存在预先构建的对应关系,该对应关系包括1个特征部分对应至少一个信息类别。然后,根据预设的信息类别与预设信息处理规则之间对应关系,确定第一关键词的信息处理规则。最后,采用第一关键词的信息处理规则,将第一关键词生成专利汇总信息。信息处理规则可以理解第一关键词的语意排序规则以及第一关键词与其他关键词之间的平滑处理规则。举例来说,若第一关键词为“图像”,其余关键词为“卷积神经网络”、“特征提取”、“识别”以及“分类”。在进行技术核心的专利信息汇总时,可以得到“本技术使用卷积神经网络对图像进行特征提取与分类,从而实现对图像识别”;其中,语意排序规则为“卷积神经网络”、“图像”、“特征提取”、“分类”、“识别”。平滑处理为各个关键词之间的连接词。需要进行解释的是,语意排序规则以及平滑处理规则均为本领域技术人员常规技术手段,例如,可采用神经网络模型对语意排序以及关键词之间平滑处理进行模型训练实现。各个特征部分对于关键词的信息处理规则不同之处在于不同的特征部分需要根据其撰写逻辑进行不同的信息处理规则,例如,在进行技术核心的专利信息汇总时,需要根据预设的语意排序规则以及平滑处理规则进行处理,以确保信息的准确描述;而对于技术问题的专利信息汇总,则只需要根据语意排序规则进行处理即可。
43.s105、将专利汇总信息展示给用户。
44.在上述步骤中,由于专利汇总信息包含多个信息类别的内容,若用户需输入的专利检索词大部分归类于某一个信息类别时,则用户可选择优先展示该信息类别对应的对比文件。以第一信息类别为例,第一信息类别为多个信息类别中任意一个。当用户在专利查询网站上对第一信息类别进行选取后,服务器响应用户对第一信息类别的选取操作,然后,获取多个对比文件各自关于第一信息类别的内容,将多个对比文件各自关于第一信息类别的内容逐一与专利检索词进行相似度值计算。此时,相似度值反映了关联程度,相似度值越高关联程度越高、相似度值越低关联程度越低。若第一对比文件的相似度值大于或等于第二对比文件的相似度值,则确定第一对比文件的展示优先级大于第二对比文件;此时,根据相似度值重新对多个对比文件进展示顺序的排序。其中,第二对比文件为根据专利检索词检索出的多个对比文件中任意一个。需进行说明的是,在进行相似度值计算,首先删除第一信息类别中经过语意排序规则以及平滑处理规则增加或删除的词语,然后获取剩余的多个关键词,最后将多个关键词与专利检索词进行相似度计算,此时得到的相似度值降低了信息处理过程中非关键信息对计算结果造成影响,非关键信息可以理解为为了满足用户阅读体验而自动生成的字符,例如、词语、符号、数字以及字母等。
45.在一种可能的实施方式中,为了便于用户快速查找与检索内容相似度最高的对比文件,在显示对比文件的内容时,优先显示用户自行选择的第一信息类别的内容。即将第一信息类别对应的专利汇总信息优先进行展示,且将其余信息类别对比的专利汇总信息进行折叠展示。若用户需查看折叠部分内容,用户可选择对折叠的内容进行单独展开还是全展开。其中,单独展开为仅对某个对比文件的第一信息类别的内容进行展开,全展开为对所有对比文件的第一信息类别的内容进行展开。
46.本技术还提供一种基于语意理解的专利汇总信息生成方法,该系统为服务器,如图2所示,服务器包括获取模块1、处理模块2以及发送模块3,其中:
获取模块1,用于获取用户输入的专利检索词;处理模块2,用于将专利检索词与预设专利数据库进行匹配,得到多个对比文件;提取第一对比文件中的多个关键词,第一对比文件为多个对比文件中任意一个;将多个关键词进行专利汇总,生成专利汇总信息,专利汇总信息包括多个信息类别,多个信息类别包括技术问题、技术方案、技术核心以及技术效果;发送模块3,用于将专利汇总信息展示给用户。
47.在一种可能的实施方式中,处理模块2用于对所述第一对比文件进行数据清洗,得到多个特征词;计算多个特征词各自对应的权重值;将多个特征词对应的权重值按照从大到小的顺序进行排序,得到权重排序结果;若第一特征词的权重值大于或等于预设排名,则确定所述第一特征词为关键词,所述第一特征词为多个所述特征词中任意一个。
48.在一种可能的实施方式中,处理模块2用于将第二特征词与所述第一对比文件进行匹配,得到所述第二特征词的词频,所述第二特征词为多个所述特征词中任意一个;将所述第二特征词与多个所述对比文件进行匹配,得到包含所述第二特征词的文档的第一文档数量;根据所述第一文档数量与第二文档数量,计算所述第二特征词的逆文档频率,所述第二文档数量为多个所述对比文件的总数量;基于所述第一特征词的词频与所述逆文档频率,得到所述第一特征词的权重。
49.在一种可能的实施方式中,获取模块1用于获取第一关键词的识别区域,所述识别区域包括摘要、权利要求书以及说明书,所述第一关键词为多个所述关键词中任意一个;处理模块2用于基于所述第一关键词的识别区域,确定所述第一关键词对应的信息类别;根据预设的信息类别与信息处理规则之间的对应关系,确定所述第一关键词的信息处理规则;采用所述第一关键词的信息处理规则,将所述第一关键词生成专利汇总信息。
50.在一种可能的实施方式中,将所述专利汇总信息展示给所述用户,具体还包括:获取模块1用于响应于用户对第一信息类别的选取操作,所述第一信息类别为多个信息类别中任意一个;处理模块2用于基于所述第一信息类别,计算多个所述对比文件与所述专利检索词的相似度值;若第一对比文件的相似度值大于或等于所述第二对比文件的相似度值,则优先展示所述第一对比文件的专利汇总信息,所述第二对比文件为多个所述对比文件中任意一个。
51.在一种可能的实施方式中,获取模块1用于获取所述第一对比文件中所述第一信息类别对应的多个关键词;处理模块2用于将所述第一对比文件中所述第一信息类别对应的多个关键词与所述专利检索词进行相似度计算,得到所述第一对比文件的相似度值。
52.在一种可能的实施方式中,所述优先展示所述第一对比文件的专利汇总信息,还包括:发送模块3用于将所述第一信息类别对应的专利汇总信息进行展示,且将所述第二信息类别对应的专利汇总信息进行折叠展示,所述第二信息类别为多个信息类别中除所述第一信息类别的任意一个信息类别。
53.需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
54.本技术还公开一种电子设备。参照图3,图3是本技术实施例的公开的一种电子设备的结构示意图。该电子设备300可以包括:至少一个处理器301,至少一个网络接口304,用户接口303,存储器305,至少一个通信总线302。
55.其中,通信总线302用于实现这些组件之间的连接通信。
56.其中,用户接口303可以包括显示屏(display)、摄像头(camera),可选用户接口303还可以包括标准的有线接口、无线接口。
57.其中,网络接口304可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
58.其中,处理器301可以包括一个或者多个处理核心。处理器301利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器305内的指令、程序、代码集或指令集,以及调用存储在存储器305内的数据,执行服务器的各种功能和处理数据。可选的,处理器301可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器301可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器301中,单独通过一块芯片进行实现。
59.其中,存储器305可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。可选的,该存储器305包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器305可用于存储指令、程序、代码、代码集或指令集。存储器305可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器305可选的还可以是至少一个位于远离前述处理器301的存储装置。参照图3,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及一种基于语意理解的专利汇总信息生成方法的应用程序。
60.在图3所示的电子设备300中,用户接口303主要用于为用户提供输入的接口,获取用户输入的数据;而处理器301可以用于调用存储器305中存储一种基于语意理解的专利汇总信息生成方法的应用程序,当由一个或多个处理器301执行时,使得电子设备300执行如上述实施例中一个或多个所述的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必需的。
61.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
62.在本技术所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以
集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
63.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
64.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
65.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储器包括:u盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
66.以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
67.本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

技术特征:
1.一种基于语意理解的专利汇总信息生成方法,其特征在于,应用于服务器,所述方法包括:获取用户输入的专利检索词;将所述专利检索词与预设专利数据库进行匹配,得到多个对比文件;提取第一对比文件中的多个关键词,所述第一对比文件为多个所述对比文件中任意一个;将多个所述关键词进行专利汇总,生成专利汇总信息,所述专利汇总信息包括多个信息类别,多个所述信息类别包括技术问题、技术方案、技术核心以及技术效果;将所述专利汇总信息展示给所述用户。2.根据权利要求1所述的方法,其特征在于,所述提取第一对比文件中的多个关键词,具体为:对所述第一对比文件进行数据清洗,得到多个特征词;计算多个特征词各自对应的权重值;将多个特征词对应的权重值按照从大到小的顺序进行排序,得到权重排序结果;若第一特征词的权重值大于或等于预设排名,则确定所述第一特征词为关键词,所述第一特征词为多个所述特征词中任意一个。3.根据权利要求2所述的方法,其特征在于,所述计算多个特征词各自对应的权重值,具体为:将第二特征词与所述第一对比文件进行匹配,得到所述第二特征词的词频,所述第二特征词为多个所述特征词中任意一个;将所述第二特征词与多个所述对比文件进行匹配,得到包含所述第二特征词的文档的第一文档数量;根据所述第一文档数量与第二文档数量,计算所述第二特征词的逆文档频率,所述第二文档数量为多个所述对比文件的总数量;基于所述第一特征词的词频与所述逆文档频率,得到所述第一特征词的权重。4.根据权利要求1所述的方法,其特征在于,所述将多个所述关键词进行专利汇总,生成专利汇总信息,具体为:获取第一关键词的识别区域,所述识别区域包括摘要、权利要求书以及说明书,所述第一关键词为多个所述关键词中任意一个;基于所述第一关键词的识别区域,确定所述第一关键词对应的信息类别;根据预设的信息类别与信息处理规则之间的对应关系,确定所述第一关键词的信息处理规则;采用所述第一关键词的信息处理规则,将所述第一关键词生成专利汇总信息。5.根据权利要求1所述的方法,其特征在于,将所述专利汇总信息展示给所述用户,具体还包括:响应于所述用户对第一信息类别的选取操作,所述第一信息类别为多个所述信息类别中任意一个;基于所述第一信息类别,计算多个所述对比文件与所述专利检索词的相似度值;若所述第一对比文件的相似度值大于或等于第二对比文件的相似度值,则优先展示所
述第一对比文件的专利汇总信息,所述第二对比文件为多个所述对比文件中任意一个。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一信息类别,计算多个所述对比文件与所述专利检索词的相似度值,具体为:获取所述第一对比文件中所述第一信息类别对应的多个关键词;将所述第一对比文件中所述第一信息类别对应的多个关键词与所述专利检索词进行相似度计算,得到所述第一对比文件的相似度值。7.根据权利要求5所述的方法,其特征在于,所述优先展示所述第一对比文件的专利汇总信息,还包括:将所述第一信息类别对应的专利汇总信息进行展示,且将所述第二信息类别对应的专利汇总信息进行折叠展示,所述第二信息类别为多个信息类别中除所述第一信息类别的任意一个信息类别。8.一种基于语意理解的专利汇总信息生成系统,其特征在于,所述系统为服务器,所述服务器包括获取模块、处理模块以及发送模块,其中:所述获取模块,用于获取用户输入的专利检索词;所述处理模块,用于将所述专利检索词与预设专利数据库进行匹配,得到多个对比文件;提取第一对比文件中的多个关键词,所述第一对比文件为多个所述对比文件中任意一个;将多个所述关键词进行专利汇总,生成专利汇总信息,所述专利汇总信息包括多个信息类别,多个所述信息类别包括技术问题、技术方案、技术核心以及技术效果;所述发送模块,用于将所述专利汇总信息展示给所述用户。9.一种电子设备,其特征在于,包括处理器(301)、存储器(305)、用户接口(303)及网络接口(304),所述存储器(305)用于存储指令,所述用户接口(303)和网络接口(304)用于给其他设备通信,所述处理器(301)用于执行所述存储器(305)中存储的指令,以使所述电子设备(300)执行如权利要求1至7任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1至7任意一项所述的方法。

技术总结
一种基于语意理解的专利汇总信息生成方法,涉及专利检索的领域。该方法应用服务器,该方法包括:获取用户输入的专利检索词;将专利检索词与预设专利数据库进行匹配,得到多个对比文件;提取第一对比文件中的多个关键词,第一对比文件为多个对比文件中任意一个;将多个关键词进行专利汇总,生成专利汇总信息,专利汇总信息包括多个信息类别,多个信息类别包括技术问题、技术方案、技术核心以及技术效果;将专利汇总信息展示给用户。实施本申请提供的技术方案,为用户提供最容易理解的专利汇总信息,减少其阅读和理解专利的难度。减少其阅读和理解专利的难度。减少其阅读和理解专利的难度。


技术研发人员:李建雨 张敏 蔡青山 左小雷
受保护的技术使用者:企知道科技有限公司
技术研发日:2023.07.17
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐