一种检索结果智能推荐方法、装置及统一检索方法与流程
未命名
07-23
阅读:148
评论:0
1.本发明涉及烟草科技文献资源检索领域,尤其是涉及一种检索结果智能推荐方法、装置及统一检索方法。
背景技术:
2.科技文献资源蕴含着大量的信息知识,是重要的知识库。对烟草领域来说,论文、专利成果等科技文献包含了烟草领域85%-90%的科技信息,有效利用这些文献资料中所包含知识信息,可以避免重复研究,挺高工作效率,降低工作成本,同时也可以为开发新产品、新技术提供理论和技术支撑。一直以来,烟草行业都非常重视对科技创新工作的投入,近些年其在科学研究、技术开发和生产经营等活动中,积累了海量的科技文献信息资源,如烟草类科技论文、烟草专利、烟草标准、烟草科技成果等数据,数据量已达到了百万条。烟草科技文献资源的爆发式增长,促使烟草行业对科技信息资源的需求已从单纯的资源获取演变为精准的知识服务需求,这对烟草科技文献平台的资源整合能力、信息检索能力、知识精准定位能力、知识分析能力都提出了极大的挑战。将多种来源、不同结构和数据类型多样化的烟草科技文献资源进行深度融合,并提供统一检索和精准推荐服务,是提高烟草科研人员跨学科、跨领域、跨检索库获取知识资源的重要方法,也是完善文献信息资源共享机制、提高文献类信息服务水平的有效支撑手段。
3.烟草领域是一个跨越多个学科的领域,涵盖生物、化学、农业、工艺等多个学科,从烟草科技文献的数据来源上看,烟草科技文献资源一般可分为自有文献资源库和外购文献资源库两大类,这些烟草科技文献资源往往数量巨大、种类繁多、结构各异,需要大量的人力来配置和维护数据源以给用户提供文献检索服务,成本巨大。此外,由于外购资源由不同的文献数据资源服务商提供,数据资源的数据结构、存储手段、发布机制、检索方式、显示形式等差异巨大,各类烟草科技文献资源无法做到有效的知识融合和精准的知识检索服务。面对数据量巨大、来源广泛且数据结构和组织形式千差万别的烟草科技文献资源,如何对海量多源异构烟草科技文献资源进行深度融合、统一检索和精准知识推荐,实现烟草科技文献资源的有序组织、快速定位和有效揭示,并对检索结果进行统一加载、统一展示和统一分析,帮助用户高效精准地找到检索内容,从而提高烟草科技文献检索的检索效率和精准度,已成为当前烟草科技文献检索领域亟需解决的问题。
4.由于针对烟草领域的各个科技文献数据库供应商不同,服务方式也不同,目前常用的统一检索技术一般是针对特定的数据库类型,面对海量多源异构烟草文献资源,其检索结果的质量和排序效果并不理想,异构数据库的互操作性也很差。现有的烟草文献检索方式通常是基于关键词的方式来进行检索结果匹配,提交给搜索引擎的有限关键词常常不能完整地表达其检索信息需求,且由于人类语言与机器语言的差异,使得搜索引擎在处理用户查询时,通常会丢失语义信息。并且,烟草领域跨越多个学科,涉及的科技文献种类和文献范围特别广泛,而且烟草领域有大量的烟草专有术语以及一些缩写词、合成词等,面对多源异构烟草科技文献资源,采用传统的检索方式,检索效率和性能并不高。此外,采用基
于查询关键词的检索方式,往往通过统计查询关键词在检索文献中出现的频率来对检索结果进行排序,忽略了用户检索意图和语义环境,导致海量多源异构烟草科技文献检索结果的查全率和查准率往往达不到理想的效果。
5.为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
技术实现要素:
6.本发明的目的在于解决上述现有技术存在的缺陷,在对多源异构烟草科技文献检索时,针对检索条件引入一种检索结果智能推荐方法,通过对原查询关键词和查询扩展词的权重计算,不仅可以体现查询关键词的重要程度,更好的完成查询扩展任务,还能对查询扩展词和检索结果进行更深层次的相似度计算,从而提高科技文献的检索性能。
7.本发明还提供一种面向多源异构烟草科技文献资源的统一检索方法,实现海量多源异构烟草科技文献资源的统一检索和智能推荐,从而大幅度提高多源异构烟草科技文献资源检索和结果推荐的精准度,帮助用户快速、精准的找到检索内容。
8.为了实现上述目的,本发明所采用的技术方案是:一种检索结果智能推荐方法,包括以下步骤:s1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;s2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;s3,根据检索结果计算每个查询关键词的综合位置权重值以及值;s4,基于每个查询关键词的综合位置权重值、 值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
9.具体的,s1的具体步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用tf-idf算法提取科技文献语料库的关键词;计算每个关键词的领域特征权重:;其中,为关键词,表示关键词 在科技文献语料库的逆文档频率,表示对数函数。
10.具体的,s2中确定查询语句的查询关键词具体步骤如下:在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词以及其对应的扩展关键词作为查询关键词。
11.更进一步的,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;
基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:
ꢀꢀꢀꢀꢀꢀ
i其中,表示特征权重值,s表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时, 表示基础关键词, 代表基础关键词或扩展关键词与查询语句的相似度;在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;其中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率; 表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。
12.本发明第二方面提供一种检索结果智能推荐装置,包括:关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;计算单元,用于计算每个查询关键词在检索结果中的值;排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
13.本发明第三方面提供一种面向多源异构烟草科技文献资源的统一检索方法,包括以下步骤:步骤1,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器;根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型;根据烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;步骤2,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;步骤3,在统一检索框输入查询语句,经所述统一检索语法转换器转换为预设统一语法后,经过分词和去停用词操作确定查询语句的查询关键词;根据查询关键词从各个烟草科技文献资源库中获取检索结果;步骤4,对检索结果进行结构格式化、内容清洗、数据归一化处理,并基于构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹进行去重和整合操作;以及基于烟草科技文献质量评价模型对检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果;步骤5,根据检索结果计算每个查询关键词的综合位置权重值以及值;步骤6,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计
frequency,词频-逆向文件频率)是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。tf是一个词语在一篇文章中的出现次数,idf是一个词语在所有文档中出现次数的倒数,一个词语在一篇文档中出现次数越多, 同时在所有文档中出现次数越少,越能够代表该文章,所以二者相乘的tf-idf就可以用来衡量一个词在一篇文档中的重要性。tf-idf加权可作为检索结果与用户查询之间相关程度的度量或评级。
27.tf的计算公式如下:其中,代表某一文本中词条出现的次数,代表总词条数。
28.idf的计算公式如下:其中,其中y是语料库的文档总数,是包含词条w的文档数。为了避免词条 未出现在任何文档中从而导致分母为0的情况,需要对公式做一些平滑,对分母加一从而使语料库中没有出现的词也可以得到一个合适的idf值,通过对tf和idf的定义,可以进一步计算某一个词w的tf-idf值:。
29.下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
30.实施例1如图1所示,本实施例提供一种检索结果智能推荐方法,包括以下步骤:s1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;s2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;s3,根据检索结果计算每个查询关键词的综合位置权重值以及值;s4,基于每个查询关键词的综合位置权重值、 值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序;优选的,采用科技文献检索结果评价分析模型,计算检索结果与查询语句的相关度;其中,;式中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率;表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。
31.可以看出,本实施例针对查询语句引入一种基于词向量的检索结果匹配方法,通过对原基础关键词和查询扩展词的综合位置权重值、值、领域特征权值计算,可以体现基础关键词和查询扩展词的重要程度,更好的完成查询扩展任务,从而提高科技文献的检索性能。
32.实施例2本实施例给出一种具体实施例,如图2所示,具体步骤如下:
s1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值,具体步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用tf-idf算法提取科技文献语料库的关键词;计算每个关键词的领域特征权重:;其中, 为关键词,表示查询关键词 在科技文献语料库的逆文档频率,表示对数函数;s2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;其中,确定查询语句的查询关键词具体步骤如下:在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词以及其对应的扩展关键词作为查询关键词;s3,根据检索结果计算每个查询关键词的综合位置权重值以及值;s4,基于科技文献检索结果评价分析模型 ,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序;其中,;式中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率;表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值, 为查询关键词的综合位置权重值。
33.在具体实施中,由于关键词词汇属于人类的语言,而计算机是不能理解人类语言的,为了便于计算机运算,需要将关键词词汇映射到计算机可以理解的维度,即词向量。
34.word2vec是常用的词向量经典模型,其原理是,在一个句子中,一个词的周围若干词和这个词有较强的相关性,而其他词相关性则较差,根据这样的思想,构建神经网络,来对当前词和其上下文词进行模型训练,最终得到词向量。
35.本实施例中同样采用word2vec来获取词向量,具体的,科技文献词向量模型的训练步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用word2vec嵌入模型对科技文献语料库进行训练学习,生成科技文献词向量模型,得到每个关键词的词向量形式。
36.在具体实施中,科技文献关键词扩展库的构建步骤如下:构建科技文献语料库,采用tf-idf算法提取科技文献语料库的文献关键词,并通过同义词、近义词扩展得到关键词扩展库;根据关键词扩展库中的文献关键词,在科学技术叙词表和领域术语表的基础上,结合烟草各领域主题词词库,构建烟草科技关键词词典;利用训练的科技文献词向量模型,在科技文献语料库中采用余弦相似度计算方法
对烟草词汇语义相似度进行计算,构建烟草词汇语义相似度匹配模型;基于烟草词汇语义相似度匹配模型对烟草科技关键词词典的各个烟草词汇进行同义词、近义词扩展,得到烟草科技文献关键词扩展库。
37.可以看出,科技文献词向量模型的训练步骤、科技文献关键词扩展库的构建步骤以及计算每个关键词在科技文献领域的领域特征权值中,均包括构建科技文献语料库,采用tf-idf算法提取科技文献语料库的文献关键词这一步骤,因此,可以先构建科技文献语料库,采用tf-idf算法提取科技文献语料库的文献关键词,然后再同时进行科技文献词向量模型的训练步骤、科技文献关键词扩展库的构建步骤以及计算每个关键词在科技文献领域的领域特征权值。
38.实施例3本实施例与实施例2的区别在于:如图3所示,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:其中, 表示特征权重值,s表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时, 表示基础关键词, 代表基础关键词或扩展关键词与查询语句的相似度;构建科技文献检索结果评价分析模型为: 。
39.本实施例中,在对原基础关键词和查询扩展词的权重计算时,还进一步计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重,从而可以对查询扩展词和检索结果进行更深层次的相似度计算,进一步体现查询词的重要程度,从而提高科技文献的检索性能。
40.实施例4本实施例提供一种检索结果智能推荐装置,包括:关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;计算单元,用于计算每个查询关键词在检索结果中的值;排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
41.在具体实施时,每个关键词在科技文献领域的领域特征权值、确定查询语句的查询关键词、每个查询关键词综合位置权重值和值以及计算检索结果与查询语句的相关度的具体计算步骤均参照前述实施例1-3所述的步骤。
42.实施例5
本实施例提供一种面向多源异构烟草科技文献资源的统一检索方法,如图4所示,包括以下步骤:步骤1,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器;根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型;根据烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;步骤2,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;步骤3,在统一检索框输入查询语句,经所述统一检索语法转换器转换为预设统一语法后,经过分词和去停用词操作确定查询语句的查询关键词;根据查询关键词从各个烟草科技文献资源库中获取检索结果;步骤4,对检索结果进行结构格式化、内容清洗、数据归一化处理,并基于构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹进行去重和整合操作;以及基于烟草科技文献质量评价模型对检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果;步骤5,根据检索结果计算每个查询关键词的综合位置权重值以及值;步骤6,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
43.本实施例中提出的一种面向多源异构烟草科技文献资源的统一检索方法,通过烟草科技文献数据资源去重模型、统一检索语法转换器以及智能推荐算法实现海量多源异构烟草科技文献资源的统一检索和智能推荐,从而大幅度提高多源异构烟草科技文献资源检索和结果推荐的精准度,帮助用户快速、精准的找到检索内容,解决了多源异构烟草科技文献资源冗余和知识难以发现等问题。
44.实施例6本发明提供一种多源异构烟草科技文献资源的统一检索方法的一个具体实施例,具体包括如下步骤:步骤11,首先对外购烟草科技文献资源库所提供接口服务进行健康检查,判断接口服务是否可用,进一步确定可调用的外购烟草科技文献资源库,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器。
45.步骤12,根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型。
46.步骤13,基于烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;步骤21,根据烟草科技文献的特点,构建烟草科技文献语料库,对语料库进行去停用词、分词操作,采用tf-idf算法提取烟草科技文献文本语料库的关键词,并计算所有关键词的idf值。
47.烟草科技文献语料库库中部分关键词的idf值和tf值如下表所示。烟草词汇idf值tf值烟草50.774591317679
烤烟62.135057715697烟叶71.6358474575漂浮育苗155.2436841227主流烟气172.383711105香料烟172.6962831103叶青素266.027972786花叶病324.273764663烟粉虱349.937008554
48.步骤22,结合烟草科技文献的特点和烟草词汇词义特征,采用层次分析法,进一步对步骤21得到的关键词进行领域特征权重计算,计算公式如下:其中, 为关键词,表示关键词在科技文献语料库的逆文档频率,表示对数函数。步骤21中选取的部分关键词在烟草科技文献领域的特征权值,如下表:烟草词汇idf值tf值特征权值烟草50.7745913176790.71烤烟62.1350577156970.79烟叶71.63584745750.86漂浮育苗155.24368412271.19主流烟气172.3837111051.24香料烟172.69628311031.24叶青素266.0279727861.42烟碱324.2737646631.51烟粉虱349.9370085541.54特征权值越高代表该关键词对烟草科技文献领域的重要性越大。例如,“烤烟”、“烟叶”等词汇属于烟草领域常见词汇,虽文档中出现频率很大,但这些词汇相对来说,比较笼统,覆盖范围太广,对检索作用不大,不能够很好的通过该词汇精准的匹配到用户想要的深层次知识。
49.步骤23,采用word2vec嵌入模型对烟草科技文献语料库进行训练学习, 生成烟草文献词向量模型, 获取每个烟草关键词的词向量形式。
50.在具体实施时,word2vec嵌入模型的训练参数分别为最相似词维度topnsize=40, 上下文窗口大小参数window=5, 高频词汇的随机降采样的配置阈值为1e-3,为获取关键词向量采用cbow 算法模型并采用softmax 方法进行优化,生成烟草科技文献词向量模型。
51.步骤24: 根据步骤21提取的烟草科技文献关键词,通过同义词、近义词扩展得到关键词扩展库;步骤25,根据关键词扩展库中的烟草关键词,在现有权威的科学技术叙词表和烟草术语表的基础上,结合烟草各领域主题词词库,构建烟草科技关键词词典。
52.步骤26,利用步骤23构建的烟草科技文献词向量模型,在步骤21构建的烟草科技文献语料库上采用余弦相似度计算的计算方法对烟草词汇语义相似度进行计算,构建烟草
词汇语义相似度匹配模型;步骤27,基于步骤26得到的烟草词汇语义相似度匹配模型,对步骤25构建的烟草关键词词典的各个烟草关键词进行同义词、近义词扩展,得到烟草科技文献关键词扩展库。
53.步骤31,用户在统一检索输入框输入查询语句,例如“烟草中含有多少烟碱”,利用步骤11构建的统一检索语法转换器进行转换,以执行统一的检索语法,并实现查询语句与、或、非等逻辑运算及检索优先级逻辑运算。
54.步骤32,对步骤31经统一检索语法转换器转换后的查询语句进行分词和去停用词操作,将那些不代表概念的词语过滤掉,最后得到的关键词为“烟草”、“烟碱”两个词汇,这两个词汇即为基础关键词。
55.步骤33,针对步骤32切分后的基础关键词“烟草”和“烟碱”,结合步骤27获取的烟草科技文献关键词扩展库,并利用步骤23获取的烟草文献词向量模型,计算并获取与基础关键词“烟草”的相似度最高的三个扩展关键词“烟叶”、“卷烟”、“烤烟”,与基础关键词“烟碱”的相似度最高的三个扩展关键词“尼古丁”、“烟气”、“烟草素”,步骤34, 将步骤33获得的“烟草”和“烟碱”以及扩展后的“烟叶”、“卷烟”、“烤烟”、“尼古丁”、“烟气”、“烟草素”这几个词的词向量进行正则化、归一化处理,获得各个查询关键词的词向量空间模型。
56.步骤35,计算各个基础关键词及扩展关键词在检索式“烟草中含有多少烟碱”中的特征权重,计算公式如下:
ꢀꢀꢀꢀꢀ
(5)其中,s代表查询语句的向量,代表查询关键词和查询扩展词的向量,代表前与查询关键词n个最相似的查询扩展词词项的顺序,i=0代表查询关键词或者查询同义词,代表查询关键词或查询扩展词与查询语句的相似度。
57.步骤35,将步骤33获取的扩展关键词以及步骤32获取的基础关键词作为查询关键词,向各个烟草科技文献资源库发起查询请求,调用自有文献资源检索接口和步骤11中认定可用的外购烟草文献资源检索结接口,将检索结果缓存到缓存服务器中。
58.步骤41, 对步骤35所获取检索结果进行结构格式化、内容清洗、数据归一化处理,并根据烟草科技文献数据资源结构特点,结合步骤12构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹,实现对烟草科技文献检索结果的去重和整合操作。
59.步骤42,基于步骤13构建的烟草科技文献质量评价模型,对步骤42处理后的检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果。
60.步骤51,在步骤42的基础上,采用层次分析法,根据查询关键词在检索结果中出现的位置信息,确定不同位置的相关权重。
61.具体步骤为:确定查询关键词匹配烟草科技文献标题、摘要以及正文的各自权重,例如标题对应的权重为0.8、摘要对应的权重为0.5、正文对应的权重为0.3,根据查询关键词在标题、摘要、正文的出现的次数,进一步的可以得到关键词在不同位置匹配的综合权重值, 的计算公式如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,i表示扩展关键词与基础关键词的相似度顺序,,j为关键词的位置编号,其中标题的编号为1、摘要的编号为2、正文的编号为3,代表基础关键词或扩展关键
词在标题、摘要、正文的出现的次数,代表在基础关键词或扩展关键词 各个位置的权重。
62.步骤52,根据检索结果计算每个查询关键词的值;步骤6,基于每个查询关键词的综合位置权重值、 值以及领域特征权值构建烟草科技文献检索结果评价分析模型,通过计算检索结果与查询语句的相关度,依据通过烟草科技文献检索结果评价分析模型计算的分值大小对检索结果进行排序。
63.其中,烟草科技文献检索结果评价分析模型的计算公式如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中,表示对查询语句分词后的其中一个查询关键词在一条检索结果中出现的频率;表示查询关键词在所有检索结果的逆文档频率;代表查询关键词在烟草科技文献领域的特征权值;代表查询关键词在检索式中的特征权重;代表查询关键词 在不同位置匹配的综合权重值;代表查询语句中所有查询关键词的综合权重。
64.进一步的,可按照查询语句与烟草科技文献的匹配度大小将其列表输出供用户查阅,实现海量多源异构烟草科技文献资源的统一检索和智能推荐,帮助用户快速、精准的找到检索内容。
65.实施例7本实施例还提供一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例1-3任一项所述的检索结果智能推荐方法。
66.最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
技术特征:
1.一种检索结果智能推荐方法,其特征在于,包括以下步骤:s1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;s2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;s3,根据检索结果计算每个查询关键词的综合位置权重值以及值;s4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。2.根据权利要求1所述的一种检索结果智能推荐方法,其特征在于,s1的具体步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用tf-idf算法提取科技文献语料库的关键词;计算每个关键词的领域特征权重:;其中,为关键词,表示关键词在科技文献语料库的逆文档频率,表示对数函数。3.根据权利要求1或2所述的一种检索结果智能推荐方法,其特征在于,s2中确定查询语句的查询关键词具体步骤如下:在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词以及其对应的扩展关键词作为查询关键词。4.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:键词及其对应的扩展关键词在查询语句中的特征权重:i其中,表示特征权重值,s表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时,表示基础关键词,代表基础关键词或扩展关键词与查询语句的相似度;在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;其中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率;
表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。5.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,科技文献词向量模型的训练步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用word2vec嵌入模型对科技文献语料库进行训练学习,生成科技文献词向量模型,得到每个关键词的词向量形式;科技文献关键词扩展库的构建步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用tf-idf算法提取科技文献语料库的文献关键词,并进行同义词、近义词扩展;根据关键词扩展库中的文献关键词,在科学技术叙词表和术语表的基础上,结合领域主题词词库,构建科技关键词词典;利用训练的科技文献词向量模型,在科技文献语料库中采用余弦相似度计算方法进行计算,构建关键词语义相似度匹配模型;基于词汇语义相似度匹配模型对科技关键词词典的各个关键词进行同义词、近义词扩展,得到科技文献关键词扩展库。6.一种检索结果智能推荐装置,其特征在于,包括:关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;计算单元,用于计算每个查询关键词在检索结果中的值;排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。7.一种面向多源异构烟草科技文献资源的统一检索方法,其特征在于,包括以下步骤:步骤1,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器;根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型;根据烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;步骤2,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;步骤3,在统一检索框输入查询语句,经所述统一检索语法转换器转换为预设统一语法,确定查询语句的查询关键词;根据查询关键词从各个烟草科技文献资源库中获取检索结果;步骤4,对检索结果进行结构格式化、内容清洗、数据归一化处理,并基于构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹进行去重和整合操作;以及基于烟草科技文献质量评价模型对检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果;
步骤5,根据检索结果计算每个查询关键词的综合位置权重值以及值;步骤6,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。8.根据权利要求7所述的一种面向多源异构烟草科技文献资源的统一检索方法,其特征在于,步骤3中,查询关键词的获取步骤如下:获得查询语句后,经分词和去停用词操作,得到查询语句的基础关键词;利用训练的烟草科技文献词向量模型,在预先构建的烟草科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:其中,表示特征权重值,s表示查询语句的向量,表示基础关键词或扩展关键词的向量,表示扩展关键词与基础关键词的相似度顺序,i=0时,表示基础关键词,代表基础关键词或扩展关键词与查询语句的相似度;将每个基础关键词以及其对应的扩展关键词作为查询关键词;步骤6中,在基于每个查询关键词的综合位置权重值以及值、以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;其中,表示对查询语句分词后的每个查询关键词在一条检索结果中出现的频率;表示查询关键词在所有检索结果的逆文档频率;表示查询关键词在科技文献领域的领域特征权值,为查询关键词的综合位置权重值。9.根据权利要求8所述的一种面向多源异构烟草科技文献资源的统一检索方法,其特征在于,烟草科技文献词向量模型的训练步骤如下:构建烟草科技文献语料库,对烟草科技文献语料库进行去停用词和分词操作后,采用word2vec嵌入模型对烟草科技文献语料库进行训练学习,生成烟草科技文献词向量模型,得到每个关键词的词向量形式;烟草科技文献关键词扩展库的构建步骤如下:构建烟草科技文献语料库,对烟草科技文献语料库进行去停用词和分词操作后,采用tf-idf算法提取烟草科技文献语料库的烟草关键词,并通过同义词、近义词扩展得到关键词扩展库;根据关键词扩展库中的烟草关键词,在科学技术叙词表和烟草术语表的基础上,结合烟草各领域主题词词库,构建烟草科技关键词词典;利用训练的烟草科技文献词向量模型,在烟草科技文献语料库中采用余弦相似度计算方法进行计算,构建烟草词汇语义相似度匹配模型;
基于烟草词汇语义相似度匹配模型对科技关键词词典的各个关键词进行同义词、近义词扩展,得到烟草科技文献关键词扩展库。10.一种计算机存储介质,其特征在于:所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-5中任一项所述的检索结果智能推荐方法。
技术总结
本发明提供一种检索结果智能推荐方法、装置及统一检索方法,所述检索结果智能推荐方法包括以下步骤:S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;S4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。序。序。
技术研发人员:王永胜 冯伟华 刘亚丽 宗国浩 王迪 王锐 胡斌 贾楠 王金棒
受保护的技术使用者:中国烟草总公司郑州烟草研究院
技术研发日:2023.02.22
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
