基于半监督学习的提问式垂直领域文献检索方法及系统

未命名 09-22 阅读:154 评论:0


1.本发明涉及文献检索技术领域,尤其涉及一种基于半监督学习的提问式垂直领域文献检索方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.随着社会的不断发展,为应对日趋复杂的社会和经济环境,新兴技术领域的机遇和挑战及社会分配的公平性问题,政策作为稳定发展的行政抓手,其发布量呈爆发性增长,逐年积累的政策类文献也愈加丰富。随之为方便用户使用,涌现出大量从不同层面和角度对政策文献进行汇总分析的政策库平台,如面向高校及科研机构用户的北大法宝、北大法意、万方法律等,面向企业及个人用户的国脉政策、白鹿智库、开普云智能政策库等。然而无论面向何种用户群体的政策平台,如何在海量同类政策文献中快速检索获取知识点,始终是学界和业界共通的基础关注点。
4.然而当前文献检索研究大多着眼于科技文献的检索,而专门针对垂直领域相应政策文献检索的研究甚少。根植于科技文献与政策文献的组织结构、题录信息和检索目的不同,决定了适用于科技文献检索的算法并不能有效地适用于政策文献的检索。究其根源,人们对科技文献检索,其初衷通常源自于对特定领域知识的追求,一般会使用知识点作为关键词进行检索,进而获取对知识点进行解释或论证的整篇文献。而政策检索的初衷,通常源自于想要了解特定领域问题的答案。这决定了其检索方式不同于科技文献的检索。在面对领域内海量政策文献时,不同受众对政策快速切入通常是基于问题的。如人们对医疗改革政策的关注更多是想要了解改革措施,对双创政策的关注更多是弄明白启动条件和奖励政策。对此人们一般会以问题作为关键词进行检索,而期望结果则是检索问题关键词所对应的答案而不是包含检索关键词本身的文本。因此根据关键词理解用户问题,从某个固定的垂直领域政策文献中检索问题答案返回给用户是提问式检索的核心,也是政策文献检索研究所应关注的重点。
5.当前文献检索研究一般可分为两类,基于关键词的检索和基于问答的检索。前者通过在题录数据中为用户匹配检索式关键词的方式返回结果,在关键词匹配过程中,即可从语法角度入手采用词汇比对的方式返回精准匹配结果,也可从语义角度入手加入同义词、近义词等各类词典或知识图谱返回联想检索结果。基于关键词检索方法将符合检索条件的结果以文献列表的形式返回给用户,一直是文献检索的主要方式,普遍应用于web ofscience、ebsco、proquest、知网、万方、维普等国内外知名文献库的检索中。
6.近年来随着大规模网络模型研究的突破,特别是微软将问答系统chatgpt融合到bing检索中,谷歌、meta、百度等it界公司也相继提出将lamda、llama、ernie等大规模网络模型融合到搜索引擎的预案,引发学术界对基于问答式的文献检索研究的广泛兴趣。基于问答的检索方法采用机器学习方法为用户提问检索答案,可分为基于知识库方法和基于深
度学习方法。其中基于知识库方法,在训练过程中主动学习并抽取提问和答案中的模式对存入知识库。在检索中,则根据提问中的模式,通过推理的方法检索搜索知识库返回结果。而基于深度学习方法依据自然语言处理任务的不同,以及模型对上下文编码的单双向不同,又可分为阅读理解式问答检索方法和生成式问答检索方法。其中阅读理解式问答检索方法着眼于自然语言理解有着更强的上下文语境关联性,采用双向编码构建模型,如bert模型及roberta、albert、xlnet等变种模型。在模型训练过程中,加入了前后句和遮蔽词的训练,问答时则使用训练好的模型依据前句(提问)推测后句(答案),或根据提问填写遮蔽词(答案)。而生成式问答检索方法着重于语言生成忽略下文只利用上文语境,采用单向编码构建模型,如gpt、elmo、ulmfit等模型。其通过海量文档学习训练模型,问答时则使用训练好的模型依据概率为提问推测合理的后续词汇(答案)。
7.然而在垂直领域或行业内,当前无论是基于关键词还是基于问答的文献检索方法,在检索国家、省、市、区等不同行政级别,或财政、科技、人事等不同部门出台的政策文献集合时,并不能较好的满足用户需求。人们在政策检索时,因答案未知通常检索词仅涵盖问题关键词并不包含答案关键词,所以期望检索系统给出的结果是则问题答案,而非包含检索词本身的提问文本,即答案内容中并不包含检索关键词,因此很难被作为检索结果返回。显然基于关键词的文献检索方法并不适合于提问式的政策检索。
8.问答式的文献检索方法中,基于模式匹配问答检索方法通常使用机器学习算法自动抽取词汇、短语或元组作为模式,学习模式间联系的强弱训练模型;阅读理解式问答检索方法通常使用词汇填空的方式训练模型。这两类问答检索更适合于回答知识性或事实性问题,其返回结果通常是描述知识点或事实的词汇或短语。生成式问答检索虽然在模型训练过程依赖于政策文献,但回答问题时却是完全“脱稿”,因此无法保证结果的真实性。总的来说,基于模式匹配和阅读理解式模型虽是在政策文献中找答案可以做到有据可循,但返回答案通常仅是短语,并不能给出全部答案或给出的结果并不是提问的答案。而生成式模型的“脱稿”答案脱离政策文献,给出的答案可能并不可信。在垂直领域政策文献检索中,如何根据有限的查询词汇寻求可靠的问题答案成为亟待解决的问题。


技术实现要素:

9.针对现有技术存在的不足,本发明的目的是提供一种基于半监督学习的提问式垂直领域文献检索方法及系统,通过采用半监督学习框架,将检索问题转化为基于半监督学习的分类问题,实现了垂直领域政策文献的高效可靠检索。
10.为了实现上述目的,本发明是通过如下的技术方案来实现:
11.本发明第一方面提供了一种基于半监督学习的提问式垂直领域文献检索方法,包括以下步骤:
12.获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集;
13.根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;其中,利用标注的数据进行模型训练的具体步骤为:根据预设阈值抽取标注数据的文本特征;采用支持向量机算法对文本特征进行训练,得到初始分类模型;
14.利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;具体步骤为:使用初始分类模型对无标注样本数据集中每篇政策文献的每个句子进行
分类预测;计算同篇政策文献标注为两相邻句子间的句子数,若句子数小于设定阈值,则为这些句子打上伪标签;统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃;如果伪标签句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签句子标注为与所提问问题答案相同的标签,继续训练;
15.根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。
16.进一步的,所述无标注集中的政策数量远大于训练集中的政策数量。
17.进一步的,采用人工标注的方式根据提问内容对训练集中的数据进行标注,若句子为所提问问题的答案则标注1,否则标注0。
18.进一步的,查询问题的答案在文档中位置集中,且为前后邻接的句子群。
19.进一步的,根据预设阈值抽取标注数据的文本特征的具体步骤为:
20.遍历文档中的句子,根据标注数据的标注内容对文档中的句子进行分词,将该文档中标签为1的词汇分到集合ansdoci中,否则分到集合remdoci中;
21.计算ansdoci和remdoci中词汇的tf-idf值;
22.将阈值大于0.01的词作为答案/非答案的特征值存入答案特征集合;
23.使用svm二分类方法训练答案特征集合获取初始模型。
24.更进一步的,利用标注的数据进行模型训练过程中,若为单一提问,则利用支持向量机采用二分类方法对文本特征进行训练;若为多个提问,则利用支持向量机采用多分类方法对文本特征进行训练。
25.进一步的,统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃的具体步骤为:
26.如果两个句子被标注为1,且根据句子位置标注,两个句子距离较近,则先为此类句子标注伪标签;其中,使用句子间隔距离衡量两个句子的距离,如果句子间隔距离不大于threshold1则认为两个句子较近;
27.使用句子群衡量答案句子群中的句子数量,如果标注为1或伪标签的句子及其邻接句子所组成的句子群不大于threshold2,则被认定是离群点,将其设置为0舍弃。
28.本发明第二方面提供了一种基于半监督学习的提问式垂直领域文献检索系统,包括:
29.数据获取模块,被配置为获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集;
30.初始训练模块,被配置为根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;其中,利用标注的数据进行模型训练的具体步骤为:根据预设阈值抽取标注数据的文本特征;采用支持向量机算法对文本特征进行训练,得到初始分类模型;
31.半监督学习模块,被配置为利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;具体步骤为:使用初始分类模型对无标注样本数据集中每篇政策文献的每个句子进行分类预测;计算同篇政策文献标注为两相邻句子间的句子数,若句子数小于设定阈值,则为这些句子打上伪标签;统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃;如果伪标签句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签句子标注为与所提问问题答案相同的标签,继
续训练;
32.文献检索模块,被配置为根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。
33.本发明第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于半监督学习的提问式垂直领域文献检索方法中的步骤。
34.本发明第四方面提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于半监督学习的提问式垂直领域文献检索方法中的步骤。
35.以上一个或多个技术方案存在以下有益效果:
36.本发明公开了一种基于半监督学习的提问式垂直领域文献检索方法及系统,根据提问检索式中的关键词标注少量检索结果样本用以训练模型。为应对检索问题多样性和不确定性而导致的标注数据匮乏及人工标注成本昂贵,加入大量无类别标注数据强化模型训练增强检索功能和泛化能力。
37.本发明将检索问题转化为分类问题,通过少量标注数据为答案的检索提供基础性启示信息,然后通过大量无标注数据对模型的优化迭代对启示信息进行补充和纠偏,进而获取查询答案的全部特征信息,最终通过分类的方法获取检索结果。克服了政策文献的题录数据远少于科技文献,传统检索式加文本相似度的检索方法很难帮助用户快速定位到检索答案的缺陷,解决了如何根据有限的查询词汇寻求可靠问题答案的问题。
38.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
39.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
40.图1为本发明实施例一中半监督政策文献分类模型训练原理图。
具体实施方式
41.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
42.应当说明的是,本发明实施例中,涉及到政策文档等相关的数据,当本发明以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
43.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
44.术语解释:
45.垂直领域:互联网行业术语,指的是为限定群体提供特定服务,包括娱乐、医疗、环
保、教育、体育等产业。
46.实施例一:
47.本发明实施例一提供了一种基于半监督学习的提问式垂直领域文献检索方法,包括以下步骤:
48.步骤1,获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集。
49.步骤2,根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型。
50.步骤3,利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型。
51.步骤4,根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。
52.步骤1中,将同类政策文档组成的数据集合dataset分为训练集labeled-set={document
l0
,document
l1
,...,document
lm
}、无标注集unlabeled-set={document
u0
,document
u1
,...,document
un
}和测试集testing-set={document
t0
,document
t1
,...,document
tk
},其中无标注集中的政策数量远大于训练集中的政策数量,也即n>>m。本实施例中,设查询问题的答案在文档中位置集中,且为前后邻接的句子群。本实施例中,同类政策指的是领域的同类,比如将所有课题申报通知收集起来组成数据集dataset。
53.步骤2中,采用人工标注的方式根据提问内容对训练集中的数据进行标注,若句子为所提问问题的答案则标注1,否则标注0。
54.在一种具体的实施方式中,人工根据用户提问queryi,使用标签label
i0
=0和label
i1
=1对训练集labeled-set中每个文档document
lm
(其中m=0,1,...,m)的每个句子进行标注,若句子(其中j=1,2,...,|document
lm
|)是queryi的答案则标注否则标注
55.在人工标注基础上,使用训练集labeled-set训练初始分类模型,再使用半监督方法利用unlabeled-set强化初始分类模型训练,选举出优化分类模型。基于提问queryi在测试集testing-set政策文献中检索答案,转变为使用优化分类模型对测试集testing-set政策文献中的句子进行分类预测,为queryi找出分类标记为label
i1
的句子问题。
56.在一种具体的实施方式中,基于半监督架构的政策文献分类模型分两个阶段训练模型,如图1所示,阶段一:首先使用现有分类方法classification
x
,如决策树、knn、svm、贝叶斯或深度学习等,为人工标注的小样本数据集labeled-set训练一个初始分类模型model
α

57.其中,利用标注的数据进行模型训练的具体步骤为:
58.(1)根据预设阈值抽取标注数据的文本特征。
59.(2)采用支持向量机算法对文本特征进行训练,得到初始分类模型。
60.面对海量文本,阶段一人工为queryi标注的小样本只是所有可能答案的部分结果,也即根据标注样本所抽取的文本特征是queryi答案特征全集的子集,通过分类方法classification
x
对进行训练,可得到一个涵盖问题答案部分特征的初始分类模型。
61.针对用户单一提问queryi的初始分类模型训练采用算法1,算法1采用tf-idf方法
抽取文本特征,分类方法classification
x
选用二分类svm(support vector machine,支持向量机)算法。
62.具体的,算法1的具体内容为:
63.遍历文档中的句子,根据标注数据的标注内容对文档中的句子进行分词,将该文档中标签为1的词汇分到集合ansdoci中,否则分到集合remdoci中。
64.计算ansdoci和remdoci中词汇的tf-idf值。tf-idf用于衡量词汇的权重,用以评估词对于一个文件集或一个语料库中的其中一份文件的重要程度。
65.将阈值大于0.01的词作为答案/非答案的特征值存入答案特征集合featureset
α

66.使用svm二分类方法训练featureset
α
获取初始模型model
α
。本实施例中,阈值根据经验或者实验设定,也可根据实际情况进行调整。
67.针对用户同时提出q个查询queryi,算法1在遍历文档document
lm
时,则先将不同queryi答案的分词结果放入相应ansdoci中;然后去除所有queryi答案,将剩余文本分词结果放入remdoc中;计算{ansdoc0,ansdoc1,

,ansdocq,remdoc}中词汇的tf-idf值,抽取阈值大于0.01的词汇作为特征值存入最后使用svm多分类方法训练获取多分类初始模型model
α

68.步骤3中,采用算法2进行阶段二半监督训练过程,即是通过海量无标注样本不断地迭代模型,促使抽取特征逐步逼近答案特征全集的过程,即以期选出能够涵盖问题所有答案的分类模型model
opt

69.其中,算法2利用无标注集采用半监督的方法对初始分类模型进行训练的具体步骤为:
70.使用当前分类模型model
opt
对无标注样本数据集unlabeled-set中每篇政策文献document
un
的每个句子进行分类预测,为打上标签label
i0
或label
i1
。在初始步骤中,model
opt
为初始分类模型,即model
opt
=model
α

71.计算同篇政策文献标注为label
i1
两相邻句子间的句子数,若句子数小于设定阈值threshold1,则为这些句子打上伪标签pseudo-label
i1
;统计伪标签pseudo-label
i1
句子数量,并对伪标签pseudo-label
i1
句子进行离群点判断,对离群点进行舍弃;
72.如果伪标签pseudo-label
i1
句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签pseudo-label
i1
句子标注为与所提问问题答案相同的标签,即标注为label
i1
继续训练。
73.基于半监督架构政策文献两阶段分类模型训练是在标注样本提供启发信息的基础上,通过未标注样本学习,不断被接受和舍弃答案文本特征的演进过程,使得抽取答案文本特征逐渐逼近答案全集的过程。这个过程也即是伪标签句子数不断缩小的过程,因此半监督学习评估损失的优化目标函数可以表示为最小化伪标签句子数量,如公式(1)所示:
74.loss=min|pseudo-label
i1
|
ꢀꢀꢀꢀꢀꢀꢀ
(1)。
75.其中,loss为损失函数。
76.因政策文献格式多样,海量未标注样本中可能存在部分不满足半监督学习基本假设的样本,为避免此类样本对训练过程造成负面影响,使用unlabeled-set构造10份训练集,每个训练集均是从unlabeled-set集合中随机抽取1/3的文档。然后同时对10份训练集
进行训练,从中选举出最优分类模型进入下一轮迭代。
77.算法2在迭代过程中,每次均重新构造10份训练样本,且对10份样本的损失loss进行评估,选择最优的特征集合和模型进入下一轮迭代。针对其中的任一份训练样本,算法2首先使用初始分类模型model
α
对无标记样本进行预测,使用label
i0
或label
i1
标注预测结果,并为可能的答案标注伪标签pseudo-label
i1
。然后抽取标签label
i1
和伪标签pseudo-label
i1
文本特征,通过迭代训练检测新模型是否能降低损失loss,如果降低则接受上一迭代过程的特征及模型,否则舍弃。通过多次模型迭代,使得featureset
opt
特征集合涵盖问题的所有答案,并使得模型model
opt
正确预测涵盖答案的句子群。
78.根据方案假设,如果两个句子被标注为1,且根据句子位置position标注,两个句子距离较近,则两个句子间的句子是答案的概率较大,据此先为此类句子标注伪标签pseudo-label
i1
,在算法2中使用dist衡量两个句子的距离,如果dist不大于threshold1则认为两个句子较近,根据经验我们在实验中将阈值threshold1设置为2。其中,句子位置position是指文档中句子序列的序号。句子间隔距离dist是指两个句子位置position之差,也即两个句子间所包含的句子数量。
79.分类模型在预测过程中可能会将包含某些特征的离群点句子标注为答案,被错误标识的离群点句子通常独立出现,且与其他答案句子距离间隔较远。在算法2中使用blocksize衡量答案句子群中的句子数量,如果标注为label
i1
或pseudo-label
i1
的句子及其邻接句子所组成的句子群blocksize不大于threshold2,则被认定是离群点将其设置为label
i0
舍弃,根据经验在实验中将阈值threshold2设置为1。
80.针对用户同时提出q个查询queryi,与算法1相似,算法2先将不同queryi答案放入相应答案集合中。在去除所有queryi答案之后,将剩余文本分词结果放入剩余文本集合中。同时在调用算法1过程中也将使用svm多分类方法训练模型。
81.步骤4中,最终基于半监督框架的政策文献检索将根据用户提问queryi,使用分类模型model
opt
对testing-set测试集中句子进行分类预测,将标记为label
i1
的句子作为检索结果返回给用户。
82.为实验基于半监督框架的提问式政策文献检索方法的效果,本实施例从北大法宝数据库中搜集了“课题申请通知”和“企业奖励政策”两组规范政策文件,使用两类文件作为数据集dataset进行测试。每个dataset包含800个文件,分别为训练集labeled-set、无标注集unlabeled-set和测试集testing-set分配20、600、180个文件。
83.通过总结用户对两类文件的兴趣点,分别为两类文件了整理5、3个查询问题,如表1所示。
84.表1两类政策文献查询问题
[0085] 课题申请企业奖励query1申报条件申报条件query2限项规定申报材料query3研究方向奖励内容query4申报材料 query5联系方式 [0086]
根据两类文件各自的查询问题queryi,采用人工为labeled-set和testing-set数
据集进行标注。其中labeled-set数据集的标注将用于初始分类模型model
α
的训练。而testing-set数据集的标注将用于对最终分类模型model
opt
的评测。
[0087]
实验采用精确率p、召回率r和f1值三个指标评测效果。其中p用于度量检索结果中查询queryi的真实答案所占比例,采用公式(2)计算。
[0088][0089]
r用于度量查询queryi的答案中有多少被正确检索到,采用公式(3)计算。
[0090][0091]
f1值对准确率和召回率综合评定,是准确率和召回率的加权调和平均,该值越大效果越好,采用公式(4)计算。
[0092][0093]
其中,tp表示查询queryi的答案中被检索到的答案数量,fp表示检索结果被错判为查询queryi答案的数量,fn表示查询queryi的答案中未被检索到的答案数量。
[0094]
为分析基于半监督框架提问式政策文献检索方法的效果,本实施例将其与短文本bm25算法的检索结果进行对比。bm25算法是一种基于概率检索模型提出的计算查询queryi与文档document相似度算法,是信息检索领域的经典算法,也是目前大多数搜索引擎相似度计算的基础。原始bm25算法更适合于查询queryi与整篇文档相似度计算,而提问式检索仅需返回文档中的部分句子作为查询queryi的答案,显然句子的长度要远小于文档的长度。因此,为适应查询queryi与文档中句子短文本相似度计算,实验中对bm25算法中的协调参数k1和b进行调整,分别设置为2和0.75,然后依据课题申请和企业奖励两类政策文献的不同查询queryi对testing-set测试集进行检索。表2、3的前三列分别给出bm25算法测试两类文件结果的平均准确率p、召回率r和f1值。
[0095]
在基于半监督框架提问式政策文献检索方法中,实验在两类文件不同查询queryi基础上,在算法1和算法2中采用svm多分类方法,使用labeled-set数据集训练初始分类模型model
α
,然后利用unlabeled-set无标注集通过迭代优化模型获得最终分类模型model
opt
,最后应用model
opt
对testing-set测试集进行分类,将标注为label
i1
的句子作为检索结果。表2、3的后三列分别给出半监督方法测试两类文件结果的平均准确率p、召回率r和f1值。
[0096]
表2基于bm25算法和基于半监督方法的课题申请通知检索结果对比
[0097][0098]
表3基于bm25算法和基于半监督方法的企业奖励政策检索结果对比
[0099][0100]
由表2和表3的实验结果可以看出,相较于传统基于查询词相似度的检索方法,基于半监督框架的提问式政策文献检索方法能够显著提高查询queryi答案的检索质量,其检索结果的准确率p、召回率r均有显著提高,就整体而言其f1值均有至少40%以上的提升。
[0101]
通过人工查看bm25算法的检索结果可知,其给出的答案均是包含查询queryi问题自身词汇的句子,而并非问题的答案,因此公式(1)和公式(2)中被检索到的正确答案数量tp值也都不会很大,致使准确率p和召回率r均不高。
[0102]
通过人工查看基于半监督框架的提问式政策文献检索方法的检索结果,可以得到如下结论:
[0103]
首先,在算法中通过抽取人工标注答案特征的方式,可以扩展与查询queryi答案相关的关键词,达到重写查询query的目的,从而检索到queryi的答案而非仅包含queryi自身词汇的句子,这将大大增加公式(1)和公式(2)中被检索到的正确答案数量tp值,从而提高准确率p和召回率r。
[0104]
其次,人工对比初始分类模型model
α
和最终分类模型model
opt
训练过程中所生成的两个答案特征集合featureset
α
和featureset
opt
可以发现,通过对unlabeled-set数据集中大量数据的半监督迭代可以自动对答案特征进行有效扩展和纠偏。因人工标注量有限从labeled-set数据集抽取答案特征集合featureset
α
时只能涵盖查询答案的部分特征,而在为unlabeled-set标注伪标签过程时可以逐步扩展到未标注答案,从而补齐答案特征。此外
随着数据量的增大,特征抽取方法中的idf指数可以抽取出所有答案的通用特征起到纠偏作用,这在查询queryi是诸如研究方向、奖励内容等,其答案涉及较宽泛内容时尤为重要。如在课题申请通知中query3=“研究方向”,在抽取labeled-set数据集的答案特征集合featureset
α
时会掺杂“水圈微生物”、“物质代谢”等仅在个别申请通知中tf值特别大的相关特征,随着unlabeled-set数据集对模型的迭代,这些特征将会在答案特征集合featureset
opt
中被抛弃,只保留对所有答案均有意义的特征词汇。
[0105]
再次,虽然方法在答案特征集合迭代过程中可以起到补全和纠偏的效果,但随着文献长度增加,仍会检索到并非答案的结果。通过观察算法2中标签被修改为label
i0
的句子可以发现,计算句子群大小并去除阈值小于threshold2的句子,确实可以去掉部分非查询queryi答案的结果,起到过滤异常点的作用,在一定程度上提高了检索质量。
[0106]
实施例二:
[0107]
本发明实施例二提供了一种基于半监督学习的提问式垂直领域文献检索系统,包括:
[0108]
数据获取模块,被配置为获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集;
[0109]
初始训练模块,被配置为根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;其中,利用标注的数据进行模型训练的具体步骤为:根据预设阈值抽取标注数据的文本特征;采用支持向量机算法对文本特征进行训练,得到初始分类模型;
[0110]
半监督学习模块,被配置为利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;具体步骤为:使用初始分类模型对无标注样本数据集中每篇政策文献的每个句子进行分类预测;计算同篇政策文献标注为两相邻句子间的句子数,若句子数小于设定阈值,则为这些句子打上伪标签;统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃;如果伪标签句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签句子标注为与所提问问题答案相同的标签,继续训练;
[0111]
文献检索模块,被配置为根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。
[0112]
实施例三:
[0113]
本发明实施例三提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本发明实施例一所述的一种基于半监督学习的提问式垂直领域文献检索方法中的步骤。
[0114]
实施例四:
[0115]
本发明实施例四提供了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例一所述的一种基于半监督学习的提问式垂直领域文献检索方法中的步骤。
[0116]
以上实施例二、三和四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0117]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0118]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征:
1.一种基于半监督学习的提问式垂直领域文献检索方法,其特征在于,包括以下步骤:获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集;根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;其中,利用标注的数据进行模型训练的具体步骤为:根据预设阈值抽取标注数据的文本特征;采用支持向量机算法对文本特征进行训练,得到初始分类模型;利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;具体步骤为:使用初始分类模型对无标注样本数据集中每篇政策文献的每个句子进行分类预测;计算同篇政策文献标注为两相邻句子间的句子数,若句子数小于设定阈值,则为这些句子打上伪标签;统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃;如果伪标签句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签句子标注为与所提问问题答案相同的标签,继续训练;根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。2.如权利要求1所述的基于半监督学习的提问式垂直领域文献检索方法,其特征在于,所述无标注集中的政策数量远大于训练集中的政策数量。3.如权利要求1所述的基于半监督学习的提问式垂直领域文献检索方法,其特征在于,采用人工标注的方式根据提问内容对训练集中的数据进行标注,若句子为所提问问题的答案则标注1,否则标注0。4.如权利要求1所述的基于半监督学习的提问式垂直领域文献检索方法,其特征在于,查询问题的答案在文档中位置集中,且为前后邻接的句子群。5.如权利要求3所述的基于半监督学习的提问式垂直领域文献检索方法,其特征在于,根据预设阈值抽取标注数据的文本特征的具体步骤为:遍历文档中的句子,根据标注数据的标注内容对文档中的句子进行分词,将该文档中标签为1的词汇分到集合ansdoc
i
中,否则分到集合remdoc
i
中;计算ansdoc
i
和remdoc
i
中词汇的tf-idf值;将阈值大于0.01的词作为答案/非答案的特征值存入答案特征集合;使用svm二分类方法训练答案特征集合获取初始模型。6.如权利要求5所述的基于半监督学习的提问式垂直领域文献检索方法,其特征在于,利用标注的数据进行模型训练过程中,若为单一提问,则利用支持向量机采用二分类方法对文本特征进行训练;若为多个提问,则利用支持向量机采用多分类方法对文本特征进行训练。7.如权利要求3所述的基于半监督学习的提问式垂直领域文献检索方法,其特征在于,统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃的具体步骤为:如果两个句子被标注为1,且根据句子位置标注,两个句子距离较近,则先为此类句子标注伪标签;其中,使用句子间隔距离衡量两个句子的距离,如果句子间隔距离不大于threshold1则认为两个句子较近;使用句子群衡量答案句子群中的句子数量,如果标注为1或伪标签的句子及其邻接句子所组成的句子群不大于threshold2,则被认定是离群点,将其设置为0舍弃。8.一种基于半监督学习的提问式垂直领域文献检索系统,其特征在于,包括:数据获取模块,被配置为获取同类政策文档组成的数据集合,将数据集合分为训练集
和无标注集;初始训练模块,被配置为根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;其中,利用标注的数据进行模型训练的具体步骤为:根据预设阈值抽取标注数据的文本特征;采用支持向量机算法对文本特征进行训练,得到初始分类模型;半监督学习模块,被配置为利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;具体步骤为:使用初始分类模型对无标注样本数据集中每篇政策文献的每个句子进行分类预测;计算同篇政策文献标注为两相邻句子间的句子数,若句子数小于设定阈值,则为这些句子打上伪标签;统计伪标签句子数量,并对伪标签句子进行离群点判断,对离群点进行舍弃;如果伪标签句子数为0或不小于上一迭代过程的伪标签句子数,模型迭代训练结束,否则,将伪标签句子标注为与所提问问题答案相同的标签,继续训练;文献检索模块,被配置为根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。9.一种计算机可读存储介质,其特征在于,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的基于半监督学习的提问式垂直领域文献检索方法。10.一种终端设备,其特征在于,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-7中任一项所述的基于半监督学习的提问式垂直领域文献检索方法。

技术总结
本发明公开了一种基于半监督学习的提问式垂直领域文献检索方法及系统,涉及文献检索技术领域。该方法包括步骤:获取同类政策文档组成的数据集合,将数据集合分为训练集和无标注集;根据提问内容对训练集中的数据进行标注,并利用标注的数据进行模型训练,得到初始分类模型;利用无标注集采用半监督的方法对初始分类模型进行训练,得到优化后的分类模型;根据优化后的分类模型对问题进行预测,预测结果即为文献检索结果。本发明通过采用半监督学习框架,将检索问题转化为基于半监督学习的分类问题,实现了垂直领域政策文献的高效可靠检索。索。索。


技术研发人员:魏墨济 赵燕清 朱世伟 李晨 李宪毅 于俊凤 李思思 徐蓓蓓
受保护的技术使用者:山东省科学院情报研究所
技术研发日:2023.06.30
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐