一种医学远程监督关系抽取的降噪方法、装置及设备

未命名 08-15 阅读:95 评论:0


1.本发明涉及医学数据处理技术领域,具体而言,涉及一种医学远程监督关系抽取的降噪方法、装置及设备。


背景技术:

2.随着信息技术的发展,医疗领域的数据规模越来越庞大且来源复杂,知识图谱作为一种用于表示和存储知识的结构化方式,可帮助人们更好地组织和理解医学领域的知识。然而,构建一个规模较大且质量较高的知识图谱需要大量的人力和时间,需要从大量医学语料中挖掘关系事实,来丰富知识图谱连边,缓解知识图谱的稀疏性,以进一步支持下游医学知识推理任务。
3.远程监督(distant supervision,ds)是一种自动获取标注训练数据的方法,其原理为将原始实体标注文本对齐到现有的知识库中,以快速获取大规模的关系标注样本,利用获取到的带有关系标注的训练数据对模型进行训练,最终得到可以用于进行关系抽取的模型,但由于医学领域数据的关系事实通常是复杂和多样化的,不同类型的实体之间可能存在多个关系,导致通过远程监督获取的训练数据的关系标注与实际的关系存在较大差异,因此使通过该训练数据进行训练的模型在处理医学数据的预测能力较弱,模型输出的结果容易产生错误。


技术实现要素:

4.本发明解决的问题是如何提升对医学数据关系抽取的预测概率的准确度。
5.为解决上述问题,本发明提供一种医学远程监督关系抽取的降噪方法、装置及设备。
6.第一方面,本发明提供了一种医学远程监督关系抽取的降噪方法,包括:
7.s1,获取医学训练集,其中,所述医学训练集包括多个样本,根据所述样本的关系类型对所述样本分配标签;
8.s2,根据所述医学训练集对关系分类器进行至少一个轮次初始训练,得到每个所述样本对应全部所述关系类型的预测概率;
9.s3,根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性;
10.s4,根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签;
11.s5,根据重分配标签的所述样本对所述医学训练集进行重构,生成降噪后的医学训练集;
12.s6,将所述降噪后的医学训练集输入所述关系分类器,输出新的每个所述样本对应全部所述关系类型的所述预测概率;
13.s7,重复执行所述步骤s3至所述步骤s6对所述关系分类器进行预设次数的迭代训练,生成关系抽取模型;
14.s8,将医学句子输入训练好的所述关系抽取模型,输出所述医学句子对应每个所述关系类型的所述预测概率。
15.可选地,所述根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性,包括:
16.根据所述样本对应全部所述关系类型的所述预测概率和预测熵值公式确定所述样本的熵值;
17.根据相同的所述关系类型的全部所述样本的所述熵值和期望熵公式确定所述关系类型的期望熵;
18.将所述期望熵确定为所述关系类型的不确定性。
19.可选地,所述预测熵值公式为:
[0020][0021]
所述期望熵公式为:
[0022][0023]
其中,ei为所述医学训练集中第i个所述样本的所述熵值,c为所述医学训练集的所述关系类型数量,为第i个所述样本的第j个所述关系类型的所述预测概率,e(ej)为第j个所述关系类型的期望熵,nj为第j个所述关系类型的所述样本数量,s为所述医学训练集,si为所述医学训练集中的第i个所述样本。
[0024]
可选地,所述根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签,包括:
[0025]
根据所述关系类型的所述不确定性、全部所述样本对应所述关系类型的最大所述预测概率和标签过滤阈值公式确定所述关系类型的标签过滤阈值;
[0026]
当所述关系类型中的所述样本对应的所述关系类型的所述预测概率小于所述关系类型的所述标签过滤阈值时,确定所述样本为重分配标签的所述样本;
[0027]
将重分配标签的所述样本的所述标签进行重新分配。
[0028]
可选地,所述将重分配标签的所述样本的所述标签进行重新分配,包括:
[0029]
根据所述关系类型的所述不确定性、全部所述样本对应所述关系类型的最大所述预测概率和标签过滤阈值公式确定所述关系类型的标签重分配阈值;
[0030]
当需要重分配标签的所述样本中最大的所述预测概率大于最大的所述预测概率对应的所述关系类型的所述标签重分配阈值时,根据所述关系类型对所述样本的所述标签进行重新分配;
[0031]
当需要重分配标签的所述样本中最大的所述预测概率小于或等于最大的所述预
测概率对应的所述关系类型的所述标签重分配阈值时,保留所述样本原有的所述标签。
[0032]
可选地,所述标签过滤阈值公式为:
[0033][0034]
所述标签重分配阈值为:
[0035][0036]
其中,为第j个所述关系类型的所述标签过滤阈值,为所述标签重分配阈值,u
(j)
为第j个所述关系类型的不确定性,thf为全局过滤阈值超参数,thr为全局标签重分配阈值超参数,α和β超参数,σ为激活函数。
[0037]
可选地,还包括:
[0038]
当所述迭代训练轮次大于第一预设阈值时,停止所述迭代训练,和/或
[0039]
当需要重分配所述标签的所述样本数量小于第二预设阈值时,停止所述迭代训练,和/或
[0040]
当验证集的指标小于预设指标时,停止所述迭代训练。
[0041]
可选地,还包括:
[0042]
将输出的所述医学句子的最大所述预测概率对应的所述关系类型确定为所述医学句子的所述关系类型;
[0043]
根据所述关系类型对所述医学句子分配标签。
[0044]
第二方面,本发明提供了一种医学远程监督关系抽取的降噪装置,包括:
[0045]
获取模块,用于获取医学训练集,其中,所述医学训练集包括多个样本,根据所述样本的关系类型对所述样本分配标签;
[0046]
训练模块,用于根据所述医学训练集对关系分类器进行至少一个轮次初始训练,得到每个所述样本对应全部所述关系类型的预测概率;将所述降噪后的医学训练集输入所述关系分类器,输出新的每个所述样本对应全部所述关系类型的所述预测概率;重复执行所述步骤s3至所述步骤s6对所述关系分类器进行预设次数的迭代训练,生成关系抽取模型;
[0047]
处理模块,用于根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性;
[0048]
筛选模块,用于根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签;
[0049]
重构模块,用于根据重分配标签的所述样本对所述医学训练集进行重构,生成降噪后的医学训练集;
[0050]
关系抽取模块,用于将医学句子输入训练好的所述关系抽取模型,输出所述医学句子对应每个所述关系类型的所述预测概率。
[0051]
第三方面,本发明提供了一种电子设备,包括存储器和处理器;
[0052]
所述存储器,用于存储计算机程序;
[0053]
所述处理器,用于当执行所述计算机程序时,实现第一方面任一项所述方法。
[0054]
本发明的医学远程监督关系抽取的降噪方法、装置及设备有益效果是:通过医学训练集对关系分类器进行至少一个轮次的初始训练,使其对各个关系类型具有一定的判别能力,提高输出的预测概率的准确度,根据每个样本对应数据集中全部类别的预测概率确定每个概率的不确定性,通过不确定性衡量关系分类器对各个关系类型的判别能力,根据不确定性对关系类型中的样本数据进行处理,进一步提高训练后的关系分类器对改关系类型的判别能力,根据各个关系类型的不确定性和关系分类器输出每个样本对应全部关系类型的预测概率对医学训练集中的样本进行筛选,通过不确定性将关系分类器判别能力弱的关系类型进行筛选,再根据其中样本对应的各个关系类型的预测概率确定筛选的样本,并将筛选出的样本重新分配标签,将噪声样本进行筛选,并通过重新分配标签改变样本的关系类型达到降噪的效果,可以提高关系分类器对判别能力弱的关系类型的判别能力,根据重新分配标签的样本对医学训练集进行重构,并再次输入关系分类器,通过上述方法对经过初始训练的关系分类器进行迭代训练,通过迭代训练不断提高关系分类器对判别能力弱的关系类型的判别能力,从而提高经过迭代训练后得到的关系抽模型输出的预测概率的准确度,最终实现对医学数据准确的关系抽取。
附图说明
[0055]
图1为本发明实施例的一种医学远程监督关系抽取的降噪方法的流程示意图;
[0056]
图2为本发明实施例的关系分类器的结构示意图;
[0057]
图3为本发明实施例的标签过滤重分配示意图;
[0058]
图4为本发明实施例的一种医学远程监督关系抽取的降噪装置的结构示意图;
[0059]
图5为本发明实施例的评估指标随迭代次数变化示意图;
[0060]
图6为本发明实施例的标签重分配数随迭代次数变化示意图;
[0061]
图7为本发明实施例的第一种关系类别阈值变化示意图;
[0062]
图8为本发明实施例的第二种关系类别阈值变化示意图;
[0063]
图9为本发明实施例的第三种关系类别阈值变化示意图;
[0064]
图10为本发明实施例的第四种关系类别阈值变化示意图;
[0065]
图11为本发明实施例的模型1的pr曲线示意图;
[0066]
图12为本发明实施例的模型2的pr曲线示意图;
[0067]
图13为本发明实施例的模型3的pr曲线示意图;
[0068]
图14为本发明实施例的模型4的pr曲线示意图。
具体实施方式
[0069]
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0070]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0071]
远程监督式方法自提出后受到学术界普遍认可,基于远程监督的关系抽取研究方
法的主要研究点在于,如何通过去噪来提升关系抽取模型的准确度。在远程监督关系抽取方向以多示例学习去噪方法为主,将同实体对的样本分包,并基于包级别样本进行分类。基于包级别的关系抽取模型均根据包的表征在预定义关系类型上进行分类,但这样会导致包中句子没有显式的标签,从而限制句子级别下游任务的应用。因此,一些研究开始关注基于句子级别样本的去噪算法,但鲜有适用于医学较细粒度关系类型的抽取方法。
[0072]
基于多示例学习(mutiple instance learning,mil)的远程监督关系抽取方法。多示例学习是一种监督学习算法的衍生方法,它将多个示例组成的包(bag)视为一个整体来学习分类模型。在训练集中,每个包由多个无标注示例组成,目标是从这些示例中学习到一个分类器,而任务是预测未见过的包的标签。多示例学习是一种介于无监督学习和监督学习之间的弱监督学习方法,通过松弛监督学习约束来实现。若包中含有正样本则包的标签为正,仅当包中全部示例是负样本时则包被标记为负。以二分类为例,设包b={x1,x2,...,xn},表示包中包含n个示例,示例xi对应标签yi,仅当存在yi=+1时,包b的标签才为正。
[0073]
多示例学习应用广泛,包括文本分类、图像分类等领域。在远程监督关系抽取任务中,多示例学习是一种有效的去噪方法,因为知识库自动标注的关系样本集中可能存在噪声。而使用包含噪声的数据训练模型可能会导致关系抽取模型精度降低和泛化能力差等问题。因此,现有研究通常采用mil进行去噪处理。具体来说,mil将同实体对的关系样本分到一个包内,基于mil的关系抽取模型会根据包中各关系样本特征来学习到包级别的特征,通过对包级别的特征的学习,从而使关系抽取模型进行关系分类。
[0074]
表1为关系样本分包样例:
[0075]
表1
[0076][0077]
基于mil的关系抽取模型会根据包中各关系样本特征来学习到包级别的特征,从而进行关系分类。
[0078]
远程监督去噪框架(sent)是一种远程监督关系抽取的句子级别去噪框架为基础,该方法引入假设“模型预测的概率分布中,噪声数据大部分分布于低置信度区域,而正例数据往往分布于中高置信度区域”。模型的核心部分是标签过滤和重分配算法,具体来说,当模型预测样本对应类别上的概率小于过滤阈值时,该样本标签将会被过滤掉,而给其分配满足重分配阈值的标签。不过由于在训练过程中模型对于各个类别的样本收敛程度不同,设定统一阈值模型的训练效果较差。因此sent设置类别动态阈值过滤,过滤重分配标签后的样本作为新一轮次的训练样本,该框架迭代多次直至模型收敛。sent框架根据其假设可理解为首先驱使关系分类模型学习到数据的近似分布,而标签过滤可以视作找出近似分布
中的离群点,最终通过重分配样本标签不断逼近真实数据分布。
[0079]
sent去噪框架通过设定类别的动态过滤阈值和标签重分配阈值进行去噪,其使用模型预测各个类别概率的最大值来计算动态过滤阈值,且采用固定超参数设置全局的标签重分配阈值。但仅使用各个类别概率最大值计算过滤阈值的方式粒度较粗,其难以定量判定模型对各个类别样本的收敛程度,并且其采用超参数设置全局重分配阈值的方式,可能会导致模型倾向于将标签重分配给样本数量较多的类别,从而使模型产生偏置(bias)。
[0080]
如图1所示,本发明实施例提供的一种医学远程监督关系抽取的降噪方法,包括:
[0081]
步骤s1,获取医学训练集,其中,所述医学训练集包括多个样本,根据所述样本的关系类型对所述样本分配标签。
[0082]
具体地,将医学训练集中的样本的关系类型进行统计归类,并根据样本的关系类型对样本分配对应的关系类型的标签。
[0083]
示例性地,选取的又有大量样本的医学训练集,其中共11种关系类型,每个关系类型包括多个样本。
[0084]
表2为各关系类型样本数量统计:
[0085]
表2
[0086]
关系类型数量关系类型数量症状\是临床表现\疾病14475疾病\发生部位\人体1459疾病\可使用检查\检查5430特定人群\是多发人群\疾病881治疗\可治疗\疾病3375药品\别名\药品320疾病\别名\疾病3103检查\别名\检查346疾病\有并发症\疾病2548疾病\就诊科室\科室47疾病\上下位\疾病2326
ꢀꢀ
[0087]
根据统计的样本的关系类型对样本进行分配标签,生成医学训练集。
[0088]
步骤s2,根据所述医学训练集对关系分类器进行至少一个轮次初始训练,得到每个所述样本对应全部所述关系类型的预测概率。
[0089]
具体地,对通过医学训练集对关系分类器进行多个个轮次的初始训练,并通过验证指标评估其对各个类别样本具有一定的判别能力后,输出样本对应全部关系类型的预测概率。
[0090]
示例性地,如图2所示,将文本“切除术手术部位为血管”输入关系分类器,其中头实体为“切除术”,尾实体为“血管”,其实体关系为“操作/作用于/人体”。设句子各字符表示为t=[t1,t2,...,tn],头实体位置为[s
beg
,s
end
],尾实体位置为[o
beg
,o
end
],句子长度为n。首先将句子中各个字符输入嵌入层,输出各个字符的向量表示e=[e1,e,...,en],其中,ei∈rd,d是字符嵌入向量维度,r是向量空间。
[0091]
然后,将嵌入向量输入序列编码层,为更有效地捕捉双向的上下文语义特征,编码层采用的是双向长短时记忆网络,将前向lstm和反向lstm隐藏层输出向量拼接作为各个字符的上下文表示,字符拼接方式公式为:
[0092]
[0093]
其中,hi为第i个拼接字符,h∈r2×
l
,l是lstm的隐藏层维度,r是向量空间。
[0094]
关系抽取可视作文本分类任务,但与传统文本分类任务不同,文本分类任务更关注句子整体上下文,根据上下文语义特征进行分类,而关系抽取更关注于头尾实体在句子中的依赖关系,因此,我们将头尾实体位置的隐层输出做平均池化操作后拼接,得到文本关系表示向量,文本关系表示向量公式为:
[0095][0096]
其中,h
*
为文本关系表示向量,h
*
∈r,为头实体位置关系向量,为尾实体位置关系向量,r是向量空间。
[0097]
最终,将文本关系表示向量输入全连接层,经过softmax激活后输出各个关系类型的概率计算公式为o=wh
*
+b,其中,w∈rc×
4l
,b∈rc,r是向量空间,l是lstm的隐藏层维度,c是关系类型的个数,h
*
为文本关系表示向量。
[0098]
步骤s3,根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性。
[0099]
具体地,根据样本对应各个关系类型的预测概率统计各个关系类型的不确定性,可以通过不确定性判断该关系分类器对各个关系类型的判别能力,不确定性的计算可以通过期望熵、低置信度和基尼系数等计算方式得到。
[0100]
步骤s4,根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签。
[0101]
具体地,根据各个关系类型的不确定性和关系分类器输出每个样本对应全部关系类型的预测概率对医学训练集中的样本进行筛选,通过不确定性将关系分类器判别能力弱的关系类型进行筛选,再根据其中样本对应的各个关系类型的预测概率确定筛选的样本,并将筛选出的样本重新分配标签。
[0102]
步骤s5,根据重分配标签的所述样本对所述医学训练集进行重构,生成降噪后的医学训练集。
[0103]
具体地,将重新分配标签的样本和没有被筛选出的样本对医学数据集进行重构,并生成新的医学训练集,将经过降噪处理的新的医学训练集进行下一轮次的模型训练。
[0104]
步骤s6,将所述降噪后的医学训练集输入所述关系分类器,输出新的每个所述样本对应全部所述关系类型的所述预测概率。
[0105]
步骤s7,重复执行所述步骤s3至所述步骤s6对所述关系分类器进行预设次数的迭代训练,生成关系抽取模型。
[0106]
具体地,将经过降噪处理的新的医学数训练集再次输入关系分类器,将输出的结果重新执行上述通过重新分配标签对医学训练集重构的过程,生成新的再次降噪重构的医学训练集,并通过该方式对关系分类器进行预次数的迭代训练,完成该预设次数的迭代训练后,生成训练好的关系抽取模型。
[0107]
进一步地,由于关系抽取任务包含多个预定义关系类型,因此将其定义为多分类任务,训练过程采用交叉熵损失函数(cross entropy loss),对于输入s和标签y
*
=[y1,y2,...,yc],yi∈{0,1},其中,y
*
为是独热向量。
[0108]
损失函数为:
[0109][0110]
其中,l(θ,y
*
)为输出预测概率分布与输入关系分类器前预测概率分布的差值,pk为第k个关系类型的预测概率,yk为第k个关系类型的标签,c为关系类型数量。
[0111]
步骤s8,将医学句子输入训练好的所述关系抽取模型,输出所述医学句子对应每个所述关系类型的所述预测概率。
[0112]
本实施例中,通过医学训练集对关系分类器进行至少一个轮次的初始训练,使其对各个关系类型具有一定的判别能力,提高输出的预测概率的准确度,根据每个样本对应数据集中全部类别的预测概率确定每个概率的不确定性,通过不确定性衡量关系分类器对各个关系类型的判别能力,根据不确定性对关系类型中的样本数据进行处理,进一步提高训练后的关系分类器对改关系类型的判别能力,根据各个关系类型的不确定性和关系分类器输出每个样本对应全部关系类型的预测概率对医学训练集中的样本进行筛选,通过不确定性将关系分类器判别能力弱的关系类型进行筛选,再根据其中样本对应的各个关系类型的预测概率确定筛选的样本,并将筛选出的样本重新分配标签,将噪声样本进行筛选,并通过重新分配标签改变样本的关系类型达到降噪的效果,可以提高关系分类器对判别能力弱的关系类型的判别能力,根据重新分配标签的样本对医学训练集进行重构,并再次输入关系分类器,通过上述及方法对经过初始训练的关系分类器进行迭代训练,通过迭代训练不断提高关系分类器对判别能力弱的关系类型的判别能力,从而提高经过迭代训练后得到的关系抽模型输出的预测概率的准确度,最终实现对医学数据准确的关系抽取。
[0113]
可选地,所述根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性,包括:
[0114]
根据所述样本对应全部所述关系类型的所述预测概率和预测熵值公式确定所述样本的熵值;
[0115]
根据相同的所述关系类型的全部所述样本的所述熵值和期望熵公式确定所述关系类型的期望熵;
[0116]
将所述期望熵确定为所述关系类型的不确定性。
[0117]
具体地,根据关系分类器输出的样本的各个关系类型的预测概率统计各个类别的不确定性,其计算方式采用各个关系类型样本的期望熵。
[0118]
进一步地,通过预测熵值公式计算各个样本的熵值,再根据熵值和期望熵公式计算各个类别样本熵值的期望熵,其中,各个关系类型的样本数量通过指示函数统计。
[0119]
本可选的实施例中,由于熵(entropy)是物质状态的度量,可用于衡量系统的不确定性,熵值越大则系统越不稳定,通过计算各个关系类型的期望熵可以衡量关系分类器对各关系类型样本的判别能力,期望熵越大表明该关系类型的不确定性越高,说明分类器对该类别的样本判别能力越弱,反之,关系分类器对于该关系类型样本的判别能力更强,预测概率更加置信。
[0120]
可选地,所述预测熵值公式为:
[0121][0122]
所述期望熵公式为:
[0123][0124]
其中,ei为所述医学训练集中第i个所述样本的所述熵值,c为所述医学训练集的所述关系类型数量,为第i个所述样本的第j个所述关系类型的所述预测概率,e(ej)为第j个所述关系类型的期望熵,nj为第j个所述关系类型的所述样本数量,s为所述医学训练集,si为所述医学训练集中的第i个所述样本。
[0125]
可选地,所述根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签,包括:
[0126]
根据所述关系类型的所述不确定性、全部所述样本对应所述关系类型的最大所述预测概率和标签过滤阈值公式确定所述关系类型的标签过滤阈值;
[0127]
当所述关系类型中的所述样本对应的所述关系类型的所述预测概率小于所述关系类型的所述标签过滤阈值时,确定所述样本为重分配标签的所述样本;
[0128]
将重分配标签的所述样本的所述标签进行重新分配。
[0129]
可选地,所述将重分配标签的所述样本的所述标签进行重新分配,包括:
[0130]
根据所述关系类型的所述不确定性、全部所述样本对应所述关系类型的最大所述预测概率和标签过滤阈值公式确定所述关系类型的标签重分配阈值;
[0131]
当需要重分配标签的所述样本中最大的所述预测概率大于最大的所述预测概率对应的所述关系类型的所述标签重分配阈值时,根据所述关系类型对所述样本的所述标签进行重新分配;
[0132]
当需要重分配标签的所述样本中最大的所述预测概率小于或等于最大的所述预测概率对应的所述关系类型的所述标签重分配阈值时,保留所述样本原有的所述标签。
[0133]
示例性地,如图3所示,医学训练集包含三个关系类型,每个关系类型分别包含三个样本,分别输入当前关系分类器进行预测,得到多个概率分布。其中,全局标签过滤阈值超参数为0.2,全局标签重分配阈值超参数为0.8,α超参数为0.05,β超参数为1.5,这些都属是改变不确定性影响的超参数,需要根据实际训练效果进行调节。通过期望熵及双阈值的计算与比较得到,关系类型0的最大预测概率为0.8、期望熵为0.68、标签过滤阈值为0.15、标签重分配阈值为0.76,关系类型1的最大预测概率为0.6、期望熵为0.82、标签过滤阈值为0.11、标签重分配阈值为0.59,关系类型2的最大预测概率为0.7、期望熵为0.77、标签过滤阈值为0.13、标签重分配阈值为0.69。在经过关系分类器处理的医学训练集中,关系类型1的第三个样本对应的关系类型1的预测概率为0.05,小于关系类型1的标签过滤阈值的0.11满足被重分配标签的条件,且第三个样本中预测概率的最大值为0.8,大于关系类型0的标签重分配阈值,因此,0类别是该样本在下一轮次训练集中的标签,最终完成当前轮次的数
据重构。
[0134]
进一步地,如果第三个样本中预测概率的最大值小于或者是等于关系类型0的标签重分配阈值,则第三个样本保留原有标签不变。
[0135]
进一步地,标签重分配过程公式为:
[0136][0137]
其中,为第n+1轮次的重分配标签,为第i个样本的第k个关系类型的预测概率,为标签重分配阈值。
[0138]
本可选的实施例中,通过标签过滤阈值和标签重分配阈值对通过不确定性确定的关系分类器判别能力弱的关系类型中的样本进行筛选,实现对医学训练集中的噪声样本进行降噪处理,从而使通过重构后的医学训练集训练的关系分类器对该关系类型样本的判别能力逐渐提升,预测也变得逐渐置信,则该关系类型的不确定性降低,标签过滤阈值增大,标签重分配阈值降低,最终逐渐降低对该关系类型样本标签过滤的约束和其他类别样本重分配到该类别上的约束。
[0139]
可选地,所述标签过滤阈值公式为:
[0140][0141]
所述标签重分配阈值为:
[0142][0143]
其中,为第j个所述关系类型的所述标签过滤阈值,为所述标签重分配阈值,u
(j)
为第j个所述关系类型的不确定性,thf为全局过滤阈值超参数,thr为全局标签重分配阈值超参数,α和β为超参数,σ为激活函数。
[0144]
可选地,还包括:
[0145]
当所述迭代训练轮次大于第一预设阈值时,停止所述迭代训练,和/或
[0146]
当需要重分配所述标签的所述样本数量小于第二预设阈值时,停止所述迭代训练,和/或
[0147]
当验证集的指标小于预设指标时,停止所述迭代训练。
[0148]
具体地,为防止过拟合,模型训练设置了早停机制,例如若超过8个迭代次数和/或重分配标签的样本不超过50个,则停止迭代训练,同时检测验证集的指标变化情况,当验证集的指标没有提升,也停止迭代训练。
[0149]
本可选的实施例中,通过设置早停机制,可以在迭代练过程中数据无法通过重构医学训练集进一步地对其进行降噪,或者该迭代训练对模型的预测概率没有显著提升时停止迭代训练,有效的防止的出现过拟合,避免不必要的重复训练,节约资源,提高模型训练效率。
[0150]
可选地,还包括:
[0151]
将输出的所述医学句子的最大所述预测概率对应的所述关系类型确定为所述医学句子的所述关系类型;
[0152]
根据所述关系类型对所述医学句子分配标签
[0153]
具体地,关系抽取模型输出的最大预测概率所对应的关系类型为该医学句子与实际关系类型准确度最高的关系类型,并根据该关系类型为医学句子的分配标签,从而实现对医学语句关系事实的挖掘,并构建医学知识图谱。
[0154]
如图4所示,本发明又一实施例提供的一种医学远程监督关系抽取的降噪装置,包括:
[0155]
获取模块,用于获取医学训练集,其中,所述医学训练集包括多个样本,根据所述样本的关系类型对所述样本分配标签;
[0156]
训练模块,用于根据所述医学训练集对关系分类器进行至少一个轮次初始训练,得到每个所述样本对应全部所述关系类型的预测概率;将所述降噪后的医学训练集输入所述关系分类器,输出新的每个所述样本对应全部所述关系类型的所述预测概率;重复执行所述步骤s3至所述步骤s6对所述关系分类器进行预设次数的迭代训练,生成关系抽取模型;
[0157]
处理模块,用于根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性;
[0158]
筛选模块,用于根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签;
[0159]
重构模块,用于根据重分配标签的所述样本对所述医学训练集进行重构,生成降噪后的医学训练集;
[0160]
关系抽取模块,用于将医学句子输入训练好的所述关系抽取模型,输出所述医学句子对应每个所述关系类型的所述预测概率。
[0161]
本发明实施例中的一种医学远程监督关系抽取的降噪装置具有上述医学远程监督关系抽取的降噪方法相近似的技术效果,在此不再进行赘述。
[0162]
本发明又一实施例提供的一种电子设备包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的医学远程监督关系抽取的降噪方法。
[0163]
本发明实施例中的一种电子设备具有上述医学远程监督关系抽取的降噪方法相近似的技术效果,在此不再进行赘述。
[0164]
进一步地,为实现医学远程监督关系抽取的数据构建,需要将医学实体文本数据对齐到现有的医学知识库中。选用《诊断学》前26章作为医学文本数据,相比于网络爬取等数据源,选用专业书籍可保证知识的正确性,且专业书籍的阐述方式、文本格式较为统一,利于模型学习文本特征。同时采用wi实验室的医学知识图谱网络智能实验室医学知识图谱(wimedkg)作为医学知识库,其中包含29种实体类型和118种关系类型。
[0165]
表3为医学知识图谱中实体与数量统计:
[0166]
表3
[0167]
实体数量实体数量临床发现110检查结果516人体3592治疗1205企业5415物质2520
传播方式230特定人群5606健康风险因素448疾病68999剂型19疾病分型48医保地区2症状34955医疗保险类别划分4社会学968受检状态3科室135处方状态7药品206711外因事件4786药物18687微生物18药物方剂7操作1748贮藏条件3320效果252麻醉方式6检查6791
ꢀꢀ
[0168]
通过采用最长字符串匹配的方法对医学文本中的实体进行反向标注,如果wimedkg中存在对应医学事实,则将其标注该关系,否则标注为无关系na。接下来,使用远程监督方法将实体文本数据对齐到wimedkg,限制实体对之间的最长文本距离为80个字符。对现有句子级别的关系标注数据进行分包。
[0169]
表4为句子级别的样本数据统计:
[0170]
表4
[0171]
关系类型数量关系类型数量无关系948761疾病\subclassof\疾病3895疾病\可使用检查\检查53529操作\有作用对象\人体3792症状\是临床表现\疾病41345检查\有就诊科室\科室3400疾病\有发生部位\人体26190疾病\导致\症状3094疾病\别名\疾病25820药品\有成分\药品2313疾病\有就诊科室\科室25467检查\上下位\检查1969治疗\可治疗\疾病23463药品\上下位\药品1679检查\有作用对象\人体22502操作\有操作对象\人体1605症状\是诊断依据\疾病21388操作\别名\操作1288症状\有就诊科室\科室18215药品\别名\药品1267疾病\有并发症\疾病17511症状\伴随\症状766症状\可使用检查\检查12900操作\有就诊科室\科室761特定人群\是多发群体\疾病9267症状\有发生部位\人体693药品\可治疗\疾病7618操作\有禁忌人群\特定人群566药品\有禁忌人群\特定人群5087药品\有功效\效果527检查\别名\检查4684疾病\英文名\疾病247操作\可治疗\疾病4458
ꢀꢀ
[0172]
表5为包级别的样本数据统计:
[0173]
表5
[0174][0175][0176]
由于设计的部分实验采用多示例学习方法,因此对现有句子级别的关系标注数据进行分包。统计发现,构建的关系抽取数据中句子级别样本数量为1540173,共包含33种关系类型。其中,无关系na类别的样本占比3/4,正负例样本比例为1:3,呈显明显的长尾分布。由于无关系样本占比较大,这给模型去噪带来较大困难。在对句子级别数据分包后,得到了884554个包级别样本,平均每个非na包中包含3.4个句子。对比发现,分包前后各关系类型样本数量占比相近,证明分包前后的标签分布一致性较高。
[0177]
数据重构,使用了《诊断学》远程监督句子级别数据,并应用自然语言深度学习框架(pytorch)实现基于类别不确定性的标签过滤重分配去噪框架(ulfr)。超参数设定如下,最大文本长度为120,超过该长度的文本部分进行截取,而较短的文本通过“[pad]”字符填充。将句子及其头尾实体位置输入关系分类器,其嵌入层维度为300,序列编码隐藏层维度为256,包含33种关系类型,因此最终输出层维度为33。框架核心部分关系参数设定如下,分类器初始迭代2个训练轮次,全局过滤阈值设定为0.2,其过滤权重α为0.05,全局重分配阈值设定为0.8。重分配权重β设置为1.5,模型训练学习率为0.001,退出(dropout)概率为0.5,训练批次大小为128,训练周期设置为64。此外,为防止过拟合,模型训练设置了早停机制。
[0178]
如图5所示,框架迭代过程中,测试集中非na样本的微平均f1(microf1)值随训练轮次变化。虽然远程监督数据中包含噪声,但根据假设,噪声在全部数据中占比较少,因此测试集评估指标仅用于观测模型的判别能力与收敛程度,并不代表测试集的真实指标。可以看出,经过2个轮次的初始化训练,测试集正例microf1接近0.85,模型已具备对样本的初步判别能力。其中,最低置信度(leastconfidence,lc)是另一种不确定性计算方式,相比基于负例训练的句子级别去噪框架(sent)的阈值计算方式和lc不确定性阈值计算方式,基于熵值的阈值计算方式的模型。训练更加平稳,收敛更加稳定。在后续的训练过程中,基于熵
值的阈值计算方式仍表现出较优性能,最终模型在测试集上的正例microf1接近0.89。
[0179]
如图6所示标签重分配的样本数量随训练轮次变化,三种阈值计算方式的标签重分配样本数量都随着训练轮次逐渐降低,说明随着去噪框架的不断迭代,数据分布逐渐趋近于稳定。而相比于sent和lc的部分训练阶段的波动态,熵值阈值计算方式标签重分配样本数量逐渐降低,数据分布变化更加平稳。
[0180]
如图7、图8、图9和图10所示,分别为为随机采样的四种关系类型在ulfr框架下过滤阈值(filtering threshold)和重分配阈值(relabeling threshold)的阈值随迭代次数的变化,随着迭代次数的增加,标签过滤阈值整体呈上升趋势,标签重分配阈值呈下降趋势。然而,某些类别在训练过程中阈值变化可能存在波动。通过结合ulfr框架的阈值计算方式进行分析,这可能与原始数据各类别的噪声数量相关,期望熵越低其阈值变化越稳定,而若原始数据中该类别噪声较多,则该类别的数据分布改变幅度较大,阈值变化会更加不稳定。
[0181]
本发明采用cmeie有监督关系抽取数据集,使用该数据测试去噪框架中关系抽取模型的性能。
[0182]
表6为测试结果数据列表:
[0183]
表6
[0184]
框架acc(%)microf(%)macrof(%)nodenoising27.77742.56424.224sent28.32343.36325.985ulfr(lc)34.45349.97829.700ulfr(ent)35.22650.84029.079
[0185]
其中,“nodenoising”表示未添加任何去噪算法,直接使用句子级别的远程监督数据进行模型训练,“sent”为上文提及的远程监督去噪框架,“lc”和“ent”分别代表基于类别不确定性的标签过滤重分配框架(ulfr)的不确定性计算方式,前者是计算样本最小置信度,后者计算熵。
[0186]
不添加任何去噪算法直接训练的关系抽取模型其测试集评估指标最差,说明噪声对模型学习的影响较大,也证明了对远程监督数据进行去噪的必要性。相比于其他两种去噪方法,ulfr(ent)的准确率和微平均f值两个指标上均表现最优,只是比ulfr(lc)在宏平均f1指标上略低,这证明了ulfr去噪框架的有效性。而且相较于sent框架,ulfr框架的去噪能力更优秀,其训练的关系抽取模型具有更强的鲁棒性和泛化能力。此外,综合考虑训练过程及数据分布变化等因素,采用熵的计算方式来衡量类别的不确定性更加有效。
[0187]
总体来看,相较于远程监督测试集,cmeie数据集的评估指标较低,尤其是宏平均f1指标不到0.3。这可能是由于不同的数据来源导致文本表述方式和数据分布存在较大的差异。
[0188]
对上述重构数据进行分包,并应用多个基于多示例学习的关系抽取模型,来验证相比于使用原始包级别数据进行训练,使用去噪重构后的包级别数据训练的关系抽取模型性能更强,即仅在训练数据层面做消融来验证关系抽取模型的性能。选用了如下四个基于多示例学习的关系抽取模型,其中,模型1为pcnn+one模型基于分段池化卷积神经网络(pcnn),从包中挑选置信度最大的句子参与学习;模型2为pcnn+att也基于pcnn并采用注意
力机制聚合句子表示作为包的表示;模型3为seg基于pcnn结构并添加了实体注意力和门控机制增强表示能力;模型4为cil引入对比学习使得同三元组示例在语义空间中表示尽可能相近,如图11所示,为pcnn+one模型在测试集上的pr曲线对比结果、如图12所示,为pcnn+att模型在测试集上的pr曲线对比结果,其中,pr曲线下方面积、图13所示,为seg模型在测试集上的pr曲线对比结果、如图14所示,为cil模型在测试集上的pr曲线对比结果。
[0189]
auc为pr曲线下方面积;p@1000:最置信的前1000个样本的精确率;p@2000:最置信的前2000个样本的精确率;p@3000:最置信的前3000个样本的精确率;p@m:p@1000、p@2000、p@3000的均值。
[0190]
表7为auc和p@n指标具体数值:
[0191]
表7
[0192]
方法aucp@1000p@2000p@3000p@mpcnn+one0.5230.8710.8710.6570.770sent-pcnn+one0.5800.9940.8390.9610.824ulfr-pcnn+one0.6010.9410.8440.7360.840pcnn+att0.6620.9040.8950.8840.894sent-pcnn+att0.6680.9260.9130.9060.915ulfr-pcnn+att0.7320.9520.9370.9260.938seg0.8110.9840.9740.9670.975sent-seg0.8270.9770.9710.9650.971ulfr-seg0.8350.9810.9740.9670.974cil0.8070.9380.9350.9190.930sent-cil0.8200.9220.9120.9050.913ulfr-cil0.8360.9510.9510.9190.940
[0193]
综合图表分析,在高置信度的模型预测样本可以达到接近0.9以上的精确率,测试集的auc评价指标也取得了较优的结果。大部分情况下,相比于使用原始数据训练的关系抽取模型,采用去噪重构数据训练的模型在同测试集上的表现更佳,尤其在auc上分别有约2%至8%的提升,这是因为去噪过程使得训练集中的样本接近真实分布,从而提升了关系抽取模型的泛化能力,同时也证明了去噪框架的有效性。在pcnn+one和pcnn+att两个较为基础的模型实验上,通过去噪重构训练数据,模型性能得到显著提升。相比之下,在seg和cil模型实验中,去噪后数据训练的模型在测试集上的指标提升不如前两者明显。这是因为多示例学习可以用于样本去噪,基于该方法的模型本身具备一定的抗噪能力,而seg和cil的模型的复杂结构使得,即使在训练数据未去噪的情况下也能在测试集上获得较优的结果。因此,在seg和cil模型上,训练数据质量的提升仅能带来模型性能有限的增强。此外,相对于sent框架,ulfr框架的去噪能力更强。这是因为ulfr框架引入了更细粒度的不确定性双阈值计算方式,并在有标注数据测试和远程监督数据评估中验证了去噪方法的有效性。
[0194]
进一步地,将ulfr框架针对《诊断学》远程监督数据的去噪前后的示例进行了对比,并从中随机抽取了几个样例。
[0195]
表8为随机抽取样例:
[0196]
表8
[0197][0198]
在第一个示例中,“饮食调理”和“高脂蛋白血症”在wimedkg中不存在关系事实,因此远程监督后被标注为无关系或空关系,而该实体对在句子中表现为“可治疗”关系,ulfr框架将其正确标注,证明框架可以关注到真负例(true negative)。而在第二个示例中,该实体对在知识库中存在关系事实,但在具体句子中仅存在并列关系,并没有“临床表现”关系,框架最终将其分配为无关系,同样证明框架可以关注到假正例(false positive)。而后面两个用例分析是非na关系之间的标签重分配例子,其头尾实体类型相同,进一步证明了ulfr框架在细粒度的多对多医学关系类别上的去噪能力。
[0199]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。在本技术中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0200]
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

技术特征:
1.一种医学远程监督关系抽取的降噪方法,其特征在于,包括:s1,获取医学训练集,其中,所述医学训练集包括多个样本,根据所述样本的关系类型对所述样本分配标签;s2,根据所述医学训练集对关系分类器进行至少一个轮次初始训练,得到每个所述样本对应全部所述关系类型的预测概率;s3,根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性;s4,根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签;s5,根据重分配标签的所述样本对所述医学训练集进行重构,生成降噪后的医学训练集;s6,将所述降噪后的医学训练集输入所述关系分类器,输出新的每个所述样本对应全部所述关系类型的所述预测概率;s7,重复执行所述步骤s3至所述步骤s6对所述关系分类器进行预设次数的迭代训练,生成关系抽取模型;s8,将医学句子输入训练好的所述关系抽取模型,输出所述医学句子对应每个所述关系类型的所述预测概率。2.根据权利要求1所述的医学远程监督关系抽取的降噪方法,其特征在于,所述根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性,包括:根据所述样本对应全部所述关系类型的所述预测概率和预测熵值公式确定所述样本的熵值;根据相同的所述关系类型的全部所述样本的所述熵值和期望熵公式确定所述关系类型的期望熵;将所述期望熵确定为所述关系类型的不确定性。3.根据权利要求2所述的医学远程监督关系抽取的降噪方法,其特征在于,所述预测熵值公式为:所述期望熵公式为:其中,e
i
为所述医学训练集中第i个所述样本的所述熵值,c为所述医学训练集的所述关系类型数量,p
i(j)
为第i个所述样本的第j个所述关系类型的所述预测概率,e(e
j
)为第j个所述关系类型的期望熵,n
j
为第j个所述关系类型的所述样本数量,s为所述医学训练集,s
i

所述医学训练集中的第i个所述样本。4.根据权利要求1所述的医学远程监督关系抽取的降噪方法,其特征在于,所述根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签,包括:根据所述关系类型的所述不确定性、全部所述样本对应所述关系类型的最大所述预测概率和标签过滤阈值公式确定所述关系类型的标签过滤阈值;当所述关系类型中的所述样本对应的所述关系类型的所述预测概率小于所述关系类型的所述标签过滤阈值时,确定所述样本为重分配标签的所述样本;将重分配标签的所述样本的所述标签进行重新分配。5.根据权利要求4所述的医学远程监督关系抽取的降噪方法,其特征在于,所述将重分配标签的所述样本的所述标签进行重新分配,包括:根据所述关系类型的所述不确定性、全部所述样本对应所述关系类型的最大所述预测概率和标签过滤阈值公式确定所述关系类型的标签重分配阈值;当需要重分配标签的所述样本中最大的所述预测概率大于最大的所述预测概率对应的所述关系类型的所述标签重分配阈值时,根据所述关系类型对所述样本的所述标签进行重新分配;当需要重分配标签的所述样本中最大的所述预测概率小于或等于最大的所述预测概率对应的所述关系类型的所述标签重分配阈值时,保留所述样本原有的所述标签。6.根据权利要求4所述的医学远程监督关系抽取的降噪方法,其特征在于,所述标签过滤阈值公式为:所述标签重分配阈值为:其中,为第j个所述关系类型的所述标签过滤阈值,为所述标签重分配阈值,u
(j)
为第j个所述关系类型的不确定性,th
f
为全局过滤阈值超参数,th
r
为全局标签重分配阈值超参数,α和β超参数,σ为激活函数。7.根据权利要求1所述的医学远程监督关系抽取的降噪方法,其特征在于,还包括:当所述迭代训练轮次大于第一预设阈值时,停止所述迭代训练,和/或当需要重分配所述标签的所述样本数量小于第二预设阈值时,停止所述迭代训练,和/或当验证集的指标小于预设指标时,停止所述迭代训练。8.根据权利要求1所述的医学远程监督关系抽取的降噪方法,其特征在于,还包括:将输出的所述医学句子的最大所述预测概率对应的所述关系类型确定为所述医学句子的所述关系类型;根据所述关系类型对所述医学句子分配标签。9.一种医学远程监督关系抽取的降噪装置,其特征在于,包括:获取模块,用于获取医学训练集,其中,所述医学训练集包括多个样本,根据所述样本
的关系类型对所述样本分配标签;训练模块,用于根据所述医学训练集对关系分类器进行至少一个轮次初始训练,得到每个所述样本对应全部所述关系类型的预测概率;将所述降噪后的医学训练集输入所述关系分类器,输出新的每个所述样本对应全部所述关系类型的所述预测概率;重复执行所述步骤s3至所述步骤s6对所述关系分类器进行预设次数的迭代训练,生成关系抽取模型;处理模块,用于根据每个所述样本对应全部所述关系类型的所述预测概率确定每个所述关系类型的不确定性;筛选模块,用于根据每个所述关系类型的所述不确定性和每个所述样本对应全部所述关系类型的预测概率对所述医学训练集中的所述样本进行筛选,并将筛选出的所述样本重新分配所述标签;重构模块,用于根据重分配标签的所述样本对所述医学训练集进行重构,生成降噪后的医学训练集;关系抽取模块,用于将医学句子输入训练好的所述关系抽取模型,输出所述医学句子对应每个所述关系类型的所述预测概率。10.一种电子设备,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1至8任一项所述的医学远程监督关系抽取的降噪方法。

技术总结
本发明涉及医学数据处理技术领域,具体而言,涉及一种医学远程监督关系抽取的降噪方法、装置及设备,医学远程监督关系抽取的降噪方法包括:获取医学训练集;根据医学训练集对关系分类器进行初始训练,得到各个关系类型的预测概率;根据预测概率确定每个关系类型的不确定性;根据每个关系类型的不确定性和预测概率对样本重新分配标签;根据重分配标签的样本对医学训练集进行重构;将重构后的医学训练集输入关系分类器,输出新的预测概率;重复上述方法对关系分类器进行迭代训练,生成关系抽取模型;将医学句子输入训练好的关系抽取模型,输出预测概率。本发明通过降噪重构医学训练集的方式提高关系抽取模型对医学数据预测的准确度。确度。确度。


技术研发人员:杨洋 关昌赫 李雪 王好天 关毅 姜京池
受保护的技术使用者:哈尔滨工业大学
技术研发日:2023.05.30
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐