基于语用知识学习的少样本命名实体识别方法和装置

未命名 07-19 阅读:147 评论:0


1.本发明公开一种基于语用知识学习的少样本命名实体识别方法和装置,属于命名实体识别的技术领域。


背景技术:

2.命名实体识别是指根据预先定义的实体类型,从文本中定位并分类实体的过程。早期的命名实体识别局限于几类专有名词的识别,如组织机构名等。随着命名实体识别技术的不断发展,实体的类型需求不断细化,例如组织机构名被更加细粒度的划分为学校、公司、公益组织等。在不同的领域,实体类型的覆盖面也不断扩大,例如,在日益蓬勃发展的生物信息学领域,需要识别蛋白质类型、dna、rna、细胞类型等专业实体。
3.命名实体识别的种类多,且不同领域中的实体类型的差异较大,导致一个领域的命名实体识别模型难以迁移到另一个领域。在大多数的应用场景下,模型通常只有少量的标记样本可用于训练和微调模型,导致大部分通用命名实体识别模型的泛化性能极低。
4.在新领域遭遇标记样本短缺是命名实体识别任务不可避免的问题,和其它自然语言处理任务相比,命名实体识别的标记数据更加细化,从而导致高质量的标记数据获取的代价也更大。缺少标记数据将严重影响监督学习命名实体识别方法的性能。由于同领域的不同类型的命名实体差异性较大,目前的少样本命名实体识别方法很难具备很好的跨领域应用性。常用于解决少样本命名实体识别问题的原型网络技术利用元学习方法训练让模型避免过度拟合已有数据,转而增强模型预测未知数据的能力。但是原型网络及其衍生模型对数据类别分布的建模过于简化,它们使用向量均值来模拟类别中心,并使用欧式距离来计算相似度。简化的建模方式限制了少样本模型区分类别的能力,在类别数量增加时,模型性能也会随之降低。
5.同时,现有的少样本命名实体识别技术方法通常不具备持续学习的能力,对于大规模实体相关的语料利用能力较低,造成模型的上限有限。这使得模型在跨领域的少样本应用中很难持续具备良好的鲁棒性。大规模语料中具备大量优质的实体语用知识,能够帮助模型学习实体的通用模式,从而增强其对新类型的识别能力。
6.综上,现有的少样本命名实体识别方法难以有效解决样本缺失带来的问题,如何从语用知识学习的角度出发,解决样本缺失造成的问题是目前少样本命名实体识别技术的关键。


技术实现要素:

7.针对现有技术的不足,本发明公开了一种基于语用知识学习的少样本命名实体识别方法。
8.本发明还公开一种实现基于语用知识学习的少样本命名实体识别方法的装置。
9.本发明详细的技术方案如下:一种基于语用知识学习的少样本命名实体识别方法,包括算法架构,如图1所示,
其特征在于,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;所述实体的边界识别任务由实体抽取器执行;所述实体的类型识别任务由类型判别器执行;所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。
10.根据本发明优选的,所述实体抽取器包括:对于解决实体边界识别任务的实体抽取器,可以使用基于跨度预测或者基于序列标注的网络结构。
11.根据本发明优选的,所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签:实体边界的标签包括“bmeso”五个类别表示,其中“b”代表某个实体第一个位置的词,“m”代表某个实体的中间位置的词,“e”代表实体的最后一个位置的词,“s”代表那些仅包含一个词的实体,“o”表示那些不是实体的词。
12.根据本发明优选的,为了使实体抽取器具备更强的自然语言理解能力同时在少样本领域具备更强的泛化性,所述实体抽取器使用大型预训练语言模型作为编码器;以bert开源模型为例,设文本输入序列为,所述实体抽取器使用所述大型预训练语言bert模型最后一层的隐含向量输出作为输入序列的语义编码表示:。
13.根据本发明优选的,所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量映射为标签向量,其中表示表示输入序列的长度,表示隐含向量的维度,表示实体边界的标签类别数量,优选的,如果使用上文提到的“bmeso”标注,则为5。
14.根据本发明优选的,所述实体抽取器的训练方法,包括:为了使实体抽取器具备强大的抽取潜在实体的能力,并能够在新领域具备足够的鲁棒性和泛化性,训练流程如图2所示;该训练方法使用的所有数据均去除和实体类型相关的标签;所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;在粗粒度训练阶段:选择语料库的语料作为训练数据;优选的,所述语料库为维基百科语料库,将其中的语料作为训练数据;在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据。
15.根据本发明优选的,所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:粗粒度训练阶段的数据如维基百科语料通常缺失了很多实体的边界标记,导致模
型无法直接在这些数据上进行训练;s1:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合,并使用哈希表保存实体作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为;s2:由于原始实体集合中会存在一些低质量的实体。例如单词“the”在极少数的句子中被标记为锚文本,从而出现在重标注的实体候选集合中,这些词如果直接作为重标注的依据将会带来更大的数据噪声,基于如下规则去除维基百科中的不合理实体:对于集合中的实体:如果实体的长度小于设定的参数并且大于设定的参数,将会被加入集合;其中,设置为较小的数;设置为较大的数;这样设置的原因在于长度非常长的短频词以锚文本形式出现时,有很大的概率是真实的实体,而长度较短的词如“the”如果其以锚文本出现的次数较少但又是维基百科中的长频词,则很大概率不是一个实体;得到用于重标注的候选集合;上述规则所推荐的阈值参数大小设置是经过对数据进行多轮分析,并选取多位评估者进行综合评估得到的经验设置;s3:对于维基百科中的每个句子,使用候选集合中的实体进行重新标注:如果完全匹配句子中的短语,则视为一个新标注,标注过程中新标注的实体不能和原始实体有重合,否则按原始实体的标注为准;使用基于统计的数据重标注算法进行重新标注后,实体缺失造成的影响大大减小,但仍无法保证召回所有的实体,因此,在所述粗粒度的训练阶段还包括名词感知损失替代传统的交叉熵损失:实体通常以名词或者名词的衍生词性出现在句子中,也就说那些未被召回的实体的共同特征是以名词词性出现在上下文中。对于这些未被标注为实体但又是名词的词汇,考虑到其有成为实体的可能性,在计算损失时减少这些词汇的权重,从而降低潜在错误数据标签噪声带来的影响,的计算过程如下所示:在公式(2)中,表示训练集中词的总数量;代表输入序列中第个词的权
重:如果第个词是名词及其衍生词性,但对应的真实标记不是实体标记,则,否则;ce函数表示多分类交叉熵损失;表示真实标记的独热编码向量;表示实体抽取器的第个词的输出向量;名词感知损失降低了未被召回的实体带来的训练噪声,使得实体抽取器能具备更加优秀的潜在实体挖掘能力。
16.根据本发明优选的,在细粒度训练阶段,由于各个开源数据集实体标记类型的限制,它们涵盖的类别均参差不齐,如果直接使用这些语料进行训练,不仅会遗忘粗粒度阶段在大型语料上获得的通用实体感知能力,并且会使实体抽取器过度拟合人工数据,导致泛化性差;为了解决该问题,使实体抽取器具备持续学习的能力,采用实体感知损失用于细粒度阶段的持续训练:实体感知损失的核心思想在于让实体抽取器在细粒度训练阶段只关注被人工标记为实体的词,具体计算过程如公式(3)所示:在公式(3)中,表示训练集中词的总数量;表示人工标注数据中被标记为实体的词的集合;表示真实标记的独热编码向量;表示实体抽取器的第个词的输出向量;实体感知损失赋予模型在人工标记数据集上持续学习的能力,并且不会遗忘在海量粗粒度数据上学习到的知识。
17.根据本发明优选的,所述类型判别器,包括:基于多元高斯分布的类型判别网络,所述类型判别网络设新领域中每个实体类别都符合一个特征独立的多元高斯分布,对实体类别的分布进行建模而非对独立的词进行分布建模,利用多元高斯分布概率密度函数对数据的先验分布进行建模;为了简化计算过程,设数据高维空间中各个维度特征独立,则多元高斯分布的协方差σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵σ对角线上的值为各个维度对应的方差,固计算过程中可以将对角矩阵σ压缩为向量;类型判别器对数据的多元高斯分布建模过程如下:首先使用预训练的大型语言模型对输入序列进行编码,得到输入序列的判别器编码表示输入序列的判别器编码表示输入序列的判别器编码表示表示表示输入序列的长度,表示隐含向量的维度;对于待识别的实体类型集合,分别计算第种类型对应的多元高斯分布均值和方差:
在公式(4)、(5)中,表示类别标签为的所有词的集合;表示集合的大小;表示词的编码表示;表示实体类型集合;表示向量的维度下标;表示向量的第个维度的值;方差的向量长度为;表示向量第个维度的值。
18.对于一个待预测的词,其在类别标签上的多元高斯概率密度建模如下:在公式(6)中,表示词的编码表示;类型判别器的损失计算如下:在公式(6)、(7)中,表示实体类型集合;表示类别标签对应的得分;表示输入序列;表示类型标记序列;表示第种类别标签对应的得分;表示词在类别标签上的判别器得分;所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含n类实体类型和对应的k个实体标记实例。
19.一种实现基于语用知识学习的少样本命名实体识别方法的装置,其特征在于,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
20.所述装置的识别步骤,具体包括:步骤1:使用维基百科语料和任意的开源命名实体识别数据对实体抽取器进行粗粒度到细粒度的预训练;该部分内容按照算法架构对应公式(3)及以前的技术内容进行识
别的;步骤2:对任意开源命名实体识别数据随机采样指定数量的少样本任务,对每个任务随机采样对应的少量数据,构建类型判别器的训练集并训练类型判别器;该部分内容是按照算法架构对应公式(3)以后的技术内容进行识别的;步骤3:结合训练好的实体抽取器和类型判别器进行实体的联合抽取,使用实体抽取器抽取候选实体,使用类型判别器判断类型得分。
21.所述步骤3的具体方法包括:对于目标领域的输入文本序列,首先使用所述实体抽取器抽取中所有的实体,组成潜在实体集合;然后将文本序列输入所述类型判别器,得到每个词元属于某个类别标签的得分;最后,对于潜在实体集合中的每个实体,实体的类别标签由实体中所有位置的词元对应的得分共同投票决定,投票的流程包括:第一步,计算得到每个词元最置信的实体类别标签:在公式(8)中,表示实体类型的集合;表示类别标签;表示在类别标签上的判别器得分;第二步,根据实体所有位置最置信的实体类别标签进行投票,得到票数最高的类型集合:在公式(9)中,表示实体上所有位置对应的最置信实体类别标签;函数选择出现次数最多的类别标签加入集合;如果集合只包含一个类别标签,则预测结束;如果集合包含大于一个类型标签,则计算集合中所有类型在实体上的类型判别器累积得分,类型标签对应的累积得分的计算过程如下所示:
选择其中累积得分最高的类别标签作为实体的预测类别。
22.先投票再计算累积能够避免正确类型在部分位置置信度极低导致的错误。例如,如果正确类型在某个位置的置信度为0,而其它类型在所有位置的置信度都不接近0,则最后的正确类型的累积会低于其它类型的累积,导致预测出错。而投票机制则会缓解这种现象,即使一两个位置预测出错,只要大部分位置预测正确,就能保证最终预测的准确性,降低了单一位置的极端影响。
23.本发明的技术优势包括:本发明提出的基于语用知识学习的少样本命名实体识别方法和装置适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。
24.对于实体边界识别过程,由于剥离了类型信息,实体抽取器在少样本环境下的约束也变得更小。模型在源领域学习到的类型无关的实体语用知识能够最大限度的应用于目标领域,例如在各类上下文中实体以名词词性蕴含的语法信息能够非常容易的迁移到目标领域。
25.对于实体类型识别过程,使用特征独立的多元高斯概率密度函数对实体类型的分布进行直接建模。和传统的少样本建模方式相比,大大简化了模型训练和优化的复杂度。
26.本发明提出的用于实体边界识别的训练方法和用于类型识别的训练方法能够使得模型具备强大的持续学习能力,模型能够在不断的版本迭代过程中持续的增强性能,这是以往的方法无法实现的。
27.本发明提出的基于统计的实体重标注算法有效的召回了粗粒度数据中大量缺失的实体,能够使得很多原本无法使用的训练数据成为优质的训练语料,有效提升模型的鲁棒性。
附图说明
28.图1是本发明所述中基于语用知识学习的少样本命名实体识别的算法架构示意图;图2是本发明所述实体抽取器的训练方法中粗粒度和细粒度训练方法的流程图。
具体实施方式
29.下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
30.实施例1、一种基于语用知识学习的少样本命名实体识别方法,包括算法架构,如图1所示,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;所述实体的边界识别任务由实体抽取器执行;所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。
31.根据本发明优选的,所述实体抽取器包括:对于解决实体边界识别任务的实体抽取器,可以使用基于跨度预测或者基于序列标注的网络结构。
32.所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签:实体边界的标签包括“bmeso”五个类别表示,其中“b”代表某个实体第一个位置的词,“m”代表某个实体的中间位置的词,“e”代表实体的最后一个位置的词,“s”代表那些仅包含一个词的实体,“o”表示那些不是实体的词。
33.为了使实体抽取器具备更强的自然语言理解能力同时在少样本领域具备更强的泛化性,所述实体抽取器使用大型预训练语言模型作为编码器;以bert开源模型为例,设文本输入序列为,所述实体抽取器使用所述大型预训练语言bert模型最后一层的隐含向量输出作为输入序列的语义编码表示:。
34.所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量映射为标签向量,其中表示表示输入序列的长度,表示隐含向量的维度,表示实体边界的标签类别数量,优选的,如果使用上文提到的“bmeso”标注,则为5。
35.所述实体抽取器的训练方法,包括:为了使实体抽取器具备强大的抽取潜在实体的能力,并能够在新领域具备足够的鲁棒性和泛化性,训练流程如图2所示;该训练方法使用的所有数据均去除和实体类型相关的标签;所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;在粗粒度训练阶段:选择语料库的语料作为训练数据;优选的,所述语料库为维基百科语料库,将其中的语料作为训练数据;在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据。
36.实施例2、根据实施例1所述的一种基于语用知识学习的少样本命名实体识别方法,所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:粗粒度训练阶段的数据如维基百科语料通常缺失了很多实体的边界标记,导致模型无法直接在这些数据上进行训练;s1:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合,并使用哈希表保存实体作为锚文本出现的频数;同时统计每个实体在所有维
基百科语料中出现的总频数记为;s2:由于原始实体集合中会存在一些低质量的实体。例如单词“the”在极少数的句子中被标记为锚文本,从而出现在重标注的实体候选集合中,这些词如果直接作为重标注的依据将会带来更大的数据噪声,基于如下规则去除维基百科中的不合理实体:对于集合中的实体:如果实体的长度小于设定的参数并且大于设定的参数,将会被加入集合;其中,设置为较小的数;设置为较大的数;这样设置的原因在于长度非常长的短频词以锚文本形式出现时,有很大的概率是真实的实体,而长度较短的词如“the”如果其以锚文本出现的次数较少但又是维基百科中的长频词,则很大概率不是一个实体;得到用于重标注的候选集合;上述规则所推荐的阈值参数大小设置是经过对数据进行多轮分析,并选取多位评估者进行综合评估得到的经验设置;s3:对于维基百科中的每个句子,使用候选集合中的实体进行重新标注:如果完全匹配句子中的短语,则视为一个新标注,标注过程中新标注的实体不能和原始实体有重合,否则按原始实体的标注为准;使用基于统计的数据重标注算法进行重新标注后,实体缺失造成的影响大大减小,但仍无法保证召回所有的实体,因此,在所述粗粒度的训练阶段还包括名词感知损失替代传统的交叉熵损失:实体通常以名词或者名词的衍生词性出现在句子中,也就说那些未被召回的实体的共同特征是以名词词性出现在上下文中。对于这些未被标注为实体但又是名词的词汇,考虑到其有成为实体的可能性,在计算损失时减少这些词汇的权重,从而降低潜在错误数据标签噪声带来的影响,的计算过程如下所示:在公式(2)中,表示训练集中词的总数量;代表输入序列中第个词的权重:如果第个词是名词及其衍生词性,但对应的真实标记不是实体标记,则,否则;ce函数表示多分类交叉熵损失;表示真实标记的独热编码向量;表示实体抽取器的第个词的输出向量;名词感知损失降低了未被召回的实体带
来的训练噪声,使得实体抽取器能具备更加优秀的潜在实体挖掘能力。
37.在细粒度训练阶段,由于各个开源数据集实体标记类型的限制,它们涵盖的类别均参差不齐,如果直接使用这些语料进行训练,不仅会遗忘粗粒度阶段在大型语料上获得的通用实体感知能力,并且会使实体抽取器过度拟合人工数据,导致泛化性差;为了解决该问题,使实体抽取器具备持续学习的能力,采用实体感知损失用于细粒度阶段的持续训练:实体感知损失的核心思想在于让实体抽取器在细粒度训练阶段只关注被人工标记为实体的词,具体计算过程如公式(3)所示:在公式(3)中,表示训练集中词的总数量;表示人工标注数据中被标记为实体的词的集合;表示真实标记的独热编码向量;表示实体抽取器的第个词的输出向量;实体感知损失赋予模型在人工标记数据集上持续学习的能力,并且不会遗忘在海量粗粒度数据上学习到的知识。
38.实施例3、根据实施例1、2所述的一种基于语用知识学习的少样本命名实体识别方法,所述类型判别器,包括:基于多元高斯分布的类型判别网络,所述类型判别网络设新领域中每个实体类别都符合一个特征独立的多元高斯分布,对实体类别的分布进行建模而非对独立的词进行分布建模,利用多元高斯分布概率密度函数对数据的先验分布进行建模;为了简化计算过程,设数据高维空间中各个维度特征独立,则多元高斯分布的协方差σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵σ对角线上的值为各个维度对应的方差,固计算过程中可以将对角矩阵σ压缩为向量;类型判别器对数据的多元高斯分布建模过程如下:首先使用预训练的大型语言模型对输入序列进行编码,得到输入序列的判别器编码表示输入序列的判别器编码表示输入序列的判别器编码表示表示表示输入序列的长度,表示隐含向量的维度;对于待识别的实体类型集合,分别计算第种类型对应的多元高斯分布均值和方差:
在公式(4)、(5)中,表示类别标签为的所有词的集合;表示集合的大小;表示词的编码表示;表示实体类型集合;表示向量的维度下标;表示向量的第个维度的值;方差的向量长度为;表示向量第个维度的值。
39.对于一个待预测的词,其在类别标签上的多元高斯概率密度建模如下:在公式(6)中,表示词的编码表示;类型判别器的损失计算如下:在公式(6)、(7)中,表示实体类型集合;表示类别标签对应的得分;表示输入序列;表示类型标记序列;表示第种类别标签对应的得分;表示词在类别标签上的判别器得分;所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含n类实体类型和对应的k个实体标记实例。
40.实施例4、一种实现基于语用知识学习的少样本命名实体识别方法的装置,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
41.该装置的具体工作步骤,包括:步骤1:使用维基百科语料和任意的开源命名实体识别数据对实体抽取器进行粗粒度到细粒度的预训练;该部分内容按照算法架构对应公式(3)及以前的技术内容进行识别的;步骤2:对任意开源命名实体识别数据随机采样指定数量的少样本任务,对每个任
务随机采样对应的少量数据,构建类型判别器的训练集并训练类型判别器;该部分内容是按照算法架构对应公式(3)以后的技术内容进行识别的;步骤3:结合训练好的实体抽取器和类型判别器进行实体的联合抽取,使用实体抽取器抽取候选实体,使用类型判别器判断类型得分。
42.所述步骤3的具体方法包括:对于目标领域的输入文本序列,首先使用所述实体抽取器抽取中所有的实体,组成潜在实体集合;然后将文本序列输入所述类型判别器,得到每个词元属于某个类别标签的得分;最后,对于潜在实体集合中的每个实体,实体的类别标签由实体中所有位置的词元对应的得分共同投票决定,投票的流程包括:第一步,计算得到每个词元最置信的实体类别标签:在公式(8)中,表示实体类型的集合;表示类别标签;表示在类别标签上的判别器得分;第二步,根据实体所有位置最置信的实体类别标签进行投票,得到票数最高的类型集合:在公式(9)中,表示实体上所有位置对应的最置信实体类别标签;函数选择出现次数最多的类别标签加入集合;如果集合只包含一个类别标签,则预测结束;如果集合包含大于一个类型标签,则计算集合中所有类型在实体上的类型判别器累积得分,类型标签对应的累积得分的计算过程如下所示:选择其中累积得分最高的类别标签作为实体的预测类别。
43.先投票再计算累积能够避免正确类型在部分位置置信度极低导致的错误。例如,如果正确类型在某个位置的置信度为0,而其它类型在所有位置的置信度都不接近0,则最后的正确类型的累积会低于其它类型的累积,导致预测出错。而投票机制则会缓解这种现象,即使一两个位置预测出错,只要大部分位置预测正确,就能保证最终预测的准确性,降低了单一位置的极端影响。
44.利用上述实施例1、实施例2、实施例3、实施例4,对目前最大的少样本开源数据集few-nerd具体实施,以进一步详细说明:首先需要进行本发明提出的实体抽取器的粗粒度训练:获取维基百科语料,然后使用本发明所述的数据重标注算法对维基百科语料进行重新标注,过程为:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合,并使用哈希表保存实体作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为;对于集合中的实体:如果实体的长度小于设定的参数3并且大于设定的参数,将会被加入集合;利用集合得到用于重标注的候选集合;对于维基百科中的每个句子,使用候选集合中的实体进行重新标注;如果完全匹配句子中的短语,则视为一个新标注。
45.重标注完成后,实体抽取器在维基百科语料上进行粗粒度训练,训练使用所述名词感知损失进行优化。
46.然后进行实体抽取器的细粒度训练:将few-nerd的训练集中的实体类别标签全部去除,使用处理后的训练集对实体抽取器进行细粒度训练,细粒度训练过程使用所述实体感知损失进行优化。
47.接着进行类型判别器的元学习预训练。由于few-nerd数据集已经随机采样生成了很多不同的小批次任务,每个所述小批次任务包含n类实体类型和对应的k个实体标记实例。所以可以直接使用对应的训练集进行元学习训练。
48.实体抽取器和类型判别器都训练完成后,开始进行联合抽取过程:对于few-nerd的测试文本,首先使用使用所述实体抽取器抽取中所有的实体,组成实体集合。然后使用类型判别器,计算每个类别标签对于的均值和方差用于后续的得分计算。然后将文本序列输入所述类型判别器,得到每个词元属于某个类别标签的得分;最后,对于潜在实体集合中的每个实体,实体的类别标签由实体中所有位置的词元对应
的得分共同投票决定,投票的流程包括:第一步,计算得到每个词元最置信的实体类别标签:第二步,根据实体所有位置最置信的实体类别标签进行投票,得到票数最高的类型集合:如果集合只包含一个类别标签,则预测结束;如果集合包含大于一个类型,则计算集合中所有类型在实体上的类型判别器累积得分。选择其中累积得分最高的类别标签作为实体的预测类别。
49.通过上述的实施过程能够对few-nerd中所有的文本进行实体识别。
50.综上,将本发明所述识别方法与目前最优秀的少样本命名实体识别方法decomposedmetaner在few-nerd intra数据集的对比结果如表1所示:表1few-nerd intra数据集实验结果本发明的性能在该数据集上明显超越了目前最优秀的方法。

技术特征:
1.一种基于语用知识学习的少样本命名实体识别方法,其特征在于,包括算法架构,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;所述实体的边界识别任务由实体抽取器执行;所述实体的类型识别任务由类型判别器执行;所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务;所述实体抽取器包括:基于跨度预测或者基于序列标注的网络结构。2.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签。3.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器使用大型预训练语言模型作为编码器;所述大型预训练语言模型最后一层的隐含向量输出作为输入序列的语义编码表示:。4.根据权利要求3所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量映射为标签向量,其中表示表示输入序列的长度,表示隐含向量的维度,表示实体边界的标签类别数量。5.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器的训练方法,包括:使用的所有数据均去除和实体类型相关的标签;所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;在粗粒度训练阶段:选择语料库的语料作为训练数据;在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据;所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:s1:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合,并使用哈希表保存实体作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为;s2:去除维基百科中的不合理实体:对于集合中的实体:如果实体的长度小于设定的参数并且大于设定的参数,将会被加入集合;
其中,设置为较小的数;设置为较大的数;得到用于重标注的候选集合;s3:对于维基百科中的每个句子,使用候选集合中的实体进行重新标注:如果完全匹配句子中的短语,则视为一个新标注;在所述粗粒度的训练阶段还包括名词感知损失替代传统的交叉熵损失:的计算过程如下所示:在公式(2)中,表示训练集中词的总数量;代表输入序列中第个词的权重:如果第个词是名词及其衍生词性,但对应的真实标记不是实体标记,则,否则;ce函数表示多分类交叉熵损失;表示真实标记的独热编码向量;表示实体抽取器的第个词的输出向量。6.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,在细粒度训练阶段,实体感知损失用于细粒度阶段的持续训练:实体感知损失具体计算过程如公式(3)所示:在公式(3)中,表示训练集中词的总数量;表示人工标注数据中被标记为实体的词的集合;表示真实标记的独热编码向量;表示实体抽取器的第个词的输出向量。7.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述类型判别器,包括:基于多元高斯分布的类型判别网络,利用多元高斯分布概率密度函数对数据的先验分布进行建模;设数据高维空间中各个维度特征独立,则多元高斯分布的协方差σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵σ对角线上的值为各个维度对应的方差,将对角矩阵σ压缩为向量;类型判别器对数据的多元高斯分布建模过程如下:首先使用预训练的大型语言模型对输入序列进行编码,得到输入
序列的判别器编码表示,表示表示输入序列的长度,表示隐含向量的维度;对于待识别的实体类型集合,分别计算第种类型对应的多元高斯分布均值和方差::在公式(4)、(5)中,表示类别标签为的所有词的集合;表示集合的大小;表示词的编码表示;表示实体类型集合;表示向量的维度下标;表示向量的第个维度的值;方差的向量长度为;表示向量第个维度的值;对于一个待预测的词,其在类别标签上的多元高斯概率密度建模如下:在公式(6)中,表示词的编码表示;类型判别器的损失计算如下:在公式(6)、(7)中,表示实体类型集合;表示类别标签对应的得分;表示输入序列;表示类型标记序列;表示第种类别标签对应的得分;表示词在类别标签上的判别器得分;所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含n类实体类型和对应的k个实体标记实例。8.一种实现如权利要求1-7任意一项所述基于语用知识学习的少样本命名实体识别方
法的装置,其特征在于,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。

技术总结
一种基于语用知识学习的少样本命名实体识别方法和装置,属于命名实体识别的技术领域,包括算法架构,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;所述实体的边界识别任务由实体抽取器执行;所述实体的类型识别任务由类型判别器执行;所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。本发明适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。术具备更强的性能和鲁棒性。术具备更强的性能和鲁棒性。


技术研发人员:孙宇清 吴佳琪 龚斌
受保护的技术使用者:山东大学
技术研发日:2023.06.12
技术公布日:2023/7/17
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐