有色冶金命名实体识别方法、装置及系统和存储介质

未命名 07-12 阅读:95 评论:0


1.本发明属于自然语音处理技术领域,涉及命名实体识别技术,特别是涉及一种有色冶金命名实体识别方法、装置及系统和存储介质。


背景技术:

2.命名实体识别是自然语言处理(natural language processing,nlp)中的热点研究方向之一,它的实质就是从一段自然语言中找出相关的实体,并标注出实体的位置及其类型。命名实体识别可以识别出各种行业和领域的专有名词,如人名和机构名称等。在有色冶金产业的相关文本和企业报告中存在许多有色冶金行业内部的专有名词,如公司名称、产品名称和产业信息等。在对文本和企业报告进行分析时,这些行业内部的命名实体就会成为重要的信息来源,它们也是构建有色冶金产业企业画像和建立产业知识图谱的重要依据。但是截至目前,很少有研究人员和学者针对有色冶金领域命名实体识别进行研究,也没有相关数据集支持。
3.命名实体识别的发展按时间主要分为三个阶段,分别为基于词典和规则的方法,基于机器学习的方法和基于深度学习的方法。
4.基于词典和规则的方法是指利用专家判断的方式手工制定出命名实体识别的规则和模板,并利用这些规则将需要识别的命名实体进行匹配和识别。虽然基于词典和规则的方法对特定范围内的命名实体的识别效果比较好,但是其中使用的规则也具有泛化程度低的特点。而且专家判断和手工制定规则的方式代价比较大,后期也难以对其进行维护,特别对大规模语料进行命名实体识别时,基于词典和规则方法的效率相比其他方法要低很多。
5.随着大规模语料的出现,基于机器学习方法的命名实体识别开始被广泛应用,也可以进一步将其分为有监督机器学习和无监督机器学习两类。在无监督的机器学习中主要使用聚类的方法进行命名实体的识别,例如xu等人提出了一种共享最近邻的聚类方法,并将其应用在生物医学名称的识别和提取中。在有监督的机器学习中,命名实体识别则被看作是一种序列标注的问题,例如kui等人提出了一种基于级联马尔科夫模型的中文命名体识别方法,通过双重的模型识别来提高识别精度。虽然基于机器学习的方法避免了繁琐的人工工作,但是为了保证识别的准确率,复杂的特征工程是不可避免的,而且语料变化也对识别的精度有很大影响。
6.基于深度学习的方法解决了机器学习中需要复杂特征工程和领域知识的问题,同时基于深度学习的命名实体识别采用了端到端的训练方式,这样可以构建更为复杂的网络,也让命名实体识别适用于非线性的转化。collobert等人首次提出了基于神经网络的命名实体识别的方法,在该方法中每个单词具有固定大小的窗口,但是这种方法也忽略了长距离单词之间的信息。为了获取长距离文本之间的信息,kong等人建立了多级卷积神经网络(convolution neural network,cnn)并结合了注意力机制来捕获短期和长期的上下文信息,提高了中文临床医学命名实体识别的准确率。毛存礼等人[提出了一种基于深度神经
网络(deep neural network,dnn)架构的有色金属领域实体识别方法,该方法可以有效获取有色金属领域实体中字符间的紧密结合特征。同时,循环神经网络(recurrent neural network,rnn)和图卷积神经网络(graph convolutional network,gcn)也是进行命名实体识别的主流方法。liu等人提出了一种词字符的长短时神经网络(long short-term memory,lstm)模型,他们将词信息添加到词的开始或结束字符中,在获得词边界信息的同时减轻分词错误带来的影响。tang等人使用交叉gcn块同时处理两个方向的词字符,并在其中引入了全局注意力机制改进了长距离的依赖捕获。近年来,基于编码器-解释器模型(transformer)被大量应用于命名实体识别当中,其中最具代表性的就是基于编码器-解码器的双向编码表示法(bidirectional encoder representations from transformers,bert)
]
模型。usman等人使用albert(lite bert)模型在大规模生物医学语料上训练,更好地学习了上下文相关的表示,提高了训练的效率。
[0007]
虽然进行命名实体识别的方法有很多,并且国内外学者都对其做了大量的研究,但是这些方法都不适用于有色冶金领域命名实体识别的研究,原因有以下几点。
[0008]
(1)由于研究领域的独特性,已有的研究很少涉及到有色冶金产业,也没有相关数据集对其支持。
[0009]
(2)在有色冶金领域命名实体当中存在很多嵌套的命名实体,这进一步增加了实体识别的难度。
[0010]
(3)已有的命名实体识别模型无法充分提取有色冶金领域文本中的语义特征和信息。
[0011]
(4)已有的命名实体识别模型无法充分利用有色冶金领域文本当中标签的先验知识,影响了命名实体识别的准确率。


技术实现要素:

[0012]
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种有色冶金命名实体识别方法、装置及系统和存储介质,以提高命名实体识别的准确率。
[0013]
根据本发明的第一方案,提供了一种有色冶金命名实体识别方法,所述方法包括:
[0014]
获取有色冶金领域数据集并对所述有色冶金领域数据集进行处理得到标注数据集和问答数据集;
[0015]
将所述标注数据集和问答数据集分别转换为第一词向量和第二词向量;
[0016]
将所述第一词向量和第二词向量进行融合,得到融合的词向量;
[0017]
对融合的词向量进行特征提取,得到特征向量;
[0018]
对所述特征向量进行识别,输出嵌套命名实体当中的所有实体。
[0019]
进一步地,采用bio序列标注方法对有色冶金领域数据集进行标注得到标注数据集。
[0020]
进一步地,通过如下方法对所述有色冶金领域数据集进行处理得到问答数据集:
[0021]
给定文本x={x1,x2,...,xn},其中xn为文本当中的每一个字符,n为给定文本长度,对于在文本当中的每一个命名实体表示为x
start,end
={x
sstart
,...,x
end
};
[0022]
在构建问答数据集时,为每一个实体标签分配一个自然语言形式的问题qy=q1,q2,...,qm,其中m是问题qy的长度,则每一个在文本当中的实体就表示成三元组(qy,
x
start,end
,x),所述三元组是每一个实体在问答数据集当中的表现形式。
[0023]
进一步地,基于注意力机制,所述将所述第一词向量和第二词向量进行融合,得到融合的词向量,具体包括:
[0024]
在进行语义融合前准备两种具有不同语言特征且共享权重的第一词向量h
x
和第二词向量hy,其中,其中n为一条标注数据集的长度,|c|和m分别表示一条问答数据集中实体类别的数量和长度,,表示输入模型当中文本的表示;
[0025]
让h
x
和hy通过一个全连接层,得到h

x
和h
′y,其中是h

x
中第i个实体的表示,是h
′y中第c类的第j个实体的表示;
[0026]
将看作注意力机制中的query,看作注意力机制中的key,利用公式(1)计算得到和的点积之后,再通过softmax函数来获得注意力权重
[0027][0028][0029]
利用公式(3)将得到的注意力权重进行加权求和之后,再通过公式(4)计算得到最终融合后的词向量表示使得包含了实体类别c的先验知识:
[0030][0031][0032]
进一步地,所述对融合的词向量进行特征提取,得到特征向量,具体包括:
[0033]
基于bilstm网络模型,所述基于bilstm网络模型包括向前的lstm模型和向后的lstm模型;
[0034]
首先是删除操作:通过遗忘门来决定可以通过模型的信息,所述遗忘门的输入是h
t-1
和x
t
,其中h
t-1
和x
t
分别表示上一时刻lstm模型的输出和当前时刻lstm模型的输入,通过sigmoid函数运算得到的输出f
t
是一个数值在0和1之间同时形状和向量c
t-1
相同的向量,以此再和输入进来的向量c
t-1
进行线性运算时,能够控制向量c
t-1
的信息通过比重;输出f
t
的计算公式如(5)所示:
[0035]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0036]
其中,bf表示遗忘门中的偏置参数;
[0037]
然后是添加操作:lstm模型通过输入门来决定多少新的信息可以传入到当前信息中;在输入门中,首先利用h
t-1
和x
t
分别经过sigmoid函数和tanh函数计算得到i
t
和i
t
决定了输入门中有多少新的信息可以传入到当前信息,表示新的信息。然后将i
t
和进行线性运算之后再对输入进来的向量进行更新,最后得到更新之后的向量c
t
;i
t
和以及c
t
的计算公式如(6)(7)(8)所示:
[0038]it
=σ(wi·
[h
t-1
,x
t
]+bi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0039][0040]
[0041]
其中,wi和wc表示输入门中的权重参数,bi表示输入门中的偏置参数;
[0042]
最后是输出操作:lstm模型通过输出门来对输出的信息进行过滤操作并输出;在输出门中,首先利用h
t-1
和x
t
经过sigmoid函数计算得到o
t
,然后将经过tanh函数计算得到的c
t
与o
t
进行线性运算,得到最后的结果h
t
,其中o
t
和h
t
的计算公式如(9)(10)所示:
[0043]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0044]ht
=o
t
·
tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0045]
其中,wo表示输出门中的权重参数,bo表示输出门中的偏置参数。
[0046]
进一步地,所述对所述特征向量进行识别,输出嵌套命名实体当中的所有实体,具体包括:
[0047]
通过两个预测器预测嵌套实体的位置,得到预测之后实体的起始位置o
start
和结束位置o
end

[0048]
将原来实体的位置范围进行一定程度地扩大,得到新的起始位置n
start
和结束位置n
end

[0049]nstart
=d
start
·ostart
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0050]nend
=d
end
·oend
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0051]
对n
start
和n
end
之间的范围进行遍历,的带所有实体可能开始位置和结束位置的集合
[0052]
通过公式(13)预测每一对开始位置和结束位置匹配的概率pi:
[0053][0054]
若pi≥0.5,则和之间的实体为嵌套命名实体的子命名实体,并进行输出。
[0055]
根据本发明的第二技术方案,提供一种有色冶金命名实体识别装置,所述装置包括:
[0056]
数据集处理模块,被配置为获取有色冶金领域数据集并对所述有色冶金领域数据集进行处理得到标注数据集和问答数据集;
[0057]
特征转换模块,被配置为将所述标注数据集和问答数据集分别转换为第一词向量和第二词向量;
[0058]
信息融合模块,被配置为将所述第一词向量和第二词向量进行融合,得到融合的词向量;
[0059]
特征提取模块,被配置为对融合的词向量进行特征提取,得到特征向量;
[0060]
定位输出模块,被配置为对所述特征向量进行识别,输出嵌套命名实体当中的所有实体。
[0061]
根据本发明的第三技术方案,提供一种有色冶金命名实体识别系统,所述系统包括:
[0062]
存储器,用于存储计算机程序;
[0063]
处理器,用于执行所述计算机程序以实现如上所述的方法。
[0064]
根据本发明的第四技术方案,提供一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行如上所述的方法。
[0065]
根据本发明各个方案的有色冶金命名实体识别方法、装置及系统和存储介质,其
至少具有以下技术效果:
[0066]
本发明构建了有色冶金领域命名实体识别数据集,并提出了meab命名实体识别模型。首先,在该模型中引入了mrc框架,将传统命名实体识别模型中的序列标注与问答任务相结合,提高模型对普通实体和嵌套命名实体的识别准确率;然后,在该模型中使用ernie预训练模型将序列标注后的标注数据集和引入自然语言问题的问答数据集转化为词向量,使模型能够充分提取出文本当中的语义特征和信息;接着,引入注意力机制作为模型的信息融合层,将通过ernie处理的两类文本特征向量进行融合,使模型能够充分利用标签当中的先验知识,并通过bilstm模型进一步提取语义特征和信息;最后,通过多层嵌套实体识别器输出在嵌套命名实体中的所有实体。相比其他模型该模型可以更好地提取和利用文本当中的特征和先验知识,提高了对嵌套命名实体的识别准确率,并能输出嵌套命名实体当中的所有实体。
附图说明
[0067]
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
[0068]
图1示出了根据本发明实施例的meab模型结构图。
[0069]
图2示出了根据本发明实施例的一种有色冶金命名实体识别方法的流程图。
[0070]
图3示出了根据本发明实施例的ernie的多阶段掩盖策略示意图。
[0071]
图4示出了根据本发明实施例的lstm模型结构图。
[0072]
图5示出了根据本发明实施例的一种有色冶金命名实体识别装置的结构图。
具体实施方式
[0073]
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
[0074]
本发明实施例提供一种有色冶金命名实体识别方法,针对研究领域的独特性和现有方法在命名实体识别任务中的不足,该方法通过构建meab模型进行有色冶金领域文本命名实体的识别,模型的结构如图1所示,该模型主要有文本输入层、特征转换层、信息融合层、特征提取层和定位输出层五大模块。在文本输入层中,标注数据集和问答数据集会被输入进ernie预训练模型中,在特征转换层ernie预训练模型会将两种数据集转换为词向量,在信息融合层会将这两种词向量进行融合,使融合的词向量同时具有原始文本的语义信息和标签本身所具有的先验知识,并提交给特征提取层。在特征提取层会从前后两个方向对长距离的文本特征和潜在语义信息进行充分提取,最后在定位输出层输出嵌套命名实体当
中的所有实体。
[0075]
请参阅图2所示,有色冶金命名实体识别方法具体包括如下步骤:
[0076]
步骤s100,获取有色冶金领域数据集并对所述有色冶金领域数据集进行处理得到标注数据集和问答数据集。
[0077]
需要说明的是,有色冶金领域数据集的收集与实体类别定义可以通过如下方式进行:针对有色冶金产业的特点,经过研究发现其主要的数据来源以新闻报道、企业年报、专利信息和期刊论文为主。对于新闻报道数据,本文采用了网络爬虫技术从今日头条、新浪微博等新闻媒体平台进行了收集。虽然相比于其他的数据来源新闻报道的数据量很大,但是新闻报道数据整体的文本结构比较松散,其中包含了很多与正文无关的多余信息,所以为了最终模型的识别效率,需要对文本进行去噪处理。对于企业年报数据和专利信息,因为这类数据整体的文本结构比较紧密,所以直接使用即可。对于期刊论文类的数据,鉴于其摘要已经对论文整体进行了总结,所以直接选用摘要作为数据集。最终收集到了20000多条有色冶金领域的文本,总共有300多万字。
[0078]
针对构建产业企业画像和产业知识图谱的命名实体需求,定义的产业实体类别一共有六种:人名,企业名称,组织名称,产品名称,项目名称,技术名称。各个实体类别的标注符号以及实例如表1所示。
[0079]
表1实体标注符号及其实例
[0080][0081]
由于有色冶金领域命名实体识别研究的独特性和复杂性,在构建的有色冶金领域数据集中存在大量的嵌套命名实体,大大增加了实体识别的难度。有色冶金领域数据集中不同实体类型的嵌套命名实体占比如表2所示。
[0082]
表2不同类型实体嵌套命名实体占比
[0083][0084][0085]
例如在某新闻报道中出现的命名实体“金川集团镍钴资源产品开发创新联合体”中就包含了多层实体,其最外层的为org实体:“金川集团镍钴资源产品开发创新联合体”,其内部也包含com实体:“金川集团”,pro实体:“镍”、“钴”,org实体:“开发创新联合体”。同时在pro类别的实体中,很多实体都包含了大小写字母和特殊的字符,如“ni999(0#镍)”,其内部就包含了字母、数字和特殊字符,在其中也存在另一种pro实体:“镍”。
[0086]
传统的命名实体识别方法只能准确识别非嵌套的命名实体,对于嵌套的命名实体识别准确率不高,并且无法完全提取出这些嵌套命名实体中的内部实体,由此可能会导致没有获取到足够的实体去构建有色冶金产业的企业画像和产业知识图谱。因此本文设计了多层嵌套实体识别器来满足识别多层嵌套实体的需求。
[0087]
在进行命名实体识别时,首先需要对文本当中的每个实体进行标注,为了提高实体标注的效率,本文使用了label studio软件工具对有色冶金领域数据集进行了实体标注。在标注方法的选择上,本文采用bio序列标注方法对有色冶金领域数据集进行标注。其中b标识实体的开始,i标识实体的中间部分,o表示文本当中的非实体部分,每种实体的开始标签和中间标签如表3所示。
[0088]
表3 实体的开始标签和中间标签
[0089][0090]
为了将mrc框架引入有色冶金领域命名实体识别任务当中,还需要将数据集转换为问答数据集。若给定的文本为x={x1,x2,...,xn},其中xi为文本当中的每一个字符,n为
给定文本长度,而对于在文本当中的每一个命名实体就可以表示为x
start,end
={x
start
,...,x
end
}。在构建问答数据集时,需要为每一个实体标签分配一个自然语言形式的问题qy=q1,q2,...,qm,其中m是问题qy的长度。则每一个在文本当中的实体就可以表示成三元组(qy,x
start,end
,x),这也是每一个实体在问答数据集当中的表现形式。
[0091]
基于此,对于每一个实体它的自然语言形式的问题就非常重要,因为问题中会包含着当前实体标签的先验知识,这对最终模型的效果有显著影响。经过分析和比较,最终选择以引导说明的方式构建实体的自然语言形式的问题,每种实体及其对应的自然语言问题如表4所示。
[0092]
表4 实体类型及其对应的自然语言问题
[0093][0094]
步骤s100可以通过如图1所示的meab模型中的文本输入层来实现文本的输入,其中文本输入层实现为mcr框架,mrc任务就是先让计算机识别给定文本当中的语义信息,然后对应的给一个问题,让计算机根据识别到的语义信息去回答问题,且问题的答案必须是能够在给定文本当中找到的一段话或者是几个词。mrc任务可以分为四个子任务,即填空型阅读理解任务、选择型阅读理解任务、片段抽取型阅读理解任务以及自由回答型阅读理解任务,随着nlp技术的不断进步,四种mrc任务都有着快速的发展,主要体现为从限定文本到结合外部知识,从关注特定片段到上下文理解。在命名实体识别任务中借助mrc框架,可以更加快速有效地识别出嵌套的命名实体,同时,在一定程度上也可以提高非嵌套命名实体的识别准确率。
[0095]
步骤s200,将所述标注数据集和问答数据集分别转换为第一词向量和第二词向量。
[0096]
本实施例中,步骤s200可以通过特征转换层来实现,其中特征转换层可以实现为ernie预训练模型,通过ernie预训练模型将标注数据集和问答数据集分别转换为第一词向量和第二词向量。
[0097]
随着深度学习的不断发展,bert等自然语言预处理模型可以很好地捕捉原始文本当中的语义模式,并可以根据不同的nlp任务进行微调。但是现有的预训练模型很少有结合
到知识图谱,而知识图谱可以提供丰富的结构化知识,并可以更好的进行语义的理解,因为知识图谱当中有很多富含信息的实体和外部知识可以增强文本的语义特征。而ernie就是利用知识图谱和大规模中文语料训练得到的语言表征模型,它可以充分利用语法、语义还有知识的优势。相关实验表明,ernie相比bert等预训练模型在实体识别、问答系统、语言推理和文本分类当中可以达到较好的效果。
[0098]
ernie和bert都是基于transformer中encoder层的大规模预训练语言模型。相比于bert,ernie改进了bert在mlm(masked lm)预训练任务中的掩盖策略,提出了一种多阶段的掩盖策略代替了在bert中知识的直接嵌入,将短语和知识实体集成到了文本的语言特征当中,ernie的多阶段掩盖策略如图3所示。首先第一个阶段是基础掩盖,中文的基本语言单元是汉字,在进行训练时随机掩盖15%的基本语言单元,其他的基本语言单元作为输入来预测被掩盖的基本语言单元,但是由于这种方式只是在基本语义单元的掩盖策略上训练的,所以模型很难提取到文本的深层语义特征。第二个阶段是短语掩盖,在进行训练时随机掩盖文本中的几个短语,这其中包括短语里面的所有基本语言单元,然后对被掩盖的基本语言单元进行预测。第三个阶段是实体掩盖,在进行训练时对所有命名实体进行掩盖和预测。经过这三个阶段,ernie可以学习到文本中知识的依赖以及更长的语义依赖来让模型更具泛化性。
[0099]
步骤s300,将所述第一词向量和第二词向量进行融合,得到融合的词向量。
[0100]
单纯的在命名实体识别任务中使用mrc模块,虽然会比传统的命名实体识别方法有一定的提升,但是将mrc模块简单的加入命名实体识别模型,即将问答数据集作为模型单一的输入之后,模型并没有充分利用到标签的知识信息。为了让模型充分抽取到原始文本的特征,并让模型能够利用标签所包含的先验知识,本文将模型的输入分为了两部分,一部分是bio标注之后的标注数据集,另一部分是将实体转换为三元组(qy,x
start,end
,,x)的问答数据集。将两部分同时输入进ernie预训练模型,进而可以得到两种具有不同语言特征的词向量,再将两种词向量进行信息融合,就可以让模型同时学习到原始文本的信息和标签本身所具有的先验知识。
[0101]
在一些实施例中,基于注意力机制,所述将所述第一词向量和第二词向量进行融合,得到融合的词向量,具体包括:
[0102]
(1)在进行语义融合前准备两种具有不同语言特征且共享权重的第一词向量h
x
和第二词向量hy,其中n为一条标注数据集的长度,|c|和m分别表示一条问答数据集中实体类别的数量和长度,表示输入模型当中文本的表示;
[0103]
(2)让h
x
和hy通过一个全连接层,得到h

x
和h
′y,其中是h

x
中第i个实体的表示,是h
′y中第c类的第j个实体的表示;
[0104]
(3)将看作注意力机制中的query,看作注意力机制中的key,利用公式(1)计算得到和的点积之后,再通过softmax函数来获得注意力权重
[0105][0106]
[0107]
(4)利用公式(3)将得到的注意力权重进行加权求和之后,再通过公式(4)计算得到最终融合后的词向量表示使得包含了实体类别c的先验知识:
[0108][0109][0110]
最后,对每一条标注数据集和问答数据集都进行上述流程,就可以得到经过信息融合之后的词向量表示。
[0111]
步骤s400,对融合的词向量进行特征提取,得到特征向量。
[0112]
本实施例中,步骤s400可以基于meab模型中的特征提取层实现,其中该特征提取层可以为bilstm网络。rnn是一种用于处理序列数据的神经网络,相比于一般的神经网络来说它能够很好地处理序列变化的数据,例如相同文本在不同语境下的不同含义。但是普通的rnn会存在梯度消失和梯度爆炸的问题,lstm针对以上问题对rnn进行了改进,,它可以在学习过程中对有价值的信息进行记忆,放弃冗余的记忆,所以相比于普通的rnn,lstm在更长的序列中有更好的表现。但是在识别文本的语义特征时,单一的lstm模型无法提取从后向前的语义信息,从而导致最后识别精度的降低。而bilstm则是由向前的lstm与向后的lstm组合而成,所以bilstm可以更好地捕获文本的双向语义。
[0113]
lstm的结构如图4所示。在图4中,向量c
t-1
经过lstm模型然后以c
t
作为输出,在整个向量的传输过程中只是经过了简单的线性操作,这样可以实现长期的记忆保留。对于信息的更新和输出,lstm也可以通过门控机制进行实现。
[0114]
基于bilstm网络模型,所述基于bilstm网络模型包括向前的lstm模型和向后的lstm模型;
[0115]
首先是删除操作:通过遗忘门来决定可以通过模型的信息,所述遗忘门的输入是h
t-1
和x
t
,其中h
t-1
和x
t
分别表示上一时刻lstm模型的输出和当前时刻lstm模型的输入,通过sigmoid函数运算得到的输出f
t
是一个数值在0和1之间同时形状和向量c
t-1
相同的向量,以此再和输入进来的向量c
t-1
进行线性运算时,能够控制向量c
t-1
的信息通过比重;输出f
t
的计算公式如(5)所示:
[0116]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0117]
其中,bf表示遗忘门中的偏置参数;
[0118]
然后是添加操作:lstm模型通过输入门来决定多少新的信息可以传入到当前信息中;在输入门中,首先利用h
t-1
和x
t
分别经过sigmoid函数和tanh函数计算得到i
t
和i
t
决定了输入门中有多少新的信息可以传入到当前信息,表示新的信息,然后将i
t
和进行线性运算之后再对输入进来的向量进行更新,最后得到更新之后的向量c
t
;i
t
和以及c
t
的计算公式如(6)(7)(8)所示:
[0119]it
=σ(wi·
[h
t-1
,x
t
]+bi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0120][0121][0122]
其中,wi和wc表示输入门中的权重参数,bi表示输入门中的偏置参数;
[0123]
最后是输出操作:lstm模型通过输出门来对输出的信息进行过滤操作并输出;在
输出门中,首先利用h
t-1
和x
t
经过sigmoid函数计算得到o
t
,然后将经过tanh函数计算得到的c
t
与o
t
进行线性运算,得到最后的结果h
t
,其中o
t
和h
t
的计算公式如(9)(10)所示:
[0124]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0125]ht
=o
t
·
tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0126]
其中,wo表示输出门中的权重参数,bo表示输出门中的偏置参数。
[0127]
步骤s500,对所述特征向量进行识别,输出嵌套命名实体当中的所有实体。
[0128]
本实施例中,步骤s500可以基于meab模型中的定位输出层实现,其中该定位输出层可以为多层嵌套实体识别器。
[0129]
mrc框架抽取答案的方法是识别答案的开始位置和结束位置,即设置两个预测器,两个预测器分别预测答案的开始位置和结束位置,但是这方法只能得到一个答案,无法处理句子中有多层实体的问题。
[0130]
为了让模型识别出嵌套命名实体当中的多层实体,本文在mrc抽取方法的基础上进行了改进,其过程如下。
[0131]
通过两个预测器预测嵌套实体的位置,得到预测之后实体的起始位置o
start
和结束位置o
end

[0132]
将原来实体的位置范围进行一定程度地扩大,得到新的起始位置n
start
和结束位置n
end

[0133]nstart
=d
start
·ostart
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0134]nend
=d
end
·oend
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0135]
对n
start
和n
end
之间的范围进行遍历,的带所有实体可能开始位置和结束位置的集合
[0136]
通过公式(13)预测每一对开始位置和结束位置匹配的概率pi:
[0137][0138]
若pi≥0.5,则和之间的实体为嵌套命名实体的子命名实体,并进行输出(在比较模型识别精度时选择概率最大的实体与原实体进行比较)。
[0139]
下面本发明实施例将结合具体的实验来进一步地说明该方法的可行性和进步性。
[0140]
在选取评价指标时,本文选取了精确率(p),召回率(r)和f1值来评价模型的命名实体识别的效果,评价指标的计算公式如(14)(15)(16)所示。
[0141][0142][0143][0144]
本次实验基于tensorflow1.12.0搭建了模型,为了验证模型识别有色冶金领域命名实体的性能,对本文构建的产业文本数据集进行了实验。同时为了证明该模型在命名实体识别任务中的泛化性,本文还选取了msra公共数据集进行了实验。msra数据集是微软亚洲研究院提供的命名实体识别数据集,在数据集中包含了人名、地名和组织机构名三种实体类型。在实验过程中,两种数据集均按照3:1:1划分为训练集、验证集和测试集,在每种数
据集的基础上又将该数据集分为标注数据集和问答数据集两种输入类型,两种数据集的相关数据统计如表5所示。同时,本文构建的模型以及选取的基线模型在两种数据集实验中所选取的参数均相同,模型部分共有参数如表6所示。
[0145]
表5数据集数据统计
[0146]
统计量有色冶金领域文本数据集mrc数据集实体种类63总实体数989657487嵌套实体占比52.2%6.7%训练集实体数638824892验证集实体数165411230测试集实体数185421365
[0147]
表6模型部分共有参数设置
[0148][0149][0150]
为了验证本文构建的meab模型在命名实体识别任务当中的效果,并证明meab模型中所采用的各个模块对命名实体的识别是有提升的,本文选取了如下基线模型进行对比。
[0151]
(1)bert:该模型仅使用bert进行命名实体的识别,输入数据为标注数据集。
[0152]
(2)ernie:该模型仅使用ernie进行命名实体的识别,输入数据为标注数据集。
[0153]
(3)bilstm-crf:该模型是nlp命名实体识别任务当中的经典模型,输入数据为标注数据集。
[0154]
(4)ernie-crf:该模型利用ernie先将标注数据集进行编码,再通过crf进行解码输出。
[0155]
(5)ernie-bilstm-crf:该模型利用ernie先将标注数据集进行编码,再通过bilstm模型进行特征提取,最后通过crf进行解码输出。
[0156]
(6)mrc-bert:该模型在bert的基础上加入了mrc框架,输入数据为问答数据集。
[0157]
(7)mrc-ernie:该模型在ernie的基础上加入了mrc框架,输入数据为问答数据集。
[0158]
(8)mrc-ernie-bilstm:该模型在mrc-ernie的基础上加入了bilstm模型进行特征
提取,输入数据为问答数据集。
[0159]
(9)mrc-ernie-bilstm-c:该模型在mrc-ernie-bilstm基础上加入了meab模型中的多层嵌套实体识别器,以验证该识别器的效果。但是相比meab模型,该模型没有信息融合层,即该模型的输入数据也仅为问答数据集。
[0160]
本文构建的meab模型以及基线模型在有色冶金领域文本数据集中的实验结果如表7所示。实验结果可以表明,相比其他基线模型,本文构建的meab模型在有色冶金领域命名实体识别任务当中效果为最优,它的精确率、召回率和f1值分别达到了78.77%、79.76%和79.26%。
[0161]
在实验结果中,ernie相比bert在精确率、召回率和f1值上分别高了4.35、5.25和4.80个百分点,且在加入了mrc框架之后,mrc-ernie仍比mrc-bert分别高了3.87、4.73和3.30个百分点,可以证明ernie相比bert在有色冶金领域命名实体识别任务当中更占优势。
[0162]
在mrc-ernie和ernie、mrc-bert和bert的比较中可以发现,在有色冶金领域命名实体识别任务当中加入mrc框架之后表现更优,在精确率、召回率和f1值上分别比原生的ernie和bert高出了8.02、7.78、6.75和8.50、8.30、8.40个百分点。
[0163]
相比mrc-ernie,mrc-ernie-bilstm在精确率、召回率和f1值上分别高了1.85、1.11和2.48个百分点,可以证明引入bilstm模型作为特征提取层可以更好地提取到文本当中的语义特征。
[0164]
表7有色冶金领域数据集实验结果
[0165][0166]
为了进一步验证本文构建的meab模型在有色冶金领域嵌套命名实体的识别上是
有效的,本文选取了数据集中嵌套命名实体占比最高的pro类实体和org类实体进行对比,两者的实验结果如表8和表9所示。加入了定位输出层之后,在pro类型实体中mrc-ernie-bilstm-c相比mrc-ernie-bilstm在精确率、召回率和f1值上分别高了7.83、7.69和7.76个百分点,同时在org类型实体中也提高了3.31、0.79和2.04个百分点。可以证明本文提出的多层嵌套实体识别器在有色冶金领域的嵌套命名实体识别任务当中是有效的。
[0167]
本文构建的meab模型在mrc-ernie-bilstm-c的基础上加入了信息融合层之后,相比mrc-ernie-bilstm-c在rpo和org类型实体的识别上分别提升了1.71、0.75、1.24和0.79、2.11、1.46个百分点,可以证明本文引入的多输入信息融合策略在有色冶金领域的嵌套命名实体识别中是有效的。在有色冶金领域文本数据集中全类别实验的相似实验结果,也可以证明多层嵌套实体识别器和多输入信息融合策略是有效的。
[0168]
表8有色冶金产业领域数据集中pro类型实体实验结果
[0169]
模型名称精确率召回率f1值mrc-ernie-bilstm62.04%63.50%62.76%mrc-ernie-bilstm-c69.87%71.19%70.52%meab71.58%71.94%71.76%
[0170]
表9有色冶金领域数据集中org类型实体实验结果
[0171]
模型名称精确率召回率f1值mrc-ernie-bilstm70.24%71.30%70.77%mrc-ernie-bilstm-c73.55%72.09%72.81%meab74.34%74.20%74.27%
[0172]
分析实验结果可以发现,由于有色冶金领域数据集的实体类别较多且个别类别的实体较为复杂,导致bilstm-crf这种经典的命名实体识别模型性能较差,而且bilstm-crf只能有效识别非嵌套的命名实体,无法识别多层嵌套的命名实体。对于只是简单使用了bert、ernie预训练模型的方法,虽然比bilstm-crf模型在性能上有一定的提升,但是这种提升只是在文本语义信息的提取方面,对于多层嵌套的命名实体的识别效率提升不大。本文提出的meab模型在ernie和bilstm充分提取文本语义信息的基础上,引入了mrc框架和基于attention的信息融合机制,加强了模型对嵌套命名实体识别的整体性能,同时针对数据集中多层嵌套实体的特点,设计了一种多层嵌套实体识别器,对多层嵌套实体进行比较并提取。因此本文提出的meab模型在识别有色冶金命名实体时具有更好的性能,优于其他基线模型。
[0173]
4.5 msra数据集实验
[0174]
本文构建的meab模型以及基线模型在msra数据集中的实验结果如表10所示。实验结果可以表明,相比其他基线模型,本文构建的meab模型在msra数据集中的命名实体识别效果为最优,它的精确率、召回率和f1值分别达到了97.70%、97.90%和97.80%。可以证明本文提出的meab模型在命名实体识别任务当中具有一定泛化性。
[0175]
表10 msra数据集实验结果
[0176]
模型名称精确率召回率f1值bert87.84%86.70%87.27%
ernie89.85%92.90%91.35%bilstm-crf84.27%87.30%85.76%ernie-crf90.53%91.08%91.16%ernie-bilstm-crf92.11%92.20%92.15%mrc-bert93.92%92.07%93.31%mrc-ernie95.28%94.90%95.09%mrc-ernie-bilstm96.22%96.60%96.41%mrc-ernie-bilstm-c97.70%97.50%97.60%meab97.70%97.90%97.80%
[0177]
为测试本文构建的meab模型的计算复杂度,本文选取了一段有色冶金领域文本在相同实验环境下对已经训练好的模型进行了实验。该段文本样本总量为1894个字符,包含了6种42个命名实体,实验结果如表11所示。由于本文构建的meab模型使用了ernie预训练模型和bilstm模型,所以在参数量方面相比bert稍大,未采用预训练模型的bilstm-crf模型参数量最小。在样本计算耗时方面,bert和meab模型相差不大,虽然bilstm-crf模型耗时最短,但是在精确率方面bilstm-crf模型最差,meab模型的精确率最高。虽然meab模型结构相对复杂,但是综合考虑模型的实用性,本文构建的meab模型为最优。
[0178]
表11计算复杂度实验结果
[0179]
模型名称参数量样本计算耗时精确率bert104m6.58s59.52%bilstm-crf3m2.30s45.24%meab105m6.72s76.19%
[0180]
综上所述,有色冶金领域命名实体识别是构建有色冶金产业企业画像和建立产业知识图谱的重要信息来源和依据。鉴于当前有色冶金领域命名实体数据集缺失的问题,本文首先构建了有色冶金产业领域命名实体识别的数据集,并在此基础上构建了标注数据集和问答数据集。然后本文在mrc框架、ernie预训练模型和bilstm模型的基础上,引入了信息融合策略和多层嵌套实体识别器,构建了meab命名实体识别模型。相比已有的命名实体识别模型,该模型可以充分提取出文本原有的语义特征,并更好的利用标签当中的先验知识,提高了对命名实体包括嵌套命名实体的识别准确率。在本文构建的有色冶金领域命名实体识别数据集上的实验表明,meab模型可以有效识别数据集中的嵌套命名实体和非嵌套命名实体,精确率、召回率和f1值分别达到了78.77%、79.76%和79.26%。同时,meab模型在msra公共数据集中的精确率、召回率和f1值也分别达到了97.70%、97.90%和97.80%,验证了该模型在命名实体识别任务中的泛化性。在后续的研究中,可以进一步完善并扩大有色冶金领域的语料库,并在有色冶金领域命名实体识别的基础上构建有色冶金产业的企业画像,建立产业的知识图谱。
[0181]
本发明实施例还提供一种有色冶金命名实体识别装置,请参阅图5,图5示出了根据本发明实施例的一种有色冶金命名实体识别装置的结构图。所述装置500包括:
[0182]
数据集处理模块501,被配置为获取有色冶金领域数据集并对所述有色冶金领域数据集进行处理得到标注数据集和问答数据集;
[0183]
特征转换模块502,被配置为将所述标注数据集和问答数据集分别转换为第一词
向量和第二词向量;
[0184]
信息融合模块503,被配置为将所述第一词向量和第二词向量进行融合,得到融合的词向量;
[0185]
特征提取模块504,被配置为对融合的词向量进行特征提取,得到特征向量;
[0186]
定位输出模块505,被配置为对所述特征向量进行识别,输出嵌套命名实体当中的所有实体。
[0187]
在一些实施例中,所述数据集处理模块被进一步配置为采用bio序列标注方法对有色冶金领域数据集进行标注得到标注数据集。
[0188]
在一些实施例中,所述数据集处理模块被进一步配置为:
[0189]
给定文本x={x1,x2,...,xn},其中xn为文本当中的每一个字符,n为给定文本长度,对于在文本当中的每一个命名实体表示为x
start,end
={x
sstart
,...,x
end
};
[0190]
在构建问答数据集时,为每一个实体标签分配一个自然语言形式的问题qy=q1,q2,...,qm,其中m是问题qy的长度,则每一个在文本当中的实体就表示成三元组(qy,x
start,end
,x),所述三元组是每一个实体在问答数据集当中的表现形式。
[0191]
在一些实施例中,所述信息融合模块被进一步配置为::
[0192]
在进行语义融合前准备两种具有不同语言特征且共享权重的第一词向量h
x
和第二词向量hy,其中n为一条标注数据集的长度,|c|和m分别表示一条问答数据集中实体类别的数量和长度,,表示输入模型当中文本的表示;
[0193]
让h
x
和hy通过一个全连接层,得到h

x
和h
′y,其中是h

x
中第i个实体的表示,是h
′y中第c类的第j个实体的表示;
[0194]
将看作注意力机制中的query,看作注意力机制中的key,利用公式(1)计算得到和的点积之后,再通过softmax函数来获得注意力权重
[0195][0196][0197]
利用公式(3)将得到的注意力权重进行加权求和之后,,再通过公式(4)计算得到最终融合后的词向量表示使得包含了实体类别c的先验知识:
[0198][0199][0200]
在一些实施例中,所述特征提取模块被进一步配置为:
[0201]
基于bilstm网络模型,所述基于bilstm网络模型包括向前的lstm模型和向后的lstm模型;
[0202]
首先是删除操作:通过遗忘门来决定可以通过模型的信息,所述遗忘门的输入是h
t-1
和x
t
,其中h
t-1
和x
t
分别表示上一时刻lstm模型的输出和当前时刻lstm模型的输入,通过sigmoid函数运算得到的输出f
t
是一个数值在0和1之间同时形状和向量c
t-1
相同的向量,以此再和输入进来的向量c
t-1
进行线性运算时,能够控制向量c
t-1
的信息通过比重;输出f
t

计算公式如(5)所示:
[0203]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0204]
其中,bf表示遗忘门中的偏置参数;
[0205]
然后是添加操作:lstm模型通过输入门来决定多少新的信息可以传入到当前信息中;在输入门中,首先利用h
t-1
和x
t
分别经过sigmoid函数和tanh函数计算得到i
t
和i
t
决定了输入门中有多少新的信息可以传入到当前信息,表示新的信息。然后将i
t
和进行线性运算之后再对输入进来的向量进行更新,最后得到更新之后的向量c
t
;i
t
和以及c
t
的计算公式如(6)(7)(8)所示:
[0206]it
=σ(wi·
[h
t-1
,x
t
]+bi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0207][0208][0209]
其中,wi和wc表示输入门中的权重参数,bi表示输入门中的偏置参数;
[0210]
最后是输出操作:lstm模型通过输出门来对输出的信息进行过滤操作并输出;在输出门中,首先利用h
t-1
和x
t
经过sigmoid函数计算得到o
t
,然后将经过tanh函数计算得到的c
t
与o
t
进行线性运算,得到最后的结果h
t
,其中o
t
和h
t
的计算公式如(9)(10)所示:
[0211]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0212]ht
=o
t
·
tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0213]
其中,wo表示输出门中的权重参数,bo表示输出门中的偏置参数。
[0214]
在一些实施例中,所述定位输出模块被进一步配置为:
[0215]
通过两个预测器预测嵌套实体的位置,得到预测之后实体的起始位置o
start
和结束位置o
end

[0216]
将原来实体的位置范围进行一定程度地扩大,得到新的起始位置n
start
和结束位置n
end

[0217]nstart
=d
start
·ostart
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0218]nend
=d
end
·oend
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0219]
对n
start
和n
end
之间的范围进行遍历,的带所有实体可能开始位置和结束位置的集合
[0220]
通过公式(13)预测每一对开始位置和结束位置匹配的概率pi:
[0221][0222]
若pi≥0.5,则和之间的实体为嵌套命名实体的子命名实体,并进行输出。
[0223]
需要注意,描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块也可以设置在处理器中。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
[0224]
本发明实施例所提到的有色冶金命名实体识别装置与在先阐述的方法属于同一技术构思,其起到的技术效果基本一致,此处不赘述。
[0225]
本发明实施例还提供一种有色冶金命名实体识别系统,所述系统包括:
[0226]
存储器,用于存储计算机程序;
[0227]
处理器,用于执行所述计算机程序以实现本发明任一实施例的水面多尺度目标方法。
[0228]
本发明实施例还提供了一种存储有指令的非暂时性计算机可读介质,当指令由处理器执行时,执行根据本发明任一实施例所述的水面多尺度目标方法。
[0229]
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本技术的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
[0230]
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

技术特征:
1.一种有色冶金命名实体识别方法,其特征在于,所述方法包括:获取有色冶金领域数据集并对所述有色冶金领域数据集进行处理得到标注数据集和问答数据集;将所述标注数据集和问答数据集分别转换为第一词向量和第二词向量;将所述第一词向量和第二词向量进行融合,得到融合的词向量;对融合的词向量进行特征提取,得到特征向量;对所述特征向量进行识别,输出嵌套命名实体当中的所有实体。2.根据权利要求1所述的方法,其特征在于,采用bio序列标注方法对有色冶金领域数据集进行标注得到标注数据集。3.根据权利要求1所述的方法,其特征在于,通过如下方法对所述有色冶金领域数据集进行处理得到问答数据集:给定文本x={x1,x2,...,x
n
},其中x
n
为文本当中的每一个字符,n为给定文本长度,对于在文本当中的每一个命名实体表示为x
start,end
={x
sstart
,...,x
end
};在构建问答数据集时,为每一个实体标签分配一个自然语言形式的问题q
y
=q1,q2,...,q
m
,其中m是问题q
y
的长度,则每一个在文本当中的实体就表示成三元组(q
y
,x
start,end
,x),所述三元组是每一个实体在问答数据集当中的表现形式。4.根据权利要求1所述的方法,其特征在于,基于注意力机制,所述将所述第一词向量和第二词向量进行融合,得到融合的词向量,具体包括:在进行语义融合前准备两种具有不同语言特征且共享权重的第一词向量h
x
和第二词向量h
y
,其中n为一条标注数据集的长度,|c|和m分别表示一条问答数据集中实体类别的数量和长度,,表示输入模型当中文本的表示;让h
x
和h
y
通过一个全连接层,得到h

x
和h

y
,其中是h

x
中第i个实体的表示,是h

y
中第c类的第j个实体的表示;将看作注意力机制中的query,看作注意力机制中的key,利用公式(1)计算得到和的点积之后,再通过softmax函数来获得注意力权重的点积之后,再通过softmax函数来获得注意力权重的点积之后,再通过softmax函数来获得注意力权重利用公式(3)将得到的注意力权重进行加权求和之后,,再通过公式(4)计算得到最终融合后的词向量表示使得包含了实体类别c的先验知识:包含了实体类别c的先验知识:5.根据权利要求1所述的方法,其特征在于,所述对融合的词向量进行特征提取,得到特征向量,具体包括:基于bilstm网络模型,所述bilstm网络模型包括向前的lstm模型和向后的lstm模型;
首先是删除操作:通过遗忘门来决定可以通过模型的信息,所述遗忘门的输入是h
t-1
和x
t
,其中h
t-1
和x
t
分别表示上一时刻lstm模型的输出和当前时刻lstm模型的输入,通过sigmoid函数运算得到的输出f
t
是一个数值在0和1之间同时形状和向量c
t-1
相同的向量,以此再和输入进来的向量c
t-1
进行线性运算时,能够控制向量c
t-1
的信息通过比重;输出f
t
的计算公式如(5)所示:f
t
=σ(w
f
·
[h
t-1
,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,b
f
表示遗忘门中的偏置参数;然后是添加操作:lstm模型通过输入门来决定多少新的信息可以传入到当前信息中;在输入门中,首先利用h
t-1
和x
t
分别经过sigmoid函数和tanh函数计算得到i
t
和i
t
决定了输入门中有多少新的信息可以传入到当前信息,表示新的信息;然后将i
t
和进行线性运算之后再对输入进来的向量进行更新,最后得到更新之后的向量c
t
;i
t
和以及c
t
的计算公式如(6)(7)(8)所示:i
t
=σ(w
i
·
[h
t-1
,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)(6)其中,w
i
和w
c
表示输入门中的权重参数,b
i
表示输入门中的偏置参数;最后是输出操作:lstm模型通过输出门来对输出的信息进行过滤操作并输出;在输出门中,首先利用h
t-1
和x
t
经过sigmoid函数计算得到o
t
,然后将经过tanh函数计算得到的c
t
与o
t
进行线性运算,得到最后的结果h
t
,其中o
t
和h
t
的计算公式如(9)(10)所示:o
t
=σ(w
o
·
[h
t-1
,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)h
t
=o
t
·
tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)其中,w
o
表示输出门中的权重参数,b
o
表示输出门中的偏置参数。6.根据权利要求1所述的方法,其特征在于,所述对所述特征向量进行识别,输出嵌套命名实体当中的所有实体,具体包括:通过两个预测器预测嵌套实体的位置,得到预测之后实体的起始位置o
start
和结束位置o
end
;将原来实体的位置范围进行一定程度地扩大,得到新的起始位置n
start
和结束位置n
end
:n
start
=d
start
·
o
start
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)n
end
=d
end
·
o
end
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)对n
start
和n
end
之间的范围进行遍历,的带所有实体可能开始位置和结束位置的集合通过公式(13)预测每一对开始位置和结束位置匹配的概率p
i
:若p
i
≥0.5,则和之间的实体为嵌套命名实体的子命名实体,并进行输出。7.一种有色冶金命名实体识别装置,其特征在于,所述装置包括:数据集处理模块,被配置为获取有色冶金领域数据集并对所述有色冶金领域数据集进行处理得到标注数据集和问答数据集;
特征转换模块,被配置为将所述标注数据集和问答数据集分别转换为第一词向量和第二词向量;信息融合模块,被配置为将所述第一词向量和第二词向量进行融合,得到融合的词向量;特征提取模块,被配置为对融合的词向量进行特征提取,得到特征向量;定位输出模块,被配置为对所述特征向量进行识别,输出嵌套命名实体当中的所有实体。8.根据权利要求7所述的装置,其特征在于,所述定位输出模块被进一步配置为:通过两个预测器预测嵌套实体的位置,得到预测之后实体的起始位置o
start
和结束位置o
end
;将原来实体的位置范围进行一定程度地扩大,得到新的起始位置n
start
和结束位置n
end
:n
start
=d
start
·
o
start
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)n
end
=d
end
·
o
end
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)对n
start
和n
end
之间的范围进行遍历,的带所有实体可能开始位置和结束位置的集合通过公式(13)预测每一对开始位置和结束位置匹配的概率p
i
:若p
i
≥0.5,则和之间的实体为嵌套命名实体的子命名实体,并进行输出。9.一种有色冶金命名实体识别系统,其特征在于:所述系统包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如权利要求1至6中任一项所述的方法。10.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至6中任一项所述的方法。

技术总结
本发明涉及自然语言处理技术领域,具体公开一种有色冶金命名实体识别方法、装置及系统和存储介质,本发明首先针对建立产业企业画像和产业知识图谱的命名实体需求,构建了有色冶金领域命名实体识别数据集,然后结合了机器阅读理解框架和知识增强的语义表示模型,对命名实体识别的流程进行了改进。最终建立了MEAB命名实体识别模型结构,并在构建的有色冶金领域命名实体识别数据集和公共数据集上进行了命名实体识别的实验。实验证明,该模型可以更好的为后续构建有色冶金产业企业画像和产业知识图谱提供实体。识图谱提供实体。识图谱提供实体。


技术研发人员:贵向泉 曹洁 张聚礼 张建林 陈作汉 李立 任旭鹏 郭亮
受保护的技术使用者:兰州理工大学
技术研发日:2023.03.24
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐