一种命名实体识别方法

未命名 07-13 阅读:137 评论:0


1.本发明涉及人工智能领域,尤其涉及一种中文命名实体识别方法。


背景技术:

2.命名实体识别是自然语言处理中的一项基本任务,也是在信息提取和知识图谱的构建中必须的工具。近年来,随着深度学习的不断发展,命名实体识别技术也在相应的发展,除了规则方法之外,还提出了一些基于lstm神经网络的方法,在这些诸多的方法中,他们都避免了中文分词的不好的影响,比如他们都是依赖于大量的结构化和标记好了的数据进行训练,这导致了模型的泛化能力较差,并不能有效的应用。因此一个好的模型将会改变实体命名的正确性,如果利用已知的知识库对任务进行建模,来提取其中的潜在实体信息,来生成特征增强的三元组,然而这种方法也有一定的局限性,因为在中文分词中,语言是模棱两可的,它并没有考虑到实体的语义信息,很有可能会产生与预期结果相反的效果。针对上述问题,本文提出了一种结合bert和gcn的强化表示学习网络bg-efrl用于中文命名实体识别。它主要是依赖于图神经网络的独特结构信息,即它可以交叉聚合句子、单词和单词之间的关系。


技术实现要素:

3.本发明要克服现有技术的上述缺点,提供一种特征增强的命名实体识别方法。
4.本发明通过对获得的各种文本进行向量化处理得到向量化数据,并基于向量化数据、图卷积神经网络对文本进行特征提取,将两种方法得到的特征进行特征融合,最后进行解码操作,得到命名实体分数,找到最高序列,找出对应的命名实体。
5.为实现以上目的,本发明采用以下技术方案:
6.本发明的第一方面提供一种命名实体识别方法,包括以下步骤:
7.s1、获取各种信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;
8.s2、构建文本向量化模型,将各种文本内容输入至单词向量化模型中以得到向量化后的数据,向量化分为两种类型,bert模型向量化将上下文特征提取同时进行;
9.s3、基于步骤s2中得到的向量化数据,初始化图神经网络结构,采用平均值的策略,初始化图神经网络的第一层结构;
10.s4、基于步骤s3得到的第一层结构进行训练,得到输入文本向量的特征;
11.s5、基于步骤s2得到的上下文特征和步骤s4得到的特征进行特征融合;
12.s6、基于crf进行对编码层的输出进行解码,得到命名实体分数,找到最高序列,得出最佳命名方式。
13.作为优选方案,所述事件文本为各上市公司官网发布的年报以及各媒体平台上关于各行业描述的新闻。
14.作为优选方案,步骤s1包括:
15.s1.1、利用爬虫技术爬取上市公司年报数据以及社交网站上的数据并保存为文本格式;
16.s1.2、对获取到的各种文本进行清理,以得到清理后的各种文本。
17.作为优选方案,步骤s1.2中包括,通过正则表达式删除年报文本中的图片以及链接。
18.作为优选方案,步骤s2包括:
19.s2.1、构建glove单词向量化模型;
20.s2.2、构造改进的损失函数和加权函数,修正最小化两个单词的向量的点积与它们共同出现的对数之间的差异;
21.s2.3、构造基于bert的向量化和特征提取模型;
22.s2.4、利用置换语言建模目标和双向自注意架构,结合相对位置编码方案和transformer的片段递归机制,从序列中获得上下文特征。
23.作为优选方案,步骤s2.2中,修正最小化两个单词的向量的点积与它们共同出现的对数之间的差异由改进的损失函数和加权函数共同得到;
24.损失函数的计算公式为:
[0025][0026]
其中,wi和bi分别是单词向量和单词偏移,和分别是单词j的上下文词向量和偏移,xij是单词i在单词j的上下文中出现的次数。
[0027]
加权函数的计算公式为:
[0028][0029]
其中,x
max
固定在100,α固定在3/4。
[0030]
作为优选方案,步骤s2.4中,bert采用多头模式,通过h线性变换投影,最后将不同的头i拼接在一起作为上下文特征进行输出,最终得到输出向量;
[0031]
注意力架构和矩阵变换公式为:
[0032][0033]
multihead(q,k,v)=concat(head1,head2,...,headh)w0ꢀꢀꢀ
(4)
[0034]
headi=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀ
(5)
[0035]
其中,q,k,v是输入字向量矩阵;dk是输入维度;bert采用多头模式,通过h线性变换投影q,k,v。
[0036]
作为优选方案,步骤s3包括:
[0037]
s3.1、首先获得自注意权重张量a
att
=[w
4att
,w
8att
],计算a
att
平均值;
[0038]
s3.2、计算了平均值的情况下,初始化图神经网络的第一层结构。
[0039]
作为优选方案,步骤s3.1中,由于直接使用自注意力权重来动态初始化图结构,在
计算自注意力权重张量的时候,避免过大和过小影响最终结果,所以采用平均值的策略;
[0040]aatt
平均值计算公式为:
[0041][0042]
作为优选方案,步骤s3.2中,如果平均注意力权重大于或小于某个阈值,删除或添加单词之间的有向边;
[0043]
初始化后的图神经网络的第1层的图结构可表示为:
[0044][0045]
作为优选方案,步骤s4包括:
[0046]
s4.1、定义图卷积神经网络的逐层传播规则;
[0047]
s4.2、定义图神经网络的前向模型;
[0048]
s4.3、使用两层卷积将特征矩阵x和初始化的邻接矩阵a输入到图卷积层以捕获辅助特征,用梯度下降算法进行训练,并将输入到具有激活函数的线性层之前的权重作为辅助特征输出。
[0049]
作为优选方案,步骤s4.1中,给定一个特定的基于图的神经网络模型,定义逐层传播规则;
[0050]
遵循逐层传播规则计算公式为:
[0051][0052]
其中,其中d是度矩阵,是添加了自连接的无向图g的邻接矩阵,in是n个节点的单位矩阵,w
(l)
是神经网络层特定的训练权重矩阵。σ是激活函数,h是第l层的激活矩阵,h
(0)
=x。
[0053]
作为优选方案,步骤s4.2中,在预处理期间应计算归一化邻接矩阵然后定义图神经网络的前向模型;
[0054]
前向模型可表示为:
[0055][0056]
其中,w0和w1分别是从输入到隐藏层的权重矩阵和从隐藏层到输出的权重矩阵。
[0057]
作为优选方案,步骤s5包括:
[0058]
s5.1、由于图卷积后的输出特征长度将比bert嵌入更长,因此对图嵌入的输出特征进行降维,使用拉普拉斯特征映射进行降维;
[0059]
s5.2、将bert嵌入的输出特征与降维后的图神经网络嵌入的输出特性进行融合,采用一种基于add特征融合的新的特征融合方式;
[0060]
s5.3、最终得到特征融合后的输出特征。
[0061]
作为优选方案,步骤s5.1中,因为在图嵌入过程中需要保留更多的节点信息,因此
图卷积后的输出长度更长,本文使用拉普拉斯特征映射进行降维。拉普拉斯特征图是一种基于图的降维算法,它可以确保彼此相关的点(图中连接的点)在降维后的空间中尽可能靠近,以便降维后仍能保持原始数据结构;
[0062]
拉普拉斯映射降维目标函数为:
[0063][0064]
其中,利用原始数据构造邻接矩阵w,距离越近权重越大。
[0065]
作为优选方案,步骤s5.2中,普通的特征融合只是将对应的特征图相加,相当于与特征图共享一个卷积核,本文在普通特征融合的基础上,提出了通道数增加的方法,不单单只是特征图相加的原理。新的方法提出通道数的合并,也就是说本身的通道数增加了;
[0066]
融合公式为:
[0067][0068]
其中,*表示卷积操作,两路通道的输入分别是x和y。
[0069]
作为优选方案,步骤s6包括:
[0070]
使用crf进行最终预测的本质是对编码层的输出进行解码,计算与命名实体对应的标签分数,得到标签序列的概率,并找到概率最高的序列。
[0071]
作为优选方案,标签分数由两部分组成,排放分数和转移分数,分别表示为e和t。前者主要由编码层决定,后者主要由crf;
[0072]
标签分数计算方法为:
[0073][0074]
其中,x表示整个输入序列,ei表示第i个时间步长的发射分数,ti表示第i时间步长的跃迁分数。
[0075]
本发明的第二个方面涉及一种命名实体识别装置,包括:
[0076]
包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种命名实体识别方法。
[0077]
本发明的第三个方面涉及一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现本发明的一种命名实体识别方法。
[0078]
本发明的工作原理是:本发明提出了一种结合bert和gcn的强化表示学习网络bg-efrl用于中文命名实体识别,依赖于图神经网络的独特结构信息并考虑了上下文特征,不局限于一种特征,所以将会达到满意效果。。
[0079]
本发明的优点是:本发明结合bert提取的特征和图神经网络提取的特征进行特征融合,避免了单个特征的局限性,同时提出新的特征融合方式来达到满意效果。
附图说明
[0080]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0081]
图1是本发明方法的流程图。
具体实施方式
[0082]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0083]
需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0084]
实施例1
[0085]
如图1所示,一种命名实体识别方法,包括如下步骤:
[0086]
s1、获取各种信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;具体包括:
[0087]
s1.1、利用爬虫技术爬取上市公司年报数据以及社交网站上的数据并保存为文本格式;
[0088]
s1.2、对获取到的各种文本进行清理,以得到清理后的各种文本,通过正则表达式删除年报文本中的图片以及链接。
[0089]
s2、构建文本向量化模型,将各种文本内容输入至单词向量化模型中以得到向量化后的数据,向量化分为两种类型,bert模型向量化将上下文特征提取同时进行;具体包括:
[0090]
s2.1、构建glove单词向量化模型;
[0091]
s2.2、构造改进的损失函数和加权函数,修正最小化两个单词的向量的点积与它们共同出现的对数之间的差异;修正最小化两个单词的向量的点积与它们共同出现的对数之间的差异由改进的损失函数和加权函数共同得到;
[0092]
损失函数的计算公式为:
[0093][0094]
其中,wi和bi分别是单词向量和单词偏移,和分别是单词j的上下文词向量和偏移,xij是单词i在单词j的上下文中出现的次数。
[0095]
加权函数的计算公式为:
[0096][0097]
其中,x
max
固定在100,α固定在3/4。
[0098]
s2.3、构造基于bert的向量化和特征提取模型;
[0099]
s2.4、利用置换语言建模目标和双向自注意架构,结合相对位置编码方案和
transformer的片段递归机制,从序列中获得上下文特征;
[0100]
bert采用多头模式,通过h线性变换投影,最后将不同的头i拼接在一起作为上下文特征进行输出,最终得到输出向量;
[0101]
注意力架构和矩阵变换公式为:
[0102][0103]
multihead(q,k,v)=concat(head1,head2,...,headh)w0ꢀꢀꢀ
(4)
[0104]
headi=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀ
(5)
[0105]
其中,q,k,v是输入字向量矩阵;dk是输入维度;bert采用多头模式,通过h线性变换投影q,k,v。
[0106]
s3、基于步骤s2中得到的向量化数据,初始化图神经网络结构,采用平均值的策略,初始化图神经网络的第一层结构;具体包括:
[0107]
s3.1、首先获得自注意权重张量计算a
att
平均值;
[0108]
由于直接使用自注意力权重来动态初始化图结构,在计算自注意力权重张量的时候,避免过大和过小影响最终结果,所以采用平均值的策略;
[0109]aatt
平均值计算公式为:
[0110][0111]
s3.2、计算了平均值的情况下,初始化图神经网络的第一层结构;如果平均注意力权重大于或小于某个阈值,我们将删除或添加单词之间的有向边;
[0112]
初始化后的图神经网络的第1层的图结构可表示为:
[0113][0114]
s4、基于步骤s3得到的第一层结构进行训练,得到输入文本向量的特征;具体包括:
[0115]
s4.1、定义图卷积神经网络的逐层传播规则;给定一个特定的基于图的神经网络模型,定义逐层传播规则;
[0116]
遵循逐层传播规则计算公式为:
[0117][0118]
其中,其中d是度矩阵,是添加了自连接的无向图g的邻接矩阵,in是n个节点的单位矩阵,w
(l)
是神经网络层特定的训练权重矩阵。σ是激活函数,h是第l层的激活矩阵,h
(0)
=x。
[0119]
s4.2、定义图神经网络的前向模型;在预处理期间应计算归一化邻接矩阵
然后定义图神经网络的前向模型;
[0120]
前向模型可表示为:
[0121][0122]
其中,w0和w1分别是从输入到隐藏层的权重矩阵和从隐藏层到输出的权重矩阵。
[0123]
s4.3、使用两层卷积将特征矩阵x和初始化的邻接矩阵a输入到图卷积层以捕获辅助特征,用梯度下降算法进行训练,并将输入到具有激活函数的线性层之前的权重作为辅助特征输出。
[0124]
s5、基于s2得到的上下文特征和s4得到的特征进行特征融合;具体包括:
[0125]
s5.1、由于图卷积后的输出特征长度将比bert嵌入更长,因此对图嵌入的输出特征进行降维,使用拉普拉斯特征映射进行降维;
[0126]
s5.2、将bert嵌入的输出特征与降维后的图神经网络嵌入的输出特性进行融合,采用一种基于add特征融合的新的特征融合方式;
[0127]
s5.3、最终得到特征融合后的输出特征。
[0128]
步骤s5.1中,因为在图嵌入过程中需要保留更多的节点信息,因此图卷积后的输出长度更长,本文使用拉普拉斯特征映射进行降维。拉普拉斯特征图是一种基于图的降维算法,它可以确保彼此相关的点(图中连接的点)在降维后的空间中尽可能靠近,以便降维后仍能保持原始数据结构;
[0129]
拉普拉斯映射降维目标函数为:
[0130][0131]
其中,利用原始数据构造邻接矩阵w,距离越近权重越大。
[0132]
步骤s5.2中,普通的特征融合只是将对应的特征图相加,相当于与特征图共享一个卷积核,本文在普通特征融合的基础上,提出了通道数增加的方法,不单单只是特征图相加的原理。新的方法提出通道数的合并,也就是说本身的通道数增加了;
[0133]
融合公式为:
[0134][0135]
其中,*表示卷积操作,两路通道的输入分别是x和y。
[0136]
s6、基于crf进行对编码层的输出进行解码,得到命名实体分数,找到最高序列,得出最佳命名方式;包括:使用crf进行最终预测的本质是对编码层的输出进行解码,计算与命名实体对应的标签分数,得到标签序列的概率,并找到概率最高的序列。
[0137]
其中,标签分数由两部分组成,排放分数和转移分数,分别表示为e和t。前者主要由编码层决定,后者主要由crf;
[0138]
标签分数计算方法为:
[0139][0140]
其中,x表示整个输入序列,ei表示第i个时间步长的发射分数,ti表示第i时间步
长的跃迁分数。
[0141]
实施例2
[0142]
本实施例涉及一种命名实体识别装置,包括:
[0143]
包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现实施例1的一种命名实体识别方法。
[0144]
实施例3
[0145]
本实施例涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现实施例1的一种命名实体识别方法。

技术特征:
1.一种命名实体识别方法,包括以下步骤:s1、获取各种信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;s2、构建文本向量化模型,将各种文本内容输入至单词向量化模型中以得到向量化后的数据,向量化分为两种类型,bert模型向量化将上下文特征提取同时进行;s3、基于步骤s2中得到的向量化数据,初始化图神经网络结构,采用平均值的策略,初始化图神经网络的第一层结构;s4、基于步骤s3得到的第一层结构进行训练,得到输入文本向量的特征;s5、基于步骤s2得到的上下文特征和步骤s4得到的特征进行特征融合;s6、基于crf进行对编码层的输出进行解码,得到命名实体分数,找到最高序列,得出最佳命名方式。2.如权利要求1所述的一种命名实体识别方法,其特征在于:步骤s2包括:s2.1、构建glove单词向量化模型;s2.2、构造改进的损失函数和加权函数,修正最小化两个单词的向量的点积与它们共同出现的对数之间的差异;s2.3、构造基于bert的向量化和特征提取模型;s2.4、利用置换语言建模目标和双向自注意架构,结合相对位置编码方案和transformer的片段递归机制,从序列中获得上下文特征。3.如权利要求4所述的一种命名实体识别方法,其特征在于:步骤s2.2中,修正最小化两个单词的向量的点积与它们共同出现的对数之间的差异由改进的损失函数和加权函数共同得到;损失函数的计算公式为:其中,w
i
和b
i
分别是单词向量和单词偏移,和分别是单词j的上下文词向量和偏移,xij是单词i在单词j的上下文中出现的次数;加权函数的计算公式为:其中,x
max
固定在100,α固定在3/4;步骤s2.4中,bert采用多头模式,通过h线性变换投影,最后将不同的头i拼接在一起作为上下文特征进行输出,最终得到输出向量;注意力架构和矩阵变换公式为:multihead(q,k,v)=concat(head1,head2,...,head
h
)w0ꢀꢀꢀꢀ
(4)
head
i
=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀꢀꢀ
(5)其中,q,k,v是输入字向量矩阵;d
k
是输入维度;bert采用多头模式,通过h线性变换投影q,k,v。4.如权利要求1所述的一种命名实体识别方法,其特征在于:,步骤s3包括:s3.1、首先获得自注意权重张量计算a
att
平均值;s3.2、计算了平均值的情况下,初始化图神经网络的第一层结构。5.如权利要求5所述的一种命名实体识别方法,其特征在于:步骤s3.1中,由于直接使用自注意力权重来动态初始化图结构,在计算自注意力权重张量的时候,避免过大和过小影响最终结果,所以采用平均值的策略;a
att
平均值计算公式为:步骤s3.2中,如果平均注意力权重大于或小于某个阈值,删除或添加单词之间的有向边;初始化后的图神经网络的第1层的图结构可表示为:6.如权利要求1所述的一种命名实体识别方法,其特征在于:步骤s4包括:s4.1、定义图卷积神经网络的逐层传播规则;s4.2、定义图神经网络的前向模型;s4.3、使用两层卷积将特征矩阵x和初始化的邻接矩阵a输入到图卷积层以捕获辅助特征,用梯度下降算法进行训练,并将输入到具有激活函数的线性层之前的权重作为辅助特征输出。7.如权利要求7所述的一种命名实体识别方法,其特征在于:步骤s4.1中,给定一个特定的基于图的神经网络模型,定义逐层传播规则;遵循逐层传播规则计算公式为:其中,其中d是度矩阵,是添加了自连接的无向图g的邻接矩阵,i
n
是n个节点的单位矩阵,w
(l)
是神经网络层特定的训练权重矩阵;σ是激活函数,h是第l层的激活矩阵,h
(0)
=x;步骤s4.2中,在预处理期间应计算归一化邻接矩阵然后定义图神经网络的前向模型;前向模型可表示为:
其中,w0和w1分别是从输入到隐藏层的权重矩阵和从隐藏层到输出的权重矩阵。8.如权利要求1所述的一种命名实体识别方法,其特征在于:步骤s5包括:s5.1、由于图卷积后的输出特征长度将比bert嵌入更长,因此对图嵌入的输出特征进行降维,使用拉普拉斯特征映射进行降维;s5.2、将bert嵌入的输出特征与降维后的图神经网络嵌入的输出特性进行融合,采用一种基于add特征融合的新的特征融合方式;s5.3、最终得到特征融合后的输出特征。9.如权利要求1所述的一种命名实体识别方法,其特征在于:步骤s5.1中,因为在图嵌入过程中需要保留更多的节点信息,因此图卷积后的输出长度更长,本文使用拉普拉斯特征映射进行降维;拉普拉斯特征图是一种基于图的降维算法,它可以确保彼此相关的点(图中连接的点)在降维后的空间中尽可能靠近,以便降维后仍能保持原始数据结构;拉普拉斯映射降维目标函数为:其中,利用原始数据构造邻接矩阵w,距离越近权重越大;步骤s5.2中,普通的特征融合只是将对应的特征图相加,相当于与特征图共享一个卷积核,本文在普通特征融合的基础上,提出了通道数增加的方法,不单单只是特征图相加的原理;新的方法提出通道数的合并,也就是说本身的通道数增加了;融合公式为:其中,*表示卷积操作,两路通道的输入分别是x和y。10.如权利要求1所述的一种命名实体识别方法,其特征在于:步骤s6包括:使用crf进行最终预测的本质是对编码层的输出进行解码,计算与命名实体对应的标签分数,得到标签序列的概率,并找到概率最高的序列;标签分数由两部分组成,排放分数和转移分数,分别表示为e和t;前者主要由编码层决定,后者主要由crf;标签分数计算方法为:其中,x表示整个输入序列,ei表示第i个时间步长的发射分数,ti表示第i时间步长的跃迁分数。

技术总结
一种命名实体识别方法,包括:1)获取各种信息文本,并对获取的各种文本进行处理,以得到各种文本对应的相应内容文件;2)构建文本向量化模型,将各种文本内容输入至单词向量化模型中以得到向量化后的数据,向量化分为两种类型,BERT模型向量化将上下文特征提取同时进行;3)基于向量化数据,初始化图神经网络结构,采用平均值的策略,初始化图神经网络的第一层结构;4)基于第一层结构进行训练,得到输入文本向量的特征;5)基于上下文特征和输入文本向量的特征进行特征融合;6)基于CRF进行对编码层的输出进行解码,得到命名实体分数,找到最高序列,得出最佳命名方式。本发明融合BERT和图神经网络提取的特征,避免了单个特征的局限性。性。性。


技术研发人员:周庆山 季白杨
受保护的技术使用者:浙江工业大学
技术研发日:2023.05.10
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐