一种融合长短时记忆网络与注意力机制的关系抽取方法与流程

未命名 10-18 阅读:185 评论:0


1.本发明涉及计算机自然语言处理技术领域,具体为一种融合长短时记忆网络与注意力机制的关系抽取方法。


背景技术:

2.信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取研究问题进一步得到广泛的关注和深入研究。
3.现有技术中,实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。目前实体关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效果。
4.并且,神经网络方法在关系抽取任务中逐渐流行起来。比如使用递归神经网络来解决实体关系抽取问题。该方法对句子进行了句法解析,能够有效地考虑句子的句法结构信息,但同时该方法无法很好地考虑两个实体在句子中的位置和语义信息。


技术实现要素:

5.本发明的目的在于提供一种融合长短时记忆网络与注意力机制的关系抽取方法,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种融合长短时记忆网络与注意力机制的关系抽取方法,所述关系抽取方法包括以下步骤:
7.s1:提取单词向量特征;
8.s2:采用长短时记忆网络获取输入的向量进行运算;
9.s3:将长短时记忆网络输出的特征向量输入至注意力机制模组进行关系编码;
10.s4:将编码过后的句子特征通过逻辑回归层预测关系。
11.优选的,步骤s1:提取单词向量特征的具体操作如下:
12.将句子的每个标记x={x1,x2,

,xn}使用矩阵映射到k维嵌入向量w∈r
|v|*k
,|v|是单词表的大小,整个实验中,使用在60亿语料库上预先训练的50维glove嵌入。
13.优选的,步骤s2:采用长短时记忆网络获取输入的向量进行运算的具体操作如下:
14.将得到的单词向量输入到作为句子编码器的长短时记忆网络模型中,模型获取每个输入向量进行运算,长短时记忆网络是循环神经网络的一种改进,包括前后向传播,每个时间点包含一个长短时记忆网络单元用来选择性的记忆、遗忘和输出信息。
15.优选的,长短时记忆网络单元的公式如下:
16.[0017][0018][0019][0020]ct
=i
t
vu
t
+f
{t}
⊙c{t-1}
[0021]ht
=o
t

tanh(c
t
)。
[0022]
优选的,步骤s3:将长短时记忆网络输出的特征向量输入至注意力机制模组进行关系编码的具体操作如下:
[0023]
模型的输出包括前后向两个结果,通过对应元素相加作为最终的双向长短时网络的输出,将相加得到的向量输入到注意力机制的关系编码器当中,关系编码器为句子中两个实体之间的关系os生成一个固定大小的向量表示。
[0024]
优选的,h是由双向长短时记忆网络层产生的{h1,...,hn},其中n是句子长度
[0025]
{h1,...,hn}=lstm({x1,...,xn})
[0026]
句子的表示os由以下输出向量的加权和组成:
[0027]
m=tanh(h)
[0028]
α=softmax(w
t
m)
[0029]
r=hα
t
[0030]
其中h∈rk,k是单词向量维度,w,α,r的维度分别是k,t,k;
[0031]
经过激活函数获得用于关系抽取的句子的关系表示:
[0032]os
=tanh(r)。
[0033]
优选的,步骤s4:将编码过后的句子特征通过逻辑回归层预测关系的操作包括:
[0034]
将注意力机制输出的os句子关系编码向量作为输入,输入至关系分类层,公式如下:
[0035][0036][0037]
优选的,步骤s4:将编码过后的句子特征通过逻辑回归层预测关系的操作还包括:
[0038]
损失函数是真实标签y的负对数似然:
[0039][0040]
t为关系真实标签,y为softmax估计的每个类的概率,m为目标类的个数,λ是一个l2正则化超参数,结合dropout和l2正则化来缓解过拟合。
[0041]
与现有技术相比,本发明的有益效果是:
[0042]
本发明提出的融合长短时记忆网络与注意力机制的关系抽取方法,结合长短时记忆网络与注意力机制结合的模型,将模型应用于关系抽取任务处理中,提出的利用单词标记向量信息特征模型对关系抽取任务有着良好的表现;提升对句子的关系分类的能力,利用注意力机制来提高关系分类的性能,使特征提取阶段不需要繁杂的网络,结构就能得到丰富的特征信息;通过semeval-2010-task-8数据集验证了关系抽取效果,帮助关系抽取任
务进行数据预处理。长短时记忆网络与注意力机制的结合,使得模型在预测目标关系时能够考虑句子上下文中的其他关系,增强了模型对句子关系编码的能力。我们的发明在句子级的关系抽取场景中能够预测句子当中的目标关系。
具体实施方式
[0043]
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044]
实施例一
[0045]
本发明提供一种技术方案:一种融合长短时记忆网络与注意力机制的关系抽取方法,所述关系抽取方法包括以下步骤:
[0046]
s1:提取单词向量特征;
[0047]
s2:采用长短时记忆网络获取输入的向量进行运算;
[0048]
s3:将长短时记忆网络输出的特征向量输入至注意力机制模组进行关系编码;
[0049]
s4:将编码过后的句子特征通过逻辑回归层预测关系。
[0050]
实施例二
[0051]
在实施例一的基础上,具体实现方式如下:
[0052]
1.首先,句子的每个标记x={x1,x2,

,xn}使用矩阵映射到k维嵌入向量w∈r
|v|*k
,|v|是单词表的大小,在本文的整个实验中,我们使用了在60亿语料库上预先训练的50维glove嵌入。
[0053]
2.将得到的单词向量输入到作为句子编码器的长短时记忆网络模型中,模型获取每个输入向量进行运算,长短时记忆网络是循环神经网络的一种改进,其主要包括前后向传播,每个时间点包含一个长短时记忆网络单元用来选择性的记忆、遗忘和输出信息。长短时记忆网络单元的公式如下。
[0054][0055][0056][0057][0058]ct
=i
t
⊙ut
+f
{t}
⊙c{t-1}
[0059]ht
=o
t

tanh(c
t
)
[0060]
3.模型的输出包括前后向两个结果,通过对应元素相加作为最终的双向长短时网络的输出,将相加得到的向量输入到注意力机制的关系编码器当中,关系编码器为句子中两个实体之间的关系os生成一个固定大小的向量表示。h是由双向长短时记忆网络层产生的{h1,...,hn},其中n是句子长度
[0061]
{h1,...,hn}=lstm({x1,...,xn})
[0062]
句子的表示os由以下输出向量的加权和组成:
[0063]
m=tanh(h)
[0064]
α=softmax(w
t
m)
[0065]
r=hα
t
[0066]
其中h∈rk,k是单词向量维度,w,α,r的维度分别是k,t,k。
[0067]
然后经过激活函数获得用于关系抽取的句子的关系表示:
[0068]os
=tanh(r)
[0069]
4.我们将注意力机制输出的os句子关系编码向量作为输入,输入
[0070]
至关系分类层,公式如下:
[0071][0072][0073]
5.损失函数是真实标签y的负对数似然:
[0074][0075]
t为关系真实标签,y为softmax估计的每个类的概率(m为目标类的个数)。λ是一个l2正则化超参数。我们还结合了dropout和l2正则化来缓解过拟合。
[0076]
实施例三
[0077]
为了证明引入的双向长短时记忆网络的有效性,将单向长短时记忆网络与我们的模型对比,双向长短时记忆网络结构作为句子编码器效果均有所提升,f1数值均分别提高了0.5%-1%,这证明双向长短时记忆网络的添加增强了上下文的编码能力对关系抽取任务有显著的效果。结合长短时记忆网络与注意力机制结合的模型,将模型应用于关系抽取任务处理中,提出的利用单词标记向量信息特征模型对关系抽取任务有着良好的表现;对比提出的带有注意力机制的模型与不带注意力机制的模型表现,发现带有注意力机制的模型表现均好于传统的不带注意力机制的神经网络模型,这有效证明了注意力机制在我们模型中的有效性。
[0078]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:所述关系抽取方法包括以下步骤:s1:提取单词向量特征;s2:采用长短时记忆网络获取输入的向量进行运算;s3:将长短时记忆网络输出的特征向量输入至注意力机制模组进行关系编码;s4:将编码过后的句子特征通过逻辑回归层预测关系。2.根据权利要求1所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:步骤s1:提取单词向量特征的具体操作如下:将句子的每个标记x={x1,x2,

,x
n
}使用矩阵映射到k维嵌入向量w∈r
|v|*k
,|v|是单词表的大小,整个实验中,使用在60亿语料库上预先训练的50维glove嵌入。3.根据权利要求2所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:步骤s2:采用长短时记忆网络获取输入的向量进行运算的具体操作如下:将得到的单词向量输入到作为句子编码器的长短时记忆网络模型中,模型获取每个输入向量进行运算,长短时记忆网络是循环神经网络的一种改进,包括前后向传播,每个时间点包含一个长短时记忆网络单元用来选择性的记忆、遗忘和输出信息。4.根据权利要求3所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:长短时记忆网络单元的公式如下:特征在于:长短时记忆网络单元的公式如下:特征在于:长短时记忆网络单元的公式如下:特征在于:长短时记忆网络单元的公式如下:c
t
=i
t

u
t
+f
{t}

c
{t-1}
h
t
=o
t

tanh(c
t
)。5.根据权利要求1所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:步骤s3:将长短时记忆网络输出的特征向量输入至注意力机制模组进行关系编码的具体操作如下:模型的输出包括前后向两个结果,通过对应元素相加作为最终的双向长短时网络的输出,将相加得到的向量输入到注意力机制的关系编码器当中,关系编码器为句子中两个实体之间的关系o
s
生成一个固定大小的向量表示。6.根据权利要求5所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:h是由双向长短时记忆网络层产生的{h1,...,h
n
},其中n是句子长度{h1,...,h
n
}=lstm({x1,...,x
n
})句子的表示o
s
由以下输出向量的加权和组成:m=tanh(h)α=softmax(w
t
m)r=hα
t
其中h∈r
k
,k是单词向量维度,w,α,r的维度分别是k,t,k;经过激活函数获得用于关系抽取的句子的关系表示:o
s
=tanh(r)。7.根据权利要求6所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:步骤s4:将编码过后的句子特征通过逻辑回归层预测关系的操作包括:将注意力机制输出的o
s
句子关系编码向量作为输入,输入至关系分类层,公式如下:句子关系编码向量作为输入,输入至关系分类层,公式如下:8.根据权利要求7所述的一种融合长短时记忆网络与注意力机制的关系抽取方法,其特征在于:步骤s4:将编码过后的句子特征通过逻辑回归层预测关系的操作还包括:损失函数是真实标签y的负对数似然:t为关系真实标签,y为softmax估计的每个类的概率,m为目标类的个数,λ是一个l2正则化超参数,结合dropout和l2正则化来缓解过拟合。

技术总结
本发明涉及计算机自然语言处理技术领域,具体为一种融合长短时记忆网络与注意力机制的关系抽取方法,包括以下步骤:S1:提取单词向量特征;S2:采用长短时记忆网络获取输入的向量进行运算;S3:将长短时记忆网络输出的特征向量输入至注意力机制模组进行关系编码;S4:将编码过后的句子特征通过逻辑回归层预测关系;有益效果为:本发明提出的融合长短时记忆网络与注意力机制的关系抽取方法,结合长短时记忆网络与注意力机制结合的模型,将模型应用于关系抽取任务处理中,提出的利用单词标记向量信息特征模型对关系抽取任务有着良好的表现。现。


技术研发人员:王光耀
受保护的技术使用者:浪潮通信技术有限公司
技术研发日:2023.06.19
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐