一种基于依存分析和Longformer的长复合语句事件抽取方法及装置

未命名 08-26 阅读:130 评论:0

一种基于依存分析和longformer的长复合语句事件抽取方法及装置
技术领域
1.本技术涉及自然语言处理技术领域,具体涉及一种基于依存分析和longformer的长复合语句事件抽取方法及装置。


背景技术:

2.伴随着网络技术的不断发展和应用,互联网中的纯文本数据也发生了爆发式的增长。作为信息抽取技术中的基础技术,限定域下的事件抽取技术从海量的文本数据中抽取有用的事件信息,将无结构的纯文本数据转换为精简的结构数据,所以事件抽取可以有效提高自然语言处理中下游任务的效率,例如事件图谱构建、情报分析、新闻摘要、自动问答等。
3.限定域下的事件抽取任务包含了事件触发词抽取和事件元素抽取两大部分,同时按照两部分的抽取顺序又可以分为管道式抽取和联合式抽取。可以理解,管道式的事件抽取方式将事件触发词和事件元素的抽取按照顺序执行,而联合式抽取将两部分的同时进行。
4.分析近几年的事件抽取模型发现,现有的限定域事件抽取模型不论是管道式抽取方式还是联合式抽取方式都存在一个问题:在长复合语句上的抽取结果不好。具体的讲,造成这个问题的原因有两方面:1)现有模型采用的bert预训练模型获取到的语义特征包含了太多冗余信息。2)现有的模型没有同时考虑加入对句子结构的分析,从而导致模型在结构复合的语句上的语义理解能力进一步下降。
5.因此,如何提高在长英文复合语句上的事件抽取效果成为需要解决的问题。


技术实现要素:

6.针对现有事件抽取方法在复合语句上抽取效果不好的问题,本发明提出一种基于依存分析和longformer的长复合语句事件抽取方法,具体包括以下步骤:
7.s101、将待抽取语句转换为依存分析图,并根据事件触发词抽取的特征对依存分析图进行裁剪,使用裁剪后的依存分析图对句子进行建模,得到句子结构表示;
8.s102、对longformer模型的注意力模式进行设置(以下简称elongformer),使用elongformer模型滑动窗口注意力模式处理每个分词获取第一语义表征,将第一语义表征与句子结构表示串联,利用串联后的表示进行事件触发词的识别和分类;
9.s103、在完成s2事件触发词识别以及分类后,利用得到的事件触发词信息对longformer模型的注意力模式进行设置(以下简称alongformer),使用alongformer模型的全局和滑动窗口注意力模式处理每个分词获取重新获取语义表征,将重新得到的语义特征与局部语义表征进行融合,利用融合后的特征进行事件元素的识别和分类;
10.s104、将事件触发词抽取器和事件元素抽取器的预测结果进行汇总得到事件抽取最终的结果。
11.进一步的,步骤101获取依存关系图并对其进行裁剪的过程包括:
12.101、采用stanza依存分析工具对待抽取语句进行依存分析得到依存分析图;
13.102、通过stanza依存分析工具,得到待抽取语句所有词的标签化表示tagtoken={stoken1,stoken2,...,stokenn};
14.103、对依存分析图进行裁剪,将图中所有出度为零的节点删除,从而得到裁剪后的依存分析图;
15.其中,tagtoken表示一个句子的标签化表示,stokenn表示第n个词的标签化表示,n为待处理句子的长度。
16.进一步的,使用裁剪后的依存分析图对句子进行建模包括以下步骤:
17.使用一个embedding嵌入层将待抽取语句中每个词的依存关系标签tagtoken={stoken1,stoken2,...,stokenn}进行嵌入处理,表示为:
18.(node1,node2,...,noden)=tagembed(stoken1,stoken2,...,stokenn);
19.通过一个层数为12的transformer-encode编码器,生成查询向量、键向量、值向量,表示为:
[0020][0021][0022][0023]
根据所有节点的查询向量、键向量、值向量来计算节点之间依存关系的权重,表示为:
[0024][0025]
通过l层计算后,得到每个节点的最终表征,表示为:
[0026][0027]
其中,tagembed(
·
)表示嵌入操作,(node1,node2,...,noden)为对应每个词的嵌入向量表征,noden表示第n个词的嵌入向量表征;表示为第l层中可通过训练得到变换矩阵参数,表示第i个节点在第l层的嵌入向量表征,为该节点在第l+1层对应的查询向量、键向量、值向量;表示节点i与节点j之间依存关系的权重,n(i)表示与i节点相邻的节点集合。
[0028]
进一步的,步骤102具体包括以下步骤:
[0029]
201、对待抽取语句x={x1,x2,....,xn}处理得到所有的标签eltoken={eltoken1,eltoken2,...,eltokenn};
[0030]
202、使用滑动窗口注意力机制对所有的eltoken进行嵌入处理,得到语义信息表征,表示为:
[0031]
(e1,e2,...,en)=tokenembed(eltoken1,eltoken2,...,eltokenn);
[0032]
203、将所有节点的依存关系表征和所有词的语义信息表征e={e1,e2,...,en}进行串联操作,并输入进一个分类器中进行事件触发词的识别,表示为:
[0033][0034]
其中,(eltoken1,eltoken2,...,eltokenn)代表所有词的标签化表示,tokenembed(
·
)表示嵌入操作,(e1,e2,...,en)表示每个标签对应的语义向量表征;xi代表句子中第i个eltoken,是多分类器的权重,h表示elongformer模型中transfomer的隐藏层大小;t表示事件类型的集合,包括没有事件类型的情况;代表xi为t类型的事件触发词的概率,t∈t。
[0035]
进一步的,分类器中进行事件触发词的识别时,采用交叉熵损失函数作为目标函数,表示为:
[0036][0037]
其中,ce(,)表示交叉熵计算方法,|t|表示事件类型数量,即集合t中元素的数量,|x|表示句子中词的总数量,表示预测结果,表示真实结果。
[0038]
进一步的,步骤103进行事件元素的识别具体包括以下步骤:
[0039]
301、对待抽取语句x={x1,x2,....,xn}处理得到所有的标签altoken={altoken1,altoken2,...,altokenn};
[0040]
302、使用alongformer的滑动窗口注意力和全局注意力模式来获取待抽取语句的语义信息表征,表示为:
[0041]
(m1,m2,...,mn)=tokenembed(altoken1,altoken2,...,altokenn)
[0042]
303、利用得到的语义信息表征m={m1,m2,...,mn}进行语义表征信息聚合,得到每个词的表征
[0043]
304、将步骤302得到的语义信息表征和步骤303得到的每个词的表征相加后的特征表示输入一个由多组二进制分类器构成的事件元素抽取器中进行处理,得到每个词被为事件元素短语开始或结尾的概率,包括:
[0044][0045][0046]
其中,(altoken1,altoken2,...,altokenn)表示所有词的标签化表示,tokenembed(
·
)表示嵌入操作,(m1,m2,...,mn)表示每个标签对应的语义向量表征;是需要进行训练而得到的参数;表示第i个altoken角色为role时,其作为事件元素起
始词的概率;表示第i个altoken角色为role时,其作为事件元素结尾词的概率;表示alongformer模型对第i个altoken进行预测而得到的最终特征表示。
[0047]
进一步的,步骤303具体包括:
[0048]
根据语义表征m={m1,m2,...,mn}计算对应的查询向量、键向量、值向量,表示为:
[0049][0050][0051][0052]
利用自掩码注意力机制,针对每个节点以及其相邻的节点来汇总句子结构信息,表示为:
[0053][0054][0055]
经过一个具有l层的网络编码后,最终从顶层可得到每个词的表征
[0056]
其中,为训练得到的参数,分别对应第l+1层中第i个altoken的键向量、查询向量、值向量;表示第l层中第i个altoken的词向量表征,的初始化值为(m1,m2,...,mn)=tokenembed(altoken1,altoken2,...,altokenn);n(i)表示与第i个altoken有依存关系的其他词;a
ij
表示具有依存关系的两个词之间注意力得分。
[0057]
进一步的,事件元素抽取器在训练时的损失函数使用交叉函数损失,表示为:
[0058][0059][0060]
其中,|r|是角色类型的数量,|e|是句子中的token数量,ce(,)表示交叉熵计算方式,表示第i个altoken角色为role时,其作为事件元素起始词的预测概率;表示第i个altoken角色为role时,其作为事件元素结尾词的预测概率;表示第i个altoken角色为role时,其作为事件元素起始词的真实值;表示第i个altoken角色为role时,其作为事件元素起始词的真实值。
[0061]
本发明还提供一种基于依存分析和longformer的长复合语句事件抽取装置,用于
实现一种基于依存分析和longformer的长复合语句事件抽取方法,包括事件触发词抽取模块、事件元素抽取模块以及抽取结果推送模块,其中:
[0062]
利用longformer模型待抽取语句中每个eltoken的局部语义表征和裁剪后的待抽取语句的依存分析图,在longformer模型上添加一个分类器进行事件触发词的识别和抽取;
[0063]
事件元素抽取模块,利用类似自注意力的机制方法和依存分析图对句子结构中的语义信息进行聚合,再结合longformer模型中得到的语义表征信息,通过在longformer上设置多组二分类器对其进行解码得到事件元素抽取结果;
[0064]
抽取结果推送模块,将事件触发词抽取器和事件元素抽取器的预测结果进行拼接得到事件抽取最终的结果推送给用户。
[0065]
相比于传统方法,本发明考虑到长复合语句中存在结构复杂和词数过多的问题,所以使用依存分析和微调后的longformer方法来解决。longformer模型提出的滑动窗口注意力机制和全局注意力机制可以使得句子中与事件无关的信息不被过多注意,同时依存分析能够使得模型对句子结构有较为清晰的认识,通过依存分析图的引导,使得事件抽取模型更加准确的聚合可能的事件信息,利于最后的事件抽取。
附图说明
[0066]
图1为本发明实施例提供的一种基于依存分析和longformer的长复合语句事件抽取方法流程图;
[0067]
图2为本发明实施例提供的一种基于依存分析和longformer的长复合语句事件抽取系统的模型架构示意图;
[0068]
图3为本发明实施例提供的一种基于依存分析和longformer的长复合语句事件抽取系统的模块架构示意图。
具体实施方式
[0069]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0070]
本发明提出一种基于依存分析和longformer的长复合语句事件抽取方法,具体包括以下步骤:
[0071]
101、将待抽取语句转换为依存分析图,并根据事件触发词抽取的特征对依存分析图进行裁剪,使用裁剪后的依存分析图对句子进行建模,得到句子结构表示;
[0072]
102、对longformer模型的注意力模式进行设置(以下简称elongformer),使用elongformer模型滑动窗口注意力模式处理每个分词获取第一语义表征,将第一语义表征与句子结构表示串联,利用串联后的表示进行事件触发词的识别和分类;
[0073]
103、在完成s2事件触发词识别以及分类后,利用得到的事件触发词信息对longformer模型的注意力模式进行设置(以下简称alongformer),使用alongformer模型的全局和滑动窗口注意力模式处理每个分词获取重新获取语义表征,将重新得到的语义特征
与局部语义表征进行融合,利用融合后的特征进行事件元素的识别和分类;
[0074]
104、将事件触发词抽取器和事件元素抽取器的预测结果进行拼接得到事件抽取最终的结果。
[0075]
在本实施例中,句子结构的建模过程包括:
[0076]
s11,采用stanze依存分析工具对待抽取语句进行依存分析得到依存分析图,同时,为了后续描述更加清晰,并将这个依存分析图命名为dag(dependency analysis graph);
[0077]
s12,通过stanze依存分析工具,得到待抽取语句所有词的标签化表示tagtoken={stoken1,stoken2,...,stokenn};
[0078]
s13,对dag进行裁剪,将图中所有出度为零的节点删除,从而得到裁剪后的依存分析图cdag(cropped dependency analysis graph);
[0079]
s14,利用cdag对句子结构进行建模,具体包括:
[0080]
其中,先使用一个embedding嵌入层将待抽取语句中每个词的依存关系标签tagtoken={stoken1,stoken2,...,stokenn}进行嵌入处理,计算方式为:
[0081]
(node1,node2,...,noden)=tagembed(stoken1,stoken2,...,stokenn)
[0082]
(stoken1,stoken2,...,stokenn)为句子中每个词的依存关系标签,tagembed(
·
)表示嵌入操作,(node1,node2,...,noden)代表对应每个词的嵌入向量表征;
[0083]
接下来,通过一个层数为12的transformer-encode编码器,生成查询向量键向量值向量三个向量,计算方式如下:
[0084][0085][0086][0087]
其中,表示为第l层中可通过训练得到变换矩阵参数,表示第i个节点在第l层的嵌入向量表征,为该节点在第l+1层对应的查询向量、键向量、值向量;
[0088]
然后,根据所有节点的查询向量、键向量、值向量来计算节点之间依存关系的权重,计算方式如下:
[0089][0090][0091]
其中,表示节点i与节点j之间依存关系的权重,n(i)表示与i节点相邻的节点集
合;
[0092]
通过l层计算后,得到每个节点的最终表征需要特别说明的是,对于裁剪掉的节点,将其对应的表征赋值为0。
[0093]
使用elongformer模型(该模型为通过对longformer进行微调,利用其滑动窗口注意力模式得到)对待抽取语句中每个token进行处理来获取其语义表征,并与s1得到的句子结构表征进行串联。随后,利用串联后的表征完成事件触发词的识别和分类;事件触发词的识别和分类具体以下步骤:
[0094]
s21,利用elongformer模型对待抽取语句x={x1,x2,....,xn}处理得到所有的标签eltoken={eltoken1,eltoken2,...,eltokenn};
[0095]
s22,使用elongformer滑动窗口注意力机制并且将滑动窗口的大小设置为4,然后通过elongformer模型对所有的eltoken进行嵌入处理,得到语义信息表征,计算方式如下:
[0096]
(e1,e2,...,en)=tokenembed(eltoken1,eltoken2,...,eltokenn)
[0097]
其中,(eltoken1,eltoken2,...,eltokenn)代表所有词的标签化表示,tokenembed(
·
)表示嵌入操作,(e1,e2,...,en)表示每个标签对应的语义向量表征;
[0098]
s23,将s14得到的所有节点的依存关系表征和s22得到的所有词的语义信息表征e={e1,e2,...,en}进行串联操作,并输入进一个分类器中进行事件触发词的识别和分类,计算方式如下:
[0099][0100]
其中,xi表示句子中第i个eltoken,是多分类器的权重,其中h表示elongformer模型中transfomer的隐藏层大小,t表示事件类型数量+1(包括没有事件类型的情况),代表xi为t类型的事件触发词的概率,t∈t;
[0101]
s24,采用交叉熵损失函数作为目标函数,计算公式如下:
[0102][0103]
其中,ce(,)表示交叉熵计算方法,|t|表示事件类型数量+1(包括无事件类型的情况),|x|表示句子中词的总数量,表示预测结果,表示真实结果。
[0104]
使用alongformer模型(该模型为通过对longformer进行微调,利用其滑动窗口注意力模式得到,该模型与s1中的elongformer模型模式不同)模型对待抽取语句的每个词进行处理来获取其语义表征,并与局部语义表征进行融合。最后,利用融合后的语义表征完成事件元素的识别和分类;语义表征和局部语义表征的获取过程包括:
[0105]
s31,利用alongformer模型对待抽取语句x={x1,x2,....,xn}处理得到所有的标签altoken={altoken1,altoken2,...,altokenn};
[0106]
s32,使用alongformer的滑动窗口注意力和全局注意力模式来获取待抽取语句的语义信息表征;
[0107]
具体的讲,首先将滑动窗口的大小设置为4,同时,根据s23中得到触发词表征将其对应的altoken的全局注意力设置为1,然后通过alongformer模型对所有的altoken=
{altoken1,altoken2,...,altokenn}进行嵌入处理,得到语义信息表征,计算方式如下:
[0108]
(m1,m2,...,mn)=tokenembed(altoken1,altoken2,...,altokenn)
[0109]
其中,(altoken1,altoken2,...,altokenn)代表所有词的标签化表示,tokenembed(
·
)表示嵌入操作,(m1,m2,...,mn)表示每个标签对应的语义向量表征
[0110]
局部相关的语义表征进行聚合具体包括:
[0111]
对s11中未裁剪过的依存分析图dag进行局部语义信息聚合,处理使用的方法和s14中的方式相同,但处理的对象变为s22得到的语义信息表征。
[0112]
利用s32得到的语义表征m={m1,m2,...,mn}进行语义表征信息聚合,计算方式如下:
[0113][0114][0115][0116]
其中,为训练得到的参数,分别对应第l+1层中第i个altoken的键向量,查询向量,值向量。表示第l层中,第i个altoken的词向量表征;特别地,的初始化值由步骤一中alongformer的词嵌入结果得到;
[0117]
最后,经过一个具有l层的网络编码后,我们最终从顶层可得到每个词的表征
[0118]
将s33得到的局部聚合语义特征与s32中获得的语义特征进行融合,输入进事件元素抽取器,完成事件元素的抽取,具体包括:
[0119]
s41,将s33得到的局部聚合语义向量表征与s32中得到的语义特征相加得到最终的表征,计算方式如下:
[0120]
s42,将s41得到的e
final
输入进一个由多组二进制分类器构成的事件元素抽取器中进行处理;
[0121]
每个altoken被选作事件元素短语开始或结尾的概率,计算方式如下:
[0122][0123][0124]
其中,是需要进行训练而得到的参数,表示第i个altoken角色为role时,其作为事件元素起始词的概率,同样的,表示第i个altoken角色为role时,其作为事件元素结尾词的概率;
[0125]
s43,训练时的损失函数使用交叉熵损失函数,计算方式如下:
[0126]
[0127][0128]
其中,|r|是角色类型的数量,|e|是句子中的token数量,ce表示交叉熵计算方式,分别表示预测值,表示真实值;
[0129]
将事件触发词抽取器和事件元素抽取器的预测结果进行拼接得到事件抽取最终的结果。
[0130]
请参阅图3,本发明提出一种基于依存分析和longformer的长复合语句事件抽取系统,其中,所述系统包括:
[0131]
事件触发词抽取模块:利用longformer模型待抽取语句中每个eltoken的局部语义表征和裁剪后的待抽取语句的依存分析图,在longformer模型上添加一个分类器进行事件触发词的识别和抽取。
[0132]
事件元素抽取模块:利用类似自注意力的机制方法和依存分析图对句子结构中的语义信息进行聚合,再结合longformer模型中得到的语义表征信息,通过在longformer上设置多组二分类器对其进行解码得到事件元素抽取结果。
[0133]
系统中事件触发词抽取模块包括三个部分操作:
[0134]
1)利用longformer模型的滑动窗口注意力机制,对句子中的局部语义表征进行捕获;
[0135]
2)对待抽取语句进行依存分析,得到其对应的依存分析图;对依存分析图进行裁剪获并利用类似于注意力机制地方法对句子结构进行建模,得到每个节点的结构信息表征;
[0136]
3)将句子局部语义表征和句子结构表征串联,通过多分类器完成事件触发词的抽取。
[0137]
系统中事件元素抽取模块包括三个部分操作:
[0138]
1)使用已经得到的触发词和longformer模型的全局注意力机制重新获取句子的语义表征;
[0139]
2)利用类似于注意力机制的方法在未裁剪的依存分析图进行局部语义表征的聚合;
[0140]
3)将两种语义表征进行融合,通过设置多组二分类器来完成事件元素的抽取。
[0141]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,具体包括以下步骤:s101、将待抽取语句转换为依存分析图,并根据事件触发词抽取的特征对依存分析图进行裁剪,使用裁剪后的依存分析图对句子进行建模,得到句子结构表示;s102、对longformer模型的注意力模式进行设置获得elongformer模型,使用elongformer模型滑动窗口注意力模式处理每个分词获取第一语义表征,将第一语义表征与句子结构表示串联,利用串联后的表示进行事件触发词的识别和分类;s103、在完成s102事件触发词识别以及分类后,利用得到的事件触发词信息对longformer模型的注意力模式进行设置获得alongformer模型,使用alongformer模型的全局和滑动窗口注意力模式处理每个分词获取重新语义特征和局部语义表征;s104、对语义特征和局部语义表征进行融合,利用融合后的语义表征进行事件元素的识别和分类。2.根据权利要求1所述的一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,步骤101获取依存关系图并对其进行裁剪的过程包括:101、采用stanza依存分析工具对待抽取语句进行依存分析得到依存分析图;102、通过stanza依存分析工具,得到待抽取语句所有词的标签化表示tagtoken={stoken1,stoken2,...,stoken
n
};103、对依存分析图进行裁剪,将图中所有出度为零的节点删除,从而得到裁剪后的依存分析图;其中,tagtoken表示一个句子的标签化表示,stoken
n
表示第n个词的标签化表示,n为待处理句子的长度。3.根据权利要求1或2所述的一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,使用裁剪后的依存分析图对句子进行建模包括以下步骤:使用一个embedding嵌入层将待抽取语句中每个词的依存关系标签tagtoken={stoken1,stoken2,...,stoken
n
}进行嵌入处理,表示为:(node1,node2,...,node
n
)=tagembed(stoken1,stoken2,...,stoken
n
);通过一个层数为12的transformer-encode编码器,生成查询向量、键向量、值向量,表示为:示为:示为:根据所有节点的查询向量、键向量、值向量来计算节点之间依存关系的权重,表示为:
通过l层计算后,得到每个节点的最终表征,表示为:其中,tagembed(
·
)表示嵌入操作,(node1,node2,...,node
n
)为对应每个词的嵌入向量表征,node
n
表示第n个词的嵌入向量表征;表示为第l层中可通过训练得到变换矩阵参数,表示第i个节点在第l层的嵌入向量表征,为该节点在第l+1层对应的查询向量、键向量、值向量;表示节点i与节点j之间依存关系的权重,n(i)表示与i节点相邻的节点集合。4.根据权利要求1所述的一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,步骤102具体包括以下步骤:201、对待抽取语句x={x1,x2,....,x
n
}处理得到所有的标签eltoken={eltoken1,eltoken2,...,eltoken
n
};202、使用滑动窗口注意力机制对所有的eltoken进行嵌入处理,得到语义信息表征,表示为:(e1,e2,...,e
n
)=tokenembed(eltoken1,eltoken2,...,eltoken
n
);203、将所有节点的依存关系表征和所有词的语义信息表征e={e1,e2,...,e
n
}进行串联操作,并输入进一个分类器中进行事件触发词的识别,表示为:其中,(eltoken1,eltoken2,...,eltoken
n
)代表所有词的标签化表示,tokenembed(
·
)表示嵌入操作,(e1,e2,...,e
n
)表示每个标签对应的语义向量表征;x
i
代表句子中第i个eltoken,是多分类器的权重,h表示elongformer模型中transfomer的隐藏层大小;t表示事件类型的集合,包括没有事件类型的情况;代表x
i
为t类型的事件触发词的概率,t∈t。5.根据权利要求1或4所述的一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,分类器中进行事件触发词的识别时,采用交叉熵损失函数作为目标函数,表示为:其中,ce(,)表示交叉熵计算方法,|t|表示事件类型数量,即集合t中元素的数量,|x|表示句子中词的总数量,表示预测结果,表示真实结果。6.根据权利要求1所述的一种基于依存分析和longformer的长复合语句事件抽取方
法,其特征在于,步骤103进行事件元素的识别具体包括以下步骤:301、对待抽取语句x={x1,x2,....,x
n
}处理得到所有的标签altoken={altoken1,altoken2,...,altoken
n
};302、使用alongformer的滑动窗口注意力和全局注意力模式来获取待抽取语句的语义信息表征,表示为:(m1,m2,...,m
n
)=tokenembed(altoken1,altoken2,...,altoken
n
)303、利用得到的语义信息表征m={m1,m2,...,m
n
}进行语义表征信息聚合,得到每个词的表征304、将步骤302得到的语义信息表征和步骤303得到的每个词的表征相加后的特征表示输入一个由多组二进制分类器构成的事件元素抽取器中进行处理,得到每个词被为事件元素短语开始或结尾的概率,包括:元素短语开始或结尾的概率,包括:其中,(altoken1,altoken2,...,altoken
n
)表示所有词的标签化表示,tokenembed(
·
)表示嵌入操作,(m1,m2,...,m
n
)表示每个标签对应的语义向量表征;是需要进行训练而得到的参数;表示第i个altoken角色为role时,其作为事件元素起始词的概率;表示第i个altoken角色为role时,其作为事件元素结尾词的概率;表示alongformer模型对第i个altoken进行预测而得到的最终特征表示。7.根据权利要求6所述的一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,步骤303具体包括:根据语义表征m={m1,m2,...,m
n
}计算对应的查询向量、键向量、值向量,表示为:}计算对应的查询向量、键向量、值向量,表示为:}计算对应的查询向量、键向量、值向量,表示为:利用自掩码注意力机制,针对每个节点以及其相邻的节点来汇总句子结构信息,表示为:为:经过一个具有l层的网络编码后,最终从顶层可得到每个词的表征
其中,为训练得到的参数,分别对应第l+1层中第i个altoken的键向量、查询向量、值向量;表示第l层中第i个altoken的词向量表征,的初始化值为(m1,m2,...,m
n
)=tokenembed(altoken1,altoken2,...,altoken
n
);n(i)表示与第i个altoken有依存关系的其他词;a
ij
表示具有依存关系的两个词之间注意力得分。8.根据权利要求1或6所述的一种基于依存分析和longformer的长复合语句事件抽取方法,其特征在于,事件元素抽取器在训练时的损失函数使用交叉函数损失,表示为:方法,其特征在于,事件元素抽取器在训练时的损失函数使用交叉函数损失,表示为:其中,|r|是角色类型的数量,|e|是句子中的token数量,ce(,)表示交叉熵计算方式,表示第i个altoken角色为role时,其作为事件元素起始词的预测概率;表示第i个altoken角色为role时,其作为事件元素结尾词的预测概率;表示第i个altoken角色为role时,其作为事件元素起始词的真实值;表示第i个altoken角色为role时,其作为事件元素起始词的真实值。9.一种基于依存分析和longformer的长复合语句事件抽取装置,其特征在于,用于实现权利要求1所述的一种基于依存分析和longformer的长复合语句事件抽取方法,包括事件触发词抽取模块、事件元素抽取模块以及抽取结果推送模块,其中:利用longformer模型待抽取语句中每个eltoken的局部语义表征和裁剪后的待抽取语句的依存分析图,在longformer模型上添加一个分类器进行事件触发词的识别和抽取;事件元素抽取模块,利用类似自注意力的机制方法和依存分析图对句子结构中的语义信息进行聚合,再结合longformer模型中得到的语义表征信息,通过在longformer上设置多组二分类器对其进行解码得到事件元素抽取结果;抽取结果推送模块,将事件触发词抽取器和事件元素抽取器的预测结果进行拼接得到事件抽取最终的结果推送给用户。

技术总结
本申请涉及自然语言处理技术领域,具体涉及一种基于依存分析和Longformer的长复合语句事件抽取方法及装置,方法包括将待抽取语句转换为依存分析图并进行裁剪,使用裁剪后的依存分析图对句子进行建模,得到句子结构表示;构建ELongformer模型并通过其得到第一语义表征,将其与句子结构表示串联,利用串联后的表示进行事件触发词的识别;构建ALongformer模型并通过其得到第二语义表征,将第二语义与局部语义表征进行融合,利用融合后的特征进行事件元素的识别;将事件触发词抽取器和事件元素抽取器的预测结果进行拼接得到事件抽取最终的结果;本发明可以有效增强事件抽取模型在长复合语句上的抽取效果。复合语句上的抽取效果。复合语句上的抽取效果。


技术研发人员:李琳 陈梓阳
受保护的技术使用者:重庆邮电大学
技术研发日:2023.06.05
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐