一种方面情感三元组抽取方法

未命名 07-14 阅读:124 评论:0


1.本发明涉及自然语言处理技术,尤其涉及一种方面情感三元组抽取方法。


背景技术:

2.方面情感三元组提取(aste)已经成为情感分析研究中的一项新兴任务,旨在从一个给定的句子中提取方面项、其相应的观点项及其对应的情感极性的三元组。最近,许多基于神经网络的模型和不同的标记方案被提出,但现有的常见模型都有其局限性:1)严重依赖每个词只与一个角色(如方面项,或观点项等)相关联的先验假设;2)词级别(word-level)交互,将每个观点/方面视为一组独立的词。因此,它们在复杂的aste任务(如一个词与多个角色相关或者一个方面/观点术语与多个词相关)中表现不佳。


技术实现要素:

3.本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种方面情感三元组抽取方法。
4.本发明解决其技术问题所采用的技术方案是:一种方面情感三元组抽取方法,包括以下步骤:
5.1)对现有文本中的每一跨度进行标注;
6.1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;共享边界为匹配的(方面,观点)对中的方面项与情感片段有相同的开始坐标,观点项与情感片段具有相同的结束坐标(对应于方面-观点匹配情况),或观点项与情感片段有相同的开始坐标,方面项与情感片段具有相同的结束坐标(对应于观点-方面匹配情况);
7.1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
8.步骤1.2)的标注过程可视为对大小为|n|
×
|n|的表t的上三角部分进行标注,其中,n是输入文本的长度,t[i][j]对应于开始坐标为i,结束坐标为j的子序列,记为跨度sp
i,j

[0009]
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;
[0010]
所述情感三元组抽取模型包括:
[0011]
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
[0012]
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
[0013]
推理层,用于依据标注结果得到对应的方面情感三元组。
[0014]
按上述方案,所述步骤2)中编码层利用bert编码器得到每个词的词表征,并通过
向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征sp
i,j

[0015][0016][0017][0018]
其中,wi表示文本序列字符串;bertt(wi)返回bert序列中词wi的子词坐标集合;||返回集合长度;w
fc
和b
fc
为全连接层参数,该全连接层用于将bert词表征映射到低维;表示向量拼接。
[0019]
按上述方案,所述步骤2)中分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
[0020]
p(sp
i,j
)=softmax(wrsp
i,j
+br), (4)
[0021]
其中,wr,br为分类器参数;
[0022]
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
[0023][0024]
其中,y
i,j
表示真实标签。
[0025]
按上述方案,所述步骤2)中推理层依据标注结果得到对应的方面情感三元组,采用的方法如下:
[0026]
通过考虑跨度信息之间的相互约束,从所有候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;具体如下:
[0027]
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
[0028]
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
[0029]
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
[0030]
2.4)重复步骤2.2)和步骤2.3),遍历所有的情感片段,获取步骤2.2)和步骤2.3)的所有候选三元组,作为最终的抽取结果。
[0031]
按上述方案,所述步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可作为方面项,则选取长度最长的方面项,选取的是除了情感片段以外具有最大长
度的方面项;否则,选取情感片段。
[0032]
本发明产生的有益效果是:
[0033]
1、本发明基于自定义的三种角色维度对文本中的每一跨度进行标注,从而使得方法能够突破现有基于词级别标注方法的局限性,同时能够支持端到端一次性地抽取对应的方面项、观点项及其对应的匹配,可有效提高方面情感三元组抽取的性能;
[0034]
2、本发明通过考虑跨度信息之间的相互约束,从情感片段中检索出最大长度的方面及观点作为匹配项,相较于传统方法可大幅降低复杂度,同时能在约束条件的指导下提高三元组抽取的准确性。
附图说明
[0035]
下面将结合附图及实施例对本发明作进一步说明,附图中:
[0036]
图1是本发明实施例的方法流程图;
[0037]
图2是本发明实施例的模型结构图;
[0038]
图3是本发明实施例的推理层工作流程图。
具体实施方式
[0039]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0040]
如图1所示,一种方面情感三元组抽取方法,包括以下步骤:
[0041]
1)对现有文本中的每一跨度进行标注;
[0042]
1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的方面-观点对,且共享其边界的文本片段;
[0043]
共享边界为匹配的(方面,观点)对中的方面项与情感片段有相同的开始坐标,观点项与情感片段具有相同的结束坐标(对应于方面-观点匹配情况),或观点项与情感片段有相同的开始坐标,方面项与情感片段具有相同的结束坐标(对应于观点-方面匹配情况);
[0044]
1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;
[0045]
考虑角色的多样性,基于上述三种角色维度对每一跨度进行标注,具体含义如下:
[0046]
a:一个方面项;
[0047]
o:一个观点项;
[0048]
neg:一个包含负向情感极性的方面-观点对的情感片段;
[0049]
neu:一个包含中立情感极性的方面-观点对的情感片段;
[0050]
pos:一个包含正向情感极性的方面-观点对的情感片段;
[0051]
n:不属于该角色维度;
[0052]
拟考虑三种标注策略:3d版本和其两种变种(2d-版本和1d-版本),具体细节如下表所示:
[0053][0054]
标注过程可视为对大小为|n|
×
|n|的表t的上三角部分进行标注,其中n是输入文本的长度,t[i][j]对应于开始坐标为i,结束坐标为j的子序列,记为跨度sp
i,j
。对于3d版本标注策略而言,可以处理跨度同时作为方面项和观点项的情况,而对于2d版本标注策略,由于方面和观点角色映射为同一维度,所以无法处理上述情况,而1d版本所受限制更多,无法处理多角色情况。但上述三种标注策略都能天然利用跨度信息,并能支持端到端的模型训练与推理,仍有其优越性。
[0055]
2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;如图2所示,情感三元组抽取模型包括:
[0056]
编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;
[0057]
编码层利用bert编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征sp
i,j

[0058][0059][0060][0061]
其中,wi表示文本序列字符串;bertt(wi)返回bert序列中词wi的子词坐标集合;||返回集合长度;w
fc
和b
fc
为全连接层参数,该全连接层用于将bert词表征映射到低维;表示向量拼接。
[0062]
分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;
[0063]
分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:
[0064]
p(sp
i,j
)=softmax(wrsp
i,j
+br),(4)
[0065]
其中,wr,br为分类器参数;
[0066]
分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:
[0067][0068]
其中,y
i,j
表示真实标签。
[0069]
推理层,用于依据标注结果得到对应的方面情感感知三元组;
[0070]
如图3所示,推理层依据标注结果得到对应的方面情感感知三元组,采用的方法如下:
[0071]
通过考虑跨度信息之间的相互约束,从候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;
[0072]
考虑跨度信息之间的相互约束指的是,对于情感片段而言,其标签正确且其内部应该包含对应的方面项和情感项的匹配;对于方面项和情感项而言,其标签和边界正确,同时也需要在构成一个合法的情感片段。
[0073]
具体如下:
[0074]
2.1)根据标注结果获得所有的方面项、观点项和情感片段;
[0075]
2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;
[0076]
2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;
[0077]
2.4)遍历所有情感片段,获得长度最长的候选情感三元组,作为最终抽取结果。
[0078]
步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可以作为方面项,那么选取的时候,选的是除了情感片段以外具有最大长度的那个(这时候情感片段不作为方面项考虑);相反,如果方面项集合中仅仅包含当前情感片段这一个元素,那么就选情感片段(这时候情感片段作为方面项考虑)。步骤2.2)中观点项集合亦同。
[0079]
对标注的方面和观点进行两两配对判断是否为合法的三元组,本发明提出的方法利用双向的跨度级别约束信息(即,情感片段不仅需要有正确的情感标签,且应该包含合法的、共享其边界的、能成功配对的方面/观点项;而方面/观点项不仅需要其自身角色标签分类正确,且其它们对应的边界应能构成一个合法的情感片段),使得抽取结果更为准确,同时上述贪婪策略也使得推理操作的复杂度从o(n4)下降到o(n2),因此本发明提出的推理方法兼具准确性与效率。
[0080]
经实验表明,相比已有主流方法,本发明的方面情感三元组抽取方法取得了更好的效果。实验采用四个基准序列标注数据集进行评估,即aste-data-v2中的14lap,14res,15res和16res,数据集的详细信息如表1所示。
[0081]
表1数据集统计信息
[0082][0083]
实验部分旨在评估本发明所提出的方面情感三元组抽取模型在不同数据集上的有效性。具体来说,我们列出了模型对比的精确率p,召回率r,和标准f1分数,实验对比结果分别在表2和表3中给出。
[0084]
表2 14lap和14res数据集上模型实验结果
[0085][0086]
表3 15res和16res数据集上模型实验结果
[0087]
[0088]
值得注意的是,从表2和表3中可以观察到,本发明提出的方法(stage-1d/2d/3d)在不同的数据集上始终优于基准模型。因为这些模型大多无法有效利用跨度信息,且强依赖于“单一词角色、单一词对关系”的先验假设,因此存在较大的局限性。本发明通过将方面情感三元组抽取问题建模为多类别跨度分类问题,提出的方法能够天然利用跨度信息,建模词的多角色性以及词对的多关系性,从而提供一种更具泛化性的三元组抽取方法。
[0089]
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

技术特征:
1.一种方面情感三元组抽取方法,其特征在于,包括以下步骤:1)对现有文本中的每一跨度进行标注;1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;1.2)基于上述三种角色维度对文本中的每一跨度进行标注;使用的标注策略为:三种角色维度相互独立进行标注、方面项和观点项角色维度映射为同一维度进行标注或三种角色维度映射到同一维度进行标注;2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;所述情感三元组抽取模型包括:编码层,用于建模跨度信息生成跨度表征;所述编码层包括一个生成词表征的编码器及跨度表征生成器;分类器,用于基于上述跨度表征预测出相应的标注结果;所述分类器训练基于步骤1)获得的标注结果;推理层,用于依据标注结果得到对应的方面情感三元组。2.根据权利要求1所述的方面情感三元组抽取方法,其特征在于,所述步骤2)中编码层利用bert编码器得到每个词的词表征,并通过向量拼接的方式,由边界信息和跨度中所有词信息得到跨度表征sp
i,j
:::其中,w
i
表示文本序列字符串;bertt(w
i
)返回bert序列中词w
i
的子词坐标集合;||返回集合长度;w
fc
和b
fc
为全连接层参数,该全连接层用于将bert词表征映射到低维;

表示向量拼接。3.根据权利要求1所述的方面情感三元组抽取方法,其特征在于所述步骤2)中分类器为将跨度表征送入带softmax激活函数的全相连层,生成词角色标签的概率分布如下:p(sp
i,j
)=softmax(w
r
sp
i,j
+b
r
),(4)其中,w
r
,b
r
为分类器参数;分类器训练的损失被定义为真实标签与预测标签之间的交叉熵损失,损失函数如下:其中,y
i,j
表示真实标签。4.根据权利要求1所述的方面情感三元组抽取方法,其特征在于所述步骤2)中推理层
依据标注结果得到对应的方面情感三元组,采用的方法如下:通过考虑跨度信息之间的相互约束,从候选情感片段中检索出最大长度的方面及观点作为匹配项,对匹配项抽取方面情感三元组;具体如下:2.1)根据标注结果获得所有的方面项、观点项和情感片段;2.2)对当前情感片段,获取其内部以开始边界为开始的方面项集合,获取其内部以结束边界为结束的观点项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为方面-观点匹配,并与该情感片段中的情感组成一个候选情感三元组;2.3)对当前情感片段,获取其内部以开始边界为开始的观点项集合,获取其内部以结束边界为结束的方面项集合,当两个集合中的方面项和观点项同时存在时,从两个集合中分别选取长度最长的方面项和观点项,作为观点-方面匹配,并与该情感片段中的情感组成一个候选情感三元组;2.4)重复步骤2.2)和步骤2.3),遍历所有的情感片段,获取步骤2.2)和步骤2.3)的所有候选三元组,作为最终的抽取结果。5.根据权利要求4所述的方面情感三元组抽取方法,其特征在于所述步骤2.3)中当方面项集合中包含多个方面项,且其中整个情感片段也可作为方面项,则选取长度最长的方面项,选取的是除了情感片段以外具有最大长度的方面项;否则,选取情感片段。

技术总结
本发明公开了一种方面情感三元组抽取方法,该方法包括以下步骤:1)对现有文本中的每一跨度进行标注;1.1)定义三种角色维度:方面项、观点项和情感片段;所述情感片段为包含一个匹配的(方面,观点)对,且共享其边界的文本片段;1.2)基于上述三种角色维度对文本中的每一跨度进行标注;2)将文本序列输入情感三元组抽取模型,进行方面情感三元组抽取;所述情感三元组抽取模型包括:编码层,用于建模跨度信息生成跨度表征;分类器,用于基于上述跨度表征预测出相应的标注结果;推理层,用于依据标注结果得到对应的方面情感三元组。本发明方法能够突破现有基于词级别标注方法的局限性,有效提高方面情感三元组抽取的性能。效提高方面情感三元组抽取的性能。效提高方面情感三元组抽取的性能。


技术研发人员:魏巍 梁硕 毛先领 付园园 陈当阳
受保护的技术使用者:华中科技大学
技术研发日:2023.01.10
技术公布日:2023/7/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐