一种基于网格标记方案的属性情感四元组抽取方法
未命名
07-22
阅读:148
评论:0
1.本发明涉及情感分析领域,尤其涉及显式及隐式属性情感四元组抽取方法。
背景技术:
2.随着互联网的迅猛发展,大量用户在各大互联网平台上发表对产品、事件或服务的评论。从用户发表的评论中抽取出有效信息对政府、企业等均有重要作用。例如,电商平台中的用户评论能反映出用户的购物偏爱以及该产品的好差,分析用户评论能协助电商平台更好地根据用户的喜爱推荐商品,同时帮助企业发现产品弱点提升产品质量;社交平台中的用户评论反映了用户对该事件所持的态度,对这些评论进行分析可以协助政府进行舆论监控。针对以上需求,研究者开始研究抽取评论文本中的情感因素的方法,其有助于提升用户使用满意度,引导企业进行产品或服务改进,增强政府对舆论的监控能力。
3.属性级情感分析是一项细粒度情感分析任务,旨在识别人们对事物的属性的情感态度。各项属性级情感分析任务的主要目标是从评论文本中抽取出属性词、属性种类、评价词、情感极性四者中的一个或多个。其中,属性词是指被评论的事物的某一方面,属性类别是指属性词所属于的类别,评价词是指评论该属性用户使用的评价词,情感极性是指用户对该属性表达出的情感趋向(包括积极、中性、消极)。过去的研究仅从评论文本中抽取四个情感元素中的单个、两个或三个,这未能充分挖掘四个情感元素之间的相互关系。
技术实现要素:
4.本发明要克服现有技术的上述缺点,针对情感四元组抽取任务,提出一种基于网格标记方案的属性情感四元组抽取方法。
5.本发明设计了一种基于网格标记方案的属性情感四元组抽取方法,首先捕获评论文本的局部和上下文特征,充分学习评论文本的词本身及词与词之间的相互关系。由于隐式表达不在文本中直接显示,因此抽取评论文本的全局特征其中蕴含了隐式表达。然后设计了一个句子引导的网格标记方案,评论文本中的每一词对关系对应网格中的一个单元格,从而将情感四元组抽取难题转换为网格预测问题。本发明可提高属性情感四元组抽取的准确率。
6.本发明通过以下技术方案来达到以上目的:
7.基于网格标记方案的属性情感四元组抽取方法,包括以下步骤:
8.步骤一:获取评论文本以及与该评论文本相关联的若干组属性情感四元组标签。
9.步骤二:将所述评论文本输入至预设的词嵌入模型,获取所述评论文本的评论文本句子词嵌入表示。
10.步骤三:将所述评论文本词嵌入表示输入多尺度卷积神经网络,获取包含每个单词的局部特征的评论文本特征序列,再将所述评论文本特征序列输入双向长短期记忆神经网络,获取包含局部特征以及上下文特征的评论文本特征序列。
11.步骤四:将所述评论文本特征序列依次输入自注意力机制层以及最大池化层,获
取评论文本全局特征序列。
12.步骤五:将所述包含局部特征以及上下文特征的评论文本特征序列与所述评论文本全局特征序列进行拼接,获得全新文本特征序列。
13.步骤六:将所述文本特征序列作为横纵坐标构造两个网格,分别用于预测属性情感三元组标签和属性种类标签,每个词对关系对应网格中的一个单元格。所述属性情感三元组标签包括属性词、评价词和情感属性。
14.步骤七:调整模型中的参数以获得最优的属性情感四元组抽取效果。
15.作为优选,所述步骤一中的评论文本由若干单词构成,所述单词中通常含有属性词以及评价词。所述情感属性情感四元组包括与所述评论文本相关联的特定词以及标记词,所述特定词包括特定属性词以及特定评价词,标记词包括属性种类以及情感极性。
16.作为优选,所述步骤二使用glove词嵌入模型获取所述评论文本的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述评论文本的多维句子序列x={x1,x2,
…
,xn}。
17.作为优选,所述步骤三将步骤二中得到的评论文本序列x={x1,x2,
…
,xn}输入多尺度卷积神经网络获取包含每个单词的局部特征的评论文本特征序列,再将所述评论文本特征序列输入双向长短期记忆神经网络获取含义丰富的评论文本特征序列h。
18.作为优选,所述步骤四将部分评论文本中含有隐式表达(包括隐式属性词和隐式评价词)的情况纳入考虑,隐式表达不显式出现在评论文本中,需要通过评论文本整体含义抽取。因此在步骤四对步骤三所述评论文本整体含义进行抽取,构造评论文本全局特征序列s用于捕获所述隐式表达,公式如下:
[0019][0020]
s=maxpooling(hs)*wsꢀꢀꢀ
(2)
[0021]
其中,attention()是计算自注意力的方法,maxpooling()是从相同维度中获得最大值的最大池化层,和ws是需要被训练的权重参数。
[0022]
作为优选,所述步骤五将步骤三所述包含局部特征以及上下文特征的评论文本特征序列h与步骤四所述评论文本全局特征序列s进行拼接,获得全新文本特征序列,公式如下:
[0023]
h=[s:h]
ꢀꢀꢀ
(3)
[0024]
其中,[:]表示向量拼接操作。
[0025]
为了防止深度神经网络隐藏层过多网络退化问题,将所述文本特征序列h输入残差网络进行处理得到文本特征序列h'。
[0026]
作为优选,所述步骤六拼接每个词对xi和xj的文本特征序列,并将其作为情感三元组抽取任务的三元组特征表示r,公式如下:
[0027]
rij=[h
′i:h
′j]
ꢀꢀꢀꢀ
(4)
[0028]
其中,[:]表示向量拼接操作。
[0029]
基于情感三元组特征表示r可以进一步捕获属性类别特征表示t,公式如下:
[0030]
t
ij
=w
trij
ꢀꢀꢀ
(5)
[0031]
其中,w
t
是需要被训练的权重参数。
[0032]
利用全连接层预测每个词对所对应的关系,公式如下:
[0033][0034][0035]
其中,w
aste
,b
aste
,w
acd
,b
acd
是需要被训练的参数,是情感三元组抽取网格中预测的ij网格对应的标签,是属性类别检测网格中预测的ij网格对应的标签。
[0036]
对于三元组特征表示网格和属性类别特征表示网格本发明设计了网格解码算法从网格中提取出情感四元组。网格中的标签共有{n,a,o,mixed,pos,neg,neu,c}八种,分别表示无词对关系、属性词关系、评价词关系、属性词-评价词复合关系、积极情感极性、消极情感极性、中性情感极性、属性类别。首先检索r
00
网格的标签,捕获评论文本中的隐式属性词和评价词,其次检索r
ii
(i>0)网格对角线位置的标签,捕获评论文本中的显式属性词和评价词,同时捕获r
00
和r
ii
(i>0)网格中的情感极性标签。假设r
00
或者r
ii
网格中存在情感极性标签(pos,neg,neu),则在属性类别特征表示网格中相同单元格位置t
00
或者t
ii
存在属性类别标签c(c为泛指,共有多少种属性类别标签需要人为指定)。
[0037]
作为优选,所述步骤七在训练基于句子引导的网格标记方案的属性情感四元组抽取模型时,需要联合最小化属性情感三元组抽取任务和属性类别检测任务的损失值。使用交叉熵损失来计算真实情感三元组标签分布y
aste
和预测情感三元组标签分布之间的损失值以及真实属性类别标签分布y
acd
和预测属性类别标签分布之间的损失值,公式如下:
[0038][0039][0040][0041][0042]
其中,f()是一个判断函数,可以判断括号中值是否正确,i和j表示词对(wi,wj)的索引,d表示属性情感三元组的情感极性标签(n,a,o,mixed,pos,neg,neu),c表示预定义的属性类别标签集合,λ
aste
和λ
acd
是l2正则化的正则化系数表示对后面这部分的“重视程度”,用以防止模型过拟合问题。
[0043]
由于属性情感三元组网格和属性类别网格的标签预测结果质量都将影响到属性情感四元组的预测结果的准确性,因此计算模型的总损失时需要联合计算l
aste
和l
acd
,公式如下:
[0044]
l=α1l
aste
+(1-α1)l
acd
ꢀꢀꢀ
(12)
[0045]
其中,α1是占比参数,决定了属性三元组抽取质量和属性类别检测质量对属性四元组抽取质量的影响程度。
[0046]
本发明中的基于句子引导的网格标记方案不仅能抽取句子中的显式表达,还能抽取隐式表达。通过将所述评论文本特征序列依次输入自注意力机制层以及最大池化层获取评论文本全局特征序列,而该序列蕴含了隐式表达。该序列被应用于构造属性情感三元组网格和属性类别网格,从而本发明能有效抽取评论文本中的隐式表达;
[0047]
本发明构造了一个端到端框架,能联合抽取出属性词、属性类别、评价词和情感极性。相比于传统管道方式,该框架能有效避免错误传播问题,充分利用子任务之间的相互关系;
[0048]
本发明采用多尺度卷积神经网络获取包含每个单词的局部特征的评论文本特征序列,再采用双向长短期记忆神经网络获取包含局部特征以及上下文特征的评论文本特征序列,从而从评论文本中充分捕获单词本身及上下文信息。
[0049]
本发明的优点是:可提高属性情感四元组抽取的准确率。
附图说明
[0050]
图1是本发明方法的总体框架图。
具体实施方式
[0051]
下面结合具体的实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
[0052]
应用本发明的基于网格标记方案的属性情感四元组抽取方法的网络电商商品推荐方法,包括以下步骤:
[0053]
步骤一,获取评论文本以及与该评论文本相关联的若干组属性情感四元组标签。本发明对restaurant-acos和laptop-acos数据集进行处理,这两个数据集分别由用户对饭店和笔记本的评论组成。评论文本由若干单词构成,所述单词中含有属性词以及评价词。所述情感属性情感四元组包括与所述评论文本相关联的特定词以及标记词,所述特定词包括特定属性词以及特定评价词,标记词包括属性种类以及情感极性,情感极性分别为积极的pos、消极的neg和中性的neu。
[0054]
步骤二,将所述评论文本输入至预设的glove词嵌入模型获取所述评论文本的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述评论文本的多维句子序列x={x1,x2,
…
,xn}。
[0055]
步骤三,将步骤二中得到的评论文本序列x={x1,x2,
…
,xn}输入多尺度卷积神经网络获取包含每个单词的局部特征的评论文本特征序列,再将所述评论文本特征序列输入双向长短期记忆神经网络获取含义丰富的评论文本特征序列h。
[0056]
步骤四,对步骤三所述评论文本整体含义进行抽取,构造评论文本全局特征序列s用于捕获所述隐式表达,公式如下:
[0057][0058]
s=maxpooling(hs)*wsꢀꢀꢀ
(2)
[0059]
其中,attention()是计算自注意力的方法,maxpooling()是从相同维度中获得最大值的最大池化层,和ws是需要被训练的权重参数。
[0060]
步骤五,将步骤三所述包含局部特征以及上下文特征的评论文本特征序列h与步骤四所述评论文本全局特征序列s进行拼接,获得全新文本特征序列,公式如下:
[0061]
h=[s:h]
ꢀꢀꢀ
(3)
[0062]
其中,[:]表示向量拼接操作。
[0063]
为了防止深度神经网络隐藏层过多网络退化问题,将所述文本特征序列h输入残差网络进行处理得到文本特征序列h'。
[0064]
步骤六,本发明将情感四元组抽取任务分割为情感三元组抽取任务(属性词、属性种类、评价词)和属性类别检测任务,使用句子引导的网格标记方案来标注并提取属性情感三元组和属性类别,利用两个网格之间的映射关系以端到端框架同时抽取属性词、属性种类、评价词、情感极性,避免了传统pipeline方法中的错误传播问题。评论文本的每一词对关系与网格的单元格中的标注相对应。
[0065]
首先拼接每个词对xi和xj的文本特征序列,并将其作为情感三元组抽取任务的三元组特征表示r,公式如下:
[0066]rij
=[h'i:h'j] (4)
[0067]
其中,[:]表示向量拼接操作。
[0068]
而后基于情感三元组特征表示r可以进一步捕获属性类别特征表示t,公式如下:
[0069]
t
ij
=w
trij (5)
[0070]
其中,w
t
是需要被训练的权重参数。
[0071]
最后利用全连接层预测每个词对所对应的关系,公式如下:
[0072][0073][0074]
其中,w
aste
,b
aste
,w
acd
,b
acd
是需要被训练的参数,是情感三元组抽取网格中预测的ij网格对应的标签,是属性类别检测网格中预测的ij网格对应的标签。
[0075]
对于三元组特征表示网格和属性类别特征表示网格本发明设计了网格解码算法从网格中提取出情感四元组。网格中的标签共有{n,a,o,mixed,pos,neg,neu,c}八种,分别表示无词对关系、属性词关系、评价词关系、属性词-评价词复合关系、积极情感极性、消极情感极性、中性情感极性、属性类别。首先检索r
00
网格的标签,捕获评论文本中的隐式属性词和评价词,其次检索r
ii
(i>0)网格对角线位置的标签,捕获评论文本中的显式属性词和评价词,同时捕获r
00
和r
ii
(i>0)网格中的情感极性标签。假设r
00
或者r
ii
网格中存在情感极性标签(pos,neg,neu),则在属性类别特征表示网格中相同单元格位置t
00
或者t
ii
存在属性类别标签c(c为泛指,共有多少种属性类别标签需要人为指定)。
[0076]
步骤七,对属性情感四元组抽取模型进行训练,调整模型中的参数以获得最优的属性情感四元组抽取效果。本发明对由饭店和笔记本电脑用户评论构成的restaurant-acos和laptop-acos数据集进行处理,将其分为训练集、验证集和测试集,按照图1的流程对模型进行训练,本发明对模型中的诸多可调参数进行调优以获得最优的预测模型,这些参数可分为网络结构参数和学习算法参数两大类。最终确定的学习算法参数如下表1所示:
[0077]
表1 学习算法参数
[0078][0079]
训练基于句子引导的网格标记方案的属性情感四元组抽取模型时,需要联合最小化属性情感三元组抽取任务和属性类别检测任务的损失值。使用交叉熵损失来计算真实情感三元组标签分布y
aste
和预测情感三元组标签分布之间的损失值以及真实属性类别标签分布y
acd
和预测属性类别标签分布之间的损失值,公式如下:
[0080][0081][0082][0083][0084]
其中,f()是一个判断函数,可以判断括号中值是否正确,i和j表示词对(wi,wj)的索引,d表示属性情感三元组的情感极性标签(n,a,o,mixed,pos,neg,neu),c表示预定义的属性类别标签集合,λ
aste
和λ
acd
是l2正则化的正则化系数表示对后面这部分的“重视程度”,用以防止模型过拟合问题。
[0085]
由于属性情感三元组网格和属性类别网格的标签预测结果质量都将影响到属性情感四元组的预测结果的准确性,因此计算模型的总损失时需要联合计算l
aste
和l
acd
,公式如下:
[0086]
l=α1l
aste
+(1α1)l
acd
ꢀꢀꢀ
(12)
[0087]
其中,α1是占比参数,决定了属性三元组抽取质量和属性类别检测质量对属性四元组抽取质量的影响程度。在restaurant-acos和laptop-acos数据集上,α1取值为0.5时能获得最佳的属性四元组抽取结果。
[0088]
步骤八,应用步骤七训练得到的属性情感四元组抽取模型,获取网络电商的用户的喜好,进行商品推荐。
[0089]
通过以上方法的设计,最终建立了一个属性情感四元组抽取模型,给出评论文本中的显式和隐式四元组,通过参数调优,优化整体预测。
[0090]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
技术特征:
1.一种基于网格标记方案的属性情感四元组抽取方法,其特征在于,包括以下步骤:步骤一:获取评论文本以及与该评论文本相关联的若干组属性情感四元组标签;步骤二:将所述评论文本输入至预设的词嵌入模型,获取所述评论文本的评论文本句子词嵌入表示;步骤三:将所述评论文本词嵌入表示输入多尺度卷积神经网络,获取包含每个单词的局部特征的评论文本特征序列,再将所述评论文本特征序列输入双向长短期记忆神经网络,获取包含局部特征以及上下文特征的评论文本特征序列;步骤四:将所述评论文本特征序列依次输入自注意力机制层以及最大池化层,获取评论文本全局特征序列;步骤五:将所述包含局部特征以及上下文特征的评论文本特征序列与所述评论文本全局特征序列进行拼接,获得全新文本特征序列;步骤六:将所述文本特征序列作为横纵坐标构造两个网格,分别用于预测属性情感三元组标签和属性种类标签,每个词对关系对应网格中的一个单元格;所述属性情感三元组标签包括属性词、评价词和情感属性;步骤七:调整模型中的参数以获得最优的属性情感四元组抽取效果。2.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤一所述的评论文本由若干单词构成,所述单词中通常含有属性词以及评价词;所述情感属性情感四元组包括与所述评论文本相关联的特定词以及标记词,所述特定词包括特定属性词以及特定评价词,标记词包括属性种类以及情感极性。3.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤二中使用glove词嵌入模型获取所述评论文本的词嵌入表示,将所述词嵌入表示进行编码处理,获取所述评论文本的多维句子序列x={x1,x2,
…
,x
n
}。4.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤三中,基于步骤二中获得的评论文本句子词嵌入表示,将其输入多尺度卷积神经网络获取包含每个单词的局部特征的评论文本特征序列,再将所述评论文本特征序列输入双向长短期记忆神经网络获取含义丰富的评论文本特征序列h。5.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤四中,对步骤三所述评论文本整体含义进行抽取,构造评论文本全局特征序列s用于捕获所述隐式表达,公式如下:s=maxpooling(h
s
)*w
s
ꢀꢀꢀꢀ
(2)其中,attention()是计算自注意力的方法,maxpooling()是从相同维度中获得最大值的最大池化层,和w
s
是需要被训练的权重参数。6.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤五中,将步骤三所述包含局部特征以及上下文特征的评论文本特征序列h与步骤四所述评论文本全局特征序列s进行拼接,获得全新文本特征序列,公式如下:h=[s:h]
ꢀꢀꢀꢀ
(3)其中,[:]表示向量拼接操作。
为了防止深度神经网络隐藏层过多网络退化问题,将所述文本特征序列h输入残差网络进行处理得到文本特征序列h'。7.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤六中,拼接每个词对x
i
和x
j
的文本特征序列,并将其作为情感三元组抽取任务的三元组特征表示r,公式如下:r
ij
=[h'
i
:h'
j
]
ꢀꢀꢀꢀ
(4)其中,[:]表示向量拼接操作。基于情感三元组特征表示r可以进一步捕获属性类别特征表示t,公式如下:t
ij
=w
t
r
ij
ꢀꢀꢀꢀ
(5)其中,w
t
是需要被训练的权重参数;然后利用全连接层预测每个词对所对应的关系,公式如下:然后利用全连接层预测每个词对所对应的关系,公式如下:其中,w
aste
,b
aste
,w
acd
,b
acd
是需要被训练的参数,是情感三元组抽取网格中预测的ij网格对应的标签,是属性类别检测网格中预测的ij网格对应的标签。8.根据权利要求1所述的基于网格标记方案的属性情感四元组抽取方法,其特征在于:步骤七中,对属性情感四元组抽取模型进行训练,调整模型中的参数以获得最优的属性情感四元组抽取效果,通过学习获得的最终优化参数为:词向量维度为300;学习速率为1e-3;评论文本的长度限制为128;每批学习数据数目为32;优化器为adam;λ
aste
为2e-5;λ
acd
为2e-5;α1为0.5;训练轮次为300;训练基于句子引导的网格标记方案的属性情感四元组抽取模型时,需要联合最小化属性情感三元组抽取任务和属性类别检测任务的损失值;使用交叉熵损失来计算真实情感三元组标签分布y
aste
和预测情感三元组标签分布之间的损失值以及真实属性类别标签分布y
acd
和预测属性类别标签分布之间的损失值,公式如下:之间的损失值,公式如下:之间的损失值,公式如下:之间的损失值,公式如下:其中,f()是一个判断函数,可以判断括号中值是否正确,i和j表示词对(w
i
,w
j
)的索引,d表示属性情感三元组的情感极性标签(n,a,o,mixed,pos,neg,neu),c表示预定义的属性类别标签集合,λ
aste
和λ
acd
是l2正则化的正则化系数表示对后面这部分的“重视程度”,用以防止模型过拟合问题;由于属性情感三元组网格和属性类别网格的标签预测结果质量都将影响到属性情感四元组的预测结果的准确性,因此计算模型的总损失时需要联合计算l
aste
和l
acd
,公式如下:
l=α1l
aste
+(1-α1)l
acd
ꢀꢀꢀꢀ
(12)其中,α1是占比参数,决定了属性三元组抽取质量和属性类别检测质量对属性四元组抽取质量的影响程度。
技术总结
一种基于网格标记方案的属性情感四元组抽取方法,包括:首先利用Glove将评论文本转化为词嵌入,得到蕴含词与词之间的联系的向量;然后使用多尺度卷积神经网络和双向长短期记忆神经网络充分捕获评论文本中的信息,包括局部特征和上下文特征;其次使用自注意力机制和最大池化层捕获评论文本中的全局特征,全局特征中蕴含了评论文本中的隐式属性词和评价词;最后,使用捕获的特征训练基于句子的网格标记模型,并调整模型中的参数以获得最优的情感四元组抽取。实验结果验证了模型在情感四元组抽取任务上的有效性,并为使用端到端方式解决四元组抽取任务提供了新的思路和方法。元组抽取任务提供了新的思路和方法。元组抽取任务提供了新的思路和方法。
技术研发人员:朱李楠 鲍寅威 孔祥杰 许敏皓 朱柘潮
受保护的技术使用者:浙江工业大学
技术研发日:2023.03.15
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
