基于深度学习的方面级情感四元组抽取方法及系统

未命名 08-13 阅读:198 评论:0


1.本发明属于深度学习技术领域,具体涉及一种基于深度学习的方面级情感四元组抽取方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.近年来,方面情感四元组预测(asqp)已经成为方面级情感分析领域的一个热门任务。其目的是将给定句子解码成为方面情感四元组(方面类别、方面词、意见词、情感极性)。想要高效地提取方面情感四元组,往往会遇到以下问题:1、方面词和意见词之间的内在关系通常被忽略,从而缺乏建立方面-意见对之间的相关性,忽视了不同情感四元组之间的相互干扰;2、评论语句中情感元素的语义信息往往得不到充分地利用,从而增加了预测不准确的风险。
4.cai等人研究了方面情感四元组预测(asqp)任务,强调了隐性方面或意见。作者认为,隐含的方面或意见经常出现在现实世界的场景中,并使用“null”来表示它们在情感四元组中。他们引入了两个带有情感四元组注释的新数据集,并通过结合现有模型构建了一系列流水线基线,以对任务进行基准测试。之后有研究人员尝试将所需的情感元素序列作为生成模型的目标,以使用seq2seq的方式解决absa问题。zhang等人提出了一个paraphrase建模策略,以端到端的方式预测情感四元组。通过将注释的情感元素与预先建立的模板相结合,并使用获得的自然语言句子作为目标序列,他们将原来的四元组预测任务转化为文本生成问题,并通过seq2seq建模范式来解决。之后,hu等人在发现模板中情感元素出现的顺序影响四元组抽取的性能,同时,他们提出组合多个模板可以通过数据增强来改善asqp任务。然而这些模型虽然能够通过将自然语言标签编码到目标输出中来利用丰富的标签语义,但它们无法有效捕获方面词和意见词之间的语义结构。
5.在这些子任务中,方面级情感分析可以分为两类任务,分别是抽取任务和分类任务,其中抽取任务中对于方面词和意见词的配对(即形成方面-意见对的过程)较为困难,往往会出现不准确的情况。之前的工作证明了利用生成式模型来将方面类别与情感极性的抽取作为分类任务是可行的。然而,传统的分类任务是通过在预训练的表示之上使用神经网络来完成的,有单独的网络参数。同时,方面类别的整合使得特定方面的输入表示不完全是自然语言句子,这与预训练的设置不同。直观地说,通过在任务层面上连接预训练和分类任务,而不是仅仅在表示层面上,可以利用更多的预训练知识。


技术实现要素:

6.为了解决上述问题,本发明提出了一种基于深度学习的方面级情感四元组抽取方法及系统,本发明在方面情感四元组预测中使用了一个两阶段框架,首先提取方面-意见对,然后对方面类别与情感极性进行分类。
7.根据一些实施例,本发明的第一方案提供了一种基于深度学习的方面级情感四元组抽取方法,采用如下技术方案:
8.一种基于深度学习的方面级情感四元组抽取方法,包括:
9.获取原始给定语句;
10.基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;
11.其中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:
12.采用行内标签的方式对原始给定语句中的方面词进行提取;
13.基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;
14.利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。
15.进一步地,根据提取的方面词,意见词,方面类别以及方面情感组成情感四元组。
16.进一步地,采用行内标签的方式对原始给定语句中的方面词进行提取,具体为:
17.基于原始给定语句,利用bert编码器获取原始给定语句的嵌入语义表示;
18.基于嵌入语义表示,根据预测概率大于设定值的标志作为方面元素的开始或结尾;
19.将每个作为开始的标志与其最近的作为结尾的标志进行配对确定一个方面词;
20.依次类推,确定提取原始给定语句中所有的方面词。
21.进一步地,基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,包括:
22.基于方面词使用固定模板语句构建问题模板语句;
23.基于问题模板语句与原始给定语句进行拼接;
24.得到拼接语句。
25.进一步地,所述基于拼接语句提取与方面词配对的意见词,具体为:
26.基于拼接语句,利用bert编码器获取原始给定语句的意见表示;
27.基于原始给定语句的意见表示,根据预测概率大于设定值的标志作为意见词的开始或结尾;
28.将每个作为开始的标志与其最近的作为结尾的标志进行配对确定一个意见词;
29.依次类推,确定提取原始给定语句的意见表示中所有的意见词。
30.进一步地,利用预定义方面类别生成对应的方面类别解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面词对应的方面类别,具体为:
31.利用bart编码器对原始给定语句进行编码,得到原始给定语句的隐藏表示;
32.利用预定义方面类别生成对应的方面类别解码器模板语句;
33.利用解码器的注意力机制对原始给定语句的隐藏表示和方面类别解码器模板语句进行解码得到注意力机制的输出表示;
34.利用前馈层对注意力机制的输出表示归一化后得分;
35.将得分最高对应的方面类别解码器模板语句作为解码器输出;
36.根据方面类别解码器模板语句对应的方面类别作为最终的方面类别。
37.进一步地,利用预定义方面情感极性生成对应的情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面词对应的方面情感,具体为:
38.利用bart编码器对原始给定语句进行编码,得到原始给定语句的隐藏表示;
39.利用预定义方面情感极性生成对应的情感极性解码器模板语句;
40.利用解码器的注意力机制对原始给定语句的隐藏表示和情感极性解码器模板语句进行解码得到注意力机制的输出表示;
41.利用前馈层对注意力机制的输出表示归一化后得分;
42.将得分最高对应的情感极性解码器模板语句作为解码器输出;
43.根据情感极性解码器模板语句对应的情感极性作为最终的方面情感。
44.根据一些实施例,本发明的第二方案提供了一种基于深度学习的方面级情感四元组抽取系统,采用如下技术方案:
45.一种基于深度学习的方面级情感四元组抽取系统,包括:
46.语句采集模块,被配置为获取原始给定语句;
47.情感四元组抽取模块,被配置为基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;
48.其中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:
49.采用行内标签的方式对原始给定语句中的方面词进行提取;
50.基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;
51.利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。
52.根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质。
53.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的一种基于深度学习的方面级情感四元组抽取方法中的步骤。
54.根据一些实施例,本发明的第四方案提供了一种计算机设备。
55.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的一种基于深度学习的方面级情感四元组抽取方法中的步骤。
56.与现有技术相比,本发明的有益效果为:
57.本发明提出了一个两阶段框架来增强方面和意见之间的相关性并充分利用情感元素的语义信息。具体来说,在第一阶段我们将抽取任务作为机器翻译(mrc)问题,将其作为机器翻译问题可以将其转化成序列到序列的任务,使用这种统一的序列到序列任务可以避免各个子任务处理过程中的误差传播问题;采用基于跨度的标记方案相较于之前采用bio的标记方案可以更好地处理多单词的方面词和意见词,同时其也具有更好的性能;最后构建成基于问答的机器阅读理解任务,以实现方面-意见对有效地抽取。在第二阶段将方面类别和情感极性的分类作为文本生成任务,通过学习以自然语言形式生成情感元素,可以充分利用情感元素的语义,同时,近年生成式的算法在方面级情感分析的任务中取得了最
好的性能,因此将方面类别和情感极性的分类任务作为生成式的任务可以极大地提高模型的性能。最后将两阶段合并,使模型既有端到端算法的出色性能,又有两阶段任务易于理解的可解释性,同时结合我们提出的模板生成器即可解码出方面情感四元组。本发明在真实数据集上的大量实验验证方法的有效性,实验效果优于对比方法。
附图说明
58.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
59.图1是本发明实施例中一种基于深度学习的方面级情感四元组抽取方法的流程图;
60.图2是本发明实施例中方面级情感四元组抽取模型的结构示意图;
61.图3是本发明实施例中生成模块的结构示意图。
具体实施方式
62.下面结合附图与实施例对本发明作进一步说明。
63.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
64.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
65.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
66.实施例一
67.如图1所示,本实施例提供了一种基于深度学习的方面级情感四元组抽取方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本实施例中,该方法包括以下步骤:
68.步骤s01:获取原始给定语句;
69.步骤s02:基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;
70.其中,在步骤s02中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:
71.步骤s021:采用行内标签的方式对原始给定语句中的方面词进行提取;
72.步骤s022:基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;
73.步骤s023:利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。
74.根据提取的方面词,意见词,方面类别以及方面情感组成情感四元组。
75.具体地,本发明的具体实施步骤如下:
76.如图2所示,整体模型框图介绍-方面级情感四元组抽取模型
77.本实施例的模型它有两个提取器和两个分类器组成:其中左边的提取器旨在提取给定句子中的所有方面词,右边的提取器旨在提取句子中的所有与方面词配对的意见词并组合为方面-意见对,分类器旨在对提取器得到的方面-意见对的方面类别和情感极性进行分类。如图3所示,模型还包含了生成模块,用于生成特定于任务的问题或模板。模型每个组成部分的细节将在以下的内容中给出。
78.问题定义
79.给定一个句子,s={x1,x2,

,xn},本实施例的目标是获得该句子中所包含的所有情感四元组,即{c1,a1,o1,p1},

,{cn,an,on,pn},其中,c表示方面类别,a表示方面词,o表示意见词,p表示方面情感。
80.需要注意的是,一个句子中通常包含多个方面和意见词。四元组抽取任务不仅要识别四个元素,而且将它们组合成一组有效的四元组,同时考虑隐含的方面/观点。由于隐含的方面/观点不能显式表达为一个词或短语,因此在隐含方面的情况下,将a设置为空,并使用范畴c来描述意见词,在隐含的意见的情况下,将o设置为空,并使用情感s来描述其语义指向。
81.在步骤s021中,采用行内标签的方式对原始给定语句中的方面词进行提取,具体为:
82.基于原始给定语句,利用bert编码器获取原始给定语句的嵌入语义表示;
83.基于嵌入语义表示,根据预测概率大于设定值的标志作为方面元素的开始或结尾;
84.将每个作为开始的标志与其最近的作为结尾的标志进行配对确定一个方面词;
85.依次类推,确定提取原始给定语句中所有的方面词。
86.具体地,编码模块
87.bert是最常用的编码器,用于提取下游任务的上下文相关特征。在本实施例的模型中,使用bert作为句子编码器和联合编码器。在句子编码器部分,bert被用来编码给定句子的上下文相关特征;在联合编码器部分,bert被用来编码问题生成模块构建的辅助问题和原句对。通过bert中的双向自我关注机制,方面词的先验信息可以被编码到原句的表示中,用于后续的相关意见词的提取。
88.在方面词提取之前,先使用bert编码器来获取原始评论文本s的嵌入语义表示其中a表示方面抽取任务,然后利用span的方式来提取评论文本中的所有方面词。
89.方面词提取模块-对于编码后的嵌入语义表示提取方面词
90.具体地,在训练阶段,本实施例采用span的方式来提取评论文本中的所有方面词,即使用两个二分类器来对方面词的开始和结束位置进行预测,具体实现为:
[0091][0092][0093]
其中,和分别表示第i或第j个词是一个方面词的开始或结尾的概率,a表示方面词,s和e分别表示方面词的开始和结束,w
as
和w
ae
是可学习的矩阵,b
as
和b
ae
为偏差。需要注意的是,因为方面词的开始位置必须位于结尾位置之前,因此,需要保证i《j。
[0094]
接着,定义所有概率大于0.5的token作为方面元素的开始或结尾。然后将每个作为开始的token与其最近的作为结尾的token进行配对,当作一个方面词,以确定句子中的所有方面词。
[0095]
方面词提取任务的损失函数可以在预测值和真实标签使用二元交叉熵损失来实现,具体如下:
[0096][0097]
其中,表示方面词提取的总损失,和分别表示方面词开始位置和结束位置的损失,bce表示二元交叉熵损失函数,和分别表示真实标签的开始和结束。
[0098]
在具体的实际应用过程中,利用bert编码器来获取原始评论文本s的嵌入语义表示后,基于所有概率大于0.5的token作为方面元素的开始或结尾,将嵌入语义表示中每个作为开始的token与其最近的作为结尾的token进行配对,当作一个方面词,以确定句子中的所有方面词。
[0099]
在步骤s022中,基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,包括:
[0100]
基于方面词使用固定模板语句构建问题模板语句;
[0101]
基于问题模板语句与原始给定语句进行拼接;
[0102]
得到拼接语句。
[0103]
所述基于拼接语句提取与方面词配对的意见词,具体为:
[0104]
基于拼接语句,利用bert编码器获取原始给定语句的意见表示;
[0105]
基于原始给定语句的意见表示,根据预测概率大于设定值的标志作为意见词的开始或结尾;
[0106]
将每个作为开始的标志与其最近的作为结尾的标志进行配对确定一个意见词;
[0107]
依次类推,确定提取原始给定语句的意见表示中所有的意见词。
[0108]
问题生成器-将方面提取任务的先验信息嵌入到意见词提取任务中
[0109]
具体地,问题生成器解决将方面提取任务的结果转移到意见词提取任务中,使两个子任务之间联系起来,以便更好的进行意见词的抽取,同时实现方面意见的配对匹配。将
意见词抽取任务转化为一个mrc问题而不是序列标注问题。因此,问题生成器的目标是生成合适的问题句子以便更好地适应意见抽取任务。为了简单起见,使用固定的模板语句“how about the[aspect]?”,通过这样的模板,可以为评论句子中的每一个方面词创建这样一个模板句。
[0110]
意见词提取模块-对于包含方面信息的模板句子进行意见词提取
[0111]
如图2所示,将前边问题生成器生成的模板句子与原始的评论文本连接到一起,然后馈送入join bert编码器中,通过bert中的双向交叉注意,可以充分地将方面提取任务的先验信息编码到原句的表示中,通过bert得到评论句子的意见表示也就是说,通过将辅助问题和原句对联合编码来将方面词的先验信息编码到原句的表示之中,以便得到针对于特定方面词的意见表示。
[0112]
像之前的方面词提取一样,意见词的提取同样使用基于span的方法,在训练阶段,即使用两个二分类器来对意见词的开始和结束位置进行预测,具体实现为:
[0113][0114][0115]
其中,和分别表示第i或第j个词是一个意见词的开始或结尾的概率,w
os
和w
oe
是可学习的矩阵,b
os
和b
oe
为偏差。同样的,i《j,将概率大于0.5的token当作一个意见词的开始或结尾。意见提取任务的损失函数同样使用二元交叉熵损失,具体为:
[0116][0117]
其中,表示意见词提取的总损失,和分别表示意见词开始位置和结束位置的损失,bce表示二元交叉熵损失函数,和分别表示真实标签的开始和结束。
[0118]
在具体的实际应用过程中,利用join bert编码器来获取评论句子的意见表示后,基于所有概率大于0.5的token作为一个意见词的开始或结尾,将评论句子的意见表示中每个作为开始的token与其最近的作为结尾的token进行配对,当作一个意见词,以确定句子中的所有意见词。
[0119]
经过上述任务,得到了所有的方面-意见对。
[0120]
在步骤s023中,利用预定义方面类别生成对应的方面类别解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面词对应的方面类别,具体为:
[0121]
利用bart编码器对原始给定语句进行编码,得到原始给定语句的隐藏表示;
[0122]
利用预定义方面类别生成对应的方面类别解码器模板语句;
[0123]
利用解码器的注意力机制对原始给定语句的隐藏表示和方面类别解码器模板语句进行解码得到注意力机制的输出表示;
[0124]
利用前馈层对注意力机制的输出表示归一化后得分;
[0125]
将得分最高对应的方面类别解码器模板语句作为解码器输出;
[0126]
根据方面类别解码器模板语句对应的方面类别作为最终的方面类别。
[0127]
在步骤s023中,利用预定义方面情感极性生成对应的情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面词对应的方面情感,具体为:
[0128]
利用bart编码器对原始给定语句进行编码,得到原始给定语句的隐藏表示;
[0129]
利用预定义方面情感极性生成对应的情感极性解码器模板语句;
[0130]
利用解码器的注意力机制对原始给定语句的隐藏表示和情感极性解码器模板语句进行解码得到注意力机制的输出表示;
[0131]
利用前馈层对注意力机制的输出表示归一化后得分;
[0132]
将得分最高对应的情感极性解码器模板语句作为解码器输出;
[0133]
根据情感极性解码器模板语句对应的情感极性作为最终的方面情感。
[0134]
模板生成器-将分类任务转化为生成任务
[0135]
模板生成器解决将得到的方面-意见对融入接下来的分类任务中,使分类任务可以更好更多的得到有用的信息,从而分类更加准确。因此,将两个分类任务转化为生成任务。因此,模板生成器的目标是生成一个合适的模板以便更好地适应生成任务。模板生成器生成的方面类别模板包含一个给定方面类别标签的slot,生成的方面情感模板包含一个给定方面类别标签的slot和另一个情感极性类型标签的slot。
[0136]
定义集合c={c1,c2,

,cm}来表示预定义方面类别,其中,m表示预定义方面类别的数量。此外,还定义集合p={p1,p2,

,pn}来表示方面情感极性,其中,n等于3,分别为“positive,negative,neutral”。
[0137]
如图3所示,使用这两个集合来分别定义方面类别解码器模板和方面情感极性解码器模板为了简单起见,两个模板都使用固定的模板语句,其中被定义为“the[a]is belong to[c]”,其中[a]表示对应的方面词。被定义为“the sentiment polarity of[c]is[p]”,其中的构建需要的解码。
[0138]
如图2、图3所示,方面类别解码器
[0139]
对于一个给定的方面词,首先创建所有的可能的方面类别模板对于一个给定的方面词,首先创建所有的可能的方面类别模板然后将原始评论馈送如bart编码器中,得到句子的隐藏表示,即:
[0140]henc
=encoder(s)
[0141]
接着,在解码器的第c步,将h
enc
和第c-1步的输出作为解码器的输入,以得到一个使用了注意力机制的输出表示,即
[0142][0143]
之后,将得到的表示馈送入前馈层并归一化后,得到其准确率分数:
[0144][0145]
其中,表示预训练bart的vocab size。
[0146]
最后,选择分数最高的模板作为解码器的输出,并最终解码出方面词对应的方面类别。解码器的输出与原始模板之间使用交叉熵损失来作为损失函数:
[0147][0148]
其中,表示方面类别分类的损失函数,tc∣t
1,c-1
表示在第c步bart解码器的输出,c表示真实的方面类别。
[0149]
如图2所示,情感极性解码器
[0150]
在通过方面类别解码器得到方面类别后,创建所有的可能的情感极性模板然后使用与训练模型为每个模板打分,具体实现与方面类别解码器类似;之后,选择分数最高的模板作为解码器的输出,并最终解码出情感极性。情感极性分类我们同样使用交叉熵损失来作为损失函数:
[0151][0152]
其中,表示情感极性分类的损失函数,tc∣t
1,c-1
表示在第c步bart解码器的输出,s表示真实的情感极性。
[0153]
联合训练
[0154]
最后,总体损失函数可以表示为:
[0155][0156]
其中,λ是超参数,用于确定各个任务的贡献度。
[0157]
本实施例公开了一种使用预训练语言模型增强的两阶段的方面级情感四元组抽取方法。在asqp中使用了一个两阶段框架,首先提取方面-意见对,然后对方面类别与情感极性进行分类。子任务组合具有良好的性能,且符合人类认知。我们将方面-意见对抽取任务制定为mrc问题,而不是序列标记问题。通过从这个角度解决抽取任务,本实施例的模型可以更好地捕获方面指定的先前特性,并具有出色的可解释性。同时,通过这种设计,可以减轻token先提取后分类方法所面临的错误传播和冗余对的负面影响。将分类任务(即方面情感分类与方面类别分类)看作是文本生成任务,与传统的分类方法相比,本实施例的模型可以更好地学习输入和输出模板之间的相关性。通过配合本实施例提出的模板生成器,分类效果优于使用相同预训练模型的分类方法。对模型及其不同组件进行了完整的分析,在两个常用的数据集上对提出的模型进行评估,本实施例的模型要优于对比方法。
[0158]
对比实验
[0159]
本实施例在两个公共数据集,即rest15和rest16上进行了实验。这两个数据集源于semeval任务,由之前的研究人员逐步注释、对齐和完备,两个数据集中的每个实例都包含一个评论句子,有一个或多个情感四元组。
[0160]
统计资料见下表1和表2。其中表1表示本实施例使用的两个数据集的数据统计,包括其划分的训练集、验证集和测试集;表2为本实施例与其他主流模型的性能对比,对比评估指标使用准确率、召回率和f1分数。
[0161]
在表1中,#s,#+,#0,#-分别表示句子的数量,积极、中性和消极四元组的数量。
[0162]
表1不同数据集的实验数据统计
[0163][0164]
对比试验
[0165]
表1在准确率(pre,%)、召回率(rec,%)和f1分数(f1,%)方面,评估结果与基线方法进行了比较。
[0166]
表2不同模型的性能对比结果
[0167][0168][0169]
通过表2的实验结果,可以看出,本实施例在准确率、召回率和f1分数上都优于其他对比方法,这表示本实施例可以更好地处理方面情感四元组抽取问题。
[0170]
实施例二
[0171]
本实施例提供了一种基于深度学习的方面级情感四元组抽取系统,包括:
[0172]
语句采集模块,被配置为获取原始给定语句;
[0173]
情感四元组抽取模块,被配置为基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;
[0174]
其中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:
[0175]
采用行内标签的方式对原始给定语句中的方面词进行提取;
[0176]
基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;
[0177]
利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。
[0178]
上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0179]
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
[0180]
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
[0181]
实施例三
[0182]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于深度学习的方面级情感四元组抽取方法中的步骤。
[0183]
实施例四
[0184]
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于深度学习的方面级情感四元组抽取方法中的步骤。
[0185]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0186]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0187]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0188]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0189]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0190]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征:
1.一种基于深度学习的方面级情感四元组抽取方法,其特征在于,包括:获取原始给定语句;基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;其中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:采用行内标签的方式对原始给定语句中的方面词进行提取;基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。2.如权利要求1所述的一种基于深度学习的方面级情感四元组抽取方法,其特征在于,根据提取的方面词,意见词,方面类别以及方面情感组成情感四元组。3.如权利要求1所述的一种基于深度学习的方面级情感四元组抽取方法,其特征在于,采用行内标签的方式对原始给定语句中的方面词进行提取,具体为:基于原始给定语句,利用bert编码器获取原始给定语句的嵌入语义表示;基于嵌入语义表示,根据预测概率大于设定值的标志作为方面元素的开始或结尾;将每个作为开始的标志与其最近的作为结尾的标志进行配对确定一个方面词;依次类推,确定提取原始给定语句中所有的方面词。4.如权利要求1所述的一种基于深度学习的方面级情感四元组抽取方法,其特征在于,基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,包括:基于方面词使用固定模板语句构建问题模板语句;基于问题模板语句与原始给定语句进行拼接;得到拼接语句。5.如权利要求1所述的一种基于深度学习的方面级情感四元组抽取方法,其特征在于,所述基于拼接语句提取与方面词配对的意见词,具体为:基于拼接语句,利用bert编码器获取原始给定语句的意见表示;基于原始给定语句的意见表示,根据预测概率大于设定值的标志作为意见词的开始或结尾;将每个作为开始的标志与其最近的作为结尾的标志进行配对确定一个意见词;依次类推,确定提取原始给定语句的意见表示中所有的意见词。6.如权利要求1所述的一种基于深度学习的方面级情感四元组抽取方法,其特征在于,利用预定义方面类别生成对应的方面类别解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面词对应的方面类别,具体为:利用bart编码器对原始给定语句进行编码,得到原始给定语句的隐藏表示;利用预定义方面类别生成对应的方面类别解码器模板语句;利用解码器的注意力机制对原始给定语句的隐藏表示和方面类别解码器模板语句进行解码得到注意力机制的输出表示;
利用前馈层对注意力机制的输出表示归一化后得分;将得分最高对应的方面类别解码器模板语句作为解码器输出;根据方面类别解码器模板语句对应的方面类别作为最终的方面类别。7.如权利要求1所述的一种基于深度学习的方面级情感四元组抽取方法,其特征在于,利用预定义方面情感极性生成对应的情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面词对应的方面情感,具体为:利用bart编码器对原始给定语句进行编码,得到原始给定语句的隐藏表示;利用预定义方面情感极性生成对应的情感极性解码器模板语句;利用解码器的注意力机制对原始给定语句的隐藏表示和情感极性解码器模板语句进行解码得到注意力机制的输出表示;利用前馈层对注意力机制的输出表示归一化后得分;将得分最高对应的情感极性解码器模板语句作为解码器输出;根据情感极性解码器模板语句对应的情感极性作为最终的方面情感。8.一种基于深度学习的方面级情感四元组抽取系统,其特征在于,包括:语句采集模块,被配置为获取原始给定语句;情感四元组抽取模块,被配置为基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;其中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:采用行内标签的方式对原始给定语句中的方面词进行提取;基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于深度学习的方面级情感四元组抽取方法中的步骤。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于深度学习的方面级情感四元组抽取方法中的步骤。

技术总结
本发明属于深度学习领域,提供了一种基于深度学习的方面级情感四元组抽取方法及系统,获取原始给定语句;基于原始给定语句,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取;其中,利用预先训练好的方面级情感四元组抽取模型进行情感四元组抽取,包括:采用行内标签的方式对原始给定语句中的方面词进行提取;基于提取的方面词构建问题模板语句,并利用问题模板语句和原始给定语句进行拼接,基于拼接语句提取与方面词配对的意见词;利用预定义方面类别和预定义方面情感极性生成对应的方面类别解码器模板语句和情感极性解码器模板语句,并根据编码后的原始给定语句进行解码,得到方面类别和方面情感。得到方面类别和方面情感。得到方面类别和方面情感。


技术研发人员:杨振宇 李治军 李晓阳 胡文月
受保护的技术使用者:齐鲁工业大学(山东省科学院)
技术研发日:2023.05.15
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐