属性观点抽取方法、装置、电子设备和存储介质与流程

未命名 07-23 阅读:109 评论:0


1.本发明涉及观点抽取技术领域,尤其涉及一种属性观点抽取方法、装置、电子设备和存储介质。


背景技术:

2.属性观点抽取的主要任务是从用户评价中抽取细粒度四元组《属性词,属性类别,观点词,观点情感》。例如,给定评价“层层修护吸收快,但快递较慢”,可以抽取两个四元组:《修护吸收,功效,快,正面》和《快递,物流,较慢,负面》。
3.然而,在用户评价中,经常没有出现属性词或者观点词,但存在属性类别或者观点情感。例如,评价“太贵了”,虽然没有属性词“价格”,但是很容易推断用户评价的属性类别为“费用”,因此可以得到四元组《none,费用,太贵了,负面》。评价“开机速度只要1秒”,虽然没有任何观点词,但是可以推断用户的观点情感为“正面”,因此可以得到四元组《开机速度,性能,none,正面》。评价“这东西像画一样”,既没有属性词,又没有观点词,但是可以得到四元组《none,外观,none,正面》,其中none表示隐性的属性词或者观点词。
4.虽然在用户评价中,隐性的属性词或者观点词非常常见,但是现有观点抽取方法只能抽取显性属性词和显性观点词的属性类别和观点情感,而忽略隐性的属性词和观点词,因此应用及效果受很大限制。


技术实现要素:

5.为解决现有观点抽取方法无法抽取隐性属性词和隐性观点词的属性类别和观点情感的技术问题,本发明实施例提供一种属性观点抽取方法、装置、电子设备和存储介质。
6.本发明实施例的技术方案是这样实现的:
7.本发明实施例提供了一种属性观点抽取方法,所述方法包括:在给定的评价文本内容中,补入隐性属性词和隐性观点词;对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。
8.在一实施例中,所述在给定的评价文本内容中,补入隐性属性词和隐性观点词包括:为隐性属性词构建对应的隐性属性词专用字符串,为隐性观点词构建对应的隐性观点词专用字符串;基于给定的评价文本内容,获取对应的文本字符串;在所述文本字符串末尾,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串。
9.在一实施例中,所述对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词,包括:对补入后的评价文本内容进行切词处理,获得切词列表;对所述切词列表中的各个词语,利用学习模型,获取各个词语对应的词嵌入向量;基于所述各个词语对应的词嵌入向量,利用序列标注模型,提取显性属性词、隐性属性词、显性观点词和隐性观点词。
10.在一实施例中,预测所述显性属性词、所述隐性属性词的类别,包括:对于所述显性属性词、所述隐性属性词,获取各个词语对应的词嵌入向量;将所述词嵌入向量输入预设分类模型的全连接层,获得对应的输出值;获取属性类别嵌入矩阵,根据所述属性类别嵌入矩阵和所述词嵌入向量计算点积;利用所述输出值和所述点积,确定所述显性属性词和所述隐性属性词所对应的类别。
11.在一实施例中,预测所述显性观点词、所述隐性观点词的类别,包括:对于所述显性观点词、所述隐性观点词,获取各个词语对应的词嵌入向量;将所述词嵌入向量输入预设分类模型的全连接层,获得对应的输出值;获取观点类别嵌入矩阵,根据所述观点类别嵌入矩阵和所述词嵌入向量计算点积;利用所述输出值和所述点积,确定所述显性观点词和所述隐性观点词所对应的类别。
12.在一实施例中,所述基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组,包括:利用所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词及类别,计算笛卡儿积,获得候选四元组;判断所述候选四元组的有效性,输出有效的细粒度四元组。
13.在一实施例中,所述判断所述候选四元组的有效性,输出有效的细粒度四元组,包括:获取所述候选四元组中每个词语的词嵌入向量;基于所述每个词语的词嵌入向量,计算加权平均向量;将所述加权平均向量输入全连接层,获取所述候选四元组的有效性。
14.本发明实施例还提供了一种属性观点抽取装置,所述装置包括:补入模块,用于在给定的评价文本内容中,补入隐性属性词和隐性观点词;提取模块,用于对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测模块,用于预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;分析模块,用于基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。
15.本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,处理器用于运行计算机程序时,执行上述任一方法的步骤。
16.本发明实施例还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时,实现上述任一方法的步骤。
17.本发明实施例提供的属性观点抽取方法、装置、电子设备和存储介质,在给定的评价文本内容中,补入隐性属性词和隐性观点词;对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。相比于现有技术仅能抽取显性属性词和显性观点词的属性类别和观点情感,本发明提供的方案可以抽取含有隐性属性词和隐性观点词的属性类别和观点情感,能极大地从给定的用户评价文本中挖掘用户评价信息,提高用户评价文本中属性观点抽取的召回率和精确率,扩展实际应用范围。
附图说明
18.图1为本发明实施例属性观点抽取方法的流程示意图;
19.图2为本发明实施例隐性属性观点抽取框架示意图;
20.图3为本发明实施例隐性属性观点抽取流程示意图;
21.图4为本发明实施例双重属性词分类流程示意图;
22.图5为本发明实施例双重观点词分类流程示意图;
23.图6为本发明实施例预测配对有效性流程示意图;
24.图7为本发明实施例属性观点抽取装置的结构示意图;
25.图8为本发明实施例计算机设备的内部结构图。
具体实施方式
26.下面将结合附图及实施例对本发明作进一步详细的描述。
27.本发明实施例提供了一种属性观点抽取方法,如图1所示,该方法包括:
28.步骤101:在给定的评价文本内容中,补入隐性属性词和隐性观点词;
29.步骤102:对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;
30.步骤103:预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;
31.步骤104:基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。
32.具体地,本实施例中的细粒度四元组为《属性词,属性类别,观点词,观点情感》。例如,给定评价“层层修护吸收快,但快递较慢”,可以抽取两个四元组:《修护吸收,功效,快,正面》和《快递,物流,较慢,负面》。
33.本实施例中的显性属性词和显性观点词,指从用户给定的评价文本内容中能直接抽取的表征属性和观点的词语。隐性属性词和隐性观点词,指从用户给定的评价文本内容中不能直接抽取,但从评价文本上下文中能推测出来的表征属性和观点的词语。
34.本实施例中的评价文本内容可以是任意的。例如,可从电商平台的产品评价文本中,获取评价文本内容。
35.在一实施例中,所述在给定的评价文本内容中,补入隐性属性词和隐性观点词包括:
36.为隐性属性词构建对应的隐性属性词专用字符串,为隐性观点词构建对应的隐性观点词专用字符串;
37.基于给定的评价文本内容,获取对应的文本字符串;
38.在所述文本字符串末尾,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串。
39.这里,可对隐性属性词构建任意的隐性属性词专用字符串。例如,可设定隐性属性词专用字符串为[implict_aspect]。同理,可对隐性观点词构建对应的隐性观点词专用字符串。例如,可设定隐性观点词专用字符串为[implict_opinion]。
[0040]
本实施例在构建隐性属性词专用字符串和隐性观点词专用字符串之后,可通过在文本字符串末尾,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串的方式,对给定的评价文本内容,补入隐性属性词和隐性观点词。例如,在给定的评价文本内容“这
东西像画一样”的尾部,添加隐性属性词专用字符串[implict_aspect]和隐性观点词专用字符串[implict_opinion],形成新的文本字符串“这东西像画一样[implict_aspect][implict_opinion]”。
[0041]
当然,除了可在文本字符串末尾,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串之外,还可在文本字符串之前,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串。例如,在给定的评价文本内容“这东西像画一样”之前,添加隐性属性词专用字符串[implict_aspect]和隐性观点词专用字符串[implict_opinion],形成新的文本字符串“[implict_aspect][implict_opinion]这东西像画一样”。
[0042]
此外,除了采用上述两种添加方式,还可以采用其他添加方式。例如,可在文本字符串词语中间,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串。
[0043]
本实施例通过在评价文本内容中,补入隐性属性词和隐性观点词,方便模型对评价文本进行全面评估,获取评价文本中的属性类别和观点情感,从而全面了解用户的关注点和偏好情况。
[0044]
在一实施例中,所述对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词,包括:
[0045]
对补入后的评价文本内容进行切词处理,获得切词列表;
[0046]
对所述切词列表中的各个词语,利用学习模型,获取各个词语对应的词嵌入向量;
[0047]
基于所述各个词语对应的词嵌入向量,利用序列标注模型,提取显性属性词、隐性属性词、显性观点词和隐性观点词。
[0048]
这里,可采用常规的切词处理方式进行切词处理,获得切词列表。例如,“这东西像画一样[implict_aspect][implict_opinion]”进行切词处理后,获得切词列表:“这,东西,像,画,一样,[implict_aspect],[implict_opinion]”。
[0049]
另外,本实施例中的学习模型可以为transformer模型。利用transformer模型,获取各个词语对应的词嵌入向量。例如,利用transformer模型,获取切词列表:“这,东西,像,画,一样,[implict_aspect],[implict_opinion]”中“这”对应的词嵌入向量、“东西”对应的词嵌入向量、“像”对应的词嵌入向量、“画”对应的词嵌入向量、“一样”对应的词嵌入向量、“[implict_aspect]”对应的词嵌入向量、“[implict_opinion]”对应的词嵌入向量。
[0050]
获取上述各个词语对应的词嵌入向量后,可基于上述各个词语对应的词嵌入向量,利用常用的序列标注模型,提取显性属性词、隐性属性词、显性观点词和隐性观点词。例如,对于评价文本内容“层层修护吸收快,但快递较慢”,获得属性词列表为:“修复吸收,快递,[implict_aspect]”,观点词列表为:“快,较慢,[implict_opinion]”。
[0051]
在一实施例中,预测所述显性属性词、所述隐性属性词的类别,包括:
[0052]
对于所述显性属性词、所述隐性属性词,获取各个词语对应的词嵌入向量;
[0053]
将所述词嵌入向量输入预设分类模型的全连接层,获得对应的输出值;
[0054]
获取属性类别嵌入矩阵,根据所述属性类别嵌入矩阵和所述词嵌入向量计算点积;
[0055]
利用所述输出值和所述点积,确定所述显性属性词和所述隐性属性词所对应的类别。
[0056]
具体地,本实施例中的预设分类模型可以为双重多标签分类模型。由于用户评价
可能包含多个不同类别的隐性属性词,因此,选用双重多标签分类模型,可以让一个隐性属性词专用字符串对应表示多个类别。例如,评价文本内容“非常棒,也值了”,包含两个隐性属性词的类别“质量”和“费用”,采用双重多标签分类模型,则可以让隐性属性词专用字符串[implict_aspect]对应两个类别“质量”和“费用”。
[0057]
另外,本实施例采用的是双重分类方法,即一方面把属性词的嵌入向量输入全连接层,计算各类别对应的输出值logits值,另一方面,同样基于transformer学习属性类别的字符串,即“费用”,“质量”,“功效”、“售后”、“物流”等构成的嵌入矩阵,并与隐性属性词专用字符串[implict_aspect]的嵌入向量计算点积,然后计算“logits值”和“点积”的和,输入sigmoid函数计算属于各属性类别的概率值,进行多标签分类。
[0058]
此外,本实施例中的全连接层为网络模型中的常用层级结构,本实施例可采用现有技术中常规的网络模型,基于该网络模型的全连接层,对输入的数据计算输出值logits值。关于全连接层的相关描述,这里则不再详细赘述。
[0059]
在一实施例中,预测所述显性观点词、所述隐性观点词的类别,包括:
[0060]
对于所述显性观点词、所述隐性观点词,获取各个词语对应的词嵌入向量;
[0061]
将所述词嵌入向量输入预设分类模型的全连接层,获得对应的输出值;
[0062]
获取观点类别嵌入矩阵,根据所述观点类别嵌入矩阵和所述词嵌入向量计算点积;
[0063]
利用所述输出值和所述点积,确定所述显性观点词和所述隐性观点词所对应的类别。
[0064]
同理,本实施例中的预设分类模型也可以为双重多标签分类模型。由于用户评价可能包含多个不同类别的隐性观点词,因此,选用双重多标签分类模型,可以让一个隐性观点词专用字符串对应表示多个类别。例如,评价文本内容“这手机跟iphone差不多,但是开机需要10秒以上”,包含两个隐性观点词的类别,即外观为“正面”和性能为“负面”,采用双重多标签分类模型,则可以让隐性观点词专用字符串[implict_opinion]对应两个类别外观“正面”和性能“负面”。
[0065]
另外,本实施例采用的是双重分类方法,即一方面把观点词的嵌入向量输入全连接层,计算各类别对应的输出值logits值,另一方面,同样基于transformer学习观点类别的字符串,即“正面”,“负面”和“中性”构成的嵌入矩阵,并与隐性观点词专用字符串[implict_opinion]的嵌入向量计算点积,然后计算“logits值”和“点积”的和,输入sigmoid函数计算属于各观点类别的概率值,进行多标签分类。
[0066]
在一实施例中,所述基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组,包括:
[0067]
利用所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词及类别,计算笛卡儿积,获得候选四元组;
[0068]
判断所述候选四元组的有效性,输出有效的细粒度四元组。
[0069]
这里,可采用常用的笛卡儿积计算方法,获取候选四元组。例如,对于属性词及类别列表为:《快递,物流》,《[implict_aspect],功效》;观点词及类别为:《很快,正面》,《[implict_opinion],负面》。计算两个列表的笛卡儿积得到候选四元组:《快递,物流,很快,正面》,《快递,物流,[implict_opinion],负面》,《[implict_aspect],功效,很快,正面》,《
[implict_aspect],功效,[implict_opinion],负面》。
[0070]
在一实施例中,所述判断所述候选四元组的有效性,输出有效的细粒度四元组,包括:
[0071]
获取所述候选四元组中每个词语的词嵌入向量;
[0072]
基于所述每个词语的词嵌入向量,计算加权平均向量;
[0073]
将所述加权平均向量输入全连接层,获取所述候选四元组的有效性。
[0074]
具体地,对候选四元组中每个词语获取词嵌入向量。例如,对于候选四元组《快递,物流,[implict_opinion],负面》,获取“快递”的词嵌入向量,“物流”的词嵌入向量,“[implict_opinion]”的词嵌入向量,“负面”的词嵌入向量。定义可学习的查询参数,基于注意力(attention),计算这些词嵌入向量(“快递”的词嵌入向量,“物流”的词嵌入向量,“[implict_opinion]”的词嵌入向量,“负面”的词嵌入向量)的加权平均向量,即注意力向量。最后把注意力向量输入全连接层,进行两类分类,输出配对预测结果:有效或者无效。
[0075]
本发明实施例提供的属性观点抽取方法,在给定的评价文本内容中,补入隐性属性词和隐性观点词;对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。相比于现有技术仅能抽取显性属性词和显性观点词的属性类别和观点情感,本发明提供的方案可以抽取含有隐性属性词和隐性观点词的属性类别和观点情感,能极大地从给定的用户评价文本中挖掘用户评价信息,提高用户评价文本中属性观点抽取的召回率和精确率,扩展实际应用范围。
[0076]
下面将结合应用实施例,对本发明进行详细描述。
[0077]
本实施例提供一种隐性的属性观点抽取方法。首先构建隐性属性词专用token和隐性观点词专用token,并在给定用户评价上下文中,学习这两个专用token嵌入向量;进一步,同时基于双重方式,预测隐性属性词专用token的属性类别,以及隐性观点词专用token的观点情感;最后,计算所有(包括显性和隐性)属性词与观点词的配对笛卡儿积,并预测配对的有效性,输出有效的细粒度四元组《属性词,属性类别,观点词,观点情感》。
[0078]
具体地,参见图2、图3、图4、图5和图6,本实施例方案具体包括以下内容:
[0079]
3.1隐性词的向量表示
[0080]
(1)构建专用token:由于隐性属性词和隐性观点词不出现在用户评价中,为此本发明定义专用token,即用[implict_aspect]表示隐性属性词、[implict_opinion]表示隐性观点词。同时在给定用户评价的末尾,加入这两个专用token。例如,给定“这东西像画一样”,转化为“这东西像画一样[implict_aspect][implict_opinion]”。
[0081]
(2)学习嵌入向量:对增加了专用token之后的用户评价,进行切词(tokenizing),例如,“这东西像画一样[implict_aspect][implict_opinion]”处理成token列表:“这,东西,像,画,一样,[implict_aspect],[implict_opinion]”。然后,构建训练数据,利用transformer模型,学习各个token在当前用户评价中的词嵌入向量,包括[implict_aspect]和[implict_opinion]的上下文相关的词嵌入向量。
[0082]
(3)提取属性词和观点词:根据词嵌入向量,并基于常用序列标注模型,提取用户评价中的显性属性词和显性观点词,而[implict_aspect]和[implict_opinion]分别自动
作为用户评价中的隐性属性词和隐性观点词。从而从用户评价中,获得显性和隐性的属性词列表和观点词类别。例如,给定评价“层层修护吸收快,但快递较慢”,获得属性词列表为:“修复吸收,快递,[implict_aspect]”,观点词列表为:“快,较慢,[implict_opinion]”。
[0083]
3.2类别分析
[0084]
根据具体应用场景,定义属性词的类别(例如,费用,质量,功效、售后、物流等)和观点词的类别(例如:正面、负面、中性),然后构建训练数据,训练分类模型,对属性词和观点词分别进行分类。
[0085]
(1)属性词分类:利用分类模型,分析属性词的类别,例如把“修复吸收”分类为“功效”,“快递”分类为“物流”。利用同样的模型,针对隐性属性词[implict_aspect]做分类。一个属性词可能对应多个类别,特别是用户评价可能包含多个不同类别的隐性属性词,都用一个[implict_aspect]表示多个类别。例如,给定用户评价“非常棒,也值了”,包含两个隐性属性词的类别“质量”和“费用”。因此,本发明采用双重多标签分类模型,一方面把属性词的嵌入向量输入全连接层,计算各类别对应的logits值,另一方面,同样基于transformer学习属性类别的token,即“费用”,“质量”,“功效”、“售后”、“物流”等构成的嵌入矩阵,并与[implict_aspect]的嵌入向量计算点积,然后计算“logits值”和“点积”的和,输入sigmoid函数计算属于各属性类别的概率值,进行多标签分类。
[0086]
(2)观点词分类:类似地,利用分类模型,分析观点词的类别,例如把“快”分类为正面,“较慢”分类为负面。利用同样的模型,针对隐性观点词[implict_opinion]做分类。一个观点词可能对应多个类别,特别是用户评价可能包含多个不同类别的隐性观点词,都用一个[implict_opinion]表示多个类别。例如,给定用户评价“这手机跟iphone差不多,但是开机需要10秒以上”,包含两个隐性观点词的类别,即外观为“正面”和性能为“负面”。因此,本发明采用双重多标签分类模型,一方面把观点词的嵌入向量输入全连接层,计算各类别对应的logits值,另一方面,同样基于transformer学习观点类别的token,即“正面”,“负面”和“中性”构成的嵌入矩阵,并与[implict_opinion]的嵌入向量计算点积,然后计算“logits值”和“点积”的和,输入sigmoid函数计算属于各观点类别的概率值,进行多标签分类。
[0087]
3.3属性词与观点词配对分析
[0088]
在3.2中获得所有属性词和观点词的类别后,需要进行属性词与观点词的配对分析,预测最终有效的细粒度四元组《属性词,属性类别,观点词,观点情感》。
[0089]
(1)计算笛卡儿积:假设3.2中获得的属性词及类别列表为:《快递,物流》,《[implict_aspect],功效》;观点词及类别为:《很快,正面》,《[implict_opinion],负面》。计算两个列表的笛卡儿积得到候选四元组:《快递,物流,很快,正面》,《快递,物流,《[implict_opinion],负面》,《[implict_aspect],功效,很快,正面》,《[implict_aspect],功效,[implict_opinion],负面》。
[0090]
(2)预测配对有效性:首先给定一个候选四元组《属性词,属性类别,观点词,观点情感》,获取四个元素对应token的词嵌入向量,例如“快递”,“物流”,“《[implict_opinion]”,“负面”的词嵌入向量。然后定义可学习的查询参数,基于注意力(attention),计算这些词嵌入向量的加权平均向量,即注意力向量。最后把注意力向量输入全连接层,进行两类分类,输出配对预测结果:有效或者无效。
[0091]
另外,需要注意的是:上述实施步骤中,推理过程所需要的模型,需要利用标注数据进行训练。
[0092]
本实施例方案包含三个重要特征:
[0093]
(1)上下文学习隐性属性词和观点词:构建专用的token,分别表示隐性属性词和隐性观点词,并在给定用户评价中,学习这两个专用token的上下文相关的嵌入向量。
[0094]
(2)双重分类隐性属性词和观点词:为提升预测隐性属性词类别以及隐性观点词情感的效果,采用双重分类方法:一方面把两个专用token的嵌入向量输入全连接层,计算结果用于分类;另一方面,学习属性词类别以及观点词情感的嵌入向量,并与两个专用token的嵌入向量计算点积用于分类。
[0095]
(3)属性观点抽取的统一方法:本发明输出的细粒度四元组《属性词,属性类别,观点词,观点情感》包括所有可能情况:显性属性词且显性观点词、隐性属性词且显性观点词、显性属性词且隐性观点词、隐性属性词且隐性观点词。
[0096]
即本实施例通过抽取用户评价中的隐性属性观点,能更全面了解用户的关注点和偏好情况。同时,基于本发明提出的多任务(属性词分类、观点词分类、配对分析)预测流程,能提升最终的预测效果。
[0097]
为了实现本发明实施例的方法,本发明实施例还提供了一种属性观点抽取装置,如图7所示,属性观点抽取装置700包括:补入模块701、提取模块702、预测模块703和分析模块704;其中,
[0098]
补入模块701,用于在给定的评价文本内容中,补入隐性属性词和隐性观点词;
[0099]
提取模块702,用于对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;
[0100]
预测模块703,用于预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;
[0101]
分析模块704,用于基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。
[0102]
实际应用时,补入模块701、提取模块702、预测模块703和分析模块704可由属性观点抽取装置中的处理器实现。
[0103]
需要说明的是:上述实施例提供的上述装置在执行时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的上述装置与上述方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0104]
为了实现本发明实施例的方法,本发明实施例还提供了一种计算机程序产品,计算机程序产品包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述方法的步骤。
[0105]
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备(计算机设备)。具体地,在一个实施例中,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器a01、网络
接口a02、显示屏a04、输入装置a05和存储器(图中未示出)。其中,该计算机设备的处理器a01用于提供计算和控制能力。该计算机设备的存储器包括内存储器a03和非易失性存储介质a06。该非易失性存储介质a06存储有操作系统b01和计算机程序b02。该内存储器a03为非易失性存储介质a06中的操作系统b01和计算机程序b02的运行提供环境。该计算机设备的网络接口a02用于与外部的终端通过网络连接通信。该计算机程序被处理器a01执行时以实现上述任意一项实施例的方法。该计算机设备的显示屏a04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置a05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0106]
本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0107]
本发明实施例提供的设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项实施例的方法。
[0108]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0109]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0110]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0111]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0112]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0113]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。
[0114]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
[0115]
可以理解,本发明实施例的存储器可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
[0116]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0117]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:
1.一种属性观点抽取方法,其特征在于,所述方法包括:在给定的评价文本内容中,补入隐性属性词和隐性观点词;对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。2.根据权利要求1所述的方法,其特征在于,所述在给定的评价文本内容中,补入隐性属性词和隐性观点词包括:为隐性属性词构建对应的隐性属性词专用字符串,为隐性观点词构建对应的隐性观点词专用字符串;基于给定的评价文本内容,获取对应的文本字符串;在所述文本字符串末尾,添加所述隐性属性词专用字符串和所述隐性观点词专用字符串。3.根据权利要求1所述的方法,其特征在于,所述对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词,包括:对补入后的评价文本内容进行切词处理,获得切词列表;对所述切词列表中的各个词语,利用学习模型,获取各个词语对应的词嵌入向量;基于所述各个词语对应的词嵌入向量,利用序列标注模型,提取显性属性词、隐性属性词、显性观点词和隐性观点词。4.根据权利要求1所述的方法,其特征在于,预测所述显性属性词、所述隐性属性词的类别,包括:对于所述显性属性词、所述隐性属性词,获取各个词语对应的词嵌入向量;将所述词嵌入向量输入预设分类模型的全连接层,获得对应的输出值;获取属性类别嵌入矩阵,根据所述属性类别嵌入矩阵和所述词嵌入向量计算点积;利用所述输出值和所述点积,确定所述显性属性词和所述隐性属性词所对应的类别。5.根据权利要求1所述的方法,其特征在于,预测所述显性观点词、所述隐性观点词的类别,包括:对于所述显性观点词、所述隐性观点词,获取各个词语对应的词嵌入向量;将所述词嵌入向量输入预设分类模型的全连接层,获得对应的输出值;获取观点类别嵌入矩阵,根据所述观点类别嵌入矩阵和所述词嵌入向量计算点积;利用所述输出值和所述点积,确定所述显性观点词和所述隐性观点词所对应的类别。6.根据权利要求1所述的方法,其特征在于,所述基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组,包括:利用所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词及类别,计算笛卡儿积,获得候选四元组;判断所述候选四元组的有效性,输出有效的细粒度四元组。7.根据权利要求6所述的方法,其特征在于,所述判断所述候选四元组的有效性,输出有效的细粒度四元组,包括:获取所述候选四元组中每个词语的词嵌入向量;
基于所述每个词语的词嵌入向量,计算加权平均向量;将所述加权平均向量输入全连接层,获取所述候选四元组的有效性。8.一种属性观点抽取装置,其特征在于,所述装置包括:补入模块,用于在给定的评价文本内容中,补入隐性属性词和隐性观点词;提取模块,用于对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测模块,用于预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;分析模块,用于基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。10.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7任一项所述方法的步骤。

技术总结
本发明公开了一种属性观点抽取方法、装置、电子设备和存储介质。其中,方法包括在给定的评价文本内容中,补入隐性属性词和隐性观点词;对补入后的评价文本内容,提取显性属性词、隐性属性词、显性观点词和隐性观点词;预测所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别;基于所述显性属性词、所述隐性属性词、所述显性观点词和所述隐性观点词的类别,进行配对分析,输出细粒度四元组。本发明提供的方案能提高属性观点抽取的召回率和精确率,扩展实际应用范围。扩展实际应用范围。扩展实际应用范围。


技术研发人员:许先才 张家栋 肖荣昌 熊磊
受保护的技术使用者:深圳市云积分科技有限公司
技术研发日:2023.05.18
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐