一种观点提取方法、装置及终端设备与流程

未命名 10-19 阅读:99 评论:0


1.本技术属于神经网络模型技术领域,尤其涉及一种观点提取方法、装置及终端设备。


背景技术:

2.随着人工智能领域的快速发展,如何提高人与机器之间的沟通效率是重要的一项研究任务。人机交互技术的实现通常依赖于对用户的语言、文字、语音信息等进行观点提取,从而确定用户的需求并进行反馈。
3.相关的观点提取方法通常是通过对用户输入的语句进行分词,针对分词进行词性分析从而确定观点。
4.然而上述方法的分析操作较为复杂,耗时较长且提取结果精度不稳定。


技术实现要素:

5.本技术实施例提供了一种观点提取方法、装置及终端设备,可以解决相关的观点提取方法存在的操作复杂且耗时长,提取结果精度不稳定的问题。
6.第一方面,本技术实施例提供了一种观点提取方法,包括:
7.获取与目标工作模式相对应的待处理数据;
8.根据所述待处理数据确定对应的训练样本数据集;
9.将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果;
10.对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果。
11.在第一方面的一种可能的实现方式中,所述获取与目标工作模式相对应的待处理数据,包括:
12.获取目标工作模式;
13.在所述目标工作模式为预测模式时,获取与所述预测模式对应的第一待处理数据。
14.在第一方面的一种可能的实现方式中,所述根据所述待处理数据确定对应的训练样本数据集,包括:
15.根据小样本学习模型在预设样本数据库中筛选得到与所述待处理数据对应的训练样本数据集。
16.在第一方面的一种可能的实现方式中,所述根据所述待处理数据确定对应的训练样本数据集,还包括:
17.根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集。
18.在第一方面的一种可能的实现方式中,所述根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集,
包括:
19.针对所述预设样本数据库中的每个样本数据,根据预设算法确定所述待处理数据与所述样本数据之间的相似度;
20.对所有所述相似度进行排序,得到相似度序列;
21.选取所述相似度序列中,包含与所述待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据;n为大于1的整数;
22.根据所述目标样本数据构建得到与所述待处理数据对应的训练样本数据集。
23.在第一方面的一种可能的实现方式中,所述将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果,包括:
24.对所述训练样本数据集中每个目标样本数据进行解析,得到每个目标样本数据的观点提取结果;
25.根据每个观点提取结果,生成对应的观点提取请求;
26.将所述待处理数据和所述观点提取请求输入至所述预训练的语言生成模型中,得到所述响应结果。
27.在第一方面的一种可能的实现方式中,所述获取与目标工作模式相对应的待处理数据,包括:
28.在所述目标工作模式为评估模式时,确定与所述评估模式对应的第二待处理数据;所述第二待处理数据携带有真实标签数据;
29.对应的,所述对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果之后,包括:
30.对所述观点提取结果和所述真实标签数据进行计算,得到重叠度结果;
31.根据所述重叠度结果确定所述观点提取结果的评估结果。
32.本技术实施例与现有技术相比存在的有益效果是:通过获取与工作模式相对的待处理数据并确定对应的训练样本数据集,将待处理数据和训练样本数据集输入至预训练的语言生成模型中处理,实现根据预训练语言生成模型基于少量的训练样本数据集,来简单、快速、高效地得到高精度的待处理数据的四元组观点提取结果。
33.第二方面,本技术实施例提供了一种观点提取装置,包括:
34.数据获取模块,用于获取与目标工作模式相对应的待处理数据;
35.训练集确定模块,用于根据所述待处理数据确定对应的训练样本数据集;
36.数据处理模块,用于将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果;
37.结果转换模块,用于对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果。
38.在第二方面的一种可能的实现方式中,所述数据获取模块,包括:
39.工作模式获取单元,用于获取目标工作模式;
40.第一数据获取单元,用于在所述目标工作模式为预测模式时,获取与所述预测模式对应的第一待处理数据。
41.在第二方面的一种可能的实现方式中,所述训练集确定模块,包括:
42.第一训练集确定单元,用于根据小样本学习模型在预设样本数据库中筛选得到与
所述待处理数据对应的训练样本数据集。
43.在第二方面的一种可能的实现方式中,所述训练集确定模块,还包括:
44.第二训练集确定单元,用于根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集。
45.在第二方面的一种可能的实现方式中,所述第二训练集确定单元,包括:
46.相似度计算子单元,用于针对所述预设样本数据库中的每个样本数据,根据预设算法确定所述待处理数据与所述样本数据之间的相似度;
47.排序子单元,用于对所有所述相似度进行排序,得到相似度序列;
48.数据选取子单元,用于选取所述相似度序列中,包含与所述待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据;n为大于1的整数;
49.数据集构建子单元,用于根据所述目标样本数据构建得到与所述待处理数据对应的训练样本数据集。
50.在第二方面的一种可能的实现方式中,所述数据处理模块,包括:
51.数据解析单元,用于对所述训练样本数据集中每个目标样本数据进行解析,得到每个目标样本数据的观点提取结果;
52.请求确定单元,用于根据每个观点提取结果,生成对应的观点提取请求;
53.数据处理单元,用于将所述待处理数据和所述观点提取请求输入至所述预训练的语言生成模型中,得到所述响应结果。
54.在第二方面的一种可能的实现方式中,所述数据获取模块,包括:
55.第二数据获取单元,用于在所述目标工作模式为评估模式时,确定与所述评估模式对应的第二待处理数据;所述第二待处理数据携带有真实标签数据;
56.对应的,所述装置,包括:
57.重叠度计算单元,用于对所述观点提取结果和所述真实标签数据进行计算,得到重叠度结果;
58.评估单元,用于根据所述重叠度结果确定所述观点提取结果的评估结果。
59.第三方面,本技术实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的观点提取方法。
60.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述的观点提取方法。
61.第五方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的观点提取方法。
62.可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
63.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些
实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
64.图1是本技术实施例提供的观点提取方法的流程示意图;
65.图2是本技术实施例提供的观点提取方法步骤s102的流程示意图;
66.图3是本技术实施例提供的观点提取方法步骤s1022的流程示意图;
67.图4是本技术实施例提供的观点提取方法步骤s103的流程示意图;
68.图5是本技术实施例提供的观点提取装置的结构示意图;
69.图6是本技术实施例提供的终端设备的结构示意图。
具体实施方式
70.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
71.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
72.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
73.如在本技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0074]
另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0075]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0076]
本技术实施例提供的观点提取方法可以应用于手机、平板电脑、车载设备、笔记本电脑等终端设备上,本技术实施例对终端设备的具体类型不作任何限制。
[0077]
近年来,虽然人工智能领域已经实现了一定的发展,但人机交互过程中所依赖的观点提取方法通常存在操作复杂、耗时长且提取结果的精度不稳定等问题。
[0078]
针对这一问题,本技术提出了一种观点提取方法、观点提取装置、终端设备及计算机可读存储介质,可在获取到与目标工作模式对应的待处理数据时,选取与其对应的训练样本数据集,根据预训练的语言生成模型对待处理数据和训练样本数据进行处理,得到与待处理数据对应的响应结果,从而通过转换处理,得到与待处理数据对应的观点提取结果。
实现通过预训练语言生成模型基于少量的训练样本数据集快速高效得到待处理数据的四元组观点提取结果。
[0079]
图2示出了本技术提供的观点提取方法的示意性流程图,作为示例而非限定,该方法可以应用于上述笔记本电脑中。
[0080]
s101、获取与目标工作模式相对应的待处理数据。
[0081]
具体地,目标工作模式是指用户从多种工作模式中选择的其中一种工作模式。其中,目标工作模式的确定方法可根据用户的实际需求或操作进行设定,例如,用户通过输入文字、点击按钮或者拖动鼠标等等操作来确定目标工作模式。工作模式包括但不限于预测模式和评估模式,其中,预测模式为对待处理数据进行预测,确定待处理数据的观点提取结果的工作模式。评估模式为对待处理数据进行预测并得到待处理数据的观点提取结果后,根据与待处理数据对应的真实标签对待处理数据的观点提取结果的准确度进行评估,得到评估结果的工作模式。
[0082]
具体地,在获取到目标工作模式时,获取用户输入的与上述目标工作模式相对应的待处理数据。其中,待处理数据是指需要进行观点提取处理的语句或词汇。
[0083]
作为示例而非限定,观点提取方法主要是指四元组观点提取方法,对应的观点提取结果包括:评论维度aspect、维度归类category、情感倾向sentiment、表达观点opinion。例如,待处理数据为:这毛巾的吸水效果真好,对应确定四元组的观点提取结果为:吸水效果(评论维度aspect),功效(维度归类category),正向(情感倾向sentiment),真好(表达观点opinion)。
[0084]
s102、根据所述待处理数据确定对应的训练样本数据集。
[0085]
具体地,预训练的语言生成模型主要是根据现有的案例来进行模拟学习,生成对应的结果。因此,首先需要根据与目标工作模式对应的待处理数据,确定与上述待处理数据对应的多个样本数据,构建得到对应的训练样本数据集,以便于预训练的语言生成模型对训练样本数据集进行学习和模仿。
[0086]
s103、将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果。
[0087]
具体地,将待处理数据和训练样本数据集输入至预训练的语言生成模型中,以使预训练的语言生成模型对训练样本数据集中的目标样本数据进行学习模仿,从而对待处理数据进行观点提取处理,得到响应结果。
[0088]
例如,待处理数据为:这毛巾的吸水效果真好,与上述待处理数据对应的训练样本数据集中的目标样本数据为:这牙刷的洁白效果真好,训练样本数据集中的目标样本数据地的四元组观点为:洁白效果(评论维度aspect),功效(维度归类category),正向(情感倾向sentiment),真好(表达观点opinion)。
[0089]
s104、对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果。
[0090]
具体地,预训练的语言生成模型输出的响应结果的一般形式为固定格式的字符串。因此,需要对响应结果进行转换处理,使得转换后的响应结果按照预设模式的形式输出。其中,预设模式可根据用户需求进行具体设定。
[0091]
作为示例而非限定,预设模式为字典格式,对应需要将预训练的语言生成模型输出的响应结果转换成字典格式的待处理数据的观点提取结果。例如:待处理数据为:这毛巾
的吸水效果真好,按照字典格式的待处理数据的观点提取结果为:评论维度aspect-吸水效果,维度归类category-功效,情感倾向sentiment-正向,表达观点opinion-真好。
[0092]
在一种可能的实现方式中,所述获取与目标工作模式相对应的待处理数据,包括:
[0093]
获取目标工作模式;
[0094]
在所述目标工作模式为预测模式时,获取与所述预测模式对应的第一待处理数据。
[0095]
具体地,获取用户选择的工作模式,作为目标工作模式。在检测到目标工作模式为预测模式时,确定该目标工作模式下只需进行待处理数据的观点提取操作,对应获取与预测模式对应的第一待处理数据。其中,第一待处理数据为需要进行观点提取的语句或词汇(不携带任何标签)。
[0096]
如图2所示,在一种可能的实现方式中,所述根据所述待处理数据确定对应的训练样本数据集的步骤s102,包括:
[0097]
s1021、根据小样本学习模型在预设样本数据库中筛选得到与所述待处理数据对应的训练样本数据集。
[0098]
具体地,小样本学习模型few-shot learning指从少量标注样本中进行学习的一种学习模型。小样本学习模型可以不依赖于大量的训练数据,而能在少量的训练数据下,区分两个数据的相似度。根据上述特点,将待处理数据和预设样本数据库中的样本数据输入到小样本学习模型中,通过小样本学习模型筛选确定预设样本数据库中的、与待处理数据具有一定相似度的样本数据,作为与待处理数据对应的多个目标样本数据,并构建得到训练样本数据集。
[0099]
通过小样本学习模型对从少量的样本数据库中确定与待处理数据对应的多个目标样本数据,并构建得到训练样本数据集,提高训练样本数据集的获取速率的同时,提高了训练样本数据集的数据准确性,从而提高针对待处理数据和训练样本数据集得到的观点提取结果的精度。
[0100]
如图2所示,在一种可能的实现方式中,所述根据所述待处理数据确定对应的训练样本数据集的步骤s102,还包括:
[0101]
s1022、根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集。
[0102]
具体地,通过预设算法,分别计算确定预设样本数据库中每个样本数据和待处理数据之间的相似度,并根据相似度筛选得到满足预设条件的n个目标样本数据,作为与待处理数据对应的训练样本数据集。预设算法包括但不限于tf-idf相似度算法、embedding相似度算法。
[0103]
其中,预设条件可根据实际情况进行具体设定,例如,预设条件为相似度大于或等于预设相似度阈值的所有样本数据,或者预设条件为相似度较大的x个样本数据(x为大于1的整数),还或者,预设条件为与待处理数据的目标观点元素相同的y个样本数据(y为大于1的整数)。
[0104]
如图3所示,在一种可能的实现方式中,所述根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集的步骤s1022,包括:
[0105]
s10221、针对所述预设样本数据库中的每个样本数据,根据预设算法确定所述待处理数据与所述样本数据之间的相似度;
[0106]
s10222、对所有所述相似度进行排序,得到相似度序列;
[0107]
s10223、选取所述相似度序列中,包含与所述待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据;n为大于1的整数;
[0108]
s10224、根据所述目标样本数据构建得到与所述待处理数据对应的训练样本数据集。
[0109]
具体地,针对预设样本数据库中的每个样本数据,根据预设算法计算得到待处理数据与样本数据之间的相似度,按照预设排序方法对所有的相似度进行排序,得到待处理数据与所有样本数据之间的相似度的相似度序列。在待处理数据与样本数据的相似度序列中,选取包含了与上述待处理数据具有相同目标观点元素的n个样本数据,作为目标样本数据,根据目标样本数据构建得到与待处理数据对应的训练样本数据集。其中,n为大于1的整数,n可根据实际需求进行具体设定,在本实施例中不做限定。预设样本数据库包括但不限于网络文本数据库、电子书籍、新闻数据库、社交媒体内容、科技论文数据库等等。
[0110]
作为示例而非限定,设定预设排序方法包括但不限于从大到小的排序顺序或从小到大的排序顺序。一般情况下,筛选训练样本数据集的目标为选取与待处理数据相似度高的数据。因此,在选取目标样本数据时,n的选取方向需要根据预设排序方法进行确定。例如:在预设排序方法为从大到小的排序顺序时,对应需要在相似度序列中,选取位于末尾的包含与待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据。例如,在预设排序方法为从小到大的排序顺序时,对应需要在相似度序列中,选取位于首部的包含与待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据。
[0111]
在一个实施例中,根据用户的需求不同,可对应设定不同的目标观点元素,一般情况下,四元组观点提取方法的核心在于问题导向和结果导向,也即需要确定评论维度aspect和表达观点opinion。对应可设定目标观点元素为评论维度aspect和表达观点opinion。例如,待处理数据为:这毛巾的吸水效果真好时,筛选得到的包含与上述待处理数据具有相同的目标观点元素(吸水效果(评论维度aspect),真好(表达观点opinion))的目标样本数据可以包括:这海绵的吸水效果真好,这纸巾的吸水效果真好。
[0112]
如图4所示,在一种可能的实现方式中,所述将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果的步骤s103,包括:
[0113]
s1031、对所述训练样本数据集中每个目标样本数据进行解析,得到每个目标样本数据的观点提取结果;
[0114]
s1032、根据每个观点提取结果,生成对应的观点提取请求;
[0115]
s1033、将所述待处理数据和所述观点提取请求输入至所述预训练的语言生成模型中,得到所述响应结果。
[0116]
具体地,训练样本数据集中的目标样本数据通常以多种形式存在,因此需要对目标样本数据进行预处理。首先对每个目标样本数据进行解析,得到每个目标样本数据的观点提取结果,根据每个目标样本数据的观点提取结果生成包含四元组观点的观点提取请求,从而使得预训练的语言生成模型能够快速读取观点提取请求中的评论维度aspect,维度归类category,情感倾向sentimen,表达观点opinion。
[0117]
具体地,将待处理数据和观点提取请求输入至预训练的语言生成模型中,使得预训练的语言生成模型根据学习观点提取请求,实现对待处理数据的观点提取处理,得到待处理数据的响应结果。
[0118]
作为示例而非限定,训练样本数据集中的每个目标样本数据的观点提取请求均应携带有观点提取结果标签。例如,目标样本数据的观点提取请求为:这纸巾的吸水效果真好,对应携带有“评论维度aspect-吸水效果”,“维度归类category-功效”,“情感倾向sentiment-正向”,“表达观点opinion-真好”的标签。
[0119]
在一种可能的实现方式中,所述获取与目标工作模式相对应的待处理数据,包括:
[0120]
在所述目标工作模式为评估模式时,确定与所述评估模式对应的第二待处理数据;所述第二待处理数据携带有真实标签数据;
[0121]
对应的,所述对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果之后,包括:
[0122]
对所述观点提取结果和所述真实标签数据进行计算,得到重叠度结果;
[0123]
根据所述重叠度结果确定所述观点提取结果的评估结果。
[0124]
具体地,在用户确定的目标工作模式为评估模式时,确定与评估模式对应的第二待处理数据,并确定第二待处理数据携带的真实标签数据。
[0125]
例如,评估模式下获取的数据包括:第二待处理数据:这毛巾的吸水效果真好,并确定第二待处理数据携带的真实标签数据:吸水效果(评论维度aspect),功效(维度归类category),正向(情感倾向sentiment),真好(表达观点opinion)。
[0126]
具体地,在评估模式下,获取到待处理数据的观点提取结果之后,分别确定观点提取结果第一目标观点元素(如评论维度aspect和表达观点opinion)和真实标签数据中的第二目标观点元素(如评论维度aspect和表达观点opinion),根据观点提取结果的第一目标观点元素和真实标签数据中的第二目标观点元素进行重叠度计算,得到重叠度结果,根据重叠度结果确定观点提取结果的评估结果(包括但不限于召回率recall、精确率precession和f1值)。
[0127]
其中,重叠度计算公式如下:
[0128][0129]
其中,p为观点提取结果的第一目标观点元素集合,u为真实标签数据的第二目标观点元素集合;
[0130]
通过计算重叠度等数据确定当前得到的观点提取结果精度的估计结果,来确定模型的输出精度,便于进行问题反馈及处理,进而提高针对待处理数据的观点提取结果的稳定性。
[0131]
本实施例通过获取与工作模式相对的待处理数据并确定对应的训练样本数据集,将待处理数据和训练样本数据集输入至预训练的语言生成模型中处理,实现根据预训练语言生成模型基于少量的训练样本数据集,来简单、快速、高效地得到高精度的待处理数据的四元组观点提取结果。
[0132]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限
定。
[0133]
对应于上文实施例所述的观点提取方法,图5示出了本技术实施例提供的观点提取装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
[0134]
参照图5,该观点提取装置100,包括:
[0135]
数据获取模块101,用于获取与目标工作模式相对应的待处理数据;
[0136]
训练集确定模块102,用于根据所述待处理数据确定对应的训练样本数据集;
[0137]
数据处理模块103,用于将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果;
[0138]
结果转换模块104,用于对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果。
[0139]
在一种可能的实现方式中,所述数据获取模块,包括:
[0140]
工作模式获取单元,用于获取目标工作模式;
[0141]
第一数据获取单元,用于在所述目标工作模式为预测模式时,获取与所述预测模式对应的第一待处理数据。
[0142]
在一种可能的实现方式中,所述训练集确定模块,包括:
[0143]
第一训练集确定单元,用于根据小样本学习模型在预设样本数据库中筛选得到与所述待处理数据对应的训练样本数据集。
[0144]
在一种可能的实现方式中,所述训练集确定模块,还包括:
[0145]
第二训练集确定单元,用于根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集。
[0146]
在一种可能的实现方式中,所述第二训练集确定单元,包括:
[0147]
相似度计算子单元,用于针对所述预设样本数据库中的每个样本数据,根据预设算法确定所述待处理数据与所述样本数据之间的相似度;
[0148]
排序子单元,用于对所有所述相似度进行排序,得到相似度序列;
[0149]
数据选取子单元,用于选取所述相似度序列中,包含与所述待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据;n为大于1的整数;
[0150]
数据集构建子单元,用于根据所述目标样本数据构建得到与所述待处理数据对应的训练样本数据集。
[0151]
在一种可能的实现方式中,所述数据处理模块,包括:
[0152]
数据解析单元,用于对所述训练样本数据集中每个目标样本数据进行解析,得到每个目标样本数据的观点提取结果;
[0153]
请求确定单元,用于根据每个观点提取结果,生成对应的观点提取请求;
[0154]
数据处理单元,用于将所述待处理数据和所述观点提取请求输入至所述预训练的语言生成模型中,得到所述响应结果。
[0155]
在一种可能的实现方式中,所述数据获取模块,包括:
[0156]
第二数据获取单元,用于在所述目标工作模式为评估模式时,确定与所述评估模式对应的第二待处理数据;所述第二待处理数据携带有真实标签数据;
[0157]
对应的,所述装置,包括:
[0158]
重叠度计算单元,用于对所述观点提取结果和所述真实标签数据进行计算,得到
重叠度结果;
[0159]
评估单元,用于根据所述重叠度结果确定所述观点提取结果的评估结果。
[0160]
本实施例通过获取与工作模式相对的待处理数据并确定对应的训练样本数据集,将待处理数据和训练样本数据集输入至预训练的语言生成模型中处理,实现根据预训练语言生成模型基于少量的训练样本数据集,来简单、快速、高效地得到高精度的待处理数据的四元组观点提取结果。
[0161]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0162]
图6为本实施例提供的终端设备的结构示意图。如图6所示,该实施例的终端设备6包括:至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62,所述处理器60执行所述计算机程序62时实现上述任意各个观点提取方法实施例中的步骤。
[0163]
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的举例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
[0164]
所称处理器60可以是中央处理单元(central processing unit,cpu),该处理器60还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0165]
所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
[0166]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0167]
本技术实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器
以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
[0168]
本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0169]
本技术实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
[0170]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0171]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0172]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0173]
在本技术所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0174]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0175]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应
包含在本技术的保护范围之内。

技术特征:
1.一种观点提取方法,其特征在于,包括:获取与目标工作模式相对应的待处理数据;根据所述待处理数据确定对应的训练样本数据集;将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果;对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果。2.如权利要求1所述的观点提取方法,其特征在于,所述获取与目标工作模式相对应的待处理数据,包括:获取目标工作模式;在所述目标工作模式为预测模式时,获取与所述预测模式对应的第一待处理数据。3.如权利要求1所述的观点提取方法,其特征在于,所述根据所述待处理数据确定对应的训练样本数据集,包括:根据小样本学习模型在预设样本数据库中筛选得到与所述待处理数据对应的训练样本数据集。4.如权利要求1所述的观点提取方法,其特征在于,所述根据所述待处理数据确定对应的训练样本数据集,还包括:根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集。5.如权利要求4所述的观点提取方法,其特征在于,所述根据预设算法在预设样本数据库中,筛选得到满足预设条件的目标样本数据,作为与所述待处理数据对应的训练样本数据集,包括:针对所述预设样本数据库中的每个样本数据,根据预设算法确定所述待处理数据与所述样本数据之间的相似度;对所有所述相似度进行排序,得到相似度序列;选取所述相似度序列中,包含与所述待处理数据具有相同的目标观点元素的n个样本数据,作为目标样本数据;n为大于1的整数;根据所述目标样本数据构建得到与所述待处理数据对应的训练样本数据集。6.如权利要求1所述的观点提取方法,其特征在于,所述将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果,包括:对所述训练样本数据集中每个目标样本数据进行解析,得到每个目标样本数据的观点提取结果;根据每个观点提取结果,生成对应的观点提取请求;将所述待处理数据和所述观点提取请求输入至所述预训练的语言生成模型中,得到所述响应结果。7.如权利要求1所述的观点提取方法,其特征在于,所述获取与目标工作模式相对应的待处理数据,包括:在所述目标工作模式为评估模式时,确定与所述评估模式对应的第二待处理数据;所述第二待处理数据携带有真实标签数据;对应的,所述对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果之
后,包括:对所述观点提取结果和所述真实标签数据进行计算,得到重叠度结果;根据所述重叠度结果确定所述观点提取结果的评估结果。8.一种观点提取装置,其特征在于,包括:数据获取模块,用于获取与目标工作模式相对应的待处理数据;训练集确定模块,用于根据所述待处理数据确定对应的训练样本数据集;数据处理模块,用于将所述待处理数据和所述训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果;结果转换模块,用于对所述响应结果进行转换处理,得到所述待处理数据的观点提取结果。9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结
本申请适用于神经网络模型技术领域,提供了一种观点提取方法、装置及终端设备,方法包括:获取与目标工作模式相对应的待处理数据,根据待处理数据确定对应的训练样本数据集,将待处理数据和训练样本数据集输入至预训练的语言生成模型中处理,得到响应结果,对响应结果进行转换处理,得到待处理数据的观点提取结果。本申请通过获取与工作模式相对的待处理数据并确定对应的训练样本数据集,将待处理数据和训练样本数据集输入至预训练的语言生成模型中处理,实现根据预训练语言生成模型基于少量的训练样本数据集,来简单、快速、高效得到高精度的待处理数据的四元组观点提取结果。精度的待处理数据的四元组观点提取结果。精度的待处理数据的四元组观点提取结果。


技术研发人员:许先才 肖荣昌 张家栋 熊磊
受保护的技术使用者:深圳市云积分科技有限公司
技术研发日:2023.06.09
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐