信息抽取方法、训练信息抽取模型的方法及装置与流程

未命名 07-27 阅读:134 评论:0


1.本技术涉及人工智能技术领域,特别是涉及一种信息抽取方法、训练信息抽取模型的方法及装置。


背景技术:

2.信息抽取(ie,informationextraction)指的是从文本中抽取出特定类型的目标,从而将海量内容自动分类、提取和重构,例如命名实体识别、实体关系抽取、事件抽取、情感抽取等。现有的信息抽取技术大多针对特定类型的目标训练信息抽取模型,迁移性较差。为了解决这个问题,统一信息抽取技术被提了出来,即用一个统一的模型解决各种信息类型的抽取任务。
3.现有的统一信息抽取方案均采用一步生成的方式,但这种方式抽取的目标准确性较差,特别是在抽取复杂类型的目标时效果更差。


技术实现要素:

4.有鉴于此,本技术提供了一种信息抽取方法、训练信息抽取模型的方法及装置,以便于提高信息抽取的准确性。
5.本技术提供了如下方案:
6.第一方面,提供了一种信息抽取的方法,所述方法包括:
7.获取待抽取文本;
8.将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述目标类型信息对应的目标;
9.将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述待抽取文本中抽取的所述目标类型信息对应的目标;
10.其中所述信息抽取模型是基于预训练语言模型预先训练得到的。
11.根据本技术实施例中一可实现的方式,所述目标类型信息包括多个目标类型的信息。
12.根据本技术实施例中一可实现的方式,所述信息抽取模型包括:编码网络和解码网络;
13.所述编码网络用以对输入的文本序列中的各元素token进行特征编码,得到各token的特征表示,所述输入的文本序列中在所述拼接的位置插入有预设的分隔符;
14.解码网络用以利用所述各token的特征表示进行解码处理,得到输出的文本序列,输出的文本序列包括从所述待抽取文本中抽取的目标及其对应的目标类型标识。
15.第二方面,提供了一种实体抽取方法,所述方法包括:
16.将由实体类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获
取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述实体类型信息对应的实体词;
17.将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从待抽取文本中抽取的所述实体类型信息对应的实体词;
18.其中所述信息抽取模型是基于预训练语言模型预先训练得到的。
19.第三方面,提供了一种实体关系抽取方法,所述方法包括:
20.将由三元组信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的与所述三元组信息对应的实体词和实体关系词;
21.将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从待抽取文本中抽取的与所述三元组信息对应的实体词和实体关系词;
22.其中所述信息抽取模型是基于预训练语言模型预先训练得到的。
23.第四方面,提供了一种情感抽取方法,所述方法包括:
24.将由情感要素类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述情感要素类型信息对应的情感要素;
25.将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从待抽取文本中抽取的所述情感要素类型信息对应的情感要素;
26.其中所述信息抽取模型是基于预训练语言模型预先训练得到的。
27.第五方面,提供了一种训练信息抽取模型的方法,所述方法包括:
28.获取包含多个训练样本的训练数据,所述训练样本包括文本样本和所述文本样本对应的抽取结果样本,所述抽取结果样本包括所述文本样本中预设目标类型信息对应的目标;
29.利用所述训练数据训练基于预训练语言模型的信息抽取模型,其中将由目标类型信息和文本样本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从文本样本中抽取的所述目标类型信息对应的目标;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述文本样本中抽取的所述目标类型信息对应的目标;所述训练的目标包括:最小化所述第二抽取结果与所述文本样本对应的抽取结果样本之间的差异。
30.根据本技术实施例中一可实现的方式,所述训练数据包括支持集和查询集;
31.利用所述训练数据训练基于预训练语言模型的信息抽取模型包括:
32.初始化信息抽取模型的模型参数;
33.备份当前得到的信息抽取模型以得到备份模型;
34.从所述支持集中采样文本样本并输入备份模型,确定依据所述训练的目标构建的损失函数值,利用所述损失函数值针对所述备份模型的模型参数计算梯度并更新所述备份
模型的模型参数,直至满足预设的第一训练结束条件;
35.从所述查询集中采样文本样本并输入当前训练得到的备份模型,确定依据所述训练的目标构建的损失函数值,利用损失函数值针对当前得到的信息抽取模型的模型参数计算梯度并更新信息抽取模型的模型参数,直至满足预设的第二训练结束条件;
36.转至所述备份当前得到的信息抽取模型以得到备份模型的步骤,直至满足预设的第三训练结束条件。
37.根据本技术实施例中一可实现的方式,所述损失函数值是依据第二抽取结果与所述文本样本对应的抽取结果样本之间的差异得到的;或者,
38.所述损失函数值是依据第一损失函数值和第二损失函数值得到的,其中所述第一损失函数值是依据第一抽取结果与所述文本样本对应的抽取结果样本之间的差异得到的,所述第二损失函数值是依据第二抽取结果与所述文本样本对应的抽取结果样本之间的差异得到的。
39.根据本技术实施例中一可实现的方式,所述信息抽取模型包括:编码网络和解码网络;
40.所述编码网络用以对输入的文本序列中的各token进行特征编码,得到各token的特征表示,所述输入的文本序列中在所述拼接的位置插入有预设的分隔符;
41.解码网络用以利用所述各token的特征表示进行解码处理,得到出的文本序列,输出的文本序列包括从所述文本样本中抽取的目标及其对应的目标类型标识。
42.第六方面,提供了一种信息抽取装置,所述装置包括:
43.文本获取单元,被配置为获取待抽取文本;
44.第一抽取单元,被配置为将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述目标类型信息对应的目标;
45.第二抽取单元,被配置为将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述待抽取文本中抽取的所述目标类型信息对应的目标;
46.其中所述信息抽取模型是基于预训练语言模型预先训练得到的。
47.第七方面,提供了一种训练信息抽取模型的装置,所述装置包括:
48.样本获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括文本样本和所述文本样本对应的抽取结果样本,所述抽取结果样本包括所述文本样本中预设目标类型信息对应的目标;
49.模型训练单元,被配置为利用所述训练数据训练基于预训练语言模型的信息抽取模型,其中将由目标类型信息和文本样本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从文本样本中抽取的所述目标类型信息对应的目标;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述文本样本中抽取的所述目标类型信息对应的目标;所述训练的目标包括:最小化所述第二抽取结果与所述文本样本对应的抽取结果样本之间的差异。
50.根据第八方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序
被处理器执行时实现上述第一方面至第五方面中任一项所述的方法的步骤。
51.根据第九方面,提供了一种电子设备,包括:
52.一个或多个处理器;以及
53.与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面至第五方面中任一项所述的方法的步骤。
54.根据本技术提供的具体实施例,本技术公开了以下技术效果:
55.1)本技术提供了一种两步式的信息抽取方式,首先利用信息抽取模型从待抽取文本中抽取目标类型信息对应的目标作为第一抽取结果,然后将第一抽取结果作为一个基本语义的参考在第二步中辅助信息抽取模型再次从待抽取文本中抽取目标类型信息对应的目标,从而提高信息抽取的准确性。该方式在复杂目标类型的情况下,效果尤其突出。
56.2)本技术提供了一种基于元学习的内循环结合外循环的模型训练模式,使得模型能够快速在下游应用场景上进行学习,在支持集上训练少量几次即可在查询集上得到很好的效果,减少训练数据的需求量,提高模型性能。
57.当然,实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
58.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
59.图1为是本技术实施例所适用的系统架构图;
60.图2为本技术实施例提供的信息抽取方法的流程图;
61.图3为本技术实施例提供的信息抽取模型的结构示意图;
62.图4为本技术实施例提供的训练信息抽取模型的方法流程图;
63.图5为本技术实施例提供的一种训练信息抽取模型的优选方法示意图;
64.图6为本技术实施例提供的实体抽取的原理示意图;
65.图7为本技术实施例提供的信息抽取装置的示意性框图;
66.图8为本技术实施例提供的训练信息抽取模型的装置示意性框图;
67.图9为本技术实施例提供的电子设备的示意性框图。
具体实施方式
68.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
69.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
70.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
71.取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
72.为了方便对本技术的理解,首先对本技术所适用的系统架构进行简单描述。图1示出了可以应用本技术实施例的示例性系统架构,如图1中所示,该系统架构包括采用离线方式建立信息抽取模型的模型训练装置,以及在线对待抽取文本进行信息抽取的信息抽取装置。
73.其中,模型训练装置在获取训练数据后,可以采用本技术实施例提供的方法进行模型训练,得到信息抽取模型。
74.信息抽取装置利用已经建立的信息抽取模型,对待抽取文本进行信息抽取,得到待抽取文本指定信息类型的目标。例如对待抽取文本进行实体识别,得到文本指定实体类型的实体词。再例如对待抽取文本进行实体三元组的抽取,得到两个实体词和实体关系词。再例如对待抽取文本进行情感抽取,得到指定情感要素类型的情感要素。具体将在后续实施例中详述。
75.模型训练装置和信息抽取装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps,virtualprivateserver)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置和预测装置还可以设置于具有较强计算能力的计算机终端。
76.需要说明的是,上述信息抽取装置除了在线上进行信息抽取之外,也可以采用离线的方式进行信息抽取,例如针对批量的待抽取文本分别进行信息抽取。
77.应该理解,图1中的模型训练装置、信息抽取装置以及信息抽取模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、信息抽取装置以及信息抽取模型。
78.图2为本技术实施例提供的信息抽取方法的流程图,该方法流程可以由图1所示系统架构中的信息抽取装置执行。如图2中所示,该方法可以包括以下步骤:
79.步骤202:获取待抽取文本。
80.步骤204:将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从待抽取文本中抽取的上述目标类型信息对应的目标。
81.步骤206:将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从待抽取文本中抽取的上述目标类型信息对应的目标。
82.由上述流程可以看出,本技术提供了一种两步式的信息抽取方式,首先利用信息抽取模型从待抽取文本中抽取目标类型信息对应的目标作为第一抽取结果,然后将第一抽
取结果作为一个基本语义的参考在第二步中辅助信息抽取模型再次从待抽取文本中抽取目标类型信息对应的目标,从而提高信息抽取的准确性。该方式在复杂目标类型的情况下,效果尤其突出。
83.需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分。例如“第一抽取结果”和“第二抽取结果”用以在名称上区分两个抽取结果。再例如,“第一文本序列”和“第二文本序列”用以在名称上区分两个文本序列。
84.下面对上述方法流程中的各步骤分别进行描述。首先结合实施例对上述步骤204即“获取待抽取文本”进行详细描述。
85.本技术实施例中涉及的待抽取文本可以是从用户设备获取的文本,例如用户希望对文本进行特定目标类型的信息抽取,则可以通过用户设备将该文本上传至服务器端的信息抽取装置,由信息抽取装置将该文本作为待抽取文本,采用本技术实施例提供的方式从待抽取文本中抽取特定目标类型信息对应的目标。
86.本技术实施例中涉及的待抽取文本也可以是从数据库中获取的文本。例如需要对数据库中批量的文本进行特定目标类型的信息抽取,则可以将从数据库获取的各文本分别作为待抽取文本,采用本技术实施例提供的方式从待抽取文本中抽取特定目标类型信息对应的目标。
87.待抽取文本可以是句子,也可以是由句子构成的段落、文档等,还可以是更小粒度的文本单位,例如短语等。
88.下面结合实施例对上述步骤204即“将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果”进行详细描述。
89.本技术实施例中涉及的目标类型可以由用户指定,也可以采用默认的目标类型。可以是一个目标类型的信息,也可以是多个目标类型的信息。
90.根据不同的应用场景,可以对应不同的目标类型信息。例如,在实体识别场景下,对应的目标类型信息可以是诸如人名、地名、机构名、作品名、品牌名、地址、日期等等中的一种或多种组合。再例如,在实体三元组识别场景下,对应的目标类型信息可以是实体三元组信息。再例如,在情感识别场景下,对应的目标类型信息可以是诸如情感表达者、情感对象、情感词等等中的一种或多种组合。
91.作为其中一种可实现的方式,可以将目标类型信息放在待抽取文本之前,构成第一文本序列。举个例子,假设要从句子“岳飞,相州汤阴人,其代表作满江红是千古传诵的爱国名篇”中提取人名、地名和作品名的目标类型,则可以将目标类型信息和待抽取文本进行拼接,得到的第一文本序列可以为:
[0092]“人名,地名,作品名;岳飞,相州汤阴人,其代表作满江红是千古传诵的爱国名篇”[0093]
上述第一文本序列中目标类型信息采用“,”进行分隔,目标类型信息与待抽取文本之间即拼接的位置处采用“;”进行分隔,也可以采用其他符号进行分隔。若目标类型信息是默认的目标类型信息,也可以不采用符号进行分隔。上述第一文本序列中目标类型信息采用“人名”、“地名”、“作品名”这种文字的形式,也可以采用其他形式,例如采用一些符号标识等。
[0094]
另外,除了将目标类型信息放在待抽取文本之前之外,也可以采用其他顺序,例如
将目标类型信息放在待抽取文本之后。只要保证信息抽取过程和模型训练过程中采用的顺序一致即可。
[0095]
本技术实施例提供的信息抽取模型是基于预训练语言模型预先训练得到的,具体地,信息抽取模型是一种seq2seq(sequencetosequence,序列到序列)模型。其结构可以如图3中所示,包括编码网络(encoder)和解码网络(decoder)。
[0096]
其中,编码网络用以对输入的文本序列(此时是第一文本序列)中的各token(元素)进行特征编码,得到各token的特征表示。
[0097]
其中,编码网络可以首先对输入的文本序列中的各token进行embedding(嵌入)处理。上述embedding处理可以至少包括:词embedding和位置embedding。词embedding,即将各token进行词向量编码,得到词向量表示。位置embedding,即将各token在待预测文本序列中的位置进行编码,得到位置的表示。
[0098]
解码网络用以利用各token的特征表示进行解码处理,输出的也是文本序列,将该输出的文本序列作为第一抽取结果。其中,输出的文本序列可以包括从待抽取文本中抽取的目标及其对应的目标类型标识。
[0099]
接续上例,假设从第一文本序列中得到的第一抽取结果为:“人名:岳飞;地名:;作品名:满江红”。其中,“人名:”、“地名:”、“作品名:”是文字形式的目标类型标识。也可以采用其他形式的目标类型标识,例如第一抽取结果为:“《n》岳飞;《pn》;《wt》满江红”,其中“《n》”、“《pn》”和“《wt》”分别是人名、地名和作品名的类型标识。
[0100]
作为其中一种可实现的方式,解码网络可以依据待识别文本中各token的特征表示在目标类型信息所指示的目标类型上进行分类,即将待处理文本中的各token映射至目标类型空间,以得到各token是否属于指定目标类型的分类结果,进而得到从待抽取文本中抽取的目标类型信息对应的目标作为第一抽取结果。
[0101]
在本技术实施例中的上述信息抽取模型可以基于预训练语言模型训练得到,采用诸如t5(transfertext-to-texttransformer,文本到文本转换器)、bert(bidirectionalencoder representationfromtransformers,基于转换的双向编码表示)、xlnet(一种通过排列语言模型实现双向上下文信息的自回归模型)、gpt(generativepre-training,生成式预训练)模型等预训练语言模型作为模型框架,在此基础上进行进一步训练。其中,bert是一种双向预训练语言模型,使用transformerencoder(转换编码器)作为模型结构,bert能够很好地利用上下文信息进行特征学习。xlnet是一个类似bert的模型,是一种更加泛化的自回归预训练模型。gpt使用transformerdecoder(转换解码器)结构,并在transformer decoder中仅保留了掩码多头注意力。t5仍然是一个由transformer层堆叠而成的编码器-解码器结构,但decoder中在自注意力层后还有个标准的注意力层,这个标准的注意力层会将编码器的输出参与到注意力的计算当中,decoder的最后一层,通过softmax分类器输出每个token属于目标类型的概率。
[0102]
文本序列的各token指的是构成文本序列的元素。对于文本序列而言,将文本序列切分为字符或者词语序列,则文本序列中的字符或者词语、以及起始符、分隔符均为token。
[0103]
由于预训练语言模型基于transformer网络实现,其中的自注意力机制确定得到的待抽取文本中各token的特征表示是参考了整个第一文本序列中各token的影响,即充分考虑了第一文本序列中所有内容的语义关联。
[0104]
依据传统一步式的信息抽取思路,就直接将第一抽取结果作为最终的抽取结果,但这种方式抽取的第一抽取结果往往并不准确,可能发生抽取的目标有误差、有些目标未抽取出来等问题。因此,本技术实施例继续执行步骤206。下面结合实施例对上述步骤206即“将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果”为例进行详细描述。
[0105]
作为其中一种可实现的方式,可以将第一抽取结果放在第一文本序列之后,构成第二文本序列。接续上例,假设通过步骤204从第一文本序列中得到的第一抽取结果为:“人名:岳飞;地名:;作品名:满江红”,该第一抽取结果中地名的识别结果为空。将第一文本序列和第一抽取结果进行拼接后得到的第二文本序列可以如下:
[0106]“人名,地名,作品名;岳飞,相州汤阴人,其代表作满江红是千古传诵的爱国名篇;人名:岳飞;地名:;作品名:满江红”[0107]
上述第二文本序列中第一文本序列与第一抽取结果之间采用“;”进行分隔,也可以采用其他符号进行分隔。
[0108]
除此之外,也可以采用其他顺序,例如将第一抽取结果放在第一文本序列之前。只要保证信息抽取过程和模型训练过程中采用的顺序一致即可。
[0109]
在这种情况下,信息抽取模型中的编码网络在提取待抽取文本各token的特征表示时,是参考了整个第二文本序列中各token的影响,即除了充分考虑了第一文本序列中所有内容的语义关联之外,也考虑第一抽取结果的语义内容。即便第一抽取结果不准确,也可以在第二步信息抽取的过程中,将第一抽取结果作为一个基本语义的参考(可以理解为从模型中检索到的基本知识),从而提高第二步信息抽取的准确性。
[0110]
接续上例,在第二步信息抽取时,信息抽取模型针对第二文本序列可以得到第二抽取结果为“人名:岳飞;地名:相州汤阴;作品名:满江红”。
[0111]
由于预训练语言模型所包含的知识并不总是和下游应用任务相关,会存在大量无关指示,而如果抽取出无关知识,则会影响模型的信息抽取效果。为了使得模型只抽取出与指定目标类型相关的知识,本技术提出了一种信息抽取模型的训练方法,该方法可以由图1所示系统架构中的模型训练装置执行。如图4中所示,该方法可以包括以下步骤:
[0112]
步骤402:获取包含多个训练样本的训练数据,训练样本包括文本样本和文本样本对应的抽取结果样本,抽取结果样本包括文本样本中预设目标类型信息对应的目标。
[0113]
本步骤中获取的训练样本可以采用人工标注的方式,即人工识别文本样本中预设目标类型信息对应的目标,从而得到抽取结果样本。
[0114]
步骤404:利用训练数据训练基于预训练语言模型的信息抽取模型,其中将由目标类型信息和文本样本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从文本样本中抽取的目标类型信息对应的目标;将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从文本样本中抽取的目标类型信息对应的目标;上述训练的目标包括:最小化第二抽取结果与文本样本对应的抽取结果样本之间的差异。
[0115]
作为其中一种可实现的方式,信息抽取模型可以利用上述训练的目标构建损失函数,将预训练语言模型的参数作为初始参数,在此基础上在每一轮迭代中利用损失函数的
取值,采用诸如梯度下降等方式更新信息抽取模型的模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
[0116]
但为了让信息抽取模型具备快速学习的能力,并在下游应用场景上快速学习抽取目标语义,本技术实施例提供了一种更为优选的实现方式,通过学学习的元预训练算法实现信息抽取模型的训练,具体包括两个循环:内循环和外循环,分别模拟下游应用场景中的模型微调阶段和模型预测阶段。这种实现方式下,将训练数据划分为支持集(supportset)和查询集(queryset),具体训练过程可以如图5中所示,包括以下过程:
[0117]
首先初始化信息抽取模型的模型参数。
[0118]
作为其中一种可实现的方式,可以利用预训练语言模型的模型参数来初始化信息抽取模型的模型参数。
[0119]
由于信息抽取任务可能是一个不断发展和演进的过程,会涉及到新增目标类型的抽取,那就将已有信息抽取模型迁移到新增目标类型上,在这种情况下,作为另一种可实现的方式,可以利用已经训练完成的其他信息抽取模型的模型参数来初始化要训练的信息抽取模型的模型参数。
[0120]
然后执行内循环过程:备份当前得到的信息抽取模型以得到备份模型;从支持集中采样训练样本对备份模型进行训练,得到备份模型的模型参数。即将从支持集中采样的训练样本中的文本样本输入备份模型,确定依据训练的目标构建的损失函数值,利用损失函数值针对备份模型的模型参数计算梯度并更新备份模型的模型参数,直至满足预设的第一训练结束条件。
[0121]
每次执行内循环过程时,备份模型的初始参数由当前已经得到的信息抽取模型的模型参数确定。首次执行内循环时,备份模型的初始参数实际上就是信息抽取模型初始化的模型参数。非首次执行内循环时,备份模型的初始参数实际上就是当前训练过程中已经执行的外循环更新得到的信息抽取模型的模型参数。
[0122]
作为其中一种较为优选的实施方式,上述依据训练的目标构建的损失函数loss的值,可以由第一损失函数loss1的值和第二损失函数loss2的值得到。例如:
[0123]
loss=αloss1
×
βloss2
[0124]
其中,α和β为预设的加权系数。第一损失函数loss1的值可以依据文本样本对应的第一抽取结果与该本样本对应的抽取结果样本之间的差异得到,第二损失函数loss2的可以依据文本样本对应的第二抽取结果与该文本样本对应的抽取结果样本之间的差异得到的,loss1和loss2均可以采用诸如交叉熵损失函数等来实现。这种损失函数loss能够综合考量第一抽取结果和第二抽取结果的准确性。
[0125]
上述的第一训练结束条件可以采用诸如损失函数的取值小于或等于预设的第一损失函数阈值,迭代次数达到预设的第一迭代次数阈值,迭代完从支持集中采样的训练样本,等等。
[0126]
内循环过程结束后,执行外循环过程:从查询集中采样训练样本,将训练样本中的文本样本输入当前训练得到的备份模型,确定依据训练的目标构建的损失函数值,利用损失函数值针对当前得到的信息抽取模型的模型参数计算梯度并更新信息抽取模型的模型参数,直至满足预设的第二训练结束条件。
[0127]
外循环采用的损失函数与内循环采用的损失函数相同,在此不做赘述。
[0128]
外循环过程中实际上是利用备份模型来计算损失函数值,利用损失函数的值来更新信息抽取模型的模型参数。也就是说,整个内、外循环的过程中,内循环训练的备份模型仅仅起到一个中间参数来计算损失函数的作用,利用损失函数计算梯度是针对信息抽取模型的模型参数进行的,并用以反向更新信息抽取模型的模型参数。上述过程可以参见图5中所示。
[0129]
上述的第二训练结束条件可以采用诸如损失函数的取值小于或等于预设的第二损失函数阈值,迭代次数达到预设的第二迭代次数阈值,迭代完从查询集中采样的训练样本,等等。
[0130]
执行完外循环后,可以再转至执行上述内循环的过程,直至满足预设的第三训练结束条件。例如,在执行完外循环后,可以首先判断是否满足预设的第三训练结束条件,如果满足,则结束整个信息抽取模型的训练过程,得到信息抽取模型。如果不满足,则继续转至执行上述内循环过程。
[0131]
上述的第三训练结束条件可以是诸如内循环过程或外循环过程的次数达到预设的次数阈值,迭代完查询集或支持集中所有的训练样本n遍,n为预设的正整数,等等。
[0132]
上述内循环结合外循环的模型训练模式,使得模型能够快速在下游应用场景上进行学习,经过实验验证,在支持集上训练少量几次即可在查询集上得到很好的效果,减少训练数据的需求量,提高模型性能。训练结束后,可以将得到的信息抽取模型用以在图2所示的流程中进行信息抽取。
[0133]
本技术实施例提供的上述方法可以应用于多种应用场景,包括但不限于:
[0134]
应用场景1:实体抽取
[0135]
实体抽取指的是从待抽取文本中抽取特定实体类型的实体词,是自然语言处理领域中的一种重要任务,在知识图谱构建、问答系统、句法分析、机器翻译等得到了广泛应用。
[0136]
如图6中所示,在获取到待抽取文本和要抽取的实体类型信息后,可以将由实体类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从待抽取文本中抽取的上述实体类型信息对应的实体词。
[0137]
然后将由第一文本序列和第一抽取结果拼接得到的第二文本序列(即由实体类型信息、待抽取文本和第一抽取结果拼接而成)输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从待抽取文本中抽取的实体类型信息对应的实体词。
[0138]
上述的目标类型信息可以是诸如人名、地名、机构名、作品名、品牌名、地址、日期等等中的一种或多种组合。
[0139]
通过上述方式进行两步实体抽取,先从待抽取文本中抽取实体类型信息对应的实体词作为第一抽取结果后,将第一抽取结果作为一个基本语义的参考在第二步的实体抽取中辅助信息抽取模型再次从待抽取文本中抽取实体类型信息对应的实体词,从而提高实体抽取的准确性。
[0140]
应用场景2:实体关系抽取
[0141]
在进行实体关系抽取时,不仅要抽取出实体词,还要抽取出两个实体词之间的关系,也就是说抽取的是三元组信息。实体关系抽取是知识图谱构建的基础任务。
[0142]
在这种应用场景下,将三元组信息和待抽取文本进行拼接,得到第一文本序列并输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从待抽取文本中抽取的实体词和实体关系词。
[0143]
然后将由第一文本序列和第一抽取结果拼接得到的第二文本序列(即由三元组信息、待抽取文本和第一抽取结果拼接而成)输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从待抽取文本中抽取的实体词和实体关系词。
[0144]
上述的三元组信息可以是诸如:头实体、实体关系、尾实体。也可以是诸如:头实体、尾实体、实体关系。等等。
[0145]
通过上述方式进行两步实体关系抽取,先从待抽取文本中抽取实体词和实体关系词作为第一抽取结果后,将第一抽取结果作为一个基本语义的参考在第二步的实体抽取中辅助信息抽取模型再次从待抽取文本中抽取实体词和实体关系词,从而提高实体关系抽取的准确性。
[0146]
应用场景3:情感抽取
[0147]
情感抽取是指从待抽取文本中抽取特定情感要素类型的情感要素,主要是判断词语在情感表达中扮演的角色。情感抽取在智能对话系统、电子商务平台、潮流预测等多种领域得到了广泛应用。例如可以从用户的对话数据、评价数据等文本数据中抽取情感要素,根据抽取的情感要素为用户提供有针对性的服务。
[0148]
在得到待抽取文本和情感要素类型信息后,可以将由情感要素类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从待抽取文本中抽取的情感要素类型信息对应的情感要素。
[0149]
再将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从待抽取文本中抽取的情感要素类型信息对应的情感要素。
[0150]
上述的目标类型信息可以是诸如情感持有者、情感对象、情感词等等中的一种或多种组合。
[0151]
通过上述方式进行两步情感抽取,先从待抽取文本中抽取情感要素类型信息对应的情感要素作为第一抽取结果后,将第一抽取结果作为一个基本语义的参考在第二步的情感抽取中辅助信息抽取模型再次从待抽取文本中抽取情感要素类型信息对应的情感要素,从而提高情感抽取的准确性。
[0152]
作为其中一种可实现的方式,本技术实施例提供的上述信息抽取方法可以由云端服务器执行。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps,virtualprivateserver)服务中存在的管理难度大,服务扩展性弱的缺陷。
[0153]
云端服务器获取到用户通过终端设备发送的待抽取文本后,通过本技术实施例提供的上述方法进行信息抽取,即将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从待抽取文本中抽取的目标类型信息对应的目标;将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从待抽取文本中抽取的所述目标类型信息对应的目标。然后将第二抽取结果返回给终端
设备。
[0154]
其中上述终端设备可以包括但不限于诸如:智能移动终端、智能家居设备、可穿戴式设备、pc(personalcomputer,个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、pda(personaldigitalassistant,个人数字助理)、互联网汽车等。智能家居设备可以包括智能电视、智能音箱、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、虚拟现实设备、增强现实设备、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。
[0155]
上述对本技术提供的方法实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0156]
根据另一方面的实施例,提供了一种信息抽取装置。图7示出根据一个实施例的信息抽取装置的示意性框图。如图7所示,该装置700包括:文本获取单元701、第一抽取单元702和第二抽取单元703。其中各组成单元的主要功能如下:
[0157]
文本获取单元701,被配置为获取待抽取文本。
[0158]
第一抽取单元702,被配置为将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从待抽取文本中抽取的目标类型信息对应的目标。
[0159]
第二抽取单元703,被配置为将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从待抽取文本中抽取的目标类型信息对应的目标。
[0160]
上述目标类型信息可以包括一个目标类型的信息,也可以包括多个目标类型的信息。
[0161]
其中上述信息抽取模型是基于预训练语言模型预先训练得到的。信息抽取模型的相关原理和结构可以参见方法实施例中的相关记载,在此不做赘述。
[0162]
根据另一方面的实施例,提供了一种训练信息抽取模型的装置,该装置对应于图1所示系统架构中的模型训练装置。图8为本技术实施例提供的训练信息抽取模型的装置示意性框图。如图8所示,该装置800包括:样本获取单元801和模型训练单元802。其中各组成单元的主要功能如下:
[0163]
样本获取单元801,被配置为获取包含多个训练样本的训练数据,训练样本包括文本样本和文本样本对应的抽取结果样本,抽取结果样本包括文本样本中预设目标类型信息对应的目标。
[0164]
模型训练单元802,被配置为利用训练数据训练基于预训练语言模型的信息抽取模型,其中将由目标类型信息和文本样本拼接得到的第一文本序列输入信息抽取模型,获取信息抽取模型输出的第一抽取结果,第一抽取结果包括从文本样本中抽取的目标类型信息对应的目标;将由第一文本序列和第一抽取结果拼接得到的第二文本序列输入信息抽取模型,获取信息抽取模型输出的第二抽取结果,第二抽取结果包括从文本样本中抽取的目标类型信息对应的目标;训练的目标包括:最小化第二抽取结果与文本样本对应的抽取结
果样本之间的差异。
[0165]
作为其中一种可实现的方式,样本获取单元801获取的训练数据可以包括支持集和查询集。模型训练单元802可以具体被配置为执行以下处理来训练信息抽取模型:
[0166]
初始化信息抽取模型的模型参数;
[0167]
备份当前得到的信息抽取模型以得到备份模型;
[0168]
从支持集中采样文本样本并输入备份模型,确定依据训练的目标构建的损失函数值,利用损失函数值针对备份模型的模型参数计算梯度并更新备份模型的模型参数,直至满足预设的第一训练结束条件;
[0169]
从查询集中采样文本样本并输入当前训练得到的备份模型,确定依据训练的目标构建的损失函数值,利用损失函数值针对当前得到的信息抽取模型的模型参数计算梯度并更新信息抽取模型的模型参数,直至满足预设的第二训练结束条件;
[0170]
转至备份当前得到的信息抽取模型以得到备份模型的步骤,直至满足预设的第三训练结束条件。
[0171]
作为其中一种可实现的方式,上述损失函数值是依据第二抽取结果与文本样本对应的抽取结果样本之间的差异得到的。
[0172]
作为另一种更为优选的实现方式,上述损失函数值是依据第一损失函数值和第二损失函数值得到的,其中第一损失函数值是依据第一抽取结果与文本样本对应的抽取结果样本之间的差异得到的,第二损失函数值是依据第二抽取结果与文本样本对应的抽取结果样本之间的差异得到的。
[0173]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0174]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0175]
另外,本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0176]
以及一种电子设备,包括:
[0177]
一个或多个处理器;以及
[0178]
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
[0179]
本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0180]
其中,图9示例性的展示出了电子设备的架构,具体可以包括处理器910,视频显示适配器911,磁盘驱动器912,输入/输出接口913,网络接口914,以及存储器920。上述处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,与存储器920之间可以通过通信总线930进行通信连接。
[0181]
其中,处理器910可以采用通用的cpu、微处理器、应用专用集成电路(application specificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术所提供的技术方案。
[0182]
存储器920可以采用rom(readonlymemory,只读存储器)、ram(randomaccess memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器920可以存储用于控制电子设备900运行的操作系统921,用于控制电子设备900的低级别操作的基本输入输出系统(bios)922。另外,还可以存储网页浏览器923,数据存储管理系统924,以及信息抽取装置/模型训练装置925等等。上述信息抽取装置/模型训练装置925就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本技术所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行。
[0183]
输入/输出接口913用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0184]
网络接口914用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0185]
总线930包括一通路,在设备的各个组件(例如处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,与存储器920)之间传输信息。
[0186]
需要说明的是,尽管上述设备仅示出了处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,存储器920,总线930等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本技术方案所必需的组件,而不必包含图中所示的全部组件。
[0187]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0188]
以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用
范围上均会有改变之处。综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种信息抽取的方法,其特征在于,所述方法包括:获取待抽取文本;将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述目标类型信息对应的目标;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述待抽取文本中抽取的所述目标类型信息对应的目标;其中所述信息抽取模型是基于预训练语言模型预先训练得到的。2.根据权利要求1所述的方法,其特征在于,所述目标类型信息包括多个目标类型的信息。3.根据权利要求1所述的方法,其特征在于,所述信息抽取模型包括:编码网络和解码网络;所述编码网络用以对输入的文本序列中的各元素token进行特征编码,得到各token的特征表示,所述输入的文本序列中在所述拼接的位置插入有预设的分隔符;解码网络用以利用所述各token的特征表示进行解码处理,得到输出的文本序列,输出的文本序列包括从所述待抽取文本中抽取的目标及其对应的目标类型标识。4.一种实体抽取方法,其特征在于,所述方法包括:将由实体类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述实体类型信息对应的实体词;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从待抽取文本中抽取的所述实体类型信息对应的实体词;其中所述信息抽取模型是基于预训练语言模型预先训练得到的。5.一种实体关系抽取方法,其特征在于,所述方法包括:将由三元组信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的与所述三元组信息对应的实体词和实体关系词;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从待抽取文本中抽取的与所述三元组信息对应的实体词和实体关系词;其中所述信息抽取模型是基于预训练语言模型预先训练得到的。6.一种情感抽取方法,其特征在于,所述方法包括:将由情感要素类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述情感要素类型信息对应的情感要素;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从待抽取
文本中抽取的所述情感要素类型信息对应的情感要素;其中所述信息抽取模型是基于预训练语言模型预先训练得到的。7.一种训练信息抽取模型的方法,其特征在于,所述方法包括:获取包含多个训练样本的训练数据,所述训练样本包括文本样本和所述文本样本对应的抽取结果样本,所述抽取结果样本包括所述文本样本中预设目标类型信息对应的目标;利用所述训练数据训练基于预训练语言模型的信息抽取模型,其中将由目标类型信息和文本样本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从文本样本中抽取的所述目标类型信息对应的目标;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述文本样本中抽取的所述目标类型信息对应的目标;所述训练的目标包括:最小化所述第二抽取结果与所述文本样本对应的抽取结果样本之间的差异。8.根据权利要求7所述的方法,其特征在于,所述训练数据包括支持集和查询集;利用所述训练数据训练基于预训练语言模型的信息抽取模型包括:初始化信息抽取模型的模型参数;备份当前得到的信息抽取模型以得到备份模型;从所述支持集中采样文本样本并输入备份模型,确定依据所述训练的目标构建的损失函数值,利用所述损失函数值针对所述备份模型的模型参数计算梯度并更新所述备份模型的模型参数,直至满足预设的第一训练结束条件;从所述查询集中采样文本样本并输入当前训练得到的备份模型,确定依据所述训练的目标构建的损失函数值,利用损失函数值针对当前得到的信息抽取模型的模型参数计算梯度并更新信息抽取模型的模型参数,直至满足预设的第二训练结束条件;转至所述备份当前得到的信息抽取模型以得到备份模型的步骤,直至满足预设的第三训练结束条件。9.根据权利要求8所述的方法,其特征在于,所述损失函数值是依据第二抽取结果与所述文本样本对应的抽取结果样本之间的差异得到的;或者,所述损失函数值是依据第一损失函数值和第二损失函数值得到的,其中所述第一损失函数值是依据第一抽取结果与所述文本样本对应的抽取结果样本之间的差异得到的,所述第二损失函数值是依据第二抽取结果与所述文本样本对应的抽取结果样本之间的差异得到的。10.根据权利要求7至9中任一项所述的方法,其特征在于,所述信息抽取模型包括:编码网络和解码网络;所述编码网络用以对输入的文本序列中的各token进行特征编码,得到各token的特征表示,所述输入的文本序列中在所述拼接的位置插入有预设的分隔符;解码网络用以利用所述各token的特征表示进行解码处理,得到出的文本序列,输出的文本序列包括从所述文本样本中抽取的目标及其对应的目标类型标识。11.一种信息抽取装置,其特征在于,所述装置包括:文本获取单元,被配置为获取待抽取文本;第一抽取单元,被配置为将由目标类型信息和待抽取文本拼接得到的第一文本序列输
入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述目标类型信息对应的目标;第二抽取单元,被配置为将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述待抽取文本中抽取的所述目标类型信息对应的目标;其中所述信息抽取模型是基于预训练语言模型预先训练得到的。12.一种训练信息抽取模型的装置,其特征在于,所述装置包括:样本获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括文本样本和所述文本样本对应的抽取结果样本,所述抽取结果样本包括所述文本样本中预设目标类型信息对应的目标;模型训练单元,被配置为利用所述训练数据训练基于预训练语言模型的信息抽取模型,其中将由目标类型信息和文本样本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从文本样本中抽取的所述目标类型信息对应的目标;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述文本样本中抽取的所述目标类型信息对应的目标;所述训练的目标包括:最小化所述第二抽取结果与所述文本样本对应的抽取结果样本之间的差异。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。14.一种电子设备,其特征在于,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10任一项所述的方法的步骤。

技术总结
本申请实施例公开了一种信息抽取方法、训练信息抽取模型的方法及装置。主要技术方案包括:获取待抽取文本;将由目标类型信息和待抽取文本拼接得到的第一文本序列输入信息抽取模型,获取所述信息抽取模型输出的第一抽取结果,所述第一抽取结果包括从待抽取文本中抽取的所述目标类型信息对应的目标;将由所述第一文本序列和所述第一抽取结果拼接得到的第二文本序列输入所述信息抽取模型,获取所述信息抽取模型输出的第二抽取结果,所述第二抽取结果包括从所述待抽取文本中抽取的所述目标类型信息对应的目标;其中所述信息抽取模型是基于预训练语言模型预先训练得到的。通过本申请能够提高信息抽取的准确性。能够提高信息抽取的准确性。能够提高信息抽取的准确性。


技术研发人员:从鑫 郁博文 方梦成 余海洋 扈中凯 黄非 李永彬
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2023.04.10
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐