预训练语言模型的训练方法、实体信息识别方法及装置与流程

未命名 07-20 阅读:127 评论:0


1.本技术涉及人工智能技术领域,特别是涉及一种预训练语言模型的训练方法、实体信息识别方法及装置。


背景技术:

2.预训练语言模型是自然语言处理中的一个核心,在自然语言处理技术的发展中存在举足轻重的作用。预训练语言模型的无监督训练属性,使其容易获取大量训练样本,并且训练好的语言模型具有强大的语义语法理解能力,对下游任务的效果会有明显的提升。
3.目前的预训练语言模型对实体的捕捉和理解能力较弱,但实体是自然语言文本中关键的语义单元,因此如何提升预训练语言模型对实体的捕获和理解能力具有很高的技术价值,能够对实体相关的下游任务效果带来有效提升。


技术实现要素:

4.有鉴于此,本技术提供了一种预训练语言模型的训练方法、实体信息识别方法及装置,以便于提升预训练语言模型对实体的捕捉和理解能力,从而为实体相关的下游任务的效果提升提供基础。
5.本技术提供了如下方案:
6.第一方面,提供了一种预训练语言模型的训练方法,所述方法包括:
7.获取多个第一文本样本;
8.利用所述第一文本样本训练预训练语言模型,所述训练包括:对所述第一文本样本进行n种分词处理,得到n个词序列,所述n为大于或等于2的正整数;将所述n个词序列中至少一个相同实体对应的词块进行掩码处理;将掩码处理后的所述n个词序列输入预训练语言模型,从所述预训练语言模型获取各词序列的特征表示,所述词序列的特征表示包括词序列中各词块的向量表示;所述训练的目标为:最小化利用所述各词序列的特征表示分别预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在所述各词序列的特征表示中的向量表示之间的距离。
9.根据本技术实施例中一可实现的方式,对所述第一文本样本进行n种分词处理,得到n个词序列包括:
10.利用n个不同的分词器分别对所述第一文本样本进行分词处理,得到n个词序列;或者,
11.利用一个分词器对所述第一文本样本分别进行n次随机分词处理,得到n个词序列。
12.根据本技术实施例中一可实现的方式,将所述n个词序列中至少一个相同实体对应的词块进行掩码处理包括:
13.利用实体资源库对所述第一文本样本进行匹配,确定所述第一文本样本中的实体;
14.在所述n个词序列中分别确定所述实体对应的词块位置,将确定的各位置进行掩码处理。
15.根据本技术实施例中一可实现的方式,所述训练包括:
16.在每一轮迭代中,依据n个词序列对应的预测差异值确定第一损失函数的取值,所述词序列对应的预测差异值是利用该词序列的特征表示预测得到的被掩码内容与第一文本样本中对应内容之间的差异;针对被掩码实体的边界词块,分别确定边界词块在所述各词序列的特征表示中的向量表示之间的距离信息,综合确定出的距离信息得到第二损失函数的取值;利用所述第一损失函数的取值和所述第二损失函数的取值得到总损失函数的取值;利用总损失函数的取值更新所述预训练语言模型的参数,直至满足预设的训练结束条件。
17.第二方面,提供了一种实体信息识别模型的训练方法,所述方法包括:
18.获取训练数据,所述训练数据包括多个第二文本样本以及对各第二文本样本标注的实体信息标签;
19.将如上第一方面中任一项所述的方法训练得到的预训练语言模型作为初始的编码模块,利用所述训练数据进一步训练包括所述编码模块和预测模块的实体信息识别模型;所述编码模块用以针对输入的第二文本样本对应的词序列输出该词序列对应的特征表示;所述预测模块用以利用该词序列对应的特征表示预测所述词序列中的实体信息;所述进一步训练的目标包括:最小化所述预测模块预测的实体信息与所述输入的第二文本样本被标注的实体信息标签之间的差异。
20.根据本技术实施例中一可实现的方式,所述实体信息标签包括是否为实体的标签,所述实体信息包括是否为实体的信息;或者,
21.所述实体信息标签包括实体类型标签,所述实体信息包括实体类型信息;或者,
22.所述实体信息标签包括实体关系标签,所述实体信息包括实体关系信息。
23.第三方面,提供了一种实体信息识别方法,所述方法包括:
24.获取待识别文本;
25.将所述待识别文本输入实体信息识别模型,获取所述实体信息识别模型针对所述待识别文本输出的实体信息,所述实体信息包括实体词信息、实体类型信息或实体关系信息;
26.其中所述实体信息识别模型是采用如上第二方面中所示的方法预先训练得到的。
27.第四方面,提供了一种预训练语言模型的训练装置,所述装置包括:
28.第一样本获取单元,被配置为获取多个第一文本样本;
29.第一模型训练单元,被配置为利用所述第一文本样本训练预训练语言模型,所述训练包括:对所述第一文本样本进行n种分词处理,得到n个词序列,所述n为大于或等于2的正整数;将所述n个词序列中至少一个相同实体对应的词块进行掩码处理;将掩码处理后的所述n个词序列输入预训练语言模型,从所述预训练语言模型获取各词序列的特征表示,所述词序列的特征表示包括词序列中各词块的向量表示;所述训练的目标为:最小化利用所述各词序列的特征表示分别预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在所述各词序列的特征表示中的向量表示之间的距离。
30.第五方面,提供了一种实体信息识别模型的训练装置,所述装置包括:
31.第二样本获取单元,被配置为获取训练数据,所述训练数据包括多个第二文本样本以及对各第二文本样本标注的实体信息标签;
32.第二模型训练单元,被配置为将如上第四方面所述的装置训练得到的预训练语言模型作为初始的编码模块,利用所述训练数据进一步训练包括所述编码模块和预测模块的实体信息识别模型;所述编码模块用以针对输入的第二文本样本对应的词序列输出该词序列对应的特征表示;所述预测模块用以利用该词序列对应的特征表示预测所述词序列中的实体信息;所述进一步训练的目标包括:最小化所述预测模块预测的实体信息与所述输入的第二文本样本被标注的实体信息标签之间的差异。
33.第六方面,提供了一种实体信息识别装置,所述装置包括:
34.文本获取单元,被配置为获取待识别文本;
35.实体识别单元,被配置为将所述待识别文本输入实体信息识别模型,获取所述实体信息识别模型针对所述待识别文本输出的实体信息,所述实体信息包括实体词信息、实体类型信息或实体关系信息;
36.其中所述实体信息识别模型是由如上第五方面所示的装置预先训练得到的。
37.根据第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面至第三方面中任一项所述的方法的步骤。
38.根据第八方面,提供了一种电子设备,包括:
39.一个或多个处理器;以及
40.与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面至第三方面中任一项所述的方法的步骤。
41.根据本技术提供的具体实施例,本技术公开了以下技术效果:
42.1)本技术通过不同分词处理得到第一文本样本的多个词序列后,将词序列中至少一个相同实体对应的词块进行掩码处理,在预训练语言模型的训练过程中引入被掩码实体的边界词块的向量表示一致性学习。由于边界词块反映了被掩码实体的识别准确性,因此预训练语言模型对被掩码实体的边界词块的向量表示一致性学习,能够有效提升预训练语言模型对实体的捕获和理解能力,从而为实体相关的下游任务的效果提升提供基础。
43.2)本技术提供的预训练语言模型的训练方法中,无需对第一文本样本进行实体信息的标注,节约人工成本且能够很容易获取大量样本数据,从而保证预训练语言模型的训练效果。
44.3)通过本技术提供的方法训练得到的预训练语言模型对实体具有较高的捕获和理解能力,在此基础上训练得到的实体相关的下游任务的效果提升明显,即能够得到效果更好的实体信息识别模型。
45.4)本技术训练得到的预训练语言模型可以适用于各种实体信息识别的应用场景,例如是否为实体的识别、实体类型的识别、实体关系的识别等等,应用更加通用和广泛。
46.当然,实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
47.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1为是本技术实施例所适用的系统架构图;
49.图2为本技术实施例提供的预训练语言模型的训练方法流程图;
50.图3为本技术实施例提供的预训练语言模型的训练原理性示意图;
51.图4为本技术实施例提供的实体信息识别模型的训练方法;
52.图5为本技术实施例提供的实体信息识别模型的结构示意图;
53.图6为本技术实施例提供的预训练语言模型的训练装置的示意性框图;
54.图7为本技术实施例提供的实体信息识别模型的训练装置的示意性框图;
55.图8为本技术实施例提供的实体信息识别装置的示意性框图;
56.图9为本技术实施例提供的电子设备的示意性框图。
具体实施方式
57.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
58.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
59.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
60.取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
61.如背景技术中所提及的,目前的预训练语言模型在训练过程中没有关注实体信息,对实体的捕捉和理解能力较弱。若对训练数据中的实体信息进行标注,在预训练语言模型的训练过程中引入基于实体匹配的判别式训练,则需要标注大量的实体信息,标注成本过高,背离了预训练语言模型的无监督训练属性。
62.有鉴于此,本技术提出了一种全新的预训练语言模型的训练思路。为了方便对本技术实施例的理解,首先对本技术所基于的系统架构进行简单描述。图1示出了可以应用本技术实施例的示例性系统架构,如图1中所示,该系统架构可以包括第一模型训练装置、第二模型训练装置和实体信息识别装置。
63.其中第一模型训练装置可以采用离线方式训练得到预训练语言模型,该预训练语
言模型用以对输入的文本对应的词序列进行特征提取,得到词序列的特征表示。
64.预训练语言模型可以应用于多种下游任务,鉴于本技术实施例提供的预训练语言模型的训练方式能够更好地捕获和理解实体,因此可以更好地应用于实体相关的下游任务。在本技术实施例中以实体识别任务为例。该系统中的第二模型训练装置可以采用离线方式训练得到实体信息识别模型。
65.实体信息识别装置可以在线对待识别文本进行实体识别,得到待识别文本中的实体信息。
66.第一模型训练装置、第二模型训练装置和实体信息识别装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps,virtualprivateserver)服务中存在的管理难度大,服务扩展性弱的缺陷。第一模型训练装置、第二模型训练装置和实体信息识别装置还可以设置于具有较强计算能力的计算机终端。
67.需要说明的是,上述实体信息识别装置除了在线进行实体识别之外,也可以采用离线的方式进行实体识别,例如针对批量的待识别文本分别进行实体识别。
68.应该理解,图1中的第一模型训练装置、第二模型训练装置、实体信息识别装置、预训练语言模型和实体信息识别模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的第一模型训练装置、第二模型训练装置、实体信息识别装置、预训练语言模型和实体信息识别模型。
69.图2为本技术实施例提供的预训练语言模型的训练方法流程图,该方法可以由图1所示系统架构中的第一模型训练装置执行。如图2中所示,该方法可以包括以下步骤:
70.步骤202:获取多个第一文本样本。
71.步骤204:在利用第一文本样本训练预训练语言模型时,对第一文本样本进行n种分词处理,得到n个词序列,n为大于或等于2的正整数;将n个词序列中至少一个相同实体对应的词块进行掩码处理。
72.步骤206:将掩码处理后的n个词序列输入预训练语言模型,从预训练语言模型获取的各词序列的特征表示,词序列的特征表示包括词序列中各词块的向量表示;训练的目标为:最小化分别利用各词序列的特征表示预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在各词序列的特征表示中的向量表示之间的距离。
73.由上述流程可以看出,本技术通过不同分词处理得到第一文本样本的多个词序列后,将词序列中至少一个相同实体对应的词块进行掩码处理,通过在预训练语言模型的训练过程中引入被掩码实体的边界词块的向量表示一致性学习,来提升预训练语言模型对实体的捕获和理解能力,从而为实体相关的下游任务的效果提升提供基础。
74.需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分,例如“第一文本样本”和“第二文本样本”用以在名称上区分两个文本样本。
75.下面对上述流程中的各步骤进行详细描述。首先结合实施例对上述步骤202即“获取多个第一文本样本”进行详细描述。
76.本技术实施例中训练预训练语言模型所采用的第一文本样本可以是任意的文本,例如从海量文本中获取一些句子、段落等作为第一文本样本。由于本技术要提高预训练语言模型对于实体的捕获能力,因此可以将包含一些包含实体的文本作为第一文本样本。
77.本技术实施例中涉及的实体即实体词,可以包括但不限于人名、地名、时间、日期、机构名、货币、影视名、书名、品牌名等等。
78.下面结合实施例对上述步骤204中“对第一文本样本进行n种分词处理,得到n个词序列”进行详细描述。
79.对于预训练语言模型而言,其输入为文本的词序列。因此在训练预训练语言模型时,需要对第一文本样本进行分词处理得到词序列。在分词处理时使用的是tokenizer(分词器),tokenizer使用预设的分词策略将句子分成token(词块),其中token可能是字符、也可能是词语、短语等。
80.使用不同分词策略对文本进行的分词处理结果通常是不同的。因此在本步骤中可以利用n个不同的分词器分别对第一文本样本进行分词处理,得到n个词序列,n为大于或等于2的正整数。也就是说,要得到同一个第一文本样本对应的多个不同的词序列。
81.上述分词策略可以包括但不限于:基于空格的分词策略(适用于英文等词之间存在空格的语言)、逐字拆分的分词策略(适用于诸如中文等由字作为基本单元的语言)、基于bpe(bytepairencoder,字节对编码)的分词策略、基于wordpiece(字片段)的分词策略、基于unigram(一元模型)的分词策略、基于sentencepiece(句片段)的分词策略等等。鉴于这些分词策略均为已有的分词策略,在此不做详述。
82.还有一些分词器对文本进行的分词处理具有一定的随机性,即每次分词时随机地采用一种分词策略进行分词处理。因此,作为另一种可实现的方式,可以利用一个分词器对第一文本样本分别进行n次随机分词处理,得到n个词序列。
83.举一个例子,对于第一文本样本“她去过南京长江大桥”,采用不同的分词策略得到以下两个词序列:
84.词序列1:她|去过|南京|长江|大桥
85.词序列2:她|去过|南京|长江大桥
86.其中,上述的“|”用以区分分词得到的两个词块。
87.下面结合实施例对上述步骤204中的“将n个词序列中至少一个相同实体对应的词块进行掩码处理”进行详细描述。
88.第一文本样本中可能包含实体,实体数量可能是一个或多个。在本技术实施例中可以首先确定出第一文本样本中的实体,例如可以利用实体资源库对第一文本样本进行匹配,确定第一文本样本中的实体。然后在n个词序列中分别确定该实体对应的词块位置,将确定的各位置进行掩码(mask)处理。
89.其中,上述实体资源库包含了大量实体的词语,实体资源库可以是实体词典,也可以是诸如百科词条的数据库。
90.仍以上述两个词序列为例,将第一文本样本“她去过南京长江大桥”在实体资源库中进行匹配,可以确定“南京长江大桥”为一个实体。可以将该实体在两个词序列中对应的词块位置进行掩码处理,得到以下两个掩码处理后的词序列:
91.掩码处理后的词序列1:她|去过|[mask1]|[mask2]|[mask3]
[0092]
掩码处理后的词序列2:她|去过|[mask4]|[mask5]
[0093]
若第一文本样本中匹配得到多个实体,则可以随机选择其中部分实体,将该实体对应的词块位置进行掩码处理。也可以选择全部实体,将各实体对应的词块位置进行掩码处理。
[0094]
下面结合实施例对上述步骤206进行详细描述。
[0095]
将掩码处理后的n个词序列输入预训练语言模型进行训练,预训练语言模型对各词序列分别进行编码处理后,得到各词序列对应的特征表示。每一个词序列对应的特征表示均包含该词序列中各词块对应的向量表示。
[0096]
例如上述被掩码处理后的词序列1经过预训练语言模型得到词序列1对应的特征表示为:h1=[h

,h
去过
,h
mask1
,h
mask2
,h
mask3
],其中,h

表示词块“她”对应的向量表示,其他含义类似。
[0097]
上述被掩码处理后的词序列2经过预训练语言模型得到词序列2对应的特征表示为:h2=[h

,h
去过
,h
mask4
,h
mask5
]。
[0098]
本技术实施例中涉及的预训练语言模型可以是诸如bert(bidirectionalencoder representationfromtransformers,基于转换的双向编码表示)、xlnet(一种通过排列语言模型实现双向上下文信息的自回归模型)、gpt(generativepre-training,生成式预训练)模型等预训练语言模型。
[0099]
在对预训练语言模型时,可以采用对被掩码内容的预测任务。如图3中所示,可以在预训练语言模型的下游连接掩码预测模块,掩码预测模块利用各词序列的特征表示预测各词序列中的被掩码内容。
[0100]
其中一个训练目标为:最小化掩码预测模块预测得到的被掩码内容与第一文本样本中对应内容之间的差异。例如最小化预测得到的[mask1]、[mask2]和[mask3]的内容分别与“南京”、“长江”和“大桥”之间的差异,最小化预测得到的[mask4]和[mask5]的内容分别与“南京”和“长江大桥”之间的差异。
[0101]
为了提高预训练语言模型对于实体的捕获和理解能力,在本技术实施例中进一步引入实体边界相似度对预训练语言模型进行训练,即最小化被掩码实体的边界词块在各词序列的特征表示中的向量表示之间的距离。也就是说,使得实体的同一位置的边界词块在不同词序列的特征表示中的向量表示尽可能相似。
[0102]
所谓被掩码实体的边界词块指的是被掩码实体的第一个词块和最后一个词块。仍以上面两个词序列为例,对于实体“南京长江大桥”而言,在词序列1中两个边界词块为[mask1]和[mask3],在词序列2中两个边界词块为[mask4]和[mask5],另一个训练目标为:最小化dist(h
mask1
,h
mask4
)以及最小化dist(h
mask3
,h
mask5
)。其中dist()表示两个向量表示之间的距离,可以采用诸如l2正则化方式或者欧式距离等方式来确定。
[0103]
在每一轮迭代中,可以依据n个词序列对应的预测差异值确定第一损失函数的取值,词序列对应的预测差异值是利用该词序列的特征表示预测得到的被掩码内容与第一文本样本中对应内容之间的差异;针对被掩码实体的边界词块,针对各边界词块分别确定边界词块在各词序列的特征表示中的向量表示之间的距离信息,综合确定出的距离信息得到第二损失函数的取值;利用第一损失函数的取值和第二损失函数的取值得到总损失函数的取值;利用总损失函数的取值更新预训练语言模型的参数,直至满足预设的训练结束条件。
[0104]
接续上例,总损失函数loss可以采用如下公式计算:
[0105]
loss=α1loss1+α2loss2(1)
[0106]
loss1=mlm1+mlm2(2)
[0107]
loss2=dist(h
mask1
,h
mask4
)+dist(h
mask3
,h
mask5
)(3)
[0108]
其中,α1和α2为预设的加权系数,可以取经验值或实验值。mlm1衡量预测得到的[mask1]、[mask2]和[mask3]的内容分别与“南京”、“长江”和“大桥”之间的差异,mlm2衡量预测得到的[mask4]和[mask5]的内容分别与“南京”和“长江大桥”之间的差异,可以采用诸如交叉熵损失函数。
[0109]
本技术总的损失函数除了依据上述第一损失函数和第二损失函数的取值之外,也可以附加其他训练任务的损失函数,在此不做特别限制。
[0110]
另外需要说明的是,预训练语言模型通常包含多个transformer层,每一个transformer层都会输出各词块的向量表示(即隐状态向量)。上述被掩码实体的边界词块在各词序列的特征表示中的向量表示可以从预训练语言模型中的任意一个transformer的输出中获取,作为其中一种可实现的方式,可以从预训练语言模型最后一个transformer层的输出中获取。
[0111]
在训练得到上述预训练语言模型后,该预训练语言模型可以应用于多种应用场景。优选地,可以用于与实体相关的应用场景。当应用于实体识别相关的应用场景时,可以在预训练语言模型的基础上,对接下游的任务,从而构建实体信息识别模型。
[0112]
图4为本技术实施例提供的实体信息识别模型的训练方法,该方法可以由如图1所示系统中的第二模型训练装置执行。如图4中所示,该方法可以包括以下步骤:
[0113]
步骤402:获取训练数据,训练数据包括多个第二文本样本以及对各第二文本样本标注的实体信息标签。
[0114]
在训练实体相关任务的实体信息识别模型时,获取一些包含实体的文本作为第二文本样本,对各第二文本样本中的实体信息进行标注。
[0115]
根据不同的实体识别任务,可以对不同的实体信息进行标注。例如,可以标注第二文本样本中的实体,即各词块是否为实体的标签。再例如,可以标注第二文本样本中实体的类型标签。再例如,可以标注第二文本样本中实体之间的关系标签。等等。
[0116]
步骤404:将采用图2所示方法训练得到的预训练语言模型作为初始的编码模块,利用上述训练数据进一步训练包括编码模块和预测模块的实体信息识别模型。
[0117]
本技术实施例中训练的实体信息识别模型的结构可以如图5中所示,包括编码模块和预测模块。其中,将图2所示方法实施例训练得到的预训练语言模型作为初始的编码模块,然后在此基础之上进行微调(fine-tune)。
[0118]
编码模块用以针对输入的第二文本样本对应的词序列输出该词序列对应的特征表示。预测模块用以利用该词序列对应的特征表示预测词序列中的实体信息。
[0119]
预测模块通常采用的是分类网络,依据不同的训练数据和训练任务,预测结果不同。例如,若训练数据中对第二文本样本标注的是是否为实体的标签,则预测模块输出各词块是否为实体的预测结果。再例如,若训练数据中对第二文本样本标注的是实体类型的标签,即对于第二文本样本中实体对应的词块标注实体类型的标签,则预测模块输出实体对应的词块的实体类型的预测结果。再例如,若训练数据中对第二文本样本标注的是两个实
体之间的关系类型的标签,则预测模块输出的预测结果为实体之间的关系类型。等等。
[0120]
上述进一步训练的目标包括:最小化预测模块预测的实体信息与输入的第二文本样本被标注的实体信息标签之间的差异。
[0121]
可以依据该训练目标构造损失函数,例如采用交叉熵损失函数。在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新实体信息识别模型的模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
[0122]
在得到上述实体信息识别模型后,可以利用该实体信息识别模型进行实体识别。即获取待识别文本后,将待识别文本输入采用如图4所述方法预先训练得到的实体信息识别模型,获取实体信息识别模型针对待识别文本输出的实体信息。
[0123]
其中上述实体信息识别模型输出的实体信息在不同的应用场景下可以是诸如实体词信息、实体类型信息或实体关系信息。
[0124]
例如在实体词识别场景下,输入待识别文本至实体信息识别模型后,实体信息识别模型针对该待识别文本输出其中的实体词。
[0125]
再例如在实体类型识别场景下,输入待识别文本至实体信息识别模型,该待识别文本中标注出了实体词信息,实体信息识别模型针对该待识别文本中的实体词输出对应的实体类型。
[0126]
再例如在实体关系识别场景下,输入待识别文本至实体信息识别模型,该待识别文本中标注了实体词对信息,实体信息识别模型针对该待识别文本中的实体词对输出对应的实体关系类型。
[0127]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0128]
根据另一方面的实施例,提供了一种预训练语言模型的训练装置。图6示出根据一个实施例的预训练语言模型的训练装置的示意性框图,该装置即图1所示架构中的第一模型训练装置。如图6所示,该装置600包括:第一样本获取单元601和第一模型训练单元602。其中各组成单元的主要功能如下:
[0129]
第一样本获取单元601,被配置为获取多个第一文本样本。
[0130]
第一模型训练单元602,被配置为利用第一文本样本训练预训练语言模型,所述训练包括:对第一文本样本进行n种分词处理,得到n个词序列,n为大于或等于2的正整数;将n个词序列中至少一个相同实体对应的词块进行掩码处理;将掩码处理后的n个词序列输入预训练语言模型,从预训练语言模型获取各词序列的特征表示,词序列的特征表示包括词序列中各词块的向量表示;训练的目标为:最小化利用各词序列的特征表示分别预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在各词序列的特征表示中的向量表示之间的距离。
[0131]
作为其中一种可实现的方法,第一模型训练单元602在进行分词处理时,可以具体被配置为:利用n个不同的分词器分别对第一文本样本进行分词处理,得到n个词序列;或
者,利用一个分词器对第一文本样本分别进行n次随机分词处理,得到n个词序列。
[0132]
作为其中一种可实现的方法,第一模型训练单元602将n个词序列中至少一个相同实体对应的词块进行掩码处理时,可以具体被配置为:利用实体资源库对第一文本样本进行匹配,确定第一文本样本中的实体;在n个词序列中分别确定实体对应的词块位置,将确定的各位置进行掩码处理。
[0133]
作为其中一种可实现的方法,第一模型训练单元602在训练预训练语言模型时,可以具体被配置为:在每一轮迭代中,依据n个词序列对应的预测值确定第一损失函数的取值,词序列对应的预测差异值是利用该词序列的特征表示预测得到的被掩码内容与第一文本样本中对应内容之间的差异;针对被掩码实体的边界词块,针对各边界词块分别确定边界词块在各词序列的特征表示中的向量表示之间的距离信息,综合确定出的距离信息得到第二损失函数的取值;利用第一损失函数的取值和第二损失函数的取值得到总损失函数的取值;利用总损失函数的取值更新预训练语言模型的参数,直至满足预设的训练结束条件。
[0134]
根据另一方面的实施例,提供了一种实体信息识别模型的训练装置。图7示出根据一个实施例的实体信息识别模型的训练装置的示意性框图,该装置即图1所示架构中的第二模型训练装置。如图7所示,该装置700包括:第二样本获取单元701和第二模型训练单元702。其中各组成单元的主要功能如下:
[0135]
第二样本获取单元701,被配置为获取训练数据,训练数据包括多个第二文本样本以及对各第二文本样本标注的实体信息标签。
[0136]
第二模型训练单元702,被配置为将图6所示装置训练得到的预训练语言模型作为初始的编码模块,利用训练数据进一步训练包括编码模块和预测模块的实体信息识别模型。编码模块用以针对输入的第二文本样本对应的词序列输出该词序列对应的特征表示;预测模块用以利用该词序列对应的特征表示预测词序列中的实体信息;进一步训练的目标包括:最小化预测模块预测的实体信息与输入的第二文本样本被标注的实体信息标签之间的差异。
[0137]
作为其中一种可实现的方式,实体信息标签可以包括是否为实体的标签,实体信息包括是否为实体的信息。
[0138]
作为另一种可实现的方式,实体信息标签包括实体类型标签,实体信息包括实体类型信息。
[0139]
作为再一种可实现的方式,实体信息标签包括实体关系标签,实体信息包括实体关系信息。
[0140]
图8示出根据一个实施例的实体信息识别装置的示意性框图,如图8所示,该装置800包括:文本获取单元801和实体识别单元802。其中各组成单元的主要功能如下:
[0141]
文本获取单元801,被配置为获取待识别文本。
[0142]
实体识别单元802,被配置为将待识别文本输入实体信息识别模型,获取实体信息识别模型针对待识别文本输出的实体信息,实体信息包括实体词信息、实体类型信息或实体关系信息等;其中实体信息识别模型是由图7中所示装置预先训练得到的。
[0143]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例
的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0144]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0145]
另外,本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0146]
以及一种电子设备,包括:
[0147]
一个或多个处理器;以及
[0148]
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
[0149]
本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0150]
其中,图9示例性的展示出了电子设备的架构,具体可以包括处理器910,视频显示适配器911,磁盘驱动器912,输入/输出接口913,网络接口914,以及存储器920。上述处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,与存储器920之间可以通过通信总线930进行通信连接。
[0151]
其中,处理器910可以采用通用的cpu、微处理器、应用专用集成电路(application specificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术所提供的技术方案。
[0152]
存储器920可以采用rom(readonlymemory,只读存储器)、ram(randomaccess memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器920可以存储用于控制电子设备900运行的操作系统921,用于控制电子设备900的低级别操作的基本输入输出系统(bios)922。另外,还可以存储网页浏览器923,数据存储管理系统924,以及模型训练装置/实体信息识别装置925等等。上述模型训练装置/实体信息识别装置925就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本技术所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行。
[0153]
输入/输出接口913用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0154]
网络接口914用于连接通信模块(图中未示出),以实现本设备与其他设备的通信
交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0155]
总线930包括一通路,在设备的各个组件(例如处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,与存储器920)之间传输信息。
[0156]
需要说明的是,尽管上述设备仅示出了处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914,存储器920,总线930等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本技术方案所必需的组件,而不必包含图中所示的全部组件。
[0157]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0158]
以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:
1.一种预训练语言模型的训练方法,其特征在于,所述方法包括:获取多个第一文本样本;利用所述第一文本样本训练预训练语言模型,所述训练包括:对所述第一文本样本进行n种分词处理,得到n个词序列,所述n为大于或等于2的正整数;将所述n个词序列中至少一个相同实体对应的词块进行掩码处理;将掩码处理后的所述n个词序列输入预训练语言模型,从所述预训练语言模型获取各词序列的特征表示,所述词序列的特征表示包括词序列中各词块的向量表示;所述训练的目标为:最小化利用所述各词序列的特征表示分别预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在所述各词序列的特征表示中的向量表示之间的距离。2.根据权利要求1所述的方法,其特征在于,对所述第一文本样本进行n种分词处理,得到n个词序列包括:利用n个不同的分词器分别对所述第一文本样本进行分词处理,得到n个词序列;或者,利用一个分词器对所述第一文本样本分别进行n次随机分词处理,得到n个词序列。3.根据权利要求1所述的方法,其特征在于,将所述n个词序列中至少一个相同实体对应的词块进行掩码处理包括:利用实体资源库对所述第一文本样本进行匹配,确定所述第一文本样本中的实体;在所述n个词序列中分别确定所述实体对应的词块位置,将确定的各位置进行掩码处理。4.根据权利要求1所述的方法,其特征在于,所述训练包括:在每一轮迭代中,依据n个词序列对应的预测差异值确定第一损失函数的取值,所述词序列对应的预测差异值是利用该词序列的特征表示预测得到的被掩码内容与第一文本样本中对应内容之间的差异;针对被掩码实体的边界词块,分别确定边界词块在所述各词序列的特征表示中的向量表示之间的距离信息,综合确定出的距离信息得到第二损失函数的取值;利用所述第一损失函数的取值和所述第二损失函数的取值得到总损失函数的取值;利用总损失函数的取值更新所述预训练语言模型的参数,直至满足预设的训练结束条件。5.一种实体信息识别模型的训练方法,其特征在于,所述方法包括:获取训练数据,所述训练数据包括多个第二文本样本以及对各第二文本样本标注的实体信息标签;将如权利要求1至4中任一项所述的方法训练得到的预训练语言模型作为初始的编码模块,利用所述训练数据进一步训练包括所述编码模块和预测模块的实体信息识别模型;所述编码模块用以针对输入的第二文本样本对应的词序列输出该词序列对应的特征表示;所述预测模块用以利用该词序列对应的特征表示预测所述词序列中的实体信息;所述进一步训练的目标包括:最小化所述预测模块预测的实体信息与所述输入的第二文本样本被标注的实体信息标签之间的差异。6.根据权利要求5所述的方法,其特征在于,所述实体信息标签包括是否为实体的标签,所述实体信息包括是否为实体的信息;或者,所述实体信息标签包括实体类型标签,所述实体信息包括实体类型信息;或者,所述实体信息标签包括实体关系标签,所述实体信息包括实体关系信息。7.一种实体信息识别方法,其特征在于,所述方法包括:
获取待识别文本;将所述待识别文本输入实体信息识别模型,获取所述实体信息识别模型针对所述待识别文本输出的实体信息,所述实体信息包括实体词信息、实体类型信息或实体关系信息;其中所述实体信息识别模型是采用如权利要求5中所示的方法预先训练得到的。8.一种预训练语言模型的训练装置,其特征在于,所述装置包括:第一样本获取单元,被配置为获取多个第一文本样本;第一模型训练单元,被配置为利用所述第一文本样本训练预训练语言模型,所述训练包括:对所述第一文本样本进行n种分词处理,得到n个词序列,所述n为大于或等于2的正整数;将所述n个词序列中至少一个相同实体对应的词块进行掩码处理;将掩码处理后的所述n个词序列输入预训练语言模型,从所述预训练语言模型获取各词序列的特征表示,所述词序列的特征表示包括词序列中各词块的向量表示;所述训练的目标为:最小化利用所述各词序列的特征表示分别预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在所述各词序列的特征表示中的向量表示之间的距离。9.一种实体信息识别模型的训练装置,其特征在于,所述装置包括:第二样本获取单元,被配置为获取训练数据,所述训练数据包括多个第二文本样本以及对各第二文本样本标注的实体信息标签;第二模型训练单元,被配置为将如权利要求8所述的装置训练得到的预训练语言模型作为初始的编码模块,利用所述训练数据进一步训练包括所述编码模块和预测模块的实体信息识别模型;所述编码模块用以针对输入的第二文本样本对应的词序列输出该词序列对应的特征表示;所述预测模块用以利用该词序列对应的特征表示预测所述词序列中的实体信息;所述进一步训练的目标包括:最小化所述预测模块预测的实体信息与所述输入的第二文本样本被标注的实体信息标签之间的差异。10.一种实体信息识别装置,其特征在于,所述装置包括:文本获取单元,被配置为获取待识别文本;实体识别单元,被配置为将所述待识别文本输入实体信息识别模型,获取所述实体信息识别模型针对所述待识别文本输出的实体信息,所述实体信息包括实体词信息、实体类型信息或实体关系信息;其中所述实体信息识别模型是由如权利要求9中所示的装置预先训练得到的。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。12.一种电子设备,其特征在于,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请实施例公开了一种预训练语言模型的训练方法、实体信息识别方法及装置。主要技术方案包括:获取多个第一文本样本;利用第一文本样本训练预训练语言模型,训练包括:对第一文本样本进行N种分词处理;将N个词序列中至少一个相同实体对应的词块进行掩码处理;将掩码处理后的N个词序列输入预训练语言模型,从预训练语言模型获取各词序列的特征表示,词序列的特征表示包括词序列中各词块的向量表示;训练目标为:最小化利用各词序列的特征表示分别预测得到的被掩码内容与第一文本样本中对应内容之间的差异,以及最小化被掩码实体的边界词块在各词序列的特征表示中的向量表示之间的距离。本申请能够提升预训练语言模型对实体的捕捉和理解能力。体的捕捉和理解能力。体的捕捉和理解能力。


技术研发人员:蒋勇 王潇斌 黄申 谢朋峻
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2023.03.06
技术公布日:2023/7/19
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐