模型训练方法、装置及设备与流程

未命名 07-26 阅读:89 评论:0


1.本技术实施例涉及自然语言处理技术领域,尤其涉及一种模型训练方法、装置及设备。


背景技术:

2.在金融风险事件评定时,对风险事件进行分类尤为重要。
3.目前,可以基于预训练语言模型(pre-trained language model,plm),对风险事件进行分类。具体而言,可以采用大量风险事件的标注文本,对预训练语言模型进行训练,以得到可以确定事件文本所对应的事件类型的语言模型。然而,训练的过程中,需要大量的标注文本,且需要调整预训练语言模型的大量参数。导致语言模型的训练效率较低。


技术实现要素:

4.本技术实施例提供一种模型训练方法、装置及设备,所述方法可以提高语言模型的训练效率。
5.第一方面,本技术提供一种模型训练方法,包括:
6.获取多个样本数据,所述样本数据中包括样本事件文本和所述样本事件文本对应的样本事件类型;
7.根据所述多个样本数据,确定初始提示信息;
8.通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息;
9.根据所述预训练语言模型和所述目标提示信息,生成目标语言模型,所述目标语言模型用于输出待预测事件文本的分类信息,所述分类信息包括所述目标提示信息和所述待预测事件文本的事件类型。
10.一种可能的实现方式中,通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息,包括:
11.通过所述预训练语言模型对所述初始提示信息和所述多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型;
12.根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定所述目标提示信息。
13.一种可能的实现方式中,通过所述预训练语言模型对所述初始提示信息和所述多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型,包括:
14.根据所述初始提示信息和第一个样本事件文本进行组合处理,得到第一个组合信息,并通过所述预训练语言模型对所述第一个组合信息进行处理,得到第一个待选提示信息和第一个预测事件类型;
15.根据第i-1个待选提示信息和第i个样本事件文本进行组合处理,得到第i个组合
信息,并通过所述预训练语言模型对所述第i个组合信息进行处理,得到第i个待选提示信息和第i个预测事件类型;
16.其中,所述i依次取2、3、
……
、n,所述n为所述多个样本数据的数量。
17.一种可能的实现方式中,根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定所述目标提示信息,包括:
18.针对每个样本事件文本,确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度;
19.根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定所述目标提示信息。
20.一种可能的实现方式中,根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定所述目标提示信息,包括:
21.根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,在所述多个样本事件文本中确定目标样本事件文本,所述目标样本事件文本对应的预测事件类型和样本事件类型之间的相似度最高;
22.将所述目标样本事件对应的待选提示信息确定为所述目标提示信息。
23.一种可能的实现方式中,确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度,包括:
24.通过交叉熵损失函数确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度。
25.一种可能的实现方式中,所述初始提示信息中包括多个预设事件类型;通过所述预训练语言模型对所述第一个组合信息进行处理,得到第一个预测事件类型,包括:
26.通过所述预训练语言模型对所述第一个组合信息进行处理,得到每个预设事件类型对应的概率,并确定多个概率中的最大值;
27.将所述最大值对应的预设事件类型,确定为所述第一个预测事件类型。
28.第二方面,本技术提供一种模型训练装置,该模型训练装置包括获取模块、确定模块、处理模块和生成模块,其中,
29.所述获取模块用于,获取多个样本数据,所述样本数据中包括样本事件文本和所述样本事件文本对应的样本事件类型;
30.所述确定模块用于,根据所述多个样本数据,确定初始提示信息;
31.所述处理模块用于,通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息;
32.所述生成模块用于,根据所述预训练语言模型和所述目标提示信息,生成目标语言模型,所述目标语言模型用于输出待预测事件文本的分类信息,所述分类信息包括所述目标提示信息和所述待预测事件文本的事件类型。
33.在一种可能的实现方式中,所述处理模块具体用于:
34.通过所述预训练语言模型对所述初始提示信息和所述多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型;
35.根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定所述目标提示信息。
36.在一种可能的实现方式中,所述处理模块具体用于:
37.根据所述初始提示信息和第一个样本事件文本进行组合处理,得到第一个组合信息,并通过所述预训练语言模型对所述第一个组合信息进行处理,得到第一个待选提示信息和第一个预测事件类型;
38.根据第i-1个待选提示信息和第i个样本事件文本进行组合处理,得到第i个组合信息,并通过所述预训练语言模型对所述第i个组合信息进行处理,得到第i个待选提示信息和第i个预测事件类型;
39.其中,所述i依次取2、3、
……
、n,所述n为所述多个样本数据的数量。
40.在一种可能的实现方式中,所述处理模块具体用于:
41.针对每个样本事件文本,确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度;
42.根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定所述目标提示信息。
43.在一种可能的实现方式中,所述处理模块具体用于:
44.根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,在所述多个样本事件文本中确定目标样本事件文本,所述目标样本事件文本对应的预测事件类型和样本事件类型之间的相似度最高;
45.将所述目标样本事件对应的待选提示信息确定为所述目标提示信息。
46.在一种可能的实现方式中,所述处理模块具体用于:
47.通过交叉熵损失函数确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度。
48.在一种可能的实现方式中,所述初始提示信息中包括多个预设事件类型;所述处理模块具体用于:
49.通过所述预训练语言模型对所述第一个组合信息进行处理,得到每个预设事件类型对应的概率,并确定多个概率中的最大值;
50.将所述最大值对应的预设事件类型,确定为所述第一个预测事件类型。
51.第三方面,本技术提供一种模型训练设备,包括:处理器,以及与所述处理器通信连接的存储器;
52.所述存储器存储计算机执行指令;
53.所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面任一项所述的方法。
54.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的方法。
55.第五方面,本技术提供一种计算机程序产品,包括计算机程序,所述计算机程序被计算机执行时实现如第一方面中任一项所述的方法。
56.本实施例提供的模型训练方法、装置及设备,可以获取多个样本数据;根据多个样本数据,确定初始提示信息;通过预训练语言模型对初始提示信息和多个样本数据进行处理,得到目标提示信息;根据预训练语言模型和目标提示信息,生成目标语言模型。上述方
法中,可以多次更新提示信息,避免了对预训练语言模型进行调整。通过上述方法,可以提高语言模型的训练效率。
附图说明
57.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
58.图1为本技术实施例提供的应用场景的示意图;
59.图2为本技术实施例提供的一种模型训练方法的流程示意图;
60.图3为本技术实施例提供的一种预训练语言模型的示意图;
61.图4为本技术实施例提供的另一种模型训练方法的流程示意图;
62.图5为本技术实施例提供的一种模型训练装置的结构示意图;
63.图6为本技术提供的模型训练设备的硬件结构示意图。
具体实施方式
64.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
65.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
66.为便于理解,下面结合图1,对本技术实施例涉及的应用场景进行说明。
67.图1为本技术实施例提供的应用场景的示意图。请参见图1,包括文本获取装置101和模型训练装置102。文本获取装置101和模型训练装置102之间可以通过有线或无线的方式进行通信。
68.文本获取装置101可以向模型训练装置102发送事件文本、以及事件文本对应的事件类型,以使模型训练装置102可以训练得到用于确定事件文本所对应的事件类型的语言模型。
69.文本获取装置101可以通过软件实现,也可以通过软件和硬件的结合实现。当文本获取装置101通过软件实现时,文本获取装置101可以为文本编辑类软件、或者阅读类软件等。当文本获取装置101通过软件和硬件的结合实现时,文本获取装置101可以为集成了上述软件的电子设备。例如,电子设备可以为台式电脑、笔记本电脑、平板电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、手机、电子书阅读器、个人数字助理(personal digital assistant,pda)等终端设备,也可以为服务器或者由多个服务器组成的服务器集群。
70.模型训练装置102可以通过软件实现,也可以通过软件和硬件的结合实现。当模型训练装置102通过软件实现时,模型训练装置102可以为用于训练语言模型的应用、或软件等。当模型训练装置102可以通过软件和硬件的结合实现时,模型训练模块102可以为集成了上述应用、或软件的电子设备。
71.需要说明的是,文本获取装置101和模型训练模块102可以分别设置在相互独立的电子设备上;或者,文本获取装置101和模型训练模块102也可以集成于同一电子设备。对此本技术不做限定。
72.需要说明的是,本技术实施例描述的系统架构或应用场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着新业务场景的出现,本技术实施例提供的技术方案对于类似的问题,同样适用。
73.相关技术中,为了训练出可以对事件文本进行分类的语言模型,通常采用大量事件文本的标注文本,对预训练语言模型进行训练,以得到可以确定事件文本所对应的事件类型的语言模型。其中,事件文本的标注文本可以为,标注了事件文本所对应的事件类型的文本。然而,在对预训练语言模型进行训练的过程中,需要大量的标注文本,且需要调整预训练语言模型中的大量参数。导致语言模型的训练效率较低。
74.有鉴于此,本技术实施例提供了一种模型训练方法,可以通过预训练语言模型对连续性提示(prompt)模板进行更新/调整,以得到符合分类要求的连续性提示模板;并可以将符合分类要求的连续性提示模板嵌入预训练语言模型,得到可以确定事件文本所对应的事件类型的语言模型。更新/调整过程中可以不断调整连续性提示模板,而不对预训练语言模型进行调整或更新。连续性提示模板中需要调整的参数的数量较少,且对连续性提示模板进行更新的过程中需要的标注文本的数量较少,由此使得语言模型的训练效率较高。
75.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
76.图2为本技术实施例提供的一种模型训练方法的流程示意图。该方法的执行主体可以为模型训练系统,也可以为设置在模型训练系统中的模型训练装置。模型训练装置可以通过软件实现,也可以通过软件和硬件的结合实现。
77.请参见图2,该方法可以包括:
78.s201、获取多个样本数据。
79.样本数据中包括样本事件文本和样本事件文本对应的样本事件类型。
80.样本事件文本可以为,非结构化文本。
81.可选的,样本事件文本可以为金融领域非结构化文本。例如,样本事件文本可以为“3月5日,中国货币网针对印纪传媒2017年度第一期中期票据兑付利息存在不确定性而发布特别风险提示公告,并称印纪传媒的正常融资功能基本丧失”。
82.样本事件类型可以为,样本事件文本中所记载的事件的类型。例如,样本事件类型可以为债券危机、财务风险等。
83.需要说明的是,获取的样本数据可以为预训练语言模型可以识别的数据形式。例如,样本数据可以为向量形式。
84.示例性的,获取样本数据之前,可以对通过自然语言记载的样本进行去除标点符号、合并文本字句、分词以及去除错误编码词句等操作,以形成离散字符串(token)x={x1,x2,...xn},并可以对x进行编码得到向量序列e(x)={e(x1),e(x2),...e(xn)}。其中,e(x)可以为样本数据。
85.s202、根据多个样本数据,确定初始提示信息。
86.本实施例中,初始提示信息可以为可训练连续性提示(prompt)模板。可选的,初始提示信息可以为可训练连续性前缀提示模板。
87.本实施例中,可以通过随机生成的方式确定初始提示信息。
88.需要说明的是,相比如人工构造的离散提示模板,随机生成的连续性提示模板可以减免人工构造提示模板的成本。
89.s203、通过预训练语言模型对初始提示信息和多个样本数据进行处理,得到目标提示信息。
90.本实施例中,预训练语言模板可以为双向编码器转换器(bidirectional encoder representations from transformers,bert)模型、或生成式预训练转换器(generative pre-trained transformer,gpt)模型等。
91.本实施例中,目标提示信息和预训练语言模型组合后,可以得到满足分类要求的语言模型。
92.本实施例中,初始提示信息与第一个样本事件文本可以组合得到第一个组合信息。通过预训练语言模型对第一个组合信息进行处理后,可以得到第一次更新的提示信息、以及第一个样本事件文本的预测事件类型。第一次更新的提示信息可以与第二个样本事件文本组合得到第二个组合信息。通过预训练语言模型对第二个组合信息进行处理后,可以得到第二次更新的提示信息、以及第二个样本事件文本的预测事件类型。这样,通过多次更新的过程,可以得到多个更新的提示信息。
93.应该理解的是,任意一个更新的提示信息和预训练语言模型组合后,均可以得到一个用于分类的语言模型。具体实施过程中,可以将多次更新的过程中,分类效果最好的语言模型中包括的提示信息确定为目标提示信息。其中,分类效果最好的语言模型输出的样本事件文本的预测事件类型、与相应的样本事件文本的事件类型的相似程度最高。
94.应该理解的是,预训练语言模型可以包括多层神经网络。如图3所示,图3为本技术实施例提供的一种预训练语言模型的示意图。请参见图3,预训练语言模型可以包括n层组成结构。n层组成结构可以分别为第1层、第2层、
……
第n层。每一层结构可以包括相应的参数。例如,第1层结构可以包括预训练语言模型的第1层参数,第2层结构可以包括预训练语言模型的第2层参数,
……
,第n层结构可以包括预训练语言模型的第n层参数。预训练语言模型对组合信息进行处理的过程中,预训练语言模型的每一层参数可以固定为冻结的预训练语言模型参数。
95.本实施例中,将组合信息输入预训练语言模型时,可以将组合信息中的提示信息作为前缀、添加至预训练语言模型的每一层结构中。预训练语言模型对组合信息进行处理的过程中,可以更新提示信息的参数,而不会更新预训练语言模型中每一层的参数(即冻结的预训练语言模型参数)。避免了对预训练语言模型进行调整。
96.将组合信息输入预训练语言模型后,预训练语言模型中的参数可以表示为
其中,p
θ
可以表示提示信息的参数,可以表示预训练语言模型的参数。也就是说,p
θ
为可以进行调整的参数,为可以冻结的预训练语言模型参数。p
θ
可以为提示信息的矩阵化表示形式。
97.s204、根据预训练语言模型和目标提示信息,生成目标语言模型。
98.目标语言模型用于输出待预测事件文本的分类信息,分类信息包括目标提示信息和待预测事件文本的事件类型。
99.应该理解的是,目标语言模型可以为本实施例中确定的、用于确定事件文本的事件类型的语言模型。即目标语言模型可以为本实施例中确定的、用于对事件文本进行分类的语言模型。
100.事件类型可以为,事件文本中所记载的事件的类型。
101.待预测事件文本可以为,需要确定其事件类型的文本。
102.本实施例中,可以将目标提示信息嵌入预训练语言模型,以生成目标语言模型。
103.本实施例提供的模型训练方法,可以获取多个样本数据;根据多个样本数据,确定初始提示信息;通过预训练语言模型对初始提示信息和多个样本数据进行处理,得到目标提示信息;根据预训练语言模型和目标提示信息,生成目标语言模型。上述方法中,可以多次更新提示信息,避免了对预训练语言模型进行调整。通过上述方法,可以提高语言模型的训练效率。
104.在图2实施例的基础上,下面,结合图4,对上述方案进行进一步详细说明。
105.图4为本技术实施例提供的另一种模型训练方法的流程示意图。该方法的执行主体可以为模型训练系统,也可以为设置在模型训练系统中的模型训练装置。模型训练装置可以通过软件实现,也可以通过软件和硬件的结合实现。请参见图4,该方法可以包括:
106.s401、获取多个样本数据。
107.s402、根据多个样本数据,确定初始提示信息。
108.需要说明的是,s401-s402的具体实现方式,可以参见s201-s202,此处不再赘述。
109.s403、通过预训练语言模型对初始提示信息和多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型。
110.本实施例中,可以根据初始提示信息和第一个样本事件文本进行组合处理,得到第一个组合信息,并通过预训练语言模型对第一个组合信息进行处理,得到第一个待选提示信息和第一个预测事件类型;根据第i-1个待选提示信息和第i个样本事件文本进行组合处理,得到第i个组合信息,并通过预训练语言模型对第i个组合信息进行处理,得到第i个待选提示信息和第i个预测事件类型;其中,i依次取2、3、
……
、n,n为多个样本数据的数量。
111.第一个样本事件文本可以为,多个样本数据中、任意一个样本数据中包括的样本事件文本。
112.第一个待选提示信息可以为,预训练语言模型对初始提示信息进行更新/调整后,得到的提示信息。
113.第i个待选提示信息可以为,预训练语言模型对第i-1个待选提示信息进行更新/调整后,得到的提示信息。
114.第一个预测事件类型可以为,预训练语言模型对第一个组合信息进行处理后、预
测的第一个样本事件文本的事件类型。
115.第i个预测事件类型可以为,预训练语言模型对第i个组合信息进行处理后、预测的第i个样本事件文本的事件类型。
116.具体而言,可以向预训练语言模型输入初始提示信息和第一个样本事件文本;预训练语言模型经过处理后,可以输出第一个待选提示信息和第一个预测事件类型。可以向预训练语言模型输入第i-1个待选提示信息和第i个样本事件文本;预训练语言模型经过处理后,可以输出第i个待选提示信息和第i个预测事件类型。
117.其中,第i个待选提示信息可以为第i个样本事件文本对应的待选提示信息。第i个预测事件类型可以为第i个样本事件文本对应的预测事件类型。
118.这样,通过预训练语言模型的多次处理,可以得到每个样本事件文本对应的待选提示信息和预测事件类型。
119.示例性的,预训练语言模型的输入和输出可以如表1所示:
120.表1
[0121][0122]
如表1所示,预训练语言模型经过多次处理后,可以得到n个待选提示信息和n个预测事件类型。
[0123]
可选的,初始提示信息中可以包括多个预设事件类型。确定第一个预测事件类型时,可以通过预训练语言模型对第一个组合信息进行处理,得到每个预设事件类型对应的概率,并确定多个概率中的最大值;将最大值对应的预设事件类型,确定为第一个预测事件类型。
[0124]
预设事件类型可以为,样本事件文本所属领域的常规事件类型。例如,假设样本事件文本所属领域为金融风险领域,则预设事件类型可以包括但不限于为债券危机、或财务风险等。
[0125]
具体而言,预训练语言模型对第一个组合信息进行处理时,可以计算第一个样本事件文本对应的事件类型为各个预设事件类型的概率,并可以将计算的多个概率中的最大值(最大概率)对应的预设事件类型,确定为第一个预测事件类型。
[0126]
可选的,第i-1个待选提示信息中可以包括多个预设事件类型。确定第i个预测事件类型时,可以通过预训练语言模型对第i个组合信息进行处理,得到每个预设事件类型对
应的概率,并确定多个概率中的最大值;将最大值对应的预设事件类型,确定为第i个预测事件类型。
[0127]
具体而言,预训练语言模型对第i个组合信息进行处理时,可以计算第i个样本事件文本对应的事件类型为各个预设事件类型的概率,并可以将计算的多个概率中的最大值(最大概率)对应的预设事件类型,确定为第i个预测事件类型。
[0128]
本实施例中,可以为每个预设事件类型赋予一个可学习的权重。预训练语言模型在多次处理过程中,可以根据可学习权重、校准输出相应的预设事件类型的概率。避免了样本数据较少时,对分类效果造成影响。
[0129]
s404、根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定目标提示信息。
[0130]
本实施例中,可以针对每个样本事件文本,确定样本事件文本对应的预测事件类型和样本事件类型之间的相似度;根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定目标提示信息。
[0131]
本实施例中,可以通过交叉熵损失函数确定样本事件文本对应的预测事件类型和样本事件类型之间的相似度。
[0132]
具体而言,交叉熵损失函数l=-[y log y

+(1-y)log(1-y

)]。其中,y代表样本事件类型,y

代表预测事件类型。
[0133]
应该理解的是,l的值越小,样本事件文本对应的预测事件类型和样本事件类型之间的相似度越高。
[0134]
本实施例中,可以根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,在多个样本事件文本中确定目标样本事件文本,目标样本事件文本对应的预测事件类型和样本事件类型之间的相似度最高;将目标样本事件对应的待选提示信息确定为目标提示信息。
[0135]
具体而言,可以确定每个样本事件文本对应的预测事件类型和样本事件类型之间的l,得到n个l;可以将n个l中的最小值所对应的样本事件文本确定为目标样本事件文本;并可以将目标样本事件文本对应的待选提示信息确定为目标提示信息。
[0136]
示例性的,假设n等于5。每个样本事件文本对应的预测事件类型和样本事件类型之间的交叉熵损失函数(l)可以如表2所示:
[0137]
表2
[0138]
[0139]
由表2可知,第3个样本事件文本对应的预测事件类型和样本事件类型之间的交叉熵损失函数值最小。由此,可以将第2个样本事件文本确定为目标事件文本,可以将第2个样本事件文本所对应的、第2个待选提示信息确定为目标提示信息。
[0140]
s405、根据预训练语言模型和目标提示信息,生成目标语言模型。
[0141]
需要说明的是,s405的具体实现方式,可以参见s204,此处不再赘述。
[0142]
本实施例提供的模型训练方法,可以获取多个样本数据;根据多个样本数据,确定初始提示信息;通过预训练语言模型对初始提示信息和多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型;根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定目标提示信息;根据预训练语言模型和目标提示信息,生成目标语言模型。上述方法中,可以通过不断对提示信息进行更新/调整,避免了对预训练语言模型进行调整。通过上述方法,可以提高语言模型的训练效率。
[0143]
在上述任一实施例的基础上,下面通过具体的示例,对本技术实施例涉及的方案进行说明。
[0144]
本实施例中,从第一数据来源获取了10000条样本数据、以及2000条待预测事件文本。例如,第一数据来源可以为清华新闻(thucnews)。通过预训练语言模型对初始提示信息、以及10000条样本数据进行处理后,得到目标提示信息。将目标提示信息嵌入预训练语言模型后得到目标语言模型。通过目标语言模型确定2000条待预测事件文本的事件类型后,得到表3的测试结果。
[0145]
从第二数据来源获取了5000条样本数据、以及1000条待预测事件文本。例如,第二数据来源可以为中文金融风险事件。通过预训练语言模型对初始提示信息、以及5000条样本数据进行处理后,得到目标提示信息。将目标提示信息嵌入预训练语言模型后得到目标语言模型。通过目标语言模型确定1000条待预测事件文本的事件类型后,得到表3的测试结果。
[0146]
表3
[0147][0148]
如表3所示,测试结果可以包括精确率(precision)、召回率(recall)、综合评价指标(f1-score)和准确率(accuracy)。其中,综合评价指标越高,确定事件类型的准确率越高。另外,表3中的现有技术一所用的语言模型可以为基于mt5预训练语言模型训练得到的一种语言模型,现有技术二所用的语言模型可以为基于mt5预训练语言模型训练得到的另
一种语言模型。
[0149]
由表3可知,分别通过现有技术一、现有技术二以及本技术方案,确定从第一数据来源获取的2000条待预测事件文本的事件类型后,本技术方案的综合评价指标可以为0.8552,本技术方案的综合评价指标高于现有技术一的综合评价指标、以及现有技术二的综合评价指标。
[0150]
由表3可知,分别通过现有技术一、现有技术二以及本技术方案,确定从第二数据来源获取的1000条待预测事件文本的事件类型后,本技术方案的综合评价指标可以为0.7317,本技术方案的综合评价指标高于现有技术一的综合评价指标、以及现有技术二的综合评价指标。
[0151]
上述示例中,本技术实施例提供的技术方案,确定的事件类型的准确率优于其他方案。
[0152]
图5为本技术实施例提供的一种模型训练装置的结构示意图。请参见图5,模型训练装置10包括获取模块11、确定模块12、处理模块13和生成模块14,其中,
[0153]
所述获取模块11用于,获取多个样本数据,所述样本数据中包括样本事件文本和所述样本事件文本对应的样本事件类型;
[0154]
所述确定模块12用于,根据所述多个样本数据,确定初始提示信息;
[0155]
所述处理模块13用于,通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息;
[0156]
所述生成模块14用于,根据所述预训练语言模型和所述目标提示信息,生成目标语言模型,所述目标语言模型用于输出待预测事件文本的分类信息,所述分类信息包括所述目标提示信息和所述待预测事件文本的事件类型。
[0157]
本实施例提供的模型训练装置,可用于执行上述方法实施例中的模型训练方法,其实现原理和技术效果类似,此处不作赘述。
[0158]
在一种可能的实现方式中,所述处理模块13具体用于:
[0159]
通过所述预训练语言模型对所述初始提示信息和所述多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型;
[0160]
根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定所述目标提示信息。
[0161]
在一种可能的实现方式中,所述处理模块13具体用于:
[0162]
根据所述初始提示信息和第一个样本事件文本进行组合处理,得到第一个组合信息,并通过所述预训练语言模型对所述第一个组合信息进行处理,得到第一个待选提示信息和第一个预测事件类型;
[0163]
根据第i-1个待选提示信息和第i个样本事件文本进行组合处理,得到第i个组合信息,并通过所述预训练语言模型对所述第i个组合信息进行处理,得到第i个待选提示信息和第i个预测事件类型;
[0164]
其中,所述i依次取2、3、
……
、n,所述n为所述多个样本数据的数量。
[0165]
在一种可能的实现方式中,所述处理模块13具体用于:
[0166]
针对每个样本事件文本,确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度;
[0167]
根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定所述目标提示信息。
[0168]
在一种可能的实现方式中,所述处理模块13具体用于:
[0169]
根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,在所述多个样本事件文本中确定目标样本事件文本,所述目标样本事件文本对应的预测事件类型和样本事件类型之间的相似度最高;
[0170]
将所述目标样本事件对应的待选提示信息确定为所述目标提示信息。
[0171]
在一种可能的实现方式中,所述处理模块13具体用于:
[0172]
通过交叉熵损失函数确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度。
[0173]
在一种可能的实现方式中,所述初始提示信息中包括多个预设事件类型;所述处理模块13具体用于:
[0174]
通过所述预训练语言模型对所述第一个组合信息进行处理,得到每个预设事件类型对应的概率,并确定多个概率中的最大值;
[0175]
将所述最大值对应的预设事件类型,确定为所述第一个预测事件类型。
[0176]
本实施例提供的模型训练装置,可用于执行上述方法实施例中的模型训练方法,其实现原理和技术效果类似,此处不作赘述。
[0177]
图6为本技术提供的模型训练设备的硬件结构示意图。请参见图6,该模型训练设备20可以包括:处理器21和存储器22,其中,处理器21和存储器22可以通信;示例性的,处理器21和存储器22通过通信总线23通信,所述存储器22用于存储计算机执行指令,所述处理器21用于调用存储器中的计算机执行指令执行上述任意方法实施例所示的模型训练方法。
[0178]
可选的,模型训练设备20还可以包括通信接口,通信接口可以包括发送器和/或接收器。
[0179]
可选的,上述处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0180]
本技术提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令;所述计算机执行指令用于实现如上述任意实施例所述的模型训练方法。
[0181]
本技术实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,当所述计算机程序被执行时,使得计算机执行上述模型训练方法。
[0182]
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,缩写:rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
[0183]
本技术的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0184]
本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理单元以产生一个机器,使得通过计算机或其他可编程终端设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0185]
这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0186]
这些计算机程序指令也可装载到计算机或其他可编程终端设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0187]
显然,本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
[0188]
在本技术中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本技术中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本技术中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0189]
本领域技术人员在考虑说明书及实践里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。

技术特征:
1.一种模型训练方法,其特征在于,包括:获取多个样本数据,所述样本数据中包括样本事件文本和所述样本事件文本对应的样本事件类型;根据所述多个样本数据,确定初始提示信息;通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息;根据所述预训练语言模型和所述目标提示信息,生成目标语言模型,所述目标语言模型用于输出待预测事件文本的分类信息,所述分类信息包括所述目标提示信息和所述待预测事件文本的事件类型。2.根据权利要求1所述的方法,其特征在于,通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息,包括:通过所述预训练语言模型对所述初始提示信息和所述多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型;根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定所述目标提示信息。3.根据权利要求2所述的方法,其特征在于,通过所述预训练语言模型对所述初始提示信息和所述多个样本数据中的多个样本事件文本进行处理,得到每个样本事件文本对应的待选提示信息和预测事件类型,包括:根据所述初始提示信息和第一个样本事件文本进行组合处理,得到第一个组合信息,并通过所述预训练语言模型对所述第一个组合信息进行处理,得到第一个待选提示信息和第一个预测事件类型;根据第i-1个待选提示信息和第i个样本事件文本进行组合处理,得到第i个组合信息,并通过所述预训练语言模型对所述第i个组合信息进行处理,得到第i个待选提示信息和第i个预测事件类型;其中,所述i依次取2、3、
……
、n,所述n为所述多个样本数据的数量。4.根据权利要求3所述的方法,其特征在于,根据每个样本事件文本对应的待选提示信息、预测事件类型和样本事件类型,确定所述目标提示信息,包括:针对每个样本事件文本,确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度;根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定所述目标提示信息。5.根据权利要求4所述的方法,其特征在于,根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,确定所述目标提示信息,包括:根据每个样本事件文本对应的预测事件类型和样本事件类型之间的相似度,在所述多个样本事件文本中确定目标样本事件文本,所述目标样本事件文本对应的预测事件类型和样本事件类型之间的相似度最高;将所述目标样本事件对应的待选提示信息确定为所述目标提示信息。6.根据权利要求4-5任一项所述方法,其特征在于,确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度,包括:
通过交叉熵损失函数确定所述样本事件文本对应的预测事件类型和样本事件类型之间的相似度。7.根据权利要求3-6任一项所述方法,其特征在于,所述初始提示信息中包括多个预设事件类型;通过所述预训练语言模型对所述第一个组合信息进行处理,得到第一个预测事件类型,包括:通过所述预训练语言模型对所述第一个组合信息进行处理,得到每个预设事件类型对应的概率,并确定多个概率中的最大值;将所述最大值对应的预设事件类型,确定为所述第一个预测事件类型。8.一种模型训练装置,其特征在于,所述装置包括获取模块、确定模块、处理模块和生成模块,其中,所述获取模块用于,获取多个样本数据,所述样本数据中包括样本事件文本和所述样本事件文本对应的样本事件类型;所述确定模块用于,根据所述多个样本数据,确定初始提示信息;所述处理模块用于,通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息;所述生成模块用于,根据所述预训练语言模型和所述目标提示信息,生成目标语言模型,所述目标语言模型用于输出待预测事件文本的分类信息,所述分类信息包括所述目标提示信息和所述待预测事件文本的事件类型。9.一种模型训练设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的方法。11.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

技术总结
本申请实施例提供一种模型训练方法、装置及设备,可用于自然语言处理技术领域。该方法包括:获取多个样本数据,所述样本数据中包括样本事件文本和所述样本事件文本对应的样本事件类型;根据所述多个样本数据,确定初始提示信息;通过预训练语言模型对所述初始提示信息和所述多个样本数据进行处理,得到目标提示信息;根据所述预训练语言模型和所述目标提示信息,生成目标语言模型,所述目标语言模型用于输出待预测事件文本的分类信息,所述分类信息包括所述目标提示信息和所述待预测事件文本的事件类型。通过上述方法,提高了语言模型的训练效率。的训练效率。的训练效率。


技术研发人员:徐冲睿 林廷懋
受保护的技术使用者:建信金融科技有限责任公司
技术研发日:2023.04.26
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐