文本检索匹配方法及模型的训练方法与流程

未命名 10-09 阅读:81 评论:0


1.本发明涉及人工智能技术领域,尤其涉及一种文本检索匹配方法及模型的训练方法。


背景技术:

2.随着近些年人工智能技术的迅速发展,特别是自然语言处理的日益更新,文本检索匹配成为一个自然语言处理领域一个比较核心的任务,不管是在对话系统、推荐系统、搜索引擎中,文本匹配都是必不可少的。
3.现有技术中,常见的中文文本检索匹配模型训练需要人工标注的样本数据,通过人工标注的样本数据训练得到的模型的抗干扰能力较低,导致通过该模型进行文本检索匹配的准确率低。


技术实现要素:

4.本发明实施例提供一种文本检索匹配方法及模型的训练方法,以解决现有模型抗干扰能力较低,导致通过该模型进行文本检索匹配的准确率低的问题。
5.第一方面,本发明实施例提供了一种文本检索匹配模型的训练方法,上述方法包括:
6.获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,n为大于1的整数;
7.对所述n个正负样本对进行迭代攻击,生成对抗样本;
8.通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。
9.可选的,所述获取第一样本数据集,包括:
10.获取第二样本数据集,所述第二样本数据集中包括m个第二样本数据,每一个所述第二样本数据均为数据清洗后的文本数据,m为大于1的整数;
11.将每一个所述第二样本数据转换为第一嵌入式文本向量,得到m个第一嵌入式文本向量;
12.对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量;
13.根据所述m个第二嵌入式文本向量,得到所述第一样本数据集;
14.其中,将所述m个第一嵌入式文本向量中的第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第四嵌入式文本向量组成正样本对,将所述第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第五嵌入式文本向量组成负样本对;
15.所述第三嵌入式文本向量为所述m个第一嵌入式文本向量中的任意一个,所述第四嵌入式文本向量为所述第三嵌入式文本向量进行数据增强处理后得到的第二嵌入式文本向量,所述第五嵌入式文本向量为所述m个第二嵌入式文本向量中除所述第四嵌入式文
本向量之外的其他嵌入式文本向量中的任意一个。
16.可选的,所述数据增强处理包括:打乱词序处理以及删除处理;所述对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量,包括:
17.针对每一个所述第一嵌入式文本向量,对至少两个元素进行打乱词序处理,并对至少一个元素进行删除处理,得到m个第二嵌入式文本向量。
18.可选的,所述对所述n个正负样本对进行迭代攻击,生成对抗样本,包括:
19.将所述n个正负样本对进行分批处理,得到s个样本数据子集;
20.对于所述s个样本数据子集中的第一样本数据子集,计算初始损失值以及对应的初始梯度值;
21.根据所述初始损失值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本。
22.可选的,所述根据所述初始损失函数值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本,包括:
23.获取对抗样本的累计攻击步数;
24.在所述累计攻击步数为t步、且t为大于1并小于预设攻击步数k的情况下,根据t步的对抗样本和当前梯度值,获取t+1步的对抗样本,直至得到k步的对抗样本;
25.其中,在所述累计攻击步数为1步的情况下,将所述正负样本对作为1步的对抗样本。
26.可选的,所述通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型,包括:
27.获取k步的对抗样本攻击后的目标对抗梯度值;
28.通过所述目标对抗梯度值以及多组件的动量化自适应双平均梯度优化器对所述文本检索匹配模型进行训练,得到目标文本检索匹配模型。
29.可选的,所述获取k步的对抗样本攻击后的目标对抗梯度值,包括:
30.对t步的对抗样本进行前后向传播,更新t+1步的梯度值,直至更新k步的梯度值;
31.将当前梯度值更新为所述初始梯度值,并通过梯度下降的方式,计算k步的对抗样本攻击后的目标对抗梯度值;
32.其中,在非k-1步的情况下,所述文本检索匹配模型的当前梯度值为0,在k-1步的情况下,所述文本检索匹配模型的当前梯度值为所述初始梯度值。
33.可选的,所述多组件的动量化自适应双平均梯度优化器包括:附加组件以及动量化自适应双平均梯度优化器;
34.其中,所述附件组件包括以下至少一项:
35.自适应梯度裁剪组件;
36.梯度中心化组件;
37.正负动量组件;
38.权重软正则化与稳定衰减组件;
39.权重移动平均组件。
40.第二方面,本发明实施例还提供了一种文本检索匹配方法,应用于如上所述的目标文本检索匹配模型,所述方法包括:
41.获取检索文本和被检索文本;
42.将所述检索文本和所述被检索文本输入至所述目标文本检索匹配模型,得到所述检索文本的嵌入式表征向量以及所述被检索文本的嵌入式表征向量;
43.将所述被检索文本的嵌入式表征向量进行归一化处理,并建立faiss库的内积索引;
44.将所述检索文本的嵌入式表征向量在所述faiss库的内积索引中进行搜索,得到与所述检索文本的嵌入式表征向量匹配的检索匹配结果。
45.第三方面,本发明实施例还提供了一种文本检索匹配模型的训练装置,所述装置包括:
46.第一获取模块,用于获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,n为大于1的整数;
47.第一处理模块,用于对所述n个正负样本对进行迭代攻击,生成对抗样本;
48.第二处理模块,用于通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。
49.第四方面,本发明实施例还提供了一种文本检索匹配装置,所述装置包括:
50.第二获取模块,用于获取检索文本和被检索文本;
51.第三获取模块,用于将所述检索文本和所述被检索文本输入至所述目标文本检索匹配模型,得到所述检索文本的嵌入式表征向量以及所述被检索文本的嵌入式表征向量;
52.第三处理模块,用于将所述被检索文本的嵌入式表征向量进行归一化处理,并建立faiss库的内积索引;
53.第四处理模块,用于将所述检索文本的嵌入式表征向量在所述faiss库的内积索引中进行搜索,得到与所述检索文本的嵌入式表征向量匹配的检索匹配结果。
54.第五方面,本发明实施例还提供了一种网络设备,包括存储器,收发机,处理器:
55.存储器,用于存储计算机程序;收发机,用于在处理器的控制下收发数据;处理器,用于读取存储器中的计算机程序并执行如上述所述的文本检索匹配模型的训练方法或者文本检索匹配方法。
56.第六方面,本发明实施例还提供一种处理器可读存储介质,处理器可读存储介质存储有计算机程序,计算机程序用于使处理器执行上述所述的文本检索匹配模型的训练方法或者文本检索匹配方法。
57.本发明上述实施例,通过获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,对所述n个正负样本对进行迭代攻击,生成对抗样本,通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型,即通过对抗样本进行对抗训练可以使得训练后的目标文本检索匹配模型具有更强的抗干扰能力;并且,通过迭代攻击后得到的对抗样本进行模型训练,可以不断提高模型的鲁棒性。
附图说明
58.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
59.图1为本发明实施例提供的文本检索匹配模型的训练方法的步骤流程图;
60.图2为本发明实施例提供的文本检索匹配模型的训练方法的具体步骤流程图;
61.图3为本发明实施例提供的文本检索匹配方法的步骤流程图;
62.图4为本发明实施例提供的文本检索匹配模型的训练装置的结构框图;
63.图5为本发明实施例提供的文本检索匹配装置的结构框图;
64.图6为本发明实施例提供的网络设备的结构框图。
具体实施方式
65.本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
66.本技术实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
67.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,并不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
68.具体的,本发明实施例提供了一种文本检索匹配模型的训练方法,如图1所示,具体可以包括如下步骤:
69.步骤101,获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,n为大于1的整数。
70.具体的,在对文本检索匹配模型进行训练之前,首先获取第一样本数据集,该第一样本数据集中包括多个正负样本对,该正负样本对相当于是自监督下的正负样本对。
71.步骤102,对所述n个正负样本对进行迭代攻击,生成对抗样本。
72.具体的,在获取第一样本数据集之后,对第一样本数据集中的n个正负样本对进行迭代攻击,生成对抗样本,通过迭代攻击得到的对抗样本作为训练数据进行模型训练,可以不断提高模型的鲁棒性。
73.可以理解的是,对抗样本是指在第一样本数据集中通过添加干扰所形成的输入样本,通过对抗样本对模型进行训练会导致模型以高置信度给出一个错误的输出;在正则化背景下,通过对抗训练可以减少原有独立同分布的测试集的错误率。
74.步骤103,通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。
75.具体的,在获取到对抗样本之后,将对抗样本作为训练样本,使用多组件的动量化自适应双平均梯度优化器madgrad对模型进行训练,模型会以高置信度给出一个错误的输出;在正则化背景下,通过对抗训练可以减少原有独立同分布的测试集的错误率。
76.本发明上述实施例,通过获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,对所述n个正负样本对进行迭代攻击,生成对抗样本,通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索
匹配模型,即通过对抗样本进行对抗训练可以使得训练后的目标文本检索匹配模型具有更强的抗干扰能力;并且,通过迭代攻击后得到的对抗样本进行模型训练,可以不断提高模型的鲁棒性。
77.作为步骤101一可选的具体实施例,所述获取第一样本数据集,具体可以包括:
78.获取第二样本数据集,所述第二样本数据集中包括m个第二样本数据,每一个所述第二样本数据均为数据清洗后的文本数据,m为大于1的整数;
79.将每一个所述第二样本数据转换为第一嵌入式文本向量,得到m个第一嵌入式文本向量;
80.对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量;
81.根据所述m个第二嵌入式文本向量,得到所述第一样本数据集;
82.其中,将所述m个第一嵌入式文本向量中的第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第四嵌入式文本向量组成正样本对,将所述第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第五嵌入式文本向量组成负样本对;
83.所述第三嵌入式文本向量为所述m个第一嵌入式文本向量中的任意一个,所述第四嵌入式文本向量为所述第三嵌入式文本向量进行数据增强处理后得到的第二嵌入式文本向量,所述第五嵌入式文本向量为所述m个第二嵌入式文本向量中除所述第四嵌入式文本向量之外的其他嵌入式文本向量中的任意一个。
84.具体的,首先需要获取原始样本数据集,该原始样本数据集中包括m个原始样本数据,然后对每一个原始样本数据进行数据清洗,得到对应的文本数据,该文本数据即为第二样本数据,通过上述方式得到m个第二样本数据,m个第二样本数据组成第二样本数据集。
85.在一具体实现中,数据清洗具体可以包括:通过正则表达式对原始样本数据进行数据清洗,主要去除原始样本数据中的英文、特殊字符等杂乱字符,以提高后续检索匹配的精准度。
86.下面通过一具体实施例对数据清洗过程进行说明:
87.如果需要构建客户视图,需要将a发送的供应商名称数据与b发送的客户名称数据进行文本检索匹配,具体的:在供应商名称数据和客户名称数据中,由于历史各业务条线管理等原因,上述数据中存在很多不规范的情况,可以利用正则表达式对供应商名称数据及客户名称数据进行数据清洗,保留中文名称字符,由此完成数据清洗。
88.并且,在得到第二样本数据集之后,将每一个第二样本数据输入至开源的机器学习模型库hugging face中的预训练语言模型中,输出得到第一嵌入式文本向量token embedding,通过上述方式可以得到m个第一嵌入式文本向量。然后对每一个第一嵌入式文本向量进行数据增强处理,得到对应的第二嵌入式文本向量,通过上述方式可以得到m个第二嵌入式文本向量。将所述m个第一嵌入式文本向量中的第三嵌入式文本向量与第三嵌入式向量进行数据增强处理后得到的第四嵌入式文本向量组成正样本对,将第三嵌入式文本向量与其他第一嵌入式文本向量(即m个第一嵌入式文本向量中除第三嵌入式文本向量之外的第一嵌入式文本向量)进行数据增强处理后得到的第二嵌入式文本向量组成负样本对。通过上述方式可以得到n个正负样本对,即得到第一样本数据集。通过上述方式,不需要获取人工标注标签数据降低了成本和时间。
89.下面通过一具体实施例对正负样本对的形成过程进行说明:
90.m个第一嵌入式文本向量包括:a1、a2、a3、a4,对m个第一嵌入式文本向量进行数据增强处理后分别得到对应的m个第二嵌入式文本向量a1、a2、a3、a4。如果第三嵌入式文本向量为a1,则第四嵌入式文本向量即为a1,第五嵌入式文本向量为a2、a3、a4中的任意一个。由此,a1和a1组成正样本对,a1和a2组成负样本对,a1和a3组成负样本对,a1和a4组成负样本对。一个正样本对和一个负样本对组成一个正负样本对。
91.作为一可选的具体实施例,所述数据增强处理包括:打乱词序处理以及删除处理;上述对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量的步骤,具体可以包括:
92.针对每一个所述第一嵌入式文本向量,对至少两个元素进行打乱词序处理,并对至少一个元素进行删除处理,得到m个第二嵌入式文本向量。
93.具体的,在将m个第二样本数据转换为m个第一嵌入式文本向量之后,针对其中一个第一嵌入式文本向量,对其中的至少两个元素进行打乱词序token shuffle处理,并且对其中的至少一个元素进行删除cut off处理,即将token embedding转换为两个不同版本的token embedding,由此形成自监督对比框架下的正负样本对。
94.需要说明的是,打乱次序处理和删除处理不区分先后关系,可以同时进行,也可以分开进行,在此不做具体限定。
95.在一具体实现中,打乱词序token shuffle处理具体可以包括:随机打乱输入序列(即第一嵌入式文本向量)中的元素(词token)的顺序。由于神经网络transformer体系结构中的词袋bag-of-words性质,位置编码是关于顺序信息的唯一因素,因此,只须将打乱位置的标识号id传递给嵌入层,同时保持标记id的顺序不变。
96.在一具体实现中,删除cut off处理具体可以包括:随机删除第一嵌入式文本向量中的一些token信息,即对注意力机制下某些位置的注意力屏蔽attention mask取为0,同时可以设定对应token的cut off概率。
97.作为步骤102一可选的具体实施例,所述对所述n个正负样本对进行迭代攻击,生成对抗样本,具体可以包括:
98.将所述n个正负样本对进行分批处理,得到s个样本数据子集;
99.对于所述s个样本数据子集中的第一样本数据子集,计算初始损失值以及对应的初始梯度值;
100.根据所述初始损失值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本。
101.具体的,将上述n个正负样本对分为多个批batch(即s个样本数据子集),在每个batch(即样本数据子集)中,对所有正负样本对进行学习训练,可以设定损失函数为:
102.103.其中,batch loss表示批损失值;
104.n表示一个batch的大小;
105.(quei,posj)表示batch里的正负样本对,当i等于j时是正样本对,i不等于j时是负样本对;
106.p(posi|quei)表示正样本对中第一个样本出现时第二个样本出现的条件概率;
107.s(quei,posj)表示文本检索匹配模型的输出。
108.通过上述公式计算正常token embedding下的初始损失值,并通过先后进行前向传播forward、反向传播backward计算对应的初始梯度值,并将文本检索匹配模型的所有初始梯度值进行备份。然后根据上述初始损失值以及对应的初始梯度值,对第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本。
109.作为一可选的具体实施例,上述根据所述初始损失函数值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本的步骤,可以包括:
110.获取对抗样本的累计攻击步数;
111.在所述累计攻击步数为t步、且t为大于1并小于预设攻击步数k的情况下,根据t步的对抗样本和当前梯度值,获取t+1步的对抗样本,直至得到k步的对抗样本;
112.其中,在所述累计攻击步数为1步的情况下,将所述正负样本对作为1步的对抗样本。
113.具体的,预先设置了对抗样本的最高扰动积累步数k,获取对抗样本的累计攻击步数t,如果t为1,则表示累计攻击步数为1步,将输入的正负样本对作为1步的对抗样本,并且保存未经攻击的嵌入层权重以及梯度值;如果t大于1且小于k,则需要根据t步的对抗样本和当前梯度值,获取t+1步的对抗样本,直至得到k步的对抗样本,以此类推,直至t等于k-1,则根据k-1步的对抗样本和当前梯度值,获取k步的对抗样本。
114.在一具体实现中,可以通过以下公式计算对抗样本:
[0115][0116]
其中,x
t+1
表示t+1步的对抗样本;
[0117]
x
t
表示t步的对抗样本,对于首步,x
t
就是原始输入的正负样本对;
[0118]
clip
x,ε
表示投影操作,如果输入在范数球外,则将输入投影到以x中心,ε为半径的范数球上,以保证迭代过程中对抗样本的扰动范围不超过限定ε;
[0119]
α表示单步扰动大小;
[0120]
sign表示1或-1取值的符号函数;
[0121]
表示取偏导;
[0122]
l表示损失函数;
[0123]
θ表示损失函数相关参数;
[0124]
x表示样本输入;
[0125]
y表示数据增强后的正负样本对标记。
[0126]
作为一可选的具体实施例,上述通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型的步骤,具体可以包括:
[0127]
获取k步的对抗样本攻击后的目标对抗梯度值;
[0128]
通过所述目标对抗梯度值以及多组件的动量化自适应双平均梯度优化器对所述文本检索匹配模型进行训练,得到目标文本检索匹配模型。
[0129]
具体的,在获取k的对抗样本之后,根据k步的对抗样本,获取k步的对抗样本攻击后的对抗梯度值,即目标对抗梯度值。在根据对抗梯度寻找模型最优参数时,使用多组件的动量化自适应双平均梯度优化器madgrad作为核心优化器优化训练文本检索匹配模型,得到目标文本检索匹配模型。
[0130]
在一具体实现中,上述多组件的动量化自适应双平均梯度优化器包括:附加组件以及动量化自适应双平均梯度优化器;
[0131]
其中,所述附件组件包括但不限于以下至少一项:
[0132]
自适应梯度裁剪组件;
[0133]
梯度中心化组件;
[0134]
正负动量组件;
[0135]
权重软正则化与稳定衰减组件;
[0136]
权重移动平均组件。
[0137]
具体的,多组件的动量化自适应双平均梯度优化器表征动量化自适应双平均梯度优化器madgrad和附加组件的组合,即在根据目标对抗梯度值寻找模型最优参数时,使用动量化自适应双平均梯度优化器madgrad作为核心优化器优化训练模型,并加入附件组件。
[0138]
下面对附件组件进行说明:
[0139]
自适应梯度裁剪组件:为解决过多梯度的反向传播以及随机梯度下降破坏稳定性的问题,减少人工调整模型深度,自适应的保证梯度值在给定的阈值以下,采用如下的公式进行梯度裁剪:
[0140][0141]
其中,g
t
表示t轮迭代的梯度值;
[0142]
ε、γ表示设定的避免冻结零的初始化参数常数;
[0143]
r表示正在处理的维度;
[0144]
θ表示t轮迭代的模型参数。
[0145]
可以看出,通过上述梯度裁剪,保证了梯度范数与参数范数的单位比率成正比,从而使得梯度的裁剪阈值自适应动态更新。
[0146]
梯度中心化组件:在对梯度进行自适应裁剪的同时,用如下公式对权值梯度进行零均值化(即中心化):
[0147][0148]
其中,g
t
表示t轮迭代的梯度值;
[0149]
表示取偏导;
[0150]
l
t
表示t轮迭代的损失函数值;
[0151]
θ
t-1
表示t-1轮的模型参数。
[0152]
正负动量组件:在根据前述自适应裁剪的中心化后的对抗梯度通过反向传播寻找最优参数时,将奇数次迭代与偶数次各自矩估计的平均值分别为当前动量及前一个动量估计分配正负权重,再将分配后的动量用于参数权重的更新,确保更平滑的找到损失函数最优值,即模型最优参数。
[0153]
权重软正则化与稳定衰减组件:在对模型参数更新时,使用模型参数的l2范数对模型的参数更新权重进行软正则化,从而对损失函数进行限制,同时在训练的每一步结束的时候,对神经网络中的参数值权重直接裁剪一定的比例,达到稳定衰减。
[0154]
权重移动平均组件:保持参数权重的指数移动平均,每q步更新参数权重并替换为当前权重。
[0155]
作为一可选的具体实施例,上述获取k步的对抗样本攻击后的目标对抗梯度值的步骤,具体可以包括:
[0156]
对t步的对抗样本进行前后向传播,更新t+1步的梯度值,直至更新k步的梯度值;
[0157]
将当前梯度值更新为所述初始梯度值,并通过梯度下降的方式,计算k步的对抗样本攻击后的目标对抗梯度值;
[0158]
其中,在非k-1步的情况下,所述文本检索匹配模型的当前梯度值为0,在k-1步的情况下,所述文本检索匹配模型的当前梯度值为所述初始梯度值。
[0159]
具体的,获取抗样本的累计攻击步数t,如果t为1,则将输入的正负样本对为1步的对抗样本,对1步的对抗样本进行前后向传播,更新2步的梯度值,如果1步是非k-1步,则将模型的当前梯度值清零;以此类推,如果t为k-1,则t步时的当前梯度值恢复至初始梯度值。
[0160]
并且,恢复嵌入层的权重为已保存的未经攻击的嵌入层权重。然后通过梯度下降的方式更新模型参数,得到累加了k步对抗样本扰动后计算所得的对抗梯度值,即多次迭代下最强对抗样本攻击后的对抗梯度值,即目标对抗梯度值。
[0161]
下面通过一具体实施例对bert编码并训练过程进行说明:
[0162]
在人工智能(artificial intelligence,ai)平台利用图形处理器(:graphics processing unit,gpu)进行训练,设定训练数据的10%作为预热学习率warm-up,设定batch size为64,bert神经网络参数最大输入长度max_seq_length也为64,迭代寻找最强一阶对抗样本的步数k为3,迭代过程中扰动范围限定参数ε为1,单步扰动大小α为0.3,同时利用加入自适应梯度裁剪、梯度中心化、正负动量、权重软正则化与稳定衰减、权重移动平均等多个附加组件的动量化自适应双平均梯度优化器作为寻找最优模型的收敛工具,将寻找到的最优模型结果保存在本地。
[0163]
如图2所示,下面通过一具体实施例对上述方案进行说明:
[0164]
步骤21:利用正则表达式对原始样本数据进行数据清洗,去除杂乱字符,得到第二样本数据集。
[0165]
步骤22:利用预训练语言模型,将第二样本数据集中的m个第二样本数据转换成m个第一嵌入式文本向量。
[0166]
步骤23:将m个第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量,并形成n个正负样本对。
[0167]
其中,步骤23中的数据增强处理包括步骤231和步骤232。
[0168]
步骤231:针对每一个第一嵌入式文本向量,对至少两个元素进行打乱词序处理;
[0169]
步骤232:针对每一个第一嵌入式文本向量,对至少一个元素进行删除处理。
[0170]
步骤24:对n个正负样本对进行迭代攻击,生成对抗样本,并通过对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。
[0171]
其中,步骤24包括步骤241、步骤242和步骤243。
[0172]
步骤241:在每个batch中,对所有正负样本对设定损失函数,计算初始损失值和初始梯度值;
[0173]
步骤242:多步迭代攻击,用限定范围(k步)内的最强一阶对抗样本扰动攻击得出目标对抗梯度值;
[0174]
步骤243:使用加入附加组件的动量化自适应双平均梯度优化器进行模型训练,得到目标文本检索匹配模型。
[0175]
综上所述,本发明上述实施例,通过获取无标签的m个第二样本数据,将每一个第二样本数据转换为第一嵌入式文本向量,得到m个第一嵌入式文本向量,对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量,根据m个第二嵌入式文本向量,得到n个正负样本对,即通过无需人工标注的第二样本数据得到有标签的正负样本对,减少了人工标注的成本和时间。
[0176]
并且,通过对n个正负样本对进行迭代攻击,生成对抗样本,通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型,即通过对抗样本进行对抗训练可以使得训练后的目标文本检索匹配模型具有更强的抗干扰能力;并且,通过迭代攻击后得到的对抗样本进行模型训练,可以不断提高模型的鲁棒性。
[0177]
如图3所示,本发明实施例还提供了一种文本检索匹配方法,该方法基于如上任一实施例中所述的目标文本检索匹配模型进行文本检索匹配,该文本检索匹配方法具体可以包括如下步骤:
[0178]
步骤301,获取检索文本和被检索文本。
[0179]
具体的,获取检索文本和被检索文本,该检索文本和被检索文本为经过数据清洗后的文本数据。
[0180]
步骤302,将所述检索文本和所述被检索文本输入至所述目标文本检索匹配模型,得到所述检索文本的嵌入式表征向量以及所述被检索文本的嵌入式表征向量。
[0181]
具体的,加载上述目标文本检索匹配模型,将检索文本和被检索文本输入至目标文本检索匹配模型中,输出检索文本对应的嵌入式表征向量以及被检索文本对应的嵌入式表征向量。
[0182]
步骤303,将所述被检索文本的嵌入式表征向量进行归一化处理,并建立faiss库的内积索引。
[0183]
具体的,将被检索文本的嵌入式表征向量进行归一化处理,并建立脸书facebook ai团队开源库(facebook ai similarity search,faiss)的内积索引。
[0184]
步骤304,将所述检索文本的嵌入式表征向量在所述faiss库的内积索引中进行搜索,得到与所述检索文本的嵌入式表征向量匹配的检索匹配结果。
[0185]
具体的,将检索文本的嵌入式表征向量在建立好的被检索文本的faiss内积索引
中进行搜索查询,得出最近距离的值及对应文本,即检索匹配结果。由于向量内积距离与余弦距离数学公式相近,此最近距离也为最近余弦距离。进一步的,也可给得出的最近距离值设定阈值,以区分检索匹配结果的可用性。
[0186]
下面通过一具体实施例对检索匹配过程进行说明:
[0187]
加载上述训练得到的目标检索匹配模型,对客户名称数据(被检索文本)进行编码,形成嵌入式表征向量,并在此上构建faiss的内积索引,再对供应商名称数据(检索文本)进行上述目标检索匹配模型的编码得到嵌入式表征向量,对检索文本的嵌入式表征向量进行索引查询,将分数最高的匹配结果作为检索匹配结果。
[0188]
综上所述,本发明上述实施例,将检索文本和被检索文本输入至目标检索匹配模型,得到检索文本的嵌入式表征向量和被检索文本的嵌入式表征向量,检索文本和被检索文本无需人工标注,减少了人工标注的成本和时间;而且目标文本检索匹配模型具有更强的抗干扰能力。在检索匹配时以faiss内积索引代替传统的信息检索方法,可以提高推断速度,从而从整体上达到快速、有效的中文文本检索匹配。
[0189]
以上介绍了本发明实施例提供的文本检索匹配模型的训练方法,下面将结合附图介绍本发明实施例提供的文本检索匹配模型的训练装置。
[0190]
如图4所示,本发明实施例还提供了一种文本检索匹配模型的训练装置400,所述装置包括:
[0191]
第一获取模块401,用于获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,n为大于1的整数;
[0192]
第一处理模块402,用于对所述n个正负样本对进行迭代攻击,生成对抗样本;
[0193]
第二处理模块403,用于通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。
[0194]
本发明上述实施例,通过获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,对所述n个正负样本对进行迭代攻击,生成对抗样本,通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型,即通过对抗样本进行对抗训练可以使得训练后的目标文本检索匹配模型具有更强的抗干扰能力;并且,通过迭代攻击后得到的对抗样本进行模型训练,可以不断提高模型的鲁棒性。
[0195]
可选的,所述第一获取模块401,具体用于:
[0196]
获取第二样本数据集,所述第二样本数据集中包括m个第二样本数据,每一个所述第二样本数据均为数据清洗后的文本数据,m为大于1的整数;
[0197]
将每一个所述第二样本数据转换为第一嵌入式文本向量,得到m个第一嵌入式文本向量;
[0198]
对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量;
[0199]
根据所述m个第二嵌入式文本向量,得到所述第一样本数据集;
[0200]
其中,将所述m个第一嵌入式文本向量中的第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第四嵌入式文本向量组成正样本对,将所述第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第五嵌入式文本向量组成负样本对;
[0201]
所述第三嵌入式文本向量为所述m个第一嵌入式文本向量中的任意一个,所述第四嵌入式文本向量为所述第三嵌入式文本向量进行数据增强处理后得到的第二嵌入式文本向量,所述第五嵌入式文本向量为所述m个第二嵌入式文本向量中除所述第四嵌入式文本向量之外的其他嵌入式文本向量中的任意一个。
[0202]
可选的,所述数据增强处理包括:打乱词序处理以及删除处理;所述第一获取模块401在对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量时,具体用于:
[0203]
针对每一个所述第一嵌入式文本向量,对至少两个元素进行打乱词序处理,并对至少一个元素进行删除处理,得到m个第二嵌入式文本向量。
[0204]
可选的,所述第一处理模块402,具体用于:
[0205]
将所述n个正负样本对进行分批处理,得到s个样本数据子集;
[0206]
对于所述s个样本数据子集中的第一样本数据子集,计算初始损失值以及对应的初始梯度值;
[0207]
根据所述初始损失值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本。
[0208]
可选的,所述第一处理模块402在根据所述初始损失函数值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本时,具体用于:
[0209]
获取对抗样本的累计攻击步数;
[0210]
在所述累计攻击步数为t步、且t为大于1并小于预设攻击步数k的情况下,根据t步的对抗样本和当前梯度值,获取t+1步的对抗样本,直至得到k步的对抗样本;
[0211]
其中,在所述累计攻击步数为1步的情况下,将所述正负样本对作为1步的对抗样本。
[0212]
可选的,所述第二处理模块403,具体用于:
[0213]
获取k步的对抗样本攻击后的目标对抗梯度值;
[0214]
通过所述目标对抗梯度值以及多组件的动量化自适应双平均梯度优化器对所述文本检索匹配模型进行训练,得到目标文本检索匹配模型。
[0215]
可选的,所述第二处理模块403在获取k步的对抗样本攻击后的目标对抗梯度值时,具体用于:
[0216]
对t步的对抗样本进行前后向传播,更新t+1步的梯度值,直至更新k步的梯度值;
[0217]
将当前梯度值更新为所述初始梯度值,并通过梯度下降的方式,计算k步的对抗样本攻击后的目标对抗梯度值;
[0218]
其中,在非k-1步的情况下,所述文本检索匹配模型的当前梯度值为0,在k-1步的情况下,所述文本检索匹配模型的当前梯度值为所述初始梯度值。
[0219]
可选的,所述多组件的动量化自适应双平均梯度优化器包括:附加组件以及动量化自适应双平均梯度优化器;
[0220]
其中,所述附件组件包括以下至少一项:
[0221]
自适应梯度裁剪组件;
[0222]
梯度中心化组件;
[0223]
正负动量组件;
[0224]
权重软正则化与稳定衰减组件;
[0225]
权重移动平均组件。
[0226]
综上所述,本发明上述实施例,通过获取无标签的m个第二样本数据,将每一个第二样本数据转换为第一嵌入式文本向量,得到m个第一嵌入式文本向量,对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量,根据m个第二嵌入式文本向量,得到n个正负样本对,即通过无需人工标注的第二样本数据得到有标签的正负样本对,减少了人工标注的成本和时间。
[0227]
并且,通过对n个正负样本对进行迭代攻击,生成对抗样本,通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型,即通过对抗样本进行对抗训练可以使得训练后的目标文本检索匹配模型具有更强的抗干扰能力;并且,通过迭代攻击后得到的对抗样本进行模型训练,可以不断提高模型的鲁棒性。
[0228]
以上介绍了本发明实施例提供的文本检索匹配方法,下面将结合附图介绍本发明实施例提供的文本检索匹配装置。
[0229]
如图5所示,本发明实施例还提供了一种文本检索匹配装置500,所述装置包括:
[0230]
第二获取模块501,用于获取检索文本和被检索文本;
[0231]
第三获取模块502,用于将所述检索文本和所述被检索文本输入至所述目标文本检索匹配模型,得到所述检索文本的嵌入式表征向量以及所述被检索文本的嵌入式表征向量;
[0232]
第三处理模块503,用于将所述被检索文本的嵌入式表征向量进行归一化处理,并建立faiss库的内积索引;
[0233]
第四处理模块504,用于将所述检索文本的嵌入式表征向量在所述faiss库的内积索引中进行搜索,得到与所述检索文本的嵌入式表征向量匹配的检索匹配结果。
[0234]
综上所述,本发明上述实施例,将检索文本和被检索文本输入至目标检索匹配模型,得到检索文本的嵌入式表征向量和被检索文本的嵌入式表征向量,检索文本和被检索文本无需人工标注,减少了人工标注的成本和时间;而且目标文本检索匹配模型具有更强的抗干扰能力。在检索匹配时以faiss内积索引代替传统的信息检索方法,可以提高推断速度,从而从整体上达到快速、有效的中文文本检索匹配。
[0235]
在此需要说明的是,本发明实施例提供的上述文本检索匹配装置,能够实现上述文本检索匹配方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0236]
需要说明的是,本技术实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0237]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0238]
如图6所示,本发明的实施例还提供了一种网络设备,包括存储器620,收发机610,处理器600:
[0239]
存储器620,用于存储计算机程序;
[0240]
收发机610,用于在处理器的控制下收发数据;
[0241]
处理器600,用于读取存储器中的计算机程序并执行如上任一实施例所述的文本检索匹配模型的训练方法的步骤,或者执行如上任一实施例所述的文本检索匹配方法的步骤。
[0242]
其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元,这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器600负责管理总线架构和通常的处理,存储器620可以存储处理器600在执行操作时所使用的数据。
[0243]
处理器600可以是中央处埋器(cpu)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或复杂可编程逻辑器件(complex programmable logic device,cpld),处理器也可以采用多核架构。
[0244]
处理器通过调用存储器存储的计算机程序,用于按照获得的可执行指令执行本技术实施例提供的任一文本检索匹配模型的训练方法,或者文本检索匹配方法。处理器与存储器也可以物理上分开布置。
[0245]
在此需要说明的是,本发明实施例提供的上述网络设备,能够实现上述文本检索匹配模型的方法实施例所实现的所有方法步骤或者实现上述文本检索匹配方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0246]
本发明的实施例还提供了一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述文本检索匹配模型的训练方法,或者执行上述文本检索匹配方法。
[0247]
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
[0248]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0249]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0250]
这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0251]
这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0252]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包括这些改动和变型在内。

技术特征:
1.一种文本检索匹配模型的训练方法,其特征在于,所述方法包括:获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,n为大于1的整数;对所述n个正负样本对进行迭代攻击,生成对抗样本;通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。2.根据权利要求1所述的方法,其特征在于,所述获取第一样本数据集,包括:获取第二样本数据集,所述第二样本数据集中包括m个第二样本数据,每一个所述第二样本数据均为数据清洗后的文本数据,m为大于1的整数;将每一个所述第二样本数据转换为第一嵌入式文本向量,得到m个第一嵌入式文本向量;对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量;根据所述m个第二嵌入式文本向量,得到所述第一样本数据集;其中,将所述m个第一嵌入式文本向量中的第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第四嵌入式文本向量组成正样本对,将所述第三嵌入式文本向量与所述m个第二嵌入式文本向量中的第五嵌入式文本向量组成负样本对;所述第三嵌入式文本向量为所述m个第一嵌入式文本向量中的任意一个,所述第四嵌入式文本向量为所述第三嵌入式文本向量进行数据增强处理后得到的第二嵌入式文本向量,所述第五嵌入式文本向量为所述m个第二嵌入式文本向量中除所述第四嵌入式文本向量之外的其他嵌入式文本向量中的任意一个。3.根据权利要求2所述的方法,其特征在于,所述数据增强处理包括:打乱词序处理以及删除处理;所述对每一个所述第一嵌入式文本向量进行数据增强处理,得到m个第二嵌入式文本向量,包括:针对每一个所述第一嵌入式文本向量,对至少两个元素进行打乱词序处理,并对至少一个元素进行删除处理,得到m个第二嵌入式文本向量。4.根据权利要求1所述的方法,其特征在于,所述对所述n个正负样本对进行迭代攻击,生成对抗样本,包括:将所述n个正负样本对进行分批处理,得到s个样本数据子集;对于所述s个样本数据子集中的第一样本数据子集,计算初始损失值以及对应的初始梯度值;根据所述初始损失值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本。5.根据权利要求4所述的方法,其特征在于,所述根据所述初始损失函数值以及所述初始梯度值,对所述第一样本数据子集中的正负样本对进行迭代攻击,生成对抗样本,包括:获取对抗样本的累计攻击步数;在所述累计攻击步数为t步、且t为大于1并小于预设攻击步数k的情况下,根据t步的对抗样本和当前梯度值,获取t+1步的对抗样本,直至得到k步的对抗样本;其中,在所述累计攻击步数为1步的情况下,将所述正负样本对作为1步的对抗样本。6.根据权利要求5所述的方法,其特征在于,所述通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型,
包括:获取k步的对抗样本攻击后的目标对抗梯度值;通过所述目标对抗梯度值以及多组件的动量化自适应双平均梯度优化器对所述文本检索匹配模型进行训练,得到目标文本检索匹配模型。7.根据权利要求6所述的方法,其特征在于,所述获取k步的对抗样本攻击后的目标对抗梯度值,包括:对t步的对抗样本进行前后向传播,更新t+1步的梯度值,直至更新k步的梯度值;将当前梯度值更新为所述初始梯度值,并通过梯度下降的方式,计算k步的对抗样本攻击后的目标对抗梯度值;其中,在非k-1步的情况下,所述文本检索匹配模型的当前梯度值为0,在k-1步的情况下,所述文本检索匹配模型的当前梯度值为所述初始梯度值。8.根据权利要求1所述的方法,其特征在于,所述多组件的动量化自适应双平均梯度优化器包括:附加组件以及动量化自适应双平均梯度优化器;其中,所述附件组件包括以下至少一项:自适应梯度裁剪组件;梯度中心化组件;正负动量组件;权重软正则化与稳定衰减组件;权重移动平均组件。9.一种文本检索匹配方法,其特征在于,应用于权利要求1至8任一项所述的目标文本检索匹配模型,所述方法包括:获取检索文本和被检索文本;将所述检索文本和所述被检索文本输入至所述目标文本检索匹配模型,得到所述检索文本的嵌入式表征向量以及所述被检索文本的嵌入式表征向量;将所述被检索文本的嵌入式表征向量进行归一化处理,并建立faiss库的内积索引;将所述检索文本的嵌入式表征向量在所述faiss库的内积索引中进行搜索,得到与所述检索文本的嵌入式表征向量匹配的检索匹配结果。10.一种文本检索匹配模型的训练装置,其特征在于,所述装置包括:第一获取模块,用于获取第一样本数据集,所述第一样本数据集中包括n个正负样本对,n为大于1的整数;第一处理模块,用于对所述n个正负样本对进行迭代攻击,生成对抗样本;第二处理模块,用于通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。11.一种文本检索匹配装置,其特征在于,所述装置包括:第二获取模块,用于获取检索文本和被检索文本;第三获取模块,用于将所述检索文本和所述被检索文本输入至所述目标文本检索匹配模型,得到所述检索文本的嵌入式表征向量以及所述被检索文本的嵌入式表征向量;第三处理模块,用于将所述被检索文本的嵌入式表征向量进行归一化处理,并建立faiss库的内积索引;
第四处理模块,用于将所述检索文本的嵌入式表征向量在所述faiss库的内积索引中进行搜索,得到与所述检索文本的嵌入式表征向量匹配的检索匹配结果。12.一种网络设备,其特征在于,包括存储器,收发机,处理器:存储器,用于存储计算机程序;收发机,用于在所述处理器的控制下收发数据;处理器,用于读取所述存储器中的计算机程序并执行如权利要求1至6任一项所述的文本检索匹配模型的训练方法,或者如权利要求7所述的文本检索匹配方法。13.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行如权利要求1至6任一项所述的文本检索匹配模型的训练方法,或者如权利要求7所述的文本检索匹配方法。

技术总结
本发明实施例提供了一种文本检索匹配方法及模型的训练方法,该模型的训练方法包括:获取第一样本数据集,所述第一样本数据集中包括N个正负样本对,N为大于1的整数;对所述N个正负样本对进行迭代攻击,生成对抗样本;通过所述对抗样本以及多组件的动量化自适应双平均梯度优化器对文本检索匹配模型进行训练,得到目标文本检索匹配模型。到目标文本检索匹配模型。到目标文本检索匹配模型。


技术研发人员:马俊 储军梅 陈爱华
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.06.08
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐