一种最近邻增强对比学习预训练的文本匹配方法

未命名 10-09 阅读:104 评论:0


1.本发明涉及一种最近邻增强对比学习预训练的文本匹配方法,属于自然语言处理技术领域。


背景技术:

2.文本匹配任务是自然语言处理领域中非常重要的基础任务之一,它旨在学习源文本和目标文本之间的语义关系,在很多的应用场景中都有体现,比如信息检索系统,智能推荐系统、文本数据去重等等。文本匹配任务随着场景的不同,其含义也会有所不同。在文本数据去重中,系统可以通过计算文本之间的语义匹配情况,衡量两个文本之间的相似性。在问答系统中,文本匹配还能用来为问题匹配到合适的答案,可以减少对人工客服的需求。因此,对于文本匹配任务的研究具有重大意义。传统的文本匹配模型主要是解决词汇层次的匹配问题,例如bm25、tf-idf等,此类模型会造成文本语义或知识缺陷等问题。为此,基于深度学习的文本匹配模型可以学习文本之间的交互模式,挖掘出文本之间复杂语义关系,得到了广泛的研究和关注。
3.深度文本匹配模型可以分为两类:基于表示的文本匹配模型和基于交互的文本匹配模型。基于表示的文本匹配模型学习源文本和目标文本的表示,并根据学习到的表示度量它们之间的相关性。其更侧重对语义向量层的构建,典型的有dssm-rnn、birnn、gru、bigru、lstm和esim等。基于交互的文本匹配模型在源文本和目标文本之间构建匹配矩阵,通过分析匹配矩阵估计匹配分数,典型的有albert、bert和roberta等。
4.为提升上述深度模型的匹配效果,文本预训练(比如,word2vec、glove和bert等)起着至关重要的作用。近年来提出的word2vec、glove、bert等预训练模型很好地解决了文本向量化表示的问题。其中,基于bert的预训练语言模型在许多方面都取得了很高的性能,因为利用bert模型对文本进行向量化表示,解决word2vec一词多义的问题,然而从bert中得到的原生文本表示被证明是低质量的,几乎所有文本对的相似度得分都在0.6-1.0之间,这意味着几乎所有的文本都映射到一个小区域。所以,直接应用bert的原句表示方法进行语义匹配或文本检索是不合适的。
5.为此,基于对比学习的文本训练目标产生,其拉近来自同一个文本的两个增强视图,并保持来自其他文本的视图远离,重塑了bert派生的文本表示空间。


技术实现要素:

6.(一)目的:现有文本匹配模型都忽略了训练实例中直接获得的相似实例信息,利用这些信息可以帮助模型更准确地预测。
7.为解决上述问题,本发明提出一种最近邻增强对比学习预训练的文本匹配方法。引入最近邻思想,本发明检索对比学习后源文本向量和目标文本向量的相似实例,并根据相似权重来构造其加权向量,使模型充分挖掘了源文本和目标文本的相似实例信息,从而提高了文本匹配准确率。
8.(二)技术方案:为解决上述技术问题,本发明采用的技术方案为:
9.第一方面,本发明提供一种最近邻增强对比学习预训练的文本匹配方法,包括:
10.建立源文本集和目标文本集;
11.对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量;
12.利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集;
13.计算源相似实例集的相似权重集、目标相似实例集的相似权重集;
14.基于源相似实例集的相似权重集合并源文本向量和源相似实例集,得到源文本加权向量;
15.基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集,得到目标文本加权向量;
16.利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果。
17.在一些实施例中,建立源文本集和目标文本集,包括:
18.令表示源文本集,其中,p
[i]
为第i个源文本,1≤i≤n;令表示目标文本集,其中,q
[i]
为第i个目标文本,1≤i≤n。
[0019]
令{y1,

,yn}表示输入数据的标签,其中,yi∈{0,1}表示p
[i]
和q
[i]
之间匹配结果的真实值,若p
[i]
和q
[i]
匹配,则yi=1,若p
[i]
和q
[i]
不匹配,则yi=0。
[0020]
在一些实施例中,对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量,包括:
[0021]
采用对比学习模型simcse预训练源文本集、目标文本集,具体包括:
[0022]
利用dropout方法对所有文本进行数据增强,使用预训练的语言模型bert对输入文本进行编码,然后利用对比学习目标微调所有参数,最后得到新的文本向量;
[0023]
源文本集经过对比学习后得到新的源文本向量为目标文本集经过对比学习后得到新的目标文本向量为
[0024]
在一些实施例中,利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集,包括:
[0025]
令是包含所有源文本向量和目标文本向量的2n个文本向量集,表示的第j个文本向量;
[0026]
利用欧式距离公式计算源文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top-k的文本为源相似实例;
[0027]
其中,源文本向量和中文本向量的欧氏距离越小代表其相似度越大;源文本向量与的欧式距离值如下所示:
[0028][0029]
式中,是的第m个维度的特征,是的第m维度的特征,l是文本向量的维数。
[0030]
利用欧式距离公式计算目标文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top-k的文本为目标相似实例;
[0031]
其中,目标文本向量和中文本向量的欧氏距离越小代表其相似度越大;目标文本向量与的欧式距离值如下所示:
[0032][0033]
式中,是的第m个维度的特征,是的第m个维度的特征。
[0034]
通过最近邻检索得到k个源相似实例和k个目标相似实例,分别构成源相似实例集和目标相似实例集
[0035][0036]
式中,为源文本向量的第k(1≤k≤k)个源相似实例,为目标文本向量的第k(1≤k≤k)个目标相似实例。
[0037]
在一些实施例中,计算源相似实例集的相似权重集、目标相似实例集的相似权重集,包括:
[0038]
对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标相似实例集的相似权重集,其中,归一化使用sigmoid激活函数。
[0039]
进一步地,对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,具体包括:
[0040]
令w
p,i
={w
p,i,1
,

,w
p,i,k
}表示源相似实例集的相似权重集,其中,w
p,i,k
表示源文本向量和第k个源相似实例的相似权重,1≤k≤k,如下所示:
[0041][0042]
进一步地,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标相似实例集的相似权重集,具体包括:
[0043]
令w
q,i
={w
q,i,1
,

,w
q,i,k
}表示目标相似实例集的相似权重集,其中,w
q,i,k
表示目标文本向量和第k个目标相似实例的相似权重,1≤k≤k,如下所示:
[0044][0045]
在一些实施例中,基于源相似实例集的相似权重集合并源文本向量和源相似实例集得到源文本加权向量包括:
[0046][0047]
其中w
p,i
={w
p,i,1
,

,w
p,i,k
}表示源相似实例集的相似权重集,w
p,i,k
表示源文本向量和第k个源相似实例的相似权重,1≤k≤k。
[0048]
在一些实施例中,基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集得到目标文本加权向量包括:
[0049][0050]
其中w
q,i
={w
q,i,1
,

,w
q,i,k
}表示目标相似实例集的相似权重集,w
q,i,k
表示目标文本向量和第k个目标相似实例的相似权重,1≤k≤k。
[0051]
在一些实施例中,利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果,包括:
[0052]
利用文本匹配模型训练源文本加权向量和目标文本加权向量得到匹配结果yi′
,其中,yi′
表示p
[i]
和q
[i]
之间匹配结果的预测值。
[0053]
进一步地,若p
[i]
和q
[i]
匹配,则yi′
=1,若p
[i]
和q
[i]
不匹配,则yi′
=0。
[0054]
第二方面,本发明提供了一种最近邻增强对比学习预训练的文本匹配装置,包括处理器及存储介质;
[0055]
所述存储介质用于存储指令;
[0056]
所述处理器用于根据所述指令进行操作以执行根据第一方面所述的方法。
[0057]
第三方面,本发明提供了一种设备,包括,
[0058]
存储器;
[0059]
处理器;
[0060]
以及
[0061]
计算机程序;
[0062]
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实
现上述第一方面所述的方法。
[0063]
第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
[0064]
(三)有益效果:本发明提供的最近邻增强对比学习预训练的文本匹配方法,具有以下优点:相比于现有的文本匹配方法,本发明方法利用对比学习和最近邻算法检索高质量的相似训练实例,并把相似信息加入到模型训练,从而提高文本匹配的效果。
附图说明
[0065]
图1为根据本发明一实施例的方法流程示意图;
[0066]
图2为根据本发明一实施例的方法原理示意图;
[0067]
图3为根据本发明一实施例中最近邻机制k值不同时对实验结果的影响示意图;
[0068]
图4为根据本发明一实施例中最近邻机制k值不同时相似权重对实验结果的影响示意图。
具体实施方式
[0069]
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0070]
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0071]
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0072]
实施例1
[0073]
第一方面,本实施例提供了一种最近邻增强对比学习预训练的文本匹配方法,包括:
[0074]
建立源文本集和目标文本集;
[0075]
对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量;
[0076]
利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集;
[0077]
计算源相似实例集的相似权重集、目标相似实例集的相似权重集;
[0078]
基于源相似实例集的相似权重集合并源文本向量和源相似实例集,得到源文本加权向量;
[0079]
基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集,得到目标文本加权向量;
[0080]
利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果。
[0081]
在一些实施例中,建立源文本集和目标文本集,包括:
[0082]
令表示源文本集,其中,p
[i]
为第i个源文本,1≤i≤n;令表示目标文本集,其中,q
[i]
为第i个目标文本,1≤i≤n。
[0083]
令{y1,

,yn}表示输入数据的标签,其中,yi∈{0,1}表示p
[i]
和q
[i]
之间匹配结果的真实值,若p
[i]
和q
[i]
匹配,则yi=1,若p
[i]
和q
[i]
不匹配,则yi=0。
[0084]
在一些实施例中,对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量,包括:
[0085]
采用对比学习模型simcse预训练源文本集、目标文本集,具体包括:
[0086]
利用dropout方法对所有文本进行数据增强,使用预训练的语言模型bert对输入文本进行编码,然后利用对比学习目标微调所有参数,最后得到新的文本向量;
[0087]
源文本集经过对比学习后得到新的源文本向量为目标文本集经过对比学习后得到新的目标文本向量为
[0088]
在一些实施例中,利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集,包括:
[0089]
令是包含所有源文本向量和目标文本向量的2n个文本向量集,表示的第j个文本向量;
[0090]
利用欧式距离公式计算源文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top-k的文本为源相似实例;
[0091]
其中,源文本向量和中文本向量的欧氏距离越小代表其相似度越大;源文本向量与的欧式距离值如下所示:
[0092][0093]
式中,是的第m个维度的特征,是的第m维度的特征,l是文本向量的维数。
[0094]
利用欧式距离公式计算目标文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top-k的文本为目标相似实例;
[0095]
其中,目标文本向量和中文本向量的欧氏距离越小代表其相似度越大;目标文本向量与的欧式距离值如下所示:
[0096][0097]
式中,是的第m个维度的特征,是的第m个维度的特征。
[0098]
通过最近邻检索得到k个源相似实例和k个目标相似实例,分别构成源相似实例集和目标相似实例集
[0099][0100]
式中,为源文本向量的第k(1≤k≤k)个源相似实例,为目标文本向量的第k(1≤k≤k)个目标相似实例。
[0101]
在一些实施例中,计算源相似实例集的相似权重集、目标相似实例集的相似权重集,包括:
[0102]
对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标相似实例集的相似权重集,其中,归一化使用sigmoid激活函数。
[0103]
进一步地,对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,具体包括:
[0104]
令w
p,i
={w
p,i,1
,

,w
p,i,k
}表示源相似实例集的相似权重集,其中,w
p,i,k
表示源文本向量和第k个源相似实例的相似权重,1≤k≤k,如下所示:
[0105][0106]
进一步地,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标相似实例集的相似权重集,具体包括:
[0107]
令w
q,i
={w
q,i,1
,

,w
q,i,k
}表示目标相似实例集的相似权重集,其中,w
q,i,k
表示目标文本向量和第k个目标相似实例的相似权重,1≤k≤k,如下所示:
[0108][0109]
在一些实施例中,基于源相似实例集的相似权重集合并源文本向量和源相似实例集得到源文本加权向量包括:
[0110][0111]
其中w
p,i
={w
p,i,1
,

,w
p,i,k
}表示源相似实例集的相似权重集,w
p,i,k
表示源文
本向量和第k个源相似实例的相似权重,1≤k≤k。
[0112]
在一些实施例中,基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集得到目标文本加权向量包括:
[0113][0114]
其中w
q,i
={w
q,i,1
,

,w
q,i,k
}表示目标相似实例集的相似权重集,w
q,i,k
表示目标文本向量和第k个目标相似实例的相似权重,1≤k≤k。
[0115]
在一些实施例中,利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果,包括:
[0116]
利用文本匹配模型训练源文本加权向量和目标文本加权向量得到匹配结果yi′
,其中,yi′
表示p
[i]
和q
[i]
之间匹配结果的预测值。
[0117]
进一步地,若p
[i]
和q
[i]
匹配,则yi′
=1,若p
[i]
和q
[i]
不匹配,则yi′
=0。
[0118]
本发明提出一种最近邻增强对比学习预训练的文本匹配方法。该发明利用对比学习和最近邻机制获得文本的相似训练实例,并将相似信息加入模型训练中,如图2所示。
[0119]
本发明的具体实施如下:
[0120]
为验证模型的预测性能,在交互型文本匹配模型和表示型文本匹配模型都进行实验验证,本实验采用以下基准模型:
[0121]
1)表示型:esim:底层双向lstm,作为文本的编码器,从两个文本单词之间的交互矩阵获得两个文本之间的交互结果。
[0122]
2)交互型:bert:利用了transformer的双向编码器结构,能够解决一词多义的问题,利用bert模型做文本匹配,操作方便且效果优秀,比较适用于工业应用场景。
[0123]
为了增强对比效果,本发明还类似地加入了rnn、birnn、bilstm、albert、bert作为对比实验。
[0124]
以中文问题匹配语料库lcqmc为例,该数据集是基于海量的百度问题而构建的问题匹配数据合集。
[0125]
评价指标:本文实验的文本匹配任务属于二分类任务范畴,我们采用auc和准确率acc作为评估模型效果的指标。acc是指在所有分类中,分类正确的样本数与总样本数之比。auc是roc曲线下与坐标轴围成的面积,roc曲线横坐标为假正(fpr),纵坐标为真正率(tpr)。acc和auc越接近1.0,检测方法真实性越高。
[0126]
仿真参数:n=200000,k=10,l=300。具体实施方法如图1所示,
[0127]
步骤一:建立源文本集和目标文本集。针对文本匹配任务,令表示源文本集。令表示目标文本集。{y1,

,y
200000
}是输入数据的标签。
[0128]
步骤二:对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量
[0129]
利用对比学习模型simcse训练源文本集和目标文本集,分别得到新的源文本向量
和目标文本向量。源文本集经过对比学习后得到新的源文本向量为目标文本集经过对比学习后得到新的目标文本向量为
[0130]
令是包含所有源文本向量和目标文本向量
[0131]
步骤三:利用最近邻算法检索源文本向量和目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集
[0132]
本实施例利用最近邻算法在中检索k个源相似实例。其中,源文本向量与中文本的欧式距离值如公式(1)所示:
[0133][0134]
式中,是的第m个维度的特征,是的第m维度的特征,300是文本向量的维数。
[0135]
本实施例利用最近邻算法在
l
中检索k个目标相似实例。目标文本向量与g
cl
中的文本的欧式距离值如公式(2)所示:
[0136][0137]
式中,是的第m个维度的特征,是的第m个维度的特征。
[0138]
本实施例通过最近邻检索得到源相似实例集和目标相似实例集,如公式(3)所示:
[0139][0140]
式中,为源文本向量的第k(1≤k≤10)个源相似实例,为目标文本向量的第k(1≤k≤10)个目标相似实例。
[0141]
步骤四:计算源相似实例集的相似权重集w
p,i
和目标相似实例集的相似权重集w
q,i

[0142]
本实施例对源文本向量与源相似实例集的欧式距离值倒数做归一化处理作为源相似实例的相似权重集,其中,归一化使用sigmoid激活函数。
[0143]
令w
p,i
={w
p,i,1
,

,w
p,i,10
}表示源相似实例集的相似权重集,其中,w
p,i,k
(1≤k≤10)表示源文本向量和第k个源相似实例的相似权重。计算源文本向量与源相似实例集的相似权重w
p,i,k
,如公式(4)所示:
[0144][0145]
令w
q,i
={w
q,i,1
,

,w
q,i,10
}表示目标相似实例集的相似权重集,其中,w
q,i,k
(1≤k≤10)表示目标文本向量和第k个目标相似实例的相似权重。计算目标文本向量与目标相似实例的相似权重w
q,i,k
,如公式(5)所示:
[0146][0147]
步骤五:基于源相似实例集的相似权重集,合并源文本向量和源相似实例集得到源文本加权向量本实施例向量合并采用累加平均的方法,如公式(6)所示:
[0148][0149]
式中,为源文本向量的源文本加权向量。
[0150]
步骤六:基于目标相似实例集的相似权重集,合并目标文本向量和目标相似实例集得到目标文本加权向量本实施例向量合并采用累加平均的方法,如公式(7)所示:
[0151][0152]
式中,为目标文本向量的目标文本加权向量。
[0153]
步骤七:利用文本匹配模型训练源文本加权向量和目标文本加权向量得到匹配结果yi′

[0154]
将源文本加权向量和目标文本加权向量代入到基准模型(esim/roberta)训练,产生匹配结果yi′
。若p
[i]
和q
[i]
匹配,则yi′
=1,若p
[i]
和q
[i]
不匹配,则yi′
=0。
[0155]
表1模型效果对比
[0156][0157]
在数据集上,两种基准模型分别和对比学习、最近邻算法检索相结合时,相比传统的基准模型都表现出实验效果的提高(k=10)。我们验证了两者结合对于提高模型效果具有的优越性(如表1)。
[0158]
为了分析最近邻算法的k个相似训练实例对模型匹配效果的影响,本实施例选取k的变化范围为[0,20],并在数据集测试了k值的变化对各模型产生匹配效果的影响。
[0159]
从图3中曲线的变化规律可以看出,随着k的不断变化,本方法和深度模型相结合相比基准模型(k=0)都表现出匹配效果的提高,随着k值不断增加,太多的相似实例也会带来更多的噪声,导致匹配效果下降。但只要是k》0,模型实验效果始终都优于基准深度模型,同时验证了在模型预测时,本方法能够更优的提取文本信息,直接证实了本模型提高模型效果的有效性。
[0160]
为了验证本技术文本对象加权对于提高模型分类效果具有优越性,实验选取k的变化范围为[0,20],在数据集上设计了构建文本的加权和简单文本(不加权)向量分别对模型实验效果acc的影响。由图4各模型效果曲线变化对比可知,从各模型效果变化趋势来看,在k初始增加时,加权文本对象对各模型表现的实验效果和简单文本对模型的效果之间差距较小,随着k值的不断增大,模型也伴随着检索相似实例数量的增加,本技术加权文本对各模型表现的实验效果和简单文本对模型效果之间的差距逐渐明显。但是总体来看,本技术加权文本对于提高模型效果具有优越性。
[0161]
实施例2
[0162]
第二方面,基于实施例1,本实施例提供了一种最近邻增强对比学习预训练的文本匹配装置,包括处理器及存储介质;
[0163]
所述存储介质用于存储指令;
[0164]
所述处理器用于根据所述指令进行操作以执行根据实施例1所述的方法。
[0165]
实施例3
[0166]
第三方面,基于实施例1,本实施例提供了一种设备,包括,
[0167]
存储器;
[0168]
处理器;
[0169]
以及
[0170]
计算机程序;
[0171]
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现实施例1所述的方法。
[0172]
实施例4
[0173]
第四方面,基于实施例1,本实施例提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述的方法。
[0174]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0175]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0176]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0177]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0178]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种最近邻增强对比学习预训练的文本匹配方法,其特征在于,所述方法包括:建立源文本集和目标文本集;对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量;利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集;计算源相似实例集的相似权重集、目标相似实例集的相似权重集;基于源相似实例集的相似权重集合并源文本向量和源相似实例集,得到源文本加权向量;基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集,得到目标文本加权向量;利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果。2.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,建立源文本集和目标文本集,包括:令表示源文本集,其中,p
[i]
为第i个源文本,1≤i≤n;令表示目标文本集,其中,q
[i]
为第i个目标文本,1≤i≤n。3.根据权利要求2所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量,包括:采用对比学习模型simcse预训练源文本集、目标文本集,源文本集经过对比学习后得到新的源文本向量为目标文本集经过对比学习后得到新的目标文本向量为4.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集,包括:令是包含所有源文本向量和目标文本向量的2n个文本向量集,表示的第j个文本向量,1≤j≤2n;利用欧式距离公式计算源文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top-k的文本为源相似实例;利用欧式距离公式计算目标文本向量和中除了之外其余文本向量的相似度,统计结果并选出相似度top-k的文本为目标相似实例;通过最近邻检索得到k个源相似实例和k个目标相似实例,分别构成源相似实例集和目标相似实例集5.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,计算源相似实例集的相似权重集、目标相似实例集的相似权重集,包括:对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标
相似实例集的相似权重集,其中,归一化使用sigmoid激活函数。6.根据权利要求5所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,对源文本向量和源相似实例集的欧式距离值倒数做归一化处理作为源相似实例集的相似权重集,对目标文本向量和目标相似实例集的欧式距离值倒数做归一化处理作为目标相似实例集的相似权重集,具体包括:令w
p,i
={w
p,i,1
,

,w
p,i,k
}表示源相似实例集的相似权重集,其中,w
p,i,k
表示源文本向量和第k个源相似实例的相似权重,1≤k≤k,如下所示:令w
q,i
={w
q,i,1
,

,w
q,i,k
}表示目标相似实例集的相似权重集,其中,w
q,i,k
表示目标文本向量和第k个目标相似实例的相似权重,1≤k≤k,如下所示:7.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,基于源相似实例集的相似权重集合并源文本向量和源相似实例集得到源文本加权向量包括:其中w
p,i
={w
p,i,1
,

,w
p,i,k
}表示源相似实例集的相似权重集,w
p,i,k
表示源文本向量和第k个源相似实例的相似权重,1≤k≤k。8.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集得到目标文本加权向量包括:其中w
q,i
={w
q,i,1
,

,w
q,i,k
}表示目标相似实例集的相似权重集,w
q,i,k
表示目标文本向量和第k个目标相似实例的相似权重,1≤k≤k。
9.根据权利要求1所述的最近邻增强对比学习预训练的文本匹配方法,其特征在于,利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果,包括:利用文本匹配模型训练源文本加权向量和目标文本加权向量得到匹配结果y

i
,其中,y

i
表示p
[i]
和q
[i]
之间匹配结果的预测值。10.一种最近邻增强对比学习预训练的文本匹配装置,其特征在于,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述的方法。

技术总结
本发明公开了一种最近邻增强对比学习预训练的文本匹配方法,包括:对比学习预训练源文本集、目标文本集,分别得到新的源文本向量和目标文本向量;利用最近邻算法检索源文本向量、目标文本向量的相似实例,分别得到源相似实例集和目标相似实例集;计算源相似实例集的相似权重集和目标相似实例集的相似权重集;基于源相似实例集的相似权重集合并源文本向量和源相似实例集,得到源文本加权向量;基于目标相似实例集的相似权重集合并目标文本向量和目标相似实例集,得到目标文本加权向量;利用文本匹配模型训练源文本加权向量和目标文本加权向量,得到匹配结果。挖掘了源文本和目标文本的相似实例信息,更好地构建文本向量层,提高了匹配准确率。提高了匹配准确率。提高了匹配准确率。


技术研发人员:陈家绪 刘鲁缘 刘琳 王帅威 张兆维 潘甦
受保护的技术使用者:南京邮电大学
技术研发日:2023.07.03
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐