一种图文匹配模型训练方法、装置、设备及存储介质

未命名 08-07 阅读：114 评论：0

1.本技术实施例涉及计算机和互联网技术领域，特别涉及一种图文匹配模型训练方法、装置、设备及存储介质。

背景技术：

2.目前，在很多场景中都需要用到图文匹配技术。其中，图文匹配技术可以实现给定一张图像，可以查询到与该图像语义对应的文本，反之亦然。
3.例如，在搜索场景中，用户输入查询文本：蓝色小汽车，可以通过图文匹配技术查找该文本对应的蓝色小汽车图片。该技术，极大地提高了用户查找图片和文本的速度，提升用户搜索体验。
4.发明人在实现本技术的过程中发现，相关技术在图文匹配模型训练过程中，通常会应用困难负样本对挖掘策略，为损失函数挖掘困难负样本对。但在训练初期，正样本对和困难负样本对的相似度较为接近，只使用困难负样本对进行训练会出现梯度消失问题，影响模型的训练，导致不合理的匹配结果。
5.其中，正样本对中的图像数据与文本数据匹配，负样本对中的图像数据与文本数据不匹配，困难负样本对是指：难以区分是为正样本对还是负样本对的负样本对。

技术实现要素：

6.本技术实施例提供了一种图文匹配模型训练方法、装置、设备及存储介质。所述技术方案如下：
7.第一方面，本技术实施例提供了一种图文匹配模型训练方法，该方法包括：
8.确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；
9.计算所述正样本对与困难负样本对的相似度差值，所述困难负样本对为相似度最高的负样本对；
10.基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；所述第一损失函数用于挖掘困难负样本对；所述第二损失函数用于挖掘非困难负样本对；
11.根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型。
12.可选地，所述基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数，包括：
13.当所述相似度差值大于预设阈值时，选择目标损失函数中用于挖掘困难负样本对的第一损失函数；
14.当所述相似度差值小于等于所述预设阈值时，选择目标损失函数中用于挖掘非困难负样本对的第二损失函数。
15.可选地，所述第一损失函数包括：
16.17.其中，所述l
triplet-hn
为所述第一损失函数，所述为困难负样本对对应的相似度，所述s(vi,ti)为正样本对对应的相似度，所述θ为所述第一损失函数的边界系数；所述vi为第i个图像数据，所述ti为第i个文本数据，(vi,ti)为一个正样本对，所述为一个困难负样本对。
18.可选地，所述第二损失函数包括：
[0019][0020]
其中，所述l
triplet
为所述第二损失函数，所述s(vi,tj)为负样本对对应的相似度；所述s(vi，ti)为正样本对对应的相似度，所述λ为所述第二损失函数的边界系数；所述vi为第i个图像数据；所述ti为第i个文本数据，所述tj为第j个文本数据；所述(vi,ti)表示一个正样本对，所述(vi,tj)表示一个负样本对；所述b是迭代训练时样本对的数量值。
[0021]
可选地，所述确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度，包括：
[0022]
获取用于训练图文匹配模型的正样本对与负样本对，每个样本对中包括图像数据与文本数据；
[0023]
提取所述图像数据的图像特征及所述文本数据的文本特征；
[0024]
计算所述样本对中图像特征和文本特征的相似度，作为该样本对对应的相似度。
[0025]
可选地，所述根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型，包括：
[0026]
基于深度学习优化器为adam w优化器、所选择的所述第一损失函数或所述第二损失函数、所述正样本对和所述负样本对，对待训练的图文匹配模型进行迭代训练；
[0027]
利用验证数据对所述图文匹配模型进行评估，计算得到召回率；
[0028]
若所述召回率收敛，训练结束，保存训练结束后得到的所述图文匹配模型。
[0029]
第二方面，本技术实施例还提供了一种图文匹配模型训练装置，该装置可以包括：
[0030]
确定模块，用于确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；
[0031]
计算模块，用于计算所述正样本对与困难负样本对的相似度差值，所述困难负样本对为相似度最高的负样本对；
[0032]
选择模块，用于基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；所述第一损失函数用于挖掘困难负样本对；所述第二损失函数用于挖掘非困难负样本对；
[0033]
训练模块，用于根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型。
[0034]
可选地，所述选择模块具体用于：
[0035]
当所述相似度差值大于预设阈值时，选择目标损失函数中用于挖掘困难负样本对的第一损失函数；
[0036]
当所述相似度差值小于等于所述预设阈值时，选择目标损失函数中用于挖掘非困
难负样本对的第二损失函数。
[0037]
可选地，所述第一损失函数包括：
[0038][0039]
其中，所述l
triplet-hn
为所述第一损失函数，所述为困难负样本对对应的相似度，所述s(vi,ti)为正样本对对应的相似度，所述θ为所述第一损失函数的边界系数；所述vi为第i个图像数据，所述ti为第i个文本数据，(vi,ti)为一个正样本对，所述为一个困难负样本对。
[0040]
可选地，所述第二损失函数包括：
[0041][0042]
其中，所述l
triplet
为所述第二损失函数，所述s(vi,tj)为负样本对对应的相似度；所述s(vi,ti)为正样本对对应的相似度，所述λ为所述第二损失函数的边界系数；所述vi为第i个图像数据；所述ti为第i个文本数据，所述tj为第j个文本数据；所述(vi,ti)表示一个正样本对，所述(vi,tj)表示一个负样本对；所述b是迭代训练时样本对的数量值。
[0043]
可选地，所述确定模块可以包括：
[0044]
获取子模块，用于获取用于训练图文匹配模型的正样本对与负样本对，每个样本对中包括图像数据与文本数据；
[0045]
提取子模块，用于提取所述图像数据的图像特征及所述文本数据的文本特征；
[0046]
计算子模块，用于计算所述样本对中图像特征和文本特征的相似度，作为该样本对对应的相似度。
[0047]
可选地，所述训练模块具体用于：
[0048]
基于深度学习优化器为adamw优化器、所选择的所述第一损失函数或所述第二损失函数、所述正样本对和所述负样本对，对待训练的图文匹配模型进行迭代训练；
[0049]
利用验证数据对所述图文匹配模型进行评估，计算得到召回率；
[0050]
若所述召回率收敛，训练结束，保存训练结束后得到的所述图文匹配模型。
[0051]
第三方面，本技术实施例还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如第一方面任一项所述的方法。
[0052]
第四方面，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如第一方面任一项所述的方法。
[0053]
本技术实施例提供的技术方案可以包括如下有益效果：
[0054]
本技术提供了一种新的图文匹配模型训练方案，该方案可以确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度。然后，计算所述正样本对与困难负样本对的相似度差值，所述困难负样本对为相似度最高的负样本对。然后，基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；所述第一损
失函数用于挖掘困难负样本对；所述第二损失函数用于挖掘非困难负样本对。进而，根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型。这样，可以根据相似度差值及目标损失函数，选择用第一损失函数还是第二损失函数。也就是，可以有选择地挖掘困难负样本对，解决了图像文本匹配模型在训练初期的梯度消失问题，提升了模型的匹配性能，从而实现精准匹配。
附图说明
[0055]
图1是本技术实施例提供的一种图文匹配模型训练方法的流程图；
[0056]
图2是本技术实施例提供的一种图文匹配模型训练装置的结构示意图；
[0057]
图3是本技术实施例提供的一种计算机设备的结构框图。
具体实施方式
[0058]
为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的方法的例子。
[0059]
发明人在实现本技术的过程中发现，相关技术在图文匹配模型训练过程中，通常会应用困难负样本对挖掘策略，为损失函数挖掘困难负样本对。但在训练初期，正样本对和困难负样本对的相似度较为接近，只使用困难负样本对进行训练会出现梯度消失问题，影响模型的训练，导致不合理的匹配结果。
[0060]
也就是说，本技术发明人发现只使用困难负样本对进行训练会出现梯度消失的问题，从而影响图文匹配模型匹配结果，也是付出了创造性劳动的。
[0061]
为了解决该技术问题，本技术实施例提供了一种新的图文匹配模型训练方法、装置、设备及存储介质。其中，该方法包括：确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对；基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对；根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。
[0062]
可见，该方案可以根据相似度差值及选择用第一损失函数或第二损失函数，实现有选择地挖掘困难负样本对，解决了现有技术在训练初期的梯度消失问题，提升了模型的匹配性能，从而可以实现精准匹配。
[0063]
下面首先对本技术实施例涉及的一些名词进行说明。
[0064]
样本对包括：一条图像数据与一条文本数据。
[0065]
正样本对是指：图像数据与文本数据匹配的样本对。
[0066]
负样本对是指：图像数据与文本数据不匹配的样本对。
[0067]
困难负样本对是指：难以区分是为正样本对还是负样本对的负样本对。
[0068]
预设阈值：发明人基于实现数据及经验设置的值。
[0069]
损失函数：用于引导图文匹配模型使正样本对的相似度大于困难负样本对的相似
度。
[0070]
flickr30k数据集：包含从flickr收集的31000张图像，以及人类注释器提供的5个参考句子。
[0071]
faster-rcnn：是一种用于目标检测的深度学习模型，它可以快速地生成候选区域并对其进行分类和定位。
[0072]
bert：是一种基于transformer的双向语言表示模型，它可以通过预训练和微调两个阶段来适应不同的自然语言处理任务，如文本分类、命名实体识别、问答等。
[0073]
adam优化器：是一种结合了adagrad和rmsprop两种优化算法的优点的算法，它能够对每个参数的学习率进行自适应调整，同时考虑了梯度的一阶矩估计(均值)和二阶矩估计(方差)。
[0074]
l2标准化：一种数据预处理的方法，可以将一个向量的每个元素除以它的l2范数，使得向量的长度为1；l2范数是向量的欧几里得长度，也就是各个元素的平方和的平方根。
[0075]
召回率：一种评价模型预测性能的指标，表示在实际为正的样本中被预测为正的比例。
[0076]
下面结合图1，对本技术实施例提供的图文匹配模型训练方法进行详细说明。
[0077]
参见图1，本技术实施例提供的图文匹配模型训练方法，可以包括如下步骤：
[0078]
s1：确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度。
[0079]
可以理解的是，上述正样本对和负样本对可以是给定图文匹配数据集中的样本对。其中，该图文匹配数据集中包括多个图像文本对(即多个样本对)，一个图像文本对包括一个图像数据和一个文本数据。图像与文本匹配的作为正样本对，图像与文本不匹配的作为负样本对。
[0080]
示例性地，可以选定图文匹配数据集为flickr30k，flickr30k数据集包含31000幅图像，每幅图像有5条文本标注。具体地，可以给定包含成对的图文数据的训练数据集t、验证数据集v及测试数据集u。
[0081]
其中，训练数据集t、验证数据集v及测试数据集u都包含若干个图像文本对，一个图像文本对(vi,tj)包含一幅图像vi和一个句子tj，(vi,ti)表示一个正样本对，(vi,t
j,i≠j
)表示一个负样本对，其中i和j是样本序号。
[0082]
具体地，给定的训练数据集t可以包含成对的图像文本数据29000
×
5条，验证数据集v可以包含成对的图像文本数据1000
×
5条，测试数据集u可以包含成对的图像文本数据1000
×
5条。
[0083]
另外，获取图像数据与文本数据的相似度的方式具体可以为：
[0084]
获取用于训练图文匹配模型的正样本对与负样本对；提取样本对中图像数据的图像特征及文本数据的文本特征；计算该样本对中图像特征和文本特征的相似度，作为该样本对对应的相似度。这样，可以获得正样本对的相似度和负样本对的相似度。
[0085]
其中，可以根据特征提取算法提取图像数据和文本数据的特征。示例性地，可以为图像数据选择特征提取算法faster-rcnn，提取训练数据集中所有图像的特征，特征维度为2048维。
[0086]
为文本选择特征提取算法bert，提取训练数据集中所有文本的特征，特征维度为
768维。
[0087]
然后，使用一层全连接神经网络将提取的图像特征和文本特征映射到相同的维度1024维，对映射后图像和文本的特征进行l2标准化，分别用vi和tj表示。
[0088]
s2：计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对。
[0089]
示例性地，利用图像特征vi和文本特征tj来计算一个训练批次中所有正样本对的相似度与负样本对的相似度：
[0090][0091]
其中，vi和tj分别为图像数据和文本数据，vi和tj分别为vi和tj对应的特征向量。(vi,ti)表示正样本对，s(vi,ti)表示正样本对的相似度，(vi,t
j,i≠j
)表示负样本对，s(vi,t
j,i≠j
)表示负样本对的相似度。
[0092]
并且，可以定义相似度最高的负样本对为困难负样本对，并计算正样本对与困难负样本对的相似度差值。
[0093]
示例性地，利用表示困难负样本对，并定义困难负样本对的相似度为：
[0094][0095]
进而，可以计算正样本对与困难负样本对的相似度差值：
[0096][0097]
s3：基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对；
[0098]
可以理解的是，在本技术实施例中，可以根据相似度差值选择是否挖掘困难负样本对。
[0099]
可选地，当相似度差值大于预设阈值时，选择目标损失函数中用于挖掘困难负样本对的第一损失函数；当相似度差值小于等于预设阈值时，选择目标损失函数中用于挖掘非困难负样本对的第二损失函数。
[0100]
可选地，第一损失函数可以为：
[0101][0102]
其中，l
triplet-hn
为第一损失函数，为困难负样本对对应的相似度，s(vi,ti)为正样本对对应的相似度，θ为第一损失函数的边界系数；vi为第i个图像数据，ti为第i个文本数据，(vi,ti)为一个正样本对，为一个困难负样本对。
[0103]
可选地，第二损失函数包括：
[0104][0105]
其中，l
triplet
为第二损失函数，s(vi,tj)为负样本对对应的相似度；s(vi,ti)为正样本对对应的相似度，λ为第二损失函数的边界系数；vi为第i个图像数据；ti为第i个文本数
据，tj为第j个文本数据；(vi,ti)表示一个正样本对，(vi,tj)表示一个负样本对；b是迭代训练时样本对的数量值。
[0106]
可以理解的是，非困难负样本对可以包括：负样本对中不属于困难负样本对的负样本对。
[0107]
示例性地，λ及θ的取值可以设置为0.2；预设阈值可以用∈表示，∈取值可以为0.01，当然并不局限于此。其中，相似度差值可以用δs表示。也就是，目标损失函数为：
[0108][0109]
s4：根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。
[0110]
具体地，可以基于深度学习优化器为adam w优化器、所选择的第一损失函数或第二损失函数、正样本对和负样本对，对待训练的图文匹配模型进行迭代训练。然后，利用验证数据对图文匹配模型进行评估，计算得到召回率。若召回率收敛，训练结束，保存训练结束后得到的图文匹配模型。这样，可以训练得到一个可以精准匹配的图文匹配模型。
[0111]
可以理解的是，可以利用训练数据集进行n次迭代后，利用验证数据集对图文匹配模型进行召回率的评估，若召回率不再提升，即召回率收敛，则训练结束，
[0112]
此时可以将提取图像特征的算法模型φ
*
和提取文本特征的算法模型ψ
*
进行保存，否则返回s3执行基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数的操作。
[0113]
其中，可以设定学习率为0.0005，学习率的大小是指设定每次更新参数时的步长。样本对的数量值可以设定为128。迭代次数n可以设定为30。
[0114]
在本技术实施例中，可以选用以文本检索图片和以图片检索文本两个任务中的top 1、top 5和top 10的召回率，若两个任务评估的所有召回率的和不再提升，则模型训练结束。
[0115]
另外，还可以利用测试数据集，对训练得到的图文匹配模型进行测试，这样，图文匹配模型可以基于图像数据和文本数据的特征提取和映射算法模型文件，提取并映射测试数据集中的图像特征和文本特征，计算其相似度并排序，从而输出匹配结果。
[0116]
具体地，可以读取测试数据集，然后加载图像数据和文本数据的特征提取算法模型文件φ
*
和ψ*，提取测试数据集中的图像特征φ
*
(vi)和文本特征ψ
*
(ti)；计算图像特征和文本特征之间相似度s(vi,ti)＝φ
*
(vi)
t
ψ
*
(ti)，之后对相似度进行排序，取top k作为匹配结果。k的取值为可以设置为10。
[0117]
本技术实施例提供的技术方案可以包括如下有益效果：
[0118]
本技术提供了一种新的图文匹配模型训练方案，该方案可以确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度。然后，计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对。然后，基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对。进而，根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。这样，可以根据相似度差值及目标损失函数，选择用第一损失函数还是第二损失函数。也就是，可以有选择地挖掘困难负样本对，解决了图像文本匹配模型在训练初期的梯度消失问题，提升了模型的匹配性能，从而实现精准匹配。
[0119]
应当理解的是，虽然上文描述了各个步骤，但是这些步骤并不是必然按照上述撰写顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。任何合理的顺序都在本技术的保护范围之内，在此不做一一说明。
[0120]
而且，至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0121]
相应于上述方法实施例，本技术实施例还提供了一种图文匹配模型训练装置，参见图2，该装置可以包括：
[0122]
确定模块201，用于确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；
[0123]
计算模块202，用于计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对；
[0124]
选择模块203，用于基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对；
[0125]
训练模块204，用于根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。
[0126]
应用本技术实施例提供的图文匹配模型训练装置，可以确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度。然后，计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对。然后，基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对。进而，根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。这样，可以根据相似度差值及目标损失函数，选择用第一损失函数还是第二损失函数。也就是，可以有选择地挖掘困难负样本对，解决了图像文本匹配模型在训练初期的梯度消失问题，提升了模型的匹配性能，从而实现精准匹配。
[0127]
可选地，选择模块203具体可以用于：
[0128]
当相似度差值大于预设阈值时，选择目标损失函数中用于挖掘困难负样本对的第一损失函数；
[0129]
当相似度差值小于等于预设阈值时，选择目标损失函数中用于挖掘非困难负样本对的第二损失函数。
[0130]
可选地，第一损失函数包括：
[0131][0132]
其中，l
triplet-hn
为第一损失函数，为困难负样本对对应的相似度，s(vi,ti)为正样本对对应的相似度，θ为第一损失函数的边界系数；vi为第i个图像数据，ti为第i个文本数据，(vi,ti)为一个正样本对，为一个困难负样本对。
[0133]
可选地，第二损失函数包括：
[0134][0135]
其中，l
triplet
为第二损失函数，s(vi,tj)为负样本对对应的相似度；s(vi,ti)为正样本对对应的相似度，λ为第二损失函数的边界系数；vi为第i个图像数据；ti为第i个文本数据，tj为第j个文本数据；(vi,ti)表示一个正样本对，(vi,tj)表示一个负样本对；b是迭代训练时样本对的数量值。
[0136]
可选地，确定模块201可以包括：
[0137]
获取子模块，用于获取用于训练图文匹配模型的正样本对与负样本对，每个样本对中包括图像数据与文本数据；
[0138]
提取子模块，用于提取图像数据的图像特征及文本数据的文本特征；
[0139]
计算子模块，用于计算样本对中图像特征和文本特征的相似度，作为该样本对对应的相似度。
[0140]
可选地，训练模块204具体可以用于：
[0141]
基于深度学习优化器为adamw优化器、所选择的第一损失函数或第二损失函数、正样本对和负样本对，对待训练的图文匹配模型进行迭代训练；
[0142]
利用验证数据对图文匹配模型进行评估，计算得到召回率；
[0143]
若召回率收敛，训练结束，保存训练结束后得到的图文匹配模型。
[0144]
第三方面，本技术实施例还提供了一种计算机设备，参见图3，图3是本技术一个实施例提供的计算机设备的结构框图。计算机设备包括处理器301和存储器302，存储器302中存储有计算机程序，计算机程序由处理器301加载并执行以实现如上述任一项图文匹配模型训练方法。
[0145]
处理器301可以包括一个或多个处理核心，比如4核心处理器、17核心处理器等。处理器301可以采用dsp(digital signal processing，数字信号处理)、fpga(field programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有gpu，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器301还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0146]
存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质存储有计算机程序，该计算机程序由处理器301加载并执行以实现上述图文匹配模型训练方法。
[0147]
本领域技术人员可以理解，图3中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0148]
应用本技术实施例提供的计算机设备，可以确定正样本对中图像数据与文本数据
的相似度，及负样本对中图像数据与文本数据的相似度。然后，计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对。然后，基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对。进而，根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。这样，可以根据相似度差值及目标损失函数，选择用第一损失函数还是第二损失函数。也就是，可以有选择地挖掘困难负样本对，解决了图像文本匹配模型在训练初期的梯度消失问题，提升了模型的匹配性能，从而实现精准匹配。
[0149]
第四方面，本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序由处理器加载并执行以实现上述任一项图文匹配模型训练方法。
[0150]
可选地，该计算机可读存储介质可以包括：rom(read-only memory，只读存储器)、ram(random access memory，随机存取存储器)、ssd(solid state drives，固态硬盘)或光盘等。其中，随机存取存储器可以包括reram(resistance random access memory，电阻式随机存取存储器)和dram(dynamic random access memory，动态随机存取存储器)。
[0151]
其中，装置、计算机设备和计算机可读存储介质实施例是方法实施例对应的内容，相关内容可以参见方法实施例，在此不做赘述。
[0152]
本技术实施例提供计算机可读存储介质其存储的计算机程序被计算机设备运行后，可以确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度。然后，计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对。然后，基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对。进而，根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。这样，可以根据相似度差值及目标损失函数，选择用第一损失函数还是第二损失函数。也就是，可以有选择地挖掘困难负样本对，解决了图像文本匹配模型在训练初期的梯度消失问题，提升了模型的匹配性能，从而实现精准匹配。
[0153]
应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本技术实施例对此不作限定。上述各个实施例也可以进行任意组合，在此不再对组合方案进行赘述。
[0154]
以上仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：
1.一种图文匹配模型训练方法，其特征在于，包括：确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；计算所述正样本对与困难负样本对的相似度差值，所述困难负样本对为相似度最高的负样本对；基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；所述第一损失函数用于挖掘困难负样本对；所述第二损失函数用于挖掘非困难负样本对；根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型。2.根据权利要求1所述的方法，其特征在于，所述基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数，包括：当所述相似度差值大于预设阈值时，选择目标损失函数中用于挖掘困难负样本对的第一损失函数；当所述相似度差值小于等于所述预设阈值时，选择目标损失函数中用于挖掘非困难负样本对的第二损失函数。3.根据权利要求1或2所述的方法，其特征在于，所述第一损失函数包括：其中，所述l
triplet-hn
为所述第一损失函数，所述为困难负样本对对应的相似度，所述s(v
i
,t
i
)为正样本对对应的相似度，所述θ为所述第一损失函数的边界系数；所述v
i
为第i个图像数据，所述t
i
为第i个文本数据，(v
i
,t
i
)为一个正样本对，所述为一个困难负样本对。4.根据权利要求1或2所述的方法，其特征在于，所述第二损失函数包括：其中，所述l
triplet
为所述第二损失函数，所述s(v
i
,t
j
)为负样本对对应的相似度；所述s(v
i
,t
i
)为正样本对对应的相似度，所述λ为所述第二损失函数的边界系数；所述v
i
为第i个图像数据；所述t
i
为第i个文本数据，所述t
j
为第j个文本数据；所述(v
i
,t
i
)表示一个正样本对，所述(v
i
,t
j
)表示一个负样本对；所述b是迭代训练时样本对的数量值。5.根据权利要求1所述的方法，其特征在于，所述确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度，包括：获取用于训练图文匹配模型的正样本对与负样本对，每个样本对中包括图像数据与文本数据；提取所述图像数据的图像特征及所述文本数据的文本特征；计算所述样本对中图像特征和文本特征的相似度，作为该样本对对应的相似度。6.根据权利要求1所述的方法，其特征在于，所述根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型，包括：基于深度学习优化器为adamw优化器、所选择的所述第一损失函数或所述第二损失函
数、所述正样本对和所述负样本对，对待训练的图文匹配模型进行迭代训练；利用验证数据对所述图文匹配模型进行评估，计算得到召回率；若所述召回率收敛，训练结束，保存训练结束后得到的所述图文匹配模型。7.一种图文匹配模型训练装置，其特征在于，包括：确定模块，用于确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；计算模块，用于计算所述正样本对与困难负样本对的相似度差值，所述困难负样本对为相似度最高的负样本对；选择模块，用于基于所述相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；所述第一损失函数用于挖掘困难负样本对；所述第二损失函数用于挖掘非困难负样本对；训练模块，用于根据所选择的所述第一损失函数或所述第二损失函数，训练所述图文匹配模型。8.根据权利要求7所述的装置，其特征在于，所述选择模块具体用于：当所述相似度差值大于预设阈值时，选择目标损失函数中用于挖掘困难负样本对的第一损失函数；当所述相似度差值小于等于所述预设阈值时，选择目标损失函数中用于挖掘非困难负样本对的第二损失函数。9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至6任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至6任一项所述的方法。

技术总结
本申请公开了一种图文匹配模型训练方法、装置、设备及存储介质，方法包括：确定正样本对中图像数据与文本数据的相似度，及负样本对中图像数据与文本数据的相似度；计算正样本对与困难负样本对的相似度差值，困难负样本对为相似度最高的负样本对；基于相似度差值，选择目标损失函数中的第一损失函数或第二损失函数；第一损失函数用于挖掘困难负样本对；第二损失函数用于挖掘非困难负样本对；根据所选择的第一损失函数或第二损失函数，训练图文匹配模型。这样，可以根据相似度差值及选择用第一损失函数或第二损失函数，实现有选择地挖掘困难负样本对，解决了相关技术在训练初期的梯度消失问题，提升了模型的匹配性能，从而实现精准匹配。匹配。匹配。

技术研发人员：胡林李政郭彩丽杨洋刘芳芳
受保护的技术使用者：北京邮电大学
技术研发日：2023.05.16
技术公布日：2023/8/6

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种图文匹配模型训练方法、装置、设备及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种图文匹配模型训练方法、装置、设备及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表