一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置
未命名
07-24
阅读:82
评论:0
1.本技术涉及计算机视觉、自然语言处理和机器学习技术领域,具体涉及一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置。
背景技术:
2.视频文本跨模态检索目的实现给定其中一种模态的查询输入,在多媒体数据集库中根据跨模态语义相似度得到另一种模态的检索返回。随着移动互联网的迅猛发展以及短视频平台的流量扩张,多媒体数据在短时间内快速激增,引发视频文本跨模态检索需求日益增加。然而,由于利用文本进行视频标注成本高昂,标注人员认知水平参差不齐,无法避免的将噪声数据引入模型训练集,导致视频文本跨模态检索模型性能大幅降低。
3.现有视频文本跨模态检索的训练方式核心思想可以总结为:最大化正样本对之间的相似度,同时最小化负样本对之间的相似度。然而,当训练数据存在噪声时,模型如果仍然按照错误的正负样本对标注信息进行训练,将会显著影响模型检索精度。
技术实现要素:
4.针对现有视频文本跨模态检索方法无法在训练样本含有噪声的情况下保证检索性能稳定性的问题,本发明提出了一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置,将训练数据按照是否含有噪声以及含有噪声类别进行重划分,然后分别设计鲁棒训练策略,保证模型性能稳定性。本技术所采用的技术方案如下:
5.一种基于训练数据重划分的鲁棒视频文本跨模态检索方法,该方法包括:
6.步骤s0,利用带噪数据集训练两个网络结构相同的模型a和模型b进行预热,得到两个预热后模型;
7.步骤s1,分别计算两个预热后模型中所有样本对的损失函数值;
8.步骤s2,根据所述损失函数值,分别拟合两个预热后模型的二元高斯混合模型;
9.步骤s3,利用拟合的所述二元高斯混合模型,根据对应均值较大高斯元的后验概率,重新划分训练集为三个子集;
10.步骤s4,利用重新划分得到的所述三个子集,分别平滑每个子集的语义匹配标签;
11.步骤s5,根据每个子集的所述语义匹配标签,构建三元组损失函数的自适应间隔值;
12.步骤s6,根据所述自适应间隔值,约束样本对之间的相似度关系,并对两个预热后模型分别进行微调训练;
13.步骤s7,利用微调后的模型实现视频文本跨模态检索。
14.进一步的,步骤s0具体包括:
15.步骤s000,选定带噪数据集,其中训练集d具体表示为:
16.17.其中共有n个视频文本样本对(vi,ti),语义匹配标签ci∈{0,1}表示样本对是否被标注为具有相同的语义内容;
18.步骤s001,选取任意现有模型a将视频文本样本对(vi,ti)映射至d维公共空间中,根据原模型定义计算跨模态相似度sa(vi,ti);
19.步骤s002,构建与模型a具有相同网络结构但是初始化方式不同的模型b,将视频文本样本对(vi,ti)映射至d维公共空间中,根据原模型定义计算跨模态相似度sb(vi,ti);
20.步骤s003,选取三元组损失函数在数据集d上分别对a模型进行m个轮次的训练,得到模型a的预热模型:
[0021][0022]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值;
[0023]
步骤s004,选取三元组损失函数在数据集d上分别对b模型进行m个轮次的训练,得到模型b的预热模型:
[0024][0025]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值。
[0026]
进一步的,步骤s1具体包括:
[0027]
步骤s100,关于训练集d中n个具有语义匹配标签ci=1的视频文本样本对利用模型a的预热模型计算所有样本对的损失函数值
[0028][0029]
步骤s101,关于训练集d中n个具有语义匹配标签ci=1的视频文本样本对利用模型b的预热模型计算所有样本对的损失函数值
[0030][0031]
进一步的,步骤s2具体包括:
[0032]
步骤s200,将模型a的预热模型计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第k个高斯元的概率密度
[0033][0034]
其中为关于模型a的预热模型的高斯混合系数;
[0035]
步骤s201,将模型b的预热模型计算所得损失函数值拟合二元高斯混合模
型,得到第i个视频文本样本对关于第k个高斯元的概率密度
[0036][0037]
其中为关于模型b的预热模型的高斯混合系数。
[0038]
进一步的,步骤s3具体包括:
[0039]
步骤s300,计算模型a的预热模型输出的第i个视频文本样本对关于均值较小高斯元k
′
的后验概率
[0040][0041]
步骤s301,计算模型b的预热模型输出的第i个视频文本样本对关于均值较小高斯元k
′
的后验概率
[0042][0043]
步骤s302,联合后验概率和将训练集d重新划分为正确、困难和带噪三个子集用于模型a的预热模型后续微调训练:
[0044][0045]
其中β表示后验概率门限值;
[0046]
步骤s302,联合后验概率和将训练集d重新划分为正确、困难和带噪三个子集用于模型b的预热模型后续微调训练:
[0047][0048]
其中β表示后验概率门限值。
[0049]
进一步的,步骤s4具体包括:
[0050]
步骤s400,针对视频文本样本对(vi,ti),在所属训练批次内利用模型a的预热模型计算预测得分pa(vi,ti):
[0051][0052]
其中b表示每个训练批次中的样本对数量;
[0053]
步骤s401,针对视频文本样本对(vi,ti),在所属训练批次内利用模型b的预热模型计算预测得分pb(vi,ti):
[0054][0055]
其中b表示每个训练批次中的样本对数量;
[0056]
步骤s402,针对模型a的预热模型所属三个训练子集,分别平滑语义匹配标签
[0057][0058]
步骤s403,针对模型b的预热模型所属三个训练子集,分别平滑语义匹配标签
[0059][0060]
进一步的,步骤s5具体包括:
[0061]
步骤s500,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型a的预热模型视频困难样本v
ha
:
[0062][0063]
步骤s501,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型a的预热模型文本困难样本t
ha
:
[0064][0065]
步骤s502,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型b的预热模型视频困难样本v
hb
:
[0066][0067]
步骤s503,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型b的预热模型文本困难样本t
hb
:
[0068]
[0069]
步骤s504,计算视频困难样本v
ha
的语义匹配标签
[0070][0071]
步骤s505,计算文本困难样本t
ha
的语义匹配标签
[0072][0073]
步骤s506,计算视频困难样本v
hb
的语义匹配标签
[0074][0075]
步骤s507,计算文本困难样本t
hb
的语义匹配标签
[0076][0077]
步骤s508,构建关于模型a的预热模型视频部分三元组损失函数的自适应间隔值
[0078][0079]
其中m为超参数;
[0080]
步骤s509,构建关于模型a的预热模型文本部分三元组损失函数的自适应间隔值
[0081][0082]
其中m为超参数;
[0083]
步骤s510,构建关于模型b的预热模型视频部分三元组损失函数的自适应间隔值
[0084][0085]
其中m为超参数;
[0086]
步骤s511,构建关于模型b的预热模型文本部分三元组损失函数的自适应间隔值
[0087][0088]
其中m为超参数。
[0089]
进一步的,步骤s6具体包括:
[0090]
步骤s600,将自适应间隔值和替换三元组损失函数中的间隔值α得到自适应间隔三元组损失函数用于模型a的预热模型后续微调训练m
′
个轮次,然后得到微调训练后的模型a,具体计算方式为:
[0091][0092]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零;
[0093]
步骤s601,将自适应间隔值和替换三元组损失函数中的间隔值α得到自适应间隔三元组损失函数用于模型b的预热模型后续微调训练m
′
个轮次,然后得到微调训练后的模型b,具体计算方式为:
[0094][0095]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零。
[0096]
进一步的,步骤s7具体包括:
[0097]
步骤s700,利用微调训练后的模型a,对所有待检索的视频和文本进行特征提取;
[0098]
步骤s701,利用微调训练后的模型b,对所有待检索的视频和文本进行特征提取;
[0099]
步骤s702,选择一个文本作为查询输入,计算其关于微调训练后的模型a和模型b的特征与所有候选视频特征的相似度平均值,然后根据相似度平均值对所有候选视频进行降序排序,并将排序靠前的视频作为检索结果返回,以此实现文本到视频的跨模态检索。
[0100]
步骤s703,选择一个视频作为查询输入,计算其关于微调训练后的模型a和模型b的特征与所有候选文本特征的相似度平均值,然后根据相似度平均值对所有候选文本进行降序排序,并将排序靠前的文本作为检索结果返回,以此实现视频到文本的跨模态检索。
[0101]
一种基于训练数据重划分的鲁棒视频文本跨模态检索装置,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现上述方法。
[0102]
通过本技术实施例,可以获得如下技术效果:本技术根据带噪数据的特性将其划分为正确、困难和带噪三个子集,并设计统一训练目标优化样本对之间在公共空间的距离关系,实现在任意带噪噪声比例条件下模型的鲁棒训练,保持视频文本跨模态检索的精度稳定性。
附图说明
[0103]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0104]
图1为鲁棒视频文本跨模态检索方法的流程示意图。
具体实施方式
[0105]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本技术保护的范围。
[0106]
图1为鲁棒视频文本跨模态检索方法的流程示意图。该方法包括如下步骤:
[0107]
步骤s0,利用带噪数据集训练两个网络结构相同的模型进行预热;
[0108]
步骤s0进一步包括:
[0109]
步骤s000,选定带噪数据集msr-vtt,其中训练集d可以具体表示为:
[0110][0111]
其中共有n=131460个视频文本样本对(vi,ti),语义匹配标签ci∈{0,1}表示样本对是否被标注为具有相同的语义内容;
[0112]
步骤s001,选取任意现有模型a将视频文本样本对(vi,ti)映射至d维公共空间中,根据原模型定义计算跨模态相似度sa(vi,ti);
[0113]
步骤s002,构建与模型a具有相同网络结构但是初始化方式不同的模型b,将视频文本样本对(vi,ti)映射至d=2048维公共空间中,根据原模型定义计算跨模态相似度sb(vi,ti);
[0114]
步骤s003,选取三元组损失函数在数据集d上分别对a模型进行m=10个轮次的训练,实现模型a的预热:
[0115][0116]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α=0.2表示固定间隔值;
[0117]
步骤s004,选取三元组损失函数在数据集d上分别对b模型进行m=10个轮次的训练,实现模型b的预热:
[0118][0119]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α=0.2表示固定间隔值;
[0120]
步骤s1,利用步骤s0中得到的两个预热模型,分别计算训练集中所有样本对的损失函数值;
[0121]
步骤s1进一步包括:
[0122]
步骤s100,关于训练集d中n=131460个具有语义匹配标签ci=1的视频文本样本对利用预热模型a计算所有样本对的损失函数值
[0123][0124]
步骤s101,关于训练集d中n=131460个具有语义匹配标签ci=1的视频文本样本对利用预热模型b计算所有样本对的损失函数值
[0125][0126]
步骤s2,利用步骤s1中得到的损失函数值,分别拟合二元高斯混合模型;
[0127]
步骤s2进一步包括:
[0128]
步骤s200,将预热模型a计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第k个高斯元的概率密度
[0129][0130]
其中为关于模型a的高斯混合系数;
[0131]
步骤s201,将预热模型b计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第k个高斯元的概率密度
[0132][0133]
其中为关于模型b的高斯混合系数;
[0134]
步骤s3,利用步骤s2中得到的拟合结果,根据对应均值较大高斯元的后验概率,重新划分训练集为三个子集;
[0135]
步骤s3进一步包括:
[0136]
步骤s300,计算预热模型a输出的第i个视频文本样本对关于均值较小高斯元k
′
的后验概率
[0137][0138]
步骤s301,计算预热模型b输出的第i个视频文本样本对关于均值较小高斯元k
′
的后验概率
[0139][0140]
步骤s302,联合后验概率和将训练集d重新划分为正确、困难和带噪三个子集用于模型a的后续训练:
[0141][0142]
其中β=0.5表示后验概率门限值;
[0143]
步骤s302,联合后验概率和将训练集d重新划分为正确、困难和带噪三个子集用于模型b的后续训练:
[0144][0145]
其中β=0.5表示后验概率门限值;
[0146]
步骤s4,利用步骤s3中得到的划分子集结果,分别平滑每个子集的语义匹配标签;
[0147]
步骤s4进一步包括:
[0148]
步骤s400,针对视频文本样本对(vi,ti),在所属训练批次内利用模型a计算预测得分pa(vi,ti):
[0149][0150]
其中b=32表示每个训练批次中的样本对数量;
[0151]
步骤s401,针对视频文本样本对(vi,ti),在所属训练批次内利用模型b计算预测得分pb(vi,ti):
[0152][0153]
其中b=32表示每个训练批次中的样本对数量;
[0154]
步骤s402,针对模型a的三个训练子集,分别平滑语义匹配标签
[0155][0156]
步骤s403,针对模型b的三个训练子集,分别平滑语义匹配标签
[0157][0158]
步骤s5,利用步骤s4中得到的训练标签,构建三元组损失函数的自适应间隔值;
[0159]
步骤s5进一步包括:
[0160]
步骤s500,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型a的视频困难样本
[0161][0162]
步骤s501,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型a的文本困难样本
[0163][0164]
步骤s502,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型b的视频困难样本
[0165][0166]
步骤s503,针对视频文本样本对(vi,ti),在所属训练批次内定义关于模型b的文本困难样本
[0167][0168]
步骤s504,计算视频困难样本的语义匹配标签
[0169][0170]
步骤s505,计算文本困难样本的语义匹配标签
[0171][0172]
步骤s506,计算视频困难样本的语义匹配标签
[0173][0174]
步骤s507,计算文本困难样本的语义匹配标签
[0175][0176]
步骤s508,构建关于模型a的视频部分三元组损失函数的自适应间隔值
[0177][0178]
其中m=10为超参数;
[0179]
步骤s509,构建关于模型a的文本部分三元组损失函数的自适应间隔值
[0180][0181]
其中m=10为超参数;
[0182]
步骤s510,构建关于模型b的视频部分三元组损失函数的自适应间隔值
[0183][0184]
其中m=10为超参数;
[0185]
步骤s511,构建关于模型b的文本部分三元组损失函数的自适应间隔值
[0186][0187]
其中m=10为超参数;
[0188]
步骤s6,利用步骤s5中得到的自适应间隔值,约束样本对之间相似度关系,微调训练模型;
[0189]
步骤s6进一步包括:
[0190]
步骤s600,将自适应间隔值和替换三元组损失函数中的间隔值α得到自适应间隔三元组损失函数用于模型a后续微调训练m
′
个轮次,具体计算方式为:
[0191][0192]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零;
[0193]
步骤s601,将自适应间隔值和替换三元组损失函数中的间隔值α得到自适应间隔三元组损失函数用于模型b后续微调训练m
′
个轮次,具体计算方式为:
[0194][0195]
其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零;
[0196]
步骤s7,利用步骤s6训练得到的模型实现视频文本跨模态检索。
[0197]
步骤s7进一步包括:
[0198]
步骤s700,利用已训练完成的模型a,对所有待检索的视频和文本进行特征提取;
[0199]
步骤s701,利用已训练完成的模型b,对所有待检索的视频和文本进行特征提取;
[0200]
步骤s702,选择一个文本作为查询输入,计算其关于模型a和b的特征和所有候选视频特征的相似度平均值,然后根据相似度平均值对所有候选视频进行降序排序,并将排序靠前的视频作为检索结果返回,以此实现文本到视频的跨模态检索。
[0201]
步骤s703,选择一个视频作为查询输入,计算其关于模型a和b的特征和所有候选文本特征的相似度平均值,然后根据相似度平均值对所有候选文本进行降序排序,并将排序靠前的文本作为检索结果返回,以此实现视频到文本的跨模态检索。
[0202]
综上所述,本技术提出的鲁棒视频文本跨模态检索方案,根据带噪数据的特性将其划分为正确、困难和带噪三个子集,并设计统一训练目标优化样本对之间在公共空间的距离关系,实现在任意带噪噪声比例条件下模型的鲁棒训练,保持视频文本跨模态检索的精度稳定性。
[0203]
虽然以上描述了本技术的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本技术的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本技术的原理和实质的前提下,可以对这些实施方式作出多种变更或修改,但这些变更和修改均落入本技术的保护范围。
技术特征:
1.一种基于训练数据重划分的鲁棒视频文本跨模态检索方法,其特征在于,该方法包括:步骤s0,利用带噪数据集训练两个网络结构相同的模型a和模型b进行预热,得到两个预热后模型;步骤s1,分别计算两个预热后模型中所有样本对的损失函数值;步骤s2,根据所述损失函数值,分别拟合两个预热后模型的二元高斯混合模型;步骤s3,利用拟合的所述二元高斯混合模型,根据对应均值较大高斯元的后验概率,重新划分训练集为三个子集;步骤s4,利用重新划分得到的所述三个子集,分别平滑每个子集的语义匹配标签;步骤s5,根据每个子集的所述语义匹配标签,构建三元组损失函数的自适应间隔值;步骤s6,根据所述自适应间隔值,约束样本对之间的相似度关系,并对两个预热后模型分别进行微调训练;步骤s7,利用微调后的模型实现视频文本跨模态检索。2.根据权利要求1所述的方法,其特征在于,步骤s0具体包括:步骤s000,选定带噪数据集,其中训练集d具体表示为:其中共有n个视频文本样本对(v
i
,t
i
),语义匹配标签c
i
∈{0,1}表示样本对是否被标注为具有相同的语义内容;步骤s001,选取任意现有模型a将视频文本样本对(v
i
,t
i
)映射至d维公共空间中,根据原模型定义计算跨模态相似度s
a
(v
i
,t
i
);步骤s002,构建与模型a具有相同网络结构但是初始化方式不同的模型b,将视频文本样本对(v
i
,t
i
)映射至d维公共空间中,根据原模型定义计算跨模态相似度s
b
(v
i
,t
i
);步骤s003,选取三元组损失函数在数据集d上分别对a模型进行m个轮次的训练,得到模型a的预热模型:其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值;步骤s004,选取三元组损失函数在数据集d上分别对b模型进行m个轮次的训练,得到模型b的预热模型:其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零,α表示固定间隔值。3.根据权利要求1所述的方法,其特征在于,步骤s1具体包括:步骤s100,关于训练集d中n个具有语义匹配标签c
i
=1的视频文本样本对
利用模型a的预热模型计算所有样本对的损失函数值利用模型a的预热模型计算所有样本对的损失函数值步骤s101,关于训练集d中n个具有语义匹配标签c
i
=1的视频文本样本对利用模型b的预热模型计算所有样本对的损失函数值利用模型b的预热模型计算所有样本对的损失函数值4.根据权利要求1所述的方法,其特征在于,步骤s2具体包括:步骤s200,将模型a的预热模型计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第k个高斯元的概率密度到第i个视频文本样本对关于第k个高斯元的概率密度其中为关于模型a的预热模型的高斯混合系数;步骤s201,将模型b的预热模型计算所得损失函数值拟合二元高斯混合模型,得到第i个视频文本样本对关于第k个高斯元的概率密度到第i个视频文本样本对关于第k个高斯元的概率密度其中为关于模型b的预热模型的高斯混合系数。5.根据权利要求1所述的方法,其特征在于,步骤s3具体包括:步骤s300,计算模型a的预热模型输出的第i个视频文本样本对关于均值较小高斯元k
′
的后验概率的后验概率步骤s301,计算模型b的预热模型输出的第i个视频文本样本对关于均值较小高斯元k
′
的后验概率的后验概率步骤s302,联合后验概率和将训练集d重新划分为正确、困难和带噪三个子集用于模型a的预热模型后续微调训练:
其中β表示后验概率门限值;步骤s302,联合后验概率和将训练集d重新划分为正确、困难和带噪三个子集用于模型b的预热模型后续微调训练:其中β表示后验概率门限值。6.根据权利要求1所述的方法,其特征在于,步骤s4具体包括:步骤s400,针对视频文本样本对(v
i
,t
i
),在所属训练批次内利用模型a的预热模型计算预测得分p
a
(v
i
,t
i
):其中b表示每个训练批次中的样本对数量;步骤s401,针对视频文本样本对(v
i
,t
i
),在所属训练批次内利用模型b的预热模型计算预测得分p
b
(v
i
,t
i
):其中b表示每个训练批次中的样本对数量;步骤s402,针对模型a的预热模型所属三个训练子集,分别平滑语义匹配标签步骤s402,针对模型a的预热模型所属三个训练子集,分别平滑语义匹配标签步骤s403,针对模型b的预热模型所属三个训练子集,分别平滑语义匹配标签
7.根据权利要求1所述的方法,其特征在于,步骤s5具体包括:步骤s500,针对视频文本样本对(v
i
,t
i
),在所属训练批次内定义关于模型a的预热模型视频困难样本v
ha
:步骤s501,针对视频文本样本对(v
i
,t
i
),在所属训练批次内定义关于模型a的预热模型文本困难样本t
ha
:步骤s502,针对视频文本样本对(v
i
,t
i
),在所属训练批次内定义关于模型b的预热模型视频困难样本视频困难样本步骤s503,针对视频文本样本对(v
i
,t
i
),在所属训练批次内定义关于模型b的预热模型文本困难样本文本困难样本步骤s504,计算视频困难样本的语义匹配标签的语义匹配标签步骤s505,计算文本困难样本的语义匹配标签的语义匹配标签步骤s506,计算视频困难样本的语义匹配标签的语义匹配标签步骤s507,计算文本困难样本的语义匹配标签的语义匹配标签步骤s508,构建关于模型a的预热模型视频部分三元组损失函数的自适应间隔值步骤s508,构建关于模型a的预热模型视频部分三元组损失函数的自适应间隔值其中m为超参数;
步骤s509,构建关于模型a的预热模型文本部分三元组损失函数的自适应间隔值步骤s509,构建关于模型a的预热模型文本部分三元组损失函数的自适应间隔值其中m为超参数;步骤s510,构建关于模型b的预热模型视频部分三元组损失函数的自适应间隔值步骤s510,构建关于模型b的预热模型视频部分三元组损失函数的自适应间隔值其中m为超参数;步骤s511,构建关于模型b的预热模型文本部分三元组损失函数的自适应间隔值步骤s511,构建关于模型b的预热模型文本部分三元组损失函数的自适应间隔值其中m为超参数。8.根据权利要求1所述的方法,其特征在于,步骤s6具体包括:步骤s600,将自适应间隔值和替换三元组损失函数中的间隔值α得到自适应间隔三元组损失函数用于模型a的预热模型后续微调训练m
′
个轮次,然后得到微调训练后的模型a,具体计算方式为:其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零;步骤s601,将自适应间隔值和替换三元组损失函数中的间隔值α得到自适应间隔三元组损失函数用于模型b的预热模型后续微调训练m
′
个轮次,然后得到微调训练后的模型b,具体计算方式为:其中[x]
+
=max(x,0)表示函数计算结果仅取正值,其余情况函数值赋零。9.根据权利要求1所述的方法,其特征在于,步骤s7具体包括:步骤s700,利用微调训练后的模型a,对所有待检索的视频和文本进行特征提取;步骤s701,利用微调训练后的模型b,对所有待检索的视频和文本进行特征提取;步骤s702,选择一个文本作为查询输入,计算其关于微调训练后的模型a和模型b的特征与所有候选视频特征的相似度平均值,然后根据相似度平均值对所有候选视频进行降序排序,并将排序靠前的视频作为检索结果返回,以此实现文本到视频的跨模态检索。步骤s703,选择一个视频作为查询输入,计算其关于微调训练后的模型a和模型b的特征与所有候选文本特征的相似度平均值,然后根据相似度平均值对所有候选文本进行降序排序,并将排序靠前的文本作为检索结果返回,以此实现视频到文本的跨模态检索。10.一种基于训练数据重划分的鲁棒视频文本跨模态检索装置,包括处理器和存储有
计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的方法。
技术总结
本申请提供了一种基于训练数据重划分的鲁棒视频文本跨模态检索方法和装置,该方法根据带噪数据的特性将其划分为正确、困难和带噪三个子集,并设计统一训练目标优化样本对之间在公共空间的距离关系,实现在任意带噪噪声比例条件下模型的鲁棒训练,保持视频文本跨模态检索的精度稳定性。检索的精度稳定性。检索的精度稳定性。
技术研发人员:胡林 冯泽润 郭彩丽 杨洋 刘芳芳
受保护的技术使用者:北京邮电大学
技术研发日:2023.05.26
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
