一种基于视频深度信息的多模态视频语言学习方法与流程
未命名
07-27
阅读:87
评论:0
1.本发明涉及视频语言学习技术领域,具体涉及一种基于视频深度信息的多模态视频语言学习方法。
背景技术:
2.在视频语言任务中,大量的文本标注都描述了视频中出现的物体之间的几何关系(包括形状、相对位置等等)。在常用的四个视频问答以及视频检索的数据集上(包括msvd,msr-vtt,msvd-qa以及msrvtt-qa)这类标注所占的比例从19.6%到45.0%不等。而以往的模型常常在这类与几何相关的任务上表现不佳。
3.视频和语言学习受到了前所未有的关注。近年来,人们提出了许多视频语言任务,包括自动生成视频描述、视频问答和视频文本匹配。通常,这些任务使用编码器从固定的视频序列中提取视频特征,然后采用基于特定任务的模块设计来促使视频和语言两个模态之间的对齐,从而能够使模型更好地理解多模态语义信息。近年来,视频语言学习的研究主要集中在各种预训练的视频特征提取模型上,一些工作还研究了对象级表示,以改进使用细粒度的对象和动作的语言生成和预测。然而,这些广泛使用的视频表示形式往往缺乏几何信息,这很容易导致模型在场景混乱的视频上的性能下降。
技术实现要素:
4.本发明的目的在于提供一种基于视频深度信息的多模态视频语言学习方法,以能够结合视频深度信息,更好地对视频中不同对象个体之间的几何关系进行提取以及建模;除此之外,为了保证计算效率,本发明还为每个transformer模块设计了具有线性计算复杂度的稀疏注意力机制模块来学习深度感知的二维表示。
5.本发明解决上述技术问题的技术方案如下:
6.本发明提供一种基于视频深度信息的多模态视频语言学习方法,所述基于视频深度信息的多模态视频语言学习方法包括:
7.s1:提取原始视频的第一特征信息和所述原始视频中文本的第二特征信息;
8.s2:根据所述第一特征信息,利用dast模块,得到最终视频特征;所述最终视频特征为带有视频深度信息且考虑不同尺度下帧的时间相关性的视频特征;
9.s3:利用所述最终视频特征和所述第二特征信息设计头部网络以适应不同跨模态任务需求。
10.可选择地,所述s1中,所述第一特征信息为视频帧的外观特征、视频帧的运动特征和视频中的深度特征,所述视频中的深度特征通过以下方式得到:
11.利用depthformer提取所述原始视频中的深度信息,并利用残差神经网络提取所述深度信息中的深度特征。
12.可选择地,所述s2包括:
13.将所述第一特征信息作为所述dast模块的输入信息;
14.对所述第一特征信息进行多尺度特征操作,得到所述第一特征信息的多尺度特征;
15.对不同尺度的特征进行膨胀操作和注意力计算,得到最终视频特征。
16.可选择地,所述dast模块包括4个构成组,第一构成组包括两个堆叠设置的dsca子模块和融合子模块,所述两个堆叠设置的dsca子模块和所述融合子模块依次设置,所述第一构成组和第二构成组构造为具有相同结构,且所述第一构成组和/或所述第二构成组对所述第一特征信息进行多尺度特征操作;
17.第三构成组包括依次设置的膨胀子模块和两个堆叠设置的dsca子模块,所述第三构成组和第四构成组构造为具有相同结构,且所述第三构成组和/或所述第四构成组对不同尺度的特征进行膨胀操作和注意力计算;
18.所述第二构成组和所述第三构成组之间设置有瓶颈层;
19.所述第二构成组和所述第三构成组的输出结果残差连接,所述第一构成组和所述第四构成组的输出结果残差连接。
20.可选择地,所述dsca子模块采用计算稀疏注意力的方式,即针对每一帧,仅仅让其与周围一个局部时间范围内的深度图特征计算注意力,局部时间范围的定义为:
[0021][0022]
其中,表示根据当前时间t采样的局部帧的深度特征集合,表示局部时间范围内采样帧的深度特征,r表示局部时间范围内采样帧的时间,t表示当前帧的时间,h表示局部采样的半径阈值。
[0023]
可选择地,所述dsca子模块采用多头注意力机制,对于每一个头,dsca子模块采用不同的映射头来学习不同的特征;对于第m个头,dsca子模块将深度特征作为键key以及值value,而将视频的帧特征作为query,通过下述公式来计算每一帧特征与其相邻几帧的深度图特征的注意力得分:
[0024][0025]
其中,表示当前时间t的视频帧特征,m表示第m个注意力头,表示缩放尺度因子,k与v
t
分别代表键key与值value,vm与um则均代表映射的可学习参数,最终得到的a
mqk
则为注意力图,表示根据当前时间t采样的局部帧的深度特征集合。
[0026]
可选择地,在得到key与query的注意力得分之后,需要根据注意力图对value进行加权求和,具体方法如下公式所示:
[0027][0028]
其中,zi
t
表示第t帧经过第i层dast,经深度特征指导并经过多头注意力加权后的视频特征,a
mqk
表示注意力图,wm与wm'均代表可学习参数,m代表的是多头注意力中头的数量,表示根据当前时间t采样的局部帧的深度特征集合,v表示局部帧深度特征用于计算注意力的value值,m表示第m个注意力头。
[0029]
可选择地,所述s3中,所述头部网络包括依次设置的注意力enlstm、语言delstm和多层感知机网络,所述多层感知机网络包括第一线性层和第一softmax层,应用于视频描述任务,所述注意力enlstm的输入为所述最终视频特征,对于每一个时间步t,enlstm接受从delstm最后一个隐藏层出来的特征经dast编码后的带有深度信息的视频特征以及前一个生成的单词嵌入w
t-1
,生成一个新的带有历史信息同时附着当前帧信息的特征然后delstm将结合该特征以及视频特征来生成新的特征最后通过一个多层感知机网络来生成下一个单词的概率分布p
t
,具体的方法如下述三个公式所示:
[0030][0031][0032][0033]
所述头部网络的损失函数l
cap
如下:
[0034][0035]
其中,p
θ
代表模型参数,表示当前第s个生成的单词,表示真实的前s-1个单词,s表示真实的整体文本长度,s表示索引。
[0036]
可选择地,所述s3中,所述头部网络包括依次设置的第二线性层、elu激活函数层、第三线性层和第二softmax层,应用于视频问答任务,所述第二特征和所述最终视频特征拼接后作为所述第二线性层的输入,所述头部网络通过所述第二softmax层得到答案集上各个答案的概率,具体的方法为:
[0037][0038][0039]
其中a表示答案集,w2与w3分别表示第二与第三线性层的可学习参数,b2与b3分别表示第二与第三线性层的可学习偏移,o表示视频与文本融合后的特征,表示从dast输出的视频特征,q表示文本特征,p表示输出的概率,表示答案集a大小的向量空间;
[0040]
所述头部网络的损失函数l
qa
为:
[0041][0042]
其中,yi表示第i个正确答案的one-hot向量,i表示答案索引,pi表示第i个答案的概率。
[0043]
可选择地,所述s3中,所述头部网络包括并列设置的第四线性层和第五线性层,以及余弦相似度层,所述第四线性层和所述第五线性层的输入分别为所述第二特征和所述最终视频特征,输出作为所述余弦相似度层的输入,具体做法如下公式:
[0044][0045]
f(s)=w5s+b5,
[0046][0047]
其中,f(v)表示,w4表示第四线性层的可学习参数,表示从dast输出的视频特征,b4表示第四线性层的可学习偏移,w5表示第五线性层的可学习参数,s表示文本特征,b5表示第五线性层的可学习偏移,sim(v,s)表示文本特征与视频特征的相似度;
[0048]
所述头部网络的损失函数为:
[0049]
l
match
=max(0,δ+sim(v,s-)-sim(v,s))+max(0,δ+sim(v-,s)-sim(v,s))
[0050]
sim(v,s-)表示视频v与负样本文本的相似度,sim(v-,s)表示文本s与负样本视频的相似度,sim(v,s)表示正样本视频文本对相似度,δ表示正则项,s-与v-分别表示一个批次里面的负样本文本以及负样本视频。
[0051]
本发明具有以下有益效果:
[0052]
本发明清晰认识到目前视频语言学习的工作未能很好地关注到视频深度信息的问题,提出了一个能够提取并利用视频深度信息的视频语言学习方法,并且提出使用稀疏注意力的方法来有效地降低计算量;除此之外,本发明所提出的层次模型结构,有效地保持了视频特征在时序上的相干性;由此,本发明在多个传统多模态任务上达到了最佳性能。
附图说明
[0053]
图1为本发明基于视频深度信息的多模态视频语言学习方法的流程图;
[0054]
图2为本发明基于视频深度信息的多模态视频语言学习方法的框架结构图;
[0055]
图3为dsca子模块的结构示意图;
[0056]
图4为本发明视频描述任务头部网络结构图;
[0057]
图5为本发明视频问答任务头部网络结构图;
[0058]
图6为本发明视频文本匹配任务头部网络结构图;
[0059]
图7为dast在视频文本匹配任务上与基线模型的对比实例图;
[0060]
图8为dast在视频描述任务上与基线模型的对比实例图。
具体实施方式
[0061]
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0062]
本发明提供一种基于视频深度信息的多模态视频语言学习方法,参考图1所示,所述基于视频深度信息的多模态视频语言学习方法包括:
[0063]
s1:提取原始视频的第一特征信息和所述原始视频中文本的第二特征信息;
[0064]
在本发明中,所述第一特征信息为视频帧的外观特征、视频帧的运动特征和视频中的深度特征,视频中的深度特征通过以下方式得到:
[0065]
利用depthformer提取所述原始视频中的深度信息,并利用残差神经网络(resnet)提取所述深度信息中的深度特征。
[0066]
而视频帧的外观特征和视频帧的运动特征通过二维卷积神经网络和三维卷积神经网络分别进行提取。
[0067]
s2:根据所述第一特征信息,利用dast模块,得到最终视频特征;所述最终视频特征为带有视频深度信息且考虑不同尺度下帧的时间相关性的视频特征;
[0068]
具体地,将所述第一特征信息作为所述dast模块的输入信息;
[0069]
对所述第一特征信息进行多尺度特征操作,得到所述第一特征信息的多尺度特征;
[0070]
对不同尺度的特征进行膨胀操作和注意力计算,得到最终视频特征。
[0071]
可选择地,参考图2所示,所述dast模块包括4个构成组,第一构成组包括两个堆叠设置的dsca子模块和融合子模块,所述两个堆叠设置的dsca子模块和所述融合子模块依次设置,所述第一构成组和第二构成组构造为具有相同结构,且所述第一构成组和/或所述第二构成组对所述第一特征信息进行多尺度特征操作;
[0072]
第三构成组包括依次设置的膨胀子模块和两个堆叠设置的dsca子模块,所述第三构成组和第四构成组构造为具有相同结构,且所述第三构成组和/或所述第四构成组对不同尺度的特征进行膨胀操作和注意力计算;
[0073]
所述第二构成组和所述第三构成组之间设置有瓶颈层;
[0074]
所述第二构成组和所述第三构成组的输出结果残差连接,所述第一构成组和所述第四构成组的输出结果残差连接。
[0075]
可选择地,dsca子模块的结构图参考图3所示,所述dsca子模块采用计算稀疏注意力的方式,即针对每一帧,仅仅让其与周围一个局部时间范围内的深度图特征计算注意力,局部时间范围的定义为:
[0076][0077]
其中,表示根据当前时间t采样的局部帧的深度特征集合,表示局部时间范围内采样帧的深度特征,r表示局部时间范围内采样帧的时间,t表示当前帧的时间,h表示局部采样的半径阈值。
[0078]
可选择地,所述dsca子模块采用多头注意力机制,对于每一个头,dsca子模块采用不同的映射头来学习不同的特征;对于第m个头,dsca子模块将深度特征作为键key以及值value,而将视频的帧特征作为query,通过下述公式来计算每一帧特征与其相邻几帧的深度图特征的注意力得分:
[0079][0080]
其中,表示当前时间t的视频帧特征,m表示第m个注意力头,表示缩放尺度因子,k与v
t
分别代表键key与值value,vm与um则均代表映射的可学习参数,最终得到的a
mqk
则为注意力图,表示根据当前时间t采样的局部帧的深度特征集合。
[0081]
可选择地,在得到key与query的注意力得分之后,需要根据注意力图对value进行加权求和,具体方法如下公式所示:
[0082]
[0083]
其中,表示第t帧经过第i层dast,经深度特征指导并经过多头注意力加权后的视频特征,a
mqk
表示注意力图,wm与w
′m均代表可学习参数,m代表的是多头注意力中头的数量,表示根据当前时间t采样的局部帧的深度特征集合,v表示局部帧深度特征用于计算注意力的value值,m表示第m个注意力头。
[0084]
最后为了防止梯度消失并且为了保持信息传递,会为得到的特征z加上原始输入的特征v,即添加一个残差连接;同时对得到的特征进行层归一化,保证在训练过程中数据分布的稳定性,具体操作如下两公式所示:
[0085][0086][0087]
其中,表示经残差连接后的视频特征,表示第t帧经过第i层dast,经深度特征指导并经过多头注意力加权后的视频特征,表示原始输入dsca的视频特征,表示最终dsca输出的视频特征,pwff()表示前馈神经网络,ln()表示层归一化。
[0088]
s3:利用所述最终视频特征和所述第二特征信息设计头部网络以适应不同跨模态任务需求。
[0089]
可选择地,参考图4所示,所述头部网络包括依次设置的注意力enlstm、语言delstm和多层感知机网络,所述多层感知机网络包括第一线性层和第一softmax层,应用于视频描述任务,所述注意力enlstm的输入为所述最终视频特征,对于每一个时间步t,enlstm接受从delstm最后一个隐藏层出来的特征经dast编码后的带有深度信息的视频特征以及前一个生成的单词嵌入w
t-1
,生成一个新的带有历史信息同时附着当前帧信息的特征然后delstm将结合该特征以及视频特征来生成新的特征最后通过一个多层感知机网络来生成下一个单词的概率分布p
t
,具体的方法如下述三个公式所示:
[0090][0091][0092][0093]
所述头部网络的损失函数l
cap
如下:
[0094][0095]
其中,p
θ
代表模型参数,表示当前第s个生成的单词,表示真实的前s-1个单词,s表示真实的整体文本长度,s表示索引。
[0096]
可选择地,参考图5所示,所述头部网络包括依次设置的第二线性层、elu激活函数层、第三线性层和第二softmax层,应用于视频问答任务,所述第二特征和所述最终视频特征拼接后作为所述第二线性层的输入,所述头部网络通过所述第二softmax层得到答案集上各个答案的概率,具体的方法为:
[0097]
[0098][0099]
其中a表示答案集,w2与w3分别表示第二与第三线性层的可学习参数,b2与b3分别表示第二与第三线性层的可学习偏移,o表示视频与文本融合后的特征,表示从dast输出的视频特征,q表示文本特征,p表示输出的概率,表示答案集a大小的向量空间;
[0100]
所述头部网络的损失函数l
qa
为:
[0101][0102]
其中,yi表示第i个正确答案的one-hot向量,i表示答案索引,pi表示第i个答案的概率。
[0103]
可选择地,参考图6所示,所述头部网络包括并列设置的第四线性层和第五线性层,以及余弦相似度层,所述第四线性层和所述第五线性层的输入分别为所述第二特征和所述最终视频特征,输出作为所述余弦相似度层的输入,具体做法如下公式:
[0104][0105]
f(s)=w5s+b5,
[0106][0107]
其中,f(v)表示,w4表示第四线性层的可学习参数,表示从dast输出的视频特征,b4表示第四线性层的可学习偏移,w5表示第五线性层的可学习参数,s表示文本特征,b5表示第五线性层的可学习偏移,sim(v,s)表示文本特征与视频特征的相似度;
[0108]
所述头部网络的损失函数为:
[0109]
l
match
=max(0,δ+sim(v,s-)-sim(v,s))+max(0,δ+sim(v-,s)-sim(v,s))
[0110]
sim(v,s-)表示视频v与负样本文本的相似度,sim(v-,s)表示文本s与负样本视频的相似度,sim(v,s)表示正样本视频文本对相似度,δ表示正则项,s-与v-分别表示一个批次里面的负样本文本以及负样本视频。
[0111]
实施例2
[0112]
下面结合实例,对本发明效果进行说明:
[0113]
设置试验条件为:系统:ubuntu 18.04,编程语言:python 3.8,深度学习框架:pytorch 11.6,gpu:nvidia geforce rtx 3090.
[0114]
输入一个视频,对视频均匀采样35帧,对于输入的文本,则先将其全部转换为小写,再将其长度限制在35个单词以下。
[0115]
实验一:针对视频描述任务,给模型输入一段年轻人在跑道上跑步的视频,要求模型输出正确的相关描述,如图8所示。
[0116]
实验二:针对视频文本匹配任务,给模型输入一段两个男人正在吃饭的视频,要求模型匹配出正确的相应描述,如图7所示。
[0117]
实验结果分析:
[0118]
从图8可以看出,dsat能够很好地捕捉到视频中的人物在几何空间上的关系,从而会输出“after”,生成的视频标注会更加准确;从图五可以看出,模型匹配到了更加精准地
描述该视频片段的文本。
[0119]
下面是该方法与其他方法的对比分析:
[0120]
针对视频问答任务,选用的数据集为msvd与msr-vtt,依据标准,数据集msvd被划分为包含1200个片段的训练集、100个视频片段的验证集以及670个视频片段的测试集,并且每一个视频片段带有相应的25个问题与答案;而msr-vtt则是按照6573/497/2990的配比来划分训练集、验证集以及测试集。选取了当下性能最优的两个方法b2a与igv,可以从表1中看到,本方法在msvd-qa数据集上比当前最好方法(igv)的准确率高了3.3个百分点,而在msrvtt-qa上也比igv高了1.1个百分点。
[0121]
表1dast与其他视频问答方法的性能对比
[0122]
方法msvd-qamsrvtt-qab2a37.236.9igv40.838.3dsat44.139.4
[0123]
针对视频描述任务,同样是选用msvd与msrvtt,结果如表2所示,在视频描述的4个评价指标上,dast在两个数据集上均优于目前的最佳方法rmn:
[0124]
表2 dast与其他视频描述方法对比
[0125][0126]
表2中四个评价指标分别为bleu-4,meteor,rouge-l以及cider。
[0127]
针对视频文本匹配任务,分别有两个任务,即用视频检索文本和用文本来检索视频。采用的数据集为msr-vtt,评价指标分别为recall@1,recall@5,recall@10,med r以及sumr,选取了当前视频文本匹配的最优方法hgr以及dual encoding,对比结果如表3所示:
[0128]
表3 dast与其他视频文本匹配方法对比
[0129][0129][0130]
可以从表3的结果中看出,dast在所有的评测指标上的性能均超过了之前的最佳模型。
[0131]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于视频深度信息的多模态视频语言学习方法,其特征在于,所述基于视频深度信息的多模态视频语言学习方法包括:s1:提取原始视频的第一特征信息和所述原始视频中文本的第二特征信息;s2:根据所述第一特征信息,利用dast模块,得到最终视频特征;所述最终视频特征为带有视频深度信息且考虑不同尺度下帧的时间相关性的视频特征;s3:利用所述最终视频特征和所述第二特征信息设计头部网络以适应不同跨模态任务需求。2.根据权利要求1所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述s1中,所述第一特征信息为视频帧的外观特征、视频帧的运动特征和视频中的深度特征,所述视频中的深度特征通过以下方式得到:利用depthformer提取所述原始视频中的深度信息,并利用残差神经网络提取所述深度信息中的深度特征。3.根据权利要求1所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述s2包括:将所述第一特征信息作为所述dast模块的输入信息;对所述第一特征信息进行多尺度特征操作,得到所述第一特征信息的多尺度特征;对不同尺度的特征进行膨胀操作和注意力计算,得到包含有深度信息的视频特征。4.根据权利要求1至3任一项所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述dast模块包括4个构成组,第一构成组包括两个堆叠设置的dsca子模块和融合子模块,所述两个堆叠设置的dsca子模块和所述融合子模块依次设置,所述第一构成组和第二构成组构造为具有相同结构,且所述第一构成组和/或所述第二构成组对所述第一特征信息进行多尺度特征操作;第三构成组包括依次设置的膨胀子模块和两个堆叠设置的dsca子模块,所述第三构成组和第四构成组构造为具有相同结构,且所述第三构成组和/或所述第四构成组对不同尺度的特征进行膨胀操作和注意力计算;所述第二构成组和所述第三构成组之间设置有瓶颈层;所述第二构成组和所述第三构成组的输出结果残差连接,所述第一构成组和所述第四构成组的输出结果残差连接。5.根据权利要求4所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述dsca子模块采用计算稀疏注意力的方式,即针对每一帧,仅仅让其与周围一个局部时间范围内的深度图特征计算注意力,局部时间范围的定义为:其中,表示根据当前时间t采样的局部帧的深度特征集合,表示局部时间范围内采样帧的深度特征,r表示局部时间范围内采样帧的时间,t表示当前帧的时间,h表示局部采样的半径阈值。6.根据权利要求4所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述dsca子模块采用多头注意力机制,对于每一个头,dsca子模块采用不同的映射头来学习不同的特征;对于第m个头,dsca子模块将深度特征作为键key以及值value,而将视频的
帧特征作为query,通过下述公式来计算每一帧特征与其相邻几帧的深度图特征的注意力得分:其中,表示当前时间t的视频帧特征,m表示第m个注意力头,表示缩放尺度因子,k与v
t
分别代表键key与值value,v
m
与u
m
则均代表映射的可学习参数,最终得到的a
mqk
则为注意力图,表示根据当前时间t采样的局部帧的深度特征集合。7.根据权利要求6所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,在得到key与query的注意力得分之后,需要根据注意力图对value进行加权求和,具体方法如下公式所示:其中,表示第t帧经过第i层dast,经深度特征指导并经过多头注意力加权后的视频特征,a
mqk
表示注意力图,w
m
与w
m
'均代表可学习参数,m代表的是多头注意力中头的数量,表示根据当前时间t采样的局部帧的深度特征集合,v表示局部帧深度特征用于计算注意力的value值,m表示第m个注意力头。8.根据权利要求1所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述s3中,所述头部网络包括依次设置的注意力enlstm、语言delstm和多层感知机网络,所述多层感知机网络包括第一线性层和第一softmax层,应用于视频描述任务,所述注意力enlstm的输入为所述最终视频特征,对于每一个时间步t,enlstm接受从delstm最后一个隐藏层出来的特征经dast编码后的带有深度信息的视频特征以及前一个生成的单词嵌入w
t-1
,生成一个新的带有历史信息同时附着当前帧信息的特征然后delstm将结合该特征以及视频特征来生成新的特征最后通过一个多层感知机网络来生成下一个单词的概率分布p
t
,具体的方法如下述三个公式所示:,具体的方法如下述三个公式所示:,具体的方法如下述三个公式所示:所述头部网络的损失函数l
cap
如下:其中,p
θ
代表模型参数,表示当前第s个生成的单词,表示真实的前s-1个单词,s表示真实的整体文本长度,s表示索引。9.根据权利要求1所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述s3中,所述头部网络包括依次设置的第二线性层、elu激活函数层、第三线性层和第二
softmax层,应用于视频问答任务,所述第二特征和所述最终视频特征拼接后作为所述第二线性层的输入,所述头部网络通过所述第二softmax层得到答案集上各个答案的概率,具体的方法为:的方法为:其中a表示答案集,w2与w3分别表示第二与第三线性层的可学习参数,b2与b3分别表示第二与第三线性层的可学习偏移,o表示视频与文本融合后的特征,表示从dast输出的视频特征,q表示文本特征,p表示输出的概率,表示答案集a大小的向量空间;所述头部网络的损失函数l
qa
为:其中,y
i
表示第i个正确答案的one-hot向量,i表示答案索引,p
i
表示第i个答案的概率。10.根据权利要求1所述的基于视频深度信息的多模态视频语言学习方法,其特征在于,所述s3中,所述头部网络包括并列设置的第四线性层和第五线性层,以及余弦相似度层,所述第四线性层和所述第五线性层的输入分别为所述第二特征和所述最终视频特征,输出作为所述余弦相似度层的输入,具体做法如下公式:f(s)=w5s+b5,其中,f(v)表示,w4表示第四线性层的可学习参数,表示从dast输出的视频特征,b4表示第四线性层的可学习偏移,w5表示第五线性层的可学习参数,s表示文本特征,b5表示第五线性层的可学习偏移,sim(v,s)表示文本特征与视频特征的相似度;所述头部网络的损失函数为:l
match
=max(0,δ+sim(v,s-)-sim(v,s))+max(0,δ+sim(v-,s)-sim(v,s))sim(v,s-)表示视频v与负样本文本的相似度,sim(v-,s)表示文本s与负样本视频的相似度,sim(v,s)表示正样本视频文本对相似度,δ表示正则项,s-与v-分别表示一个批次里面的负样本文本以及负样本视频。
技术总结
本发明公开了一种基于视频深度信息的多模态视频语言学习方法,包括:S1:提取原始视频的第一特征信息和所述原始视频中文本的第二特征信息;S2:根据所述第一特征信息,利用DAST模块,得到最终视频特征;所述最终视频特征为带有视频深度信息且考虑不同尺度下帧的时间相关性的视频特征;S3:利用所述最终视频特征和所述第二特征信息设计头部网络以适应不同跨模态任务需求。本发明结合视频深度信息,能够更好地对视频中不同对象个体间的几何关系进行提取和建模。进行提取和建模。进行提取和建模。
技术研发人员:许辉 秦一心 张浩楠 张明星 尹鹏 郭嘉琪 邵杰
受保护的技术使用者:四川省人工智能研究院(宜宾)
技术研发日:2023.03.31
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
