一种基于时空图和相似图的协同注意力推理的视频问答方法

未命名 09-17 阅读：93 评论：0

1.本技术涉及视频问答方法，尤其涉及一种基于时空图和相似图的协同注意力推理的视频问答方法，属于视频问答技术领域。

背景技术：

2.多模态的视频问答任务是一项需要人工智能代理回答基于视频问题的任务。视频问答任务连接了计算机视觉和自然语言处理领域，是人工智能领域的一个重要问题。该任务根据输入的包含视频信息、字幕信息以及对应的问题语句，自动的从给出的多个候选答案中选择出能回答问题且最符合视频内容的选项作为预测答案。
3.视频由连续的图像帧序列形成，并且，视频通常伴随着音频和字幕。与图像和文本相比，视频传达了更丰富的语义信息，以及更多样和复杂的活动。此外，视频问答中的问题通常由连续的长序列文本构成。得益于计算机视觉领域和自然语言处理领域的发展，目前，主流的视频问答任务解决方案主要分为基于记忆力机制的方法，基于关系网络的方法和基于注意力机制的方法。基于记忆力机制的方法主要利用记忆力组件保存视频和文本的长短期信息，解决相对较长序列的状态变化。基于关系网络的方法主要是用关系结构建立视频主体之间的交互关系。基于注意力机制的方法主要计算两种模态之间的相似度，并过滤掉不相关的视觉或文本信息。
4.随着视频问答任务的研究和发展，视频的长度在不断增加，视频的内容也更加的复杂，这样的视频包含更多的目标及事件，这使得解决视频问答方法需要包含额外的两种能力：一是捕获视频中对象在长时间交互中产生的交互关系，二是根据文本信息在视频内容中进行长距离语义建模的能力。现有的视频问答技术通常使用相似度计算作为对象间的交互关系，但是忽略了对象之间的时间关系和空间关系。对于序列数据的长期依赖性问题通常使用自注意力机制来解决，但是它仍然无法同时关注到视觉和文本内容的内在联系。如果能根据文本信息在视频内容中建立长距离语义依赖，并且能准确建模视频中对象之间产生的交互关系，就能有效提高视频问答预测的准确性。

技术实现要素：

5.在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。
6.鉴于此，为解决现有技术中存在的问题，本发明提供一种基于时空图和相似图的协同注意力推理的视频问答方法。本发明使用相似图以计算每个视觉特征中对象之间的依赖关系，并且同时使用时空图去捕获视觉特征中对象之间相对时间关系和空间关系以及状态的变化顺序。本发明使用了一种视觉-文本双向引导机制来构建双向信息交互，它能够根据文本信息在视频内容中建立长距离语义依赖，使用文本和视觉信息协同推理视觉和文本
信息，再以此来预测答案。
7.方案一、一种基于时空图和相似图的协同注意力推理的视频问答方法，包括以下步骤：
8.s1、提取输入视频的帧级全局特征和目标级局部特征；
9.s2、提取输入问题的问题语句特征，并对问题语句特征进行编码，获得问题语句的上下文信息；
10.s3、依据目标级局部特征，构建目标之间的相似关系，形成相似图；
11.s4、依据目标级局部特征，构建目标之间的时间和空间关系，形成时空图；
12.s5、依据相似图和时空图对目标的相似关系和时空关系分别进行关系推理，并与全局特征进行拼接，得到视觉特征；
13.s6、依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，建立上下文关系，获得用于预测答案的特征；
14.s7、依据预测答案的特征，计算每个答案类别的置信度，根据置信度确定最终预测答案。
15.优选的，提取输入视频的帧级全局特征的方法是：对于输入的视频使用预训练的残差神经网络提取帧级的全局特征，其中，v
global
代表整个视频的全局特征，v
global,i
代表视频的第i个帧的全局特征，t代表帧的数量，d为隐藏层维度；
16.提取输入视频的目标级局部特征的方法是：对于输入的视频使用预训练的faster-rcnn网络提取输入视频的目标级局部特征，其中v
local
代表整个视频的局部特征，v
local,i
代表视频中第i个帧中的目标特征，t代表帧的数量，n代表每个帧中的目标数量，d为隐藏层维度。
17.优选的，提取输入问题的问题语句特征，并对问题语句特征进行编码，获得问题语句的上下文信息的方法是：根据输入的问题语句，调整预训练的语言表征模型bert模型并提取问题特征，使用双向长短期记忆网络对问题语句特征进行编码，获得文本表示其中，hq代表整个问题语句的特征，代表语句中第i个token的特征，l代表问题语句的文本长度。
18.优选的，依据目标级局部特征，构建目标之间的相似关系，形成相似图的方法是：对于一个视频中的所有目标表示为：f＝{f0,f1...,fk}，其中f表示该视频中所有目标的特征表示，fi表示第i个目标的特征表示，k＝t
×
n，表示该视频中所有的目标数量；
19.两目标之间的相似度计算如下：
20.a
sim
(fi,fj)＝(w1fi)
t
(w2fj)
21.其中，w1和w2为可学习的参数，fi、fj分别表示该视频中的第i和第j个目标，a
sim
(fi,fj)代表第i和第j个目标之间的相似度，a
sim
代表整个视频中所有目标之间的相似度。
22.优选的，依据目标级局部特征，构建目标之间的时间和空间关系，形成时空图的方法是：包括以下步骤：
23.s41、计算两个目标的位置交并比，计算公式如下：
[0024][0025]
其中，a代表两个目标之间的交并比，表示第t帧中第i个目标的位置，表示第t+1帧的第j个位置；iou(
·
)用来计算两个位置的交并比，计算公式如下：
[0026][0027]
s42、规定如果则链接i、j两个对象；定义a
front
为该时空图的前向邻接矩阵；
[0028]
s43、使用与s41、s42相同的方法，反向构建由t+1帧到t帧的反向时空图，定义a
back
为该时空图的反向邻接矩阵。
[0029]
优选的，依据相似图和时空图对目标的相似关系和时空关系分别进行关系推理，并与全局特征进行拼接，得到视觉特征的方法是：包括以下步骤：
[0030]
s51、对于相似图使用图卷积神经网络进行关系推理的计算公式如下：
[0031]zsim
＝relu(a
sim
relu(a
simvlocal
w0)w1)
[0032]
其中，z
sim
为相似图经关系推理后的节点特征表示，w0、w1表示可学习的参数矩阵，a
sim
表示相似图的邻接矩阵，v
local
表示视频的局部特征，relu(
·
)为激活函数，计算公式如下：
[0033]
relu(x)＝max(0,x)
[0034]
其中，x表示一任意维度的矩阵，max(
·
)表示取最大值；
[0035]
s52、对于时空图使用图卷积神经网络进行关系推理的计算公式如下：
[0036][0037]
其中，z
st
为时空图经关系推理后的节点特征表示，i表示第i层图卷积神经网络，为时空图经关系推理后的节点特征表示，i表示第i层图卷积神经网络，表示可学习的参数矩阵，初始化为v
local
表示视频的局部特征，a
front
表示时空图的前向临界矩阵，a
back
表示时空图的反向邻接矩阵；
[0038]
s53、将经过相似图推理后的节点表示和时空图推理后的节点表示进行相加，并与全局特征进行拼接，计算方式如下：
[0039]zlocal
＝z
sim
+z
st
[0040]
v＝{v1,v2,...,vk}＝linear([z
local
||v
global
])
[0041]
其中，z
local
表示相加后的局部特征，z
sim
、z
st
分别表示经相似图和时空图关系推理后的节点特征表示，v表示视频的特征，vi表示第i个目标的特征，k表示视频中所有目标的数量，v
global
表示视频的全局特征，||表示矩阵拼接，linear(
·
)表示线性层，计算公式如下：
[0042]
linear(x)＝xw
t
+b
[0043]
其中，w为可学习的参数矩阵，x表示一任意维度矩阵，b表示偏置参数。
[0044]
优选的，依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，建立上下文关系，获得用于预测答案的特征的方法包括以下步骤：
[0045]
s61、对于获得的视频特征v＝{v1,v2,...,vk}以及问题特征计
算两种模态注意力得分公式如下：
[0046][0047]
其中，w、w
s1
、w
s2
表示可学习的参数，bs表示偏置参数，vi表示视频中第i个目标的特征，表示问题语句中第j个token的特征，s表示两种模态的注意力得分，tanh(
·
)为激活函数，计算方式如下：
[0048][0049]
exp(
·
)表示以e为底的指数，x表示一任意维度矩阵；
[0050]
s62、对相似度矩阵在行和列上使用softmax计算，分别得到视频对于问题的表示和问题对于视频的表示，并获得长距离语义依赖，计算方式如下：
[0051][0052]
其中，s
ijrow
表示在行方向上使用softmax的计算结果，s
ijrow
表示在列方向上使用softmax的计算结果，s
ij
表示第i个目标对于第j个token的注意力得分，m表示相似度矩阵的列数，n表示相似度矩阵的行数；
[0053]
s63、计算视频特征的自注意力关系，由文本指导的视觉表示m，计算方式如下：
[0054][0055]
计算由文本引导的视觉表示，并与原视觉表示进行拼接，计算方式如下：
[0056][0057][0058][0059]
其中，vj表示第j个目标特征表示，聚合视觉表示，计算方式如下：
[0060][0061]
其中，表示可学习的参数，表示偏置参数，
⊙
表示逐元素相乘，sigmoid(
·
)表示激活函数，计算公式如下：
[0062][0063]
其中，x表示任意一维度矩阵；
[0064]
s64、计算由视觉引导的文本表示，计算方式如下：
[0065][0066]
其中，mi(
·
)定义为s矩阵在列方向上的平均值，s
ij
表示第i个目标对于第j个token的注意力得分，表示问题语句中第j个token的特征；
[0067]
s65、将和进行拼接，获得用于预测答案的特征表示h，计算方式如下：
[0068][0069]
h＝{h1,h2,...,hn}。
[0070]
优选的，依据预测答案的特征，计算每个答案类别的置信度，根据置信度确定最终预测答案的方法包括以下步骤：
[0071]
s71、结合用于预测答案的特征表示h，使用双向长短期记忆网络聚合上下文信息，
[0072]
通过自适应权重矩阵ω计算对于每个答案类别的置信度；
[0073]
o＝linear(lstm(h))
[0074][0075]
其中，lstm(
·
)表示双向长短期记忆网络，ok表示矩阵的行向量，ω表示权重矩阵，α表示对于每个答案的置信度；
[0076]
s72、从候选答案类别中选择置信度高的作为预测答案pre；
[0077]
pre＝prej，当αj＝argmax
i∈[1,c]
(αi)
[0078]
其中，argmax(
·
)表示求多个元素中的最大元素，prej代表第j个候选答案，αj代表第j个候选答案的置信度，αi代表第i个候选答案的置信度，c代表候选答案个数；
[0079]
s73、将预测答案pre与训练数据中的真实答案进行对比，根据比较的差值更新网络的参数。
[0080]
方案二、一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种基于时空图和相似图的协同注意力推理的视频问答方法的步骤。
[0081]
方案三、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种基于时空图和相似图的协同注意力推理的视频问答方法。
[0082]
本发明的有益效果如下：本发明针对视频分别提取帧级全局特征和目标级局部特征，提高了对视频中粗粒度场景信息和细粒度目标信息的获取效率，提升了视频信息的获取能力。本发明针对长视频中对象之间产生的依赖关系，针对视频中的目标，设计了一种相似图和时空图，从视频中捕获对象之间的依赖关系以及对象之间相对时间关系和空间关系以及状态的变化顺序。本发明针对视频中长距离语义依赖问题，设计了一种视觉-文本双向引导机制它能够根据文本信息在视频内容中建立长距离语义依赖，使用文本和视觉信息协同推理视觉和文本信息，构建双向信息的交互。解决了现有技术无法同时关注到视觉和文本内容的内在联系的问题，根据文本信息在视频内容中建立长距离语义依赖，并且能准确建模视频中对象之间产生的交互关系，有效提高视频问答预测的准确性。
附图说明
[0083]
此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
[0084]
图1为一种基于时空图和相似图的协同注意力推理的视频问答方法流程示意图；
[0085]
图2为基于时空图和相似图的协同注意力推理的整体框架示意图；
[0086]
图3为一种基于时空图和相似图的协同注意力推理的视频问答系统结构示意图。
具体实施方式
[0087]
为了使本技术实施例中的技术方案及优点更加清楚明白，以下结合附图对本技术的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本技术的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
[0088]
实施例1、参照图1-图2说明本实施方式，一种基于时空图和相似图的协同注意力推理的视频问答方法，包括以下步骤：
[0089]
s1、提取输入视频的帧级全局特征和目标级局部特征，提高了对视频中粗粒度场景信息和细粒度目标信息的获取效率，提升了视频信息的获取能力，具体方法是：
[0090]
提取输入视频的帧级全局特征的方法是：对于输入的视频使用预训练的残差神经网络提取帧级的全局特征，其中，v
global
代表整个视频的全局特征，v
global,i
代表视频的第i个帧的全局特征，t代表帧的数量，d为隐藏层维度；
[0091]
提取输入视频的目标级局部特征的方法是：对于输入的视频使用预训练的faster-rcnn网络提取输入视频的目标级局部特征，其中v
local
代表整个视频的局部特征，v
local,i
代表视频中第i个帧中的目标特征，t代表帧的数量，n代表每个帧中的目标数量，d为隐藏层维度。
[0092]
s2、提取输入问题的问题语句特征，并对问题语句特征进行编码，获得问题语句的上下文信息，方法是：根据输入的问题语句，调整预训练的语言表征模型bert模型并提取问题特征，使用双向长短期记忆网络对问题语句特征进行编码，获得文本表示其中，hq代表整个问题语句的特征，代表语句中第i个token的特征，l代表问题语句的文本长度。
[0093]
s3、依据目标级局部特征，构建目标之间的相似关系，形成相似图，方法是：对于一个视频中的所有目标表示为：f＝{f0,f1...,fk}，其中f表示该视频中所有目标的特征表示，fi表示第i个目标的特征表示，k＝t
×
n，表示该视频中所有的目标数量；
[0094]
两目标之间的相似度计算如下：
[0095]asim
(fi,fj)＝(w1fi)
t
(w2fj)
[0096]
其中，w1和w2为可学习的参数，fi、fj分别表示该视频中的第i和第j个目标，a
sim
(fi,fj)代表第i和第j个目标之间的相似度，a
sim
代表整个视频中所有目标之间的相似度。
[0097]
s4、依据目标级局部特征，构建目标之间的时间和空间关系，形成时空图，方法是：包括以下步骤：
[0098]
s41、计算两个目标的位置交并比，计算公式如下：
[0099][0100]
其中，a代表两个目标之间的交并比，表示第t帧中第i个目标的位置，表示第t+1帧的第j个位置；iou(
·
)用来计算两个位置的交并比，计算公式如下：
[0101]
[0102]
s42、规定如果则链接i、j两个对象；定义a
front
为该时空图的前向邻接矩阵；
[0103]
s43、使用与s41、s42相同的方法，反向构建由t+1帧到t帧的反向时空图，定义a
back
为该时空图的反向邻接矩阵。
[0104]
s5、依据相似图和时空图对目标的相似关系和时空关系分别进行关系推理，并与全局特征进行拼接，得到视觉特征，方法是，包括以下步骤：
[0105]
s51、对于相似图使用图卷积神经网络进行关系推理的计算公式如下：
[0106]zsim
＝relu(a
sim
relu(a
simvlocal
w0)w1)
[0107]
其中，z
sim
为相似图经关系推理后的节点特征表示，w0、w1表示可学习的参数矩阵，a
sim
表示相似图的邻接矩阵，v
local
表示视频的局部特征，relu(
·
)为激活函数，计算公式如下：
[0108]
relu(x)＝max(0,x)
[0109]
其中，x表示一任意维度的矩阵，max(
·
)表示取最大值；
[0110]
s52、对于时空图使用图卷积神经网络进行关系推理的计算公式如下：
[0111][0112]
其中，z
st
为时空图经关系推理后的节点特征表示，i表示第i层图卷积神经网络，为时空图经关系推理后的节点特征表示，i表示第i层图卷积神经网络，表示可学习的参数矩阵，初始化为v
local
表示视频的局部特征，a
front
表示时空图的前向临界矩阵，a
back
表示时空图的反向邻接矩阵；
[0113]
s53、将经过相似图推理后的节点表示和时空图推理后的节点表示进行相加，并与全局特征进行拼接，计算方式如下：
[0114]zlocal
＝z
sim
+z
st
[0115]
v＝{v1,v2,...,vk}＝linear([z
local
||v
global
])
[0116]
其中，z
local
表示相加后的局部特征，z
sim
、z
st
分别表示经相似图和时空图关系推理后的节点特征表示，v表示视频的特征，vi表示第i个目标的特征，k表示视频中所有目标的数量，v
global
表示视频的全局特征，||表示矩阵拼接，linear(
·
)表示线性层，计算公式如下：
[0117]
linear(x)＝xw
t
+b
[0118]
其中，w为可学习的参数矩阵，x表示一任意维度矩阵，b表示偏置参数。
[0119]
s6、依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，建立上下文关系，获得用于预测答案的特征，方法是包括以下步骤：
[0120]
s61、对于获得的视频特征v＝{v1,v2,...,vk}以及问题特征计算两种模态注意力得分公式如下：
[0121][0122]
其中，w、w
s1
、w
s2
表示可学习的参数，bs表示偏置参数，vi表示视频中第i个目标的特征，表示问题语句中第j个token的特征，s表示两种模态的注意力得分，tanh(
·
)为激活函数，计算方式如下：
[0123][0124]
exp(
·
)表示以e为底的指数，x表示一任意维度矩阵；
[0125]
s62、对相似度矩阵在行和列上使用softmax计算，分别得到视频对于问题的表示和问题对于视频的表示，并获得长距离语义依赖，计算方式如下：
[0126][0127]
其中，s
ijrow
表示在行方向上使用softmax的计算结果，s
ijrow
表示在列方向上使用softmax的计算结果，s
ij
表示第i个目标对于第j个token的注意力得分，m表示相似度矩阵的列数，n表示相似度矩阵的行数；
[0128]
s63、计算视频特征的自注意力关系，由文本指导的视觉表示m，计算方式如下：
[0129][0130]
计算由文本引导的视觉表示，并与原视觉表示进行拼接，计算方式如下：
[0131][0132][0133][0134]
其中，vj表示第j个目标特征表示，聚合视觉表示，计算方式如下：
[0135][0136]
其中，表示可学习的参数，表示偏置参数，
⊙
表示逐元素相乘，sigmoid(
·
)表示激活函数，计算公式如下：
[0137][0138]
其中，x表示任意一维度矩阵；
[0139]
s64、计算由视觉引导的文本表示，计算方式如下：
[0140][0141]
其中，mi(
·
)定义为s矩阵在列方向上的平均值，s
ij
表示第i个目标对于第j个token的注意力得分，表示问题语句中第j个token的特征；
[0142]
s65、将和进行拼接，获得用于预测答案的特征表示h，计算方式如下：
[0143][0144]
h＝{h1,h2,...,hn}。
[0145]
s7、依据预测答案的特征，计算每个答案类别的置信度，根据置信度确定最终预测答案，方法是，包括以下步骤：
[0146]
s71、结合用于预测答案的特征表示h，使用双向长短期记忆网络聚合上下文信息，
并通过自适应权重矩阵ω计算对于每个答案类别的置信度；
[0147]
o＝linear(lstm(h))
[0148][0149]
其中，lstm(
·
)表示双向长短期记忆网络，ok表示矩阵的行向量，ω表示权重矩阵，α表示对于每个答案的置信度；
[0150]
s72、从候选答案类别中选择置信度高的作为预测答案pre；
[0151]
pre＝prej，当αj＝argmax
i∈[1,c]
(αi)
[0152]
其中，argmax(
·
)表示求多个元素中的最大元素，prej代表第j个候选答案，αj代表第j个候选答案的置信度，αi代表第i个候选答案的置信度，c代表候选答案个数；
[0153]
s73、将预测答案pre与训练数据中的真实答案进行对比，根据比较的差值更新网络的参数。
[0154]
对本发明提出的方法进行实验分析：
[0155]
本发明在公共数据集msvd-qa上进行了实验验证，msvd-qa是通过自动方法生成的数据集，包含了很多的人物活动和场景的信息，具有丰富的动态性和现实的社会互动性。该数据集的任务是开放式的，在本实验中选取前1000个答案作为候选答案。该数据集共有50k个问答对，分别由什么、谁、如何、何时和何地五种类型的问题组成，平均视频长度约为10秒，平均问题长度约为6个单词。
[0156]
为了客观的评估本发明提出的方法的性能，本发明根据分类准确率来评估基于时空图和相似图的协同注意力推理的视频问答方法，准确率是回答正确的数量占总候选答案数量的比例，并且其经常被用来评价分类任务的性能。公式如下：
[0157][0158]
其中，m代表问答对个数，q
t
代表问题集，pre代表预测答案，y代表真实答案。
[0159]
本发明按照具体实施方法中描述的步骤进行实验，所得的测试结果如表1测试结果表，所示，本发明方法为ss-car，hga、masn和dualvgr为其他视频问答方法，结果的度量为准确率(％)：
[0160]
表1测试结果
[0161]
方法名测试结果hga34.7masn38.0dualvgr39.03ss-car40.02
[0162]
本发明工作原理：提取输入视频的帧级全局特征和目标级局部特征。提取输入问题语句的特征并对其进行编码，获取问题语句的上下文信息。根据提取的局部特征，构建目标之间的相似图和时空图，获得目标时间的相似关系和时空关系，并进行关系推理。依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，并同时建立长期依赖。依据提取的答案特征，进行预测答案。
[0163]
相比于一般视频问答方案，本发明使用相似图和时空图获得对象间的依赖关系，
以及对象的状态变化顺序，本发明能够根据文本信息在视频内容中建立长距离语义依赖，使用文本和视觉信息协同推理视觉和文本信息。本发明在视频问答中取得的效果相比于传统方法更好。
[0164]
实施例2、参照图3说明本实施方式，一种基于时空图和相似图的协同注意力推理的视频问答系统，包括：全局特征提取模块、局部特征提取模块、问题特征提取模块、目标相似图构建模块、目标时空图构建模块、视觉-文本双向引导模块和答案选择模块：
[0165]
所述全局特征提取模块用于提取视频的帧级全局特征；
[0166]
所述局部特征提取模块用于提取视频中出现的目标特征；
[0167]
所述问题特征提取模块用于提取输入的问题特征；
[0168]
所述目标相似图构建模块用于构建目标之间的相似关系；
[0169]
所述目标时空图构建模块用于构建目标之间的时间和空间关系；
[0170]
所述视觉-文本双向引导模块用于生成具有问题导向和具有视频导向的特征信息，以及获得长距离依赖信息；
[0171]
所述答案选择模块用于获取预测答案。
[0172]
实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的一种基于时空图和相似图的协同注意力推理的视频问答方法的步骤。
[0173]
所称处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0174]
所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0175]
实施例4、计算机可读存储介质实施例
[0176]
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的一种基于时空图和相似图的协同注意力推理的视频问答方法的步骤。
[0177]
所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、
电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0178]
尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

技术特征：
1.一种基于时空图和相似图的协同注意力推理的视频问答方法，其特征在于，包括以下步骤：s1、提取输入视频的帧级全局特征和目标级局部特征；s2、提取输入问题的问题语句特征，并对问题语句特征进行编码，获得问题语句的上下文信息；s3、依据目标级局部特征，构建目标之间的相似关系，形成相似图；s4、依据目标级局部特征，构建目标之间的时间和空间关系，形成时空图；s5、依据相似图和时空图对目标的相似关系和时空关系分别进行关系推理，并与全局特征进行拼接，得到视觉特征；s6、依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，建立上下文关系，获得用于预测答案的特征；s7、依据预测答案的特征，计算每个答案类别的置信度，根据置信度确定最终预测答案。2.根据权利要求1所述一种基于时空图和相似图的协同注意力推理的视频问答方法，其特征在于，提取输入视频的帧级全局特征的方法是：对于输入的视频使用预训练的残差神经网络提取帧级的全局特征，其中，v
global
代表整个视频的全局特征，v
global,i
代表视频的第i个帧的全局特征，t代表帧的数量，d为隐藏层维度；提取输入视频的目标级局部特征的方法是：对于输入的视频使用预训练的faster-rcnn网络提取输入视频的目标级局部特征，其中v
local
代表整个视频的局部特征，v
local,i
代表视频中第i个帧中的目标特征，t代表帧的数量，n代表每个帧中的目标数量，d为隐藏层维度。3.根据权利要求2所述一种基于时空图和相似图的协同注意力推理的视频问答方法，其特征在于，提取输入问题的问题语句特征，并对问题语句特征进行编码，获得问题语句的上下文信息的方法是：根据输入的问题语句，调整预训练的语言表征模型bert模型并提取问题特征，使用双向长短期记忆网络对问题语句特征进行编码，获得文本表示其中，h
q
代表整个问题语句的特征，代表语句中第i个token的特征，l代表问题语句的文本长度。4.根据权利要求3所述一种基于时空图和相似图的协同注意力推理的视频问答方法，其特征在于，依据目标级局部特征，构建目标之间的相似关系，形成相似图的方法是：对于一个视频中的所有目标表示为：f＝{f0,f1...,f
k
}，其中f表示该视频中所有目标的特征表示，f
i
表示第i个目标的特征表示，k＝t
×
n，表示该视频中所有的目标数量；两目标之间的相似度计算如下：a
sim
(f
i
,f
j
)＝(w1f
i
)
t
(w2f
j
)其中，w1和w2为可学习的参数，f
i
、f
j
分别表示该视频中的第i和第j个目标，a
sim
(f
i
,f
j
)代表第i和第j个目标之间的相似度，a
sim
代表整个视频中所有目标之间的相似度。5.根据权利要求4所述一种基于时空图和相似图的协同注意力推理的视频问答方法，
其特征在于，依据目标级局部特征，构建目标之间的时间和空间关系，形成时空图的方法是：包括以下步骤：s41、计算两个目标的位置交并比，计算公式如下：其中，a代表两个目标之间的交并比，表示第t帧中第i个目标的位置，表示第t+1帧的第j个位置；iou(
·
)用来计算两个位置的交并比，计算公式如下：s42、规定如果则链接i、j两个对象；定义a
front
为该时空图的前向邻接矩阵；s43、使用与s41、s42相同的方法，反向构建由t+1帧到t帧的反向时空图，定义a
back
为该时空图的反向邻接矩阵。6.根据权利要求5所述一种基于时空图和相似图的协同注意力推理的视频问答方法，其特征在于，依据相似图和时空图对目标的相似关系和时空关系分别进行关系推理，并与全局特征进行拼接，得到视觉特征的方法是：包括以下步骤：s51、对于相似图使用图卷积神经网络进行关系推理的计算公式如下：z
sim
＝relu(a
sim
relu(a
simvlocal
w0)w1)其中，z
sim
为相似图经关系推理后的节点特征表示，w0、w1表示可学习的参数矩阵，a
sim
表示相似图的邻接矩阵，v
local
表示视频的局部特征，relu(
·
)为激活函数，计算公式如下：relu(x)＝max(0,x)其中，x表示一任意维度的矩阵，max(
·
)表示取最大值；s52、对于时空图使用图卷积神经网络进行关系推理的计算公式如下：其中，z
st
为时空图经关系推理后的节点特征表示，i表示第i层图卷积神经网络，为时空图经关系推理后的节点特征表示，i表示第i层图卷积神经网络，表示可学习的参数矩阵，初始化为v
local
表示视频的局部特征，a
front
表示时空图的前向临界矩阵，a
back
表示时空图的反向邻接矩阵；s53、将经过相似图推理后的节点表示和时空图推理后的节点表示进行相加，并与全局特征进行拼接，计算方式如下：z
local
＝z
sim
+z
st
v＝{v1,v2,...,v
k
}＝linear([z
local
||v
global
])其中，z
local
表示相加后的局部特征，z
sim
、z
st
分别表示经相似图和时空图关系推理后的节点特征表示，v表示视频的特征，v
i
表示第i个目标的特征，k表示视频中所有目标的数量，v
global
表示视频的全局特征，||表示矩阵拼接，linear(
·
)表示线性层，计算公式如下：linear(x)＝xw
t
+b其中，w为可学习的参数矩阵，x表示一任意维度矩阵，b表示偏置参数。7.根据权利要求6所述一种基于时空图和相似图的协同注意力推理的视频问答方法，
其特征在于，依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，建立上下文关系，获得用于预测答案的特征的方法包括以下步骤：s61、对于获得的视频特征v＝{v1,v2,...,v
k
}以及问题特征计算两种模态注意力得分公式如下：s(v
i
,h
jq
)＝w
t
tanh(w
s1
v
i
+w
s2
h
jq
+b
s
)其中，w、w
s1
、w
s2
表示可学习的参数，b
s
表示偏置参数，v
i
表示视频中第i个目标的特征，表示问题语句中第j个token的特征，s表示两种模态的注意力得分，tanh(
·
)为激活函数，计算方式如下：exp(
·
)表示以e为底的指数，x表示一任意维度矩阵；s62、对相似度矩阵在行和列上使用softmax计算，分别得到视频对于问题的表示和问题对于视频的表示，并获得长距离语义依赖，计算方式如下：其中，s
ijrow
表示在行方向上使用softmax的计算结果，s
ijrow
表示在列方向上使用softmax的计算结果，s
ij
表示第i个目标对于第j个token的注意力得分，m表示相似度矩阵的列数，n表示相似度矩阵的行数；s63、计算视频特征的自注意力关系，由文本指导的视觉表示m，计算方式如下：计算由文本引导的视觉表示，并与原视觉表示进行拼接，计算方式如下：计算由文本引导的视觉表示，并与原视觉表示进行拼接，计算方式如下：计算由文本引导的视觉表示，并与原视觉表示进行拼接，计算方式如下：其中，v
j
表示第j个目标特征表示，聚合视觉表示，计算方式如下：其中，表示可学习的参数，表示偏置参数，
⊙
表示逐元素相乘，sigmoid(
·
)表示激活函数，计算公式如下：其中，x表示任意一维度矩阵；s64、计算由视觉引导的文本表示，计算方式如下：其中，m
i
(
·
)定义为s矩阵在列方向上的平均值，s
ij
表示第i个目标对于第j个token的
注意力得分，表示问题语句中第j个token的特征；s65、将和进行拼接，获得用于预测答案的特征表示h，计算方式如下：h＝{h1,h2,...,h
n
}。8.根据权利要求7所述一种基于时空图和相似图的协同注意力推理的视频问答方法，其特征在于，依据预测答案的特征，计算每个答案类别的置信度，根据置信度确定最终预测答案的方法包括以下步骤：s71、结合用于预测答案的特征表示h，使用双向长短期记忆网络聚合上下文信息，通过自适应权重矩阵ω计算对于每个答案类别的置信度；o＝linear(lstm(h))其中，lstm(
·
)表示双向长短期记忆网络，o
k
表示矩阵的行向量，ω表示权重矩阵，α表示对于每个答案的置信度；s72、从候选答案类别中选择置信度高的作为预测答案pre；pre＝pre
j
，当α
j
＝argmax
i∈[1,c]
(α
i
)其中，argmax(
·
)表示求多个元素中的最大元素，pre
j
代表第j个候选答案，α
j
代表第j个候选答案的置信度，α
i
代表第i个候选答案的置信度，c代表候选答案个数；s73、将预测答案pre与训练数据中的真实答案进行对比，根据比较的差值更新网络的参数。9.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1-8任一项所述的一种基于时空图和相似图的协同注意力推理的视频问答方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的一种基于时空图和相似图的协同注意力推理的视频问答方法。

技术总结
本发明提出一种基于时空图和相似图的协同注意力推理的视频问答方法，属于视频问答技术领域。包括：提取输入视频的帧级全局特征和目标级局部特征。提取输入问题语句的特征并对其进行编码，获取问题语句的上下文信息。根据提取的局部特征，构建目标之间的相似图和时空图，获得目标时间的相似关系和时空关系，并进行关系推理。依据视觉特征和问题特征，得到具有问题导向和具有视频导向的特征信息，并同时建立长期依赖。依据提取的答案特征，进行预测答案。解决了现有技术无法同时关注到视觉和文本内容的内在联系的问题，根据文本信息在视频内容中建立长距离语义依赖，并且能准确建模视频中对象之间产生的交互关系，有效提高视频问答预测的准确性。答预测的准确性。答预测的准确性。

技术研发人员：孙广路王艺达梁丽丽邱瑾
受保护的技术使用者：哈尔滨理工大学
技术研发日：2023.05.15
技术公布日：2023/9/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种细胞因子组合物及应用 下一篇：基于匹配关键点特征强度的复杂零件扫描区域规划方法

一种基于时空图和相似图的协同注意力推理的视频问答方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于时空图和相似图的协同注意力推理的视频问答方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表