基于超体素的动作质量评估模型的倾向性解释方法

未命名 08-14 阅读:271 评论:0


1.本发明涉及视频动作评估技术领域,具体而言,尤其涉及基于超体素的动作质量评估模型的倾向性解释方法。


背景技术:

2.近年来,视频动作质量评估已经成为一个热门研究课题,目的是评估特定动作的执行情况。
3.在处理类别间判断困难的视频时,最近研究中提出的方法大多采用深度神经网络模型进行端到端学习,能够对动作序列进行正确分类。然而,这些模型整体机制不具备可解释性,即所谓的“黑盒”模型。在严格要求的医疗领域,这一缺陷尤其突出,难以支持医学研究中的因果推理。对于传统的可解释方法,它们主要是基于像素级或视觉概念的方法来对深度模型进行解释,前者的可解释方法是对视频中每个像素进行重要度评分,这会产生大量的噪声,并且难以人为理解;后者提出了容易理解的“视觉概念”,但是需要预先提出概念,这种基于概念的方法将相似的动作或场景归结为一个概念,计算出该概念对模型的敏感度分数,但是无法判断出概念中的哪些动作是标准的。
4.因此,亟需提出一种基于超体素的动作质量评估模型的倾向性解释方法。


技术实现要素:

5.根据上述提出视频动作评估不可解释的技术问题,而提供一种基于超体素的动作质量评估模型的倾向性解释方法。本发明主要将视频进行超体素分割,使得视频中的动作或者背景按照时间顺序以一种立体块的形式存在,能够减少噪声对实验结果的影响并且能够让人主观上理解;再通过训练一个分类器来区分每个超体素,使用深度神经网络中的层间激活向量来表征每个超体素,最后使用方向导数量化超体素对动作质量评估模型分数倾向性,从而更加直观的看出视频中的动作和背景信息给动作质量评估模型做出判断带来的影响。
6.本发明采用的技术手段如下:
7.本发明提供一种基于超体素的动作质量评估模型的倾向性解释方法,包括:
8.将原始视频输入训练好的神经网络模型得到特征信息,所述原始视频包括n个像素和g类标签;
9.将n个所述像素的时间和位置信息嵌入所述特征信息得到特征矩阵;
10.将所述特征矩阵均匀划分为k个超体素,并将n个所述像素分配至k个所述超体素内;
11.对所述原始视频进行高斯模糊操作生成特定视频;
12.保留所述原始视频中第i超体素的像素区域并进行处理得到第i相关视频,1≤i≤k;
13.将所述特定视频和所述第i相关视频输入动作质量评估模型得到第i特征图二元
组;
14.将所述第i特征图二元组输入线性分类器,得到所述第i超体素的激活向量;
15.将所述原始视频输入所述动作质量评估模型得到第g个标签对所述动作质量评估模型的梯度,1≤g≤g;
16.根据所述第i超体素的激活向量,所述第g个标签和所述第g个标签对应数值,计算所述第i超体素对所述第g个标签的敏感度分数;
17.根据所述第i超体素对所述第g个标签的敏感度分数,按照以下公式计算所述第i超体素对所述动作质量评估模型的分数倾向性:
[0018][0019]
其中,s为所述第i超体素对所述动作质量评估模型的分数倾向性,g为所述第g个标签,c为敏感度分数,maxc为敏感度分数最大值,minc为敏感度分数最小值,labelg为常数。
[0020]
进一步地,所述将所述第i特征图二元组输入线性分类器,得到所述第i超体素的激活向量,按照以下公式计算:
[0021][0022]
其中,为所述第i超体素的激活向量,v0为所述特定视频,vi′
为所述第i相关视频,(f
l
(v
′i),f
l
(v0))为所述第i特征图二元组,为线性分类器。
[0023]
进一步地,所述根据所述第i超体素的激活向量,所述第g个标签和所述第g个标签对应数值,计算所述第i超体素对所述第g个标签的敏感度分数,按照以下方式计算:
[0024][0025]
其中,c
i,l,g
(v)为所述第i超体素对所述第g个标签的敏感度分数,为所述第i超体素的激活向量,v为所述原始视频,为求梯度运算,h
l,g
为求解输出所述第g个标签对所述动作质量评估模型第l层的反向梯度。
[0026]
进一步地,所述将n个所述像素分配至k个所述超体素内,包括:
[0027]
分别初始化k个所述超体素的中心;
[0028]
分别计算所述像素至k个所述超体素中心的欧氏距离,将所述像素分配至与其欧氏距离最小的所述超体素内;
[0029]
对k个所述超体素的中心进行更新,返回所述分别计算所述像素至k个所述超体素中心的欧氏距离,将所述像素分配至与其欧氏距离最小的所述超体素内进行迭代;
[0030]
当n个所述像素的分配不再发生变化,完成分配。
[0031]
进一步地,计算所述像素与所述第i超体素的中心的欧氏距离按照以下方式进行计算:
[0032][0033]
其中,a
(p,i)
为所述像素与所述第i超体素的中心的欧氏距离,f

p
为第p个所述像素
的特征向量。
[0034]
进一步地,所述对k个所述超体素的中心进行更新,包括:
[0035]
建立n个所述像素与k个所述超体素的关系矩阵;
[0036]
对所述第i超体素的中心进行更新,按照以下方式进行计算:
[0037]
si=a
tf′

[0038]
其中,a为n个所述像素与k个所述超体素的关系矩阵,a∈[0,1]n×k,f

为所述特征矩阵。
[0039]
进一步地,所述将n个所述像素的时间和位置信息嵌入所述特征信息得到特征矩阵,按照以下方式进行计算:
[0040]f′
=f+p;
[0041]
其中,f

为所述特征矩阵,f为所述特征信息,p为n个所述像素的时间和位置信息。
[0042]
较现有技术相比,本发明具有以下优点:
[0043]
本发明提供的基于超体素的动作质量评估模型的倾向性解释方法,通过将视频进行超体素分割,使视频中的动作或者背景按照时间顺序以一种立体块的形式存在,能够减少噪声对实验结果的影响并且能够让人主观上理解;使用深度神经网络中的层间激活向量来表征每个超体素,再计算超体素对标签的敏感度分数,最后根据敏感度分数计算超体素对动作质量评估模型分数倾向性,从而更加直观的看出视频中的动作和背景信息给动作质量评估模型做出判断带来的影响。
附图说明
[0044]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1为本发明提供的基于超体素的动作质量评估模型的倾向性解释方法的一种流程图。
[0046]
图2为分割成不同数量超体素的效果图。
[0047]
图3为rise方法中超体素对动作质量评价模型敏感度的一种可视化效果图。
[0048]
图4为与图3对应的本发明提供的基于超体素的动作质量评估模型的倾向性解释方法中超体素对动作质量评价模型敏感度的可视化效果图。
[0049]
图5为rise方法中超体素对动作质量评价模型敏感度的另一种可视化效果图。
[0050]
图6为与图5对应的本发明提供的基于超体素的动作质量评估模型的倾向性解释方法中超体素对动作质量评价模型敏感度的可视化效果图。
[0051]
图7为使用不同方法进行超体素分割的对比图。
[0052]
图8为低分段视频中超体素对动作质量评估模型的敏感度倾向性统计图。
[0053]
图9为中分段视频中超体素对动作质量评估模型的敏感度倾向性统计图。
[0054]
图10为高分段视频中超体素对动作质量评估模型的敏感度倾向性统计图。
[0055]
图11为动作序列的对比图。
[0056]
图12为分数与时间的关系图。
[0057]
图13为超体素分数倾向性的可视化图。
具体实施方式
[0058]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0059]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0060]
实施例1
[0061]
参照图1,图1为本发明提供的基于超体素的动作质量评估模型的倾向性解释方法的一种流程图,来说明本实施例提供的基于超体素的动作质量评估模型的倾向性解释方法的一种具体的实施例,包括:
[0062]
将原始视频输入训练好的神经网络模型得到特征信息,原始视频包括n个像素和g类标签;
[0063]
将n个像素的时间和位置信息嵌入特征信息得到特征矩阵;
[0064]
将特征矩阵均匀划分为k个超体素,并将n个像素分配至k个超体素内;
[0065]
对原始视频进行高斯模糊操作生成特定视频;
[0066]
保留原始视频中第i超体素的像素区域并进行处理得到第i相关视频,1≤i≤k;
[0067]
将特定视频和第i相关视频输入动作质量评估模型得到第i特征图二元组;
[0068]
将第i特征图二元组输入线性分类器,得到第i超体素的激活向量;
[0069]
将原始视频输入动作质量评估模型得到第g个标签对动作质量评估模型的梯度,1≤g≤g;
[0070]
根据第i超体素的激活向量,第g个标签和第g个标签对应数值,计算第i超体素对第g个标签的敏感度分数;
[0071]
根据第i超体素对第g个标签的敏感度分数,按照以下公式计算第i超体素对动作质量评估模型的分数倾向性:
[0072][0073]
其中,s为第i超体素对动作质量评估模型的分数倾向性,g为第g个标签,c为敏感度分数,,axc为敏感度分数最大值,minc为敏感度分数最小值,labelg为常数。
[0074]
实施例2
[0075]
继续参照图1,来说明本实施例提供的基于超体素的动作质量评估模型的倾向性解释方法的另一种具体的实施例,包括:
[0076]
将原始视频v输入训练好的神经网络模型usc得到特征信息f,原始视频v包括n个像素和g类标签;
[0077]
将n个像素的时间和位置信息p嵌入特征信息得到特征矩阵f


[0078]
具体的,将n个像素的时间和位置信息p嵌入特征信息得到特征矩阵f

,按照以下方式进行计算:
[0079]f′
=f+p;
[0080]
其中,f

为特征矩阵,f为特征信息,p为n个像素的时间和位置信息。特征矩阵f

可以表示为f

∈rn×m,rn×m为包含n个像素的矩阵,且每个像素的维数为m。
[0081]
将特征矩阵f

均匀划分为k个超体素,并将n个像素分配至k个超体素内;
[0082]
具体的,将n个像素分配至k个超体素内,包括:
[0083]
分别初始化k个超体素的中心;
[0084]
分别计算像素至k个超体素中心的欧氏距离,将像素分配至与其欧氏距离最小的超体素内;
[0085]
对k个超体素的中心进行更新,返回分别计算像素至k个超体素中心的欧氏距离,将像素分配至与其欧氏距离最小的超体素内进行迭代;
[0086]
当n个像素的分配不再发生变化,完成分配。
[0087]
在初始化k个超体素的中心时,按照以下方式初始化超体素的中心:
[0088]
s0∈rk×m;
[0089]
其中,s0为初始化超体素的中心。
[0090]
而计算像素与第i超体素的中心的欧氏距离按照以下方式进行计算:
[0091][0092]
其中,a
(p,i)
为像素与第i超体素的中心的欧氏距离,f
p

为第p个像素的特征向量。需要注意的是,通过计算,每个像素都会得到一个与其对应的最小欧式距离,n个像素对应的n个最小欧氏距离的权重之和为1。
[0093]
进行对k个超体素的中心进行更新时,包括:
[0094]
建立n个像素与k个超体素的关系矩阵;
[0095]
其中,n个像素与k个超体素的关系矩阵可以表示为a∈[0,1]n×k,n个像素与k个超体素的关系矩阵包括像素与第i超体素的中心的欧氏距离。
[0096]
对第i超体素的中心进行更新,按照以下方式进行计算:
[0097]
si=a
tf′

[0098]
其中,a为n个像素与k个超体素的关系矩阵,a∈[0,1]n×k,f

为特征矩阵。
[0099]
在不断的更新n个像素与k个超体素的关系矩阵过程中,获得最终的像素与超体素的关系矩阵,按照以下方式进行计算:
[0100]
h∈rn;
[0101]hp
=argmax
ia(p,i)

[0102]
其中,rn代表n行一列的向量矩阵,argmax
ia(p,i)
表示将a
(p,i)
中最大一项的索引i提取出,h
p
为最终的像素与超体素的关系矩阵。
[0103]
对原始视频v进行高斯模糊操作生成特定视频v0,按照以下方式计算:
[0104]v0
=gaussianblur(v);
[0105]
其中,v0为特定视频,v为原始视频。
[0106]
保留原始视频中第i超体素的像素区域并进行处理得到第i相关视频vi′
,1≤i≤k,特定视频v0、第一相关视频v1′


、第k相关视频vk′
构成视频数据集v

={v0,v1′
,v2′
,...,vk′
};
[0107]
将特定视频v0和第i相关视频vi′
输入动作质量评估模型usdl得到第i特征图二元组(f
l
(vi′
),f
l
(v0));
[0108]
将第i特征图二元组(f
l
(vi′
),f
l
(v0))输入线性分类器,得到第i超体素的激活向量
[0109]
其中,在将第i特征图二元组(f
l
(vi′
),f
l
(v0))输入线性分类器前,还要对第i特征图二元组(f
l
(vi′
),f
l
(v0))进行reshape处理,而将第i特征图二元组(f
l
(vi′
),f
l
(v0))输入线性分类器,得到第i超体素的激活向量,按照以下公式计算:
[0110][0111]
其中,为第i超体素的激活向量,v0为特定视频,vi′
为第i相关视频,(f
l
(vi′
),f
l
(v0))为第i特征图二元组,为线性分类器。
[0112]
将原始视频v输入动作质量评估模型usdl得到第g个标签对动作质量评估模型的梯度h
l,g
,1≤g≤g;其中,获取的梯度h
l,g
为特征层l的梯度。
[0113]
根据第i超体素的激活向量第g个标签和第g个标签对应数值,计算第i超体素对第g个标签的敏感度分数;
[0114]
具体的,根据第i超体素的激活向量,第g个标签和第g个标签对应数值,计算第i超体素对第g个标签的敏感度分数,c
i,l,g
(v),按照以下方式计算:
[0115][0116]
其中,c
i,l,g
(v)为第i超体素对第g个标签的敏感度分数,为第i超体素的激活向量,v为原始视频,为求梯度运算,h
l,g
为求解输出第g个标签对动作质量评估模型第l层的反向梯度。
[0117]
根据第i超体素对第g个标签的敏感度分数c
i,l,g
(v),按照以下公式计算第i超体素对动作质量评估模型的分数倾向性s:
[0118][0119]
其中,s为第i超体素对动作质量评估模型的分数倾向性,g为第g个标签,c为敏感度分数,maxc为敏感度分数最大值,minc为敏感度分数最小值,labelg为常数。
[0120]
通过第i超体素对动作质量评估模型的分数倾向性s能够解释动作是否合乎标准。
[0121]
实施例3
[0122]
使用jigsaws的三个公开数据集knottying、needlepassing、suturing训练动作质
量评估模型usdl和神经网络模型ucs,神经网络模型ucs为视频特征图模型ucs,其中,knottying数据集是“结绳数据集”,是一个用于手术技能评估的数据集,外科医生在医学训练中练习结扎技巧时的视频记录;needlepassing是“穿针引线数据集”;suturing数据集是“缝合数据集。
[0123]
首先进行视频的超体素分割实验,向训练好的视频特征图模型ucs输入原始视频v,提取出原始视频v的encoder框架的最后一层的特征信息f,接下来将原始视频v的像素的时间和位置信息p嵌入f中得到特征矩阵f


[0124]
以网格化的方式初始化超体素,并将超体素的数量设置一个合适的数值k=80,对特征矩阵f

执行一个软聚类操作,将迭代次数设置epoch=500,得到最终的像素和超体素的关系矩阵h。
[0125]
接下来进行超体素对动作质量评估模型usdl敏感度的评估实验。
[0126]
首先,使用高斯模糊方法,生成一个和原始视频v相同维度的特定视频v0,之后在特定视频v0基础上,把第i个超体素包含的像素还原成原始视频v的像素值,其余部分不变得到视频第i相关视频vi′
,将得到的特定视频v0和第i相关视频vi′
分别输入到动作质量评估模型usdl模型中,得到特定层l的两个特征图,再将特定层l的两个特征图输入到一个线性分类器中,获得一个能够表征当前超体素的层间激活向量。然后将原始视频v再次输入到动作质量评估模型usdl中,得到每个类别标签在动作质量评估模型usdl特定层l的梯度,使用梯度来量化超体素对动作质量评估模型usdl的分数倾向性。在使用动作质量评估模型usdl和视频特征图模型ucs时,将视频分割成l帧图片,按照间隔从中抽取160帧图片,16帧图片作为一个文件夹,一共十组片段。在训练两个模型时,将每一帧图片的尺寸由256x340修剪为224x224。
[0127]
实施例4
[0128]
参照图2,图2为分割成不同数量超体素的效果图,对于jigsaws数据集,在进行视频的超体素分割实验时,需要将视频分割特定数量的超体素,参照图2可知,将超体素的数量设置为k=80是较好的,在该数量下,实验能够将视频中的动作和背景信息尽可能完整的分割。与此同时,也尝试了其它数量超体素的分割实验,并对其定性分析,当设置较少数量的超体素时,一些超体素会把视频里的动作和背景包含在一起,无法对视频中动作和背景有效的划分;当设置较大数量的超体素时,实验发现会把视频中的一个完整动作或背景分割成很多个细微超体素,这将不会完整的保持一个连续动作,同时也会为视频背景计算多个分数倾向,带来了计算量问题。
[0129]
实施例5
[0130]
参照图3至图6,图3为rise方法中超体素对动作质量评价模型敏感度的一种可视化效果图,图4为与图3对应的本发明提供的基于超体素的动作质量评估模型的倾向性解释方法中超体素对动作质量评价模型敏感度的可视化效果图,图5为rise方法中超体素对动作质量评价模型敏感度的另一种可视化效果图,图6为与图5对应的本发明提供的基于超体素的动作质量评估模型的倾向性解释方法中超体素对动作质量评价模型敏感度的可视化效果图。本发明提出的方法能够量化超体素对动作评估模型的分数倾向性,使用iauc指标和dauc指标将本发明提出的方法与其它经典神经网络模型的可解释方法进行比较,其中,iauc为插入下的auc曲线和dauc为删除下的auc曲线,auc曲线常用于机器学习领域的模型
评估和比较,是用于评估分类器性能的常用指标,可以用来度量分类器的准确性,当逐渐删除或添加视频中的像素,模型做出的决策将会随之改变,使得预测为真实标签的概率上升或者下降。对于dauc指标,概率曲线下的面积很低时将意味着一个更好的解释方法;当使用iauc指标时,概率曲线下的面积很高时将意味着一个更好的解释方法。参照表1,表1中提供了五种可解释方法,其中,cam、grad-cam、rise、lime为现有可解释技术,cam为使用全局平均池化的方式量化特征图来表示视频中每个像素的敏感度;grad-cam为使用反向梯度的方式来量化视频中每个像素的敏感度;rise为使用随机掩膜的方法来量化每个像素的敏感度;lime为将视频分成多帧图片,对图片进行超像素分割,以一种线性拟合的方法来计算每个超像素的敏感度;ours为本发明提供的基于超体素的动作质量评估模型的倾向性解释方法,对这五种可解释方法分别应用同一动作评估模型和数据集中,并分别计算它们的iauc数值和dauc数值。从实验结果可以看出,本发明提供的基于超体素的动作质量评估模型的倾向性解释方法的dauc指标较低,iauc指标较高,但本发明提出的基于voxel的敏感度倾向计算方法,要优于现有技术的可解释方法。
[0131]
表1.可解释方法指标对比表
[0132][0133]
实施例6
[0134]
参照图7,图7为使用不同方法进行超体素分割的对比图,以无监督的方法对视频进超体素分割,首先提取出视频的深层特征信息,为了更好的捕获视频的语义时空结构信息,将像素的时间和位置信息嵌入特征信息,然后使用一种软聚类的方式来完成超体素的分割,再以网格方式初始化超体素,不断的迭代计算视频中超体素与像素之间的关系矩阵。
[0135]
其中,在视频的深层特征信息基础上,加入每个像素的时间和位置信息,参照图7,发现同一帧图片中两个手术刀动作同属于一个超体素,为了保证动作的完整性与连续性,故应该得到同一帧下的手术刀属于同一个超体素,这是一个更好的结果。同时也进行了ucs方法的实验(ucs方法指论文“unsupervised copart segmentation through assembly”公开的方法),它提出了一种基于部件的无监督方法,它从视频中提取基于部件的通用表示,在训练时将重定位特征图解码为目标图像的还原度,以及将源潜在特征图解码为源图像的还原度。从分割结果上看,软聚类方法能够将手术刀和面板的针线以超体素的形式分割,要优于ucs方法。
[0136]
实施例7
[0137]
参照图8、图9、图10和图11,图8为低分段视频中超体素对动作质量评估模型的敏
感度倾向性统计图,图9为中分段视频中超体素对动作质量评估模型的敏感度倾向性统计图,图10为高分段视频中超体素对动作质量评估模型的敏感度倾向性统计图,图11为动作序列的对比图,在实验中,利用方向导数来量化超体素对动作质量评估模型的分数倾向。动作质量评估模型的每个分类节点具有分数意义,需要将分数标签加入到敏感度计算中,将视频的分数标签取值范围由6~30转换成-12~12,根据所述第i超体素的激活向量,所述第g个标签和所述第g个标签对应数值,计算所述第i超体素对所述第g个标签的敏感度分数;根据所述第i超体素对所述第g个标签的敏感度分数计算所述第i超体素对所述动作质量评估模型的分数倾向性。参照图8至图10,当超体素的分数倾向性较高时,则判定为标准的动作;当超像素的分数在贴近于0时候,超体素包含的是视频的背景信息,它对动作评估模型判断无明显影响;当超像素的分数倾向性很低时,则判定为很差的动作细节,它将拉低动作评估模型的评判分数。
[0138]
以统计图的形式,给出了高、中、低分数视频中每个超体素对动作质量评估模型的分数倾向。在每幅图中,将具有代表性的超体素给予匹配特定帧图片。参照图11,两组图片分别来自一个高分和低分视频,在第一组图片中,可以看出手术刀的动作较为规范,能够在恰当的位置将针扎入面板,动作合理并且干脆利落;在第二组图中,可以看出右侧手术刀的持针动作不合理,并且动作犹豫不决,手术面板的针线不合格,本实施提供的基于超体素的动作质量评估模型的倾向性解释方法计算出的包含手术刀和包含手术面板的两种voxel分数较低。
[0139]
实施例8
[0140]
参照图12和图13,图12为分数与时间的关系图,图13为超体素分数倾向性的可视化图,图13以热力图的形式,展示视频中每个超体素对模型的敏感度倾向,在图12中x轴、y轴、z轴分别表示clip编号、分数标签和分数预测的概率,将视频分为600帧图片,以等间隔方式提取160帧图片,其中16帧为一小组,共分为10个视频片段,每个视频片段为一个clip,由图12可知,标框内的视频片段分数偏低。参照图13,沿着时间顺序的视频动作可视化,选择jigswas数据集中的suturing数据集中的一个视频进行可视化实验,图12展示了分数分布随着时间的演变,获得10个clip的分数分布并将它们绘制在图表上,该视频的真实标签分数较高,网络给出的预测得分较高。从分数分布的时间演化可以看出网络是如何给出预测的,在第9段clip中,执行的操作出现了问题,导致较为低分预测。在第九段clip中,将低分超体素标出,该超体素包含的动作产生了错误的操作,进而拉低给出的预测分数。如图12,将jigswas数据集中的suturing类的视频进行超体素分割,计算得到每个超体素对动作质量评估模型的分数倾向性。本发明提出的可解释方法基于超体素的形式,对视频手术刀的动作进行定量分析,当超体素的分数较低时,能够发现它包含的动作不是规范的,手术动作犹豫不决,不能将线扎入正确的位置;同理当分数较高的时候,能够发现其包含的动作近乎完美;处在中间分数段的超体素,能够发现其包含的视频的背景信息,对动作评估模型影响很小。
[0141]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0142]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,包括:将原始视频输入训练好的神经网络模型得到特征信息,所述原始视频包括n个像素和g类标签;将n个所述像素的时间和位置信息嵌入所述特征信息得到特征矩阵;将所述特征矩阵均匀划分为k个超体素,并将n个所述像素分配至k个所述超体素内;对所述原始视频进行高斯模糊操作生成特定视频;保留所述原始视频中第i超体素的像素区域并进行处理得到第i相关视频,1≤i≤k;将所述特定视频和所述第i相关视频输入动作质量评估模型得到第i特征图二元组;将所述第i特征图二元组输入线性分类器,得到所述第i超体素的激活向量;将所述原始视频输入所述动作质量评估模型得到第g个标签对所述动作质量评估模型的梯度,1≤g≤g;根据所述第i超体素的激活向量,所述第g个标签和所述第g个标签对应数值,计算所述第i超体素对所述第g个标签的敏感度分数;根据所述第i超体素对所述第g个标签的敏感度分数,按照以下公式计算所述第i超体素对所述动作质量评估模型的分数倾向性:其中,s为所述第i超体素对所述动作质量评估模型的分数倾向性,g为所述第g个标签,c为敏感度分数,maxc为敏感度分数最大值,minc为敏感度分数最小值,label
g
为常数。2.根据权利要求1所述的基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,所述将所述第i特征图二元组输入线性分类器,得到所述第i超体素的激活向量,按照以下公式计算:其中,t
li
为所述第i超体素的激活向量,v0为所述特定视频,v
i

为所述第i相关视频,(f
l
(v
i

),f
l
(v0))为所述第i特征图二元组,为线性分类器。3.根据权利要求1所述的基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,所述根据所述第i超体素的激活向量,所述第g个标签和所述第g个标签对应数值,计算所述第i超体素对所述第g个标签的敏感度分数,按照以下方式计算:其中,c
i,l,g
(v)为所述第i超体素对所述第g个标签的敏感度分数,t
li
为所述第i超体素的激活向量,v为所述原始视频,为求梯度运算,h
l,g
为求解输出所述第g个标签对所述动作质量评估模型第l层的反向梯度。4.根据权利要求1所述的基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,所述将n个所述像素分配至k个所述超体素内,包括:分别初始化k个所述超体素的中心;分别计算所述像素至k个所述超体素中心的欧氏距离,将所述像素分配至与其欧氏距离最小的所述超体素内;
对k个所述超体素的中心进行更新,返回所述分别计算所述像素至k个所述超体素中心的欧氏距离,将所述像素分配至与其欧氏距离最小的所述超体素内进行迭代;当n个所述像素的分配不再发生变化,完成分配。5.根据权利要求4所述的基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,计算所述像素与所述第i超体素的中心的欧氏距离按照以下方式进行计算:其中,a
(p,i)
为所述像素与所述第i超体素的中心的欧氏距离,f

p
为第p个所述像素的特征向量。6.根据权利要求4所述的基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,所述对k个所述超体素的中心进行更新,包括:建立n个所述像素与k个所述超体素的关系矩阵;对所述第i超体素的中心进行更新,按照以下方式进行计算:s
i
=a
t
f

;其中,a为n个所述像素与k个所述超体素的关系矩阵,a∈[0,1]
n
×
k
,f

为所述特征矩阵。7.根据权利要求1所述的基于超体素的动作质量评估模型的倾向性解释方法,其特征在于,所述将n个所述像素的时间和位置信息嵌入所述特征信息得到特征矩阵,按照以下方式进行计算:f

=f+p;其中,f

为所述特征矩阵,f为所述特征信息,p为n个所述像素的时间和位置信息。

技术总结
本发明提供一种基于超体素的动作质量评估模型的倾向性解释方法,包括:根据所述第i超体素的激活向量,所述第g个标签和所述第g个标签对应数值,计算所述第i超体素对所述第g个标签的敏感度分数;根据所述第i超体素对所述第g个标签的敏感度分数,计算所述第i超体素对所述动作质量评估模型的分数倾向性。通过将视频进行超体素分割,能够减少噪声对实验结果的影响并且易于理解;使用深度神经网络中的层间激活向量来表征每个超体素,再计算超体素对标签的敏感度分数,最后根据敏感度分数计算超体素对动作质量评估模型分数倾向性,从而更加直观的看出视频中的动作和背景信息给动作质量评估模型做出判断带来的影响。估模型做出判断带来的影响。估模型做出判断带来的影响。


技术研发人员:陶小旖 马东旭 李良知
受保护的技术使用者:大连海事大学
技术研发日:2023.05.17
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐