一种微动作时间学参数获取方法、装置及介质

未命名 10-18 阅读:123 评论:0


1.本发明涉及医疗视频理解与识别领域,尤其涉及一种微动作时间学参数获取方法、装置及介质。


背景技术:

2.医疗视频的内容理解在现实生活中有广泛的应用场景和重要的应用价值。这些视频包括用于辅助诊断和评估的特殊造影视频,用于康复医疗行为评估的视频,以及作为示教材料的手术视频等。吞咽造影作为评估吞咽功能、诊断吞咽障碍的重要检查手段,目前可大致分为定性分析、半定量分析与定量分析三种。其中吞咽造影时间学参数是定量分析的重要指标之一,主要通过分析吞咽器官运动轨迹并准确测量吞咽过程的相关时间学参数。
3.然而,由于缺乏有效针对性分析技术,目前吞咽造影视频辅助诊断还主要依靠医生人工逐帧观察和定性分析,既耗时费力,又难以保证客观性和准确性。此外吞咽造影微动作识别是一个细粒度的动作识别任务,器官运动作幅度小且动作之间都有一定的重叠,难以分辨,此外每个吞咽动作时长短(动作本身时长占整个视频中占比小)且动作长短不一。
4.综上所述,如何利用视频理解中的时序动作定位技术,对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各个微动作的时序信息,实现时间学参数的自动测量,以实现吞咽造影智能定量分析。是当前该领域技术人员急需解决的问题。


技术实现要素:

5.为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种微动作时间学参数获取方法、装置及介质。
6.本发明所采用的技术方案是:
7.一种微动作时间学参数获取方法,包括以下步骤:
8.获取吞咽造影视频数据;
9.根据吞咽造影视频数据提取视频特征;所述视频特征包括rgb特征以及光流特征;
10.将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征;
11.将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果。
12.进一步地,所述获取吞咽造影视频数据,包括:
13.对获取到的吞咽造影视频数据进行数据清洗,采用预设的滑动窗口,从吞咽造影视频数据中截取视频片段;
14.若视频片段中包含至少一个完整的吞咽过程,将该视频片段保存为有效的数据集文件;反之,丢弃该视频片段。
15.进一步地,所述根据吞咽造影视频数据提取视频特征,包括:
16.采用13d模型作为视频特征提取器,根据吞咽造影视频数据提取视频特征v;
17.其中,13d模型在图像分类模型的基础上,将2d卷积膨胀到3d卷积,并从rgb以及光流信息中分两个特征流提取时空特征。
18.进一步地,所述将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征,包括:
19.对于提取到的每一个视频特征帧,用一个预设大小的窗口截取该视频特征帧邻近的片段特征,将视频特征帧的特征和邻近片段的特征作为键值对k、v,将邻近特征作为查询q,用注意力函数做一次映射,得到用局部特征增强后的视频特征f
l
;计算公式如下:
[0020][0021]
通过局部的时序自注意力编码lte获取用邻近特征增强后的特征,计算过程如下:
[0022][0023]
式中,fi为视频特征中第i个特征帧的特征,fw为第i个特征帧对应邻近窗口片段特征,f
il
为用邻近特征增强后第i个特征帧的特征,γ
l
、ρ
l
和均为可学习的线性映射函数;
[0024]
通过全局的时序自注意力编码gte获取用全局特征增强后的特征,计算过程如下:
[0025][0026]
式中,fv为整个视频的特征,f
ig
为用全局特征增强后第i个特征帧的特征,γg、ρg和均为可学习的线性映射函数;
[0027]
通过局部-全局时序特征编码lgte将由lte和gte增强后的特征连接起来,获得用局部特征和全局特征增强后的视觉增强特征fv。
[0028]
进一步地,采用预设的可变窗口大小生成模块预测当前特征帧的窗口大小阈值thi,该可变窗口大小生成模块由一个平均池化、leakyrelu、全连接层和sigmoid组成;
[0029]
所述可变窗口大小生成模块的表达式为:
[0030]
thi=(w+1)//2
·
sigmoid(linear(leakyrelu(averagepool(fi))))
[0031]
p=[(w-1)//2,,...,1,0,1,...,,(w-1)//2]
[0032]ei
=th
i-p
[0033]wiv
=sigmoid(ei/t)
[0034]
其中w为预设的最大窗口大小,thi的取值范围为[0,(w+1)//2]的窗口大小阈值,权重定位的序列w
iv
;p为绝对位置编码,ei用来表示窗口范围内每个位置是否在预测的窗口大小阈值内;t表示sigmoid函数的控制参数,采用sigmoid函数对ei进行阈值化,最终得到权重序列w
iv
,其中t其值越小,w
iv
的编码越接近one-hot编码。
[0035]
进一步地,所述微动作定位网络为a2net模型;
[0036]
所述将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果,包括:
[0037]
对于输入的视觉增强特征fv,a2net模型先采用一个卷积模块处理;其中卷积模块由两个卷积层和一个池化层组成;a2net模型同时对无锚定框模块和有锚定框模块进行预测,无锚定框模块生成分类损失和回归损失,有锚定框模块生成分类损失、重叠损失和回归损失;将无锚定框模块和锚定框模块的动作定位结果合并在一起,通过非极大值抑制算法
获得最终的定位结果。
[0038]
进一步地,所述微动作时间学参数获取方法还包括以下步骤:
[0039]
对于在制作完成后的数据集中进行评估,将定位出来的候选框按照置信度评分排名,取前n名来计算最终的map;其中ap为每个动作类别的评估指标,map是多个类的ap的平均结果;n为正整数。
[0040]
进一步地,评估指标ap的计算方法如下:
[0041]
根据定位出的锚定框,计算出各个锚定框与所有真实值的重叠率,将重叠率大于特定阈值的锚定框视为正样本tp,将不能达到该阈值的锚定框视为负样本fp,将所有锚定框按照置信度大小排序从高到低排序,统计前n名的正样本数量和负样本数量,计算出召回率recall和查准率precision:
[0042]
recall=tp/(tp+fn)
[0043]
precision=tp/(tp+fp)
[0044]
以召回率为横轴,以查准率为纵轴,得到recall-precision曲线;计算recall-precision曲线与横轴以及纵轴间的面积,作为ap的计算结果。
[0045]
本发明所采用的另一技术方案是:
[0046]
一种微动作时间学参数获取装置,包括:
[0047]
至少一个处理器;
[0048]
至少一个存储器,用于存储至少一个程序;
[0049]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述方法。
[0050]
本发明所采用的另一技术方案是:
[0051]
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0052]
本发明的有益效果是:本发明通过利用视频理解中的时序动作定位技术,实现对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各微动作的时序信息,为实现吞咽造影智能定量分析,提供可靠的依据。
附图说明
[0053]
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0054]
图1是本发明实施例中一种吞咽造影视频检测中的微动作时间学参数获取方法的步骤流程图;
[0055]
图2是本发明实施例中一种吞咽造影视频检测中的微动作时间学参数获取网络结构框架示意图;
[0056]
图3是本发明实施例中可变窗口大小的注意力机制特征增强示意图;
[0057]
图4是本发明实施例中可变窗口大小模块示意图;
[0058]
图5是本发明实施例中由粗到细动作定位网络结构示意图。
[0059]
图6是本发明实施例中一种吞咽造影视频检测中的微动作时间学参数获取的可视化结果。
具体实施方式
[0060]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0061]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0062]
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0063]
此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0064]
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0065]
术语解释:
[0066]
lgte:局部-全局时序特征编码
[0067]
lte:局部的时序自注意力编码
[0068]
gte:全局的时序自注意力编码
[0069]
如图1和图2所示,本实施例提供一种吞咽造影视频检测中的微动作时间学参数获取方法,包括以下步骤:
[0070]
s1、获取吞咽造影视频数据。
[0071]
首先针对吞咽造影视频进行数据清洗,然后将可用的吞咽视频用滑动窗口的方法制作数据集。这样可得到提取特征需要的rgb特征;然后对切分后的视频文件进行光流特征提取,得到的特征需要的光流数据,将医生数据标注文件中的标注数据按照切分后每个视频在原视频的起始点重新计算得出新数据各微动作以及吞咽完整过程的起止时间,作为标注信息。将每个视频文件的标注信息以字典的形式存成npz文件。
[0072]
在本实施例中,首先针对吞咽造影视频进行数据清洗,然后将可用的吞咽视频用滑动窗口的方法制作数据集。具体来说,分别以32秒和64秒作为滑窗长度,以滑窗长度的1/4长度作为滑动步长,从原视频文件中截取视频片段,当视频片段中包含至少一个完整的吞咽过程时,即将视频片段视为有效的数据集文件,否则丢弃,这样可得到提取特征需要的
rgb输入数据以及光流输入数据。
[0073]
s2、根据截取的吞咽造影视频片段数据提取rgb特征以及光流特征。
[0074]
将吞咽造影视频片段数据输入至预训练过的卷积神经网络中进行特征提取,对于预训练的卷积神经网络,可以任意选择现有的典型卷积神经网络分别作为视频rgb特征提取器和光流特征提取器进行特征提取。
[0075]
作为一种可选的实施方式,采用i3d模型作为视频特征提取器,提取视频特征v,该模型是在图像分类模型的基础上,将2d卷积膨胀到3d卷积,并从rgb以及光流信息中分两个特征流提取时空特征。3d卷积在计算时沿着时间维度重复2d滤波器权重n次,最终通过将计算结果除以n进行归一化。在时间以及空间的感受野设置方面,我们在inceptionv1模块设置时,将前两个池化层在时间维度上将步长设置为1,空间上则是2x2,最后一个池化层的算子设置为为2x7x7;此外,除了最后一个卷积层以外,所有的卷积操作后都加上归一化及relu激活操作。
[0076]
s3、将视觉特征输入可变窗口大小的注意力机制特征增强处理,输出视觉增强特征。
[0077]
将提取的特征输入可变窗口大小的注意力机制模块进行增强,考虑到吞咽造影微动作识别任务与公开数据集上的时序动作识别任务相比,需要识别的动作时间长度短,对视频邻近帧之间的变化要更敏感,为增强视频特征,使其能够更能体现相邻帧之间的变化和与其全局数据的差别,采用自注意力机制提高每一个特征帧对其相邻以及全局数据的关注,增强特征的表达能力。
[0078]
对于可变窗口大小的注意力机制特征增强,图3展示了其结构示意图。对于提取后的每一个视频特征帧,用一个特定大小的窗口截取特征帧邻近片段特征,将特征帧的特征和邻近片段的特征视为键值对k、v,将邻近特征视为查询q,用注意力函数做一次映射,得到用局部特征增强后的视频特征f
l

[0079][0080]
其lte计算过程如下公式(2)所示。其中fi为视频特征中第i个特征帧的特征,fw为第i个特征帧对应邻近窗口片段特征,f
il
为用邻近特征增强后第i个特征帧的特征,γ
l
、ρ
l
和为可学习的线性映射函数。
[0081][0082]
gte全局特征增强特征帧特征,计算过程和lte类似,其计算过程如下公式(3)所示,其中fv为整个视频的特征,f
ig
为用全局特征增强后第i个特征帧的特征,γg、ρg和为可学习的线性映射函数。
[0083][0084]
最终lgte将由lte和gte增强后的特征连接起来,即可得到用局部特征和全局特征增强后的特征fv。
[0085]
考虑到各个微动作持续时长不同,而采用固定大小的会限制对不同的微动作进行局部建模的能力。通过采用可变大小的窗口模块进行优化,如图4所示。是利用特征帧上下
文信息,动态地从特征中学习特征帧需要关注的区域长度。具体来说,对于视频特征的每个特征帧fi,用由一个平均池化、leakyrelu、全连接层和sigmoid组成的模块预测出对于当前特征帧合适的单向窗口大小阈值thi。具体计算公式如下:
[0086]
thi=(w+1)//2
·
sigmoid(linear(leakyrelu(averagepool(fi))))
ꢀꢀꢀꢀ
(4)
[0087]
其中w为预设的最大窗口大小,thi的取值范围为[0,(w+1)//2]的窗口大小阈值。权重定位的序列w
iv
,具体计算表达式如下:
[0088]
p=[(w-1)//2,,...,1,0,1,...,,(w-1)//2]
[0089]ei
=th
i-p
[0090]wiv
=sigmoid(ei/t)
[0091]
上式中,p为绝对位置编码,与窗口大小阈值thi相减,得到ei,用来表示窗口范围内每个位置是否在预测的窗口大小阈值内;然后再采用sigmoid函数对ei进行阈值化,最终得到权重序列w
iv

[0092]
s4、将吞咽造影视频增强特征输入由粗到细二阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果。
[0093]
吞咽造影视频时序动作定位中需要定位的微动作时间很短,平均只有不到1秒,且微动作之间存在重叠区域,难以从完整的视频中定位出微动作的时序信息。通过采用由粗到细微动作定位机制提升微动作定位的效果,其流程示意图如图5所示。具体来说,首先通过利用训练好的模型对每一个微动作类别在较短视频时长的训练集中训练一个好的单类定位器;基于此基础上采用由粗到细微动作定位方法:首先从视频中定位出完整的吞咽过程,利用置信度阈值筛选吞咽候选框,再对吞咽候选框对应片段重新提取特征,将提取的特征分别输入到单类定位器中,预测出相应微动作类别的时序信息。将预测出的候选框位置加上吞咽片段本身偏移量,即可得到由粗到细两阶段方法定位的结果。
[0094]
应用于吞咽造影视频微动作定位主要采用的是a2net模型,对于输入的视频特征fv,模型首先用一个卷积模块处理。基本卷积模块由两个卷积层和一个池化层组成,以此减小信道大小以及融合时间维度信息。型同时对无锚定框模块和有锚定框模块进行预测,前者生成分类损失和回归损失,后者生成分类损失,重叠损失以及回归损失。最后,将无锚和锚定模块的动作定位结果合并在一起,通过非极大值抑制算法获得最终的定位结果。
[0095]
在评估指标方面采用的是map。其中ap用作每个动作类别的评估指标,map则是多个类的ap的平均结果。对于在制作完成后的数据集中进行评估,将定位出来的候选框按置信度评分排名,取前100名来计算最终的map,其中iou阈值从0.1开始到0.7,每隔0.1取一次。
[0096]
具体地,评估指标ap的计算方法如下:
[0097]
利用时序定位模型定位出的锚定框,计算出各个锚定框与所有真实值的重叠率,将重叠率大于特定阈值的锚定框视为正样本tp,将不能达到该阈值的锚定框视为负样本fp,将所有锚定框按照置信度大小排序从高到低排序,统计前100名的正样本数量,负样本数量计算出召回率(recall)和查准率(precision)序列。
[0098]
recall=tp/(tp+fn)
[0099]
precision=tp/(tp+fp)
[0100]
其中tp为当前统计的正样本数量,fp为负样本数量,fn为当前统计的未检测出的
正样本数量。最后以召回率为横轴,以查准率为纵轴,可以得到recall-precision曲线。计算曲线与横轴以及纵轴间的面积,即为最终的ap的计算结果。
[0101]
实验数值效果:
[0102]
首先对于每个动作类别训练一个单分类器,每个单分类器在测试集的定位效果如下表1所示。
[0103]
表1为一阶段单分类时序动作定位效果
[0104][0105]
为了验证由粗到细两阶段定位方法的有效性,在一阶段的方法的基础上进行两阶段的实验,特征提取过程、超参设置以及评估指标等同于一阶段,具体数据结果如表2所示:
[0106]
表2在由粗到细两阶段时序动作框架定位效果
[0107][0108]
为了验证可变窗口大小的注意力机制增强方法的有效性,将本实施例方法在两阶段的基础上引入可变窗口大小的注意力机制增强方法进行实验,实验结果显示本实施例方法可制增强视频特征,提升模型效果。具体数值结果如表3所示:
[0109]
表3为在可变窗口大小的注意力机制两阶段时序动作定位效果
[0110][0111]
可视化结果
[0112]
为了进一步说明本方法的有效性,下图展示了可视化结果。
[0113]
在图6中,展示了方法中可变窗口大小的注意力机制二阶段定位的效果。从结果中可以看出,本实施例的方法能够较好的获取吞咽造影视频中定量评估的每个微动作的起始时间,实现吞咽造影视频检测中的微动作时间学参数获取。
[0114]
综上所述,本发明方法能够通过利用视频理解中的时序动作定位技术,实现对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各微动作的时序信息,为实现吞咽造影智能定量分析,提供可靠的依据。
[0115]
本实施例还提供一种微动作时间学参数获取装置,包括:
[0116]
至少一个处理器;
[0117]
至少一个存储器,用于存储至少一个程序;
[0118]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如图1所示方法。
[0119]
本实施例的一种微动作时间学参数获取装置,可执行本发明方法实施例所提供的一种微动作时间学参数获取方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0120]
本技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
[0121]
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种微动作时间学参数获取方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
[0122]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0123]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0124]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0125]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0126]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0127]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0128]
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或
者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0129]
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0130]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:
1.一种微动作时间学参数获取方法,其特征在于,包括以下步骤:获取吞咽造影视频数据;根据吞咽造影视频数据提取视频特征;所述视频特征包括rgb特征以及光流特征;将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征;将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果。2.根据权利要求1所述的一种微动作时间学参数获取方法,其特征在于,所述获取吞咽造影视频数据,包括:对获取到的吞咽造影视频数据进行数据清洗,采用预设的滑动窗口,从吞咽造影视频数据中截取视频片段;若视频片段中包含至少一个完整的吞咽过程,将该视频片段保存为有效的数据集文件;反之,丢弃该视频片段。3.根据权利要求1所述的一种微动作时间学参数获取方法,其特征在于,所述根据吞咽造影视频数据提取视频特征,包括:采用i3d模型作为视频特征提取器,根据吞咽造影视频数据提取视频特征v;其中,i3d模型在图像分类模型的基础上,将2d卷积膨胀到3d卷积,并从rgb以及光流信息中分两个特征流提取时空特征。4.根据权利要求1所述的一种微动作时间学参数获取方法,其特征在于,所述将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征,包括:对于提取到的每一个视频特征帧,用一个预设大小的窗口截取该视频特征帧邻近的片段特征,将视频特征帧的特征和邻近片段的特征作为键值对k、v,将邻近特征作为查询q,用注意力函数做一次映射,得到用局部特征增强后的视频特征f
l
;计算公式如下:通过局部的时序自注意力编码lte获取用邻近特征增强后的特征,计算过程如下:式中,f
i
为视频特征中第i个特征帧的特征,f
w
为第i个特征帧对应邻近窗口片段特征,f
il
为用邻近特征增强后第i个特征帧的特征,γ
l
、ρ
l
和均为可学习的线性映射函数;通过全局的时序自注意力编码gte获取用全局特征增强后的特征,计算过程如下:式中,f
v
为整个视频的特征,f
ig
为用全局特征增强后第i个特征帧的特征,γ
g
、ρ
g
和均为可学习的线性映射函数;通过局部-全局时序特征编码lgte将由lte和gte增强后的特征连接起来,获得用局部特征和全局特征增强后的视觉增强特征f
v

5.根据权利要求4所述的一种微动作时间学参数获取方法,其特征在于,采用预设的可变窗口大小生成模块预测当前特征帧的窗口大小阈值th
i
,该可变窗口大小生成模块由一个平均池化、leakyrelu、全连接层和sigmoid组成;所述可变窗口大小生成模块的表达式为:th
i
=(w+1)//2
·
sigmoid(linear(leakyrelu(averagepool(f
i
))))p=[(w-1)//2,,...,1,0,1,...,,(w-1)//2]e
i
=th
i-pw
iv
=sigmoid(e
i
/t)其中w为预设的最大窗口大小,th
i
的取值范围为[0,(w+1)//2]的窗口大小阈值,权重定位的序列w
iv
;p为绝对位置编码,e
i
用来表示窗口范围内每个位置是否在预测的窗口大小阈值内;t表示sigmoid函数的控制参数,采用sigmoid函数对e
i
进行阈值化,最终得到权重序列w
iv
。6.根据权利要求1所述的一种微动作时间学参数获取方法,其特征在于,所述微动作定位网络为a2net模型;所述将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果,包括:对于输入的视觉增强特征f
v
,a2net模型先采用一个卷积模块处理;其中卷积模块由两个卷积层和一个池化层组成;a2net模型同时对无锚定框模块和有锚定框模块进行预测,无锚定框模块生成分类损失和回归损失,有锚定框模块生成分类损失、重叠损失和回归损失;将无锚定框模块和锚定框模块的动作定位结果合并在一起,通过非极大值抑制算法获得最终的定位结果。7.根据权利要求6所述的一种微动作时间学参数获取方法,其特征在于,所述微动作时间学参数获取方法还包括以下步骤:对于在制作完成后的数据集中进行评估,将定位出来的候选框按照置信度评分排名,取前n名来计算最终的map;其中ap为每个动作类别的评估指标,map是多个类的ap的平均结果;n为正整数。8.根据权利要求7所述的一种微动作时间学参数获取方法,其特征在于,评估指标ap的计算方法如下:根据定位出的锚定框,计算出各个锚定框与所有真实值的重叠率,将重叠率大于特定阈值的锚定框视为正样本tp,将不能达到该阈值的锚定框视为负样本fp,将所有锚定框按照置信度大小排序从高到低排序,统计前n名的正样本数量和负样本数量,计算出召回率recall和查准率precision:recall=tp/(tp+fn)precision=tp/(tp+fp)以召回率为横轴,以查准率为纵轴,得到recall-precision曲线;计算recall-precision曲线与横轴以及纵轴间的面积,作为ap的计算结果。9.一种微动作时间学参数获取装置,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-8任一项所述方法。10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。

技术总结
本发明公开了一种微动作时间学参数获取方法、装置及介质,属于医疗视频理解与识别领域。其中方法包括:获取吞咽造影视频数据;根据吞咽造影视频数据提取视频特征;所述视频特征包括RGB特征以及光流特征;将提取到的视频特征输入可变窗口大小的注意力机制,进行特征增强处理,输出视觉增强特征;将视觉增强特征输入由粗到细两阶段微动作定位网络,输出吞咽造影微动作定位和识别的结果。本发明通过利用视频理解中的时序动作定位技术,实现对吞咽造影视频进行时序上的自动定位,获取吞咽过程中各微动作的时序信息,为实现吞咽造影智能定量分析,提供可靠的依据。提供可靠的依据。提供可靠的依据。


技术研发人员:谭明奎 阮湘辉 陈卓琨 游增
受保护的技术使用者:华南理工大学
技术研发日:2023.06.06
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐