微创手术视频摘要生成方法

未命名 08-13 阅读：151 评论：0

1.本发明涉及视频摘要生成技术领域，具体涉及一种微创手术视频摘要生成方法。

背景技术：

2.微创手术视频摘生成要是提取微创手术中的关键内容，让医生快速了解微创手术过程以及加速微创手术知识分享，有助于医生快速了解微创手术过程，节省了观看微创手术视频的时间成本。
3.现有的微创手术视频摘要生成大多是仅针对视频的图像特征(色彩、亮度等)进行重要性评估，进而得到视频摘要。
4.因此，现有的视频摘要生成方法未考虑到微创手术阶段等先验信息的约束，会使得视频摘要缺失部分微创手术阶段信息，无法保证视频摘要中微创手术阶段的完整性。

技术实现要素：

5.(一)解决的技术问题
6.针对现有技术的不足，本发明提供了一种微创手术视频摘要生成方法，解决了现有技术生成的视频摘要无法保证微创手术阶段的完整性的问题。
7.(二)技术方案
8.为实现以上目的，本发明通过以下技术方案予以实现：
9.一种微创手术视频摘要生成方法，该方法包括：
10.基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签；其中，所述微创手术行为语义标签包括器械标签、动作标签、目标标签；
11.基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数；
12.基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头；所述镜头包括若干微创手术视频帧；
13.基于微创手术行为语义标签获取镜头之间的语义相似度；
14.基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。
15.进一步的，所述基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签，包括：
16.对微创手术视频进行预处理获取微创手术图像；
17.基于预训练的卷积神经网络，提取微创手术图像的视频帧图像特征；
18.将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络、微创手术阶段分类网络，得到微创手术行为语义标签以及微创手术阶段标签。
19.进一步的，所述基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数，包括：
20.通过相邻两帧的微创手术行为语义标签的欧式距离加权和计算每一帧的重要性
分数。
21.进一步的，所述基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头，包括：
22.基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段；
23.对每一帧器械语义标签中所有器械类别出现概率求均值得到帧级器械存在平均概率；
24.将各个视频片段内所有帧的器械存在平均概率输入到变化点检测模型中得到各个视频片段的镜头边界集合；
25.基于镜头边界集合将各个视频片段划分为若干个镜头。
26.进一步的，所述镜头之间的语义相似度的计算方法为：
[0027][0028][0029]
其中，l(m
α
，n
β
)表示镜头m＝[m1，
…
，m
α
，
…
，mm]和镜头n＝[n1，
…
，n
β
，
…
，nn]的语义相似度；m和n分别表示镜头m和n包含的帧的数量；
[0030]
表示镜头m中第α帧的微创手术行为语义标签；
[0031]nβ
表示镜头n中第β帧的微创手术行为语义标签。
[0032]
进一步的，所述基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要，包括：
[0033]
获取以最大化选择镜头的重要性分数之和以及最小化选择镜头语义标签的余弦相似度为目标的多目标规划模型；
[0034]
求解所述多目标规划模型筛选出若干个镜头组合成为视频摘要。
[0035]
进一步的，所述多目标规划模型的目标函数包括：
[0036][0037]
minf2(x)＝xbx
t
[0038]
且约束条件包括：
[0039][0040]
其中，maxf1(x)表示最大化选择镜头的重要性分数之和；
[0041]
minf2(x)表示最小化选择镜头语义标签的余弦相似度；
[0042]
e表示按阶段切分的视频片段数量；
[0043]
na表示第a个视频片段的镜头数量；
[0044]sab
表示第a个视频片段第b个镜头的重要性分数，且s
ab
由该镜头内所有帧的重要性分数si的均值得到；
[0045]
l
ab
表示第a个视频片段第b个镜头的长度；
[0046]
b表示镜头间微创手术行为的相似度矩阵，且b中的每个元素都是通过相似度计算得到；
[0047]
x
ab
∈{0，1}表示是否选择镜头，1表示选择该镜头，0表示不选择；
[0048]
x表示关于x
ab
的向量，x＝[x
00
，x
01
，
…
，x
ab
，
…
]；
[0049]
β表示摘要长度占原视频长度的比例。
[0050]
进一步的，将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络得到微创手术行为语义标签，包括：
[0051]
将视频帧图像特征分别输入到预训练的器械卷积网络、动作卷积网络、目标分类网络得到对应的器械卷积特征、动作卷积特征和目标卷积特征；
[0052]
将器械卷积特征、动作卷积特征和目标卷积特征拼接，再输入到transformer模型中与标签嵌入向量进行匹配，得到微创手术行为语义标签。
[0053]
进一步的，将视频帧图像特征输入微创手术阶段分类网络，得到微创手术阶段标签，包括：
[0054]
将视频帧图像特征输入到预训练的长短期记忆网络中捕获时序特征，再通过两层全连接层得到初步识别结果；
[0055]
再将全连接层的输出结果输入到条件随机场，修正不合理的微创手术阶段识别结果，得到最终的识别结果。
[0056]
(三)有益效果
[0057]
本发明提供了一种微创手术视频摘要生成方法。与现有技术相比，具备以下有益效果：
[0058]
1、本发明提出了基于手术行为语义标签的帧级重要性估计，根据微创手术视频相邻帧手术行为的语义标签变化，估计帧级重要性分数，捕捉视频中包含更多有价值的手术信息，突破了现有方法提取手术视频关键内容的局限性。
[0059]
2、本发明提出了基于变化点检测的镜头切分方法，以手术器械的消失或出现为原则对手术视频进行切分镜头，克服了视觉上手术视频没有镜头边界的缺陷。
[0060]
3、本发明提出了多目标0，1规划方法选择镜头，保证生成的微创手术视频摘要具有较好的手术阶段完整性，更能满足医生对手术过程的需求。
[0061]
4、本发明对微创手术视频进行摘要生成，保留视频中关键的内容，有助于医生快速了解手术过程，节省了观看手术视频的时间成本。
附图说明
[0062]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0063]
图1为本发明实施例的流程图；
[0064]
图2为本发明实施例的微创手术行为语义标签以及微创手术阶段标签及获取重要性分数的流程图。
具体实施方式
[0065]
为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0066]
本技术实施例通过提供一种微创手术视频摘要生成方法，解决了现有技术生成的视频摘要无法保证微创手术阶段的完整性的问题。
[0067]
本技术实施例中的技术方案为解决上述技术问题，总体思路如下：
[0068]
本发明通过识别器械、动作和目标部位等手术过程细粒度信息构建手术行为语义标签，利用相邻帧之间手术行为语义标签的变化来估计视频帧重要性，在识别微创手术阶段的基础上，以手术器械的消失或出现为原则构建镜头切分算法，将视频切分成以镜头为基本单位的集合，最后通过多目标规划的方法，从每个手术阶段内选择镜头，组成视频摘要。
[0069]
为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0070]
实施例1：
[0071]
本发明提供了一种微创手术视频摘要生成方法，该方法由计算机执行，该方法包括：
[0072]
基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签，其中，所述微创手术行为语义标签包括器械标签、动作标签、目标标签；
[0073]
基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数；
[0074]
基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头；所述镜头包括若干微创手术视频帧；
[0075]
基于微创手术行为语义标签获取镜头之间的语义相似度；
[0076]
基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。
[0077]
本实施例的有益效果为：
[0078]
本发明提出了基于手术行为语义标签的帧级重要性估计，根据微创手术视频相邻帧手术行为的语义标签变化，估计帧级重要性分数，捕捉视频中包含更多有价值的手术信息，突破了现有方法提取手术视频关键内容的局限性。
[0079]
如图1所示，下面对本发明实施例的实现过程进行详细说明：
[0080]
s100、基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签。
[0081]
在具体实施时，可采用如下提供的一种可行的微创手术行为语义标签和微创手术阶段标签的获取方法，其步骤包括s101～s103：
[0082]
s101、将微创手术视频下采样成图片，并对图片进行缩放、归一化等数据预处理，使其能够输入到后续的多任务学习模型中。
[0083]
具体的，将微创手术视频通过ffmpeg转成图片，以1秒1帧的下采样率提取图片其中，c是图片的通道数，h是图片的高度，w是图片的宽度，把图片的高和宽别缩放到256*448像素后，再进行归一化处理：
[0084][0085]
mean和std通常取值分别为mean＝[0.485，0.456，0.406]、std＝[0.229，0.224，0.225]。
[0086]
s102、将预处理后的一系列图片数据，输入到预训练的卷积神经网络，提取微创手术图像的视频帧图像特征。
[0087]
具体的，预处理后的图像数据可表示为：
[0088][0089]
其中，h0表示图像的高，w0表示图像的宽，c0表示图像的通道数。
[0090]
将其输入预训练的卷积网络cnn0提取微创手术图像的视频帧图像特征，可表示为：
[0091][0092]
其中，c为特征f的通道数，h和w分别为特征f的高度和宽度。
[0093]
s103、将视频帧图像特征f分别输入器械分类网络、动作分类网络、目标分类网络、微创手术阶段分类网络，得到微创手术行为语义标签以及微创手术阶段标签。
[0094]
具体的，针对微创手术行为语义标签的识别，可采用如下方法：
[0095]
将视频帧图像特征f输入到预训练的多任务学习模型中分别提取器械、动作、目标部位等细粒度微创手术行为信息的卷积特征，可表示为：
[0096][0097][0098][0099]
其中，i，v，t分别表示器械识别、动作识别、目标部位识别三个任务，b表示批数据量。
[0100]
为了提高识别微创手术行为的准确度，将三个任务的特征hi，hv，h
t
进行拼接，可表示为：
[0101][0102]
其中，concat表示拼接操作；
[0103]
再将f输入到transformer中与标签嵌入向量l进行匹配，得到输出结果r，可表示为：
[0104][0105][0106]
其中，ni，nv，n
t
表示器械类别数、动作类别数、目标部位类别数；
[0107]
再将拆解成器械、动作、目标部位三部分，输入到全连接层中即可得到识别的微创手术行为语义标签：
[0108][0109][0110][0111]
其中，ai，av，a
t
分别表示器械、动作、目标的语义标签。
[0112]
此外，针对微创手术阶段的识别，还可采用如下方法：
[0113]
在进行微创手术行为语义标签识别的同时还可将视频帧图像特征f输入到预训练的长短期记忆网络bilstm中捕获时序特征，再通过两层全连接层得到初步识别结果，可表示为：
[0114][0115]
其中，p表示微创手术阶段，n
p
表示微创手术阶段的类别数，n表示视频帧的数量。
[0116]
再将全连接层的输出结果a
p
输入到条件随机场crf，对微创手术阶段识别结果进校准，修正不合理的微创手术阶段识别结果，得到最终的识别结果，可表示为：
[0117][0118]
其中，ri表示第i帧所属的微创手术阶段，ri∈{0，1，
…
，n
p
}。
[0119]
s200、基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数。
[0120]
具体的，可通过相邻两帧的微创手术行为语义标签的欧式距离加权和对每一帧的重要性分数进行评估，以此来表示相邻帧之间微创手术行为的变化，具体可表示为：
[0121][0122][0123]
其中，mi，mv，m
t
表示不同任务的识别准确度；
[0124]
pj表示不同任务的权重；
[0125]
表示第i帧的任务j对应的语义标签。
[0126]
s300、基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头。
[0127]
具体的，由于微创手术视频内容十分相似，仅仅从视觉层面很难确定镜头边界，因此，我们根据器械的消失或者出现来切分镜头，具体步骤包括s301～s304：
[0128]
s301、基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，可表示为：
[0129][0130]
其中，表示第θ个视频片段；
[0131]nθ
表示第θ个视频片段的总帧数；
[0132]
t1表示第θ个视频片段的第1帧的索引；
[0133]
表示第θ个视频片段的第n
θ
帧(最后一帧)的索引。
[0134]
s302、依据得到的器械语义标签描述了每一帧图像所有ni个器械类别中每一类器械出现的概率，把所有类别器械出现的概率求均值得到器械存在平均概率，当连续帧器械存在平均概率突然上升或下降时，表示有器械出现或者消失，其计算公式可表示为：
[0135][0136]
其中，某一帧的器械的语义标签为
[0137]
ni表示器械类别数，
[0138]
d1表示第1类器械出现的概率。
[0139]
s303、将第θ个视频片段o
θ
的所有帧的器械存在平均概率输入到变化点检测模型pelt中得到第θ个视频片段的镜头边界集合，可表示为：
[0140][0141]
其中，t
l
表示第l帧作为一个镜头边界；
[0142]
s304、根据得到的镜头边界集合j将第θ个视频片段划分为若干个镜头。
[0143]
例如，t1和t
10
为镜头边界集合j中相邻的两个镜头边界，则可将第1帧至第10帧组合为一个镜头。
[0144]
s400、基于微创手术行为语义标签获取镜头之间的语义相似度。
[0145]
具体的，为了在镜头选择步骤中选择出微创手术行为更不相似的镜头，以此来确保视频摘要内容的低冗余性，本实施例选择通过余弦相似度来度量镜头之间的语义相似度，具体公式如下：
[0146][0147][0148]
其中，l(m
α
，n
β
)表示镜头m＝[m1，
…
，ma，
…
，mm]和镜头n＝[n1，
…
，n
β
，
…
，nn]的语义相似度；
[0149]
m和n分别表示镜头m和n包含的帧的数量；
[0150]
表示镜头m中第α帧的语义标签；
[0151]nβ
表示镜头n中第β帧的微创手术行为语义标签。
[0152]
s500、基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。
[0153]
具体的，可设计多目标0，1规划模型从得到的镜头集合内选择镜头组成视频摘要，并对微创手术阶段进行约束，确保视频摘要中微创手术阶段的完整性，由于微创手术视频摘要是提取微创手术中的关键内容，让医生快速了解微创手术过程以及加速微创手术知识分享，视频摘要中应包含较多的微创手术知识，同时微创手术知识之间的相似程度应较低，本实例用微创手术行为来表示微创手术知识，因此，该动态规划模型包含两个目的：最大化选择镜头的重要性分数之和以及最小化选择镜头语义标签的余弦相似度，同时，为了使摘要视频中不缺失微创手术阶段信息，约束条件应包括：每个微创手术阶段都有镜头被选择；选择的镜头的长度之和应小于原视频长度的γ倍(γ的取值根据模型是否有解确定，通常取15％-30％内的实数)，可目标函数表示为：
[0154][0155]
minf2(x)＝xbx
t
[0156]
且约束条件为：
[0157][0158]
其中，maxf1(x)表示最大化选择镜头的重要性分数之和；
[0159]
maxf2(x)表示最小化选择镜头语义标签的余弦相似度；
[0160]
e表示按阶段切分的视频片段数量；
[0161]
na表示第a个视频片段的镜头数量；
[0162]sab
表示第a个视频片段第b个镜头的重要性分数，且s
ab
由该镜头内所有帧的重要性分数si的均值得到；
[0163]
l
ab
表示第a个视频片段第b个镜头的长度；
[0164]
b表示镜头间微创手术行为的不相似度矩阵，且b中的每个元素都是通过相似度计算得到；
[0165]
x
ab
∈{0，1}表示是否选择镜头，1表示选择该镜头，0表示不选择；
[0166]
x表示关于x
ab
的向量，x＝[x
00
，x
01
，
…
，x
ab
，
…
]；
[0167]
β表示摘要长度占原视频长度的比例。
[0168]
通过求解上述的规划模型，最终筛选出若干个镜头组合成为视频摘要。
[0169]
为了验证本发明提出的方法，具体实验过程如下：
[0170]
1、数据准备
[0171]
本发明采用胆囊切除术数据集cholect45，cholect45数据集：包含法国斯特拉斯堡收集的45个胆囊切除术视频，图像以1帧/秒的速度从视频中提取出来，并以＜器械，动词，目标》的格式标注手术行为的三元组信息，数据集中总共有90489帧和127385个三元组实例。
[0172]
2、评价指标
[0173]
本发明视频摘要的目的是为了提取更多重要的手术信息，我们利用每一帧图像三元组的自信息量对提出的方法进行评估，相邻帧之间自信息量的差反映了信息的变化，变化越大说明相邻两帧之间有重要信息发生，评价指标紧凑性的值就会越大，另一方面也反映了摘要视频中手术信息有较大的不相似性，紧凑性指标计算公式如下：
[0174][0175]
其中，t为摘要视频的视频帧数；
[0176]
n为原视频的视频帧数；
[0177]
为摘要视频第l帧的自信息量；
[0178]
ent(fi)为原视频第i帧的自信息量；
[0179]
3、实验结果分析
[0180]
本发明设置摘要长度占原视频长度的比例β为30％，并将45个视频按4：1划分训练集和测试集，并进行五折交叉验证，与现有方法sumgan、dsn、sumgan_att进行对比实验，实验结果如下面的表1所示：
[0181]
表1
[0182][0183][0184]
将本发明与现有方法进行对比，从表一可以看出：本发明提出的微创手术视频摘要生成方法在cholect45数据集上优于其他先进方法，说明本发明生成的摘要视频提取了更多重要的手术信息，进一步验证了本发明的有效性。
[0185]
综上所述，与现有技术相比，本发明具备以下有益效果：
[0186]
1、本发明提出了基于手术行为语义标签的帧级重要性估计，根据微创手术视频相邻帧手术行为的语义标签变化，估计帧级重要性分数，捕捉视频中包含更多有价值的手术
信息，突破了现有方法提取手术视频关键内容的局限性。
[0187]
2、本发明提出了基于变化点检测的镜头切分方法，以手术器械的消失或出现为原则对手术视频进行切分镜头，克服了视觉上手术视频没有镜头边界的缺陷。
[0188]
3、本发明提出了多目标0，1规划方法选择镜头，保证生成的微创手术视频摘要具有较好的手术阶段完整性，更能满足医生对手术过程的需求。
[0189]
4、本发明对微创手术视频进行摘要生成，保留视频中关键的内容，有助于医生快速了解手术过程，节省了观看手术视频的时间成本。
[0190]
需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0191]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种微创手术视频摘要生成方法，其特征在于，该方法包括：基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签；其中，所述微创手术行为语义标签包括器械标签、动作标签、目标标签；基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数；基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头；所述镜头包括若干微创手术视频帧；基于微创手术行为语义标签获取镜头之间的语义相似度；基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。2.如权利要求1所述的一种微创手术视频摘要生成方法，其特征在于，所述基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签，包括：对微创手术视频进行预处理获取微创手术图像；基于预训练的卷积神经网络，提取微创手术图像的视频帧图像特征；将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络、微创手术阶段分类网络，得到微创手术行为语义标签以及微创手术阶段标签。3.如权利要求1所述的一种微创手术视频摘要生成方法，其特征在于，所述基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数，包括：通过相邻两帧的微创手术行为语义标签的欧式距离加权和计算每一帧的重要性分数。4.如权利要求1所述的一种微创手术视频摘要生成方法，其特征在于，所述基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头，包括：基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段；对每一帧器械语义标签中所有器械类别出现概率求均值得到帧级器械存在平均概率；将各个视频片段内所有帧的器械存在平均概率输入到变化点检测模型中得到各个视频片段的镜头边界集合；基于镜头边界集合将各个视频片段划分为若干个镜头。5.如权利要求3所述的一种微创手术视频摘要生成方法，其特征在于，所述镜头之间的语义相似度的计算方法为：语义相似度的计算方法为：其中，l(m
α
,n
β
)表示镜头m＝[m1,
…
,m
α
,
…
,m
m
]和镜头n＝[n1,
…
,n
β
,
…
,n
n
]的语义相似度；m和n分别表示镜头m和n包含的帧的数量；表示镜头m中第α帧的微创手术行为语义标签；n
β
表示镜头n中第β帧的微创手术行为语义标签。6.如权利要求1所述的一种微创手术视频摘要生成方法，其特征在于，所述基于镜头之
间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要，包括：获取以最大化选择镜头的重要性分数之和以及最小化选择镜头语义标签的余弦相似度为目标的多目标规划模型；求解所述多目标规划模型筛选出若干个镜头组合成为视频摘要。7.如权利要求6所述的一种微创手术视频摘要生成方法，其特征在于，所述多目标规划模型的目标函数包括：minf2(x)＝xbx
t
且约束条件包括：其中，maxf1(x)表示最大化选择镜头的重要性分数之和；minf2(x)表示最小化选择镜头语义标签的余弦相似度；e表示按阶段切分的视频片段数量；n
a
表示第a个视频片段的镜头数量；s
ab
表示第a个视频片段第b个镜头的重要性分数，且s
ab
由该镜头内所有帧的重要性分数s
i
的均值得到；l
ab
表示第a个视频片段第b个镜头的长度；b表示镜头间微创手术行为的相似度矩阵，且b中的每个元素都是通过相似度计算得到；x
ab
∈{0,1}表示是否选择镜头，1表示选择该镜头，0表示不选择；x表示关于x
ab
的向量，x＝[x
00
,x
01
,
…
,x
ab
,
…
]；β表示摘要长度占原视频长度的比例。8.如权利要求2所述的一种微创手术视频摘要生成方法，其特征在于，将视频帧图像特征分别输入器械分类网络、动作分类网络、目标分类网络得到微创手术行为语义标签，包括：将视频帧图像特征分别输入到预训练的器械卷积网络、动作卷积网络、目标分类网络得到对应的器械卷积特征、动作卷积特征和目标卷积特征；将器械卷积特征、动作卷积特征和目标卷积特征拼接，再输入到transformer模型中与标签嵌入向量进行匹配，得到微创手术行为语义标签。9.如权利要求2所述的一种微创手术视频摘要生成方法，其特征在于，将视频帧图像特
征输入微创手术阶段分类网络，得到微创手术阶段标签，包括：将视频帧图像特征输入到预训练的长短期记忆网络中捕获时序特征，再通过两层全连接层得到初步识别结果；再将全连接层的输出结果输入到条件随机场，修正不合理的微创手术阶段识别结果，得到最终的识别结果。

技术总结
本发明提供了一种微创手术视频摘要生成方法，涉及视频摘要生成技术领域。本发明提出了基于手术行为语义标签的帧级重要性估计，根据微创手术视频相邻帧手术行为的语义标签变化，估计帧级重要性分数，捕捉视频中包含更多有价值的手术信息，突破了现有方法提取手术视频关键内容的局限性。同时本发明基于变化点检测的镜头切分方法，以手术器械的消失或出现为原则对手术视频进行切分镜头，克服了视觉上手术视频没有镜头边界的缺陷。且多目标0,1规划方法选择镜头能保证生成的微创手术视频摘要具有较好的手术阶段完整性，更能满足医生对手术过程的需求。术过程的需求。术过程的需求。

技术研发人员：苏伊阳王浩丁帅李诗惠朱源波
受保护的技术使用者：合肥工业大学
技术研发日：2023.05.05
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种8-甲氧基补骨脂素的合成方法与流程 下一篇：一种关于远程面试管理系统的制作方法

微创手术视频摘要生成方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

微创手术视频摘要生成方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表