微创手术智能服务方法及系统

未命名 08-27 阅读：115 评论：0

1.本发明涉及微创手术服务技术领域，具体涉及一种微创手术智能服务方法及系统。

背景技术：

2.在新一代信息技术的推动下，医疗行业的发展越来越高端化、尖端化，各级医院和医生之间的智能化服务需求随之越来越丰富。
3.现有医疗协同系统虽然支持临床示教视频的回溯与点播，但尚未有一个智能化算法对手术视频摘要的流行度进行预测和分析，以促进示教视频的再分享。

技术实现要素：

4.(一)解决的技术问题
5.针对现有技术的不足，本发明提供了一种微创手术智能服务方法及系统，解决了如何对手术视频摘要的流行度进行预测和分析的问题。
6.(二)技术方案
7.为实现以上目的，本发明通过以下技术方案予以实现：
8.第一方面，提供了一种微创手术智能服务方法，该方法包括：
9.在微创手术过程中采集微创手术视频；
10.基于微创手术视频提取微创手术行为语义标签；
11.基于微创手术行为语义标签从微创手术视频中提取手术视频摘要；
12.预测手术视频摘要的流行度；
13.基于所述流行度对手术视频摘要进行分享。
14.进一步的，所述预测手术视频摘要的流行度，包括：
15.获取手术视频摘要的视频内容元数据、发布医生元数据以及手术视频摘要发布后一天的播放量和观看人数；其中，所述视频内容数据包括发布时间、视频时长、科室类型、标题、会议论坛示教类别；所述发布医生元数据包括医生职称、擅长领域数、专业推荐热度；
16.基于待预测的手术视频摘要的科室类型和发布时间，获取与待预测的手术视频摘要同主题的视频数量、该主题所有视频自发布到待预测视频发布时间的同主题平均播放量和同主题平均观看人数；
17.基于所述平均播放量和平均观看人数获取与待预测的手术视频摘要同主题的所有手术视频摘要自发布到待预测的手术视频摘要发布时间的同主题平均流行度；
18.基于待预测的手术视频摘要的发布医生和发布时间，获取与待预测的手术视频摘要同发布医生的视频数量、该发布医生所有视频自发布到待预测的手术视频摘要发布时间的同医生平均播放量和同医生平均观看人数；
19.基于所述同医生平均播放量和同医生平均观看人数获取与待预测的手术视频摘要同发布医生的所有视频自发布到待预测的手术视频摘要发布时间的同医生平均流行度；
20.获取内容特征信息、主题特征信息和用户特征信息；并将内容特征信息、主题特征信息和用户特征信息进行特征串联融合，生成组织视频全局特征；其中，所述内容特征信息包括：发布时间、视频时长、会议论坛示教类别；所述主题特征信息包括：科室类型、同主题视频数、同主题平均流行度；所述用户特征信息包括：医生职称、擅长领域数、专业推荐热度、同医生视频数、同医生平均流行度；
21.将组织视频全局特征输入至预先训练好的基于决策树的xgboost模型中进行流行度预测，生成待预测的手术视频摘要对应的流行度预测结果。
22.进一步的，所述同主题平均流行度的计算方法为：
23.avg_pop
subjet
＝1×
avg_views
subjet
+2×
avg_users
subjet
24.所述同医生平均流行度的计算方法为
25.avg_pop
author
＝w1×
avg_views
author
+w2×
avg_users
author
26.其中，w1表示手术视频摘要的播放量权重；w2表示观看人数权重，其中w1,w2∈[0,1]且w1+w2＝1；
[0027]
avg_views
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；
[0028]
avg_users
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数；
[0029]
avg_views
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；
[0030]
avg_users
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数。
[0031]
进一步的，所述方法还包括：在微创手术视频采集后使用流传输协议进行封装，并将封装好的流数据直接传输到客户端的浏览器，且对存储的微创手术视频进行器械定位和器械分割以对微创手术视频进行标注，并存储至云端视频库和本地病案库作为示教视频。
[0032]
进一步的，所述基于微创手术视频提取微创手术行为语义标签包括：
[0033]
获取内镜视频的视频帧特征图和对应的语义特征；
[0034]
基于视频帧特征图获取对应的器械视觉识别概率、操作视觉识别概率和组织视觉识别概率；并基于语义特征获取器械关联识别概率、操作关联识别概率和组织关联识别概率；
[0035]
融合各视觉识别概率和对应的关联识别概率获取器械识别概率、操作识别概率和组织识别概率；并基于器械识别概率、操作识别概率和组织识别概率获取三元组标签分类概率。
[0036]
进一步的，所述基于微创手术行为语义标签从微创手术视频中提取手术视频摘要，包括：
[0037]
基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签；其中，所述微创手术行为语义标签包括器械标签、动作标签、组织标签；
[0038]
基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数；
[0039]
基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头；所述镜头包括若干微创手术视频帧；
[0040]
基于微创手术行为语义标签获取镜头之间的语义相似度；
[0041]
基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。
[0042]
第二方面，提供了一种微创手术智能服务系统，其特征在于，该系统包括：
[0043]
视频获取模块，用于在微创手术过程中采集微创手术视频；
[0044]
微创手术行为语义标签获取模块，用于基于微创手术视频提取微创手术行为语义标签；
[0045]
手术视频摘要获取模块，用于基于微创手术行为语义标签从微创手术视频中提取手术视频摘要；
[0046]
流行度预测模块，用于预测手术视频摘要的流行度；
[0047]
视频分享模块，用于基于所述流行度对手术视频摘要进行分享。
[0048]
进一步的，所述流行度预测模块，包括：
[0049]
数据获取单元，用于获取手术视频摘要的视频内容元数据、发布医生元数据以及手术视频摘要发布后一天的播放量和观看人数；其中，所述视频内容数据包括发布时间、视频时长、科室类型、标题、会议论坛示教类别；所述发布医生元数据包括医生职称、擅长领域数、专业推荐热度；
[0050]
同主题平均播放量及同主题平均观看人数计算单元，用于基于待预测的手术视频摘要的科室类型和发布时间，获取与待预测的手术视频摘要同主题的视频数量、该主题所有视频自发布到待预测视频发布时间的同主题平均播放量和同主题平均观看人数；
[0051]
同主题平均流行度计算单元，用于基于所述平均播放量和平均观看人数获取与待预测的手术视频摘要同主题的所有手术视频摘要自发布到待预测的手术视频摘要发布时间的同主题平均流行度；
[0052]
同医生平均播放量及同医生平均观看人数计算单元，用于基于待预测的手术视频摘要的发布医生和发布时间，获取与待预测的手术视频摘要同发布医生的视频数量、该发布医生所有视频自发布到待预测的手术视频摘要发布时间的同医生平均播放量和同医生平均观看人数；
[0053]
同医生平均流行度计算单元，用于基于所述同医生平均播放量和同医生平均观看人数获取与待预测的手术视频摘要同发布医生的所有视频自发布到待预测的手术视频摘要发布时间的同医生平均流行度；
[0054]
多特征获取单元，用于获取内容特征信息、主题特征信息和用户特征信息；并将内容特征信息、主题特征信息和用户特征信息进行特征串联融合，生成组织视频全局特征；其中，所述内容特征信息包括：发布时间、视频时长、会议论坛示教类别；所述主题特征信息包括：科室类型、同主题视频数、同主题平均流行度；所述用户特征信息包括：医生职称、擅长领域数、专业推荐热度、同医生视频数、同医生平均流行度；
[0055]
流行度预测单元，用于将组织视频全局特征输入至预先训练好的基于决策树的xgboost模型中进行流行度预测，生成待预测的手术视频摘要对应的流行度预测结果。
[0056]
进一步的，所述所述同主题平均流行度的计算方法为：
[0057]
avg_pop
subjet
＝1×
avg_views
subjet
+2×
avg_users
subjet
[0058]
所述同医生平均流行度的计算方法为
[0059]
avg_pop
author
＝1×
avg_views
author
+2×
avg_users
author
[0060]
其中，w1表示手术视频摘要的播放量权重；w2表示观看人数权重，其中w1,w2∈[0,1]且w1+w2＝1；
[0061]
avg_views
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；
[0062]
avg_users
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数；
[0063]
avg_views
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；
[0064]
avg_users
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数。
[0065]
(三)有益效果
[0066]
本发明提供了一种微创手术智能服务方法及系统。与现有技术相比，具备以下有益效果：
[0067]
本发明采用了一种新的手术视频摘要流行度预测方法。该方法考虑专业知识分享型平台中用户的主题偏好和发布医生的历史参与度对流行度预测的重要性，全面利用内容特征、主题特征和用户特征进行手术视频摘要流行度预测。同时考虑同一用户多次浏览行为对流行度的影响，将视频播放量和观看人数的加权和定义为视频流行度，使用权重更好地表示同主题和同发布医生的视频平均流行度。
附图说明
[0068]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0069]
图1为本发明实施例的流程图；
[0070]
图2为本发明实施例的sa-gcnn网络示意图；
[0071]
图3为本发明实施例中sa模块的示意图；
[0072]
图4为本发明实施例的器械特征图、操作特征图和组织特征图的获取流程图；
[0073]
图5为本发明实施例的手术视频摘要生成的流程图。
具体实施方式
[0074]
为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0075]
本技术实施例通过提供一种微创手术智能服务方法及系统，解决了如何对手术视频摘要的流行度进行预测和分析的问题。
[0076]
为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上
述技术方案进行详细的说明。
[0077]
实施例1：
[0078]
如图1所示，本发明提供了一种微创手术智能服务方法，该方法由计算机执行，该方法包括：
[0079]
在微创手术过程中采集微创手术视频；
[0080]
基于微创手术视频提取微创手术行为语义标签；
[0081]
基于微创手术行为语义标签从微创手术视频中提取手术视频摘要；
[0082]
预测手术视频摘要的流行度；
[0083]
基于所述流行度对手术视频摘要进行分享。
[0084]
本实施例的有益效果为：
[0085]
本发明采用了一种新的手术视频摘要流行度预测方法。该方法考虑专业知识分享型平台中用户的主题偏好和发布医生的历史参与度对流行度预测的重要性，全面利用内容特征、主题特征和用户特征进行手术视频摘要流行度预测。同时考虑同一用户多次浏览行为对流行度的影响，将视频播放量和观看人数的加权和定义为视频流行度，使用权重更好地表示同主题和同发布医生的视频平均流行度。
[0086]
下面对本发明实施例的实现过程进行详细说明：
[0087]
s1、在微创手术过程中采集微创手术视频。
[0088]
在具体实施时，在手术现场通过医疗设备实时采集微创手术的内窥镜视频与手术音频，并在采集过程中对手术视频采取镜头裁切、白平衡和光照补偿的预处理，即可得到微创手术视频。
[0089]
为了进一步实现视频示教，还可将采集到的手术音视频数据使用流传输协议进行封装，并将封装好的流数据直接传输到客户端的浏览器实现术中实时视频示教。且根据手术视频的用途选取存储格式与存储位置，存储位置包括云端视频库和本地病案库，云端视频库用于手术过程的可追溯与手术视频摘要的提取及播放，本地病案库用于相似病案视频的提取。
[0090]
s2、基于微创手术视频提取微创手术行为语义标签。
[0091]
在具体实施时，除了可以采用现有的手术行为识别技术以外，参见图2～4所示，手术行为语义标签还可采用如k1～k3的步骤获得：
[0092]
k1、获取内镜视频的视频帧特征图md和对应的语义特征ld。
[0093]
在本实施例中，内镜视频是指由内镜采集的视频，且视频的画面中含有器械、操作、组织这三类目标中的至少一类。
[0094]
在具体实施时，视频帧特征图和语义特征的获取方法包括如下步骤：
[0095]
k101、在提取视频帧特征图md之前，需要对内镜视频进行预处理，得到视频帧x，以满足后续模型输入需求，且预处理步骤具体包括：
[0096]
内镜视频的每一秒提取出一帧图片作为视频帧，记为内镜视频的每一秒提取出一帧图片作为视频帧，记为其中，h为视频帧的高度，w为视频帧的宽度，3为rgb三通道，且像素值为0～255的整数。将视频帧分辨率调整为固定的h
′×w′
，再将像素值进行如下归一化操作：
[0097]
[0098]
mean和std分别为像素值的均值和方差，需根据视频特点和模型类型综合确定，通常可取mean＝[0.485,0.456,0.406]，std＝[0.229,0.224,0.225]。
[0099]
k102、将预处理得到的视频帧x作为特征提取网络的输入，得到视频帧特征图md和对应的语义特征ld；
[0100]
在具体实施时，视频帧特征图md可采用alexnet、vgg、googlenet、resnet、densenet等卷积网络架构进行提取；这些网络可分解为d个子网络序列，即cnn0＝[layer0,ayer1,
…
,ayerj,
…
,ayer
d-1
]，其中每个子网络用于进一步提取特征图mj′
：
[0101][0102]
其中，cj为特征图mj′
的通道数，hj和wj分别为特征图mj′
的高度和宽度，第一层的输入即为预处理后的帧图像，即m0＝。
[0103]
而语义特征ld可采用包含d个子网络序列的图卷积网络提取，即gcn＝[v0,conv1,
…
,convj,
…
,conv
d-1
]，每一层可提取包含关联关系的语义特征lj′
：
[0104][0105]
其中，a
′
表示归一化后的共现频率矩阵，且获取方法为：将标签按照器械、操作、组织的顺序排列，获取训练集中的各标签的共现频率矩阵a，并对其进行归一化，可表示为：
[0106][0107][0108][0109]
其中，a
ij
表示第i个标签和第j个标签的共现频率。
[0110]
这些语义特征表示每个标签的向量化表征。图卷积网络将每个语义特征中的信息与其关联语义的信息进行聚合和变换，从而捕捉到语义之间的相互关联作用，并学习到更高层次的语义特征。
[0111]
现有相关技术方案在识别任务中大多遵循先提取图像特征再进行语义分类的流程，图像特征提取和语义分类过程的融合程度不高，导致提取的特征对特定语义的判别性不足。特别是在内镜视频器械、操作和组织识别中，内镜视频类内差异较大而类间差异较小，上述方案的特征提取过程更难以捕获特定语义。为此，本实施例采取了一种图像特征和语义特征并行提取的方案，进一步地，为了使语义更早地作用于图像特征提取，本技术融合了图像特征提取和语义特征提取过程，从而丰富了特征图中的语义信息，有助于下游多任务中的识别。
[0112]
为了利用图像和语义特征的关系，一般方案可采用注意力以动态地关注到重要的特征，但该种方案通常需要通过监督信号的学习来获取注意力，在内镜视频场景复杂、多语义识别困难的情况下难以学习到较好的注意力，导致特征间的融合不充分。考虑到内镜视频中的器械末端执行器对组织进行手术操作时，通常在某个活动区域内具有显著判别性，而其他区域的重要性低，本实施例采用主动挖掘活动区域的方式来得到特征注意力，将图像和语义特征在空间上进行对齐，并以注意力的形式将对齐结果用于指导特征提取过程。
为此，本实施例设计了空间语义注意力对齐(sa)模块，以空间注意力的形式挖掘特征图显著语义，并以通道注意力的形式挖掘显著语义特征。空间语义注意力对齐模块进一步通过残差连接融入到图像卷积网络和图卷积网络的每一子网络之后，形成空间语义注意力对齐的卷积图网络(sa_gcnn)。
[0113]
本实施例的特征提取网络可采用如图2所示的空间语义注意力对齐的卷积图网络(sa-gcnn)，其中，空间语义注意力对齐模块sa设置在图像卷积网络cnn0和图卷积网络gcn的每一子网络之后，即：
[0114]
(m
j+1
,l
j+1
)＝sa(layerj(mj),gconvj(lj)),
[0115]
j＝0,1,
…
,d-1
[0116]
且如图3所示，每个空间语义注意力对齐模块中通过卷积层conv和全连接层fc获取隶属度矩阵aff，该隶属度矩阵表示特征图上每个空间位置对特定语义的响应，可表示为；
[0117][0118]
隶属度矩阵可以衡量特征的重要性，但由于其较高的维度和稀疏性，难以直接融入图像和语义特征中。因此，本实施例将隶属度矩阵分解为空间和语义两方面的特征重要性，即经过softmax操作和二维平均池化avgpool操作，分别获取空间注意力atts和通道注意力attc，可表示为：
[0119][0120]
其中，表示aff在第i个通道的矩阵，σ(x)＝1/(1+e-x
)表示sigmoid函数，λ和γ分别为空间注意力和通道注意力中的缩放系数，可根据特征图尺寸取大于1的值。基于手术器械、操作和组织共享同一活动区域的发现，本实施例采用softmax来突出隶属度矩阵中具有较高响应的空间位置以挖掘该活动区域，并采用二维平均池化和sigmoid函数来计算每个通道对应语义的总体响应程度以衡量语义特征重要性，引入λ和γ来缓解隶属度矩阵的稀疏性问题。
[0121]
再通过残差连接将注意力融合进特征图和语义特征中，得到空间语义注意力对齐模块输出的特征图和语义特征，可表示为：
[0122]mj+1
＝mj+tts·j[0123]
l
j+1
＝lj+ttc·j[0124]
其中，α为融合系数，表示上一层特征图和语义特征中信息的保留量，通常可取0.9～1.0之间的值。
[0125]
上述空间语义注意力对齐模块sa可表示为：
[0126]
(m
j+1
,l
j+1
)＝sa(m
′j,l
′j)
[0127]
最终，d层网络共同构成的sa-gcnn网络输出的视频帧特征图md和语义特征ld可表示为：
[0128]
(md,ld)＝sa-gcnn(x,l0,a
′
)
[0129]
其中，x为预处理得到的视频帧；
[0130]
表示gcn网络的一组可学习的语义特征；
[0131]a′
表示归一化后的共现频率矩阵。
[0132]
通过sa-gcnn网络获得的特征图md自适应地关注图像中的显著特征，并具有更丰富的语义信息，同时，语义特征也自适应地关注图像中出现的器械、操作和组织类别，有助于下游多任务中的识别。
[0133]
k2、基于视频帧特征图md获取对应的器械视觉识别概率操作视觉识别概率和组织视觉识别概率并基于语义特征ld获取器械关联识别概率操作关联识别概率和组织关联识别概率
[0134]
k201、从视频帧特征图md中提取器械特征图。
[0135]
在具体实施时，采用器械卷积网络cnni从图像特征图md中提取器械特征图，可表示为：
[0136][0137]
其中，c
′
为特征图mi的通道数。
[0138]
k202、将视频帧特征图md与器械特征图mi进行拼接，再从中提取操作特征图和组织特征图。
[0139]
在具体实施时，为了利用器械特征图引导操作和组织的特征提取，将图像特征图与器械特征图在通道维拼接，可表示为：
[0140][0141]
在得到拼接后的特征图m
i+
后，利用操作卷积网络cnnv、组织卷积网络cnn
t
分别提取操作特征图和组织特征图，可表示为：
[0142][0143][0144]
k203、从器械特征图、操作特征图和组织特征图中提取器械分类特征、操作分类特征和组织分类特征。
[0145]
在具体实施时，通过三个二维平均池化avgpool分别输出器械分类特征fi、操作分类特征fv和组织分类特征f
t
，可表示为：
[0146]
[0147][0148][0149]
k204、基于器械分类特征、操作分类特征和组织分类特征获取对应的器械视觉识别概率、操作视觉识别概率和组织视觉识别概率。
[0150]
在具体实施时，利用三个全连接分类器：器械全连接分类器fci、操作全连接分类器fcv、组织全连接分类器fc
t
，分别输入器械分类特征fi、操作分类特征fv和组织分类特征f
t
，得到器械视觉识别概率操作视觉识别概率和组织视觉识别概率可表示为：
[0151][0152][0153][0154]
其中，σ(x)＝1/(1+e-x
)表示sigmoid函数，作用是将结果映射到(0,1)的区间以得到识别概率。
[0155]
在训练网络时，训练集中包含若干内镜图像和对应的行为三元组标签即共有k
p
个预定义的类别，代表图像中出现了第i类三元组，每一个类别代表了一个由器械、操作、组织构成的三元组，如“抓取器，牵引，胆囊”。内镜视频中的每一帧可能出现0个、1个或多个这样的三元组，显然三元组标签可进行分解，设y
p
＝《yi,yv,y
t
》，其中代表器械标签，代表操作标签，代表组织标签，ki、kv、k
t
分别表示预定义的器械类别数、操作类别数、组织类别数。
[0156]
通过上述步骤，本发明基于多任务学习，能够同时识别器械、操作和组织。在k201～k204中利用了器械特征图引导操作与组织特征图的提取，基于器械识别准确度高、稳定性强的特点，提高了识别的稳定性。
[0157]
此外，在具体实施时，基于语义特征ld获取器械关联识别概率、操作关联识别概率和组织关联识别概率，具体包括步骤k205～k206：
[0158]
k205、通过全连接层fc
l
从语义特征ld获取器械语义特征wi、操作语义特征wv、组织语义特征w
t
，可表示为：
[0159][0160]
其中，li′
表示第i个语义特征；
[0161]
且令作为器械语义特征；
[0162]
令作为操作语义特征；
[0163]
令作为组织语义特征；
[0164]
k206、再基于器械语义特征wi、操作语义特征wv、组织语义特征w
t
和对应的分类特征fi、fv以及f
t
获取对应的器械关联识别概率操作关联识别概率和组织关联识别概
率可表示为：
[0165][0166][0167][0168]
k3、融合各视觉识别概率和对应的关联识别概率获取器械识别概率、操作识别概率和组织识别概率；并基于器械识别概率、操作识别概率和组织识别概率获取三元组标签分类概率，具体包括步骤k301～302。
[0169]
k301、将各视觉识别概率和对应的关联识别概率融合，获取器械识别概率、操作识别概率和组织识别概率；
[0170][0171][0172][0173]
此外，器械、操作和组织识别的损失函数采用二元交叉熵损失，该损失衡量了识别概率与真实标签之间的差距，公式如下：
[0174][0175][0176][0177]
其中，li、lv和l
t
分别为器械、操作和组织的识别损失。
[0178]
k302、根据预定义的三元组类别，设第a类三元组标签则第a类三元组标签的概率分布转换如下：
[0179][0180]
其中，三元组标签识别的损失函数同样采用二元交叉熵损失，识别损失l
p
计算如下：
[0181][0182]
至此，即可得到各类三元组标签的映射概率，即可得到最终识别的手术行为语义标签。
[0183]
s3、基于微创手术行为语义标签从微创手术视频中提取手术视频摘要。
[0184]
在具体实施时，参考图5，可采用p1～p5的步骤提取手术视频摘要：
[0185]
p1、基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签；
[0186]
在具体实施时，可通过k1～k3的步骤获取到微创手术行为语义标签，而针对微创手术阶段的识别，除了现有的手术阶段识别技术以外，例如：
[0187]
将微创手术视频下采样成图片，并对图片进行缩放、归一化等数据预处理，使其能够输入到后续的多任务学习模型中。
[0188]
具体的，将微创手术视频预处理后的一系列图片数据，输入到预训练的卷积神经网络，提取微创手术图像的视频帧图像特征。
[0189]
具体的，预处理后的图像数据可表示为：
[0190][0191]
其中，h0表示图像的高，w0表示图像的宽，c0表示图像的通道数。
[0192]
将其输入预训练的卷积网络cnw0提取微创手术图像的视频帧图像特征，可表示为：
[0193][0194]
其中，c为特征d的通道数，h和w分别为特征f的高度和宽度。
[0195]
将视频帧图像特征f输入到预训练的长短期记忆网络bilstm中捕获时序特征，再通过两层全连接层得到初步识别结果，可表示为：
[0196][0197]
其中，p表示微创手术阶段，n
p
表示微创手术阶段的类别数，n表示视频帧的数量。
[0198]
再将全连接层的输出结果a
p
输入到条件随机场crf，对微创手术阶段识别结果进校准，修正不合理的微创手术阶段识别结果，得到最终的识别结果，可表示为：
[0199][0200]
其中，ri表示第i帧所属的微创手术阶段，ri∈{0,1,
…
,n
p
}。
[0201]
p2、基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数；
[0202]
具体的，可通过相邻两帧的微创手术行为语义标签的欧式距离加权和对每一帧的重要性分数进行评估，以此来表示相邻帧之间微创手术行为的变化，具体可表示为：
[0203][0204][0205]
其中，ni,mv,m
t
表示不同任务的识别准确度；
[0206]
pj表示不同任务的权重；
[0207]
表示第i帧的任务j对应的语义标签。
[0208]
p3、基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据
器械的消失或出现将每个视频片段切分成若干镜头；
[0209]
具体的，由于微创手术视频内容十分相似，仅仅从视觉层面很难确定镜头边界，因此，我们根据器械的消失或者出现来切分镜头，具体步骤包括p301～p304：
[0210]
p301、基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，可表示为：
[0211][0212]
其中，表示第θ个视频片段；
[0213]nθ
表示第θ个视频片段的总帧数；
[0214]
t1表示第θ个视频片段的第1帧的索引；
[0215]
表示第θ个视频片段的第n
θ
帧(最后一帧)的索引。
[0216]
p302、依据得到的器械语义标签描述了每一帧图像所有ni个器械类别中每一类器械出现的概率，把所有类别器械出现的概率求均值得到器械存在平均概率，当连续帧器械存在平均概率突然上升或下降时，表示有器械出现或者消失，其计算公式可表示为：
[0217][0218]
其中，某一帧的器械的语义标签为
[0219]
ni表示器械类别数，
[0220]
d1表示第1类器械出现的概率。
[0221]
p303、将第θ个视频片段o
θ
的所有帧的器械存在平均概率输入到变化点检测模型pelt中得到第θ个视频片段的镜头边界集合，可表示为：
[0222][0223]
其中，t
l
表示第l帧作为一个镜头边界；
[0224]
p304、根据得到的镜头边界集合j将第θ个视频片段划分为若干个镜头。
[0225]
例如，t1和t
10
为镜头边界集合j中相邻的两个镜头边界，则可将第1帧至第10帧组合为一个镜头。
[0226]
p4、基于微创手术行为语义标签获取镜头之间的语义相似度；
[0227]
具体的，为了在镜头选择步骤中选择出微创手术行为更不相似的镜头，以此来确保视频摘要内容的低冗余性，本实施例选择通过余弦相似度来度量镜头之间的语义相似度，具体公式如下：
[0228][0229]
[0230]
其中，l(m
α
,n
β
)表示镜头m＝[m1,
…
,m
α
,
…
,mm]和镜头n＝[n1,
…
,n
β
,
…
,nn]的语义相似度；
[0231]
m和n分别表示镜头m和n包含的帧的数量；
[0232]
表示镜头m中第α帧的语义标签；
[0233]nβ
表示镜头n中第β帧的微创手术行为语义标签。
[0234]
p5、基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。
[0235]
具体的，可设计多目标0,1规划模型从得到的镜头集合内选择镜头组成视频摘要，并对微创手术阶段进行约束，确保视频摘要中微创手术阶段的完整性，由于微创手术视频摘要是提取微创手术中的关键内容，让医生快速了解微创手术过程以及加速微创手术知识分享，视频摘要中应包含较多的微创手术知识，同时微创手术知识之间的相似程度应较低，本实例用微创手术行为来表示微创手术知识，因此，该动态规划模型包含两个目的：最大化选择镜头的重要性分数之和以及最小化选择镜头语义标签的余弦相似度，同时，为了使摘要视频中不缺失微创手术阶段信息，约束条件应包括：每个微创手术阶段都有镜头被选择；选择的镜头的长度之和应小于原视频长度的γ倍(γ的取值根据模型是否有解确定，通常取15％-30％内的实数)，可目标函数表示为：
[0236][0237]
minf2(x)＝bx
t
[0238]
且约束条件为：
[0239][0240]
其中，maxf1(x)表示最大化选择镜头的重要性分数之和；
[0241]
maxf2(x)表示最小化选择镜头语义标签的余弦相似度；
[0242]
e表示按阶段切分的视频片段数量；
[0243]
na表示第a个视频片段的镜头数量；
[0244]sab
表示第a个视频片段第b个镜头的重要性分数，且s
ab
由该镜头内所有帧的重要性分数si的均值得到；
[0245]
l
ab
表示第a个视频片段第b个镜头的长度；
[0246]
b表示镜头间微创手术行为的不相似度矩阵，且b中的每个元素都是通过相似度计算得到；
[0247]
x
ab
∈{0,1}表示是否选择镜头，1表示选择该镜头，0表示不选择；
[0248]
x表示关于x
ab
的向量，x＝[x
00
,x
01
,
…
,x
ab
,
…
]；
[0249]
β表示摘要长度占原视频长度的比例。
[0250]
通过求解上述的规划模型，最终筛选出若干个镜头组合成为视频摘要。
[0251]
s4、预测手术视频摘要的流行度；
[0252]
在具体实施时，可采用如下q1～q7步骤获取手术视频摘要的流行度：
[0253]
q1、获取手术视频摘要的视频内容元数据、发布医生元数据以及手术视频摘要发布后一天的播放量和观看人数；
[0254]
其中，所述视频内容数据包括发布时间、视频时长、科室类型、标题、会议论坛示教类别；
[0255]
所述发布医生元数据包括医生职称、擅长领域数、专业推荐热度。
[0256]
上述数据可基于云端视频库，获取所有手术视频摘要的视频内容元数据、发布医生元数据，以及视频发布后一天的播放量和观看人数，形成结构化的数据集，并进行统计。
[0257]
q2、基于待预测的手术视频摘要的科室类型和发布时间，获取与待预测的手术视频摘要同主题的视频数量、该主题所有视频自发布到待预测视频发布时间的同主题平均播放量和同主题平均观看人数；
[0258]
q3、基于所述平均播放量和平均观看人数获取与待预测的手术视频摘要同主题的所有手术视频摘要自发布到待预测的手术视频摘要发布时间的同主题平均流行度；
[0259]
在具体实施时，同主题平均流行度的计算方法为：
[0260]
avg_pop
subjet
＝w1×
avg_views
subjet
+w2×
avg_users
subjet
[0261]
其中，w1表示手术视频摘要的播放量权重；w2表示观看人数权重，其中w1,w2∈[0,1]且w1+w2＝1；
[0262]
avg_views
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；
[0263]
avg_users
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数。
[0264]
q4、基于待预测的手术视频摘要的发布医生和发布时间，获取与待预测的手术视频摘要同发布医生的视频数量、该发布医生所有视频自发布到待预测的手术视频摘要发布时间的同医生平均播放量和同医生平均观看人数；
[0265]
q5、基于所述同医生平均播放量和同医生平均观看人数获取与待预测的手术视频摘要同发布医生的所有视频自发布到待预测的手术视频摘要发布时间的同医生平均流行度；
[0266]
在具体实施时，所述同医生平均流行度的计算方法为：
[0267]
avg_pop
author
＝w1×
avg_views
author
+w2×
avg_users
author
[0268]
其中，w1表示手术视频摘要的播放量权重；w2表示观看人数权重，其中w1,w2∈[0,1]且w1+w2＝1；
[0269]
avg_views
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；
[0270]
avg_users
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数。
[0271]
进一步的，根据手术视频摘要发布后一天的播放量和观看人数，基于critic权重
法生成w1和w2。
[0272]
q6、获取内容特征信息、主题特征信息和用户特征信息；并将内容特征信息、主题特征信息和用户特征信息进行特征串联融合，生成组织视频全局特征；
[0273]
其中，所述内容特征信息包括：发布时间、视频时长、会议论坛示教类别；
[0274]
所述主题特征信息包括：科室类型、同主题视频数、同主题平均流行度；
[0275]
所述用户特征信息包括：医生职称、擅长领域数、专业推荐热度、同医生视频数、同医生平均流行度。
[0276]
q7、将组织视频全局特征输入至预先训练好的基于决策树的xgboost模型中进行流行度预测，生成待预测的手术视频摘要对应的流行度预测结果。
[0277]
s5、基于所述流行度对手术视频摘要进行分享。
[0278]
在具体实施时，可以将手术视频摘要按流行度从高到低排序，进而选择流行度高的手术视频摘要进行分享，以提高提高优质医疗资源的曝光率。
[0279]
实施例2：
[0280]
一种微创手术智能服务系统，该系统包括：
[0281]
视频获取模块，用于在微创手术过程中采集微创手术视频；
[0282]
微创手术行为语义标签获取模块，用于基于微创手术视频提取微创手术行为语义标签；
[0283]
手术视频摘要获取模块，用于基于微创手术行为语义标签从微创手术视频中提取手术视频摘要；
[0284]
流行度预测模块，用于预测手术视频摘要的流行度；
[0285]
视频分享模块，用于基于所述流行度对手术视频摘要进行分享。
[0286]
可理解的是，本发明实施例提供的微创手术智能服务系统与上述微创手术智能服务方法相对应，其有关内容的解释、举例、有益效果等部分可以参考微创手术智能服务方法中的相应内容，此处不再赘述。
[0287]
综上所述，与现有技术相比，本发明具备以下有益效果：
[0288]
1)本发明采用了一种新的手术视频摘要流行度预测方法。该方法考虑专业知识分享型平台中用户的主题偏好和发布医生的历史参与度对流行度预测的重要性，全面利用内容特征、主题特征和用户特征进行手术视频摘要流行度预测。同时考虑同一用户多次浏览行为对流行度的影响，将视频播放量和观看人数的加权和定义为视频流行度，使用权重更好地表示同主题和同发布医生的视频平均流行度。
[0289]
2)本发明基于多任务学习，能够同时识别器械、操作和组织。利用了器械特征图引导操作与组织特征图的提取，基于器械识别准确度高、稳定性强的特点，提高了识别的稳定性。且利用手术先验知识，通过图卷积网络在语义层面上显式建模了器械、操作、组织的关联关系，这种关联关系通过空间语义注意力对齐模块进一步嵌入到图像特征提取网络和语义特征提取网络中，最终融合了视觉识别结果与关联识别结果，提升了识别的准确性。
[0290]
3)本发明提出了基于手术行为语义标签的帧级重要性估计，根据微创手术视频相邻帧手术行为的语义标签变化，估计帧级重要性分数，捕捉视频中包含更多有价值的手术信息，突破了现有方法提取手术视频关键内容的局限性。且基于变化点检测的镜头切分方法，以手术器械的消失或出现为原则对手术视频进行切分镜头，克服了视觉上手术视频没
有镜头边界的缺陷。同时提出了多目标0,1规划方法选择镜头，保证生成的微创手术视频摘要具有较好的手术阶段完整性，更能满足医生对手术过程的需求。本发明对微创手术视频进行摘要生成，保留视频中关键的内容，有助于医生快速了解手术过程，节省了观看手术视频的时间成本。
[0291]
需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0292]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种微创手术智能服务方法，其特征在于，该方法包括：在微创手术过程中采集微创手术视频；基于微创手术视频提取微创手术行为语义标签；基于微创手术行为语义标签从微创手术视频中提取手术视频摘要；预测手术视频摘要的流行度；基于所述流行度对手术视频摘要进行分享。2.如权利要求1所述的一种微创手术智能服务方法，其特征在于，所述预测手术视频摘要的流行度，包括：获取手术视频摘要的视频内容元数据、发布医生元数据以及手术视频摘要发布后一天的播放量和观看人数；其中，所述视频内容数据包括发布时间、视频时长、科室类型、标题、会议论坛示教类别；所述发布医生元数据包括医生职称、擅长领域数、专业推荐热度；基于待预测的手术视频摘要的科室类型和发布时间，获取与待预测的手术视频摘要同主题的视频数量、该主题所有视频自发布到待预测视频发布时间的同主题平均播放量和同主题平均观看人数；基于所述平均播放量和平均观看人数获取与待预测的手术视频摘要同主题的所有手术视频摘要自发布到待预测的手术视频摘要发布时间的同主题平均流行度；基于待预测的手术视频摘要的发布医生和发布时间，获取与待预测的手术视频摘要同发布医生的视频数量、该发布医生所有视频自发布到待预测的手术视频摘要发布时间的同医生平均播放量和同医生平均观看人数；基于所述同医生平均播放量和同医生平均观看人数获取与待预测的手术视频摘要同发布医生的所有视频自发布到待预测的手术视频摘要发布时间的同医生平均流行度；获取内容特征信息、主题特征信息和用户特征信息；并将内容特征信息、主题特征信息和用户特征信息进行特征串联融合，生成组织视频全局特征；其中，所述内容特征信息包括：发布时间、视频时长、会议论坛示教类别；所述主题特征信息包括：科室类型、同主题视频数、同主题平均流行度；所述用户特征信息包括：医生职称、擅长领域数、专业推荐热度、同医生视频数、同医生平均流行度；将组织视频全局特征输入至预先训练好的基于决策树的xgboost模型中进行流行度预测，生成待预测的手术视频摘要对应的流行度预测结果。3.如权利要求2所述的一种微创手术智能服务方法，其特征在于，所述同主题平均流行度的计算方法为：avg_pop
subjet
＝w1×
avg_views
subjet
+w2×
avg_users
subjet
所述同医生平均流行度的计算方法为avg_pop
author
＝w1×
avg_views
author
+w2×
avg_users
author
其中，w1表示手术视频摘要的播放量权重；w2表示观看人数权重，其中w1，w2∈[0,1]且w1+w2＝1；avg_views
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；avg_users
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数；
avg_views
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；avg_users
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数。4.如权利要求1所述的一种微创手术智能服务方法，其特征在于，所述方法还包括：在微创手术视频采集后使用流传输协议进行封装，并将封装好的流数据直接传输到客户端的浏览器，且对存储的微创手术视频进行器械定位和器械分割以对微创手术视频进行标注，并存储至云端视频库和本地病案库作为示教视频。5.如权利要求1所述的一种微创手术智能服务方法，其特征在于，所述基于微创手术视频提取微创手术行为语义标签包括：获取内镜视频的视频帧特征图和对应的语义特征；基于视频帧特征图获取对应的器械视觉识别概率、操作视觉识别概率和组织视觉识别概率；并基于语义特征获取器械关联识别概率、操作关联识别概率和组织关联识别概率；融合各视觉识别概率和对应的关联识别概率获取器械识别概率、操作识别概率和组织识别概率；并基于器械识别概率、操作识别概率和组织识别概率获取三元组标签分类概率。6.如权利要求5所述的一种微创手术智能服务方法，其特征在于，所述基于微创手术行为语义标签从微创手术视频中提取手术视频摘要，包括：基于微创手术视频获取每一帧的微创手术行为语义标签以及微创手术阶段标签；其中，所述微创手术行为语义标签包括器械标签、动作标签、组织标签；基于微创手术行为语义标签获取微创手术视频每一帧的重要性分数；基于微创手术阶段标签将微创手术视频拆分为对应的多个视频片段，并根据器械的消失或出现将每个视频片段切分成若干镜头；所述镜头包括若干微创手术视频帧；基于微创手术行为语义标签获取镜头之间的语义相似度；基于镜头之间的语义相似度和微创手术视频每一帧的重要性分数选择若干镜头组成微创手术视频摘要。7.一种微创手术智能服务系统，其特征在于，该系统包括：视频获取模块，用于在微创手术过程中采集微创手术视频；微创手术行为语义标签获取模块，用于基于微创手术视频提取微创手术行为语义标签；手术视频摘要获取模块，用于基于微创手术行为语义标签从微创手术视频中提取手术视频摘要；流行度预测模块，用于预测手术视频摘要的流行度；视频分享模块，用于基于所述流行度对手术视频摘要进行分享。8.如权利要求7所述的一种微创手术智能服务系统，其特征在于，所述流行度预测模块，包括：数据获取单元，用于获取手术视频摘要的视频内容元数据、发布医生元数据以及手术视频摘要发布后一天的播放量和观看人数；其中，所述视频内容数据包括发布时间、视频时长、科室类型、标题、会议论坛示教类别；所述发布医生元数据包括医生职称、擅长领域数、专业推荐热度；
同主题平均播放量及同主题平均观看人数计算单元，用于基于待预测的手术视频摘要的科室类型和发布时间，获取与待预测的手术视频摘要同主题的视频数量、该主题所有视频自发布到待预测视频发布时间的同主题平均播放量和同主题平均观看人数；同主题平均流行度计算单元，用于基于所述平均播放量和平均观看人数获取与待预测的手术视频摘要同主题的所有手术视频摘要自发布到待预测的手术视频摘要发布时间的同主题平均流行度；同医生平均播放量及同医生平均观看人数计算单元，用于基于待预测的手术视频摘要的发布医生和发布时间，获取与待预测的手术视频摘要同发布医生的视频数量、该发布医生所有视频自发布到待预测的手术视频摘要发布时间的同医生平均播放量和同医生平均观看人数；同医生平均流行度计算单元，用于基于所述同医生平均播放量和同医生平均观看人数获取与待预测的手术视频摘要同发布医生的所有视频自发布到待预测的手术视频摘要发布时间的同医生平均流行度；多特征获取单元，用于获取内容特征信息、主题特征信息和用户特征信息；并将内容特征信息、主题特征信息和用户特征信息进行特征串联融合，生成组织视频全局特征；其中，所述内容特征信息包括：发布时间、视频时长、会议论坛示教类别；所述主题特征信息包括：科室类型、同主题视频数、同主题平均流行度；所述用户特征信息包括：医生职称、擅长领域数、专业推荐热度、同医生视频数、同医生平均流行度；流行度预测单元，用于将组织视频全局特征输入至预先训练好的基于决策树的xgboost模型中进行流行度预测，生成待预测的手术视频摘要对应的流行度预测结果。9.如权利要求8所述的一种微创手术智能服务系统，其特征在于，所述所述同主题平均流行度的计算方法为：avg_pop
subjet
＝w1×
avg_views
subjet
+w2×
avg_users
subjet
所述同医生平均流行度的计算方法为avg_pop
author
＝w1×
avg_views
author
+w2×
avg_users
author
其中，w1表示手术视频摘要的播放量权重；w2表示观看人数权重，其中w1，w2∈[0,1]且w1+w2＝1；avg_views
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；avg_users
subjet
表示同主题所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数；avg_views
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均播放量；avg_users
author
表示同医生所有手术视频摘要自发布到待预测的手术视频摘要发布时间的平均观看人数。

技术总结
本发明提供了一种微创手术智能服务方法及系统，涉及微创手术服务技术领域。本发明采用了一种新的手术视频摘要流行度预测方法。该方法考虑专业知识分享型平台中用户的主题偏好和发布医生的历史参与度对流行度预测的重要性，全面利用内容特征、主题特征和用户特征进行手术视频摘要流行度预测。同时考虑同一用户多次浏览行为对流行度的影响，将视频播放量和观看人数的加权和定义为视频流行度，使用权重更好地表示同主题和同发布医生的视频平均流行度。流行度。流行度。

技术研发人员：李诗惠丁帅王浩朱源波杨宇轩苏伊阳
受保护的技术使用者：合肥工业大学
技术研发日：2023.05.05
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种隧洞环形预应力钢筋找形控制方法 下一篇：一种基于朴素贝叶斯算法的SOFC系统故障几率预测方法

微创手术智能服务方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

微创手术智能服务方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表