一种内镜视频处理方法、系统及装置与流程
未命名
08-17
阅读:152
评论:0
1.本说明书涉及内镜数据处理技术领域,特别涉及一种内镜视频处理方法、系统及装置。
背景技术:
2.内镜检查是一种对动物体例如人体身体内部(如消化道等)进行影像拍摄和处理的医疗检查。内镜检查可以获取到身体内部的图像,通过对所获取内镜图像进行处理可以辅助医生、患者等用户更好和更清楚地了解被检查身体部位的情况,从而可以进一步实现辅助医生、患者等用户了解被检查身体部位是否存在异常风险、是否需要进行某些其它疾病筛查等辅助作用。
3.因此,亟需一种内镜视频处理方法、系统及装置,来实现对内镜视频进行处理以辅助更好地了解被检查身体部位的情况。
技术实现要素:
4.本说明书实施例之一提供一种内镜视频处理方法,该方法包括:获取目标对象的内镜视频,所述内镜视频包括多帧内镜图像;处理所述内镜视频得到所述目标对象的身体部位状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码特征,通过状态识别网络得到所述身体部位状态识别结果;其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到身体部位识别结果;基于所述内镜图像,通过表现识别网络得到身体表现识别结果;基于所述身体部位识别结果和所述身体表现识别结果,得到所述内镜图像的所述编码特征。
5.本说明书实施例之一提供一种内镜视频处理系统,所述系统包括:内镜视频获取模块,用于获取目标对象的内镜视频,所述内镜视频包括多帧内镜图像;内镜视频处理模块,用于处理所述内镜视频得到所述目标对象的身体部位状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码特征,通过状态识别网络得到所述身体部位状态识别结果;其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到身体部位识别结果;基于所述内镜图像,通过表现识别网络得到身体表现识别结果;基于所述身体部位识别结果和所述身体表现识别结果,得到所述内镜图像的所述编码特征。
6.本说明书实施例之一提供一种内镜视频处理装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如上任一实施所述的内镜视频处理方法。
7.本说明书实施例之一提供另一种内镜视频处理系统,所述系统部署于处理设备上,所述系统用于:获取目标对象的消化道内镜视频,所述消化道内镜视频包括多帧内镜图像;处理所述消化道内镜视频得到所述目标对象的用于反映幽门螺杆菌检查指示结果的消化道状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码
特征,通过状态识别网络得到所述消化道状态识别结果;其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到消化道部位识别结果;基于所述内镜图像,通过表现识别网络得到消化道表现识别结果;基于所述消化道部位识别结果和所述消化道表现识别结果,得到所述内镜图像的所述编码特征。
附图说明
8.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的内镜视频处理系统的应用场景示意图;图2是根据本说明书一些实施例所示的内镜视频处理系统的模块示意图;图3是根据本说明书一些实施例所示的内镜视频处理方法的示例性流程图;图4是根据本说明书一些实施例所示的编码特征形成的示例性示意图;图5是根据本说明书一些实施例所示的综合编码特征形成的示例性示意图;图6是根据本说明书一些实施例所示的状态识别网络的训练方法示例性流程图。
具体实施方式
9.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
10.应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
11.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
12.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
13.内镜设备所拍摄的影像为自然影像,对于医生、患者等用户需基于内镜影像更好和更清楚地了解被检查身体部位的情况的需求,单张内镜图像难以准确识别身体部位状态,以及医生患者等用户通过视觉等人为观察和处理方法了解内镜所拍摄图像表现的身体部位状态需耗费大量精力和工作量。
14.鉴于此,本说明书的一些实施例中提供一种内镜视频处理方法、系统及装置,可以对内镜视频进行处理得到身体部位状态识别结果,从而实现可以快速、准确地识别被检查
对象的身体部位状态,辅助医生、患者等用户更好和更清楚地了解被检查身体部位的情况,以及有助于减少内镜检查医生的工作量。
15.图1是根据本说明书一些实施例所示的内镜视频处理系统的应用场景示意图。
16.在一些实施例中,在内镜视频处理系统的应用场景100中能够通过实施本说明书中披露的方法和/或过程以实现内镜视频处理方法。
17.如图1所示,本说明书实施例所涉及内镜视频处理系统的应用场景100包括处理器110、终端120和内镜设备130。
18.处理器110能够处理与内镜视频处理系统的应用场景100有关的信息和/或数据,以执行本说明书中描述的一个或以上功能。例如,处理器110能够对获取到的视频数据(例如内镜视频数据140)进行处理。在一些实施例中,处理器110包括一个或以上处理引擎(例如,单芯片处理引擎或多芯片处理引擎)。仅作为示例,处理器110可以包括中央处理单元(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。
19.终端120能够提供与用户交互相关的功能组件和能够实现用户交互功能(例如为用户提供或展示信息和数据)。仅作为示例,终端120可以是移动设备、平板计算机、膝上型计算机、台式计算机等其他具有输入和/或输出功能的设备中的一种或其任意组合。其中,仅作为示例,输出功能包括但不限于语音等声音输出、显示屏显示、振动等体感传输、光等电磁波信号等中的一种或多种的组合。其中,仅作为示例,输入功能可以包括但不限于键盘输入、触摸屏输入、语音输入、设备倾斜/晃动/旋转/摆动等运动事件输入、光等电磁波信号输入等中的一种或多种的组合。
20.在一些实施例中,用户能够通过终端120输入信息和/或数据,以及用户也能够通过终端120获取信息和/或数据。例如,用户能够通过终端120输入采集内镜视频数据的指令;又例如,用户能够通过终端120获取内镜视频数据140等。
21.内镜设备130能够用于对动物(如人体)进行内镜检查以拍摄得到内镜视频数据140。其中,在一些实施例中,内镜视频数据140是动物身体内部的视频数据,例如内镜视频数据140是人体消化道(例如人体上消化道,上消化道可以包括食管、胃、十二指肠等部位)的视频数据。内镜设备130可以是各种可用于拍摄内镜视频的装置,仅作为示例,内镜设备130可以包括硬管式内镜、光学纤维内镜、电子内镜、超声内镜、胶囊内镜等。
22.内镜视频处理系统的应用场景100还可以包括存储设备(或称存储器,图中未示出),存储设备能够用于储存数据和/或指令。在一些实施例中,存储设备可以包括大容量存储器、可以移动存储器、挥发性读写存储器(例如,随机存取存储器ram)、只读存储器(rom)等或上述举例的任意组合。在一些实施例中,存储设备能够在一个云端平台上实现。
23.在一些实施例中,处理器110能够通过读取并执行存储设备中存储的数据和/或指令以实现本说明书中描述的一个或以上功能。
24.在一些实施例中,内镜视频处理系统的应用场景100中的一个或多个组件(例如,处理器110、终端120、内镜设备130、存储设备等)之间可以通信以交换信息和/或数据,例如可以通过网络通信以交换信息和/或数据。仅作为示例:内镜设备130可以接收处理器110、终端120发送的指令以进行内镜视频拍摄,处理器110可以从内镜设备130获取其拍摄的内
镜视频数据140,处理器110可以执行本说明书中描述的一个或以上功能以对内镜视频数据140进行处理,处理器110可以发送指令等信息和/或数据(例如目标对象的身体部位状态识别结果)给终端120,处理器110可以接收和处理终端120发送的信息和/数据。
25.在一些实施例中,终端120或内镜设备130可以包括处理器110。在一些实施例中,终端120可以包括存储设备。
26.应当注意内镜视频处理系统的应用场景100仅仅是为了说明的目的而提供的,并不意图限制本技术的范围。对于本领域的普通技术人员来说,可以根据本说明书的描述,做出多种修改或变化。例如,内镜视频处理系统的应用场景100可以在其它设备上实现类似或不同的功能。然而,这些变化和修改不会背离本技术的范围。
27.图2是根据本说明书一些实施例所示的内镜视频处理系统的模块示意图。
28.在一些实施例中,内镜视频处理系统200可以在处理器110上实现。
29.如图2所示,内镜视频处理系统200可以包括内镜视频获取模块210、 内镜视频处理模块220。
30.在一些实施例中,内镜视频获取模块210可以用于获取目标对象的内镜视频,内镜视频包括多帧内镜图像。
31.在一些实施例中,内镜视频处理模块220可以用于处理内镜视频得到目标对象的身体部位状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于多个编码特征,通过状态识别网络得到身体部位状态识别结果。其中,对于任一帧内镜图像:基于内镜图像,通过部位识别网络得到身体部位识别结果;基于内镜图像,通过表现识别网络得到身体表现识别结果;基于身体部位识别结果和身体表现识别结果,得到内镜图像的编码特征。
32.在一些实施例中,身体部位识别结果包括身体部位类别概率向量,身体表现识别结果包括身体表现类别概率向量。
33.在一些实施例中,内镜视频处理模块220还可以进一步用于基于身体部位类别概率向量和身体表现类别概率向量得到编码矩阵;基于编码矩阵得到编码特征。
34.在一些实施例中,内镜视频处理模块220还可以进一步用于基于多个编码特征得到一个综合编码特征;基于综合编码特征,通过状态识别网络得到身体部位状态识别结果。
35.在一些实施例中,综合编码特征为多个编码特征的平均值。
36.在一些实施例中,部位识别网络、表现识别网络和状态识别网络中的一个或多个包括卷积神经网络。
37.在一些实施例中,内镜视频处理模块220还可以进一步用于对于任一帧内镜图像:基于内镜图像,通过图像类别识别网络确定内镜图像是否为体内图像;响应于确定内镜图像为体内图像,获取内镜图像的编码特征;响应于确定内镜图像不为体内图像,不获取内镜图像的编码特征。
38.在一些实施例中,内镜视频处理系统200还可以包括训练模块(图中未示出)。
39.在一些实施例中,训练模块可以用于获取样本对象的内镜视频样本和内镜视频样本的身体部位状态结果标签,其中内镜视频样本包括多帧内镜图像样本;处理内镜视频样本得到样本对象的样本身体部位状态识别结果;调整初始状态识别网络的模型参数,使得样本身体部位状态识别结果和身体部位状态结果标签的差异减小,以得到状态识别网络。
其中,获取样本身体部位状态识别结果包括:获取多帧内镜图像样本对应的多个编码特征样本,基于多个编码特征样本,通过初始状态识别网络得到样本身体部位状态识别结果。其中,对于任一帧内镜图像样本:基于内镜图像样本,通过部位识别网络得到样本身体部位识别结果;基于内镜图像样本,通过表现识别网络得到样本身体表现识别结果;基于样本身体部位识别结果和样本身体表现识别结果,得到内镜图像的编码特征样本。
40.应当理解,图2所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。
41.需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图2中披露的内镜视频获取模块210、内镜视频处理模块220可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
42.图3是根据本说明书一些实施例所示的内镜视频处理方法的示例性流程图。
43.在一些实施例中,流程300可以由处理器110执行。在一些实施例中,流程300可以由处理器110上的内镜视频处理系统200实现。流程300可以包括以下步骤:步骤310, 获取目标对象的内镜视频,所述内镜视频包括多帧内镜图像。在一些实施例中,步骤310可以由内镜视频获取模块210执行。
44.目标对象是指接受内镜检查的对象。例如,目标对象是各种动物体(如人体或其他动物等)等对象。
45.在一些实施例中,内镜设备能够通过各种可行方式被使用以进行内镜视频拍摄,例如医务人员可以将内镜设备送入目标对象体内进行内镜视频拍摄。内镜设备对目标对象拍摄到的视频数据称为内镜视频。
46.关于内镜设备(例如内镜设备130)、内镜视频的更多具体内容可以参见图1及其相关说明。
47.处理器能够获取到内镜设备拍摄的内镜视频。处理器还能够通过各种可行的方式将内镜视频发送到终端设备以在终端设备的显示界面上进行展示。例如,处理器可以通过网络将内镜视频发送到终端设备进行展示等。
48.视频可由多帧图像构成,可以理解,内镜视频能够包括多帧内镜图像,例如多帧连续拍摄的内镜图像,其中不同帧的内镜图像可以拍摄于不同时刻。内镜图像中能够包括目标对象被拍摄的身体各部位的影像,例如食管、胃、十二指肠等部位或部位区域的影像。
49.步骤320,处理所述内镜视频得到所述目标对象的身体部位状态识别结果。
50.在一些实施例中,步骤320可以由内镜视频处理模块220执行。
51.在一些实施例中,处理器能够处理步骤310中获得的目标对象的内镜视频,获取目标对象的身体部位状态识别结果。
52.身体部位状态识别结果可以用于指示目标对象的身体部位的状态。例如,在一些实施例中,身体部位状态识别结果用于指示目标对象的身体部位的正常状态和/或异常状态。又例如,在一些实施例中,身体部位状态识别结果用于指示目标对象的身体部位的风险
状态(例如,是否存在幽门螺杆菌感染的风险或风险高低)等/检查指示结果状态(例如,幽门螺杆菌感染检查指示结果,更具体地可以为是否需进行幽门螺杆菌感染检查的指示结果)。
53.在一些实施例中,步骤320可以进一步包括如下步骤。
54.在一些实施例中,可选的可以包括步骤322(图中未示出),步骤322包括:对于任一帧内镜图像,通过图像类别识别网络确定内镜图像是否为体内图像;以及:在一些实施例中,响应于确定某一帧内镜图像为体内图像,处理器能够继续进行后续步骤(例如步骤324、步骤326)以对该内镜图像进行处理,如获取该内镜图像的编码特征并进行后续处理。关于内镜图像的编码特征的更多说明可以参见本说明书的其他部分,如步骤324等。
55.在一些实施例中,响应于确定某一帧内镜图像不为体内图像,处理器能够停止对该内镜图像的后续步骤(例如步骤324、步骤326)处理,如不获取该内镜图像的编码特征以及不进行后续处理。
56.图像类别识别网络可以用于识别内镜图像是否为体内图像。在一些实施例中,图像类别识别网络可以是深度学习网络等可用于对图像进行分类识别的神经网络模型等。
57.在一些实施例中,处理器能将各帧内镜图像输入图像类别识别网络进行处理,图像类别识别网络输出各帧内镜图像的是否为体内图像的识别结果,例如输出识别结果为是体内图像,或者是体外图像。其中体内是指身体内部,体外是指身体外部或其它非身体内部的区域。
58.在一些实施例中,图像类别识别网络可以基于带有第一标签的第一训练样本训练得到,也即图像类别识别网络可以是机器学习模型。
59.第一训练样本可以包括历史内镜图像数据。第一标签可以包括历史内镜图像数据的类别如为体内图像,或不为体内图像。在一些实施例中,第一训练集可以基于人工采集等方法标注和获取。
60.示例性的图像类别识别网络训练过程包括:将多个带有第一标签的第一训练样本输入初始图像类别识别网络,通过训练更新初始图像类别识别网络的参数,直至满足损失函数(如表示第一标签和初始图像类别识别网络对第一训练样本预测得到的结果的差异的损失函数)小于阈值、收敛,或训练周期达到阈值等条件,获取训练好的图像类别识别网络。其中,初始图像类别识别网络是指未设置参数,或参数为默认值的图像类别识别网络。
61.步骤324,获取多帧内镜图像对应的多个编码特征,其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到身体部位识别结果;基于所述内镜图像,通过表现识别网络得到身体表现识别结果;基于所述身体部位识别结果和所述身体表现识别结果,得到所述内镜图像的所述编码特征。
62.在一些实施例中,对于各帧内镜图像,处理器都可以获取其对应的编码特征。
63.在一些实施例中,身体部位识别结果可以基于内镜图像确定。部位识别网络420可以用于对内镜图像410进行处理以识别内镜图像中所拍摄区域属于目标对象体内哪一部位。如图4所示,处理器可以将内镜图像410输入部位识别网络420,部位识别网络输出对应的身体部位识别结果440。在一些实施例中,输入部位识别网络420的内镜图像410可以是单帧图像,也可以是多帧图像。
64.身体部位识别结果440是指对内镜图像属于目标对象体内哪一部位的识别结果。在一些实施例中,身体部位识别结果包括身体部位类别概率向量。
65.身体部位类别概率向量是指内镜图像属于身体某一部位的概率组成的向量。处理器可以基于预设规则将目标对象的体内区域分成多个部位,某一内镜图像属于多个部位中的每一个的概率,可以组成身体部位类别概率向量。以体内的上消化道为例,上消化道的多个部位包括:口腔、咽、食管、胃、十二指肠等,其中口腔包括口唇、颊、腭、牙、舌、口腔腺等,咽包括鼻咽部、口咽部、喉咽部等,胃包括胃贲门、胃底、胃体和胃窦,十二指肠包括上部、降部、下部和升部等。
66.示例性的,第帧的内镜图像对应的身体部位类别概率向量可以表示为。其中,表示第帧的内镜图像属于部分的概率为,n表示身体部位的编号如1、2、3等。
67.在一些实施例中,部位识别网络420可以是卷积神经网络(convolutional neural networks, cnn)、深度神经网络等可行的网络或模型。
68.在一些实施例中,部位识别网络420可以基于带有第二标签的第二训练样本训练确定。
69.第二训练样本可以包括大量的历史内镜图像,第二标签可以是历史内镜图像属于的身体部位。在一些实施例中,第二训练样本可以基于历史数据获取,第二标签可以由经验丰富(如至少有5年的内镜检查经验)的内镜医师或通过其它可行方法标注。
70.示例性的部位识别网络训练过程包括:将多个带有第二标签的第二训练样本输入初始部位识别网络,通过训练更新初始部位识别网络的参数,直至满足损失函数(如表示第二标签和初始部位识别网络对第二训练样本预测得到的结果的差异的损失函数)小于阈值、收敛,或训练周期达到阈值等条件,获取训练好的部位识别网络。其中,初始部位识别网络是指未设置参数,或参数为默认值的部位识别网络。在一些实施例中,为保证训练效果,提高身体部位识别结果的准确性,训练时可以将大部分数据(如80%)用于部位识别网络的训练,剩余数据用于对训练后的部位识别网络进行验证。
71.在一些实施例中,身体表现识别结果可以基于内镜图像确定。表现识别网络430可以用于对内镜图像进行处理以识别图像中的身体部位的身体表现特征。如图4所示,处理器可以将内镜图像410输入表现识别网络430,表现识别网络430输出身体表现识别结果450。在一些实施例中,输入表现识别网络430的内镜图像410可以是单帧图像,也可以是多帧图像。
72.身体表现识别结果450是指内镜图像的可观察身体表现特征。以内镜图像属于胃部为例,身体表现特征可以包括胃黏膜萎缩、弥漫性发红、地图状发红等多种类别。在一些实施例中,身体表现识别结果包括身体表现类别概率向量。身体表现类别概率向量是指内镜图像包括各种可观察身体表现特征中的每一种的概率。例如第帧的内镜图像对应的身体表现类别概率向量可以表示为。其中,表示第帧的内镜图像对应的身体部位的临床症状表现为的概率为,m表示身体表现特征的编号如1、2、3等。
73.在一些实施例中,表现识别网络430可以是cnn、深度神经网络等可行的网络或模型。
74.在一些实施例中,表现识别网络430可以基于带有第三标签的第三训练样本训练确定。
75.第三训练样本可以包括大量的历史内镜图像,第三标签可以是历史内镜图像的可观察身体表现特征。在一些实施例中,某一第三训练样本可以具有多个第三标签。以内镜图像属于胃部为例,该内镜图像的标签可能包括胃黏膜萎缩、弥漫性发红、地图状发红等身体表现特征中的一个或多个。在一些实施例中,第三训练样本可以基于历史数据获取,第三标签可以由经验丰富(如至少有5年的内镜检查经验)的内镜医师标注或通过其它可行方式获取。
76.示例性的表现识别网络训练过程包括:将多个带有第三标签的第三训练样本输入初始表现识别网络,通过训练更新初始表现识别网络的参数,直至满足损失函数(如表示第三标签和初始表现识别网络对第三训练样本预测得到的结果的差异的损失函数)小于阈值、收敛,或训练周期达到阈值等条件,获取训练好的表现识别网络。其中,初始表现识别网络是指未设置参数,或参数为默认值的表现识别网络。在一些实施例中,为保证训练效果,提高身体表现识别结果的准确性,训练时可以将大部分数据(如80%)用于表现识别网络的训练,剩余数据用于对训练后的表现识别网络进行验证。
77.本实施例中,编码特征460是指一种内镜图像对应的特征。
78.在一些实施例中,编码特征460可以基于身体部位识别结果和身体表现识别结果确定,例如:基于身体部位类别概率向量和身体表现类别概率向量得到编码矩阵;基于编码矩阵得到编码特征。编码矩阵是对内镜图像的身体部位识别结果和身体表现识别结果进行编码获得的矩阵(或称特征矩阵)。示例性的,第帧的内镜图像的编码矩阵可以基于如下公式(1)确定:(1),其中,表示编码矩阵,表示身体部位类别概率向量,表示身体表现类别概率向量。
79.在一些实施例中,处理器可以直接将编码矩阵作为编码特征。
80.在一些实施例中,对于内镜视频中所包括多帧内镜图像的各帧,处理器都可以基于上述方法获取其编码特征,并得到多帧内镜图像对应的多个编码特征。
81.步骤326,基于所述多个编码特征,通过状态识别网络得到所述身体部位状态识别结果。
82.在一些实施例中,可以根据多个编码特征得到状态识别网络的输入特征数据并将其输入状态识别网络,状态识别网络输出得到身体部位状态识别结果。
83.状态识别网络可以用于对内镜视频对应的身体部位的状态进行识别。在一些实施例中,状态识别网络可以是cnn、深度神经网络等网络或模型。
84.综合编码特征是指综合多个编码特征的特征数据后得到的编码特征。在一些实施例中,处理器可以基于多帧内镜图像对应的多个编码特征确定综合编码特征。
85.图5是根据本说明书一些实施例所示的综合编码特征形成的示例性示意图。如图5
所示,处理器可以将多帧内镜图像510分别输入部位识别网络420和表现识别网络430,并基于前述步骤324中的方法对多帧内镜图像510中的每一帧进行处理,获取与多帧内镜图像510对应的多个编码特征520,处理器可以基于多个编码特征520确定综合编码特征530。
86.在一些实施例中,综合编码特征可以是多个编码特征的平均值。示例性的,综合编码特征可以由多个编码特征基于以下公式(2)确定:(2),其中,表示综合编码特征,表示第帧内镜图像的编码特征,表示内镜图像帧编号,表示内镜视频最大帧数。
87.在一些实施例中,综合编码特征还可以是多个编码特征的加权平均值。加权的权重可以相关于内镜图像的清晰度,清晰度越高,权重越大。
88.可以理解的是,通过加权的方法可以减小不清晰图像对识别结果的影响,提高后续身体部位状态识别结果的准确性。
89.在一些实施例中,处理器可以对综合编码特征进行一些处理再进行后续过程。例如,处理器可以调整综合编码特征的大小,并将调整后的综合编码特征用于后续处理。优选地,处理器可以将综合编码特征视为图像进行处理,类似图像像素大小调整的方式将综合编码特征的大小(例如调整为64
×
64),通过本实施例调整综合编码特征的大小可以提高后续步骤(如步骤326)的处理效率。
90.在一些实施例中,处理器可以基于综合编码特征,通过状态识别网络得到身体部位状态识别结果。
91.在一些实施例中,状态识别网络的输入可以包括综合编码特征,输出可以包括身体部位状态识别结果。
92.在一些实施例中,不同的身体部位检查项目对应的身体部位状态识别结果可能不同。以检查目标对象的消化道的内镜检查为例,内镜视频包括消化道的影像,可以通过前述步骤方法处理所述消化道内镜视频得到目标对象的用于反映幽门螺杆菌检查指示结果的消化道状态识别结果,幽门螺杆菌检查指示结果。其中,所述处理具体包括:获取多帧内镜图像对应的多个编码特征,基于多个编码特征,通过状态识别网络得到用于反映幽门螺杆菌检查指示结果的消化道状态识别结果;其中,对于任一帧所述内镜图像:基于内镜图像,通过部位识别网络得到消化道部位识别结果;基于内镜图像,通过表现识别网络得到消化道表现识别结果;基于消化道部位识别结果和消化道表现识别结果,得到所述内镜图像的编码特征。
93.在一些实施例中,状态识别网络可以基于样本对象的内镜视频样本和内镜视频样本的身体部位状态结果标签训练获得,相关内容的详细说明可以参见图6。
94.图6是根据本说明书一些实施例所示的状态识别网络的训练方法示例性流程图。
95.在一些实施例中,流程600可以由处理器110执行。在一些实施例中,流程600可以由处理器110上的内镜视频处理系统200实现。在一些实施例中,流程600可以由训练模块执行。流程600可以包括以下步骤。
96.步骤610,获取样本对象的内镜视频样本和所述内镜视频样本的身体部位状态结
果标签,其中所述内镜视频样本包括多帧内镜图像样本。
97.样本对象可以指用作样本的对象。例如,样本对象可以包括历史内镜检查过程中的人体或其它动物体等。
98.内镜视频样本是指样本对象在进行内镜检查时的内镜视频数据。在一些实施例中,内镜视频样本可以包括多帧内镜图像样本。
99.在一些实施例中,内镜视频样本可以基于历史内镜检查数据获取。例如,处理器可以搜集历史内镜检查过程中的数据,并将其中的内镜视频确定为内镜视频样本。
100.身体部位状态结果标签是对状态识别网络进行训练时的标签。身体部位状态结果标签可以是样本对象的样本身体部位状态识别结果。
101.步骤620,通过处理所述内镜视频样本得到所述样本对象的样本身体部位状态识别结果。
102.在一些实施例中,通过处理内镜视频样本得到样本对象的样本身体部位状态识别结果包括:获取多帧内镜图像样本对应的多个编码特征样本,基于多个编码特征样本,通过初始状态识别网络得到样本身体部位状态识别结果。初始状态识别网络是指未设置参数(或参数为默认值)的状态识别网络。
103.对于任一帧内镜图像样本,处理器可以获取其编码特征样本,包括:基于内镜图像样本,通过部位识别网络得到样本身体部位识别结果;基于内镜图像样本,通过表现识别网络得到样本身体表现识别结果;基于样本身体部位识别结果和样本身体表现识别结果,得到内镜图像的所述编码特征样本。获取样本身体部位状态识别结果和内镜图像样本的编码特征样本的过程与确定身体部位状态识别结果和编码特征的过程类似,相关说明的详细内容可以参见图3。
104.步骤630,调整所述初始状态识别网络的模型参数,使得所述样本身体部位状态识别结果和所述身体部位状态结果标签的差异减小,以得到所述状态识别网络。
105.在一些实施例中,调整初始状态识别网络的模型参数可以包括将带有身体部位状态结果标签的内镜视频样本输入初始状态识别网络,通过训练更新初始状态识别网络的模型参数,直至满足损失函数(例如表示身体部位状态结果标签与状态识别网络对内镜视频样本处理得到的预测结果的差异的损失函数)小于阈值、收敛,或训练周期达到阈值等条件,获取训练好的状态识别网络。
106.在本说明书的一些实施例中,还提供一种内镜视频处理装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如本说明书任一实施例所述的内镜视频处理方法。
107.在本说明书的另一些实施例中,还提供另一种内镜视频处理系统,所述系统部署于处理设备上,所述系统用于:获取目标对象的消化道内镜视频,所述消化道内镜视频包括多帧内镜图像;处理所述消化道内镜视频得到所述目标对象的用于反映幽门螺杆菌检查指示结果的消化道状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码特征,通过状态识别网络得到所述消化道状态识别结果。其中,对于任一帧所述内镜图像,处理器可以获取其对应的编码特征,包括:基于所述内镜图像,通过部位识别网络得到消化道部位识别结果;基于所述内镜图像,通过表现识别网络得到消化道表现识别
结果;基于所述消化道部位识别结果和所述消化道表现识别结果,得到所述内镜图像的所述编码特征。
108.由此可见,本说明书一些实施例中所述的内镜视频处理方法、系统以及装置至少可以取得以下效果:(1)基于身体部位类别概率向量和身体表现类别概率向量得到编码矩阵并对其进行调整,进一步获得的编码特征可以代表目标对象不同身体部位的内镜检查结果,通过标准的cnn网络将内镜视频分析简化为综合图像特征的分类,对内镜视频的帧数设置无要求,因此可以输入整个内镜视频,相比于仅根据单帧内镜图像进行识别的方法,更加简单高效,且准确度也更高;(2)本说明书一些实施例中所述的内镜视频处理系统构建简单高效,且对目标对象的身体部位状态识别准确率高。
109.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
110.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
111.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
112.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
113.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
114.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当
前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
115.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
技术特征:
1.一种内镜视频处理方法,所述方法包括:获取目标对象的内镜视频,所述内镜视频包括多帧内镜图像;处理所述内镜视频得到所述目标对象的身体部位状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码特征,通过状态识别网络得到所述身体部位状态识别结果;其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到身体部位识别结果;基于所述内镜图像,通过表现识别网络得到身体表现识别结果;基于所述身体部位识别结果和所述身体表现识别结果,得到所述内镜图像的所述编码特征。2.根据权利要求1所述的方法,所述身体部位识别结果包括身体部位类别概率向量,所述身体表现识别结果包括身体表现类别概率向量;所述得到所述内镜图像的编码特征包括:基于所述身体部位类别概率向量和所述身体表现类别概率向量得到编码矩阵;基于所述编码矩阵得到所述编码特征。3.根据权利要求1所述的方法,所述基于所述多个编码特征,通过状态识别网络得到所述身体部位状态识别结果包括:基于所述多个编码特征得到一个综合编码特征;基于所述综合编码特征,通过所述状态识别网络得到所述身体部位状态识别结果。4.根据权利要求3所述的方法,所述综合编码特征为所述多个编码特征的平均值。5.根据权利要求1所述的方法,所述部位识别网络、所述表现识别网络和所述状态识别网络中的一个或多个包括卷积神经网络。6.根据权利要求1所述的方法,所述处理所述内镜视频还包括:对于任一帧所述内镜图像:基于所述内镜图像,通过图像类别识别网络确定所述内镜图像是否为体内图像;响应于确定所述内镜图像为体内图像,获取所述内镜图像的所述编码特征;响应于确定所述内镜图像不为体内图像,不获取所述内镜图像的所述编码特征。7.根据权利要求1所述的方法,所述状态识别网络通过训练获得,所述训练包括:获取样本对象的内镜视频样本和所述内镜视频样本的身体部位状态结果标签,其中所述内镜视频样本包括多帧内镜图像样本;处理所述内镜视频样本得到所述样本对象的样本身体部位状态识别结果;调整初始状态识别网络的模型参数,使得所述样本身体部位状态识别结果和所述身体部位状态结果标签的差异减小,以得到所述状态识别网络;其中,获取所述样本身体部位状态识别结果包括:获取多帧内镜图像样本对应的多个编码特征样本,基于所述多个编码特征样本,通过所述初始状态识别网络得到所述样本身体部位状态识别结果;其中,对于任一帧所述内镜图像样本:基于所述内镜图像样本,通过部位识别网络得到样本身体部位识别结果;基于所述内镜图像样本,通过表现识别网络得到样本身体表现识别结果;基于所述样本身体部位识别结果和所述样本身体表现识别结果,得到所述内镜图像的
所述编码特征样本。8.一种内镜视频处理系统,所述系统包括:内镜视频获取模块,用于获取目标对象的内镜视频,所述内镜视频包括多帧内镜图像;内镜视频处理模块,用于处理所述内镜视频得到所述目标对象的身体部位状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码特征,通过状态识别网络得到所述身体部位状态识别结果;其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到身体部位识别结果;基于所述内镜图像,通过表现识别网络得到身体表现识别结果;基于所述身体部位识别结果和所述身体表现识别结果,得到所述内镜图像的所述编码特征。9.一种内镜视频处理装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1至7中任一项所述的方法。10.一种内镜视频处理系统,所述系统部署于处理设备上,所述系统用于:获取目标对象的消化道内镜视频,所述消化道内镜视频包括多帧内镜图像;处理所述消化道内镜视频得到所述目标对象的用于反映幽门螺杆菌检查指示结果的消化道状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于所述多个编码特征,通过状态识别网络得到所述消化道状态识别结果;其中,对于任一帧所述内镜图像:基于所述内镜图像,通过部位识别网络得到消化道部位识别结果;基于所述内镜图像,通过表现识别网络得到消化道表现识别结果;基于所述消化道部位识别结果和所述消化道表现识别结果,得到所述内镜图像的所述编码特征。
技术总结
本说明书实施例提供一种内镜视频处理方法、系统及装置,所述方法包括:获取目标对象的内镜视频,内镜视频包括多帧内镜图像;处理内镜视频得到目标对象的身体部位状态识别结果,其中包括:获取多帧内镜图像对应的多个编码特征,基于多个编码特征,通过状态识别网络得到身体部位状态识别结果;其中,对于任一帧内镜图像:基于内镜图像,通过部位识别网络得到身体部位识别结果;基于内镜图像,通过表现识别网络得到身体表现识别结果;基于身体部位识别结果和身体表现识别结果,得到内镜图像的编码特征。特征。特征。
技术研发人员:汪火根 李焱冬 金朝汇 谌明 王实
受保护的技术使用者:浙江核睿医疗科技有限公司
技术研发日:2023.07.17
技术公布日:2023/8/16
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
