一种快速高精度细胞识别及分割方法与流程
未命名
08-26
阅读:126
评论:0
1.本发明涉及细胞识别分割技术领域,具体为一种快速高精度细胞识别及分割方法。
背景技术:
2.目前传统的细胞图像处理技术主要采用图像分割算法来实现细胞实例的分割,其中最常用的是基于阈值分割、边缘检测、区域生长等传统算法;这些算法虽然简单易实现,但是在细胞形态复杂、背景噪声较多、分割精度要求高等情况下,往往会出现分割不准确的问题;随着深度学习的发展,特别是语义分割和实例分割技术的兴起,越来越多的研究者开始使用深度学习算法来进行细胞图像处理。
3.基于阈值的语义分割算法,主要依赖于“最大内方差”计算所得的阈值,以荧光图片为例低于此阈值的视为背景,而高于此阈值的视为前景。该方法最大的缺陷无法对复杂的图片场景进行处理,特别是对于明场图片更是无法有效的区分杂质和细胞区域;即使使用窗口自适应模式,也无法完全解决此问题,反而有可能把背景噪声识别为前景,而且对于荧光成像不完全的类器官图像,类器官内部结构荧光信号较弱,通常需要“填洞”算法进行填充才能得到较好的分割结果,但该算法对于内部信号严重缺失的细胞或类器官图像依然存在识别不准确的情况,由于阈值划分只能实现前背景的区分,无法做到对单个细胞的实例分割,需要依赖于如漫水岭算法的后续处理。
4.基于深度学习的语义分割算法,将深度神经网络或卷积神经网络应用于细胞分割一定程度可以规避阈值算法识别不准确的问题;但是,同阈值算法一样,该方法依然依赖于漫水岭算法实现对单个细胞的实例分割;对于粘连比较严重的细胞图像,依然无法实现较准确的单个细胞的识别。
5.基于深度学习的实例分割算法,该类方法一是通过递归卷积神经网络实现了实例分割,但是由于模型更加复杂,特别是对于较稠密的细胞图像,网络的空间和时间复杂度皆高于单纯的语义分割算法;以mask r-cnn为代表的算法主要是将不同的实例/物体预测成一个多层的mask 且对每层mask所对应物体的分类进行预测,这种方法同样在数以千计的细胞图像上面显得难以适用。
6.传统的语义分割算法能够识别出图像的前景和背景,但无法对细胞进行准确的实例分割,因此需要使用漫水填充等算法进一步处理;而实例分割网络能够直接识别出每个细胞的位置和轮廓,但需要更多的数据和计算资源来训练和运行模型,且响应时间较长。针对上述问题,本发明提出了一种新的快速高精度细胞实例分割算法,通过综合利用特征提取、降维处理、聚类、模型训练和精调等多种先进技术,实现对细胞图像的高精度实例分割;相比传统算法和实例分割网络,本发明具有更高的分割精度和更快的响应时间,并且不需要大量的训练数据和计算资源。因此,本发明具有广泛的应用前景,可用于生物学研究、医学诊断、药物研发等领域。
技术实现要素:
7.本发明的目的在于提供一种快速高精度细胞识别及分割方法,以解决上述背景技术中提出的问题。
8.为实现上述目的,本发明提供如下技术方案:一种快速高精度细胞识别及分割方法,包括以下步骤:步骤1:给定任意一组细胞图像组及每张细胞图像对应的掩码,对图像组及掩码分别进行仿射、放大变换,得到新图像组和对应的新掩码;步骤2:依次计算新掩码中的细胞的像素中心,得到中心掩码;步骤3:构造多编码-自动编码器模型,新图像组为编码器模型的输入,编码器模型的输出为隐含空间;步骤4:将隐含空间利用pca算法进行降维处理,得到三维的隐藏变量;步骤5:将隐藏变量利用自聚类算法 k-means进行聚类,将隐藏变量变为若干聚类;步骤6:利用步骤1中的新图像组和新掩码训练细胞掩码识别网络并得到训练完成的第一网络模型,利用步骤1中的新掩码组和未变化前的掩码训练细胞掩码识别网络并得到训练完成的第二网络模型;步骤7:利用步骤5中的若干聚类分别训练第一网络模型和第二网络模型,得到优化后的第一优化模型和第二优化模型;步骤8:使用第一优化模型计算出待分割细胞图像的掩码,使用第二优化模型计算出待分割细胞图像的掩码,再以掩码为种子点,为前景,实现对细胞的精准分割,得到单个细胞掩码。
9.优选的,步骤3中多编码-自动编码器模型还对不同的空间变化设置了不同的编码器,编码器以新图像组为输入,输出为隐含向量。
10.优选的,多编码-自动编码器模型内还设有解码器,解码器以隐含向量为输入,输出为隐含空间。
11.优选的,步骤4将隐含空间利用 pca算法进行降维处理具体步骤如下:步骤1:计算隐含空间中每个维度的平均值;步骤2:将隐含空间的每个维度中的数据减去对应维度的平均值,得到中心化数据矩阵;步骤3:计算中心化数据矩阵的协方差矩阵;步骤4:计算协方差矩阵的特征值和特征向量;步骤5:对特征值进行降序排列,选择前3个最大的特征值对应的特征向量组成投影矩阵;步骤6:将中心化数据矩阵乘以投影矩阵,得到降维后的三维隐藏变量。
12.优选的,步骤5中聚类数量为3,聚类,步骤7将第一网络模型复制三份,分别记为,将第二网络模型复制三份,分别记为。
13.优选的,分别训练和,并得到训练完成的和,分别训练和
,并得到训练完成的和,分别训练和,并得到训练完成的和。
14.优选的,步骤6中的第一网络模型和第二网络模型均以u-net为主干网络,第一网络模型和第二网络模型两者的损失函数相同。
15.优选的,步骤6与步骤7判断模型训练完成的依据是损失函数不再发生显著的变化。
16.优选的,步骤1得到的新图像组的大小为256x256。
17.与现有技术相比,本发明的有益效果是:第一、模型简单,无需对数据做特别的处理,所有现在的开源数据集亦可以直接拿来使用。
18.第二、兼容性高,由于对整个任务实现了分治处理,在确定细胞中心的算法中,引入一些策略使整个任务训练难度得到降低,由于细胞中心的确定,即使是对于极度粘连的细胞亦能实现较好的分割。
19.第三、速度快,使用时的时间复杂度是语义分割的两倍,由于可以并行计算,故可以降为普通语义分割的时间。
20.第四、扩展性强,由于将分割种子点和前背景识别分离,故可以对不同子模块以更高的扩展性或采用性能更优异的替代子算法。
21.本发明克服了传统以语义分割为主的算法在处理细胞粘连上性能较低的缺陷,又吸取了实例分割算法对细胞分割的优势,同时避免了使用实例分割算法所带来的空间和计算复杂度。
附图说明
22.图1为本发明算法原理图;图2为本发明中双unet语义分割网络实现实例分割原理图;图3为本发明漫水岭算法分割原理图;图4为本发明数据实例预处理;图5为本发明多编码-自动编码器模型原理图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.参照图1-图3,一种快速高精度细胞识别及分割方法,包括以下步骤:步骤1:给定任意一组细胞图像组及对应的掩码,对图像组i及掩码m分别进行仿射、放大变换,得到一组大小为256
×
256的新图像组,和对应的新掩码;步骤2:依次计算图像j对应的掩码o中每个细胞的像素中心,得到中心掩码
;步骤3:构造多编码-自动编码器模型,新图像组j为多编码-自动编码器模型的输入,输出为隐含空间;步骤4:将隐含空间z利用pca算法进行降维处理,得到三维的隐藏变量;步骤5:将隐藏变量z利用自聚类算法 k-means进行聚类,将隐藏变量z变为若干聚类,,并记作;步骤6:利用步骤1中的图像j和掩码p训练细胞掩码识别网络并得到训练完成的第一网络模型,利用步骤1中的图像j和掩码o训练细胞掩码识别网络并得到训练完成的第二网络模型;步骤7:利用步骤5中的聚类分别训练第一网络模型和第二网络模型,得到优化后的第一优化模型和第二优化模型;步骤8:使用第一优化模型计算出待分割细胞图像的掩码,使用第二优化模型计算出待分割细胞图像的掩码,再以掩码为种子点,为前景,实现对细胞的精准分割,得到单个细胞掩码。
25.在一种可行的实施例下,如图2所示先利用图像j和掩码p训练细胞掩码识别网络并得到训练完成的第一网络模型,利用步骤1中的图像j和掩码o训练细胞掩码识别网络并得到训练完成的第二网络模型,再将训练完成的第一网络模型和第二网络模型复制三份,利用步骤5若干隐藏变量的聚类进行模型的精调,得到第一优化模型和第二优化模型,通过第一优化模型和第二优化模型计算出待分割细胞图像的掩码和掩码,最后通过双掩码漫水岭算法实现对细胞的精准分割,种方式不仅可以准确地识别和分割每个细胞,而且还可以对不同子模块进行高度的扩展,或者采用性能更优异的替代子算法。由于可以并行计算,因此,这种方法的时间复杂度只有普通语义分割的两倍。
26.参考图5,步骤3中多编码-自动编码器模型还对不同的空间变化设置了不同的编码器,编码器e输入为图像,输出为隐含向量,多编码-自动编码器内还设有解码器,解码器d输入为隐含向量z’,输出为隐含空间z。
27.在一种可行的实施例下,编码器e以卷积层和全连接层混合构建,对于同一张图片(i=1,2,...,n),所有编码器e均输出到同一个隐含空间中,再利用解码器d在隐含空间中对所有编码器 e的输出进行处理,以实现对原始图像的重建,编码器e与解码器d对图片进行操作的目的是约束模型学到与输入图像相关的隐含特征,将解码器d重建的图像与原始图像进行对比,判断该特征是否为隐藏特征。
28.在一种可行的实施例下,重新构建的图像与模型输入的图像进行比较,若重新构建的图像与模型输入的图像差异小于阈值,则该提取的隐藏特征为有用特征,若重新构建的图像与模型输入的图像差异大于阈值,则该提取的隐藏特征为无用特征,两个图像像素差异阈值取值为。
29.多编码-自动编码器模型首先使用其编码器部分将输入图像映射到一个潜在空间,这个潜在空间的每一个维度都可以看作是一个隐含特征,多编码-自动编码器模型使用其解码器部分从潜在空间中生成新的图像。
30.隐藏特征不是直接从原始数据中提取,如细胞核的圆形度或细胞膜的像素平均值等,隐藏特征是通过多编码-自动编码器模型在训练过程自动学习的,隐藏特征提供了一种更深层次、更抽象的表示,使得第一网络模型和第二网络模型能够捕捉到在原始数据中不易识别的模式。
31.在一种可行的实施例下,如图5所示,多编码-自动编码器是一种深度学习模型,其基础是自动编码器(autoencoder),但有所改进,通过对单个输入应用多种变换,可以生成更丰富和多样的表征,增强了模型的泛化能力。
32.首先将单细胞图像作为输入数据,对输入的图像实施三种任意的随机变换,变换包括旋转、缩放、剪切、平移等,为了让模型能够从不同角度和尺度学习到输入数据的特征,增强模型的鲁棒性和学习能力。
33.经过随机变换后,图像会传入编码器,编码器是自动编码器的一部分,其作用是从输入的图像中提取有用的信息,将原始的高维数据压缩为低维的特征向量,这个过程也称为编码;这些特征向量形成了一个被称为隐含空间的特征空间,可以看作是输入图像的一种压缩表征。
34.得到特征向量后,它们将传入解码器。解码器是自动编码器的另一部分,其作用是从编码器产生的低维特征向量中重建原始的图像,这个过程也称为解码;在这个过程中,解码器尽可能地重建出与原始图像相近的图像,通过这种方式,自动编码器学习到如何将数据编码和解码,从而提取出重要的特征。
35.多编码-自动编码器的这一流程,不仅可以提取和重建图像的特征,而且通过随机变换的应用,还能增强模型的鲁棒性和泛化能力,同时,这种方法也为更复杂的任务,如图像生成或者异常检测等,提供了强大的基础。
36.编码器e具体结构如下:第一卷积层:卷积核大小为3x3,步长为1,填充为1,输出通道数为32,输出尺寸为张量;第一池化层:使用2x2的最大池化,输出尺寸为的图片;第二卷积层:卷积核大小为3x3,步长为1,填充为1,输出通道数为64,输出尺寸为张量;第二池化层:使用2x2的最大池化,输出尺寸为张量;第三卷积层:卷积核大小为3x3,步长为1,填充为1,输出通道数为128,输出尺寸为张量;
第三池化层:使用2x2的最大池化,输出尺寸为的图片;展平:将尺寸为的图片展平为()维向量;第一全连接层:输入维向量,输出1024维向量;第二全连接层:输入1024维,输出d维的隐含向量(例如d=128)。
37.解码器d具体结构如下:第一全连接层:输入为d维的隐含向量,输出为1024维向量;第二全连接层:输入为1024维,输出为维向量;重塑:将维向量重塑张量;第一反池化层:对张量进行2x2的最近邻上采样输出尺寸为;第一反卷积层:卷积核大小为3x3,步长为1,填充为1,输入通道数为128,输出通道数为64输出尺寸为张量;第二反池化层:对张量进行2x2的最近邻上采样输出尺寸为;第二反卷积层:卷积核大小为3x3,步长为1,填充为1,输入通道数为64,输出通道数为32输出尺寸为;第三反池化层:对张量进行2x2的最近邻上采样输出尺寸为;第三反卷积层:卷积核大小为3x3,步长为1,填充为1,输入通道数为32,输出通道数为1输出尺寸为;多编码-自动编码器模型的训练依据变分推断的elbo计算公式进行,该公式用于评估模型的优化程度,即判断模型是否符合要求,elbo的计算公式如下:其中,表示生成模型的联合概率分布,表示编码器在给定输入图像经过空间变换后生成的隐含向量z的条件概率分布,表示z是来自变分分布q(z)的随机变量,表示在分布下的平均值,通过不断寻找elbo最大值,从而使模型能够更好地对输入图像进行编码和重建。
38.在一种可行的实施例下,参考图4多编码-自动编码器模型提取的隐含空间z还需要经过降维处理,步骤4将隐含空间z利用pca算法进行降维处理具体步骤如下:首先,需要计算隐含空间z中每个维度的均值,用表示:其中, m表示隐含空间z中每个维度的特征数量, 。
39.接下来,将隐含空间的每个维度中的数据减去对应维度的平均值,得到中心化数据矩阵:
再计算中心化数据矩阵的协方差矩阵:再接下来,计算协方差矩阵c的特征值和特征向量,特征向量表示主成分的方向,特征值表示主成分方向上的方差。
40.对特征值进行降序排列,选择前3个最大的特征值对应的特征向量组成投影矩阵p:最后,将中心化后的数据矩阵z’乘以投影矩阵p,得到降维后的三维隐藏变量z,这样利用pca算法将隐含空间z降维到了三维的隐藏变量:参考图4,使用多编码-自动编码器和pca算法对图像进行特征提取和降维处理,再使用自聚类算法k-means进行聚类,以实现对不同类型图像的精细化模型,从而提高单细胞识别的准确性和效率,本发明使用基于细胞特征的聚类实现不同类型图像的精细化模型。
41.在一种可行的实施例下,步骤5中聚类数量为3,聚类,步骤7将第一网络模型复制三份,并分别记为,将第二网络模型复制三份,并分别记为,分别训练和,并得到训练完成的和,分别训练和,并得到训练完成的和,分别训练和,并得到训练完成的和,步骤6中的第一网络模型和第二网络模型均以为主干网络,第一网络模型和第二网络模型两者的损失函数相同,步骤6与步骤7判断训练完成的依据是损失函数不再发生显著的变化。
42.在一种可行的实施例下,图像j及中心掩码p构成训练集来训练第一网络模型,并得到训练完成的第一网络模型,图像j及掩码o构成训练集来训练第二网络模型并得到训练完成的第二网络模型,第一网络模型和第二网络模型的损失函数为:为:和分别是预测的掩码和真实的掩码,为交并比,表示预测掩码和真实掩码的交集面积,表示预测掩码和真实掩码的并集面积,当两个边界框完全不重叠时,为0;当两个边界框完全重叠时,为1;因此,越大表示两个边界框之间的重叠程度越大,越小则表示重
叠程度越小,使用来评估模型的性能。
43.在一种可行的实施例下,将第一网络模型复制三份,分别记为,将网络模型复制三份,分别记为,再利用聚类进行训练是为对模型和模型进行精调,并得到第一优化模型和第二优化模型。
44.具体的,利用第一优化模型计算出细胞图像的掩码,利用第二优化模型,计算出细胞图像掩码,然后使用watershed算法实现对细胞的精准分割,得到单个细胞掩码具体步骤如下:首选将掩码作为前景,掩码作为种子点,计算出掩码的距离变换,可以通过计算欧几里得距离来实现:其中(x)为距离变换函数。
45.使用掩码为种子点,为每个种子点分配一个唯一的标签,这些标签将用于区分不同的细胞:为了确保种子点与背景分开,将背景设为0,对种子点的标签进行适当的偏移,将种子点标记markers内的数据加1。
46.将距离变化dist_a和种子点标记markers,带入到watershed算法对细胞进行分割,从种子点标记markers中每个标记点出发,沿着距离变换的梯度下降方向,直到遇到其他细胞边界或者背景,对识别到的边界进行分割:其中watershed (x)为分水岭算法函数。
47.在得到分割后的细胞图像后,通过将每个非零像素点的值设置为1来实现标签转换回原始的二值掩码格式:这样提供watershed算法实现了对细胞的精准分割,并得到了单个细胞掩码。
48.在使用过程中,将待分割实施集经过预处理分为三类子集,子集直接利用第一优化模型和第二优化模型对应分类的模型进行进行,最后通过watershed算法实现了对细胞的精准分割,并得到了单个细胞掩码。
49.在一种可行的实施例下,如图3所示,该模型是一个高效且强大的深度学习网络,主要用于处理图像分割问题,该模型包含两个独立的unet网络,一个专门设计用来识别细胞的整体结构,而另一个则专注于定位细胞的中心,两个模型同时工作,互相补充,以实现
更准确的细胞分割。
50.首先需要准备并处理数据,包括将原始图像数据标准化、归一化等操作,在将处理过的数据分别输入到两个unet模型中,每个模型都将产生一个掩码(或称作预测图),这两个掩码分别对应于识别到的细胞整体和细胞中心。
51.得到了这两个掩码,开始进一步的处理,以细胞中心的掩码为种子点,这些种子点能够提供良好的起始点,以便更准确地区分不同细胞的边界,然后运用漫水岭算法。
52.漫水岭算法通过模拟'水'从种子点开始'淹没'周围像素的过程,来确定每个像素的归属,从而实现对单个细胞的分割,当'水'从两个相邻的种子点同时开始淹没时,它们在某一点会相遇,这一点就成为了两个细胞的分界线,通过结合该模型的预测结果和漫水岭算法,就能得到单个细胞的分割结果。
53.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种快速高精度细胞识别及分割方法,包括以下步骤:步骤1:给定任意一组细胞图像组及每张细胞图像对应的掩码,对图像组及掩码分别进行仿射、放大变换,得到新图像组和对应的新掩码;步骤2:依次计算新掩码中的细胞的像素中心,得到中心掩码;步骤3:构造多编码-自动编码器模型,所述编码器模型输入为新图像组,输出为隐含空间;步骤4:将隐含空间利用pca算法进行降维处理,得到三维的隐藏变量;步骤5:将隐藏变量利用自聚类算法 k-means进行聚类,将隐藏变量变为若干聚类;步骤6:利用步骤1中的新图像组和新掩码训练细胞掩码识别网络并得到训练完成的第一网络模型,利用步骤1中的新掩码组和未变化前的掩码训练细胞掩码识别网络并得到训练完成的第二网络模型;步骤7:利用步骤5中的若干聚类分别训练第一网络模型和第二网络模型,得到优化后的第一优化模型和第二优化模型;步骤8:使用第一优化模型计算出待分割细胞图像的掩码 ,使用第二优化模型计算出待分割细胞图像的掩码,再以掩码为种子点,为前景,实现对细胞的精准分割,得到单个细胞掩码。2.根据权利要求1所述的一种快速高精度细胞识别及分割方法,其特征在于:步骤3中多编码-自动编码器模型还对不同的空间变化设置了不同的编码器,编码器以新图像组为输入,输出为隐含向量。3.根据权利要求2所述的一种快速高精度细胞识别及分割方法,其特征在于:所述多编码-自动编码器模型内还设有解码器,解码器以隐含向量为输入,输出为隐含空间。4.根据权利要求1所述的一种快速高精度细胞识别及分割方法,其特征在于:步骤4将隐含空间利用pca算法进行降维处理具体步骤如下:步骤1:计算隐含空间中每个维度的平均值;步骤2:将隐含空间的每个维度中的数据减去对应维度的平均值,得到中心化数据矩阵;步骤3:计算中心化数据矩阵的协方差矩阵;步骤4:计算协方差矩阵的特征值和特征向量;步骤5:对特征值进行降序排列,选择前3个最大的特征值对应的特征向量组成投影矩阵;步骤6:将中心化数据矩阵乘以投影矩阵,得到降维后的三维隐藏变量。5.根据权利要求1所述的一种快速高精度细胞识别及分割方法,其特征在于:步骤5中聚类数量为3,聚类,步骤7将第一网络模型复制三份,分别记为a1’
、a2’
、a3’
,将第二网络模型复制三份,分别记为b1’
、b2’
、b3’
。6.根据权利要求5所述的一种快速高精度细胞识别及分割方法,其特征在于:s1分别训练a1’
和b1’
,并得到训练完成的a1’
和b1’
,s2分别训练a2’
和b2’
,并得到训练完成的a2’
和b2’
,s3分别训练a3’
和b3’
,并得到训练完成的a3’
和b3’
。
7.根据权利要求1所述的一种快速高精度细胞识别及分割方法,其特征在于:步骤6中的第一网络模型和第二网络模型均以u-net为主干网络,第一网络模型和第二网络模型两者的损失函数相同。8.根据权利要求7所述的一种快速高精度细胞识别及分割方法,其特征在于:步骤6与步骤7判断模型训练完成的依据是损失函数不再发生显著的变化。
技术总结
本发明公开了一种快速高精度细胞识别及分割方法,包括对细胞图像及对应掩码进行仿射、放大变换,计算出中心掩码,构造多编码-自动编码器模型,训练网络模型,利用网络模型进行细胞识别分割,利用分水岭算法将细胞图像进行分割,得到单独的细胞图像及掩码;本发明克服了传统以语义分割为主的算法在处理细胞粘连上性能较低的缺陷,又吸取了实例分割算法对细胞分割的优势,同时避免了使用实例分割算法所带来的空间和计算复杂度,具有模型简单、兼容性高、速度快和扩展性强的有益效果。速度快和扩展性强的有益效果。速度快和扩展性强的有益效果。
技术研发人员:肖红江 陈荣周 肖声平
受保护的技术使用者:杭州济扶科技有限公司
技术研发日:2023.06.20
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
