一种基于人工智能的细胞类型高精度识别方法

未命名 07-23 阅读:171 评论:0


1.本发明涉及一种基于人工智能的细胞类型高精度识别算法及其实现方法。


背景技术:

2.细胞是生物学中的基本单位,它通过参与关键的生物过程以维持生命的正常运作。通过组学数据实现细胞类型的识别,可以为理解组织的结构和功能奠定基础。然而,细胞类型却难以注释,因为细胞类型的一致和严格的定义仍不清楚,传统方法(例如形状和大小、物理外观属性和表面蛋白是否存在)仍然无法准确区分细胞类型。单细胞rna测序(scrna-seq)技术彻底改变了生物学研究。与测量大量细胞平均表达的传统转录组数据(bulk rna-seq)不同,scrna-seq分析单个细胞的转录组,从而提供更高分辨率的数据,以更好地了解细胞转录组调控和变异等级。scrna-seq为探索和解析新的生物学问题提供了途径,例如发现新的、罕见的细胞类型;构建和推理伪时间细胞轨迹等。
3.scrna-seq数据分析的最重要的任务之一是细胞类型识别,即通过无监督聚类算法将细胞划分为多个类簇,每个类簇可能代表相同或相似的细胞群。细胞类型识别为复杂组织中的细胞组成和细胞类型特异性提供了重要信息,并且为下游分析奠定了基础。但是,scrna-seq数据面临的问题是数据非常稀疏,大多数测量值为0;并且,由于每个细胞的测序深度相对较浅,目前的技术特别容易发生丢失事件。当前,单细胞测序数据存在着一定的数据缺失和噪音,这使得细胞类型识别成为一项极具挑战性的任务。
4.目前,基于单细胞rna-seq数据的细胞类型识别主要有两大类方法:一是传统的机器学习方法;二是深度学习方法。传统方法的总体思路包括以下步骤:scrna-seq数据输入、数据预处理、特征提取、在较低维空间中计算细胞与细胞之间的距离、构建细胞与细胞距离图进行细胞聚类。传统的方法使用特征提取技术降低数据维度,不可避免的会破坏数据的内在结构,从而影响模型的识别精度和泛化能力。深度学习方法虽然能提供比传统方法较高的识别精度,但其局限性也十分明显:1)深度特征缺乏解释性;2)泛化能力差。
5.因此,针对基于scrna-seq数据的细胞类型识别需要建立一种高精度、可解释、低功耗的计算方案。


技术实现要素:

6.本发明所要解决的技术问题是针对现有技术的不足,提供了一种基于人工智能的细胞类型高精度识别方法。
7.一种基于人工智能的细胞类型高精度识别方法,包括以下步骤:
8.1)对scrna-seq数据进行预处理;
9.2)基于量子松鼠搜索算法的特征选择方法筛选最优特征子集;
10.3)基于最优特征子集对细胞进行聚类。
11.步骤1)中,对scrna-seq数据进行预处理,具体包括:
12.1.1)去除scrna-seq读取计数矩阵在任何细胞中都没有计数的基因;
13.1.2)对读取计数矩阵进行归一化和log2转换,得到表达量矩阵;
14.1.3)计算表达量矩阵中每个基因在每个细胞内的离散度,进行归一化后得到基因离散度矩阵;
15.1.4)计算基因离散度矩阵中每个基因的方差,得到每个基因的评分;
16.1.5)根据每个基因的评分选择排名靠前的d个基因,得到高变基因矩阵。
17.步骤1.3)中,所述的离散度被定义为基因表达的方差除以基因表达的均值。
18.步骤1.5)中,排名靠前是指对每个基因的评分进行倒序排序,评分越高、排名越靠前。
19.步骤2)中,基于量子松鼠搜索算法的特征选择方法筛选最优特征子集,具体包括:
20.2.1)用二维矩阵q={θ
ij
|1≤i≤d,1≤j≤n}表示一个包含n个个体的种群a,d为维度,二维矩阵q中的第i行为qi,qi表示第i个个体,每个个体都由一组量子位的角度组成,θ
ij
=[0,2π],θ
ij
表示第i个个体的第j个特征;
[0021]
2.2)判定特征是否入选:
[0022]
采用量子位的角度使用式(1)判定,判定特征θ
ij
是否被选中:
[0023][0024]
其中,α=cosθ,β=sinθ,θ表示量子位的角度,x
ij
表示第i个个体的第j个特征的状态;
[0025]
通过使用量子优化判定特征是否入选,本发明将用于求解连续优化问题的标准松鼠搜索算法扩展到了可以离散优化问题。在基于量子的优化中,每个量子位都是概率的线性叠加,因此它们能够代表更通用的群体,更有利于算法在探索和开发之间达到更好的平衡。
[0026]
2.3)对二维矩阵q初始化,得到最初的种群;
[0027]
2.4)适应度计算;
[0028]
适应度计算如式(3)所示:
[0029][0030]
其中,fitness(si)表示一个个体的适应度,si代表每个个体得到的特征子集,表示第i个特征子集输出的聚类标签,函数表示潜在特征子集的轮廓系数,|si|表示选择特征的数量,参数w是聚类精度与特征选择率之间的平衡参数;
[0031]
适应度函数是评估种群中个体强度的指标。适应度的值反映了每个候选解对目标问题的拟合优度。作为一个多目标问题,本方法尝试同时最小化所选特征子集的大小并最大化特征子集的聚类精度。通过式(3)可以使得本算法获得聚类精度最高且特征子集最小的最优特征子集。
[0032]
2.5)通过种群进化筛选最优特征子集。
[0033]
步骤2.4)中,用k-means模型进行聚类对si中每个个体得到的特征子集聚类。
[0034]
步骤3)中,基于最优特征子集对细胞进行聚类,包括:使用k-means算法对最优特
征子集进行聚类,识别细胞类型。
[0035]
与现有技术相比,本发明具有如下优点:
[0036]
本发明提供了一种基于人工智能的细胞类型识别的实现方法。本发明对单细胞rna转录组学的重大贡献是开发了一种新颖的计算方法提取了scrna-seq数据中的重要的特征并对提高了后续聚类分析的精度。它将为基于人工智能的细胞类型识别提供新的思路。本发明可应用于细胞聚类、推断伪时间细胞轨迹、探索和发现新的细胞类型等诸多领域,具有广泛的应用前景。
附图说明
[0037]
图1为本发明所述的基于fsqssa算法的细胞类型高精度识别的整体流程图。
[0038]
图2为本发明所述的fsqssa新算法的流程图。
[0039]
图3为本发明所述的fsqssa算法在六个数据集上与其他群智能算法的对比图。
[0040]
图4为本发明所述的fsqssa算法在六个数据集上的鲁棒性测试。
[0041]
图5为本发明所述的scfsecluster算法在六个数据集上与其他细胞聚类方法的聚类精度对比图。
[0042]
图6为本发明所述的scfsecluster算法在六个数据集上的聚类散点图。
[0043]
图7为本发明所述的fsqssa算法与其他细胞聚类方法结合在六个数据集上的性能测试图。
具体实施方式
[0044]
结合附图对本发明创造的进一步详细的说明,至少具体描述一个最佳实施例,这种描述的具体化程度应达到使所属技术领域的技术人员按照所描述的内容能够重现发明,而不必再花费创造性的劳动,如不必再进行摸索研究和实验。
[0045]
一种基于人工智能的细胞类型高精度识别方法,包括以下步骤:
[0046]
1)对scrna-seq数据进行预处理;
[0047]
2)基于量子松鼠搜索算法的特征选择方法筛选最有价值的特征;
[0048]
3)基于最优特征子集对细胞进行聚类。
[0049]
2、根据权利要求1所述的基于人工智能的细胞类型高精度识别方法,其特征在于,步骤1)中,对scrna-seq数据进行预处理,具体包括:
[0050]
1.1)去除scrna-seq读取计数矩阵在任何细胞中都没有计数的基因;
[0051]
1.2)对读取计数矩阵进行归一化和log2转换,得到表达量矩阵;
[0052]
1.3)计算表达量矩阵中每个基因在每个细胞内的离散度,进行归一化后得到基因离散度矩阵;
[0053]
1.4)计算基因离散度矩阵中每个基因的方差,得到每个基因的评分;
[0054]
1.5)根据每个基因的评分选择排名靠前的d个基因,得到高变基因矩阵。
[0055]
3、根据权利要求2所述的对scrna-seq数据进行预处理,其特征在于,步骤1.3)中,离散度被定义为该基因表达的方差除以基因表达的均值。
[0056]
4、根据权利要求2所述的对scrna-seq数据进行预处理,其特征在于,步骤1.5)中,排名靠前是指对每个基因的评分进行倒序排序,评分越高、排名越靠前。
[0057]
步骤2)中,基于量子松鼠搜索算法的特征选择方法筛选最有价值的特征,具体包括:
[0058]
2.1)用二维矩阵q={θ1,...,θj,...,θn}={θ
ij
|1≤i≤d,1≤j≤n}表示一个包含n个个体的种群a,d为维度,在求解特征选择问题时,每个个体都由一组量子位的角度组成,即θ
ij
=[0,2π],θ
ij
表示第i个个体的第j个特征,qi表示第i个个体;
[0059]
2.2)判定特征是否入选:
[0060]
一个量子位(q)表示“0”和“1”出现的概率的叠加,表示为q=α|0》+β|1》,其中α和β分别表示量子位的值是“0”和“1”的概率,它们必须遵从方程式|α|2+|β|2=1,θ表示量子位的角度,与α和β的关系是:θ=tan-1
(α/β),α=cosθ,β=sinθ,x
ij
表示第i个个体的第j个特征的状态,如果为“1”则选中该特征,否则不被选中,使用式(1)判定该特征是否被选中:
[0061][0062]
2.3)种群初始化:
[0063]
量子松鼠的初始状态定义为式(2):
[0064]
θ
ij
=θ
l
+random(0,1)
×

u-θ
l
)
ꢀꢀ
(2)
[0065]
其中,θu和θ
l
分别表示第i个个体在第j维的上限和下限,θ表示量子位的角度,因此θ
l
=0,θu=2π,random(0,1)是在[0,1]内均匀分布的随机数;
[0066]
2.4)适应度计算:
[0067]
特征选择试图同时最小化所选特征的子集规模并最大化给定特征子集的聚类精度。为实现两个目标之间的平衡而构建的用于确定这种情况下解决方案的适应度函数定义如式(3)所示。
[0068][0069]
其中,si代表每个个体得到的特征子集,对于每个特征子集,本研究采用k-means模型进行聚类,表示第i个特征子集输出的聚类标签。函数表示潜在特征子集的轮廓系数,|si|表示选择特征的数量,参数w是控制聚类精度和特征选择率的平衡参数;
[0070]
2.5)种群进化:
[0071]
算法中种群进化共有三种情况发生,其中第一种情况是在橡子树的松鼠(θ
at
)飞往山核桃树(θ
ht
),新的位置可以使用式(4)得到:
[0072][0073]
其中dg是随机滑翔距离,默认在0.3到0.7之间;r1是一个范围在[0,1]之间的随机数;是松鼠在山核桃树的位置;t则表示当前迭代次;探索和开发之间的平衡是通过方程中的滑动常数gc实现的,它默认等于1.9,p
dp
表示天敌出现的概率,默认等于0.1;
[0074]
第二种情况是在普通树的松鼠(θ
nt
)飞往橡子树,新的位置可以使用式(5)得到:
[0075]
[0076]
其中r2是一个范围在[0,1]的随机数;
[0077]
第三种情况是在普通树的松鼠直接山核桃树,在这种情况下,新的位置可以使用式(6)得到:
[0078][0079]
其中r3是一个范围在[0,1]的随机数;
[0080]
根据天气的变化,松鼠会进行迁移,通过季节常数和季节性检测条件判断何时进行迁移,计算季节性常数(sc),如式(7)所示:
[0081][0082]
其中t=1,2,3;
[0083]
检查季节性监测条件,即其中s
min
是季节性常数的最小值,计算公式如式(8)所示;
[0084][0085]
其中,t和tm分别是当前和最大迭代值,当季节检测条件通过,则使用式(9)进行随机迁移:
[0086][0087]
其中,l
é
vy表示l
é
vy分布;
[0088]
通过公式(1)~(9)筛选出最有价值的特征。
[0089]
步骤2.1)中,由于量子位使用狄拉克表示法表示不能直接参与运算,因此使用量子位的角度进行运算;
[0090]
步骤3)中,基于最优特征子集对细胞进行聚类,包括:使用k-means算法对最优特征子集进行聚类,识别细胞类型。
[0091]
结合实际进一步说明,本发明细胞类型高精度识别的群智能计算策略及其实现方法。
[0092]
本发明所述方法在用于细胞类型识别时,包括四个计算步骤:数据预处理;基于量子松鼠搜索算法的特征选择方法筛选最有价值的特征;基于最优特征子集对细胞进行聚类;聚类性能测试。
[0093]
1、数据预处理
[0094]
首先,把从数据库下载的reads count矩阵转换为表达量矩阵,并使用log2变换归一化数据,然后去除在归一化数据中检测不到2%的细胞中的基因,以去除低表达水平基因。此时,数据维度依旧比较高,因此需要筛选前n个高变基因供下一步分析。
[0095]
筛选高变基因首先需要计算每个基因在每个细胞内的平均值和离散度(方差/均值);然后对所有基因的离散度进行归一化,这一步形成了新的矩阵;随后在该矩阵中计算
每个基因的方差;最后根据方差对基因进行排序,选择排名靠前的前n个基因。
[0096]
当需要将同个物种同种条件下的数据集进行整合分析时,还应进行批次效应校正,从而剔除实验平台本身引起的差异。在本发明中,我们使用combat算法实现批次效应校正。
[0097]
2、基于量子松鼠搜索算法的特征选择方法
[0098]
针对上述筛选的高变基因,开发了一种基于量子松鼠搜索算法的特征选择方法,命名为fsqssa,用于筛选scrna-seq数据的最优特征子集,以最大限度的提高聚类精度、降低计算开销。
[0099]
fsqssa算法的灵感来自一种会飞行的松鼠的动态觅食行为。飞行松鼠是一种多样化的树栖和夜间活动的啮齿动物。为了满足营养的需要,松鼠需要在不同的食物资源等级的树上活动。共有三种类型的树,按照食物等级从高到低依次是山核桃树、橡子树和普通树。这些个体中的每一个都代表目标问题的候选解决方案。而特征选择任务就是fsqssa算法需要解决的“目标问题”。
[0100]
本发明所述的特征选择方法fsqssa包括三个步骤:种群初始化;适应度计算;种群进化。
[0101]
(1)种群初始化
[0102]
fsqssa的第一步是种群初始化。由于特征选择是二进制问题,所以在本发明中引入了量子计算。受量子计算启发的技术能够更好的平衡探索和利用。在基于量子的优化中,每个特征都由一个量子位(q-bit,q)表示。量子位q是“0”和“1”的叠加,其中q=α|0》+β|1》,α和β的值分别代表量子位的值是“0”和“1”的概率,他们必须遵守方程式|α|2+|β|2=1。由于量子位是概率的线性叠加,因此它们能够代表更通用的群体。由于量子位使用狄拉克表示法,不能直接参与运算,因此需要使用量子位的角度θ表示每个个体。其中θ=tan-1
(α/β),α=cosθ,β=sinθ。
[0103]
在本发明中,我们用二维矩阵q={θ1,...,θj,...,θn}={θ
ij
|1≤i≤d,1≤j≤n}来表示一个包含n个个体的种群a。向量q(i,:)表示d维空间中的第i个个体。
[0104]
在fsqssa中,使用均匀分布来分配森林中每只量子松鼠的初始位置。如式(1)所示。
[0105]qij
=θ
l
+random(0,1)
×

u-θ
l
)
ꢀꢀ
(1)
[0106]
其中q
ij
表示第i只松鼠在第j个特征。θ
l
和θu分别是第i只松鼠在第j维的下限和上限,因为θ表示量子位的角度,所以θ
l
=0,θu=2π。random(0,1)是在[0,1]内均匀分布的随机数。
[0107]
每个qi代表一组特征被选择(“1”)或不被选择(“0”)的概率叠加。xj是qi的第j个特征状态,如果为“1”则在子集中被选中,否则不被选中。对于每个xj,使用式(2)判定是否被选中。
[0108][0109]
(2)适应度计算
[0110]
在fsqssa中,适应度函数是评估群体中个体强度的重要指标。适应度值反映了每个候选解对目标问题的拟合优度。因此,适应度函数的选择决定了多目标算法在优化过程
中的平衡。作为一个多目标问题,fsqssa试图同时最小化所选特征的子集规模并最大化给定特征子集的聚类精度。根据上述基础,为实现两个目标之间的平衡而构建的用于确定这种情况下解决方案的适应度函数定义如式(3)所示。
[0111][0112]
其中,si代表每个个体得到的特征子集,对于每个特征子集,本研究采用k-means模型进行聚类,表示第i个特征子集输出的聚类标签。函数表示潜在特征子集的轮廓系数,|si|表示选择特征的数量,参数w是控制聚类精度和特征选择率的平衡参数。
[0113]
(3)种群进化
[0114]
如前所述,森林里共有三种代表不同食物资源等级的树。为了fsqssa能够,本研究假设森林里共有50棵树,其中山核桃树等级最高但只有1棵,橡子树等级第二且只有3棵,普通树等级最低有46棵。松鼠的数量和森林里树木的数量是一致的,并且每棵树上有且仅有一个松鼠。
[0115]
松鼠需要不断地在森林里寻找更高级的资源以满足自身的需要,松鼠的动态觅食过程会出现三种情况:在橡子树上的松鼠飞往山核桃树、在普通树上的松鼠飞往橡子树、在普通树上的松鼠直接飞往山核桃树。假设在没有天敌的情况下,松鼠在整个森林中滑翔并有效地搜索食物,而天敌的存在使它变得惊慌,并被迫逃亡到随机位置,由于天敌的存在,使得每只松鼠有了逃生空间,使得fsqssa不易陷入局部最优解。在fsqssa中,定义天敌出现的概率为p
dp
,它默认等于0.1。松鼠的觅食过程可以被数学建模,如下所示。
[0116]
case 1.在橡子树的松鼠(θ
at
)飞往山核桃树(θ
ht
),在这种情况下,新的位置可以使用式(4)得到。
[0117][0118]
其中dg是随机滑翔距离,默认在0.3到0.7之间;r1是一个范围在[0,1]之间的随机数;是松鼠在山核桃树的位置;t则表示当前迭代;探索和开发之间的平衡是通过方程中的滑动常数gc实现的,它的值显著影响算法的性能,该值采用ssa中的默认值1.9。
[0119]
case 2.在普通树的松鼠(θ
nt
)飞往橡子树,在这种情况下,新的位置可以使用式(5)得到。
[0120][0121]
其中r2是一个范围在[0,1]的随机数。
[0122]
case 3.在普通树的松鼠直接山核桃树,在这种情况下,新的位置可以使用式(6)得到。
[0123][0124]
其中r3是一个范围在[0,1]的随机数。
[0125]
季节变化会显著影响松鼠的觅食活动。它们在低温下会遭受大量的热量损失,与
秋季相比,气候条件迫使它们在冬季不那么活跃。松鼠的运动会受到天气变化的影响,因此本研究中引入了季节性监测条件,季节性监测条件可以防止fsqssa陷入局部最优解,并且加强松鼠的探索能力。
[0126]
首先计算季节性常数(sc),季节性常数可以使用式(7)得到。
[0127][0128]
其中t=1,2,3。
[0129]
然后检查季节性监测条件,即其中s
min
是季节性常数的最小值,计算公式如式(8)所示。
[0130]
3、基于最优特征子集对细胞进行聚类
[0131]
通过fsqssa算法得到最优特征子集后,在本发明中使用k-means算法进行聚类得到最终结果。完整的细胞类型识别算法我们命名为scfsecluster。
[0132]
4、分类性能测试
[0133]
本发明提供了一种基于群智能优化的细胞类型高精度识别的实现方法,在所述方法中,通过开发一种名为fsqssa的群智能算法对单细胞rna转录组数据的特征进行优选,因此能极大的提高细胞聚类的精度,并大幅降低聚类任务的计算开销。
[0134]
图1为本发明所述的基于fsqssa算法的细胞类型高精度识别的整体流程图。首先,对数据进行预处理;然后,选取scrna-seq数据的高变基因。fsqssa算法筛选了最优特征子集以后,用k-means算法测试聚类性能。
[0135]
图2为本发明所述的fsqssa新算法的流程图。它包括三个步骤:种群初始化;适应度计算;种群进化。
[0136]
图3为本发明所述的fsqssa算法在六个数据集上与其他四种群智能算法的性能对比图。所选用的六个数据集为:xin、goolam、pbmc、romanov、darmanis、usoskin。其他四种群智能算法分别为:松鼠搜索算法(squirrel)、基于混沌映射的樽海鞘群算法(salp)、人工蜂群算法(abc)、遗传算法(ga),所有算法均采用相同的适应度函数(式(3))与相同的种群规模。图3a表示每个算法并行运行500次之后取得的平均适应度值。针对每个数据集,fsqssa算法的最佳适应度值对应第1条柱状图;图3b展示了五种群智能算法的收敛速度。从该实验中可以得出,本研究所提出的fsqssa可以在个体的探索和利用中取得比较好的平衡。
[0137]
图4为本发明所述的fsqssa算法在六个数据集上的鲁棒性测试。
[0138]
fsqssa算法在这6个数据集上均表现出稳定的收敛性能。
[0139]
图5为本发明所述的scfsecluster算法在六个数据集上的聚类性能测试。在该实验中,我们选取了其他7种细胞类型识别方法,包含传统机器学习方法:seurat、cidr、sincera、sc3和simlr;深度学习方法:scdeepcluster、desc。所采取的性能指标分别为:ari、ri、ami、nmi、acc、fmi。针对每一个性能指标,scfsecluster的性能值对应第1条柱状图。计算所有数据集的所有指标的平均,本发明取得了0.86的成绩,scdeepcluster以0.64的成绩获得了第二名,其他方法的平均性能在0.51到0.57之间。
[0140]
图6为本发明所述的scfsecluster算法在六个数据集上的聚类可视化图。对比其
他细胞类型识别算法scfsecluster具有最好的聚类可视化效果,对于每个数据集,scfsecluster都具有比较好的样本分离效果。
[0141]
图7揭示了使用fsqssa算法提高了现有细胞类型识别方法的精度。对于所有数据集、所有方法,使用fsqssa算法在ari指标上平均提高了0.12,在acc指标上平均提高了0.10。
[0142]
综上所述,本发明提供了细胞类型高精度识别的智能计算新方法,此项技术可以应用于细胞聚类、推断伪时间细胞轨迹、发现和探索新的细胞类型等诸多领域。
[0143]
由于算法对输入的scrna-seq数据要求低、对计算资源的依赖性较低、易于移至、易于升级维护等特点,使用方便,界面友好、费用低廉等特点,因此,本技术具有很高的推广价值。
[0144]
本发明提供了一种基于特征选择策略的细胞类型高精度识别的实现方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部份均可用现有技术加以实现。

技术特征:
1.一种基于人工智能的细胞类型高精度识别方法,其特征在于,包括以下步骤:1)对scrna-seq数据进行预处理;2)基于量子松鼠搜索算法的特征选择方法筛选最优特征子集;3)基于最优特征子集对细胞进行聚类。2.根据权利要求1所述的基于人工智能的细胞类型高精度识别方法,其特征在于,步骤1)中,对scrna-seq数据进行预处理,具体包括:1.1)去除scrna-seq读取计数矩阵在任何细胞中都没有计数的基因;1.2)对读取计数矩阵进行归一化和log2转换,得到表达量矩阵;1.3)计算表达量矩阵中每个基因在每个细胞内的离散度,进行归一化后得到基因离散度矩阵;1.4)计算基因离散度矩阵中每个基因的方差,得到每个基因的评分;1.5)根据每个基因的评分选择排名靠前的d个基因,得到高变基因矩阵。3.根据权利要求2所述的基于人工智能的细胞类型高精度识别方法,其特征在于,步骤1.3)中,所述的离散度被定义为基因表达的方差除以基因表达的均值。4.根据权利要求2所述的基于人工智能的细胞类型高精度识别方法,其特征在于,步骤1.5)中,排名靠前是指对每个基因的评分进行倒序排序,评分越高、排名越靠前。5.根据权利要求1所述的基于人工智能的细胞类型高精度识别方法,其特征在于,步骤2)中,基于量子松鼠搜索算法的特征选择方法筛选最优特征子集,具体包括:2.1)用二维矩阵q={θ
ij
|1≤i≤d,1≤j≤n}表示一个包含n个个体的种群a,d为维度,二维矩阵q中的第i行为q
i
,q
i
表示第i个个体,每个个体都由一组量子位的角度组成,θ
ij
=[0,2π],θ
ij
表示第i个个体的第j个特征;2.2)判定特征是否入选:采用量子位的角度使用式(1)判定,判定特征θ
ij
是否被选中:其中,α=cosθ,β=sinθ,θ表示量子位的角度,x
ij
表示第i个个体的第j个特征的状态;2.3)对二维矩阵q初始化,得到最初的种群;2.4)适应度计算;适应度计算如式(3)所示:其中,fitness(s
i
)表示一个个体的适应度,s
i
代表每个个体得到的特征子集,表示第i个特征子集输出的聚类标签,函数表示潜在特征子集的轮廓系数,|s
i
|表示选择特征的数量,参数w是聚类精度与特征选择率之间的平衡参数;2.5)通过种群进化筛选最优特征子集。6.根据权利要求5所述的基于人工智能的细胞类型高精度识别方法其特征在于,步骤2.4)中,用k-means模型进行聚类对s
i
中每个个体得到的特征子集聚类。
7.根据权利要求1所述的基于人工智能的细胞类型高精度识别方法,其特征在于,步骤3)中,基于最优特征子集对细胞进行聚类,包括:使用k-means算法对最优特征子集进行聚类,识别细胞类型。

技术总结
本发明公开了一种基于人工智能的细胞类型高精度识别方法,包括:1)对scRNA-seq数据预处理;2)基于量子松鼠搜索算法的特征选择方法筛选最有价值的特征;3)基于最优特征子集对细胞进行聚类;4)细胞类型聚类识别。本发明对单细胞RNA转录组学的重大贡献是开发了一种新颖的计算方法提取了scRNA-seq数据中的重要的特征并对提高了后续聚类分析的精度。它将为基于人工智能的细胞类型识别提供新的思路。本发明可应用于细胞聚类、推断伪时间细胞轨迹、探索和发现新的细胞类型等诸多领域,具有广泛的应用前景。用前景。用前景。


技术研发人员:计智伟 王宗钦
受保护的技术使用者:南京农业大学
技术研发日:2023.04.18
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐