一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
未命名
07-15
阅读:82
评论:0
1.本发明涉及一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,属于生物医学技术领域。
背景技术:
2.胃癌是最常见的癌症之一,发病率和死亡率都极高。目前,在医学界,对癌症的治疗会根据癌症种类和癌症进程选择不同的治疗方案。癌症是一种包含了多种亚型的异质性疾病,同一类的癌症又可根据发病机制的不同而细分为不同的亚型。传统临床上,通常根据癌症分期、分级等临床特征判断癌症的亚型。随着高通量实验技术的不断进步,基于癌症样本的分子组学的信息来进一步的划分癌症的亚型成为生物医学方面的研究热点。
3.由于基因组学数据的高维小样本特性,研究中要选用特征选择方法降维。通过特征选择方法,去除与目标函数呈弱相关的特征。同时去除噪声及冗余属性,提高后续相关算法的计算速度。这不仅会保留原始特征的生物学意义,还会提高预测准确率。
4.rustam z等人为了证明特征选择会提供更高的准确性,比较了没有特征选择和有特征选择的数据集之间的分类准确性。具体参见:rustam z,maghfirah n.correlated based svm-rfe as feature selection for cancer classification using microarray databases[c]//aip conference proceedings.aip publishing llc,2018,2023(1):020235.大量学者研究如何进行高效的特征选择,pang s等人提出了一种基于单个基因的异质性评分来识别癌症亚型的特征选择方法:hssg。具体参见:pang s,wu w,zhang y,et al.hssg:identification of cancer subtypes based on heterogeneity score of a single gene[j].cells,2022,11(15):2456.在特征选择之后,对样本进行正确分类也是关键的一步,hui jiang等人使用svm对胃癌患者分类。具体参见:jiang h,gu j,du j,et al.a21-gene support vector machine classifier and a 10-gene risk score system constructed for patients with gastric cancer[j].molecular medicine reports,2020,21(1):347-359.
[0005]
虽然相关研究已经取得了相当大的成果,但仍有许多不足。比如相比于癌症分类,对于癌症亚型分型领域的相关研究较少,且现存特征选择方法所选择的重要基因在胃癌分型上分类精度普遍偏低(同一分类网络情况下)。
技术实现要素:
[0006]
为了解决现有技术的不足,本发明提供一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,采用无监督聚类方法,无需事先指定聚类的簇,并提出了选用pac和临床数据来辅助决策最优亚型数,有效提高了预后预测准确率。
[0007]
本发明的技术方案为:
[0008]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,包括以
下步骤:
[0009]
(1)从tcga上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;
[0010]
(2)采用一致性聚类方法结合pac和临床相关数据决策出最佳的亚型数,用于区分不同亚型;
[0011]
(3)采用改进的梯度提升深度特征选择算法进行特征选择;
[0012]
(4)采用深度神经网络进行分类。
[0013]
优选的,步骤(1)中,数据预处理是指移除转录组学数据集中的0方差特征,并进行差异分析,具体的:
[0014]
从tcga上下载的数据为两种形式:原始数据raw counts和标准化后的数据fpkm,采用edger包对原始数据做差异分析,通过取均值的方法保留raw counts矩阵中相同基因名中的一个,方差公式为:
[0015]
方差公式:
[0016]
其中,s2为方差,n为样本总数,表示这组数据的平均数;
[0017]
阈值选为0,选择出方差大于0的基因特征;
[0018]
采用edger包对方差过滤后的数据集作差异分析,在输入到模型前选择出部分特征,选择出pvalue《0.05和log2foldchange》1.5的数据;
[0019]
其中,pvalue表示显著性差异的统计参数,foldchange表示样本质检表达量的差异倍数。
[0020]
优选的,对于分型这一操作,现有研究多为无监督聚类,传统的聚类方法通常需要指定簇的个数,但是在实际应用中,往往难以确定最优的簇数。一致性聚类是一种基于k-means聚类的方法,可以通过一致性系数来评估聚类结果的稳定性和可靠性,从而确定最优的簇数。相对于传统的聚类方法,一致性聚类在选择最优簇数方面更加客观和有效。模糊聚类对的比例(pac)可以评估聚类结果的稳定性和一致性,并且具有很好的鲁棒性和可解释性。因此本发明选用pac指标来更可靠地推断最佳亚型数。
[0021]
步骤(2)中的一致性聚类方法采用k-means聚类方法,选择的max k为5,即设置一个最大值不断去迭代尝试,迭代次数为1000,在每次迭代中选择80%的样本子集,在该样本子集上运行k-means聚类方法,得到不同k值对应的累计密度函数cdf和一致性矩阵热图;
[0022]
选择累计密度函数cdf下降坡度更小的曲线,以及一致性矩阵热图中分布最好的矩阵所对应的k值作为优选k值;
[0023]
模糊聚类对的比例pac是一种用于确定最佳聚类数的指标,通过对多次聚类结果的一致性评估,来确定最佳的聚类数k,具体的:通过多次从fpkm数据集中随机抽取样本和基因特征,并利用所选的k-means聚类方法对其进行聚类,得到多个聚类结果;然后,通过计算多个聚类结果之间的共识矩阵,来度量它们之间的一致性程度;最后,通过计算在一定阈值范围内的共识矩阵上的面积大小,来确定最佳的聚类数k。
[0024]
优选的,临床相关数据包括胃癌患者生存曲线,生存曲线差异大,则验证了亚型数的无监督聚类是合理的。
[0025]
优选的,步骤(3)中,梯度提升,也称为梯度增强,改进的梯度提升算法是基学习器(决策树)的集成,基学习器之间存在先后顺序,将负梯度作为上一轮基学习器犯错的衡量
指标,其中负梯度也被称为伪残差,每一轮基学习器在训练过程中更加关注上一轮学习错误的样本,在训练过后更新样本权重,在此基础上再训练下一个基学习器,最后将所有的基学习器加权组合。
[0026]
优选的,改进的梯度提升算法的过程为:
[0027]
输入为训练集为差异分析后的转录组学fpkm数据,x表示样本,y表示亚型标签,n表示样本总数,即胃癌患者总数;可微分损失函数l(y,f(x)),f(x)是预测值,迭代次数m,具体过程如下:
[0028]
用常数值初始化模型
[0029][0030]
γ为常量初始化模型的预测值;
[0031]
对于m从1到m:
[0032]
计算负梯度(伪残差)使用损失函数的负梯度在当前模型f
m-1
(x)上的值近似代替残差;
[0033][0034]
将基学习器hm(x)拟合到伪残差,hm(x)表示第m个基学习器,即使用训练集对其进行训练;
[0035]
通过以下优化问题计算rm:
[0036][0037]
更新模型:下一轮学习器学习到了上一轮学习器的负梯度,从而修正
[0038]fm
(x)=f
m-1
(x)+γ
mhm
(x)
[0039]
输出fm(x),即所有基学习器加权组合后的模型,γm表示第m个基学习器的乘子,fm(x)是中间不完美的模型,预测的值不是那么精确,fm(x)是最后一轮的模型;
[0040]
优选的,改进的梯度提升选用更高级的梯度提升树xgboost模型,并采用早停机制,避免过拟合并加快处理速度;选用optuna框架配合10折交叉验证,对树的最大深度(max_depth)、多少棵树(n_estimators)、学习率(learning_rate)、树方法(tree_method)等超参数调优,从而获取对预后分型起作用的重要基因,得到更准确的重要特征排名。
[0041]
优选的,步骤(4)中,深度神经网络(deep neural networks,dnn)也叫多层感知机(multi-layer perceptron,mlp),为具有很多隐藏层的神经网络;
[0042]
深度神经网络包括输入层、2层隐藏层和输出层,设隐藏层的输出为f(w1x+b1),其中w1为权重,b1为偏置,函数f为激活函数,x为输入;
[0043]
隐藏层的激活函数采用relu,输出层选择一个神经元,其激活函数为sigmoid函数;
[0044]
损失函数用来计算测试集中目标值的真实值和预测值的偏差程度,采用adam优化器,通过训练优化参数来最小化损失函数。
[0045]
优选的,步骤(4)后还包括:
[0046]
(5)采用支持向量机(svm)验证改进的梯度提升深度特征选择算法的鲁棒性。
[0047]
优选的,支持向量机是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,即找到一个超平面,使得离该超平面最近的点能够最远。能分离两类数据的超平面有无穷多个,但几何间隔最大的分离超平面是唯一的。
[0048]
组学数据存在高维性,现有特征选择算法多使用统计学方法或bagging技术,且现有分类器少有考虑将神经网络加入其中致使分类精度普遍偏低。因此,本文提出一种基于梯度提升的深度特征选择算法,并通过自行设计深度神经网络来提高胃癌亚型分类预测精度。最后,本发明确定了一种生物标志物,即24个所选择出的标记基因,并做了基因富集本体论(go)术语和生物通路等生信学分析,以提高本发明的实用性。
[0049]
本发明未详尽之处,均可参见现有技术。
[0050]
本发明的有益效果为:
[0051]
本发明采用无监督聚类方法,无需事先指定聚类的簇,并提出了选用pac和临床数据来辅助决策最优亚型数,有效提高了预后预测准确率。
[0052]
对于差异性较强的基因,本发明提出了一种可学习前一轮的错误样本来自动更新权重的梯度提升深度特征选择算法,并将其他主流的八种特征选择算法来作对比,结果显示本发明的预后预测准确率最高,为99.115%。与其他特征选择算法作对比时选用的分类算法为自行构建的深度神经网络结构。为验证鲁棒性,又将梯度提升算法所得到的生物标志物输入到svm中分类,同样得到了很好的分类准确率。最后,对本特征选择算法所选择出的生物标志物进行了生存分析、基因富集本体论(go)术语和生物通路等生信学分析,提高了本发明的实用性。
附图说明
[0053]
构成本技术的一部分的说明书附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
[0054]
图1为本发明的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法的流程示意图;
[0055]
图2为一致性聚类的累计密度函数(cdf);
[0056]
图3为改进的梯度提升算法流程图
[0057]
图4为深度神经网络(dnn)基本结构图
[0058]
图5为本发明与现存特征选择算法比较结果;
[0059]
图6为标记基因热图;
[0060]
图7为部分标记基因生存曲线;
[0061]
图8为kegg富集通路分析图。
具体实施方式:
[0062]
为了使本技术领域的人员更好的理解本说明书中的技术方案,下面结合本说明书实施中的附图,对本发明书实施例中的技术方案进行清楚、完整的描述,但不仅限于此,本发明未详尽说明的,均按本领域常规技术。
[0063]
本发明整体研究思路如下:
[0064]
首先从gdc tcga上下载胃癌相关的转录组学数据以及临床数据,用r代码处理为可读的转录组学数据,然后移除零方差特征以实现数据的初步过滤,因为在所有胃癌病人中相同表达的基因特征一定不是生物标志物(即可以正确区分不同胃癌亚型的基因)。为了区分不同亚型,选用基于重采样方法的一致性聚类方法,并选用pac和临床相关的胃癌患者生存率、死亡率信息辅助决策出最佳的亚型数。此时仍有大量基因特征,因此选择使用edger包做差异性分析,选择出差异性较大、有助于胃癌分型的基因。
[0065]
然后分别将所得出的差异基因输入到本发明的深度特征选择算法中,得到相同数目的基因特征子集。其中,本发明所提出的梯度提升深度特征选择算法,具有如下改进:
[0066]
①
为提高模型性能,选用更高级的梯度提升树,xgboost,相较于传统的梯度提升算法,该模型基于特征放缩的正则化方法,避免过拟合;对缺失值处理方式更高效;加入近似算法,可提高训练速度;支持并行化训练,提高了运行效率;可处理非线性关系,拥有更强的表征能力。启用早停机制,“early_stopping_rounds”参数默认为none,将其设置为8,表示若在连续的8轮训练中都没有出现性能提升,则停止训练,以避免过拟合和提高模型泛化能力。
[0067]
②
为优化梯度提升深度特征选择算法模型性能,将optuna超参数调优框架加入xgboost,配合10折交叉验证,可以快速找到最优的超参数组合,从而提高模型的性能和泛化能力。
[0068]
本发明采用深度神经网络用来分类,根据各个不同特征选择算法所选择出的特征子集做分类。由最终分类的准确率得出,本发明所提出的梯度提升特征选择算法具有更佳表现。并选用svm算法验证改进的梯度提升深度特征选择算法的鲁棒性,事实证明,用svm分类网络也能有极高的准确率,即有很好的鲁棒性。
[0069]
本发明最后做了一系列的生信学分析,结合临床数据的生存曲线,得出特征基因高低表达的亚型有不同的生存曲线(比如某个基因表达量高,生存时间长),有助于医学研究,证明有很好的现实意义和研究价值。
[0070]
实施例1
[0071]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,包括以下步骤:
[0072]
(1)从tcga上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;
[0073]
(2)采用一致性聚类方法结合pac和临床相关数据决策出最佳的亚型数,用于区分不同亚型;
[0074]
(3)采用改进的梯度提升深度特征选择算法进行特征选择;
[0075]
(4)采用深度神经网络进行分类。
[0076]
实施例2
[0077]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,如实施例1所述,所不同的是,步骤(1)中,数据预处理是指移除转录组学数据集中的0方差特征,并进行差异分析,具体的:
[0078]
从癌症基因组图谱(tcga)上下载的数据为两种形式:原始数据raw counts和标准化后的数据fpkm(每千个碱基的转录每百万映射读取的fragments数据)。标准化的数据
fpkm主要目的是去除测序数据的技术偏差:测序深度和基因长度。同一条件下,测序深度越深,基因表达的read读数越多;同理,不同的基因长度产生不对等的read读数。基因越长,该基因的read读数越高;采用edger包对原始数据做差异分析,通过取均值的方法保留raw counts矩阵中的一个基因名,完成上述工作后,可得到胃癌基因表达矩阵的407个样例和59427个特征基因,但是考虑到研究内容为胃癌亚型分类,本实施例只选取胃癌患者的375个样本,无需正常不患病的样本。
[0079]
假如一个特征本身的方差很小,表示样本在这个特征上基本没有差异。可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分就没有什么作用。考虑到上述问题,在做聚类之前应当先做方差过滤。方差过滤如果阈值设置不好,可能会漏掉重要特征。比如说,收入范围为0到1亿,年龄范围为0到150。相对来说,年龄的方差要比收入小的多得多,但并非一定不是重要特征。所以本实施例选择移除0方差的特征。这些特征在所有胃癌患者样例中的表达值都相同,一定不是差异基因。这一操作,使得特征个数从59427变为57106。
[0080]
方差公式为:
[0081]
方差公式:
[0082]
其中,s2为方差,n为样本总数,表示这组数据的平均数;
[0083]
阈值选为0,选择出方差大于0的基因特征;
[0084]
采用edger包对方差过滤后的数据集作差异分析,在输入到模型前选择出部分特征,选择出pvalue《0.05和log2foldchange》1.5的数据;
[0085]
其中,pvalue表示显著性差异的统计参数,foldchange表示样本质检表达量的差异倍数,pvalue《0.05和log2foldchange》1.5可让得出的差异基因有意义,其中log2foldchange可以让差异特别大的和差异比较小的数值缩小之间的差距。
[0086]
pvalue:h0零假设:a和b的表达没有差异。基于此假设,算出观测到的a和b出现的概率,就得到了pvalue,如果pvalue《0.05,那么说明小概率事件出现了,应该拒绝零假设,即a和b的表达不一样,即有显著差异。左侧检验的p值为检验统计量x小于样本统计值c的概率,即:p=p{x《c};右侧检验的p值为检验统计量x大于样本统计值c的概率:p=p{x》c}。基于统计学的假设检验。
[0087]
计算log2foldchange:
[0088]
实际可由差异分析的r包edger计算得出。
[0089]
根据pvalue《0.05和log2foldchange》1.5用edger包对rna-seq的raw counts数据做差异分析,由此规则筛选出rna-seq fpkm数据中的5098个差异性较强的基因。
[0090]
实施例3
[0091]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,如实施例2所述,所不同的是,对于分型这一操作,现有研究多为无监督聚类,传统的聚类方法通常需要指定簇的个数,但是在实际应用中,往往难以确定最优的簇数。一致性聚类是一种基于k-means聚类的方法,可以通过一致性系数来评估聚类结果的稳定性和可靠性,从而确定最优的簇数。相对于传统的聚类方法,一致性聚类在选择最优簇数方面更加客观和有效。模糊
聚类对的比例(pac)可以评估聚类结果的稳定性和一致性,并且具有很好的鲁棒性和可解释性。因此本发明选用pac指标来更可靠地推断最佳亚型数。
[0092]
聚类是一项无监督学习任务,用没有标记的基因表达数据集来训练机器学习算法,步骤(2)中的一致性聚类方法采用k-means聚类方法,基于医学界对胃癌亚型研究相关的先验知识,选择的max k为5,即设置一个最大值不断去迭代尝试,迭代次数为1000,在每次迭代中选择80%的样本子集,在该样本子集上运行k-means聚类方法,得到不同k值对应的累计密度函数cdf和一致性矩阵热图;
[0093]
下一步为如何选择最为合适的聚类数目,如图2所示,选择累计密度函数cdf下降坡度更小的曲线,以及一致性矩阵热图中分布最好的矩阵所对应的k值作为优选k值;
[0094]
从图2可以看出,k=2或4坡度较小,正是由于这样确定聚类数评价指标模糊,所以引入了后续的pac和临床数据(最后的生存时间分析上);
[0095]
一致性矩阵热图可通过将数据矩阵中的各个值按一定规律映射为颜色展示,利用颜色变化来可视化比较数据。一致性矩阵热图中,如果聚类效果好,图中与矩阵的0和1对应的颜色会分割的很清楚,看起来比较干净。一致性矩阵热图矩阵的数值代表同属一个cluster的可能性,取值范围从0到1,颜色从白色到带有颜色,尽量不选择颜色掺杂的k值。
[0096]
由于上面确定k值的过程需要靠直观地观察坡度最小且热图效果“最好”,确定最佳聚类数不够严谨,所以结合pac进一步验证,效果更好。
[0097]
模糊聚类对的比例pac是一种用于确定最佳聚类数的指标,通过对多次聚类结果的一致性评估,来确定最佳的聚类数k,具体的:通过多次从fpkm数据集中随机抽取样本和基因特征,并利用所选的k-means聚类方法对其进行聚类,得到多个聚类结果;然后,通过计算多个聚类结果之间的共识矩阵,来度量它们之间的一致性程度;最后,通过计算在一定阈值范围内的共识矩阵上的面积大小,来确定最佳的聚类数k。
[0098]
采用pac的方法确定最佳聚类数的代码如下:
[0099][0100][0101]
本实施例中,最终确定最佳聚类数为2,确定最佳聚类数k后,为375个胃癌患者样本打标签:i类亚型有256人,ii类亚型有119人。
[0102]
实施例4
[0103]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,如实施例3所述,所不同的是,临床相关数据包括胃癌患者生存曲线,生存曲线差异大,则验证了亚型数的无监督聚类是合理的。
[0104]
实施例5
[0105]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,如实施例4所述,所不同的是,步骤(3)中,梯度提升,也称为梯度增强,改进的梯度提升算法是基学习器(决策树)的集成,基学习器之间存在先后顺序,将负梯度作为上一轮基学习器犯错的衡量指标,其中负梯度也被称为伪残差,每一轮基学习器在训练过程中更加关注上一轮学习错误的样本,在训练过后更新样本权重,在此基础上再训练下一个基学习器,最后将所有的基学习器加权组合(每一轮迭代都会学习上一轮的错误样本,基学习器拟合残差值,基学习器模型得到优化、改进,直到这个过程到第m个基学习器。最后再将所有的基学习器按权重加和)。
[0106]
梯度提升算法的具体过程如图3。
[0107]
改进的梯度提升算法的过程为:
[0108]
输入为训练集为差异分析后的转录组学fpkm数据,x表示样本,y表示亚型标签,n表示样本总数,即胃癌患者总数;可微分损失函数l(y,f(x)),f(x)是预测值,迭代次数m,具体过程如下:
[0109]
用常数值初始化模型
[0110][0111]
γ为常量初始化模型的预测值;
[0112]
对于m从1到m:
[0113]
计算负梯度(伪残差)使用损失函数的负梯度在当前模型f
m-1
(x)上的值近似代替残差;
[0114][0115]
将基学习器hm(x)拟合到伪残差,hm(x)表示第m个基学习器,即使用训练集对其进行训练;
[0116]
通过以下优化问题计算rm:
[0117][0118]
更新模型:下一轮学习器学习到了上一轮学习器的负梯度,从而修正
[0119]fm
(x)=f
m-1
(x)+γ
mhm
(x)
[0120]
输出fm(x),即所有基学习器加权组合后的模型,γm表示第m个基学习器的乘子,fm(x)是中间不完美的模型,预测的值不是那么精确,fm(x)是最后一轮的模型;
[0121]
优选的,改进的梯度提升选用更高级的梯度提升树xgboost模型,并采用早停机制,避免过拟合并加快处理速度;选用optuna框架配合10折交叉验证,对树的最大深度(max_depth)、多少棵树(n_estimators)、学习率(learning_rate)、树方法(tree_method)等超参数调优,从而获取对预后分型起作用的重要基因,得到更准确的重要特征排名。
[0122]
本发明首次将梯度提升用于胃癌分型特征选择,为了防止过拟合,在损失函数中
加了正则项(惩罚项),限制决策树叶子节点个数以及叶子节点值,降低了模型方差,防止过拟合。选用更高级的xgboost模型,设置早停机制;在xgboost模型中添加optuna超参数调优框架,配合10折交叉验证,以确定最佳的超参数组合,其中超参数包括树的最大深度、多少棵树、学习率、树方法等。
[0123]
实施例6
[0124]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,如实施例5所述,所不同的是,在本研究的胃癌亚型分类中,经矩阵热图分析和pac方法得出最佳聚类数为2。因此亚型预测分类问题实则是一个二分类问题。生物学所指的鲁棒性是指系统在扰动或不确定情况下仍能保持他们的特征行为。为了更好地验证梯度提升深度特征选择算法(gbdfs)的鲁棒性,本文选择使用支持向量机(svm)和深度神经网络(dnn)分别对该算法所选择出的最佳低维特征子集做预测。
[0125]
步骤(4)中,深度神经网络(deep neural networks,dnn)也叫多层感知机(multi-layer perceptron,mlp),为具有很多隐藏层的神经网络;
[0126]
如图4所示,深度神经网络包括输入层、2层隐藏层和输出层,设隐藏层的输出为f(w1x+b1),其中w1为权重,b1为偏置,函数f为激活函数,x为输入层;
[0127]
神经网络主要有三个基本要素:权重、偏置和激活函数。神经元之间的连接强度由权重表示,权重的大小表示可能性的大小。偏置的设置是为了正确分类样本,它是模型中的一个重要参数。使用激活函数,能够给神经元引入非线性因素,它可以使得神经网络任意逼近任何非线性函数。若不使用激活函数,则无论神经网络有多少层,输出都是输入的线性组合;
[0128]
隐藏层的激活函数采用relu,通常意义下,其指代数学中的斜坡函数,如公式所示:
[0129][0130]
采用relu为激活函数的原因有以下几个方面:
[0131]
(1)采用sigmoid等激活函数时,涉及指数运算;反向传播求误差梯度时,求导涉及除法,所以导致计算量大。而采用relu激活函数,整个过程的计算量节省很多。
[0132]
(2)对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失),从而无法完成深层网络的训练。relu在非负区间梯度为常数,因此不存在梯度消失问题,它使得模型的收敛速度维持在一个稳定状态。
[0133]
(3)relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性。减少了参数的相互依存关系,缓解了过拟合问题的发生。
[0134]
输出层选择一个神经元,其激活函数为sigmoid函数,如下公式,它将一个标量数字转换到0与1之间,如果大于一个概率阈值(本实施例设置为0.5),则认为它属于某个类别,否则不属于某个类别。
[0135][0136]
交叉熵损失函数选用binary_crossentropy,其损失函数公式如下:
[0137][0138]
其中,为真实值yi的预测值,n为样本总数。
[0139]
对于更新深度学习网格参数的优化算法,选择adam优化器,通过训练优化参数来最小化损失函数,损失函数用来计算测试集中目标值的真实值和预测值的偏差程度。
[0140]
adam算法和传统的随机梯度下降不同,随机梯度下降保持单一的学习率(即alpha)更新所有的权重,学习率在训练过程中并不会改变。而adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。
[0141]
对于超参数调优,常用的方法有网格搜索、随机搜索和贝叶斯优化。optuna是2021年kaggle竞赛中最常见的模型调参工具,它最初于2019年发表。本研究采用optuna作为超参数调优工具。
[0142]
实施例7
[0143]
一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,如实施例6所述,所不同的是,步骤(4)后还包括:
[0144]
(5)采用支持向量机(svm)验证改进的梯度提升深度特征选择算法的鲁棒性。
[0145]
支持向量机是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,即找到一个超平面,使得离该超平面最近的点能够最远。能分离两类数据的超平面有无穷多个,但几何间隔最大的分离超平面是唯一的。
[0146]
组学数据存在高维性,现有特征选择算法多使用统计学方法或bagging技术,且现有分类器少有考虑将神经网络加入其中致使分类精度普遍偏低。因此,本文提出一种基于梯度提升的深度特征选择算法,并通过自行设计深度神经网络来提高胃癌亚型分类预测精度。最后,本发明确定了一种生物标志物,即24个所选择出的标记基因,并做了基因富集本体论(go)术语和生物通路等生信学分析,以提高本发明的实用性。
[0147]
性能度量
[0148]
为了评估多个特征选择算法性能,本文选用深度神经网络为分类器,对比相同特征子集数目下不同算法得出的不同特征的分类效果。评估指标选择分类准确率(classification accuracy),曲下面积(auc),敏感度(sn)和特异性(sp)。对于二分类模型,预测情况与实际情况组合会得出4种组合,形成混淆矩阵,如表1:
[0149]
表1:混淆矩阵
[0150] 预测正例预测反例实际正例true positive(tp)false negative(fn)实际反例false positive(fp)true negative(tn)
[0151]
为了评估多个特征选择算法性能,对比相同特征子集数目下不同算法得出的不同特征的分类效果。本研究的评估指标选择为准确率(accuracy),曲下面积(auc),敏感度(sn)和特异性(sp),结果如表2:
[0152]
表2:生物标志物的svm分类结果
[0153]
evaluation metricsnumerical valueaccuracy0.991150
auc0.993506sn0.987013sp1.0
[0154]
tp表示被模型预测为正的正样本;
[0155]
fp表示被模型预测为正的负样本;
[0156]
fn表示被模型预测为负的正样本;
[0157]
tn表示被模型预测为负的负样本;
[0158]
真正率(tpr)表示真实为正的样本中预测为正的概率;
[0159]
真负率(tnr)表示真实为负的样本中预测为负的概率;
[0160]
假正率(fpr)表示真实为负的样本中预测为正的概率;
[0161]
假负率(fnr)表示真实为正的样本中预测为负的概率;
[0162]
具体公式如下:
[0163][0164][0165][0166][0167]
准确率计算公式如下:
[0168][0169]
图5为本发明与现存特征选择算法比较结果,数据如表3所示:
[0170]
表3:特征子集数为24时各特征选择算法的结果
[0171]
methodaccuracyaucsnspchi-square0.9469030.9314570.9740260.888889f-test0.9557520.9527420.9610390.944444mi0.9380530.9249640.9610390.888889rfe0.9646020.9666310.9610390.972222et0.9557520.94534460.9740260.916667rdfs0.9646020.9592350.9740260.944444fdnn0.9646020.97402609480521.0forgenet0.9734510.9657290.9870130.944444gbdfs(本实施例)0.9911500.9935060.9870131.0
[0172]
本实施例中比较了其他的主流特征选择算法,比如卡方检验、方差分析、互信息算法、递归特征消除、极限森林算法和随机森林算法等,用同一种分类模型对这些算法所选出的标记基因做对比实验。结果显示,本发明所提出的深度特征选择算法具有更高的预后分类准确率。
[0173]
其中,过滤式特征选择算法:卡方检验,方差分析,互信息算法;
[0174]
包裹式特征选择算法:递归特征消除算法;
[0175]
嵌入式特征选择算法:极端随机树,图形嵌入深度前馈网络(gedfn,文献为:kong y,yut.a graph-embedded deep feedforward network for disease outcome classification and feature selection using gene expression data[j].bioinformatics,2018,34(21):3727-3737.),嵌入森林图的深度前馈网络(forgenet,文献为:kong y,yu t.forgenet:a graph deep neural network model using tree-based ensemble classifiers for feature graph construction[j].bioinformatics,2020,36(11):3507-3515.),随机森林深度特征选择算法(rdfs,文献为:hu y,zhao l,li z,et al.classifying the multi-omics data of gastric cancer using a deep feature selection method[j].expert systems with applications,2022,200:116813.)。
[0176]
将梯度提升深度特征选择算法所得到的最佳低维特征子集作为生物标志物,得到其生存分析(如图7)、go和kegg富集分析(如图8)等生信学相关分析结果图,kegg富集分析选用metascape基因列表分析网站。metascape是一个基于web的门户网站。它旨在为相关研究者提供全面的基因列表注释和分析资源。通过一键式快速分析界面生成可解释的输出,metascape提供了显著简化的用户体验,它是相关研究者在大数据时代全面分析和解释基于组学的研究的有效工具。
[0177]
图6的标记基因热图可以看出,所选出的最佳低维特征子集在两个亚型中有不同的表达情况(高低表达),可以很好区分两个亚型。图7基因生存曲线图,横轴是时间,纵轴是存活概率。
[0178]
图8是kegg富集通路分析图,通路相关的数据库是基于人体通路而形成的数据库,kegg就是通路相关数据库的一种。数据库里有基因相关的功能信息,富集分析就是将这些功能整合计算的算法。
[0179]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,包括以下步骤:(1)从tcga上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;(2)采用一致性聚类方法结合pac和临床相关数据决策出最佳的亚型数,用于区分不同亚型;(3)采用改进的梯度提升深度特征选择算法进行特征选择;(4)采用深度神经网络进行分类。2.根据权利要求1所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(1)中,数据预处理是指移除转录组学数据集中的0方差特征,并进行差异分析,具体的:从tcga上下载的数据为两种形式:原始数据raw counts和标准化后的数据fpkm,采用edger包对原始数据做差异分析,通过取均值的方法保留raw counts矩阵中的一个基因名,方差公式为:方差公式:其中,s2为方差,n为样本总数,表示这组数据的平均数;阈值选为0,选择出方差大于0的基因特征;采用edger包对方差过滤后的数据集作差异分析,在输入到模型前选择出部分特征,选择出pvalue<0.05和log2foldchange>1.5的数据;其中,pvalue表示显著性差异的统计参数,foldchange表示样本质检表达量的差异倍数。3.根据权利要求2所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(2)中的一致性聚类方法采用k-means聚类方法,选择的max k为5,即设置一个最大值不断去迭代尝试,迭代次数为1000,在每次迭代中选择80%的样本子集,在该样本子集上运行k-means聚类方法,得到不同k值对应的累计密度函数cdf和一致性矩阵热图;选择累计密度函数cdf下降坡度更小的曲线,以及一致性矩阵热图中分布最好的矩阵所对应的k值作为优选k值;模糊聚类对的比例pac是一种用于确定最佳聚类数的指标,通过对多次聚类结果的一致性评估,来确定最佳的聚类数k,具体的:通过多次从fpkm数据集中随机抽取样本和基因特征,并利用所选的k-means聚类方法对其进行聚类,得到多个聚类结果;然后,通过计算多个聚类结果之间的共识矩阵,来度量它们之间的一致性程度;最后,通过计算在一定阈值范围内的共识矩阵上的面积大小,来确定最佳的聚类数k。4.根据权利要求3所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,临床相关数据包括胃癌患者生存曲线,生存曲线差异大,则验证了亚型数的无监督聚类是合理的。5.根据权利要求4所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(3)中,梯度提升,也称为梯度增强,改进的梯度提升算法是基学习器的集成,基学习器之间存在先后顺序,将负梯度作为上一轮基学习器犯错的衡量指标,
其中负梯度也被称为伪残差,每一轮基学习器在训练过程中更加关注上一轮学习错误的样本,在训练过后更新样本权重,在此基础上再训练下一个基学习器,最后将所有的基学习器加权组合。6.根据权利要求5所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,改进的梯度提升算法的过程为:输入为训练集为差异分析后的转录组学fpkm数据,x表示样本,y表示亚型标签,n表示样本总数,即胃癌患者总数;可微分损失函数l(y,f(x)),f(x)是预测值,迭代次数m,具体过程如下:用常数值初始化模型γ为常量初始化模型的预测值;对于m从1到m:计算负梯度使用损失函数的负梯度在当前模型f
m-1
(x)上的值近似代替残差;将基学习器h
m
(x)拟合到伪残差,h
m
(x)表示第m个基学习器,即使用训练集对其进行训练;通过以下优化问题计算r
m
:更新模型:下一轮学习器学习到了上一轮学习器的负梯度,从而修正f
m
(x)=f
m-1
(x)+γ
m
h
m
(x)输出f
m
(x),即所有基学习器加权组合后的模型,γ
m
表示第m个基学习器的乘子。7.根据权利要求6所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,改进的梯度提升选用更高级的梯度提升树xgboost模型,并采用早停机制,避免过拟合并加快处理速度;选用optuna框架配合10折交叉验证,对树的最大深度、多少棵树、学习率、树方法等超参数调优,从而获取对预后分型起作用的重要基因,得到更准确的重要特征排名。8.根据权利要求7所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(4)中,深度神经网络也叫多层感知机,为具有很多隐藏层的神经网络;深度神经网络包括输入层、2层隐藏层和输出层,设隐藏层的输出为f(w1x+b1),其中w1为权重,b1为偏置,函数f为激活函数,x为输入;隐藏层的激活函数采用relu,输出层选择一个神经元,其激活函数为sigmoid函数;损失函数用来计算测试集中目标值的真实值和预测值的偏差程度,采用adam优化器,通过训练优化参数来最小化损失函数。
9.根据权利要求8所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,步骤(4)后还包括:(5)采用支持向量机验证改进的梯度提升深度特征选择算法的鲁棒性。10.根据权利要求8所述的基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,其特征在于,支持向量机是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,即找到一个超平面,使得离该超平面最近的点能够最远。
技术总结
本发明涉及一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法,属于生物医学技术领域。包括以下步骤:从TCGA上下载胃癌患者的转录组学数据集以及临床数据,进行数据预处理;采用一致性聚类方法结合PAC和临床相关数据决策出最佳的亚型数,用于区分不同亚型;采用改进的梯度提升深度特征选择算法进行特征选择;采用深度神经网络进行分类。本发明采用无监督聚类方法,无需事先指定聚类的簇,并提出了选用PAC和临床数据来辅助决策最优亚型数,有效提高了预后预测准确率。有效提高了预后预测准确率。有效提高了预后预测准确率。
技术研发人员:赵龙 司呈坤 刘娇
受保护的技术使用者:齐鲁工业大学(山东省科学院)
技术研发日:2023.04.17
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
