单细胞RNA测序数据处理方法、装置、设备及存储介质与流程
未命名
08-14
阅读:140
评论:0
单细胞rna测序数据处理方法、装置、设备及存储介质
技术领域
1.本发明涉及数字医疗领域,尤其涉及一种单细胞rna测序数据处理方法、装置、设备及存储介质。
背景技术:
2.单细胞rna测序(scrna-seq)技术是在单细胞水平观测基因表达的方法,可以更好地研究不同组织及组织中不同类型的细胞。随着单细胞rna测序技术的发展,单细胞rna测序得到的数据越来越庞大。在测序获得的大型数据集中,不同类别细胞的单细胞rna序列存在一定的差异性,需要先对单细胞rna测序数据进行聚类后再进一步研究不同类别细胞中潜在的生物信息。在数字医疗平台的检测数据中,单细胞rna测序的样本中往往包含上万个基因,导致单细胞rna测序数据的特征维度特别高,而且包含大量冗余噪声信息的基因测序数据,如果直接进行聚类,则需要足够的时间成本和算力支持。因此,提取单细胞rna测序数据的有效信息,降低特征维度后再进行聚类分析是十分有必要的。
3.目前,已经有多种对单细胞rna测序数据进行降维的方法。经典的主成分分析(pca)降维方法通过定义具有连续最大方差(即主成分)的原始数据点的线性组合,将观测值转换为潜在空间,线性方法快速且简单,但单细胞rna测序数据本质上是非线性的,因此不适用于所有的数据集。而关于非线性的t-分布邻域嵌入算法(t-sne)和去趋势对应分析(dca)降维方法,则对单细胞rna测序数据有着严格的分布假定,应用在细胞异质性不突出的测序数据集表现尚可,但对绝大多数单细胞rna测序数据的特征提取情况并不理想,往往出现遗漏甚至偏离原始数据的生物信息,模型泛化能力并不突出。因此,需要探索一种准确率更高,效果更好的单细胞rna测序数据降维方法。
技术实现要素:
4.基于此,有必要针对上述技术问题,提供一种单细胞rna测序数据处理方法、装置、设备及存储介质,以解决现有的单细胞rna测序数据降维方法适用性窄、准确率低、处理效果差的问题。
5.一种单细胞rna测序数据处理方法,包括:
6.获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;
7.使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;
8.将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。
9.一种单细胞rna测序数据处理装置,包括:
10.数据预处理模块,用于获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;
11.模型训练模块,用于使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;
12.数据降维模块,用于将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。
13.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述单细胞rna测序数据处理方法。
14.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述单细胞rna测序数据处理方法。
15.上述单细胞rna测序数据处理方法、装置、计算机设备及存储介质,通过获取样本测序数据,对样本测序数据进行预处理,获得预处理样本数据;使用预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;待训练模型包括自动编码器模型和判别器;自动编码器模型包括编码器、中间隐藏层和解码器;判别器用于调节自动编码器模型的输出数据的分布;将待降维测序数据输入对抗自动编码器模型进行降维,提取中间隐藏层的特征向量以获得低维测序数据。本发明为单细胞rna测序数据的特征挖掘和聚类分析提供了一种高效准确的降维处理方法,首先,不需要对测序数据的细胞表达量采取任何分布假定,保留数据的真实性和有效性,适用范围更广;其次,在降维任务中引入对抗的机制,并基于对抗损失误差、均方误差和结构相似性误差的最小化综合误差作为优化目标,多方位提升了模型的压缩能力和泛化性能,提高了降维处理结果的准确性和可靠性,有利于数字医疗平台对细胞水平的数据进行更加精确的分析。
附图说明
16.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明一实施例中单细胞rna测序数据处理方法的一流程示意图;
18.图2是本发明一实施例中对抗自动编码器模型的结构示意图;
19.图3是本发明一实施例中单细胞rna测序数据处理装置的一结构示意图;
20.图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
21.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.本发明实施例提供的单细胞rna测序数据处理方法,可以应用在医疗领域的样本检测分析业务场景,例如,单细胞rna测序应用于肿瘤细胞异质性研究、新突变位点的发现、肿瘤细胞克隆进化机制及相关新生物标记的鉴定等场景。本实施例的单细胞rna测序数据处理方法提高了降维处理结果的准确性和可靠性,可以充分提取细胞表达的信息,获得更加丰富的基因信息,使细胞类型的鉴定分辨率更高,有助于提高精准医疗服务的分析水平。
23.在一实施例中,如图1所示,提供一种单细胞rna测序数据处理方法,包括如下步骤s10-s30。
24.s10、获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据。
25.可理解地,样本测序数据指的是基于scrna-seq数据集的单细胞rna测序数据。scrna-seq技术提供了在单细胞水平观测基因表达的方法,可以更好地研究不同组织及其中存在的不同类型的细胞,广泛应用在探究异质性、谱系路径分析和随机基因表达研究的多个方面。获取来自不同物种、不同类型、不同细胞数量的scrna-seq数据集作为样本测序数据,对样本测序数据进行预处理以清除误差数据和异常数据,获得无噪声的预处理样本数据。预处理包括去除空白细胞数据、最大文库数据标准化和表达量数据标准化,后续将预处理样本数据输入模型以进行训练。
26.s20、使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布。
27.可理解地,如图2所示,自动编码器模型由编码器、中间隐藏层和解码器构成,对自动编码器模型追加判别器,生成对抗自动编码器模型作为待训练模型。自动编码器(auto encoder,ae)模型由输入层、中间隐藏层和输出层共三部分组成,自动编码器模型具有对称结构,输入层的节点数与输出层的节点数相同,并且与中间隐藏层的连接强度对称,编码器用于从输入层到中间隐藏层进行映射,解码器用于从中间隐藏层到输出层进行映射。自动编码器模型通过无监督迭代训练,将高维度的输入层数据用低维度的中间隐藏层数据进行特征表达,实现对数据的降维处理,并使得输出层数据与输入层数据的重构误差最小。将自动编码器模型作为生成器,并追加判别器生成待训练模型,使用预处理样本数据对待训练模型进行训练,获得对抗自动编码器(adversarial auto encoders,aae)模型。对抗自动编码器模型引入了对抗的思想进行训练优化,判别器对样本的真实数据和生成器输出的数据进行判断,即通过将生成器的聚合后验分布与任意先验分布进行匹配来完成推理,通过聚合后验与先验的匹配可确保从先验空间的任何部分生成有意义的样本数据。在具体实施例中,对抗自动编码器模型中的编码器、解码器和判别器可以是具有16、32、64、128、256、512或1024个节点的全连接神经网络的1、2、3或4层设计。
28.s30、将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。
29.可理解地,将训练好的对抗自动编码器模型作为特征提取模型,训练好的对抗自动编码器模型包括中间隐藏层,中间隐藏层的特征向量的维度小于输入向量的维度。获取单细胞rna测序数据中的待降维测序数据,将待降维测序数据输入特征提取模型进行降维处理,通过前向传播算法提取中间隐藏层的特征向量以获得低维测序数据。降维后的低维测序数据能够以少量个数的基因,极大程度地包含单细胞rna测序数据中的生物信息,增大
基因数据的有效表示,减少后续聚类分析需要的时间成本和算力支持。
30.本实施例获取单细胞rna测序数据作为样本测序数据,为单细胞rna测序数据的特征挖掘和聚类分析提供了一种高效准确的降维处理方法。通过对样本测序数据进行预处理,获得预处理样本数据;使用预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;待训练模型包括自动编码器模型和判别器;自动编码器模型包括编码器、中间隐藏层和解码器;判别器用于调节自动编码器模型的输出数据的分布;将待降维测序数据输入对抗自动编码器模型进行降维,提取中间隐藏层的特征向量以获得低维测序数据。首先,不需要对单细胞rna测序数据的细胞表达量采取任何分布假定,保留数据的真实性和有效性,适用范围更广;其次,在降维任务中引入对抗的机制,通过判别器约束自动编码器模型的“压缩-解码”能力,保证输入数据和输出数据是同一分布,进而保证中间隐藏层的降维处理效果;最后,基于对抗损失误差、均方误差和结构相似性误差的最小化综合误差作为优化目标,多方位提升了对抗自动编码器模型的压缩能力和泛化性能,提高了降维处理结果的准确性和可靠性,有利于数字医疗平台对细胞水平的数据进行更加精确的分析。
31.可选的,步骤s10中,即所述获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据,包括:
32.s101、获取样本测序数据,对所述样本测序数据进行去空白处理,获得一次预处理数据;
33.s102、对所述一次预处理数据进行最大文库标准化处理,获得二次预处理数据;
34.s103、对所述二次预处理数据进行表达量标准化处理,获得所述预处理样本数据。
35.可理解地,单细胞rna测序数据的数据量庞大,单细胞rna测序数据作为样本测序数据,需要通过预处理清除误差数据和异常数据。在一具体实施例中,样本测序数据的数据集为其中,xi=(x
i1
,x
i2
,x
i3
,...,x
im
)表示第i个细胞的序列数据,i=1,2,3,...,n0,n0表示细胞数,m表示基因数,x
ij
表示第j个基因在第i个细胞上表达的表达量,j=1,2,3,...,m。
36.空白细胞数据指的是不存在基因表达或者仅有极少数基因表达的细胞数据,空白细胞数据无法提供有效信息,而且会增大模型训练的时间成本,因此预处理需要去除空白细胞数据。对于第i个细胞的序列数据,若满足以下判定条件则予以去除:
[0037][0038]
其中,num1表示细胞数据中不表达基因个数的阈值,默认设置为10;δ(x
ij
)表示第j个基因在第i个细胞上表达的示性函数,取值规则如下:
[0039][0040]
即当第j个基因在第i个细胞上表达时取值为1,否则取值为0。
[0041]
样本测序数据的数据集包含n0条细胞数据,对样本测序数据进行去空白处理,获得一次预处理数据,一次预处理数据的数据集包含n条细胞数据。
[0042]
为了去除测序深度和基因长度带来的影响,对一次预处理数据中基因的表达量采
用最大文库标准化(max library size normalization,mlsn)处理,获得二次预处理数据。最大文库标准化处理如下:
[0043][0044]
其中,表示第j个基因在第i个细胞上表达的表达量x
ij
经过最大文库标准化后的结果;xi·
表示第i个细胞中m个基因的总表达量,即
[0045]
单细胞rna测序数据的数据集中,对于不同物种、不同类型的细胞数据往往呈现出高度异质性,导致模型的训练难度增加。对二次预处理数据中基因的表达量除以最大表达量进行细胞表达量标准化,获得预处理样本数据。细胞表达量标准化处理如下:
[0046][0047]
其中,表示第j个基因在第i个细胞上表达的表达量x
ij
经过最大文库标准化和细胞表达量标准化后的结果。
[0048]
本实施例的预处理一方面可以通过去空白处理来清除误差数据和异常数据的噪声影响,另一方面可以通过最大文库标准化和细胞表达量标准化来降低不同基因表达量差距过大的问题,在削弱强势特征的同时尽可能地将数值较小但有特点的特征显现出来,去除基因数量级的影响,提高后续模型梯度更新的稳定性。
[0049]
可选的,步骤s10中,即所述获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据,还包括:
[0050]
s104、对所述预处理样本数据进行抽样处理,获得一次扩增数据;
[0051]
s105、对所述预处理样本数据进行添加高斯噪声处理,获得二次扩增数据;
[0052]
s106、根据所述一次扩增数据和所述二次扩增数据生成所述预处理样本扩增数据。
[0053]
可理解地,单细胞rna测序的样本中往往包含上万个基因,测序获得的样本测序数据能够提供充足的细胞数据信息,满足对抗自动编码器模型的训练需要;特殊情况下单细胞rna测序获得的样本中只包含少量基因,样本测序数据只有几十、几百个数据时,很难满足对抗自动编码器模型的训练需要。当预处理样本数据的数据量少于1000时,通过数据扰动处理的方式获得预处理样本扩增数据,以满足对抗自动编码器模型的训练需要,辅助模型实现对细胞数据信息的挖掘,数据扰动处理包括抽样处理和添加高斯噪声处理。
[0054]
在一具体实施例中,抽样处理指的是通过bootstrap抽样对预处理样本数据进行有放回的多次抽样,通过扰乱基因之间的相关性生成新的细胞数据,获得一次扩增数据。bootstrap抽样的过程为:获取预处理样本数据的数据集d1={x
ij
|i=1,2,3,...,n;j=1,2,3,...,m},其中,n表示细胞数,m表示基因数,x
ij
表示第j个基因在第i个细胞上表达的表达量;预处理样本数据的第j个基因在n个细胞中表达的表达量分别为x
1j
,x
2j
,x
3j
,...,x
nj
,对第j个基因的表达量数据进行等概率随机抽样,抽样结果为对m个基因重复m次抽样操作,获得一条新的细胞数据完成一次完整的
bootstrap采样,记作一条细胞数据xk;重复k次采样后,k默认设置为104,获得一次扩增数据一次扩增数据包含k条细胞数据。
[0055]
在一具体实施例中,添加高斯噪声处理指的是对每一个细胞序列数据随机抽取10%的基因表达量数据,并添加一维标准正态分布的随机噪声,获得二次扩增数据。添加高斯噪声处理的过程为:获取预处理样本数据的数据集d1={x
ij
|i=1,2,3,...,n;j=1,2,3,...,m},其中,n表示细胞数,m表示基因数,x
ij
表示第j个基因在第i个细胞上表达的表达量;xi=(x
i1
,x
i2
,x
i3
,...,x
im
)表示第i个细胞的序列数据,i=1,2,3,...,n,对于第i个细胞序列数据抽取t个基因,对第i个细胞第ts个基因表达量的添加高斯噪声对n个细胞重复n次添加高斯噪声处理,获得n条新的细胞数据作为二次扩增数据。添加高斯噪声处理包括:
[0056][0057]
其中,表示添加高斯噪声后的第i个细胞的第ts个基因表达量数据,表示第i个细胞的第ts个基因表达量数据,表示高斯噪声。
[0058]
一次扩增数据包含k条细胞数据,二次扩增数据包含n条细胞数据,预处理样本扩增数据共包含k+n条细胞数据。当预处理样本数据的数据量少于1000时,通过数据扰动处理的方式获得预处理样本扩增数据之后,还包括:将预处理样本扩增数据输入待训练模型中进行预训练,获得预训练模型;将预处理样本数据输入预训练模型中进行正式训练,获得对抗自动编码器模型。
[0059]
本实施例充分考虑单细胞rna测序的样本数据量少的情况,通过抽样处理和添加高斯噪声处理的数据扰动实现数据扩增,使得模型在细胞数较少的样本测序数据集上具备优秀的拟合能力和泛化性能。同时采用预训练的方式提升模型的表现,预训练在本质上是一种迁移学习的方法,通过与样本测序数据分布相同但带有噪声的预处理样本扩增数据进行预训练塑造出对抗自动编码器模型的雏形,便于后续预处理样本数据输入的时候直接从包含噪声的分布向真实分布迁移,使对抗自动编码器模型的训练更有效。
[0060]
可选的,步骤s20中,即用于训练所述待训练模型的损失函数包括:
[0061][0062]
其中,min表示最小化;
[0063]
loss表示所述对抗自动编码器模型的损失函数;
[0064]
i表示第i个输出序列;
[0065]
n表示输出序列数量;
[0066]
li表示第i个输出序列的损失函数;
[0067]
表示第i个输出序列的对抗损失函数;
[0068]
β表示对抗损失函数的权重;
[0069]
ls表示输出序列的结构相似损失函数;
[0070]
表示第i个输出序列的均方误差损失函数;
[0071]
α表示均方误差损失函数的权重;
[0072]
γ表示生成器损失函数的权重。
[0073]
可理解地,使用预处理样本数据对待训练模型进行训练,训练目标是将预处理样本数据作为输入序列,使所有预处理样本数据的输出序列的损失函数值之和最小,以获得对抗自动编码器模型。在一具体实施例中,获取预处理样本数据中第i个细胞序列数据,i=1,2,3,...,n,将第i个细胞序列数据输入待训练模型后,第i个输出序列的损失函数值包含自动编码器模型的结构相似性损失和均方误差,以及判别器的对抗损失。第i个输出序列的损失函数表示为:
[0074][0075]
其中,α∈(0,1)且β,γ>0,权重值可通过训练得到。
[0076]
ls表示输出序列的结构相似性损失函数,即结构相似度的相反数,表达式如下:
[0077][0078]
其中,表示输出序列的结构相似度,y表示输入序列,表示输出序列,μy表示n个输入序列的平均值,表示n个输出序列的平均值,表示y的方差,表示的方差,表示y和的协方差,c1和c2是维持稳定性的两个常数。
[0079]
表示第i个输出序列的均方误差,表达式如下:
[0080][0081]
其中,num(gene)表示基因数,本实施例中基因数为m,j=1,2,3,...,m,y
ij
表示第j个基因在第i个输入序列的表达量,表示第j个基因在第i个输出序列的表达量。
[0082]
表示第i个输出序列的对抗损失,表达式如下:
[0083][0084]
其中,d表示判别器,yi表示第i个输入序列,表示第i个输出序列。根据结构相似性损失、均方误差和对抗损失进行加权计算,待训练模型的损失函数如下:
[0085][0086]
本实施例多方位考虑待训练模型的损失函数,在模型训练过程中不仅关注重构误差方面的对抗损失和均方误差,而且引入衡量结构相似度的指标作为结构相似性损失,在
结构上保证输入序列和输出序列的相似性。综合最小化“对抗损失+均方误差+结构相似性误差”的优化目标,多方位提升模型的“压缩-解码”性能,使得中间隐藏层在实现降维的同时最大限度地包含单细胞rna测序数据中的特征信息。
[0087]
可选的,所述预处理数据包括训练集数据和测试集数据;步骤s20中,即所述使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型,包括:
[0088]
s201、将所述训练集数据输入所述待训练模型进行判别器训练,获得判别器参数;
[0089]
s202、将自动编码器模型作为生成器,将所述训练集数据输入所述待训练模型进行生成器训练,获得生成器参数;
[0090]
s203、根据所述判别器参数和所述生成器参数确定所述对抗自动编码器模型。
[0091]
可理解地,在将预处理数据输入待训练模型之前,需要将预处理数据按照预设比例划分成两部分,获得训练集数据和测试集数据,训练集数据用于对模型进行训练,测试集数据用于对训练后的模型进行测试,以保证训练后模型的准确性。待训练模型包括自动编码器模型和判别器,将自动编码器模型作为生成器,判别器用于调节生成器的输出数据的分布,获得对抗自动编码器模型。将训练集数据输入待训练模型进行训练更新时有多种方式,其中,批梯度下降(batch gradient descent)的方式通过遍历所有数据后计算损失函数以更新梯度,导致计算过于复杂;小批量梯度下降(mini-batch gradient descent)通过随机选取一定量的数据进行训练,然后计算损失函数以更新梯度,计算量少,训练波动小。本发明实施例优选通过mini-batch的方式进行训练。
[0092]
在一具体实施例中,获取预处理数据的数据集d={x1,x2,x3,...,xn},其中,xi表示第i个细胞的序列数据,i=1,2,3,...,n,n表示细胞数;将预处理数据按照6:4的比例随机划分,将60%的预处理数据作为训练集数据将40%的预处理数据作为测试集数据其中,xi表示第i个细胞的训练集序列数据,x
′i表示第i个细胞的测试集序列数据,n1+n2=n;初始化待训练模型,固定初始的生成器参数,将训练集数据输入待训练模型进行判别器训练,获得判别器参数,使得判别器能够区分输入序列数据和压缩-解码后的输出序列数据;固定判别器参数,将训练集数据输入待训练模型进行生成器训练,获得生成器参数;根据判别器参数和生成器参数确定对抗自动编码器模型。当对抗自动编码器模型具备压缩-解码的能力时,输出序列数据的分布会不断向输入序列数据的分布靠近甚至重合,即判别器无法输入序列数据和输出序列数据,判别器对应的对抗损失函数值增大,取相反数后减小,因此综合的损失函数中对抗损失部分取负值保证损失函数最小化的优化目标。
[0093]
本实施例无需对单细胞rna测序数据的细胞表达量进行分布假定,具有更高的泛化性能和特征刻画能力;将自动编码器模型作为生成器,追加判别器引进对抗的思想,通过生成器和判别器的训练更好地刻画输入数据和输出数据的分布,保证损失函数最小化的优化目标。
[0094]
可选的,步骤s202中,即所述将所述训练集数据输入所述待训练模型进行生成器训练,获得生成器参数,包括:
[0095]
s2021、固定所述判别器参数,将所述训练集数据输入所述待训练模型进行前向传播训练并计算,获得对抗损失函数值;
[0096]
s2022、固定所述判别器参数,根据所述对抗损失函数值对所述待训练模型进行反向传播训练,获得生成器更新参数;
[0097]
s2023、当所述生成器更新参数满足预设训练要求时,将所述生成器更新参数确定为所述生成器参数。
[0098]
可理解地,前向传播算法将输入序列输入待训练模型,将上一层的输出作为下一层的输入,并计算下一层的输出,一直到运算到输出序列为止。反向传播算法是误差反向传播的简称,与最优化方法(如梯度下降法)结合使用,用于训练人工神经网络模型,通过更新权重值以最小化损失函数。在一具体实施例中,固定判别器参数,将训练集数据输入待训练模型进行前向传播训练并计算,获得对抗损失函数值:根据对抗损失函数值对待训练模型进行反向传播训练,反向传播训练采用随机梯度下降(stochastic gradient descent,sgd)的方式,通过每次只读取一个数据,计算损失函数以更新梯度,根据运行结果迭代参数,获得生成器更新参数,以完成一次训练;重复多次训练,当生成器更新参数满足预设训练要求时,将生成器更新参数确定为生成器参数。
[0099]
本实施例固定判别器参数以确定生成器参数,通过判别器约束生成器的“压缩-解码”能力,通过前向传播和反向传播进行损失函数的优化,保证输入数据和输出数据是同一分布,进而保证中间隐藏层的降维处理效果。
[0100]
可选的,步骤s2023中,即所述当所述生成器更新参数满足预设训练要求时,将所述生成器更新参数确定为所述生成器参数,包括:
[0101]
s20231、当所述对抗损失函数值符合预设收敛条件时,将所述测试集数据输入包含所述生成器更新参数的待训练模型,并计算所述测试集数据的测试损失值;
[0102]
s20232、当所述测试损失值处于预设损失值区间时,将所述生成器更新参数确定为所述生成器参数。
[0103]
可理解地,经过若干次训练,当对抗损失函数值符合预设收敛条件时,将测试集数据输入包含生成器更新参数的待训练模型进行一次测试,并计算测试集数据的测试损失值;获取训练损失值,当训练损失值l
train
和测试损失值l
test
处于预设损失值区间时,即训练损失值和测试损失值满足停止训练的条件时,将生成器更新参数确定为生成器参数,返回对抗自动编码器模型。停止训练的条件包括:对抗损失函数值符合预设收敛条件,判别器不能很好区分输入输出序列,即训练损失值l
train
和测试损失值l
test
处于预设损失值区间,ε2<l
train
<ε3,ε4<l
test
<ε5,且测试误差没有显著回弹波动。其中,ε1,ε2,ε3,ε4和ε5分别为对应不同的损失函数值阈值,阈值的设置需要根据单细胞rna测序数据的细胞数据集实际表达量确定,对于表达量高的细胞数据集,模型的损失会更大,对应的阈值更高;对于表达量低或者不表达的细胞数据集,模型的损失会更小,对应的阈值更低。
[0104]
本实施例在对抗损失函数值符合预设收敛条件的前提下,通过对训练损失值和测试损失值进行判断,当训练损失值和测试损失值同时满足停止训练的条件时,模型性能得到极大程度地提高且不出现过拟合的现象。
[0105]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0106]
在一实施例中,提供一种单细胞rna测序数据处理装置,该单细胞rna测序数据处
理装置与上述实施例中单细胞rna测序数据处理方法一一对应。如图3所示,该单细胞rna测序数据处理装置包括数据预处理模块10、模型训练模块20、和数据降维模块30。各功能模块详细说明如下:
[0107]
数据预处理模块10,用于获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;
[0108]
模型训练模块20,用于使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;
[0109]
数据降维模块30,用于将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。
[0110]
可选的,数据预处理模块10包括:
[0111]
去空白处理单元,用于获取样本测序数据,对所述样本测序数据进行去空白处理,获得一次预处理数据;
[0112]
最大文库标准化处理单元,用于对所述一次预处理数据进行最大文库标准化处理,获得二次预处理数据;
[0113]
表达量标准化处理单元,用于对所述二次预处理数据进行表达量标准化处理,获得所述预处理样本数据。
[0114]
可选的,数据预处理模块10还包括:
[0115]
抽样处理单元,用于对所述预处理样本数据进行抽样处理,获得一次扩增数据;
[0116]
添加高斯噪声处理单元,用于对所述预处理样本数据进行添加高斯噪声处理,获得二次扩增数据;
[0117]
预处理样本扩增数据生成单元,用于根据所述一次扩增数据和所述二次扩增数据生成所述预处理样本扩增数据。
[0118]
可选的,模型训练模块20包括:
[0119]
损失函数单元,用于训练所述待训练模型的损失函数包括:
[0120][0121]
其中,min表示最小化;
[0122]
loss表示所述对抗自动编码器模型的损失函数;
[0123]
i表示第i个输出序列;
[0124]
n表示输出序列数量;
[0125]
li表示第i个输出序列的损失函数;
[0126]
表示第i个输出序列的对抗损失函数;
[0127]
β表示对抗损失函数的权重;
[0128]
ls表示输出序列的结构相似损失函数;
[0129]
表示第i个输出序列的均方误差损失函数;
[0130]
α表示均方误差损失函数的权重;
[0131]
γ表示生成器损失函数的权重。
[0132]
可选的,模型训练模块20包括:
[0133]
判别器训练单元,用于将所述训练集数据输入所述待训练模型进行判别器训练,获得判别器参数;
[0134]
生成器训练单元,用于将自动编码器模型作为生成器,将所述训练集数据输入所述待训练模型进行生成器训练,获得生成器参数;
[0135]
对抗自动编码器模型生成单元,用于根据所述判别器参数和所述生成器参数确定所述对抗自动编码器模型。
[0136]
可选的,模型训练模块20还包括:
[0137]
前向传播训练单元,用于固定所述判别器参数,将所述训练集数据输入所述待训练模型进行前向传播训练并计算,获得对抗损失函数值;
[0138]
反向传播训练单元,用于固定所述判别器参数,根据所述对抗损失函数值对所述待训练模型进行反向传播训练,获得生成器更新参数;
[0139]
生成器参数确定单元,用于当所述生成器更新参数满足预设训练要求时,将所述生成器更新参数确定为所述生成器参数。
[0140]
可选的,模型训练模块20还包括:
[0141]
测试损失值计算单元,用于当所述对抗损失函数值符合预设收敛条件时,将所述测试集数据输入包含所述生成器更新参数的待训练模型,并计算所述测试集数据的测试损失值;
[0142]
测试损失值判断单元,用于当所述测试损失值处于预设损失值区间时,将所述生成器更新参数确定为所述生成器参数。
[0143]
关于单细胞rna测序数据处理装置的具体限定可以参见上文中对于单细胞rna测序数据处理方法的限定,在此不再赘述。上述单细胞rna测序数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0144]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储单细胞rna测序数据处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种单细胞rna测序数据处理方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0145]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
[0146]
获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;
[0147]
使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;
[0148]
将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。
[0149]
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
[0150]
获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;
[0151]
使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;
[0152]
将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。
[0153]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0154]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0155]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种单细胞rna测序数据处理方法,其特征在于,包括:获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。2.如权利要求1所述的单细胞rna测序数据处理方法,其特征在于,所述获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据,包括:获取样本测序数据,对所述样本测序数据进行去空白处理,获得一次预处理数据;对所述一次预处理数据进行最大文库标准化处理,获得二次预处理数据;对所述二次预处理数据进行表达量标准化处理,获得所述预处理样本数据。3.如权利要求1所述的单细胞rna测序数据处理方法,其特征在于,所述获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据,还包括:对所述预处理样本数据进行抽样处理,获得一次扩增数据;对所述预处理样本数据进行添加高斯噪声处理,获得二次扩增数据;根据所述一次扩增数据和所述二次扩增数据生成所述预处理样本扩增数据。4.如权利要求1所述的单细胞rna测序数据处理方法,其特征在于,用于训练所述待训练模型的损失函数包括:其中,min表示最小化;loss表示所述对抗自动编码器模型的损失函数;i表示第i个输出序列;n表示输出序列数量;l
i
表示第i个输出序列的损失函数;表示第i个输出序列的对抗损失函数;β表示对抗损失函数的权重;l
s
表示输出序列的结构相似损失函数;表示第i个输出序列的均方误差损失函数;α表示均方误差损失函数的权重;γ表示生成器损失函数的权重。5.如权利要求1所述的单细胞rna测序数据处理方法,其特征在于,所述预处理数据包括训练集数据和测试集数据;所述使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型,包括:将所述训练集数据输入所述待训练模型进行判别器训练,获得判别器参数;
将自动编码器模型作为生成器,将所述训练集数据输入所述待训练模型进行生成器训练,获得生成器参数;根据所述判别器参数和所述生成器参数确定所述对抗自动编码器模型。6.如权利要求5所述的单细胞rna测序数据处理方法,其特征在于,所述将所述训练集数据输入所述待训练模型进行生成器训练,获得生成器参数,包括:固定所述判别器参数,将所述训练集数据输入所述待训练模型进行前向传播训练并计算,获得对抗损失函数值;固定所述判别器参数,根据所述对抗损失函数值对所述待训练模型进行反向传播训练,获得生成器更新参数;当所述生成器更新参数满足预设训练要求时,将所述生成器更新参数确定为所述生成器参数。7.如权利要求6所述的单细胞rna测序数据处理方法,其特征在于,所述当所述生成器更新参数满足预设训练要求时,将所述生成器更新参数确定为所述生成器参数,包括:当所述对抗损失函数值符合预设收敛条件时,将所述测试集数据输入包含所述生成器更新参数的待训练模型,并计算所述测试集数据的测试损失值;当所述测试损失值处于预设损失值区间时,将所述生成器更新参数确定为所述生成器参数。8.一种单细胞rna测序数据处理装置,其特征在于,包括:数据预处理模块,用于获取样本测序数据,对所述样本测序数据进行预处理,获得预处理样本数据;模型训练模块,用于使用所述预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;所述待训练模型包括自动编码器模型和判别器;所述自动编码器模型包括编码器、中间隐藏层和解码器;所述判别器用于调节所述自动编码器模型的输出数据的分布;数据降维模块,用于将待降维测序数据输入所述对抗自动编码器模型进行降维,提取所述中间隐藏层的特征向量以获得低维测序数据。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述单细胞rna测序数据处理方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述单细胞rna测序数据处理方法。
技术总结
本发明涉及数字医疗领域,公开了一种单细胞RNA测序数据处理方法、装置、设备及存储介质,其方法通过获取样本测序数据,对样本测序数据进行预处理,获得预处理样本数据;使用预处理样本数据对待训练模型进行训练,获得对抗自动编码器模型;待训练模型包括自动编码器模型和判别器;自动编码器模型包括编码器、中间隐藏层和解码器;判别器用于调节自动编码器模型的输出数据的分布;将待降维测序数据输入对抗自动编码器模型进行降维,提取中间隐藏层的特征向量以获得低维测序数据。本发明无需对测序数据采取分布假定,保留数据的真实性和有效性,适用范围更广;同时引入对抗的机制,并基于多方位误差作为优化目标,提高了处理结果的准确性和可靠性。确性和可靠性。确性和可靠性。
技术研发人员:李泽远 王健宗
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
