一种细胞状态特征分值的获取方法、装置和电子设备与流程
未命名
07-22
阅读:89
评论:0
1.本发明涉及生物信息技术领域,尤其涉及一种细胞状态特征分值的获取方法、装置和电子设备。
背景技术:
2.基于单细胞转录组测序数据,除了可以鉴定每个细胞的细胞类型以外,对于同种类型的细胞也可以鉴定其所处的不同状态,如效应性t细胞和耗竭性t细胞等。为了鉴定细胞状态,需要为每个细胞计算代表相应状态的特征分值,然后根据分值的高低来衡量某个细胞所处的状态。
3.目前,对于细胞状态特征分值的计算,主要包括两种技术路线,分别是平均值法和参照基因校正法。
4.平均值法分为三个步骤:第一步,确定与某个细胞状态相关的基因集合,作为细胞状态表征基因集合;第二步,对每个细胞的基因表达值进行归一化处理,使得每个细胞的总基因表达值相等,以此来保证相同基因的表达值在不同细胞中具有可比性;第三步,在每个细胞中,为细胞状态表征基因计算平均表达值,以该平均表达值作为细胞状态的特征分值。该方法原理比较简单,但是存在两个问题:其一,细胞状态表征基因集合一经确定就固定不变,而不同取样来源的细胞是具有基因表达偏好性的,因此该方法降低了细胞状态特征分值计算的可推广性,进而会影响细胞状态判断的准确性;其二,该方法没有对计算获得的细胞状态特征分值进行校正,该分值会受到每个细胞转录组测序数据系统性误差或随机性误差的影响,从而不能准确反映细胞的真实状态。
5.参照基因校正法分为六个步骤:第一步,确定与某个细胞状态相关的基因集合,作为细胞状态表征基因集合;第二步,对每个细胞的基因表达值进行归一化处理,使得每个细胞的总基因表达值相等,保证相同基因的表达值在不同细胞中具有可比性;第三步,按照表达值的高低,把每个细胞中表达的基因进行排序和分组,一般分为25组,认为每组中的基因表达值处于相似水平;第四步,将每一个细胞状态表征基因定位到特定的表达值分组中,然后在该表达值分组内随机选取多个非细胞状态表征基因作为参照基因,一般为100个;第五步,在每个细胞中,为细胞状态表征基因计算平均表达值作为校正前细胞状态特征分值,同时为所有参照基因计算平均表达值作为参照分值;第六步,用校正前细胞状态特征分值减去参照分值,获得校正后的细胞状态特征分值。该方法存在三个问题:其一,细胞状态表征基因集合一经确定就固定不变,而不同取样来源的细胞是具有基因表达偏好性的,因此该方法降低了细胞状态特征分值计算的可推广性;其二,该方法在每个细胞状态表征基因所处的表达值分组中选取参照基因,这种策略降低了参照基因选取的随机性,进而影响在细胞状态特征分值计算过程中对系统性误差或随机性误差的校正,可能同时引起假阳性或假阴性的错误;其三,在每次计算时,由于细胞状态表征基因都与一种细胞状态相关,这些基因的表达值应该处于相似水平,因此这些基因往往会处于相同的表达值分组,这就会导致可能重复选取相同的非细胞状态表征基因作为参照基因,进一步降低参照基因选取的随机
性,进而加剧上述的问题(见其二中的描述)。
技术实现要素:
6.为了解决现有技术中存在的问题,本发明提供了如下技术方案。
7.本发明第一方面提供了一种细胞状态特征分值的获取方法,包括:s101,确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;s102,基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;s103,基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;s104,将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。
8.优选地,所述方法还包括步骤s105,利用优化后细胞状态特征分值替代优化前细胞状态特征分值,重复步骤s102
‑ꢀ
s104,直至所述第二细胞状态表征基因稳定不变,得到的优化后细胞状态特征分值为最终的细胞状态特征分值。
9.优选地,所述根据所述第一细胞状态表征基因计算优化前细胞状态特征分值包括:采用重排算法构建参照数据;基于所述参照数据为所述第一细胞状态表征基因计算第一平均表达值;基于实际检测的单细胞转录组数据为所述第一细胞状态表征基因计算第二平均表达值;利用所述第二平均表达值减去所述第一平均表达值得到优化前细胞状态特征分值。
10.优选地,所述采用重排算法构建参照数据包括:对基因和表达值之间的对应关系进行重排处理得到重排数据,多个重排数据构成参照数据。
11.优选地,所述表达值为进行归一化处理后得到的,所述归一化处理包括:为每个细胞计算总基因表达值;利用该细胞每个基因表达值除以总基因表达值,并乘以一个常数,该常数为虚拟设定的细胞基因表达总量。
12.优选地,所述根据所述第二细胞状态表征基因计算优化后细胞状态特征分值包括:基于实际检测的单细胞转录组数据,为所述第二细胞状态表征基因计算第三平均表达值,利用所述第三平均表达值减去所述第一平均表达值,得到优化后细胞状态特征分值。
13.优选地,所述基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群包括:计算所述优化前细胞状态特征分值的中位数;若所述优化前细胞状态特征分值大于或等于中位数,则将细胞划分为正向细胞状
态类群;若所述优化前细胞状态特征分值小于中位数,则细胞划分为负向细胞状态类群。
14.优选地,所述基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因包括:在正向细胞状态类群和负向细胞状态类群之间,采用wilcoxon秩和检验进行差异表达基因的鉴定;根据鉴定结果,选取log2foldchange(foldchange,差异倍数)》1和fdr《0.05,或log2foldchange》2和fdr(false discovery rate,伪发现率)《0.01,且按照log2foldchange从高到低排序前5%或前10%的基因作为正向细胞状态特征基因。
15.本发明第二方面提供了一种细胞状态特征分值的获取装置,包括:优化前细胞状态特征分值计算模块,用于确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;细胞类群划分模块,用于基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;细胞状态特征基因的方向筛选模块,用于基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;优化后细胞状态特征分值计算模块,用于将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。
16.本发明第三方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的细胞状态特征分值的获取方法。
17.本发明的有益效果是:本发明提供的一种细胞状态特征分值的获取方法、装置和电子设备,首先计算优化前细胞状态特征分值,并利用优化前细胞状态特征分值划分细胞类群,然后利用细胞类群间的差异表达基因来优化细胞状态表征基因,最后根据优化后的细胞状态表征基因计算优化后细胞状态特征分值。采用本发明提供的方法得到的优化后的细胞状态表征基因能够适应于不同取样来源细胞的基因表达偏好,从而提高了细胞状态特征分值的可推广性,而且基于通过重排算法构建的参照数据为细胞状态特征分值进行校正,提高了细胞状态特征分值计算的准确性。
附图说明
18.图1为本发明中细胞状态特征分值的获取方法流程示意图;图2为本发明中细胞状态特征分值的获取装置功能结构示意图。
具体实施方式
19.为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
20.本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器
加载并执行以实现下述实施例所述的细胞状态特征分值的获取方法。
21.处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
22.存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。
23.显示屏用于显示各个应用程序的用户界面。
24.除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
25.本发明的目的是基于细胞类群间差异表达基因分析来动态确定细胞状态表征基因,使其更适应于不同取样来源细胞的基因表达偏好,提高细胞状态特征分值计算的可推广性。另外,采用重排算法(permutation)构建参照数据,基于参照数据对计算结果进行校正,提高细胞状态特征分值计算的准确性。
26.实施例一如图1所示,本发明实施例提供了一种细胞状态特征分值的获取方法,包括:s101,确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;s102,基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;s103,基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;s104,将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。
27.在本发明的一个优选实施例中,所述细胞状态特征分值的获取方法还包括步骤s105,利用优化后细胞状态特征分值替代优化前细胞状态特征分值,重复步骤s102
‑ꢀ
s104,直至所述第二细胞状态表征基因稳定不变,得到的优化后细胞状态特征分值为最终的细胞状态特征分值。
28.在步骤s101中,可以按照如下方法确定第一细胞状态表征基因:可以根据实际情况采用不同的策略,包括参考公共数据库中收录的细胞状态表征基因集合(如cancersea,http://biocc.hrbmu.edu.cn/cancersea/),根据先验知识进行人工确定或根据实际数据分析结果进行人工判断。
29.在本发明的一个优选实施例中,所述根据所述第一细胞状态表征基因计算优化前细胞状态特征分值包括:采用重排算法构建参照数据;基于所述参照数据为所述第一细胞状态表征基因计算第一平均表达值;基于实际检测的单细胞转录组数据为所述第一细胞状态表征基因计算第二平均表达值;利用所述第二平均表达值减去所述第一平均表达值得到优化前细胞状态特征分值。
30.其中,可以通过计算的手段随机更改基因和表达值之间的对应关系,即对基因和表达值之间的对应关系进行重排处理,得到重排数据。该重排处理过程是指对不同的比如1000个基因和表达值间的对应关系进行重排处理,而且对同一组基因和表达值间的对应关系可以进行多次重排处理,比如1000次。每一次重排处理产生的数据称为重排数据,多个重
排数据(比如1000*1000个)构成参照数据。
31.在本发明的另一个优选实施例中,可以对基因表达值进行归一化处理。具体可以包括:首先,为每个细胞计算总基因表达值,即该细胞所有基因表达值的总和;然后,用该细胞每个基因表达值除以总基因表达值,并乘以一个常数,该常数为虚拟设定的细胞基因表达总量,一般为一百万。通过对基因表达值进行归一化处理,可以使每个细胞的虚拟设定的基因表达总量相等(即一百万),消除由于每个细胞的转录组测序数据量不同而引起的基因定量偏性,保证相同基因的表达值在不同细胞中具有可比性。
32.执行步骤s102,基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群包括:计算所述优化前细胞状态特征分值的中位数;若所述优化前细胞状态特征分值大于或等于中位数,则将细胞划分为正向细胞状态类群;若所述优化前细胞状态特征分值小于中位数,则细胞划分为负向细胞状态类群。
33.执行步骤s103,基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因包括:在正向细胞状态类群和负向细胞状态类群之间,采用wilcoxon秩和检验(wilcoxon rank-sum test,威尔科克森秩和检验)进行差异表达基因的鉴定;根据鉴定结果,选取log2foldchange》1和fdr《0.05,或log2foldchange》2和fdr《0.01,且按照log2foldchange从高到低的顺序排名前预设位次(比如排名前5%或前10%)的基因作为正向细胞状态特征基因。其中,log2 foldchange是指对样本质检表达量的差异倍数取log2,fdr是对通过wilcoxon秩和检验获取的p-value进行多重检验校正后的结果。
34.在步骤s104中,所述根据所述第二细胞状态表征基因计算优化后细胞状态特征分值包括:基于实际检测的单细胞转录组数据,为所述第二细胞状态表征基因计算第三平均表达值;利用所述第三平均表达值减去所述第一平均表达值,得到优化后细胞状态特征分值。其中,所述第一平均表达值为基于所述参照数据为所述第一细胞状态表征基因计算的平均表达值。
35.可见,本发明提供的方法,通过细胞类群间的差异表达基因分析来优化细胞状态表征基因,提高了细胞状态特征分值计算的可推广性,而且基于通过重排算法构建的参照数据为细胞状态特征分值进行校正,提高了细胞状态特征分值计算的准确性,较好地解决了现有技术中存在的问题。
36.实施例二如图2所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种细胞状态特征分值的获取装置,包括:优化前细胞状态特征分值计算模块201,用于确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;细胞类群划分模块202,用于基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;细胞状态特征基因的方向筛选模块203,用于基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;优化后细胞状态特征分值计算模块204,用于将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。
37.进一步地,所述细胞状态特征分值的获取装置还包括循环模块,用于利用优化后细胞状态特征分值替代优化前细胞状态特征分值,重复启动细胞类群划分模块、细胞状态
特征基因的方向筛选模块和优化后细胞状态特征分值计算模块,直至所述第二细胞状态表征基因稳定不变,得到的优化后细胞状态特征分值为最终的细胞状态特征分值。
38.进一步地,在所述优化前细胞状态特征分值计算模块中,所述根据所述第一细胞状态表征基因计算优化前细胞状态特征分值包括:采用重排算法构建参照数据;基于所述参照数据为所述第一细胞状态表征基因计算第一平均表达值;基于实际检测的单细胞转录组数据为所述第一细胞状态表征基因计算第二平均表达值;利用所述第二平均表达值减去所述第一平均表达值得到优化前细胞状态特征分值。
39.进一步地,所述采用重排算法构建参照数据包括:对基因和表达值之间的对应关系进行重排处理得到重排数据,多个重排数据构成参照数据。
40.更进一步地,所述表达值为进行归一化处理后得到的,所述归一化处理包括:为每个细胞计算总基因表达值;利用该细胞每个基因表达值除以总基因表达值,并乘以一个常数,该常数为虚拟设定的细胞基因表达总量。
41.进一步地,在所述优化后细胞状态特征分值计算模块中,所述根据所述第二细胞状态表征基因计算优化后细胞状态特征分值包括:基于实际检测的单细胞转录组数据,为所述第二细胞状态表征基因计算第三平均表达值;利用所述第三平均表达值减去所述第一平均表达值,得到优化后细胞状态特征分值。
42.所述细胞类群划分模块具体用于:计算所述优化前细胞状态特征分值的中位数;若所述优化前细胞状态特征分值大于或等于中位数,则将细胞划分为正向细胞状态类群;若所述优化前细胞状态特征分值小于中位数,则细胞划分为负向细胞状态类群。
43.进一步地,所述细胞状态特征基因的方向筛选模块具体用于:在正向细胞状态类群和负向细胞状态类群之间,采用wilcoxon秩和检验进行差异表达基因的鉴定;根据鉴定结果,选取log2foldchange》1和fdr《0.05,或log2foldchange》2和fdr《0.01,且按照log2foldchange从高到低的顺序排名前预设位次(比如排名前5%或前10%)的差异表达基因作为正向细胞状态特征基因。
44.该装置可通过上述实施例一提供的细胞状态特征分值的获取方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
45.本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的细胞状态特征分值的获取方法。
46.本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的细胞状态特征分值的获取方法。
47.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
技术特征:
1.一种细胞状态特征分值的获取方法,其特征在于,包括:s101,确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;s102,基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;s103,基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;s104,将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。2.如权利要求1所述的细胞状态特征分值的获取方法,其特征在于,所述方法还包括步骤s105,利用优化后细胞状态特征分值替代优化前细胞状态特征分值,重复步骤s102
‑ꢀ
s104,直至所述第二细胞状态表征基因稳定不变,得到的优化后细胞状态特征分值为最终的细胞状态特征分值。3.如权利要求1所述的细胞状态特征分值的获取方法,其特征在于,所述根据所述第一细胞状态表征基因计算优化前细胞状态特征分值包括:采用重排算法构建参照数据;基于所述参照数据为所述第一细胞状态表征基因计算第一平均表达值;基于实际检测的单细胞转录组数据为所述第一细胞状态表征基因计算第二平均表达值;利用所述第二平均表达值减去所述第一平均表达值得到优化前细胞状态特征分值。4.如权利要求3所述的细胞状态特征分值的获取方法,其特征在于,所述采用重排算法构建参照数据包括:对基因和表达值之间的对应关系进行重排处理得到重排数据,多次重排处理得到的多个重排数据构成参照数据。5.如权利要求4所述的细胞状态特征分值的获取方法,其特征在于,所述表达值为进行归一化处理后得到的,所述归一化处理包括:为每个细胞计算总基因表达值;利用该细胞每个基因表达值除以总基因表达值,并乘以一个常数,该常数为虚拟设定的细胞基因表达总量。6.如权利要求3所述的细胞状态特征分值的获取方法,其特征在于,所述根据所述第二细胞状态表征基因计算优化后细胞状态特征分值包括:基于实际检测的单细胞转录组数据,为所述第二细胞状态表征基因计算第三平均表达值;利用所述第三平均表达值减去所述第一平均表达值,得到优化后细胞状态特征分值。7.如权利要求1所述的细胞状态特征分值的获取方法,其特征在于,所述基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群包括:计算所述优化前细胞状态特征分值的中位数;若所述优化前细胞状态特征分值大于或等于中位数,则将细胞划分为正向细胞状态类群;若所述优化前细胞状态特征分值小于中位数,则将细胞划分为负向细胞状态类群。8.如权利要求1所述的细胞状态特征分值的获取方法,其特征在于,所述基于正向细胞
状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因包括:在正向细胞状态类群和负向细胞状态类群之间,采用wilcoxon秩和检验进行差异表达基因的鉴定;根据鉴定结果,选取log2foldchange>1和fdr<0.05,或log2foldchange>2和fdr<0.01,且按照log2foldchange从高到低的顺序排名前预设位次的差异表达基因作为正向细胞状态特征基因。9.一种细胞状态特征分值的获取装置,其特征在于,包括:优化前细胞状态特征分值计算模块,用于确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;细胞类群划分模块,用于基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;细胞状态特征基因的方向筛选模块,用于基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;优化后细胞状态特征分值计算模块,用于将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-8任一项所述的细胞状态特征分值的获取方法。
技术总结
本发明公开了一种细胞状态特征分值的获取方法、装置和电子设备,属于生物信息技术领域。获取方法包括:确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。本发明提高了细胞状态特征分值的可推广性,同时提高了细胞状态特征分值计算的准确性。特征分值计算的准确性。特征分值计算的准确性。
技术研发人员:季序我 赵义 彭鑫鑫 李哲
受保护的技术使用者:普瑞基准科技(北京)有限公司 北京普康瑞仁医学检验所有限公司
技术研发日:2023.06.12
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
