一种用于空间转录组数据的空间可变基因识别方法及系统
未命名
07-23
阅读:135
评论:0
1.本发明涉及生物信息技术领域,尤其是涉及一种用于空间转录组数据的空间可变基因识别方法及系统。
背景技术:
2.空间转录组学技术的快速发展推动了组织结构的重建、发育和疾病等方面的研究,大规模的空间转录组学研究也愈发流行。空间转录组学分析方法中一个十分重要且独有的问题是识别空间可变基因。空间可变基因的具体含义是指在组织的空间分布中基因表达具有一定的空间模式的基因。从数据上来看,空间可变基因的表达计数与空间位置存在特定关系。
3.传统的空间统计学模型面对数量大、结构复杂、维度高且稀疏的空间转录组学数据往往失效,因此需要开发适应空间转录组数据特点的空间可变基因识别方法。
技术实现要素:
4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种识别准确度高,计算速度快的用于空间转录组数据的空间可变基因识别方法及系统。
5.本发明的目的可以通过以下技术方案来实现:
6.根据本发明的第一方面,提供了一种用于空间转录组学数据的空间可变基因识别方法,该方法包括以下步骤:
7.步骤s1、对每个基因的原始基因表达数据进行半池化处理;
8.步骤s2、对半池化处理后的输出数据进行稳定性检验;
9.步骤s3、对于多个稳定性检验结果进行组合测试;
10.步骤s4、根据组合测试结果判断是否为空间可变基因。
11.优选地,所述步骤s1中的半池化处理,具体为:按照给定的k组半池化参数分别对空间转录组学数据进行平均值计算,将得到的输出数据按照空间位置重新排列为一维序列;其中,半池化参数包括方向参数和步长参数。
12.优选地,所述半池化处理包括四组不同的半池化参数,分别为:
13.1)方向:行方向,步长:n
row
;
14.2)方向:行方向,步长:
15.3)方向:列方向,步长:n
col
;
16.4)方向:列方向,步长:
17.其中,n
col
为空间转录组数据包含的列数,n
row
为空间转录组数据包含的行数,[
·
]表示取整数。
[0018]
优选地,所述步骤s2中的稳定性检验为box-pierce检验,用于对于不同半池化参数处理的输出数据分别进行稳定性检验。
[0019]
优选地,所述box-pierce检验中的参数设置包括:最大延迟阶参数m=[ln(t)],其中,t为半池化处理后的输出数据长度,[
·
]表示取整数。
[0020]
优选地,所述步骤s3中的组合测试采用stouffer组合方法,具体计算方式为:
[0021][0022]
其中,φ-1
(
·
)是标准正态分布的累积分布函数的反函数,k为半池化参数的组别数,n(0,1)为标准正态分布。
[0023]
优选地,所述步骤s4还包括对组合测试结果进行holm方法校正。
[0024]
根据本发明的第二方面,提供了一种基于空间转录组学数据的空间可变基因识别系统,该系统包括:
[0025]
半池化处理模块,用于对每个基因的原始基因表达数据进行半池化处理;
[0026]
稳定性检验模块,用于对半池化处理后的输出数据进行稳定性检验;
[0027]
组合测试模块,用于对于多个稳定性检验结果进行组合测试;
[0028]
空间可变基因判断模块,用于根据组合测试结果判断是否为空间可变基因。
[0029]
根据本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现任一项所述的方法。
[0030]
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的方法。
[0031]
与现有技术相比,本发明具有以下优点:
[0032]
1)本发明通过半池化方法对原始数据进行数据转换和特征提取,对半池化处理得到的输出数据进行稳定性检验,对稳定性检验结果进行组合测试,从而识别空间可变基因,具有识别准确度高,计算速度快的优点;
[0033]
2)本发明采用包含有方向参数和步长参数的半池化方法进行数据转换和特征提取,用于数量大、结构复杂、维度高且稀疏的大规模空间转录组数据;
[0034]
3)采用box-pierce检验对半池化处理后的输出数据进行稳定性检验,准确性高;
[0035]
4)采用stouffer组合方法对多个稳定性检验结果进行组合测试,提高了测试结果的准确性;
[0036]
5)对组合测试的p值使用holm方法进行校正,可有效控制假阳性率,提高了识别的准确性。
附图说明
[0037]
图1为本发明的空间可变基因识别方法流程图。
[0038]
图2为本发明的半池化处理步骤的具体实施示意图。
[0039]
图3为本发明实施例的部分结果示意图,图中展示的是在实施例中识别出排名前20的空间可变基因。
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0041]
实施例
[0042]
本发明涉及一种针对大规模空间转录组数据的空间可变基因识别方法,目的是在大规模空间转录组数据中识别出空间可变基因,该方法包括以下步骤:
[0043]
步骤s1、对每个基因的原始基因表达数据进行半池化处理;
[0044]
步骤s2、对半池化处理后的输出数据进行稳定性检验;
[0045]
步骤s3、对于多个稳定性检验结果进行组合测试;
[0046]
步骤s4、根据组合测试结果判断是否为空间可变基因。
[0047]
接下来,对本实施例方法的具体实现进行详细介绍。
[0048]
本实施例使用了一个结直肠癌组织的空间转录组数据,该数据集为可免费获得的公开数据集(http://www.cancerdiversity.asia/sccrlm/)。
[0049]
1、数据集预处理
[0050]
过滤原始数据集不表达或者低表达的基因,本实施例使用的过滤标准为:过滤掉在所有spot中表达比例低于1%的基因。过滤后的数据集包括15427基因和4124个spot,包括78行,128列。
[0051]
2、半池化处理
[0052]
对每个基因在空间上的表达数据都按照给定的方向参数和步长参数计算平均值,具体四组参数分别为:
[0053]
1)方向:行方向,步长:78;
[0054]
2)方向:行方向,步长:
[0055]
3)方向:列方向,步长:128;
[0056]
4)方向:列方向,步长:
[0057]
其中,[
·
]表示取整数,半池化处理示意图如附图2所示。
[0058]
3、稳定性检验
[0059]
按照上述给定的四组半池化参数,每个基因在半池化处理后,得到四个新的输出序列,四个输出序列的长度分别为128,584,78,390。对于每个半池化处理后的输出序列r=(r1,..,r
t
,
…
,r
t
)
t
分别进行稳定性检验,即box-pierce检验,box-pierce检验是一种用于检验序列数据的自相关性的检验方法,检验统计量qm服从自由度为m的χ2分布,box-pierce检验统计量的计算方式为:
[0060][0061]
[0062][0063]
其中,表示自相关系数,表示自协方差,r=(r1,..,r
t
,
…
,r
t
)
t
是半池化处理后输出的数据,是r的均值,m=[ln(t)],t为半池化处理后的输出序列的长度,[
·
]表示取整数。
[0064]
四个输出序列的box-pierce检验的自由度分别为:4,5,6,6。对于每个基因的四个半池化输出序列分别进行稳定性检验,得到对应的p值。
[0065]
4、组合测试
[0066]
对于每个基因的4个稳定性检验的p值使用stouffer组合方法进行组合测试,stouffer组合方法将多个独立假设检验的p值转换为一个p值,假设总共有h个p值,组合方式具体计算方式为:
[0067][0068]
其中,φ-1
(
·
)是标准正态分布的累积分布函数的反函数,具体形式为:其中erf-1
(x)是误差函数的反函数,其定义是找到一个数y,使得erf(y)=x,误差函数的反函数不存在简单的解析式,通常使用数值方法进行计算。
[0069]
组合测试的p值计算方式为:
[0070]
pc=1-φ(z
stouffer
)
[0071]
5、p值校正
[0072]
为了控制假阳性率,对于组合测试的p值使用holm方法进行校正。经过holm方法校正后p值小于0.05的基因认为是空间可变基因。holm一种常用的用于控制错误发生率的多重比较校正方法,具体地讲:首先将所有的p个p值从小到大排序为:p
(1)
,p
(2)
,
…
,p
(rank)
,
…
,p
p
,并计算排序后的每个p值对应的校正因子:correction factor
(rank)
=p-rank+1,校正后的p值为:
[0073]
本实例中,识别到了8020个空间可变基因,附图3给出了本实施例选出的排名前20的基因,可以直观地看出具有明显的空间表达模式,说明本实施例可以有效的识别具有空间表达模式的基因。
[0074]
具体计算以基因b2m为例,对实例中基因b2m的空间表达数据按照给定的四组参数进行半池化处理后,可以得到四条新的输出序列,对于每个输出序列分别进行稳定性检验,p值分别为:《2.2e-16,《2.2e-16,《2.2e-16,《2.2e-16。组合测试的p值为0,校正后p值为0,因此b2m是空间可变基因,附图3中也可以看出,b2m的基因表达具有明显的空间模式。
[0075]
本发明电子设备包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的计算机程序指令或者从存储单元加载到随机访问存储器(ram)中的计算机程序指令,来执行各种适当的动作和处理。在ram中,还可以存储设备操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0076]
设备中的多个部件连接至i/o接口,包括:输入单元,例如键盘、鼠标等;输出单元,
例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0077]
处理单元执行上文所描述的各个方法和处理,例如方法s1~s4。例如,在一些实施例中,方法s1~s4可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法s1~s4的一个或多个步骤。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法s1~s4。
[0078]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
[0079]
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0080]
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0081]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,该方法包括以下步骤:步骤s1、对每个基因的原始基因表达数据进行半池化处理;步骤s2、对半池化处理后的输出数据进行稳定性检验;步骤s3、对于多个稳定性检验结果进行组合测试;步骤s4、根据组合测试结果判断是否为空间可变基因。2.根据权利要求1所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s1中的半池化处理,具体为:按照给定的k组半池化参数分别对空间转录组学数据进行平均值计算,将得到的输出数据按照空间位置重新排列为一维序列;其中,半池化参数包括方向参数和步长参数。3.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述半池化处理包括四组不同的半池化参数,分别为:1)方向:行方向,步长:n
row
;2)方向:行方向,步长:3)方向:列方向,步长:n
col
;4)方向:列方向,步长:其中,n
col
为空间转录组数据包含的列数,n
roe
为空间转录组数据包含的行数,[
·
]表示取整数。4.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s2中的稳定性检验为box-pierce检验,用于对于不同半池化参数处理的输出数据分别进行稳定性检验。5.根据权利要求4所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述box-pierce检验中的参数设置包括:最大延迟阶参数m=[ln(t)],其中,t为半池化处理后的输出数据长度,[
·
]表示取整数。6.根据权利要求2所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s3中的组合测试采用stouffer组合方法,具体计算方式为:其中,φ-1
(
·
)是标准正态分布的累积分布函数的反函数,k为半池化参数的组别数,n(0,1为标准正态分布。7.根据权利要求1所述的一种用于空间转录组学数据的空间可变基因识别方法,其特征在于,所述步骤s4还包括对组合测试结果进行holm方法校正。8.一种用于空间转录组学数据的空间可变基因识别系统,其特征在于,采用权利要求1所述的方法,该系统包括:半池化处理模块,用于对每个基因的原始基因表达数据进行半池化处理;稳定性检验模块,用于对半池化处理后的输出数据进行稳定性检验;
组合测试模块,用于对于多个稳定性检验结果进行组合测试;空间可变基因判断模块,用于根据组合测试结果判断是否为空间可变基因。9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
技术总结
本发明涉及一种用于空间转录组学数据的空间可变基因识别方法,该方法包括:通过半池化方法对原始数据进行数据转换和特征提取;对半池化处理得到的输出数据进行稳定性检验;对稳定性检验结果进行组合测试,从而识别空间可变基因。与现有技术相比,本发明具有识别准确度高,计算速度快等优点。计算速度快等优点。计算速度快等优点。
技术研发人员:俞章盛 袁欣 马嫣然
受保护的技术使用者:上海交通大学
技术研发日:2023.04.07
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
