m6ARNA甲基化位点预测方法、装置、设备及介质与流程
未命名
10-19
阅读:96
评论:0
m6a rna甲基化位点预测方法、装置、设备及介质
技术领域
1.本发明涉及人工智能和医疗健康技术领域,尤其涉及一种m6a rna甲基化位点预测方法、装置、设备及介质。
背景技术:
2.rna(核糖核酸)甲基化是一种常见的rna表观遗传修饰,可以调节rna的结构和功能,以及参与rna的各个生命阶段的代谢。其中,n6-甲基腺嘌呤(又称为m6a)是真核生物mrna(信使核糖核酸)中最普遍的修饰,与多种生物过程和疾病机制有关,因此,m6a rna甲基化位点的预测对医疗健康行业具有重大意义。现有的m6a rna甲基化位点预测方法,只考虑转录本的序列信息,忽略了转录本的不同区域,这些区域是对修饰的形成和发挥作用也具有重要的影响,从而导致m6a rna甲基化位点预测的准确度不高。
技术实现要素:
3.基于此,有必要针对现有技术的m6a rna甲基化位点预测的准确度不高的技术问题,提出了一种m6a rna甲基化位点预测方法、装置、设备及介质。
4.第一方面,提供了一种m6a rna甲基化位点预测方法方法,所述方法包括:
5.获取目标基因组;
6.对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;
7.将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;
8.将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;
9.根据所述预测向量,确定预测结果。
10.第二方面,提供了一种m6a rna甲基化位点预测装置,所述装置包括:
11.数据获取模块,用于获取目标基因组;
12.特征构建模块,用于对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;
13.信息提取模块,用于将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;
14.概率预测模块,用于将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;
15.预测结果确定模块,用于根据所述预测向量,确定预测结果。
16.第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述m6a rna甲基化位点预测方法的步骤。
17.第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述m6a rna甲基化位点预测方法的步骤。
18.本技术的m6a rna甲基化位点预测方法,通过对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.其中:
21.图1为一个实施例中m6a rna甲基化位点预测方法的应用环境图;
22.图2为一个实施例中m6a rna甲基化位点预测方法的流程图;
23.图3为一个实施例中m6a rna甲基化位点预测装置的结构框图;
24.图4为一个实施例中计算机设备的结构框图;
25.图5为一个实施例中计算机设备的另一种结构框图。
具体实施方式
26.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.本发明实施例提供的m6a rna甲基化位点预测方法,可应用在如图1的应用环境中,其中,客户端110通过网络与服务端120进行通信。服务端120可以通过客户端110获取目标基因组。服务端120,对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码,将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取,将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量,根据所述预测向量,确定预测结果。服务端120将预测结果发送给客户端110。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
28.在另一实施例中,客户端110,获取目标基因组,对所述目标基因组进行特征构建,
得到保守性特征、独热编码序列、位置编码和距离编码,将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取,将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量,根据所述预测向量,确定预测结果。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6arna甲基化位点预测的准确度。
29.其中,客户端110可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
30.请参阅图2所示,图2为本发明实施例提供的m6a rna甲基化位点预测方法的一个流程示意图,包括如下步骤:
31.s1:获取目标基因组;
32.目标基因组,是想要预测m6a rna甲基化位点的目标对象的基因组。目标对象是活体,比如,人、动物。
33.具体而言,可以获取用户输入的目标基因组,也可以从存储空间获取目标基因组,还可以从第三方应用获取目标基因组,还可以从客户端获取目标基因组。
34.s2:对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;
35.保守性特征是一个向量,该向量的每个向量元素对应一个保守性评估工具,该向量的向量元素的值是保守性得分。
36.独热编码序列包含多个独热编码向量,每个独热编码向量对应转录本中每个核苷酸。独热编码序列中的第i个独热编码向量是转录本中的第i个核苷酸的独热编码的集合,i为大于0的整数。
37.位置编码包含多个位置数据,每个位置数据对应转录本中每个核苷酸。位置编码中的第i个位置数据中的第i个核苷酸的位置的集合。
38.距离编码包含多个距离数据,每个距离数据对应转录本中每个核苷酸。距离编码中的第i个距离数据中的第i个核苷酸的距离的集合。
39.转录本,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mrna。
40.在本技术中,每个位点对应一个转录本。位点,又称为基因位点,是基因在染色体上占有的特定位置。
41.可选的,取每个位点周围的101个核苷酸的向量信息(上下游各50个)作为一个转录本。
42.核苷酸,核苷酸是一类由嘌呤碱或嘧啶碱、核糖或脱氧核糖以及磷酸三种物质组成的化合物,又称核甙酸。戊糖与有机碱合成核苷,核苷与磷酸合成核苷酸,8种核苷酸组成核酸。核苷酸主要参与构成核酸,许多单核苷酸也具有多种重要的生物学功能,如与能量代谢有关的三磷酸腺苷(atp)、脱氢辅酶等。
43.具体而言,对所述目标基因组进行转录本的特征构建,以得到针对不同物种的保
守性特征,针对核苷酸的信息的独热编码序列,针对核苷酸所属区域的位置编码,针对核苷酸的距离信息的距离编码。
44.s3:将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;
45.具体而言,将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型,信息提取模型用于对所述独热编码序列、所述位置编码和所述距离编码进行信息转换,以提取到更重要的信息,将提取的信息作为隐藏状态序列信息。为基于隐藏状态序列信息进行每个核苷酸为m6a rna甲基化位点的概率预测提供了基础,充分考虑了转录本的序列信息。
46.s4:将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;
47.具体而言,将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型,分类模型将对转录本中的每个核苷酸进行作为m6a rna甲基化位点的概率预测,将预测得到的数据作为预测向量。
48.预测向量中的每个向量元素对应转录本中的一个核苷酸,预测向量中的向量元素的值作为该向量元素对应的核苷酸作为m6a rna甲基化位点的概率。
49.s5:根据所述预测向量,确定预测结果。
50.具体而言,从所述预测向量中挑选值k个值为最大的向量元素,将挑选出的所有向量元素对应的所有核苷酸作为所述目标基因组对应的预测结果,k为大于0的整数。
51.可选的,从所述预测向量中挑选值k个值为最大的向量元素,将挑选出的每个向量元素对应的核苷酸及该所述核苷酸在转录本中的位置数据进行关联,得到关联数据;将各个关联数据作为所述目标基因组对应的预测结果。
52.本实施例通过对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
53.在一个实施例中,所述对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码的步骤,包括:
54.s21:对所述目标基因组进行转录本的所述保守性特征的计算;
55.具体而言,对所述目标基因组进行转录本(也就是位点对应的转录本)在不同物种的保守性特征计算。
56.s22:对所述目标基因组分别进行转录本中的每个所述核苷酸进行独热编码,得到所述独热编码序列;
57.具体而言,对所述目标基因组分别进行转录本中的每个所述核苷酸进行独热编码,将每个所述核苷酸对应的各个独热编码作为独热编码向量;根据转录本中的各个所述
核苷酸的排序,对各个独热编码向量进行序列生成,得到所述独热编码序列。
58.对每个核苷酸采用一个四维的向量来标识,该四维向量就是独热编码向量,其中,只有一个元素为1,其余为0。比如,四维向量包括:a=[1,0,0,0]、c=[0,1,0,0]、g=[0,0,1,0]、u=[0,0,0,1],其中,腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)和尿嘧啶(u)。
[0059]
s23:对所述目标基因组分别进行转录本中的每个所述核苷酸所属区域的编码,得到所述位置编码;
[0060]
具体而言,对所述目标基因组分别进行转录本中的每个所述核苷酸所属区域的编码,将每个所述核苷酸所属区域的所有编码作为位置数据;根据转录本中的各个所述核苷酸的排序,对各个所述位置数据进行序列生成,得到所述位置编码。
[0061]
比如,所述核苷酸所属区域包括:5'utr、cds、3'utr、内含子、外显子。如核苷酸在cds,那么对应的cds的值就用1表示,其他特征用0表示。cds,就是与蛋白序列一一对应的dna(脱氧核糖核酸)序列,并且序列中间不存在其他与蛋白无关的序列,和真实情况最接近。5'utr,中文名称为5'非翻译区,是指成熟mrna位于编码区(cds)上游、5
′
端帽下游不被翻译为蛋白质的区域。3'utr,中文名称为3'非翻译区,是mrna的3'末端非翻译区。
[0062]
s24:对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,得到所述距离编码。
[0063]
具体而言,对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,将针对每个所述核苷酸计算的所有距离作为距离数据;根据转录本中的各个所述核苷酸的排序,对各个所述距离数据进行序列生成,得到所述距离编码。
[0064]
本实施例对所述目标基因组进行转录本保守性特征、独热编码序列、位置编码和距离编码,为基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测提供了基础。
[0065]
在一个实施例中,所述对所述目标基因组进行转录本的所述保守性特征的计算的步骤,包括:
[0066]
s211:采用每种预设的保守性评估工具,对所述目标基因组进行转录本在不同物种中的保守性得分计算;
[0067]
保守性评估工具的选择范围包括但不限于:phastcons(根据phylo-hmm模型对序列的保守性进行计算)和phylop。
[0068]
phastcons,是一种基于隐马尔可夫模型的方法,基于多重比对来估计每个核苷酸属于保守元素的概率。
[0069]
phylop可以测量加速度(在中性漂移下比预期更快的进化)以及守恒(比预期更慢的进化)。在phylop图中,预测为保守的位点被赋予正分数(以蓝色显示),而预测为快速进化的位点被给予负分数(以红色显示)。分数的绝对值表示中性进化的零假设下的对数p值。相比之下,phastcons分数表示负选择的概率,范围在0和1之间。
[0070]
具体而言,基于多序列对比方法,采用每种预设的保守性评估工具,对所述目标基因组进行转录本在不同物种中的保守性得分计算。
[0071]
保守性得分,又称为保守性分值,保守性分值越大,位点越保守。
[0072]
s212:将各个所述保守性得分进行向量拼接,得到所述转录本的所述保守性特征。
[0073]
具体而言,将各个所述保守性得分,按预设的第一拼接顺序进行向量拼接,将拼接
得到的向量作为所述转录本的所述保守性特征。
[0074]
其他物种的甲基化信息对于人的甲基化位点的预测同样具有一定的参考信息,当其他物种中相应的位点也发生了甲基化,说明该位点也发生甲基化的概率会更高。因此,本实施例将采用不同工具对所述目标基因组进行转录本在不同物种中的保守性得分进行向量拼接作为所述转录本的所述保守性特征,从而实现将不同物种的甲基化信息用于参考,进一步提高了m6a rna甲基化位点预测的准确度。
[0075]
在一个实施例中,所述对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,得到所述距离编码的步骤,包括:
[0076]
s241:对所述目标基因组进行转录本中的每个所述核苷酸与5'端的外显子之间的距离计算,得到第一距离;
[0077]
5'端,是生物化学与分子生物学名词,用于定义dna或rna单链带有游离5
′‑
羟基或其磷酸酯的一个末端。一条核酸链通常从5
′
端到3
′
端书写。
[0078]
外显子,英文全称为expressed region,是断裂基因中的编码序列,是真核生物基因的一部分。外显子在剪接(splicing)后会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟rna中的基因序列,又称表达序列。
[0079]
具体而言,对所述目标基因组进行转录本中的每个所述核苷酸与5'端的外显子之间的距离计算,将针对每个所述核苷酸计算的距离作为第一距离。
[0080]
s242:对所述目标基因组进行转录本中的每个所述核苷酸与3’端的外显子之间的距离计算,得到第二距离;
[0081]3’
端,是生物化学与分子生物学名词,用于定义dna或rna单链带有游离3
′‑
羟基或其磷酸酯的一个末端。
[0082]
具体而言,对所述目标基因组进行转录本中的每个所述核苷酸与3’端的外显子之间的距离计算,将针对每个所述核苷酸计算的距离作为第二距离。
[0083]
s243:对所述目标基因组进行转录本中的每个所述核苷酸与cds之间的距离计算,得到第三距离;
[0084]
cds,就是与蛋白序列一一对应的dna(脱氧核糖核酸)序列,并且序列中间不存在其他与蛋白无关的序列,和真实情况最接近。
[0085]
具体而言,对所述目标基因组进行转录本中的每个所述核苷酸与cds之间的距离计算,将针对每个所述核苷酸计算的距离作为第三距离。
[0086]
s244:对所述目标基因组进行转录本中的每个所述核苷酸与转录本的起始位置之间的距离计算,得到第四距离;
[0087]
具体而言,对所述目标基因组进行转录本中的每个所述核苷酸与转录本的起始位置之间的距离计算,将针对每个所述核苷酸计算的距离作为第四距离。
[0088]
s245:对所述目标基因组进行转录本中的每个所述核苷酸与转录本的终止位置之间的距离计算,得到第五距离;
[0089]
具体而言,对所述目标基因组进行转录本中的每个所述核苷酸与转录本的终止位置之间的距离计算,将针对每个所述核苷酸计算的距离作为第五距离。
[0090]
s246:将同一个所述核苷酸对应的所述第一距离、所述第二距离、所述第三距离、所述第四距离和所述第五距离组合成向量,得到单核苷酸向量;
[0091]
具体而言,将同一个所述核苷酸对应的所述第一距离、所述第二距离、所述第三距离、所述第四距离和所述第五距离,按预设的第二拼接顺序组合成向量,将该向量作为单核苷酸向量。
[0092]
s247:对各个所述单核苷酸向量进行序列拼接,得到所述距离编码。
[0093]
具体而言,根据转录本中的所述核苷酸的排列顺序,将各个所述单核苷酸向量进行序列拼接,将拼接得到的序列作为所述距离编码。
[0094]
本实施例计算了转录本的不同区域的距离特征,为基于转录本的不同区域的特征进行m6a rna甲基化位点预测提供了基础。
[0095]
在一个实施例中,所述将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取的步骤,包括:
[0096]
s31:对所述独热编码序列、所述位置编码和所述距离编码进行拼接,得到第一拼接数据;
[0097]
具体而言,对所述独热编码序列、所述位置编码和所述距离编码,按预设的第三拼接顺序进行拼接,将拼接得到的数据作为第一拼接数据。
[0098]
s32:将所述第一拼接数据输入所述信息提取模型进行所述隐藏状态序列信息提取;
[0099]
其中,所述信息提取模型是基于lstm(长短期记忆人工神经网络)模型训练得到的模型。
[0100]
具体而言,将所述第一拼接数据输入所述信息提取模型进行所述隐藏状态序列信息提取,信息提取模型用于对所述第一拼接数据进行信息转换,以提取到更重要的信息,将提取的信息作为隐藏状态序列信息。为基于隐藏状态序列信息进行每个核苷酸为m6a rna甲基化位点的概率预测提供了基础,充分考虑了转录本的序列信息。
[0101]
lstm模型由由多个记忆单元组成,每个记忆单元有三个门结构,分别是遗忘门,输入门和输出门。遗忘门用来决定是否保留上一个记忆单元的信息,输入门用来决定是否接受当前输入的信息,输出门用来决定是否输出当前记忆单元的信息。
[0102]
本实施例通过信息提取模型进行隐藏状态序列信息提取,实现了基于人工智能提取序列信息,提高了提取的序列信息的准确性。
[0103]
在一个实施例中,所述将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量的步骤,包括:
[0104]
s41:对所述隐藏状态序列信息和所述保守性特征进行拼接,得到第二拼接数据;
[0105]
具体而言,对所述隐藏状态序列信息和所述保守性特征,按预设的第四拼接顺序进行拼接,得到第二拼接数据。
[0106]
s42:将所述第二拼接数据输入所述分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到所述预测向量;
[0107]
其中,所述分类模型包括:多个全连接层和激活层,多个所述全连接层串联,最后一个所述全连接层输出的数据作为所述激活层的输入,所述激活层是采用softmax激活函数的网络层。
[0108]
具体而言,将所述第二拼接数据输入所述分类模型,分类模型将对所述第二拼接数进行转录本中的每个核苷酸作为m6a rna甲基化位点的概率预测,将预测得到的数据作
为预测向量。
[0109]
softmax激活函数,是归一化函数。
[0110]
所述分类模型的全连接层用来整合输入特征向量中的信息,激活层用来输出每个核苷酸是否为m6a rna甲基化位点的概率。全连接层由多个神经元组成,每个神经元有一个权重向量和一个偏置值。全连接层的输出是输入特征向量与权重向量的点积加上偏置值,然后通过一个激活函数进行非线性变换。在分类模型训练时,全连接层可以通过反向传播算法进行训练,更新权重向量和偏置值。
[0111]
本实施例实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
[0112]
在一个实施例中,所述根据所述预测向量,确定预测结果的步骤,包括:
[0113]
s51:从所述预测向量中筛选出概率大于预设数值的向量元素,作为命中向量元素集;
[0114]
具体而言,概率大于预设数值的向量元素,意味着该向量元素作为m6a rna甲基化位点的可能性满足要求,因此,从所述预测向量中筛选出概率大于预设数值的向量元素,将筛选出的所有向量元素作为命中向量元素集。
[0115]
s52:分别将所述命中向量元素集中的每个所述向量元素对应的核苷酸确定为m6a rna甲基化位点,得到所述预测结果。
[0116]
具体而言,分别将所述命中向量元素集中的每个所述向量元素对应的核苷酸确定为m6a rna甲基化位点,将所有m6a rna甲基化位点作为所述预测结果。
[0117]
本实施例实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
[0118]
请参阅图3所示,在一实施例中,提供一种m6a rna甲基化位点预测装置,所述装置包括:
[0119]
数据获取模块801,用于获取目标基因组;
[0120]
特征构建模块802,用于对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;
[0121]
信息提取模块803,用于将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;
[0122]
概率预测模块804,用于将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;
[0123]
预测结果确定模块805,用于根据所述预测向量,确定预测结果。
[0124]
本实施例通过对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转
录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
[0125]
在一个实施例中,所述特征构建模块802的所述对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码的步骤,包括:
[0126]
对所述目标基因组进行转录本的所述保守性特征的计算;
[0127]
对所述目标基因组分别进行转录本中的每个所述核苷酸进行独热编码,得到所述独热编码序列;
[0128]
对所述目标基因组分别进行转录本中的每个所述核苷酸所属区域的编码,得到所述位置编码;
[0129]
对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,得到所述距离编码。
[0130]
在一个实施例中,所述特征构建模块802的所述对所述目标基因组进行转录本的所述保守性特征的计算的步骤,包括:
[0131]
采用每种预设的保守性评估工具,对所述目标基因组进行转录本在不同物种中的保守性得分计算;
[0132]
将各个所述保守性得分进行向量拼接,得到所述转录本的所述保守性特征。
[0133]
在一个实施例中,所述特征构建模块802的所述对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,得到所述距离编码的步骤,包括:
[0134]
对所述目标基因组进行转录本中的每个所述核苷酸与5'端的外显子之间的距离计算,得到第一距离;
[0135]
对所述目标基因组进行转录本中的每个所述核苷酸与3’端的外显子之间的距离计算,得到第二距离;
[0136]
对所述目标基因组进行转录本中的每个所述核苷酸与cds之间的距离计算,得到第三距离;
[0137]
对所述目标基因组进行转录本中的每个所述核苷酸与转录本的起始位置之间的距离计算,得到第四距离;
[0138]
对所述目标基因组进行转录本中的每个所述核苷酸与转录本的终止位置之间的距离计算,得到第五距离;
[0139]
将同一个所述核苷酸对应的所述第一距离、所述第二距离、所述第三距离、所述第四距离和所述第五距离组合成向量,得到单核苷酸向量;
[0140]
对各个所述单核苷酸向量进行序列拼接,得到所述距离编码。
[0141]
在一个实施例中,所述信息提取模块803的所述将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取的步骤,包括:
[0142]
对所述独热编码序列、所述位置编码和所述距离编码进行拼接,得到第一拼接数据;
[0143]
将所述第一拼接数据输入所述信息提取模型进行所述隐藏状态序列信息提取;
[0144]
其中,所述信息提取模型是基于lstm模型训练得到的模型。
[0145]
在一个实施例中,所述概率预测模块804的所述将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得
到预测向量的步骤,包括:
[0146]
对所述隐藏状态序列信息和所述保守性特征进行拼接,得到第二拼接数据;
[0147]
将所述第二拼接数据输入所述分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到所述预测向量;
[0148]
其中,所述分类模型包括:多个全连接层和激活层,多个所述全连接层串联,最后一个所述全连接层输出的数据作为所述激活层的输入,所述激活层是采用softmax激活函数的网络层。
[0149]
在一个实施例中,所述预测结果确定模块805的所述根据所述预测向量,确定预测结果的步骤,包括:
[0150]
从所述预测向量中筛选出概率大于预设数值的向量元素,作为命中向量元素集;
[0151]
分别将所述命中向量元素集中的每个所述向量元素对应的核苷酸确定为m6arna甲基化位点,得到所述预测结果。
[0152]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种m6a rna甲基化位点预测方法服务端侧的功能或步骤。
[0153]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种m6a rna甲基化位点预测方法客户端侧的功能或步骤。
[0154]
在一个实施例中,提出了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0155]
获取目标基因组;
[0156]
对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;
[0157]
将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;
[0158]
将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;
[0159]
根据所述预测向量,确定预测结果。
[0160]
本实施例通过对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的
信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
[0161]
在一个实施例中,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0162]
获取目标基因组;
[0163]
对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;
[0164]
将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;
[0165]
将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;
[0166]
根据所述预测向量,确定预测结果。
[0167]
本实施例通过对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。从而实现基于所述目标基因组的保守性特征、独热编码序列、位置编码和距离编码进行每个核苷酸为m6a rna甲基化位点的概率预测,不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6a rna甲基化位点预测的准确度。
[0168]
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
[0169]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0170]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的
功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0171]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种m6a rna甲基化位点预测方法,所述方法包括:获取目标基因组;对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。2.根据权利要求1所述的m6a rna甲基化位点预测方法,其特征在于,所述对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码的步骤,包括:对所述目标基因组进行转录本的所述保守性特征的计算;对所述目标基因组分别进行转录本中的每个所述核苷酸进行独热编码,得到所述独热编码序列;对所述目标基因组分别进行转录本中的每个所述核苷酸所属区域的编码,得到所述位置编码;对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,得到所述距离编码。3.根据权利要求2所述的m6a rna甲基化位点预测方法,其特征在于,所述对所述目标基因组进行转录本的所述保守性特征的计算的步骤,包括:采用每种预设的保守性评估工具,对所述目标基因组进行转录本在不同物种中的保守性得分计算;将各个所述保守性得分进行向量拼接,得到所述转录本的所述保守性特征。4.根据权利要求2所述的m6a rna甲基化位点预测方法,其特征在于,所述对所述目标基因组分别进行转录本中的每个所述核苷酸的距离计算,得到所述距离编码的步骤,包括:对所述目标基因组进行转录本中的每个所述核苷酸与5'端的外显子之间的距离计算,得到第一距离;对所述目标基因组进行转录本中的每个所述核苷酸与3’端的外显子之间的距离计算,得到第二距离;对所述目标基因组进行转录本中的每个所述核苷酸与cds之间的距离计算,得到第三距离;对所述目标基因组进行转录本中的每个所述核苷酸与转录本的起始位置之间的距离计算,得到第四距离;对所述目标基因组进行转录本中的每个所述核苷酸与转录本的终止位置之间的距离计算,得到第五距离;将同一个所述核苷酸对应的所述第一距离、所述第二距离、所述第三距离、所述第四距离和所述第五距离组合成向量,得到单核苷酸向量;对各个所述单核苷酸向量进行序列拼接,得到所述距离编码。5.根据权利要求2所述的m6a rna甲基化位点预测方法,其特征在于,所述将所述独热
编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取的步骤,包括:对所述独热编码序列、所述位置编码和所述距离编码进行拼接,得到第一拼接数据;将所述第一拼接数据输入所述信息提取模型进行所述隐藏状态序列信息提取;其中,所述信息提取模型是基于lstm模型训练得到的模型。6.根据权利要求1所述的m6a rna甲基化位点预测方法,其特征在于,所述将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量的步骤,包括:对所述隐藏状态序列信息和所述保守性特征进行拼接,得到第二拼接数据;将所述第二拼接数据输入所述分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到所述预测向量;其中,所述分类模型包括:多个全连接层和激活层,多个所述全连接层串联,最后一个所述全连接层输出的数据作为所述激活层的输入,所述激活层是采用softmax激活函数的网络层。7.根据权利要求1所述的m6a rna甲基化位点预测方法,其特征在于,所述根据所述预测向量,确定预测结果的步骤,包括:从所述预测向量中筛选出概率大于预设数值的向量元素,作为命中向量元素集;分别将所述命中向量元素集中的每个所述向量元素对应的核苷酸确定为m6arna甲基化位点,得到所述预测结果。8.一种m6a rna甲基化位点预测装置,其特征在于,所述装置包括:数据获取模块,用于获取目标基因组;特征构建模块,用于对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;信息提取模块,用于将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;概率预测模块,用于将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6a rna甲基化位点的概率预测,得到预测向量;预测结果确定模块,用于根据所述预测向量,确定预测结果。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述m6a rna甲基化位点预测方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述m6a rna甲基化位点预测方法的步骤。
技术总结
本申请涉及人工智能和医疗健康技术领域,揭示了一种m6A RNA甲基化位点预测方法、装置、设备及介质,其中方法包括:对所述目标基因组进行特征构建,得到保守性特征、独热编码序列、位置编码和距离编码;将所述独热编码序列、所述位置编码和所述距离编码输入预训练的信息提取模型进行隐藏状态序列信息提取;将所述隐藏状态序列信息和所述保守性特征输入预训练的分类模型进行每个核苷酸为m6A RNA甲基化位点的概率预测,得到预测向量;根据所述预测向量,确定预测结果。从而不仅考虑了转录本的序列信息,也考虑了转录本的不同区域的特征,提高了m6A RNA甲基化位点预测的准确度。RNA甲基化位点预测的准确度。RNA甲基化位点预测的准确度。
技术研发人员:刘小双
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.26
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
