一种基于多层异构图的miRNA靶标预测方法及系统和应用

未命名 08-27 阅读:83 评论:0

一种基于多层异构图的mirna靶标预测方法及系统和应用
技术领域
1.本发明属于计算机应用技术,涉及一种利用计算机进行生物信息识别,具体涉及一种基于多层异构图的mirna靶标预测方法及系统和应用。


背景技术:

2.非编码rna(non-coding rna,ncrna)是指在细胞中没有翻译成蛋白质的rna分子,它们在细胞中扮演着多种生物学功能,例如基因表达调控、转录后修饰、组蛋白修饰、rna剪接、rna降解等等。ncrna的两大类包括小rna(sirna、mirna等)和非小rna(lncrna、circrna等),这两类rna的失调与包含癌症在内的疾病息息相关,在细胞的调控中扮演重要角色,具有很高的临床和科学相关性,将会对未来的医学和疾病治疗有重要的影响。
3.其中,mirna(microrna)是最为广泛研究的非编码rna之一。mirna是一种长度约为20~25个核苷酸的小分子rna,其广泛存在于真核生物的细胞中,主要通过与靶基因的互补结合,参与到转录后水平的基因表达调控中。mirna是由细胞内的一系列酶以及蛋白质复合物协同作用合成的,其生物合成过程包括mirna基因转录、pri-mirna的剪切、pre-mirna的释放和成熟的mirna的结合等步骤。mirna在细胞中的作用机制十分复杂,它们可以通过两种方式来调控靶基因的表达:一种是通过与mrna的3'非翻译区(3'untranslated region,utr)结合并抑制靶基因mrna的翻译过程,另一种则是通过与mrna的编码区域(coding region,cds)结合并诱导靶基因mrna的降解。mirna对于生物体内多种生物学过程的调控具有十分重要的作用,包括细胞增殖、分化、凋亡、细胞周期等等。因此,mirna已经成为细胞分子生物学、疾病发病机制以及新型药物研发等方面的热门研究领域之一。
4.ncrna和mrna都可作为mirna靶标。首先,它们通常位于细胞中,并参与信号传导、细胞活性和调节细胞状态等重要生物过程。此外,它们具有高度保守的结构特征,这使得mirna更容易识别结合这些ncrna和mrna作为它们的靶标。最后,这些ncrna和mrna的表达水平会受到mirna的调节,这种因果关系可以用来提供进一步的信息。这种调控关系共同打造了围绕mirna的辅助调控网络。
5.mirna调控网络是一种复杂的、自我调节的生物信号传导系统,可以用于调节和协调细胞的基因表达。它通过发出一系列消息来调节蛋白的合成和细胞的活动。mirna调控网络包括各种mirna与靶标间的复杂相互作用,可以控制基因表达水平、促进转录水平变化、导致细胞表型调控以及信号传导途径的异常。在这种复杂的调控体系中,mirna可以影响宿主基因的合成或抑制,也可以影响其他mirna以及mrna的表达。
6.mirna靶标预测方法目前主要是基于机器学习或者统计以及生物信息技术的一种基于数据挖掘的方法,用于分析mirna与mrna,以及其他非编码rna之间的相互作用。这种方法使用机器学习技术,基于对mirna和靶标序列及表达水平的多种信息,提取出特征特性,如深度学习、聚类分析、支持向量机等,来识别特征,并通过多元统计分析预测mirna的靶标。在此基础上,可以使用不同的ai模型和数据挖掘技术来开发更强大的mirna靶标预测模型,以预测mirna-mrna相互作用的复杂结构。这样的模型可以帮助生物学家更好地理解
mirna-mrna相互作用,并有助于研究mirna对细胞信号传导和表观遗传学调节的作用。
7.按照数据类型,可以将mirna-lncrna靶标识别算法划分为三类,分别是基于序列的,基于表达数据的,以及基于图的。2018年,zhang等人主要基于序列特征提出了一种序列推导的线性域传播方法(slnpm),利用线性域相似度方法计算lncrna、mirna相似度,并分别构建了lncrna相似网络、mirna相似网络。在网络上实现标签传播过程,对lncrna-mirna对进行评分。2018年huang基于现有许多证据表明,lncrna-mirna的相互作用与它们的相对表达水平密切相关。除了表达谱,他们进一步利用lncrna-function以及mirna-mrna以及mirna、lncrna的序列数据,采用pcc和needleman-wunsch pairwise sequence alignment分别计算出mirna、lncrna的相似矩阵,提出了基于二部图的简单模型eplmi。同年,huang还基于同样假设与数据,融合贝叶斯协同过滤算法提出了gbcf模型。zhang主要基于序列数据提出了线性邻域传播算法slnpm。但这些算法实际上都没有使用图神经网络,huang在2019年提出了基于图卷积和自编码器的端到端的预测模型gclmi。不需要再进行数据预处理,并且进行了负采样的影响实验。zhang在同年实验了基于五种图表示学习算法的集成模型,也取得了不错的效果。2019年you整合了多种与rna相关的信息源来构建一个异构网络模型lmnlmi。首先针对lncrna、mirna分别做了异构网络融合,得到一个新的相似网络。然后,lmnlmi从lncrna特征空间中找到最佳的投影到mirna空间上,使得lncrna的投影特征向量与已知相互作用mirna的特征向量距离相近。在那之后,lmnlmi会根据该lncrna在投影空间中与投影特征向量的几何接近度推断出新的交互作用,对其候选目标进行排序。最后,lmnlmi还与常用在推荐系统中的协同过滤算法进行了比较。2020年fan基于序列和链接数据构建了异构图模型snfhgilmi,假定mirna、lncrna符合高斯分布,运用kl散度计算出高阶特征,再与通过序列计算得出的相似网络进行非线形融合,最后采用异构图推理算法进行预测。h.liu基于逻辑矩阵分解算法提出模型lmfnrlmi,采用了邻域正则化来优化矩阵分解算法。
8.而mirna-mrna也可按照类似准则进行划分。2020年jiang基于矩阵补全算法提出了基于异构网络的预测算法mirtmc。通过needleman-wunsh global alignment algorithm计算mirna基于种子区域的相似矩阵,同时通过smith-waterman local alignment algorithm计算基于与3
‘‑
utr互补的mrna的相似矩阵,利用经过生物实验验证的链接数据来融合两个矩阵,将mirna-target预测问题转化成低维矩阵补全的问题。wang基于样本中不同类型的rna是以不同的效率随机接触和结合的自由运动粒子的假设,提出模型miracle。wang主要基于mirna种子区间序列相似度,利用现有的推荐算法构建模型mirtrs进行预测。m.mokhtaridoost等人依据mirna和mrna表达谱的数据,通过线性多元回归模型和低秩矩阵分解来寻找mirna-mrna调控模块。fu等人通过clear-clip实验,在成年雌蚊虫卵成熟过程中生成mirna-mrna相互作用网络。
9.目前的方法主要具有以下缺陷:
10.1.缺乏针对不同靶标的预测能力:当前的mirna靶标预测方法只能静态地分析已有的数据集,而不能根据新的数据进行实时预测,因而往往只能针对lncrna或mrna进行单一的预测。
11.2.预测误差大:mirna靶标预测方法中存在很多隐式因素,这些隐式因素不能完全反映出mirna和mrna之间的相关性,从而导致预测精度不高。
12.3.数据量不足:mirna靶标预测方法所依赖的数据量不足,多数数据集中只包含少数mirna-target pairs,从而限制了系统预测效果的精确性。


技术实现要素:

13.要解决的技术问题
14.为了避免现有技术的不足之处,本发明提出一种基于多层异构图的mirna靶标预测方法及系统和应用。
15.技术方案
16.一种基于多层异构图的mirna靶标预测方法,其特征在于步骤如下:
17.步骤1:构建由七种rna网络组成的异质图,其中节点代表三种rna中的一种:mirna、lncrna和mrna,七种rna网络反映了七种不同的边类型;
18.所述七种边类型为:
19.①
mirna-lncrna相互作用层代表已知的经验证的lmi,
20.②
mirna-mirna序列相似性层测量mirna之间的序列相似性,
21.③
mirna-mirna共表达层测量mirna之间的共表达关系,
22.④
mirna-mrna相互作用层代表mirna靶向的已知mrna,
23.⑤
lncrna-lncrna序列相似性层测量lncrna之间的序列相似性,
24.⑥
lncrna-lncrna共表达层测量lncrna之间的表达相似性,
25.⑦
lncrna-mrna相互作用层代表lncrna靶向的已知mrna;
26.步骤2:采用基于特定图层的方法来聚合来自不同图层的特征,使用平均池化层进行聚合得到网络层中节点i的k阶特征即得到多层异质图中的每个节点在所在图层中的边嵌入,说明了节点i的第k阶特征取决于节点i以及其邻居的k-1阶特征的平均值:
[0027][0028]
其中σ(
·
)表示sigmoid函数,w
(k)
是一个需要在训练过程中学习的权重矩阵,mean(
·
)代表取平均操作,r代表图层编号即代表第r个网络层,n
i,r
是一个包含了节点i以及其邻居的节点集合,表示n
i,r
集合中节点j的(k-1)阶特征,其中1≤k≤k,k表示每个网络层的最大特征聚集级别;
[0029]
步骤3:将节点i的所有图层中的边嵌入记为矩阵ui=(u
i,1
,

,u
i,l
),其中ui∈rs×
l
,即ui是一个s
×
l的矩阵,s代表节点的边嵌入维度,l代表图层的总数;使用多头自注意力机制来对节点vi的多个图层的边嵌入进行编码得到h
i,r
[k],为:
[0030][0031]
其中:k代表注意力头的编号(k∈[1,m],m代表总注意力头数),h
i,r
[k]表示在第r图层中的节点vi的第k头表示;a
i,r
的计算公式如下:
[0032]
[0033]
其中r代表图层编号,i代表节点编号,softmax(
·
)代表softmax函数,)代表softmax函数,和为可学习矩阵,其中m代表总注意力头数,s代表节点的边嵌入维度,da代表变化过程中的中间维度;
[0034]
步骤4:使用投影方法将将边嵌入投影到任务空间,再提取来自各图层的特征并最终整合到一起;
[0035]
具体为:
[0036]
通过以下公式将单个节点的多注意力头的表示从rs映射到最终的任务空间rd中:
[0037]
p
i,r
[k]=h
i,r
[k]w
p
[0038]
其中w
p
∈rs×d是要通过训练来学习的矩阵参数,s代表节点经过投影器之前的边嵌入维度,d代表节点经过投影器之后的边嵌入维度,k代表注意力头的编号,p
i,r
[k]代表经过投影之后节点的第k头表示;
[0039]
选择双线性相互作用(bi-pool)池进行池化操作来融合节点k个注意力头的表示,得到节点i在r层最终的边嵌入e
i,r

[0040][0041]
其中:m表示总的注意力头数,j,k都代表注意力头的编号,p
i,r
[k]表示在第r图层的节点i的第k头表示,p
i,r
[j]表示在第r图层的节点i的第j头表示,表示两个向量的元素乘积,w
r,pool
是要通过训练来学习的矩阵参数;
[0042]
所述节点vi的基础嵌入在所有图层上共享,作为消息传递介质,融合来自各个图层的边嵌入,在各图层间传递;
[0043]
步骤5:通过从高斯分布中随机生成一组数值,可以随机初始化得到每一个节点的基础嵌入,采用下式对基础嵌入和边嵌入e
i,r
进行融合,得到t阶的融合嵌入
[0044][0045]
代表t-1阶的基础嵌入,代表t阶的边嵌入;
[0046]
通过上一轮的融合嵌入与边嵌入的混合来实现相邻邻域聚合层次上的信息混合,让不同聚合层与层之间输出的平滑,叠加更多的邻域聚合层,捕捉到更长距离信息,得到任一节点i的最终表示oi;
[0047]
步骤6:采用如下所示的余弦距离公式来计算靶标的两节点i、j在预测空间中的距离:
[0048][0049]
其中oi、oj分别代表节点vi、vj的节点最终表示;
[0050]
所述节点代表mirna,或代表mirna的靶标即mrna或者lncrna,如果一个靶标节点和一个mirna节点的距离大,则说明该mrna/lncrna是该mirna的靶标的可能性就相应较大。
[0051]
所述mirna-lncrna相互作用层代表已知的经验证的lmi为:从lncrnasnp2数据库中提取具有至少一个clip序列实验证据的独特mirna-lncrna相互作用,网络层由多个独特
的mirna和多个独特的lncrna以及多个独特的小rna lncrna边缘组成。
[0052]
所述mirna-mirna序列相似性层测量mirna之间的序列相似性为:首先从mirbase数据库检索了多个mirna的mirna序列,然后使用biostring软件包中实现的needleman-wunsch算法对每对mirna序列进行全局比对;间隙打开惩罚设置为0.5,间隙打开扩展惩罚设置为0.1;如果两个mirna的同一性得分大于或等于40,则将在这一层中连接,由此产生的网络层由多个mirna和多个mirna-mirna相互作用组成。
[0053]
所述mirna-mirna共表达层测量mirna之间的共表达关系为:从哺乳动物microrna表达图谱中检索了多个mirna的mirna表达谱,这些图谱收集自多名人类受试者的主要器官和细胞类型;皮尔逊相关系数pcc用于测量mirna之间的共表达相似性,两个pcc大于或等于0.3的mirna将在该层中连接,所得到的网络层由多个mirna中的多个mirna共表达mirna对组成。
[0054]
所述mirna-mrna相互作用层代表mirna靶向的已知mrna为:从mirtarbase下载了实验验证的mirna mrna相互作用,在去除微弱的mirna-mrna相互作用后,只有一个或多个来自qrt-pcr、荧光素酶报告物测定、western blot、微阵列、免疫组化和原位杂交等的证据保留了强烈的相互作用。
[0055]
所述lncrna-lncrna序列相似性层测量lncrna之间的序列相似性为:首先从noncode数据库下载多个lncrna的dna序列,并基于序列比对计算lncrna lncrna序列相似性;使用局部对齐算法smith-waterman执行任务;在对齐过程中,开放间隙的惩罚设置为10,沿间隙长度产生的增量成本设置为4;对齐分数大于或等于400的lncrna对将保留在该层中的lncrna-lncrna边;由此产生的网络层由多个lncrna和多个lncrna-lncrna相互作用组成。
[0056]
所述lncrna-lncrna共表达层测量lncrna之间的表达相似性为:从noncode数据库下载多个lncrna的表达谱,选择了0.9的更高pcc阈值,最终该层剩下的多个lncrna中有多个lncrna共表达链接关系。
[0057]
所述lncrna-mrna相互作用层代表mirna靶向的已知mrna为:从rise数据库下载多条实验验证边,从其中得到lncrna-mrna边关系。
[0058]
一种用于所述基于多层异构图的mirna靶标预测方法的系统,其特征在于:包括聚合器、编码器、投影器、融合器和预测器;聚合器的输入端接收七种rna网络组成的异质图,异质图每一层的节点特征通过聚合器得到更新;然后,每一层的节点特征通过编码器去融合其他图层的信息得到再次更新后的节点特征,其中每个节点会有多个头的表示;然后,通过投影器将多个头的表示进行融合,将最终融合后的向量作为节点的边嵌入;将边嵌入和基础嵌入在融合器里融合得到最终的节点表示;最后在预测器里计算余弦距离以进行预测。
[0059]
一种所述基于多层异构图的mirna靶标预测方法以及所述系统,其特征在于:所述方法和所述系统用于mirna靶标的预测。
[0060]
有益效果
[0061]
本发明提出的一种基于多层异构图的mirna靶标预测方法及系统和应用,首先在节点表征上,本方案将节点表示做了解耦,分为边嵌入和基础嵌入,每个图层单独维护所有节点在该图层上的边嵌入。第二在图传播上,因为浅层gcn不能大范围的传播特征,而深层
gcn容易导致过平滑,因此我们选用了抽样平均聚合来解决这个问题,从节点邻域中抽取固定的k个节点嵌入做平均来表征中心节点。第三在注意力机制上,本方案在前人的基础上略作创新,对于多头注意力机制不是简单的将向量拼接,而是采用了池化层和全连接层,整体实现上更加符合逻辑,实验时参数调整更为简单。
附图说明
[0062]
图1:本发明的系统结构示意图
[0063]
图2:本发明的构建的分层异质图结构示意图
[0064]
图3:本发明方法的数据处理过程示意图
具体实施方式
[0065]
现结合实施例、附图对本发明作进一步描述:
[0066]
鉴于目前的算法在数据整合上存在不足,我们知道对于序列数据来说,mirna与靶标相互作用不止发生在3
‘‑
utr,也发生在5
’‑
utr,很多算法只考虑到了3
‘‑
utr;同时大多数方法对于表达数据应用得也不完善,mirna不仅可以促进靶标表达同样也可以抑制靶标表达,很多算法只简单考虑了正相促进关系;而且目前基于序列和表达数据的方法在预测精度上存在一定缺陷,生物数据中正负样本严重失衡的问题也尚未得到解决。基于以上的不足,我们提出了一种基于多层异质生物网络的深度图表达技术来预测mirna靶标(即lncrna-mirna、mrna-mirna相互作用)的模型框架,见图1。
[0067]
首先通过现有的数据,可以得到多层异构图;每一层的节点特征通过聚合器可以得到更新;然后,每一层的节点特征可以通过编码器去融合其他图层的信息得到再次更新后的节点特征(因为编码器用的是多头注意力机制,所以每个节点会有多个头的表示);然后,通过投影器将多个头的表示进行融合,将最终融合后的向量作为节点的边嵌入;将边嵌入和基础嵌入在融合器里融合得到最终的节点表示;最后在预测器里计算余弦距离,进行预测。
[0068]
输入端的构建
[0069]
与所有节点和边的类型都相同的同质图(homogeneous graph)不同,异质图(heterogeneous graph)是指由不同类型的节点和边组成的图。在异质图中,每个节点和边都具有自己的类型。例如,在社交网络中,用户节点和朋友节点的类型是不同的,用户节点和用户节点之间的关注关系的类型也是不同的。异质图可以表示多种复杂的关系,这使得它们能够更好地反映现实世界中的复杂关系。
[0070]
为了解决大部分方法对于表达数据应用不完善的问题,我们从数据输入端进行了创新,我们构建了一个由七种rna网络组成的异质图,其中节点代表三种rna中的一种:mirna、lncrna和mrna,异构网络的不同层可以充分考虑到不同的边类型,在该方案中,我们可以同时利用到相互作用关系、共表达关系等多种类型的数据。下面我们从多层异质图的数据来源和多层异质图的构建方法上做一个详细介绍:
[0071]
1、数据来源
[0072]
我们通过融合多种数据构建出如图1所示的分层异质图,其各项数据来源将在本节中做详细介绍。在当前数据库中记录的lncrna-mirna或者mrna-mirna相互作用的有限数
量,即经实验验证的样本,很大程度上影响了在lmi、mmi任务上预测的能力。与lncrna和mirna相关的其他经验证的rna相互作用将有助于基于关联假设的lmi、mmi预测任务。为了获得更好的性能,我们引入了六种额外类型的rna关联,这些关联经过湿实验室验证或具有高水平的计算置信度。因此,我们构建了一个由七种rna网络组成的异质网络,代表三种rna:mirna、lncrna和mrna。异构网络的不同层可以充分考虑不同的边类型,具体如图2:
[0073]

mirna-lncrna相互作用层代表已知的经验证的lmi。从lncrnasnp2数据库中提取实验验证的mirna-lncrna相互作用。在过滤重复记录后,我们提取了具有至少一个clip序列实验证据的独特mirna-lncrna相互作用。最终的网络层由276个独特的mirna和908个独特的lncrna以及7698个独特的小rna lncrna边缘组成。
[0074]

mirna-mirna序列相似性层测量mirna之间的序列相似性。我们首先从mirbase数据库检索了267个mirna的mirna序列。然后使用biostring软件包中实现的needleman-wunsch算法对每对mirna序列进行全局比对。间隙打开惩罚设置为0.5,间隙打开扩展惩罚设置为0.1。如果两个mirna的同一性得分大于或等于40,则将在这一层中连接。由此产生的网络层由71个mirna和58个mirna-mirna相互作用组成。
[0075]

mirna-mirna共表达层测量mirna之间的共表达关系。我们首先从哺乳动物microrna表达图谱中检索了90个mirna的mirna表达谱,这些图谱收集自172名人类受试者的主要器官和细胞类型。皮尔逊相关系数(pcc)用于测量mirna之间的共表达相似性,两个pcc大于或等于0.3的mirna将在该层中连接。所得到的网络层由62个mirna中的268个mirna共表达mirna对组成。
[0076]

mirna-mrna相互作用层代表mirna靶向的已知mrna。根据先前的研究,具有类似靶向mrna的mirna更有可能具有类似的靶向lncrna。我们从mirtarbase下载了实验验证的mirna mrna相互作用。在去除微弱的mirna-mrna相互作用后,只有一个或多个来自qrt-pcr、荧光素酶报告物测定、western blot、微阵列、免疫组化和原位杂交等的证据保留了强烈的相互作用。实验验证的边共83140条,其中10754条强证据验证的,涉及mrna表达共13157个。
[0077][0078]

lncrna-lncrna序列相似性层测量lncrna之间的序列相似性。类似于mirna序列相似性层,我们首先从noncode数据库下载644个lncrna的dna序列,并基于序列比对计算lncrna lncrna序列相似性。不同的是,我们使用了一种局部对齐算法,即smith-waterman,来执行此任务,而不是使用needleman-wunsch。这是因为lncrna比mirna长得多,并且mirna使用短种子序列(6-8个碱基长)来结合靶rna上的mirna响应元件(mre)。在对齐过程中,开放间隙的惩罚设置为10,沿间隙长度产生的增量成本设置为4。对齐分数大于或等于400的lncrna对将保留在该层中的lncrna-lncrna边。由此产生的网络层由92个lncrna和52个lncrna-lncrna相互作用组成。
[0079]

lncrna-lncrna共表达层测量lncrna之间的表达相似性。与mirna共表达层类
似,我们从noncode数据库下载了548个lncrna的表达谱,该数据库由来自24个组织的多个样本组成。由于我们实验中的lncrna共表达相关性比mirna共表达强得多,我们选择了0.9的更高pcc阈值,最终该层剩下的303个lncrna中有1673个lncrna共表达链接关系。
[0080]

lncrna-mrna相互作用层代表mirna靶向的已知mrna。我们从rise数据库下载138684条实验验证边,我们从其中筛选出lncrna-mrna边关系,具体如表1所示。
[0081]
数据处理过程
[0082]
如图1所示,我们的网络框架可以拆分为五个主要板块,分别是聚合器(aggregator),编码器(encoder),投影器(projector),融合器(fusor)、还有预测器(predictor),对于一个多层异质图的输入,我们可以通过这个网络得到任意两个节点之间的关联性。下面对每个板块进行一个详细的介绍:
[0083]
(1)聚合器(aggregator):
[0084]
现有的大多数图表示学习方法都基于消息传递神经网络(mpnn)框架,包括chebynet、gcn、gat和gin等,他们通过聚集邻居的特征信息来学习每个节点的表示,我们也基于这种机制来构建我们在多层异质图上的学习模型。在多层异质图中,节点的特征分布在这些分层空间中,每个空间体现不同的功能。节点在不同的网络中具有不同的特征空间。因此,我们设计了一种基于特定图层的方法来聚合来自不同图层的特征。
[0085]
我们可以将网络抽象为g=(v,e,r),v代表节点集,e代表边集,r代表不同网络层的集合,e中的每条边e
ij,r
对应于第r个网络层的一对顶点vi和vj。我们将节点嵌入设计为两个部分的组合:基础嵌入和边嵌入。节点vi的边嵌入对于每个rna网络层都是特定的,而节点的基础嵌入在不同的网络层之间共享。
[0086]
对于每一层的边嵌入过程,我们遵循一般的gnn思想,即节点vi的边嵌入是从节点的局部邻域聚合得到的的,如等式所示:
[0087][0088]
其中,r代表第r个网络层,表示该网络层中节点vi的k阶特征,n
i,r
是一个包含了节点vi以及节点vi的邻居的集合,表示n
i,r
集合中节点的(k-1)阶特征,其中1≤k≤k,k表示每个网络层的最大特征聚集级别,aggregator(
·
)代表不同的聚合器函数,在该实验中,我们使用平均池化层作为聚合器,那么上述公式可以改写为如下所示:
[0089][0090]
其中σ(
·
)表示sigmoid函数,w
(k)
是一个需要在训练过程中学习的权重矩阵,mean(
·
)代表取平均操作。在开始时,我们为每个层的每个节点随机初始化。为了保持计算效率,我们统一采样固定数量的邻居,而不是在每次迭代时使用节点vi的所有邻居,这样做的好处是防止接收域爆炸,减少计算力消耗。
[0091]
(2)编码器(encoder)
[0092]
在通过聚合器之后,我们可以得到多层异质图中的每个节点在所有图层中的边嵌入,我们将节点vi的所有边嵌入记为矩阵ui=(u
i,1
,

,u
i,l
),其中ui∈rs×
l
,即ui是一个s
×
l的矩阵,s代表节点的边嵌入维度,l代表图层的总数。然后,我们使用多头自注意力机制来
对节点vi的多个图层的边嵌入做进一步的编码,这可以使得节点去捕获其他图层中隐藏的依赖特征,集成来自所有图层的拓扑特征和节点特征信息,同时也将减轻不同图层的密集度和样本不平衡造成的影响。以下是他的公式:
[0093][0094]
其中r代表图层编号,i代表节点编号,softmax(
·
)代表softmax函数,)代表softmax函数,和为可学习矩阵,其中s代表节点经过编码器之前的边嵌入维度,da代表变化过程中的中间维度,m代表一共有m个注意力头。之所以要除以一个是因为在w
2,r
ui和w
3,rui,r
维度比较高时,计算出来的注意力矩阵里的元素或者太大或者太小,这就导致经过softmax非线性映射后得到的值的分布不均,即方差太大,值比较大的元素非常接近1,值比较小的又非常接近0,映射过后得到的值趋向于两个边界0和1.这就会出现梯度不稳定的情况,使得模型难以收敛,因此要除以一个缓和非线性映射后得到的注意力矩阵。
[0095][0096]
然后通过上述公式可以得到节点通过编码器得到的最终特征。其中k代表注意力头的编号(k∈[1,m]),h
i,r
[k]表示在第r图层中的节点vi的第k头表示。
[0097]
(3)投影器(projector)
[0098]
在得到h
i,r
[k]之后,我们再为模型连接上投影器,使用投影方法将特征映射到所需的任务空间。任务空间和特征空间的分离可以使模型提取的特征更加准确和鲁棒,在本项工作中,投影器可以将边嵌入投影到任务空间,并且可以很好地提取来自各图层的特征并最终整合到一起。在上一步中我们得到了节点经过编码后的、多头的表示,此时的节点表示向量实际上是在rm×s维度空间中的(m代表总的注意力头数,s代表边嵌入的维度)。所以接下来,我们需要整合来自多个注意力头的表示,我们首先通过以下公式将单个节点的多注意力头的表示从rs映射到最终的任务空间rd中:
[0099]
p
i,r
[k]=h
i,r
[k]w
p
[0100]
其中w
p
∈rs×d是要通过训练来学习的矩阵参数,s代表节点经过投影器之前的边嵌入维度,d代表节点经过投影器之后的边嵌入维度,k代表注意力头的编号,p
i,r
[k]代表经过投影之后节点的第k头表示。
[0101]
下一步,我们选择了池化操作来融合节点来自k个注意力头的表示,具体使用的是双线性相互作用(bi-pool)池,公式表示如下:
[0102][0103]
其中e
i,r
表示节点vi在r层最终的边嵌入,m表示总的注意力头数,j,k都代表注意力头的编号,p
i,r
[k]表示在第r图层的节点vi的第k头表示,p
i,r
[j]表示在第r图层的节点vi的第j头表示,表示两个向量的元素乘积,w
r,pool
是要通过训练来学习的矩阵参数。总的来说,通过投影操作,可以使节点从不同的注意力头捕捉到更多的特征,而多个注意力头既可
以让图层的重要性排序策略更加多种多样,又可以防止训练过程中的过度拟合,最终得到了节点的边嵌入。
[0104]
(4)融合器(fusor)
[0105]
正如前面(1)提到的一样,我们将节点嵌入设计为两个部分的组合:基础嵌入和边嵌入。通过(1)-(3)之后我们可以得到节点在某一层的边嵌入,我们将基础嵌入看作是一个随机初始化的偏置向量,每个图层中节点的基础嵌入都是相同的,这会使得模型具有更强的鲁棒性。然后,我们使用融合器来融和边嵌入和基础嵌入。
[0106][0107]
代表t阶的融合嵌入,代表t-1阶的基础向量,代表t阶的边嵌入。可以看到,节点vi的基础嵌入在所有图层上共享,作为消息传递介质,融合来自各个图层的边嵌入,在各图层间传递。融合操作实际上是通过上一轮的融合嵌入与边嵌入的混合来实现相邻邻域聚合层次上的信息混合。这样可以让不同聚合层与层之间输出的平滑,使本文能够叠加更多的邻域聚合层,捕捉到更长距离信息,得到任一节点i的最终表示oi。
[0108]
(5)预测器(predictor)
[0109]
得到节点的最终表示后,我们采用如下所示的余弦距离公式来计算两节点i、j在预测空间中的距离远近:
[0110][0111]
其中oi、oj分别代表节点v i、v j的节点最终表示。
[0112]
对于节点v i、v j、v k(不妨假设v i、v j有链接、v i、v k无链接),通过(1)-(4)之后,他们有一个最终表示oi、oj、ok,并且在预测器里拥有链接的oi、oj距离更近,没有链接的oi、ok距离更远,以实现靶标预测的目的。

技术特征:
1.一种基于多层异构图的mirna靶标预测方法,其特征在于步骤如下:步骤1:构建由七种rna网络组成的异质图,其中节点代表三种rna中的一种:mirna、lncrna和mrna,七种rna网络反映了七种不同的边类型;所述七种边类型为:

mirna-lncrna相互作用层代表已知的经验证的lmi,

mirna-mirna序列相似性层测量mirna之间的序列相似性,

mirna-mirna共表达层测量mirna之间的共表达关系,

mirna-mrna相互作用层代表mirna靶向的已知mrna,

lncrna-lncrna序列相似性层测量lncrna之间的序列相似性,

lncrna-lncrna共表达层测量lncrna之间的表达相似性,

lncrna-mrna相互作用层代表lncrna靶向的已知mrna;步骤2:采用基于特定图层的方法来聚合来自不同图层的特征,使用平均池化层进行聚合得到网络层中节点i的k阶特征即得到多层异质图中的每个节点在所在图层中的边嵌入,说明了节点i的第k阶特征取决于节点i以及其邻居的k-1阶特征的平均值:其中σ(
·
)表示sigmoid函数,w
(k)
是一个需要在训练过程中学习的权重矩阵,mean(
·
)代表取平均操作,r代表图层编号即代表第r个网络层,n
i,r
是一个包含了节点i以及其邻居的节点集合,表示n
i,r
集合中节点j的(k-1)阶特征,其中1≤k≤k,k表示每个网络层的最大特征聚集级别;步骤3:将节点i的所有图层中的边嵌入记为矩阵u
i
=(u
i,1
,

,u
i,l
),其中u
i
∈r
s
×
l
,即u
i
是一个s
×
l的矩阵,s代表节点的边嵌入维度,l代表图层的总数;使用多头自注意力机制来对节点v
i
的多个图层的边嵌入进行编码得到h
i,r
[k],为:其中:k代表注意力头的编号,k∈[1,m],m代表总注意力头数;h
i,r
[k]表示在第r图层中的节点v
i
的第k头表示;a
i,r
的计算公式如下:其中r代表图层编号,i代表节点编号,softmax(
·
)代表softmax函数,)代表softmax函数,和为可学习矩阵,其中m代表总注意力头数,s代表节点的边嵌入维度,d
a
代表变化过程中的中间维度;步骤4:使用投影方法将将边嵌入投影到任务空间,再提取来自各图层的特征并最终整合到一起;具体为:通过以下公式将单个节点的多注意力头的表示从r
s
映射到最终的任务空间r
d
中:p
i,r
[k]=h
i,r
[k]w
p
其中w
p
∈r
s
×
d
是要通过训练来学习的矩阵参数,s代表节点经过投影器之前的边嵌入维度,d代表节点经过投影器之后的边嵌入维度,k代表注意力头的编号,p
i,r
[k]代表经过投影之后节点的第k头表示;选择双线性相互作用bi-pool池进行池化操作来融合节点k个注意力头的表示,得到节点i在r层最终的边嵌入e
i,r
:其中:m表示总的注意力头数,j,k都代表注意力头的编号,p
i,r
[k]表示在第r图层的节点i的第k头表示,p
i,r
[j]表示在第r图层的节点i的第j头表示,表示两个向量的元素乘积,w
r,pool
是要通过训练来学习的矩阵参数;所述节点vi的基础嵌入在所有图层上共享,作为消息传递介质,融合来自各个图层的边嵌入,在各图层间传递;步骤5:通过从高斯分布中随机生成一组数值,可以随机初始化得到每一个节点的基础嵌入,采用下式对基础嵌入和边嵌入e
i,r
进行融合,得到t阶的融合嵌入进行融合,得到t阶的融合嵌入进行融合,得到t阶的融合嵌入代表t-1阶的基础嵌入,代表t阶的边嵌入;通过上一轮的融合嵌入与边嵌入的混合来实现相邻邻域聚合层次上的信息混合,让不同聚合层与层之间输出的平滑,叠加更多的邻域聚合层,捕捉到更长距离信息,得到任一节点i的最终表示o
i
;步骤6:采用如下所示的余弦距离公式来计算靶标的两节点i、j在预测空间中的距离:其中o
i
、o
j
分别代表节点vi、vj的节点最终表示;所述节点代表mirna,或代表mirna的靶标即mrna或者lncrna,如果一个靶标节点和一个mirna节点的距离大,则说明该mrna/lncrna是该mirna的靶标的可能性就相应较大。2.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述mirna-lncrna相互作用层代表已知的经验证的lmi为:从lncrnasnp2数据库中提取具有至少一个clip序列实验证据的独特mirna-lncrna相互作用,网络层由多个独特的mirna和多个独特的lncrna以及多个独特的小rna lncrna边缘组成。3.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述mirna-mirna序列相似性层测量mirna之间的序列相似性为:首先从mirbase数据库检索了多个mirna的mirna序列,然后使用biostring软件包中实现的needleman-wunsch算法对每对mirna序列进行全局比对;间隙打开惩罚设置为0.5,间隙打开扩展惩罚设置为0.1;如果两个mirna的同一性得分大于或等于40,则将在这一层中连接,由此产生的网络层由多个mirna和多个mirna-mirna相互作用组成。4.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述mirna-mirna共表达层测量mirna之间的共表达关系为:从哺乳动物microrna表达图谱中检
索了多个mirna的mirna表达谱,这些图谱收集自多名人类受试者的主要器官和细胞类型;皮尔逊相关系数pcc用于测量mirna之间的共表达相似性,两个pcc大于或等于0.3的mirna将在该层中连接,所得到的网络层由多个mirna中的多个mirna共表达mirna对组成。5.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述mirna-mrna相互作用层代表mirna靶向的已知mrna为:从mirtarbase下载了实验验证的mirna mrna相互作用,在去除微弱的mirna-mrna相互作用后,只有一个或多个来自qrt-pcr、荧光素酶报告物测定、western blot、微阵列、免疫组化和原位杂交等的证据保留了强烈的相互作用。6.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述lncrna-lncrna序列相似性层测量lncrna之间的序列相似性为:首先从noncode数据库下载多个lncrna的dna序列,并基于序列比对计算lncrnalncrna序列相似性;使用局部对齐算法smith-waterman执行任务;在对齐过程中,开放间隙的惩罚设置为10,沿间隙长度产生的增量成本设置为4;对齐分数大于或等于400的lncrna对将保留在该层中的lncrna-lncrna边;由此产生的网络层由多个lncrna和多个lncrna-lncrna相互作用组成。7.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述lncrna-lncrna共表达层测量lncrna之间的表达相似性为:从noncode数据库下载多个lncrna的表达谱,选择了0.9的更高pcc阈值,最终该层剩下的多个lncrna中有多个lncrna共表达链接关系。8.根据权利要求1所述基于多层异构图的mirna靶标预测方法,其特征在于:所述lncrna-mrna相互作用层代表mirna靶向的已知mrna为:从rise数据库下载多条实验验证边,从其中得到lncrna-mrna边关系。9.一种用于权利要求1~8任一项所述基于多层异构图的mirna靶标预测方法的系统,其特征在于:包括聚合器、编码器、投影器、融合器和预测器;聚合器的输入端接收七种rna网络组成的异质图,异质图每一层的节点特征通过聚合器得到更新;然后,每一层的节点特征通过编码器去融合其他图层的信息得到再次更新后的节点特征,其中每个节点会有多个头的表示;然后,通过投影器将多个头的表示进行融合,将最终融合后的向量作为节点的边嵌入;将边嵌入和基础嵌入在融合器里融合得到最终的节点表示;最后在预测器里计算余弦距离以进行预测。10.一种权利要求1~8任一项所述基于多层异构图的mirna靶标预测方法以及权利要求9所述的系统,其特征在于:所述方法和所述系统用于mirna靶标的预测。

技术总结
本发明涉及一种基于多层异构图的miRNA靶标预测方法及系统和应用,首先在节点表征上,本方案将节点表示做了解耦,分为边嵌入和基础嵌入,每个图层单独维护所有节点在该图层上的边嵌入。第二在图传播上,因为浅层GCN不能大范围的传播特征,而深层GCN容易导致过平滑,因此我们选用了抽样平均聚合来解决这个问题,从节点邻域中抽取固定的k个节点嵌入做平均来表征中心节点。第三在注意力机制上,本方案在前人的基础上略作创新,对于多头注意力机制不是简单的将向量拼接,而是采用了池化层和全连接层,整体实现上更加符合逻辑,实验时参数调整更为简单。更为简单。更为简单。


技术研发人员:汪涛 肖翼甫 尚学群 邓强 彭佳杰
受保护的技术使用者:西北工业大学
技术研发日:2023.05.05
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐