一种circRNA和疾病关联预测方法

未命名 09-07 阅读：130 评论：0

一种circrna和疾病关联预测方法
技术领域
1.本公开实施例涉及生物信息学技术领域，尤其涉及一种circrna和疾病关联预测方法。

背景技术：

2.虽然环状rna(circrna)的存在最早可以追溯到1971年，但在很长一段时间内它们并没有被认为是核糖核酸(rna)表达分析中的重要因素。然而，自2013年以来，随着高分辨率和高通量的rna测序数据的出现，特别是成对末端读取和深度测序技术的应用，识别和定量了许多新型circrna。大多数circrna通过不一致的映射读取进行识别，其中最后一个映射到转录本开头，因为rna转录本的5
′
和3
′
末端形成了环状结构。相比线性rna，circrna在细胞中存在的时间更长，而且它们的表达水平保持稳定且具有组织特异性。最近的研究发现，circrna与信使rna(mrna)和长非编码rna(circrna)竞争结合微小rna(mirna)在基因调控中起着重要作用。比如，circrna-mirna-mrna形成竞争性内源性rna(cerna)网络，似乎扮演着mirna的海绵的角色。因此，circrna与复杂疾病有关，发现它们之间的关系将在研究中发挥重要作用。
3.可见，亟需一种能大规模且高效精准预测的circrna和疾病关联预测方法。

技术实现要素：

4.有鉴于此，本公开实施例提供一种circrna和疾病关联预测方法，至少部分解决现有技术中存在预测效率和精准度较差的问题。
5.本公开实施例提供了一种circrna和疾病关联预测方法，包括：
6.步骤1，分别计算circrna-circrna序列相似性和疾病-疾病的语义相似性作为circrna和疾病节点的初始特征表示；
7.步骤2，基于circrna-疾病关联对构建circrna-疾病关联二分图，并运行图卷积网络方法进行邻居节点信息聚合操作，得到circrna和疾病节点的聚合特征表示，使用bpr方法获取图卷积网络的第一损失函数；
8.步骤3，向聚合特征向量中添加随机噪声，并且构建对比学习范式，并构建第二损失函数；
9.步骤4，对第一损失函数和第二损失函数进行联合学习，获取初始预测模型的全局损失函数，并通过全局损失函数的反向传播更新初始预测模型的参数，同时更新circrna和疾病节点的特征表示；
10.步骤5，重复步骤2至4更新初始预测模型参数，直到模型拟合得到目标预测模型和其对应的circrna和疾病节点的最终特征表示；
11.步骤6，对最终特征表示进行内积操作，获得circrna-疾病得分矩阵，形成关联结果。
12.根据本公开实施例的一种具体实现方式，所述circrna-circrna序列相似性的表
达式为
13.cg(c(i),c(j))＝exp(-θc||v(c(i))-v(c(j))||2)
14.其中，n是circrna的数量，i和j为circrna的序号，v表示circrna-疾病关联矩阵；
15.所述疾病-疾病的语义相似性的表达式为
16.dd＝0.5
·
dd1+0.5
·
dd217.其中，dd1为疾病i和j之间的第一相似性指标，dd2为疾病i和j之间的第二相似性指标。
18.根据本公开实施例的一种具体实现方式，所述步骤2具体包括：
19.基于circrna-疾病关联对构建circrna-疾病关联二分图，随机初始化circrna和疾病节点的向量表示，并使用图卷积网络方法聚合circrna和疾病节点对应的邻居节点的信息；
20.将每一个图卷积层获取到的circrna和疾病节点的向量表示通过加权和方法聚合得到circrna和疾病节点的聚合特征表示；
21.使用bpr方法获取图卷积网络的第一损失函数。
22.根据本公开实施例的一种具体实现方式，所述聚合circrna和疾病节点对应的邻居节点的信息的表达式为
[0023][0024]
其中，nc表示circrna c的邻居节点，(nd)表示疾病d的邻居节点，表示circrna在图卷积网络第l层的嵌入，表示疾病在图卷积网络第l层的嵌入；
[0025]
所述第一损失函数的表达式为
[0026][0027]
其中，σ是非线性激活函数，表示成对训练数据表示观察到的circrna c与疾病d
+
之间存在相互关联，表示采样疾病d-与circrna c没有实验验证的相互关联。
[0028]
根据本公开实施例的一种具体实现方式，所述对比学习范式的表达式为
[0029][0030]
其中，噪音向量
△
'i和
△”i独立同分布，符合条件分布||δ||2＝ε，其中δ＝
ε表示超球体半径；
[0031]
所述第二损失函数的表达式为
[0032][0033]
其中，i和j是从训练的batch中采样得到的circrna和疾病，e”i
and e”j
分别是添加了随机的噪音之后的circrna i和疾病j的特征向量，τ表示温度参数。
[0034]
根据本公开实施例的一种具体实现方式，所述全局损失函数的表达式为
[0035][0036]
其中，λ是超参数。
[0037]
根据本公开实施例的一种具体实现方式，所述circrna-疾病得分矩阵的表达式为
[0038][0039]
其中为circrna c和疾病d的关联分数，t表示向量转置操作。
[0040]
本公开实施例中的circrna和疾病关联预测方案，包括：步骤1，分别计算circrna-circrna序列相似性和疾病-疾病的语义相似性作为circrna和疾病节点的初始特征表示；步骤2，基于circrna-疾病关联对构建circrna-疾病关联二分图，并运行图卷积网络方法进行邻居节点信息聚合操作，得到circrna和疾病节点的聚合特征表示，使用bpr方法获取图卷积网络的第一损失函数；步骤3，向聚合特征向量中添加随机噪声，并且构建对比学习范式，并构建第二损失函数；步骤4，对第一损失函数和第二损失函数进行联合学习，获取初始预测模型的全局损失函数，并通过全局损失函数的反向传播更新初始预测模型的参数，同时更新circrna和疾病节点的特征表示；步骤5，重复步骤2至4更新初始预测模型参数，直到模型拟合得到目标预测模型和其对应的circrna和疾病节点的最终特征表示；步骤6，对最终特征表示进行内积操作，获得circrna-疾病得分矩阵，形成关联结果。
[0041]
本公开实施例的有益效果为：通过本公开的方案，通过图卷积网络来获取circrna和疾病节点的特征向量，并且通过在circrna和疾病节点的向量特征空间中添加随机噪音，构建对比学习范式来增强模型的表征能力。与现有的技术相比，本发明创新性的引入了对比学习思想来缓解数据稀疏性对实验结果的影响，有效的提高了预测的准确率。并且可以在极短的时间内预测大规模的circrna-疾病关联数据，减少了生物实验的盲目性和成本。
附图说明
[0042]
为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0043]
图1为本公开实施例提供的一种circrna和疾病关联预测方法的流程示意图；
[0044]
图2为本公开实施例提供的一种circrna和疾病关联预测方法与其他方法性能比较的roc曲线示意图；
[0045]
图3为本公开实施例提供的一种circrna和疾病关联预测方法与其他方法性能比
较的pr曲线示意图。
具体实施方式
[0046]
下面结合附图对本公开实施例进行详细描述。
[0047]
以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
[0048]
需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
[0049]
还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
[0050]
另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。
[0051]
本公开实施例提供一种circrna和疾病关联预测方法，所述方法可以应用于医学场景的基因疾病分析过程中。
[0052]
参见图1，为本公开实施例提供的一种circrna和疾病关联预测方法的流程示意图。如图1所示，所述方法主要包括以下步骤：
[0053]
步骤1，分别计算circrna-circrna序列相似性和疾病-疾病的语义相似性作为circrna和疾病节点的初始特征表示；
[0054]
进一步的，述circrna-circrna序列相似性的表达式为
[0055]
cg(c(i),c(j))＝exp(-θc||v(c(i))-v(c(j))||2)
[0056]
其中，n是circrna的数量，i和j为circrna的序号，v表示circrna-疾病关联矩阵；
[0057]
所述疾病-疾病的语义相似性的表达式为
[0058]
dd＝0.5
·
dd1+0.5
·
dd2[0059]
其中，dd1为疾病i和j之间的第一相似性指标，dd2为疾病i和j之间的第二相似性指标。
[0060]
具体实施时，分别计算circrna-circrna序列相似性和疾病-疾病的语义相似性作为初始的circrna和疾病的特征向量。对于每一对circrna ci和cj，我们计算他们之间的高斯核相似性来构建circrna-circrna相似性矩阵，公式如下：
[0061]
cg(c(i),c(j))＝exp(-θc||v(c(i))-v(c(j))||2)
[0062]
其中n是circrna的数量。
[0063]
对于每一对疾病di和dj，我们通过计算疾病-疾病之间的语义相似性来构建疾病-疾病的相似性矩阵。对于疾病-疾病相似性，我们利用了美国国家医学图书馆提供的mesh数据库中检索到的疾病语义信息。mesh根据挖掘大量文献的语义信息提供了疾病的分类，可以形成一个由mesh提供的有向无环图(dag)。在dag中，表示为n的节点指的是疾病或临床现象。边表示节点与其他节点的关系，表示为e。它表示为dagd＝(d,nd,ed)，其中nd表示一个包括疾病d本身以及与d相关的其他节点的节点集合。dag中的ed边显示了选定疾病d与其相应的疾病或现象之间的关系。假设在dag的ed中存在另一个疾病s，并且可以用以下公式描述疾病d对疾病s的潜在支持分数：
[0064][0065]
在上述公式中，dag中每个节点的潜在支持分数可以从dag的叶节点(作为疾病s)生成地追溯到相应的根节点(作为疾病d)。基础疾病可能引发复杂疾病或共享常见的临床现象。因此，考虑其邻居节点的情况下，可以通过以下公式来衡量疾病d的整体影响分数：
[0066][0067]
在此之后，根据共享信息，可以计算出疾病i和j之间的相似性dd1(di,dj)可以表示为：
[0068][0069]
在这个公式中，共享支持通过两种疾病的整体影响进行了标准化。在不同有向无环图(dag)中，某种疾病出现的次数越少，它可能更为基础。因此，我们根据以下公式构建了另一个衡量疾病在dag中贡献的指标：
[0070][0071]
其中num(contain(dag(d),s))表示包含疾病s的dag(d)的数量，num(diseases)表示所有疾病的数量。因此，疾病di和疾病dj的第二个相似性指数dd2(di,dj)描述如下：
[0072][0073]
最后，我们可以得到任意两个疾病di,dj之间的语义相似性dd(di,dj)为：
[0074]
dd＝0.5
·
dd1+0.5
·
dd2。
[0075]
步骤2，基于circrna-疾病关联对构建circrna-疾病关联二分图，并运行图卷积网络方法进行邻居节点信息聚合操作，得到circrna和疾病节点的聚合特征表示，使用bpr方法获取图卷积网络的第一损失函数；
[0076]
在上述实施例的基础上，所述步骤2具体包括：
[0077]
基于circrna-疾病关联对构建circrna-疾病关联二分图，随机初始化circrna和疾病节点的向量表示，并使用图卷积网络方法聚合circrna和疾病节点对应的邻居节点的信息；
[0078]
将每一个图卷积层获取到的circrna和疾病节点的向量表示通过加权和方法聚合得到circrna和疾病节点的聚合特征表示；
[0079]
使用bpr方法获取图卷积网络的第一损失函数。
[0080]
进一步的，所述聚合circrna和疾病节点对应的邻居节点的信息的表达式为
[0081][0082]
其中，nc表示circrna c的邻居节点，(nd)表示疾病d的邻居节点，表示circrna在图卷积网络第l层的嵌入，表示疾病在图卷积网络第l层的嵌入；
[0083]
所述第一损失函数的表达式为
[0084][0085]
其中，σ是非线性激活函数，表示成对训练数据表示观察到的circrna c与疾病d
+
之间存在相互关联，表示采样疾病d-与circrna c没有实验验证的相互关联。
[0086]
具体实施时，基于circrna-疾病关联对来构建circrna-疾病关联二分图，并运行图卷积网络方法进行邻居节点信息聚合操作，图卷积网络邻居聚合的公式为：
[0087][0088]
其中nc(nd)表示circrna c(疾病d)的邻居节点，分别表示circrna和疾病在图卷积网络第l层的嵌入。之后，在层聚合阶段，我们将每一个图卷积层获取到的circrna和疾病节点的向量表示通过加权和的方法聚合在一起，获得最后的circrna和疾病节点的向量表示：
[0089][0090]
其中ec和ed分别是circrna c和疾病d的最终的向量表示。
[0091]
其中，图卷积网络聚合邻居节点阶段模型优化步骤中bprloss函数如下：
[0092][0093]
其中σ是非线性激活函数，表示成对训练数据表示观察到的circrna c与疾病d
+
之间存在相互关联，表示采样疾病d-与circrna c没有实验验证的相互关联。
[0094]
步骤3，向聚合特征向量中添加随机噪声，并且构建对比学习范式，并构建第二损失函数；
[0095]
进一步的，所述对比学习范式的表达式为
[0096][0097]
其中，噪音向量
△
'i和
△”i独立同分布，符合条件分布||δ||2＝ε，其中＝ε，其中ε表示超球体半径；
[0098]
所述第二损失函数的表达式为
[0099][0100]
其中，i和j是从训练的batch中采样得到的circrna和疾病，e”i
and e”j
分别是添加了随机的噪音之后的circrnai和疾病j的特征向量，τ表示温度参数。
[0101]
具体实施时，在步骤2中图卷积网络获取到的circrna和疾病节点的特征向量中添加随机噪音，具体为：对于给定的circrna或者疾病节点的特征表示ei，我们通过直接向特征表示添加不同的噪声来实现高效的特征级数据增强，公式如下：
[0102][0103]
其中噪音向量
△
'i和
△”i独立同分布，符合条件分布||δ||2＝ε，其中＝ε，其中我们可以将δ表示为位于半径为ε的超球体上的一个点，需要注意的是，
△
'i和
△”i应该是位于同一个超八分之一的空间内，这样添加噪音不
会对ei造成较大的误差，从而减少有效的正样本的数量。我们可以使用infonce来构建对比学习的loss函数，公式如下：
[0104][0105]
其中，i和j是从训练的batch中采样得到的circrna和疾病，e”i
and”j
分别是添加了随机的噪音之后的circrnai和疾病j的特征向量。τ表示温度参数。从公式可以看出，infonce主要是为了减少e'i和e”i
之间的距离，因为他们是同一个特征向量增广而来，属于正样本，同时拉大e'i和e”j
之间的距离，因为他们是不同的特征向量增广而来的，属于负样本。
[0106]
步骤4，对第一损失函数和第二损失函数进行联合学习，获取初始预测模型的全局损失函数，并通过全局损失函数的反向传播更新初始预测模型的参数，同时更新circrna和疾病节点的特征表示；
[0107]
进一步的，所述全局损失函数的表达式为
[0108][0109]
其中，λ是超参数。
[0110]
具体实施时，可以对第一损失函数和第二损失函数进行联合学习，获取初始预测模型的全局损失函数，并通过全局损失函数的反向传播更新初始预测模型的参数，同时更新circrna和疾病节点的特征表示。
[0111]
步骤5，重复步骤2至4更新初始预测模型参数，直到模型拟合得到目标预测模型和其对应的circrna和疾病节点的最终特征表示；
[0112]
步骤6，对最终特征表示进行内积操作，获得circrna-疾病得分矩阵，形成关联结果。
[0113]
进一步的，所述circrna-疾病得分矩阵的表达式为
[0114][0115]
其中为circrna c和疾病d的关联分数，t表示向量转置操作。
[0116]
具体实施时，在多次迭代最终获得circrna和疾病节点最终的向量表示之后，通过内积来计算特定的circrna和疾病的关联分数：
[0117][0118]
其中为circrna c和疾病d的关联分数。得分越高，说明两者更可能存在相互关联。
[0119]
本实施例提供的circrna和疾病关联预测方法，通过图卷积网络来获取circrna和疾病节点的特征向量，并且通过在circrna和疾病节点的向量特征空间中添加随机噪音，构建对比学习范式来增强模型的表征能力。与现有的技术相比，本发明创新性的引入了对比学习思想来缓解数据稀疏性对实验结果的影响，有效的提高了预测的准确率。并且可以在极短的时间内预测大规模的circrna-疾病关联数据，减少了生物实验的盲目性和成本。
[0120]
下面将通过一个实施例对本方案进行说明，本发明实施是从circr2disease数据
库中下载的661种circrna和100种疾病之间的739个circrna-疾病关联。并且，为了更好的评估本发明的性能，我们按照8:2的比例将上述数据划分成训练集，测试集。使用五折交叉验证来综合的评估我们模型的性能。其中训练集包含591种circrna-疾病关联；测试集包含70种circrna-疾病关联。本发明通过在训练集上对模型进行训练，在测试集上对模型进行评估。
[0121]
为了验证本发明的有效性，我们将其与目前最先进的circrna-疾病关联的方法进行比较，结果如表1所示，并且绘制了roc曲线和pr曲线，如图2和图3所示。实验结果表明，本发明的性能优于目前最先进的方法。
[0122][0123]
表1
[0124]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。
[0125]
应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
[0126]
以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

技术特征：
1.一种circrna和疾病关联预测方法，其特征在于，包括：步骤1，分别计算circrna-circrna序列相似性和疾病-疾病的语义相似性作为circrna和疾病节点的初始特征表示；步骤2，基于circrna-疾病关联对构建circrna-疾病关联二分图，并运行图卷积网络方法进行邻居节点信息聚合操作，得到circrna和疾病节点的聚合特征表示，使用bpr方法获取图卷积网络的第一损失函数；步骤3，向聚合特征向量中添加随机噪声，并且构建对比学习范式，并构建第二损失函数；步骤4，对第一损失函数和第二损失函数进行联合学习，获取初始预测模型的全局损失函数，并通过全局损失函数的反向传播更新初始预测模型的参数，同时更新circrna和疾病节点的特征表示；步骤5，重复步骤2至4更新初始预测模型参数，直到模型拟合得到目标预测模型和其对应的circrna和疾病节点的最终特征表示；步骤6，对最终特征表示进行内积操作，获得circrna-疾病得分矩阵，形成关联结果。2.根据权利要求1所述的方法，其特征在于,所述circrna-circrna序列相似性的表达式为cg(c(i),c(j))＝exp(-θ
c
||v(c(i))-v(c(j))||2)其中，n是circrna的数量，i和j为circrna的序号，v表示circrna-疾病关联矩阵；所述疾病-疾病的语义相似性的表达式为dd＝0.5
·
dd1+0.5
·
dd2其中，dd1为疾病i和j之间的第一相似性指标，dd2为疾病i和j之间的第二相似性指标。3.根据权利要求2所述的方法，其特征在于,所述步骤2具体包括：基于circrna-疾病关联对构建circrna-疾病关联二分图，随机初始化circrna和疾病节点的向量表示，并使用图卷积网络方法聚合circrna和疾病节点对应的邻居节点的信息；将每一个图卷积层获取到的circrna和疾病节点的向量表示通过加权和方法聚合得到circrna和疾病节点的聚合特征表示；使用bpr方法获取图卷积网络的第一损失函数。4.根据权利要求3所述的方法，其特征在于,所述聚合circrna和疾病节点对应的邻居节点的信息的表达式为其中，n
c
表示circrnac的邻居节点，(n
d
)表示疾病d的邻居节点，表示circrna在图卷积网络第l层的嵌入，表示疾病在图卷积网络第l层的嵌入；
所述第一损失函数的表达式为其中，σ是非线性激活函数，表示成对训练数据表示观察到的circrnac与疾病d
+
之间存在相互关联，表示采样疾病d-与circrnac没有实验验证的相互关联。5.根据权利要求4所述的方法，其特征在于,所述对比学习范式的表达式为其中，噪音向量
△
'
i
和
△″
i
独立同分布，符合条件分布||δ||2＝ε，其中＝ε，其中ε表示超球体半径；所述第二损失函数的表达式为其中，i和j是从训练的batch中采样得到的circrna和疾病，e'
i
'and e
j”分别是添加了随机的噪音之后的circrnai和疾病j的特征向量，τ表示温度参数。6.根据权利要求5所述的方法，其特征在于,所述全局损失函数的表达式为其中，λ是超参数。7.根据权利要求6所述的方法，其特征在于,所述circrna-疾病得分矩阵的表达式为其中为circrnac和疾病d的关联分数，t表示向量转置操作。

技术总结
本公开实施例中提供了一种circRNA和疾病关联预测方法，属于生物信息学技术领域，具体包括：步骤1，计算初始特征表示；步骤2，得到circRNA和疾病节点的聚合特征表示，使用BPR方法获取图卷积网络的第一损失函数；步骤3，向聚合特征向量中添加随机噪声，并且构建对比学习范式，并构建第二损失函数；步骤4，获取初始预测模型的全局损失函数，并通过全局损失函数的反向传播更新初始预测模型的参数；步骤5，重复步骤2至4更新初始预测模型参数，直到模型拟合得到目标预测模型和其对应的circRNA和疾病节点的最终特征表示；步骤6，对最终特征表示进行内积操作，形成关联结果。通过本公开的方案，提高了预测效率和精准度。高了预测效率和精准度。高了预测效率和精准度。

技术研发人员：邓磊胡小文刘大运
受保护的技术使用者：中南大学
技术研发日：2023.07.25
技术公布日：2023/9/6

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种circRNA和疾病关联预测方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种circRNA和疾病关联预测方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表