基于多尺度图变分自编码器的微生物-疾病关联预测方法

未命名 10-19 阅读:129 评论:0


1.本发明属于电子数据处理技术领域,更进一步涉及医学电子数据处理技术领域中一种基于多尺度图变分自编码器的微生物-疾病关联预测方法。本发明可用于发现生物标志物。


背景技术:

2.微生物是一类以单细胞或菌落形式存在的微观生物,主要由病毒、古细菌、细菌和原生生物组成,并与人类宿主之间存在着密切的相互作用,大多数人类共生微生物群落对人类健康无害,甚至与人类宿主存在互惠关系,人体微生物组通常被认为是“人类被遗忘的器官”,具有促进营养吸收、抵抗病原体入侵和促进新陈代谢等功能,微生物群落的失调或失衡将会导致人类疾病的发生。对微生物与疾病进行关联预测不仅可以揭示潜在的疾病机制,还可以进一步识别潜在的疾病生物标志物来促进疾病的早期诊断和精准医疗。
3.到目前为止,通过机器学习的方法来进行微生物-疾病关联预测的相关方法可以分为四类:基于网络的方法、基于矩阵分解的方法、基于正则化的方法和基于神经网络的方法,这几类方法并不互相排斥。基于网络的方法主要通过网络的拓扑结构信息来衡量节点的重要程度。基于矩阵分解的方法将输入的关联矩阵分解为两个低维矩阵,并能够保留一定的信息来重构原始输入矩阵。基于正则化的方法将关联预测任务转化为最小二乘分类任务,并采取不同的正则化手段来约束模型从而避免模型过拟合。基于神经网络的方法通常采用编码器-解码器结构来进行关联预测,使用图卷积网络或者图注意力网络作为基编码器得到潜在特征表示,并通过解码器解码潜在特征表示来重构原始的关联矩阵。对于基于神经网络的方法,无需进行过多的特征工程。
4.long等人在其发表的论文“predicting human microbe

disease associations via graph attention networks with inductive matrix completion”(briefings in bioinformatics 2022年)中公开了一种具有归纳矩阵补全的图注意力网络的微生物-疾病关联预测方法。该方法使用微生物-疾病关联数据集,计算多种微生物相似性和疾病相似性以及相似性融合,将相似性矩阵作为初始特征,对已知的微生物-疾病二分网络按照编码器-解码器的框架进行训练,该方法设计了两种神经元表征聚合层进行特征聚合,由多头跳跃连接的图注意力网络作为编码器进行潜在特征表示,将潜在特征表示输入基于归纳矩阵补全的解码器,完成对微生物-疾病二分网络的重构。该方法通过多头跳跃连接的图注意力网络捕捉了不同尺度的特征,并且以归纳矩阵补全的方式进行二分网络的重构。但是,该方法仍然存在的不足之处是,现有技术没有进一步考虑到数据扰动的问题,也即数据噪声和数据不完全的问题,这也是链路预测任务所固有的问题。此外,现有技术仅仅完成了二分网络的重构,并未从构建有效的辅助任务入手来提高表征能力。仅仅使用图注意力网络作为编码器略显单薄,现有技术对潜在特征进行归纳矩阵补全将会导致解码时丢失一部分潜在特征的信息,也即解码器的能力不足,无法有效地利用学到的特征。
5.山东师范大学在其申请的专利技术“基于多视图图卷积网络的微生物-疾病关联
预测方法”(申请号:202111435109.4,申请公布号:cn 114360730 a)中公开了一种基于多视图图卷积网络的微生物-疾病关联预测方法,所述方法包括:获取微生物和疾病的对应关系数据,构建邻接矩阵;根据邻接矩阵,分别基于多种相似性计算方法,获取多个微生物相似性视图和多个疾病相似性视图;基于所述多个微生物相似性视图和多个疾病相似性视图,依次经由图卷积网络、多通道注意力网络和卷积神经网络,学习微生物多视图特征嵌入和疾病多视图特征嵌入;根据微生物多视图特征嵌入和疾病多视图特征嵌入,得到微生物和疾病之间的相关预测矩阵。本发明通过多视图多通道图卷积网络,能够充分挖掘微生物与疾病之间的潜在关联关系,提高预测的准确率。但是,该方法仍然存在的不足之处是,采取简单点积的方式进行关联矩阵的重构不能全面地利用到学习到的嵌入特征,也即解码器的能力不足。此外,该方法学习到微生物多视图特征嵌入和疾病多视图特征嵌入的表征能力仍然有待提高,该方法同样没有构建有效的辅助任务来提高表征能力。


技术实现要素:

6.本发明的目的在于针对上述现有技术的不足,提出一种基于多尺度图变分自编码器的微生物-疾病关联预测方法,用于解决现有技术对数据扰动的抵抗力不足、模型学习到的特征表示的表征能力不强、无法有效地利用学习到的特征的技术问题。
7.实现本发明目的的思路是:本发明采用多尺度变分自编码器的方法来进行图的表示学习,分别对疾病相似性矩阵和微生物相似性矩阵进行表示学习,得到疾病表征和微生物表征,该方法具有拟合分布的特点,从拟合一个分布而不是一个确定的点入手,从而增强模型的生成能力,更适合对存在数据扰动的数据的建模,能容忍一定程度的数据噪声和数据不完全,可以有效地抵抗数据扰动这一技术问题。本发明采用的损失函数l1中使用2-wasserstein distance来衡量两个分布的距离,2-wasserstein distance相比于kl散度能更有效的衡量两个分布的距离,该方法具有在模型训练进行到后期时仍然能够提供有效梯度信息的特点,可以有效地提高模型的表征能力这一技术问题。本发明采用的损失函数l1中构建了有效的辅助任务来重构邻居信息,可以保证模型在训练的过程中尽可能少的丢失信息,从而有效地提高模型的表征能力这一技术问题。本发明采用有效且高效的分类模型xgboost来进行微生物-疾病关联预测,该技术采用boosting的集成策略来进行分类预测并具有充分利用每一维特征的特点,从而可以解决现有技术无法有效地利用学习到的特征这一技术问题。
8.本发明方法的步骤包含如下:
9.步骤1,构建基于多尺度图变分自编码器:
10.步骤1.1,搭建一个由第一单尺度gcn层、第二单尺度gcn层、多尺度gcn层串联组成的编码器,其中,两层单尺度gcn提取初步特征,编码器中的激活函数均选取relu函数实现;将第一、第二gcn层的输出维度分别设置为512、128,多尺度gcn层的三个输出尺度分别设置为64、32、16;编码器中的dropout值均设置为0.5;
11.步骤1.2,搭建一个由点积解码器、第一全连接层、第二全连接层并联组成的解码器;将第一、第二全连接层的输出维度分别设置为512、128,第一、第二全连接层的dropout值设置为0.5;
12.步骤2,通过训练多尺度图变分自编码器得到疾病表征矩阵和微生物表征矩阵:
13.步骤2.1,将疾病相似性矩阵和微生物-疾病关联矩阵a输入到多尺度图变分自编码器中,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数作为疾病表征矩阵;
14.步骤2.2,将微生物相似性矩阵和微生物-疾病关联矩阵a输入到多尺度图变分自编码器中,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数作为微生物表征矩阵;
15.步骤3,构建训练集:
16.将关联矩阵a中元素值为1的元素选为正样本,从关联矩阵a中随机选取与正样本数量相同的元素值为0的元素为负样本,按照正负样本的行序号和列序号,分别抽取疾病表征矩阵对应的行和微生物表征矩阵的对应行,组成疾病-微生物特征表示向量,将所有表示向量拼接成特征表示矩阵作为训练集;
17.步骤4,构建一个由p个cart回归树串行求和后组成的微生物-疾病关联预测模型,其中,p≥20;
18.步骤5,训练微生物-疾病关联预测模型:
19.将训练集输入到微生物-疾病关联预测模型中,计算每次迭代后损失函数l2的结果并使用拟牛顿法更新cart回归树的梯度,得到当前迭代优化后的一个cart回归树,通过串行求和所有的优化cart回归树更新微生物-疾病关联预测模型,直到达到与p相等的迭代次数时为止,得到训练好的微生物-疾病关联预测模型;
20.步骤6,预测微生物与疾病的关联:
21.采用与步骤2相同的方法,得到待预测的疾病表征矩阵和微生物表征矩阵,将待预测的疾病表征矩阵和微生物表征矩阵输入到训练好的微生物-疾病关联预测模型中,输出微生物与疾病之间关联预测概率。
22.本发明与现有技术相比具有以下优点:
23.第一,由于本发明采用多尺度变分自编码器的方法来进行图的表示学习,通过对分布进行拟合,能够很好地容忍数据噪声与数据不完整,克服了现有技术对数据扰动的抵抗力不足的问题,使本发明具有抗数据扰动能力强的优点。
24.第二,由于本发明在损失函数l1中采用2-wasserstein distance来衡量两个分布的距离,克服了kl散度所带来的梯度消失现象,使模型在训练过程中始终具有梯度信息,使本发明具有模型表征能力强的优点。
25.第三,由于本发明构建了有效的辅助任务来重构邻居信息,使模型在训练过程中尽可能多的保留有效的信息,使本发明具有模型表征能力强的优点。
26.第四,由于本发明采用有效且高效的分类模型来进行微生物-疾病关联预测,克服了现有技术解码能力不足的问题,使本发明具有充分利用每一维特征的优点。
附图说明
27.图1是本发明的流程图。
具体实施方式
28.下面结合附图1,对本发明实施例的实现步骤做进一步的详细描述。
29.步骤1,构建基于多尺度图变分自编码器。
30.步骤1.1,搭建一个由第一单尺度gcn层、第二单尺度gcn层、多尺度gcn层串联组成的编码器,其中,两层单尺度gcn提取初步特征,编码器中的激活函数均选取relu函数实现,可以防止模型训练过程中出现一部分梯度消失的现象,多尺度gcn层可以聚焦不同层次的图结构特征,使得模型充分考虑局部和全局的特征;将第一、第二gcn层的输出维度分别设置为512、128,多尺度gcn层的三个输出尺度分别设置为64、32、16;编码器中的dropout值均设置为0.5。
31.步骤1中所述微生物-疾病关联矩阵a指的是,大小为m
×
n且第m行第n列元素a
mn
的值为0或1的微生物-疾病关联矩阵a,其中,m表示微生物-疾病关联矩阵中行的序号,m=1,2,...,m,m表示微生物-疾病关联矩阵a行的总数,m≥1000,n表示微生物-疾病关联矩阵中列的序号,n=1,2,...,n,n表示微生物-疾病关联矩阵a列的总数,n≥200,a
mn
的值为0时表示第m行微生物和第n列疾病之间实际不存在关联,a
mn
的值为1时表示第m行微生物和第n列疾病之间实际存在关联。
32.步骤1.2,搭建一个由点积解码器、第一全连接层、第二全连接层并联组成的解码器,点积解码器用来重构原始输入,第一全连接层、第二全连接层用来重构一阶和二阶的邻居信息,使得模型在训练过程中始终都能从最终得到的特征表示矩阵中重构出一阶和二阶邻居信息,从而尽可能的保留有效信息;将第一、第二全连接层的输出维度分别设置为512、128,为了保证完整的重构一阶和二阶邻居,第一、第二全连接层的输出维度要求与第一、第二gcn层的输出维度一致,第一、第二全连接层的dropout值设置为0.5。
33.步骤2,通过训练多尺度图变分自编码器得到疾病表征矩阵和微生物表征矩阵。
34.步骤2.1,将疾病相似性矩阵和微生物-疾病关联矩阵a输入到多尺度图变分自编码器中,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数作为疾病表征矩阵。
35.所述疾病相似性矩阵,指的是,大小为m
×
m且元素值在区间0到1之内的矩阵,其中,m表示微生物-疾病关联矩阵a行的总数,m≥1000。
36.所述损失函数l1如下:
[0037][0038]
其中,表示输入矩阵sm与重构矩阵的交叉熵损失,q(z|sm,x)是输入矩阵sm经过编码器编码后得到的特征表示z所服从的分布,w2[q(zm|sm,x)|p(zm)]是多尺度gcn层中第m个拟合的分布q(zm|sm,x)与正态先验分布p(zm)之间的2-wasserstein distance,采取正态先验分布作为待拟合分布的先验分布可以使模型在训练
的过程中始终具有生成能力,正态先验分布在全特征空间中均存在相同的高斯白噪声,不会导致模型训练完成后具有偏好性,是第l个辅助任务的交叉熵损失,用来约束不同阶邻居信息。
[0039]
步骤2.2,将微生物相似性矩阵和微生物-疾病关联矩阵a输入到多尺度图变分自编码器中,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数作为微生物表征矩阵。
[0040]
所述微生物相似性矩阵,指的是,大小为n
×
n且元素值在区间0到1之内的矩阵,其中,n表示微生物-疾病关联矩阵a列的总数,n≥200。
[0041]
步骤3,构建训练集。
[0042]
将关联矩阵a中元素值为1的元素选为正样本,从关联矩阵a中随机选取与正样本数量相同的元素值为0的元素为负样本,以保证训练集中正负样本的平衡,避免模型训练完成后对正负样本的预测偏好,按照正负样本的行序号和列序号,分别抽取疾病表征矩阵对应的行和微生物表征矩阵的对应行,组成疾病-微生物特征表示向量,将所有表示向量拼接成特征表示矩阵作为训练集。
[0043]
所述正负样本的特征表示矩阵为,d={d1,d2,...,dk,...,dk},其中,dk表示第k个样本的特征表示向量,1≤k≤k,k≥1000。
[0044]
步骤4,构建一个由p个cart回归树串行求和后组成的微生物-疾病关联预测模型,其中,p≥20。通过采用基于boosting的集成策略,将cart回归树作为基模型,不断地拟合样本残差,可以使得模型尽可能地减小误差中的偏差项,从而达到减小误差的目的。
[0045]
步骤5,训练微生物-疾病关联预测模型。
[0046]
将训练集输入到微生物-疾病关联预测模型中,计算每次迭代后损失函数l2的结果并使用拟牛顿法更新cart回归树的梯度,得到当前迭代优化后的一个cart回归树,通过串行求和所有的优化cart回归树更新微生物-疾病关联预测模型,直到达到与p相等的迭代次数时为止,得到训练好的微生物-疾病关联预测模型。采用拟牛顿法更新梯度可以加快cart回归树梯度的计算过程,通过对损失函数的优化,可以使用损失函数的一阶导数和二阶导数来计算cart回归树的梯度,相比于随机梯度下降法计算和收敛速度更快。由于每次迭代时会训练出来一个cart回归树来拟合样本残差,所以通过将所有的cart回归树进行加和得到的预测模型具有低偏差的特点。
[0047]
步骤5中所述损失函数l2如下:
[0048][0049]
其中,li表示第i个训练样本di的标签,g(di)表示微生物-疾病关联预测模型对第i个训练样本di的预测概率。
[0050]
步骤6,预测微生物与疾病的关联。
[0051]
采用与步骤2相同的方法,得到待预测的疾病表征矩阵和微生物表征矩阵,将待预测的疾病表征矩阵和微生物表征矩阵输入到训练好的微生物-疾病关联预测模型中,输出微生物与疾病之间关联预测概率。

技术特征:
1.一种基于多尺度图变分自编码器的微生物-疾病关联预测方法,其特征在于,通过训练多尺度图变分自编码器得到疾病表征矩阵和微生物表征矩阵,构建微生物-疾病关联预测模型;该预测方法的步骤包括如下:步骤1,构建基于多尺度图变分自编码器:步骤1.1,搭建一个由第一单尺度gcn层、第二单尺度gcn层、多尺度gcn层串联组成的编码器,其中,两层单尺度gcn提取初步特征,编码器中的激活函数均选取relu函数实现;将第一、第二gcn层的输出维度分别设置为512、128,多尺度gcn层的三个输出尺度分别设置为64、32、16;编码器中的dropout值均设置为0.5;步骤1.2,搭建一个由点积解码器、第一全连接层、第二全连接层并联组成的解码器;将第一、第二全连接层的输出维度分别设置为512、128,第一、第二全连接层的dropout值设置为0.5;步骤2,通过训练多尺度图变分自编码器得到疾病表征矩阵和微生物表征矩阵:步骤2.1,将疾病相似性矩阵和微生物-疾病关联矩阵a输入到多尺度图变分自编码器中,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数作为疾病表征矩阵;步骤2.2,将微生物相似性矩阵和微生物-疾病关联矩阵a输入到多尺度图变分自编码器中,采用梯度下降法,对自编码器的参数进行迭代更新,直到损失函数l1收敛为止,得到了训练好的多尺度图变分自编码器,将当前输出的多尺度图变分自编码器的参数作为微生物表征矩阵;步骤3,构建训练集:将关联矩阵a中元素值为1的元素选为正样本,从关联矩阵a中随机选取与正样本数量相同的元素值为0的元素为负样本,按照正负样本的行序号和列序号,分别抽取疾病表征矩阵对应的行和微生物表征矩阵的对应行,组成疾病-微生物特征表示向量,将所有表示向量拼接成特征表示矩阵作为训练集;步骤4,构建一个由p个cart回归树串行求和后组成的微生物-疾病关联预测模型,其中,p≥20;步骤5,训练微生物-疾病关联预测模型:将训练集输入到微生物-疾病关联预测模型中,计算每次迭代后损失函数l2的结果并使用拟牛顿法更新cart回归树的梯度,得到当前迭代优化后的一个cart回归树,通过串行求和所有的优化cart回归树更新微生物-疾病关联预测模型,直到达到与p相等的迭代次数时为止,得到训练好的微生物-疾病关联预测模型;步骤6,预测微生物与疾病的关联:采用与步骤2相同的方法,得到待预测的疾病表征矩阵和微生物表征矩阵,将待预测的疾病表征矩阵和微生物表征矩阵输入到训练好的微生物-疾病关联预测模型中,输出微生物与疾病之间关联预测概率。2.根据权利要求1所述的基于多尺度图变分自编码器的微生物-疾病关联预测方法,其特征在于,步骤1.1中所述微生物-疾病关联矩阵a指的是,大小为m
×
n且第m行第n列元素a
mn
的值为0或1的微生物-疾病关联矩阵a,其中,m表示微生物-疾病关联矩阵中行的序号,m=
1,2,...,m,m表示微生物-疾病关联矩阵a行的总数,m≥1000,n表示微生物-疾病关联矩阵中列的序号,n=1,2,...,n,n表示微生物-疾病关联矩阵a列的总数,n≥200,a
mn
的值为0时表示第m行微生物和第n列疾病之间实际不存在关联,a
mn
的值为1时表示第m行微生物和第n列疾病之间实际存在关联。3.根据权利要求1所述的基于多尺度图变分自编码器的微生物-疾病关联预测方法,其特征在于,步骤2.1中所述疾病相似性矩阵指的是,大小为m
×
m且元素值在区间0到1之内的矩阵,其中,m表示微生物-疾病关联矩阵a行的总数,m≥1000,步骤2.2中所述微生物相似性矩阵,指的是,大小为n
×
n且元素值在区间0到1之内的矩阵,其中,n表示微生物-疾病关联矩阵a列的总数,n≥200。4.根据权利要求1所述的基于多尺度图变分自编码器的微生物-疾病关联预测方法,其特征在于,步骤2.1中所述损失函数l1如下:其中,表示输入矩阵sm与重构矩阵的交叉熵损失,q(z|sm,x)表示输入矩阵sm经过编码器编码后得到的特征表示z所服从的分布,w2[q(z
m
|sm,x)|p(z
m
)]表示多尺度gcn层中第m个拟合的分布q(z
m
|sm,x)与正态先验分布p(z
m
)之间的2-wasserstein distance,表示第l个辅助任务的交叉熵损失。5.根据权利要求1所述的基于多尺度图变分自编码器的微生物-疾病关联预测方法,其特征在于,步骤3中所述正负样本的特征表示矩阵为,d={d1,d2,...,d
k
,...,d
k
},其中,d
k
表示第k个样本的特征表示向量,1≤k≤k,k≥1000。6.根据权利要求1所述的基于多尺度图变分自编码器的微生物-疾病关联预测方法,其特征在于,步骤5中所述损失函数l2如下:其中,l
i
表示第i个训练样本d
i
的标签,g(d
i
)表示微生物-疾病关联预测模型对第i个训练样本d
i
的预测概率。

技术总结
本发明提出了一种基于多尺度图变分自编码器的微生物-疾病关联预测方法,实现步骤为:构建基于多尺度图变分自编码器;通过训练多尺度图变分自编码器得到疾病表征矩阵和微生物表征矩阵;构建训练集;构建微生物-疾病关联预测模型;训练微生物-疾病关联预测模型;预测微生物与疾病的关联;本发明解决了现有技术对数据扰动的抵抗力不足、模型学习到的特征表示的表征能力不强、无法有效地利用学习到的特征的技术问题,有效地提高了模型的抗数据扰动能力和模型的表征能力,并保证了模型预测微生物-疾病关联时能够充分利用每一维特征,可用于发现生物标志物。现生物标志物。现生物标志物。


技术研发人员:鱼亮 祝焕
受保护的技术使用者:西安电子科技大学
技术研发日:2023.05.15
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐