多视角自注意力预测药物与疾病关联的方法与流程
未命名
09-15
阅读:166
评论:0
1.本发明涉及生物技术领域,具体地涉及多视角自注意力预测药物与疾病关联的方法。
背景技术:
2.药物研发是一个时间漫长且成本高昂的过程。根据scannell等人的估计,新药上市的总时间至少为13-15年,平均成本在20亿至30亿美元之间。尽管如此,即使价格如此高,大多数药物开发仍然失败。因此,找到一种低风险、高效的药物开发方法是有意义和重要的。药物重定位,也称为药物再利用或再安排,为现有或研究药物寻找新的医学适应症的一种很有前途的策略。它被1988年诺贝尔医学奖得主詹姆斯
·
怀特
·
布莱克爵士誉为发现新药最富有成果的基础。事实上,美国食品药品监督管理局(fda)最近批准的新药和疫苗中,约30%是通过药物重定位方法开发的,这一事实证明了这种方法的重要性。在涉及药物重定位的各种过程中,确定新的药物-疾病相关性至关重要。
3.第一个被广泛采用的药物重定位计算框架是基于网络的。drugnet是一个由相互连接的药物、蛋白质和疾病组成的网络,通过基于网络的优先排序方法预测关联。mbirw将药物相似性网络和疾病相似性网络整合到具有已知药物-疾病相互作用的异构网络中,并使用双随机游走算法来预测潜在的关联。dr-ibrw将药物和疾病信息编码到异构网络中,并执行具有量化步行长度的双随机步行来识别关联。尽管这种基于网络的方法具有良好的可解释性,但其性能并不令人满意。
4.基于机器学习的方法是预测药物与疾病相关性的另一种重要方法。它通常收集有关药物和疾病的各种生物信息作为先验知识,并将关联预测建模为二元分类问题。例如,lrssl集成药物化学信息、药物靶域信息和靶注释信息,以基于拉普拉斯正则化稀疏子空间学习预测新的关联。然而,这些基于特征的分类方法在很大程度上依赖于特征的提取和负样本的选择。除了传统的机器学习技术外,矩阵完成和矩阵因子分解已被成功地用于预测药物与疾病的关联。例如,scmfdd在生物相似性的约束下,将药物-疾病的关联关系投影到两个潜在的低秩空间中,并在这两个空间上采用非负矩阵分解方法来预测新的药物-疾病关联。drimc通过投影四种类型的药物数据源和两种类型的疾病数据源来计算药物和疾病的财产;然后,它使用贝叶斯归纳矩阵完成方法计算每个药物-疾病对的关联概率。drhgcn通过异构信息融合图卷积网络提取特征,该网络并行融合域间和域内特征;然后,它应用内积解码器来预测药物-疾病关联的得分。这些方法仅利用成对疾病和成对药物之间的单一相似性信息。事实上,成对药物(或成对疾病)的相似性不仅是有噪声的,而且是多模态的,可以从不同的方面来衡量。融合各种药物和疾病数据源的多个相似性度量可以捕获数据的不同表示,从而进一步提高模型的预测能力。
5.在实施本实施例过程中,发明人发现现有技术中药物-疾病关联预测方法的研究仍存在以下缺陷。
6.1.样本数量有限:现有的药物-疾病关联预测方法仍然面临着样本数量不足的问
题,尤其是缺乏大规模的临床数据,这限制了预测模型的鲁棒性和准确性。
7.2.机制不清:虽然现有研究已经揭示了药物-疾病相互作用的一些机制,但对于某些药物-疾病对之间的确切机制仍然不够清楚,这也影响了预测方法的精度和可靠性。
8.3.技术不完善:尽管深度学习在预测性能方面非常有效,但用于药物-疾病关联预测的方法还不够全面,需进一步的发展和完善。
技术实现要素:
9.为解决现有技术中的至少部分技术问题,本发明提供多视角自注意力预测药物与疾病关联的方法。具体地,本发明包括以下内容。
10.本发明的第一方面,提供一种多视角自注意力预测药物与疾病关联的方法,包括:
11.初始化药物和疾病的多视图嵌入;
12.从多视图嵌入中提取和集成特征,得到药物特征和疾病特征;
13.基于自注意力的特征融合组件将药物特征和疾病特征融合,得到药物-疾病特征对;
14.通过解码器对药物-疾病特征对进行解码,并计算药物和疾病之间关联的可能性,基于解码结果和计算结果得到药物与疾病关联预测模型。
15.本发明的多视角自注意力预测药物与疾病关联的方法,通过提取和集成特征,然后将药物特征和疾病特征融合,通过解码器对药物-疾病特征对进行解码,并计算药物和疾病之间关联的可能性,从而提高预测的精度和可靠性。
附图说明
16.图1为本实施例公开的多视角自注意力预测药物与疾病关联的方法的流程图;
17.图2为本实施例公开的在fdataset上进行10折交叉验证的auc和aupr值示意图;
18.图3为本实施例公开的在cdataset上进行10折交叉验证的auc和aupr值示意图。
具体实施方式
19.现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
20.应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
21.除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
22.一种多视角自注意力预测药物与疾病关联的方法,包括:
23.初始化药物和疾病的多视图嵌入;
24.从多视图嵌入中提取和集成特征,得到药物特征和疾病特征;
25.基于自注意力的特征融合组件将药物特征和疾病特征融合,得到药物-疾病特征对;
26.通过解码器对药物-疾病特征对进行解码,并计算药物和疾病之间关联的可能性,基于解码结果和计算结果得到药物与疾病关联预测模型。
27.所述基于解码结果和计算结果得到药物与疾病关联预测模型的步骤之后,还包括:
28.对药物与疾病关联预测模型进行优化;
29.对优化后的药物与疾病关联预测模型进行验证。
30.多视角自注意力预测药物与疾病关联的方法,基于sgmvsa来预测药物-疾病的相关性,sgmvsa的总体工作流程附图1所示,包括以下步骤:
31.步骤一:初始化药物和疾病的多视图嵌入。详细过程包括:
32.首先预测新药-疾病的关联可以视为生物二分网络上的二元分类问题。这个网络由两个不同的生物实体集组成,一个用于药物n,表示为r={r1,r2,...,rn},另一个用于疾病m,表示为d={d1,d2,...,dm}。网络中的关联是药物与疾病之间的关联,通常表示为二元邻接矩阵y∈rn×m。如果药物ri与疾病dj相关并且能观察到这种关联,则元素y
i,j
将被设置为1,否则为0。
33.然后从不同角度计算药物-药物的生物相似度,本实施例用表示对应的相似度,其中i={1,2,...,nr},也就是总共从nr个角度计算药物-药物的生物相似度。对于疾病-疾病生物相似度也是同理,j={1,2,...,nd}。nr和nd表示药物空间和疾病空间的数据源编号。计算相似性之后,药物空间相似性和疾病空间相似性用零填充,不同视图的初始嵌入计算如下:
[0034][0035][0036]
其中表示各个药物的初始嵌入;表示各个疾病的初始嵌入;zeros表示0矩阵;表示从不同方面计算得到的药物-药物特征;表示从不同方面得到的疾病-疾病特征。
[0037]
步骤二:从多视图嵌入中提取和集成特征,sgmvsa并行使用两个特征提取组件来分别提取药物空间特征和疾病空间特征。详细过程包括:
[0038]
首先对输入嵌入进行层归一化,以实现更有效的优化。然后,使用以下公式计算药物空间和疾病空间中不同视图的和:
[0039][0040][0041]
其中q、k、v为query、key和value,分别用来计算不同的注意力权重,从而实现对输
入序列的关注和推理。具体而言,q表示查询向量(query vector),k表示键向量(key vector),v表示值向量(value vector),在计算注意力权重时,首先通过键向量和查询向量计算出每个位置的相似度,然后再将相似度与对应位置的值向量进行加权平均,得到输出的特征表示。q、k、v是计算自注意力时必备的3个矩阵,其中r和d分别表示药物空间和疾病空间,i和j分别表示药物和疾病的第i和第j个数据源;ln(
·
)表示层归一化;和为投影归一化嵌入的两组参数,i={1,2,...,r},j={1,2,...,d},其中//为数学意义上的整除,因为实验最后是把不同视图(如药物方面)计算出来的特征进行拼接,同时希望拼接出来的特征能够和原特征相加,能解决梯度消失问题,因此不同视图的特征通过w进行映射的时,让其通过w映射后的维度,等于原维度整除总数据源个数。
[0042]
注意,与使用多个组参数的多头自注意力(mhsa)不同,使用单个组参数来强调同一空间中不同视图的共同属性。称之为多视角自注意力(mvsa)机制。
[0043]
此外,受graphormer的启发,将节点对的属性信息引入到计算自注意力的过程中。在本实施例中,将四种药物相似性和两种疾病相似性视为总权重的重要指导项。不同视图的最终聚合权重表示为或计算如下:
[0044][0045][0046]
其中softmax为归一化函数,目的是将输出值的范围映射到[0,1],并且输出值和为1;表示从不同方面计算得到的药物-药物特征;表示从不同方面计算得到疾病-疾病特征;t表示对矩阵进行转置操作;表示药物空间;表示疾病空间,i={1,2,...,r},j={1,2,...,d};和分别是和的特征维度;topk(
·
)是控制相似性引导项影响的策略。具体来说,对于相似度矩阵s,如果元素i是元素j的最近邻topk,则保留相似度值s
i,j
;否则,将被设置为0。
[0047]
药物空间和疾病空间的不同视图中的特征被水平连接,然后用和投影,以将它们恢复到其原始尺寸rn×n或rm×m。药物和疾病的多视角自注意力(mvsa)计算如下:
[0048][0049][0050]
mvsa为最终输出函数,er、ed分别表示为的集合,即药物空间和疾病空间的所有输入,其中er为二维矩阵,为三维矩阵;concat表示拼接操作,本研究中表示为横向拼接。表示药物空间的聚合权重;表示疾病空间的聚合权重;和为参数
矩阵,为了将拼接得到的特征映射到原始矩阵。
[0051]
最后,对提取的特征进行分层归一化,并将它们与不同视图输入嵌入的平均值联系起来。使用以下公式计算特征提取组件的最终输出:
[0052][0053][0054]
步骤三:基于自注意力的特征融合组件将药物特征和疾病特征充分融合。详细过程包括:
[0055]
特征融合组件的输入嵌入是通过连接两个空间的集成特征获得的,如下所示:
[0056][0057]
与在特征提取组件中一样,这里采用了层归一化操作,q,k和v通过进行计算,如下所示:
[0058][0059]
已知的关联信息y对预测至关重要。为了将其引入自注意力的计算,y被转换为具体来说,y的第一个n行代表药物,剩下的m行代表疾病。如果相应的药物和疾病相互关联,则元素设置为1;如果i=j,则该元素也可以设置为1。这个转换过程如下:
[0060][0061]
显然,y是一个对称矩阵。通过将其与按比例缩放的点积相似性计算的聚合权重相结合,使其成为自注意力的额外引导信息。因此,不同空间的特征可以通过以下公式进行融合:通过将y与由缩放的点积相似性计算的聚合权重相结合,使y成为自注意力的附加指导信息。因此,不同空间的特征融合为以下公式:
[0062][0063][0064]
其中d
krd
是k
rd
和的特征维度。
[0065]
特征融合组件的最终输出计算为:
[0066][0067]
为了防止模型过拟合并减少实验室测量数据中的噪声,在计算自注意力,在和a
rd
上应用了随机丢弃。
[0068]
步骤四:通过解码器对药物-疾病特征对进行解码,并计算药物、疾病两者之间关
联的可能性。详细过程包括:
[0069]
采用多层感知器神经网络解码器来重建药物-疾病二分网络中的关联。对于药物和疾病,将相应的特征对输入一个三层线性神经网络,如下所示:
[0070]
mlp1=relu(linear(ri,dj)),mlp1∈r1×
(n+m)
,
[0071]
mlp2=relu(linear(mlp1),mlp2∈r1×
((n+m)//2)
,
[0072]
p
i,j
=sigmoid(dropout(mlp2),
[0073]
其中p
i,j
表示药物ri与疾病dj之间存在关联的可能性。
[0074]
步骤五:将设计好的模型进行模型优化。详细过程包括:
[0075]
已知的药物-疾病关联对于预测新的关联至关重要。将药物ri与疾病dj的配对表示为(,j),已知的关联配对设置为y
+
,其他配对设置为y-。采用加权二元交叉熵函数作为损失函数:
[0076][0077]
其中λ=|y-|/|y
+
|是施加观察到的药物-疾病关联影响的平衡因子,|y-|和|y
+
|分别是y-和y
+
中的配对数量。损失函数通过adam优化器最小化,该优化器可以迭代更新参数。
[0078]
步骤六,对模型进行优化后,还进行了模型的验证,验证的具体步骤为:
[0079]
k折交叉验证是一种广泛使用的框架,通过减少不同数据集分割方式的影响来综合评估预测性能。为了测试预测新关联的能力,在本实施例中,所有已知和未知的药物-疾病关联被随机分为k个子集。在每k折叠中,选择1/已知的关联和1/未知的关联作为测试集来评估模型;其余子集被视为一个训练集。将所有折叠实验的平均性能作为最终性能。在本研究中,选择了五个评估指标:受试者工作特征曲线下面积、精度恢复曲线下面积、精度、召回率和f1-score。f1-score是统计学中用来衡量二分类模型精确度的一种指标。
[0080]
为了计算评估指标,设置了一个阈值θ,当药物-疾病关联预测得分高于θ时,该预测被确定为阳性样本;否则,它被确定为阴性样本。使用以下公式计算真阳性率(tpr)、假阳性率(fpr)、精度(pre)、召回率(rec)和f1-score:
[0081]
tpr=tp/(tp+fn),
[0082]
fpr=fp/(tn+fp),
[0083]
pre=tp/(tp+fp),
[0084]
rec=tp/(tp+fn),
[0085]
f1=2*(pre*rec)/(pre+rec),
[0086]
其中tp和tn分别是正确识别的正关联和负关联的数量;fn和fp分别是正关联和负关联的错误识别数。在不同阈值θ下,绘制了受试者工作特性曲线(roc)和精度恢复曲线(pr),并计算相应的面积。
[0087]
如图2和图3所示为在fdataset、cdataset上进行10折交叉验证的auc和aupr值,显然,sgmvsa两个数据集上都获得了最佳的auc和aupr。与性能第二好的hgimc相比,sgmvsa在两个数据集上的平均表现分别好2.24%(auc)、6.05%(aupr)。
[0088]
在步骤六中,为了确定sgmvsa在药物重定位中的可靠性,还进行了具体的案例研究,具体步骤如下:
[0089]
对10种肿瘤的计算预测候选药物进行了案例研究。所有已知的药物-疾病关联被
视为训练集,所有未知的配对被视为候选集。肿瘤可能很严重,它们的治疗通常结合手术和药物。的方法预测的药物-疾病相关性通过高度可靠的来源和临床试验(即ctd、drugbank和clinicaltrials)进行检查。比较毒素基因组学数据库(ctd)是一个强大的开源研究资源,提供重要的化学-疾病关联信息。此外,drugbank和clinicaltrials是临床试验信息的两个权威信息来源。需要注意的是,首先选择了ctd中的治疗药物-疾病相关性(记为ctd_t)作为证据。如果没有证据表明预测的药物可以治疗这种疾病,在drugbank或clinicaltrials的临床试验研究中寻找证据。表1和表2分别列出了fdataset和cdataset的预测结果和相应证据。一般来说,在50个预测中,28个预测在ctd中有治疗证据,其余22个预测中只有3个没有证据。两个数据集上所有预测的药物-疾病关联的两个列表都提供了sgmvsa的代码。
[0090]
表1为fdataset上前5名sgmvsa预测的5种肿瘤药物
[0091]
[0092][0093]
表2为cdataset上前5名sgmvsa预测的5种肿瘤药物
[0094][0095][0096]
术语解释:
[0097]
adam优化器:即一种对随机目标函数执行一阶梯度优化的算法,该算法基于适应性低阶矩估计。
[0098]
dropout:在训练神经网络模型时比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。
[0099]
现有技术中,药物-疾病关联预测方法的研究仍存在缺陷,例如样本数量有限、机制不清。尽管深度学习在预测性能方面非常有效,但用于药物-疾病关联预测的方法还不够全面,需进一步的发展和完善。为解决一部分缺陷,本实施例提出的预测方法,与以前的药物-疾病关联预测方法相比,首先设计了一个基于相似度特征的提取组件,该组件通过使用相同的组参数来强调共同的性质从而计算多个视图下的自注意力。同时,将多源数据之间的生物医学相似性作为计算相似性的指导项,以获得更全面的特征。然后,通过特征融合组件整合这些特征,使已知的药物-疾病关联成为指导术语;能够探索不同视图的互补性质。最后,通过多层感知器神经网络计算可能的药物-疾病关联。多种类型的交叉验证实验和案例研究验证sgmvsa的有效性。比现有的药物-疾病关联预测方法的效果要好。
[0100]
本实施例公开的电子设备包括存储器和处理器。该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。
[0101]
该处理器可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本公开各实施例的多视角自注意力预测药物与疾病关联的方法全部或部分步骤。
[0102]
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
[0103]
电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(rom)中的程序或者从存储装置加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中,还存储有电子设备操作所需的各种程序和数据。处理装置、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0104]
通常,以下装置可以连接至i/o接口:包括例如传感器或者视觉信息采集设备等的输入装置;包括例如显示屏等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备(比如边缘计算设备)进行无线或有线通信以交换数据。但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0105]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从rom被安装。在该计算机程序被处理装置执行时,执行本公开实施例的多视角自注意力预测药物与疾病关联的方法的全部或部分步骤。
[0106]
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0107]
根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指
令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的多视角自注意力预测药物与疾病关联的方法的全部或部分步骤。
[0108]
上述计算机可读存储介质包括但不限于:光存储介质(例如:cd-rom和dvd)、磁光存储介质(例如:mo)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置rom的媒体(例如:rom盒)。
[0109]
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0110]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0111]
在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0112]
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“a、b或c的至少一个”的列举意味着a或b或c,或ab或ac或bc,或abc(即a和b和c)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
[0113]
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0114]
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
[0115]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0116]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
技术特征:
1.一种多视角自注意力预测药物与疾病关联的方法,其特征在于,包括:初始化药物和疾病的多视图嵌入;从多视图嵌入中提取和集成特征,得到药物特征和疾病特征;基于自注意力的特征融合组件将药物特征和疾病特征融合,得到药物-疾病特征对;通过解码器对药物-疾病特征对进行解码,并计算药物和疾病之间关联的可能性,基于解码结果和计算结果得到药物与疾病关联预测模型。2.根据权利要求1所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述基于解码结果和计算结果得到药物与疾病关联预测模型的步骤之后,还包括:对药物与疾病关联预测模型进行优化;对优化后的药物与疾病关联预测模型进行验证。3.根据权利要求1或2所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述初始化药物和疾病的多视图嵌入,包括:初始嵌入计算如下:初始嵌入计算如下:其中表示各个药物的初始嵌入;表示各个疾病的初始嵌入;zeros表示0矩阵;表示从不同方面计算得到的药物-药物特征;表示从不同方面得到的疾病-疾病特征,r
n
×
(n+m)
和r
m
×
(n+m)
均代表特征维度,n为药物个数,m为疾病个数。4.根据权利要求2所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述从多视图嵌入中提取和集成特征,得到药物特征和疾病特征,包括:并行使用两个特征提取组件来分别提取药物空间特征和疾病空间特征。5.根据权利要求4所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述并行使用两个特征提取组件来分别提取药物空间特征和疾病空间特征,包括:对输入嵌入进行层归一化,使用公式计算药物空间和疾病空间中不同视图的和,计算公式如下:公式如下:其中,q表示查询向量,k表示键向量,v表示值向量,以及为归一化嵌入的两组参数。6.根据权利要求5所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述对输入嵌入进行层归一化,使用公式计算药物空间和疾病空间中不同视图的和,包括:不同视图的最终聚合权重表示为或或
其中,softmax为归一化函数;表示药物-药物特征;表示疾病-疾病特征;t表示对矩阵进行转置操作;表示药物空间的聚合权重;表示疾病空间的聚合权重,i={1,2,...,
r
},j={1,2,...,
d
};和分别是和的特征维度;topk(
·
)是控制相似性引导项影响的策略,topk为邻近算法;使用药物和疾病的多视角自注意力将药物空间和疾病空间的不同视图中的特征被水平连接,然后用和投影,以将视图恢复到原始尺寸,药物和疾病的多视角自注意力计算如下:药物和疾病的多视角自注意力计算如下:mvsa为输出函数,e
r
、e
d
分别表示为的集合,即药物空间和疾病空间的所有输入;concat表示为横向拼接,和为参数矩阵;即为即为和为值向量矩阵;对提取的特征进行分层归一化,并将提取的特征与不同视图输入嵌入的平均值联系,使用以下公式计算特征提取组件的输出,使用以下公式计算特征提取组件的输出,extraction为提取函数,n
r
和n
d
分别表示药物空间和疾病空间的数据源编号。7.根据权利要求6所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述基于自注意力的特征融合组件将药物特征和疾病特征融合,得到药物-疾病特征对,包括:通过连接两个空间的集成特征获得特征融合组件的输入嵌入:采用层归一化操作输入嵌入,q表示查询向量,k表示键向量,v表示值向量,rd表示融合特征,和为归一化嵌入的参数;将药物与疾病之间的关联信息y被转换为如果相应的药物和疾病
相互关联,则元素设置为1;如果i=j,则该元素也可以设置为1,转换过程如下:过将y与按比例缩放的点积相似性计算的聚合权重相结合,使y成为自注意力的额外引导信息,不同空间的特征通过以下公式进行融合,不同空间的特征通过以下公式进行融合,其中是k
rd
和的特征维度,q表示查询向量,k表示键向量,v表示值向量,为参数矩阵,a
rd
为聚合权重,sa(m)为融合结果;特征融合组件的最终输出计算为8.根据权利要求7所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述通过解码器对药物-疾病特征对进行解码,并计算药物和疾病之间关联的可能性,包括:采用多层感知器神经网络解码器来重建药物-疾病二分网络中的关联;对于药物和疾病,将相应的特征对输入一个三层线性神经网络,如下所示:mlp1=relu(linear(r
i
,d
j
)),mlp1∈r1×
(n+m)
,mlp2=relu(linear(mlp1),mlp2∈r1×
((n+m)//2)
,p
i,j
=sigmoid(dropout(mlp2),其中,mlp1和mlp2为神经网络,relu、linear、sigmoid和dropout均为计算函数,p
i,j
表示药物r
i
与疾病d
j
之间存在关联的可能性,r1×
(n+m)
和r1×
((n+m)//2)
为特征维度。9.根据权利要求8所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述对药物与疾病关联预测模型进行优化,包括:将药物r
i
与疾病d
j
的配对表示为(i,j),已知的关联配对设置为y
+
,其他配对设置为y-,采用加权二元交叉熵函数作为损失函数:其中λ=|y-|/|y
+
|是施加观察到的药物-疾病关联影响的平衡因子,|y-|和|y
+
|分别是y-和y
+
中的配对数量,n为药物个数,m为疾病个数。10.根据权利要求9所述的多视角自注意力预测药物与疾病关联的方法,其特征在于,所述对优化后的药物与疾病关联预测模型进行验证,包括:将所有已知和未知的药物-疾病关联随机分为k个子集,选择1/k已知的关联和1/k未知的关联作为测试集来评估模型,其余子集被视为一个训练集;将所有折叠实验的平均性能作为最终性能;
为了计算评估指标,设置了一个阈值θ,当药物-疾病关联预测得分高于θ时,该预测被确定为阳性样本;否则,它被确定为阴性样本;使用以下公式计算真阳性率tpr、假阳性率fpr、精度pre、召回率rec和f1-score:tpr=tp/(tp+fn)fpr=fp/(tn+fp)pre=tp/(tp+fp)rec=tp/(tp+fn)f1=2*(pre*rec)/(pre+rec)其中tp和tn分别是正确识别的正关联和负关联的数量;fn和fp分别是正关联和负关联的错误识别数;在不同阈值θ下;绘制受试者工作特性曲线roc和精度恢复曲线pr,并计算相应的面积。
技术总结
本发明公开一种多视角自注意力预测药物与疾病关联的方法,包括:初始化药物和疾病的多视图嵌入;从多视图嵌入中提取和集成特征,得到药物特征和疾病特征;基于自注意力的特征融合组件将药物特征和疾病特征融合,得到药物-疾病特征对;通过解码器对药物-疾病特征对进行解码,并计算药物和疾病之间关联的可能性,基于解码结果和计算结果得到药物与疾病关联预测模型。达到提高预测的精度和可靠性的目的。的。的。
技术研发人员:许俊林 尚旭东 颜思慧 卢长城 孟亚洁 唐贤方 杨家亮 田埂
受保护的技术使用者:元码基因科技(北京)股份有限公司
技术研发日:2023.06.21
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种系统性能优化方法与流程 下一篇:一种电视机屏幕生产加工检测装置的制作方法
