一种结合Transformer和图神经网络的药物靶标相互作用预测方法
未命名
07-14
阅读:184
评论:0
一种结合transformer和图神经网络的药物靶标相互作用预测方法
技术领域
1.本发明属于人工智能领域,具体涉及一种结合transformer和图神经网络的药物靶标相互作用预测方法。
背景技术:
2.药物—靶标相互作用(dti)的预测在药物发现中起着至关重要的作用。新药的发现和开发既昂贵又耗时。一种新药的典型发现过程通常花费5至26亿美元,耗时15年。随着2019年新型冠状病毒等新疾病的出现,药物发现显得更为重要。药物化合物和靶标蛋白质之间相互作用的识别在药物发现和药物再利用中起着至关重要的作用。通过计算方法预测药物—靶标相互作用可以缩短药物发现时间并有效降低研究成本。因此,开发准确有效的预测dti的方法至关重要,也是迫切需要的。近年来,深度学习方法在dti预测中得到了广泛应用。然而,现有的大多数研究没有充分利用药物化合物的分子结构和蛋白质的序列结构,使得这些模型无法获得精确和有效的特征表示。
3.目前,最广泛使用的药物—靶标相互作用预测方法是用不同的描述符分别表示药物和蛋白质,然后将这些表示向量输入到各类深度神经网络中,如卷积神经网络、循环神经网络及图神经网络,以此预测相互作用。已有大量研究表明,基于图神经网络的模型可以有效地从药物分子结构图中提取拓扑信息。此外,基于transformer的模型也被证明能够提取蛋白质序列和药物分子的部分特征信息。然而,目前基于图神经网络的药物—靶标相互作用预测研究大多集中于捕捉药物分子的节点特征,而忽略了边特征的提取和处理。这可能导致在构建药物分子图之后丢失重要的结构信息。另一方面,许多方法将蛋白质表示为氨基酸序列,并使用卷积神经网络对其进行编码。然而,现有的浅层卷积不足以捕获蛋白质初级结构的结构特征。
技术实现要素:
4.本发明目的是:提供一种结合transformer和图神经网络的药物—靶标相互作用预测方法,分别使用氨基酸序列和分子图来表示蛋白质和药物,并分别使用卷积神经网络和图神经网络对其进行编码,再使用transformer已获得数据的最终特征表示,以实现对给定药物—靶标对的相互作用预测。
5.本发明的技术方案是:一种结合transformer和图神经网络的药物靶标相互作用预测方法,其特征在于,包括以下步骤:
6.(1)数据表示,将数据集中的药物化合物表示为分子图,靶标蛋白质表示为氨基酸序列;
7.(2)特征提取,使用图卷积神经网络和卷积神经网络分别学习药物化合物和蛋白质序列的特征表示,将获得的药物图信息和蛋白质氨基酸残基信息独立地输入到transformer编码器中获得药物化合物和蛋白质的特征表示;
8.(3)预测模块,将从药物化合物和蛋白质中提取的特征表示连接在一起,从而获得给定药物靶标对的组合表示,所述组合表示的特征向量被输入到多层感知机中以获得最终的dti预测。
9.进一步的,所述步骤(1)具体为,选取数据集并且将所述数据集分为训练集、验证集和测试集;药物化合物以smiles编码的形式输入,在预处理过程中,通过rdkit将输入的药物化合物的smiles编码转换为图结构;蛋白质以氨基酸序列的形式输入,对于蛋白质氨基酸序列,在训练之前使用嵌入操作。
10.进一步的,所述选取的数据集为human和c.elegans数据集。
11.进一步的,所述步骤(2)具体为,
12.(a)使用三层图卷积神经网络,通过该网络获得每种药物化合物的图形级特征表示,多层图卷积层通过两个阶段过程将输入图映射为图级表示向量;
13.(b)采用三个不同层的卷积神经网络架构来检测蛋白质的局部残留物信息,在卷积神经网络的不同层之后,执行全局最大池来捕获重要的局部残差特征;然后将从卷积神经网络的三个不同层获得的这三个特征向量连接起来,将它们输入线性层以获得蛋白质特征表示;
14.(c)使用的两个transformer编码器并行计算药物特征和蛋白质特征的上下文表示,以此多头注意力机制能够学习到各个元素之间的相似性和依赖性,完成特征的提取。
15.进一步的,所述步骤(3)具体为,在通过transformer编码器获得药物和蛋白质的两个特征表示后,分别将它们与之前获得的图神经网络药物特征和卷积神经网络蛋白质特征连接起来,然后将它们连接在一起并输入全连接层模块中,以预测给定的药物靶标相互作用的可能性。
16.本发明的优点是:
17.本发明提出了一种结合transformer和图神经网络的端到端深度学习方法。在此模型中,将药物化合物表示为分子图,靶标蛋白表示为氨基酸序列。此外,还使用图卷积神经网络和卷积神经网络分别学习药物原子和蛋白质序列的特征表示。然后将获得的药物图信息和蛋白质局部残基信息分别输入到transformer编码器中,以便可以将图神经网络和transformer的优点结合在一起。由于transformer中的多头注意力机制,本发明的方法可以在更深层次上挖掘药物分子的原子信息和蛋白质序列中的残基信息。深度学习模型在小样本数据上学习时容易出现过拟合,而本模型是通过结合transformer和图神经网络进行分类,提高了模型的泛化能力,在小样本数据上取得了很好的效果。本发明所使用的方法是一种端到端的模型,与其他现有技术相比,本模型可以显著提高预测精度。
附图说明
18.下面结合附图及实施例对本发明作进一步描述:
19.图1为本发明的结合transformer和图神经网络的药物靶标相互作用预测方法的流程图。
20.图2为药物数据的特征提取模块图。
21.图3为蛋白质数据的特征提取模块图。
具体实施方式
22.实施例:本发明的技结合transformer和图神经网络的药物—靶标相互作用预测方法,包含以下步骤:
23.1.数据表示:将数据集中的药物化合物表示为分子图,靶标蛋白质表示为氨基酸序列;
24.2.特征提取:使用图卷积神经网络和卷积神经网络分别学习药物原子和蛋白质序列的特征表示。然后将获得的药物图信息和蛋白质氨基酸残基信息独立地输入到transformer编码器中,以此我们可以将图神经网络和transformer的优点相结合。由于transformer中的多头注意力机制,我们的发明可以在更深层次上挖掘药物分子的原子信息和蛋白质序列中的残基信息。
25.3.预测模块:在此模块中,将从药物和蛋白质中提取的特征表示连接在一起,从而获得给定药物—靶标对的组合表示。组合的特征向量被输入到多层感知机中以获得最终的dti预测。
26.如图1所示。具体步骤为:
27.1.数据表示:
28.为获取实验所需的药物和蛋白质数据,本方法选取了两个常用的基准数据集,分别为human和c.elegans数据集,这两个数据集已被广泛用于二进制分类任务。human和c.elegans数据集包含来自不同数据库的正药物—靶标对样本,包括drugbank、matador和stitch数据库,以及通过liu等人提出的系统筛选方法获得的负样本。根据先前的相关研究,我们将两个数据集按照8:1:1的比例随机分为训练集、验证集和测试集,以将我们的模型与其他方法进行比较。以下表一总结了两个基准数据集的信息:
29.表一 两个数据集的详细信息
30.数据集药物数量蛋白质数量相互作用数量human272620016726c.elegans176718767786
31.在将药物和蛋白质输入神经网络之前,首先需要对其进行处理和表示。在本发明中,药物的输入形式是smiles编码,该方法通过字符串描述三维化合物结构。另一方面,蛋白质以氨基酸序列的形式输入。然后,在预处理过程中,通过rdkit将输入的化合物smiles转换为图结构,其中节点和边分别表示原子和原子之间的化学键。其中,将每个原子特征表示为长度41的向量。对于蛋白质氨基酸序列,在训练之前使用嵌入操作。具体来说,我们提取代表氨基酸类别的唯一字母,每个字母进一步用整数表示。然后,可以使用这些整数将蛋白质序列转换为编码。为了提高训练过程的便利性,根据先前的研究,我们将蛋白质序列的最大长度设置为1000,以此覆盖数据集中的大部分蛋白质。
32.2.特征提取:
33.2.1图神经网络模块
34.进一步地,我们使用三层图卷积神经网络,通过该网络获得每种药物的图形级特征表示。一般来说,图表示为g=(v,e),其中v是节点集,e是边集。多层图卷积层通过两个阶段过程将输入图映射为图级表示向量。
35.在第一阶段,即消息传递阶段,通过实现以下两个步骤来提取图的特征:收集和更
新信息。每个原子xi从其相邻原子和边收集局部信息ti。然后使用图卷积层更新原子节点xi,如下所示:
[0036][0037]
其中w1、w2是可学习的权重向量,为节点i在t时刻的节点特征,是节点i的相邻节点,σ表示relu激活函数。通过以上公式,处理从先前步骤中学习的原子特征信息,以在每次迭代时获得更新的特征。
[0038]
然后,在第二阶段,即读取阶段,全局聚集给定药物化合物的节点特征。在读取阶段,为了从g中的节点向量集合中获得最终特征向量,我们按以下公式将节点进行嵌入:
[0039][0040]
其中表示药物分子中的原子数,l为最终迭代步骤。读取阶段将节点级表示聚合为64维图级特征表示,以满足本发明的需要。
[0041]
2.2卷积神经网络模块
[0042]
在此模块中,我们构建了多层卷积神经网络来提取蛋白质的深层特征。具体来说,我们设计了一个具有三个不同层的卷积神经网络架构来检测蛋白质的局部残留物信息。在卷积神经网络的不同层之后,执行全局最大池来捕获重要的局部残差特征。最后,我们将从卷积神经网络的三个不同层获得的这三个特征向量连接起来,然后将它们输入线性层以获得蛋白质特征表示。在我们的发明中,我们将最终的蛋白质表示的维度设置为64,与药物表示的维度相同。
[0043]
2.3 transformer模块
[0044]
为了分别捕获药物和蛋白质的生物和化学信息,我们使用了两个并行的transformer编码器。具体来说,用于药物特征提取的图卷积神经网络和用于蛋白质特征提取的卷积神经网络的输出向量随后被输入到两个编码器中。
[0045]
transformer编码器块的关键部分是多头注意模块。多头关注模块包含多个缩放的点注意力层,以提取关系信息并计算输入向量中每个元素的相似度。多头注意力层包含从输入转换的三个不同向量,包括键k、值v和查询q,这些向量由线性层从输入序列生成,并在不同的注意力头之间分割,然后计算注意力得分。进一步地,每个头部将一个查询q和一个键—值对映射到一个输出,该输出由值的加权和计算。分配给每个值的注意力权重是通过将softmax应用于查询和键之间的缩放点积来获得的。每个注意力头的输出被连接起来,输出向量的最终维度与输入向量相同。多头注意力层的公式表示如下:
[0046][0047]
multihead(q,k,v)=concat(head1,...,headn)w0[0048]
其中dk是输入大小,q,k,v为由输入序列经过线性层后得到的键、值和查询。w0为权重矩阵,n表示多头注意力机制的头数,在本
方法中设置为4。
[0049]
进一步地,在多头注意力模块之后,每个编码器包含一个全连接层和一个dropout模块,如下所示:
[0050]
ffn(x)=relu(xw1+b1)w2+b2[0051]
其中w1、w2表示可学习的权重矩阵,b1、b2为偏差项。注意力机制使得我们的方法能够专注于输入数据的一些重要和关键部分,从而模型可以分别直接捕获所获得的药物和蛋白质特征向量的相互作用和关系信息。此外,根据先前的一些研究,考虑到药物分子和蛋白质序列的元素顺序对于药物—靶标相互作用预测几乎没有影响,我们删除了transformer模型中的位置编码。总的来说,本发明中所使用的两个transformer编码器并行计算药物特征和蛋白质特征的上下文表示,以此多头注意力机制能够学习到各个元素之间的相似性和依赖性。
[0052]
药物和蛋白质数据的特征提取模块分别如下图2和3所示。
[0053]
3.预测模块:
[0054]
在通过transformer编码器获得药物和蛋白质的两个128维特征表示后,我们分别将它们与之前获得的图神经网络药物特征和卷积神经网络蛋白质特征连接起来。以此,我们分别获得了药物和蛋白质的两个192维特征表示。然后将它们连接在一起并输入全连接层模块中,以预测给定的药物—靶标相互作用的可能性。具体而言,本发明中的全连接层包含三层,以将获得的特征表示转换为交互概率。其中每个线性层被设置为跟随relu激活函数和dropout层。考虑到我们实验中的dti预测是一个二进制分类任务,我们使用交叉熵损失进行模型训练,如下所示:
[0055][0056]
其中和yi分别表示给定药物—靶标对的预测概率和真值概率,n为样本大小。
[0057]
本发明将药物化合物表示为分子图,靶标蛋白表示为氨基酸序列。此外,使用图卷积神经网络和卷积神经网络分别学习药物原子和蛋白质序列的特征表示。然后将获得的药物图信息和蛋白质局部残基信息分别输入到transformer编码器中,以便可以将图神经网络和transformer的优点结合在一起。由于transformer中的多头注意力机制,本方法可以在更深层次上挖掘药物分子的原子信息和蛋白质序列中的残基信息。深度学习模型在小样本数据上学习时容易出现过拟合,而本模型是通过结合transformer和图神经网络进行分类,提高了模型的泛化能力,在小样本数据上取得了很好的效果。本发明所使用的方法是一种端到端的模型,与其他现有技术相比,本模型可以显著提高预测精度。
[0058]
当然上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种结合transformer和图神经网络的药物靶标相互作用预测方法,其特征在于,包括以下步骤:(1)数据表示,将数据集中的药物化合物表示为分子图,靶标蛋白质表示为氨基酸序列;(2)特征提取,使用图卷积神经网络和卷积神经网络分别学习药物化合物和蛋白质序列的特征表示,将获得的药物图信息和蛋白质氨基酸残基信息独立地输入到transformer编码器中获得药物化合物和蛋白质的特征表示;(3)预测模块,将从药物化合物和蛋白质中提取的特征表示连接在一起,从而获得给定药物靶标对的组合表示,所述组合表示的特征向量被输入到多层感知机中以获得最终的dti预测。2.根据权利要求1所述的结合transformer和图神经网络的药物靶标相互作用预测方法,其特征在于,所述步骤(1)具体为,选取数据集并且将所述数据集分为训练集、验证集和测试集;药物化合物以smiles编码的形式输入,在预处理过程中,通过rdkit将输入的药物化合物的smiles编码转换为图结构;蛋白质以氨基酸序列的形式输入,对于蛋白质氨基酸序列,在训练之前使用嵌入操作。3.根据权利要求2所述的结合transformer和图神经网络的药物靶标相互作用预测方法,其特征在于,所述选取的数据集为human和c.elegans数据集。4.根据权利要求2所述的结合transformer和图神经网络的药物靶标相互作用预测方法,其特征在于,所述步骤(2)具体为,(a)使用三层图卷积神经网络,通过该网络获得每种药物化合物的图形级特征表示,多层图卷积层通过两个阶段过程将输入图映射为图级表示向量;(b)采用三个不同层的卷积神经网络架构来检测蛋白质的局部残留物信息,在卷积神经网络的不同层之后,执行全局最大池来捕获重要的局部残差特征;然后将从卷积神经网络的三个不同层获得的这三个特征向量连接起来,将它们输入线性层以获得蛋白质特征表示;(c)使用的两个transformer编码器并行计算药物特征和蛋白质特征的上下文表示,以此多头注意力机制能够学习到各个元素之间的相似性和依赖性,完成特征的提取。5.根据权利要求4所述的结合transformer和图神经网络的药物靶标相互作用预测方法,其特征在于,所述步骤(3)具体为,在通过transformer编码器获得药物和蛋白质的两个特征表示后,分别将它们与之前获得的图神经网络药物特征和卷积神经网络蛋白质特征连接起来,然后将它们连接在一起并输入全连接层模块中,以预测给定的药物靶标相互作用的可能性。
技术总结
本发明将药物化合物表示为分子图,靶标蛋白表示为氨基酸序列。此外,使用图卷积神经网络和卷积神经网络分别学习药物原子和蛋白质序列的特征表示。然后将获得的药物图信息和蛋白质局部残基信息分别输入到Transformer编码器中,以便可以将图神经网络和Transformer的优点结合在一起。由于Transformer中的多头注意力机制,本方法可以在更深层次上挖掘药物分子的原子信息和蛋白质序列中的残基信息。深度学习模型在小样本数据上学习时容易出现过拟合,而本模型是通过结合Transformer和图神经网络进行分类,提高了模型的泛化能力,在小样本数据上取得了很好的效果。本发明所使用的方法是一种端到端的模型,与其他现有技术相比,本模型可以显著提高预测精度。本模型可以显著提高预测精度。本模型可以显著提高预测精度。
技术研发人员:刘珺恺 吴宏杰
受保护的技术使用者:苏州科技大学
技术研发日:2022.12.06
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
