基于多任务学习的蛋白质无序柔性连接体预测方法
未命名
10-18
阅读:159
评论:0
1.本发明属于生物信息学技术领域,特别涉及一种基于多任务学习的蛋白质无序柔性连接体预测方法,可应用于药物作用位点的发现。
背景技术:
2.无序柔性连接体,是固有无序蛋白质中连接两个或多个结构明确结构域的特定区域,无序柔性连接体通常由氨基酸序列组成,其特点是高度灵活且缺乏二级结构,它们在调节蛋白质相互作用和促进功能路径方面发挥着重要作用,如蛋白质-蛋白质相互作用、信号转导和基因表达的控制。
3.传统的蛋白质无序柔性连接体预测是通过核磁共振技术得到蛋白质的波谱,对蛋白质波谱分析得到蛋白质无序柔性连接体预测,这种方法成本昂贵,预测周期长。
4.现有蛋白质无序柔性连接体预测是基于计算方法,技术思路是构建无序柔性连接体训练数据集,对训练集数据进行蛋白质特征表示,搭建无序柔性连接体预测网络,使用训练集数据对无序柔性连接体网络训练,然后对蛋白质无序柔性连接体进行预测。例如,pang等人于2022年在《genomics,proteomics&bioinformatics》发表了题为“transdfl:identification of disordered flexible linkers in proteins by transfer learning”的文章,提出了一种基于迁移学习的蛋白质无序柔性连接体预测方法。该方法首先收集了无序区数据和无序柔性连接体数据。通过七个常用的理化性质(立体参数、极化性、体积、疏水性、等电点、螺旋概率和片状概率)、位置特定得分矩阵、二级结构特征和由溶剂可及性对蛋白质进行特征表示,然后搭建无序柔性连接体预测网络,使用无序区数据对无序柔性连接体预测网络进行预训练,使用无序柔性连接体数据对其进行微调得到训练好的无序柔性连接体预测网络,使用该网络预测蛋白质无序柔性连接体。该方法使用无序区数据提升了信息量。然而预训练-微调的方法会在微调的过程中会丢失预训练的信息,进而影响预测精度,同时,该方法使用了大量蛋白质特征,在训练和预测阶段造成大量计算资源的消耗,增加了成本。
技术实现要素:
5.本发明的目的在于克服上述现有技术存在的缺陷,提供一种基于多任务学习的蛋白质无序柔性连接体预测方法,用于解决现有技术中存在的预测精度较低的技术问题。
6.为实现上述目的,本发明采取的技术方案包括如下步骤:
7.(1)获取多任务数据集:
8.将获取的m个无序区蛋白质氨基酸序列x
idrs
及其对应的无序区标签y
idrs
组成蛋白质无序区预测训练数据集同时将获取的n个无序柔性连接体蛋白质氨基酸序列x
dfls
及其对应的无序柔性连接体标签y
dfls
组成蛋白质无序柔性连接体预测数据集d
dfls
={x
dfls
,y
dfls
},其中m≥1000,n≥200;
9.(2)对蛋白质无序柔性连接体预测数据集进行划分:
10.基于序列相似度对蛋白质无序柔性连接体预测数据集d
dfls
进行划分,得到包含n
train
条蛋白质的无序柔性连接体预测训练数据集和包含n
test
条蛋白质的测试数据集其中,n=n
train
+n
test
,n
train
>n
test
;
11.(3)对蛋白质无序区预测训练数据集、无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一:
12.对蛋白质无序区预测训练数据集无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一,得到蛋白质长度为g的无序区预测训练数据集无序柔性连接体预测的训练数据集和测试数据集
13.(4)构建蛋白质特征表示矩阵:
14.构建对应的维度分别为m
×g×
d、n
train
×g×
d、n
test
×g×
d的无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵无序柔性连接体测试数据集蛋白质特征表示矩阵其中d>30;
15.(5)构建蛋白质无序柔性连接体预测网络模型:
16.构建包括共享层及与其输出端连接且并行排布的无序区塔层和无序柔性连接体塔层的蛋白质无序柔性连接体预测网络模型o,其中,共享层包括依此层叠的嵌入层和transformer encoder层;无序区塔层和无序柔性连接体塔层均包括依此层叠的全连接网络和sigmod分类器;
17.(6)对蛋白质无序柔性连接体预测网络模型进行迭代训练:
18.(6a)初始化迭代次数为t,最大迭代次数为t,当前预测网络模型中共享层、无序区塔层、无序柔性连接体塔层的可训练参数分别为w1、w2、w3,并令t=0;
19.(6b)将无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵作为预测网络模型o的输入进行前向传播,得到无序区训练集的无序区预测结果无序柔性连接体训练集的无序柔性连接体预测结果
20.(6c)通过无序区损失值l
idrs
、无序柔性连接体损失值l
dfls
对当前预测网络模型中共享层、无序区塔层、无序柔性连接体塔层的可训练参数w1、w2、w3进行更新,得到本次迭代的预测网络模型o
t
;
21.(6d)判断t=t是否成立,若是,得到训练好的预测网络模型o
*
,否则,令t=t+1,o=o
*
,并执行步骤(6b);
22.(7)获取蛋白质无序柔性连接体预测结果:
23.将无序柔性连接体测试数据集蛋白质特征表示矩阵作为训练好的预测网
络模型o
*
的输入进行前向传播,得到无序柔性连接体测试数据集中蛋白质序列的无序柔性连接体预测
24.本发明与现有技术相比,具有以下优点:
25.(1)本发明所构建的预测网络模型包括共享层及与其输出端连接且并行排布的无序区塔层和无序柔性连接体塔层,在对该模型进行训练的过程中,无序区数据参与到每一次迭代的损失函数计算中,扩充信息量的同时不会丢失信息,有效提高了预测精度。
26.(2)本发明在所使用的蛋白质特征方面摒弃了冗杂的特征搜集与整合,仅采用了蛋白质的进化信息和物理化学特征,解决了现有研究中通常受复杂的特征工程所带来的资源耗费大、成本高的问题。
附图说明
27.图1是本发明的实现流程图。
具体实施方式
28.下面结合附图和具体实施例,对本发明作进一步详细描述,需要说明的是,本发明不属于疾病的诊断与治疗方法。
29.参照图1,本发明包括如下步骤:
30.步骤1)获取多任务数据集:
31.将获取的m个无序区蛋白质氨基酸序列x
idrs
及其对应的无序区标签y
idrs
组成蛋白质无序区预测训练数据集同时将获取的n个无序柔性连接体蛋白质氨基酸序列x
dfls
及其对应的无序柔性连接体标签y
dfls
组成蛋白质无序柔性连接体预测数据集d
dfls
={x
dfls
,y
dfls
},其中m≥1000,n≥200;本实施例中m=3000,n=248。
32.步骤2)对蛋白质无序柔性连接体预测数据集进行划分:
33.2a)使用blastclust软件包,对无序柔性连接体数据集d
dfls
中的蛋白质氨基酸序列x
dfls
序列相似度大于a聚为一类,得到聚类结果c={c1,c2,
…
,cc,
…
,ck},其中,a≥25%,k≥100,cc代表聚类结果c中第c类包含的蛋白质氨基酸序列;本实施例中,a=25%,k=194;
34.2b)将c按类分成两份,得到包含n
train
条蛋白质的无序柔性连接体预测训练数据集和包含n
test
条蛋白质的测试数据集其中,n=n
train
+n
test
,n
train
>n
test
;本实施例中n
train
=166,n
test
=82。
35.步骤3)对蛋白质无序区预测训练数据集、无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一:
36.由于蛋白质长度不统一不能进行梯度下降算法更新参数,因此对蛋白质无序区预测训练数据集无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一,具体为:对长度不足g蛋白质序列以0进行填充,对于长度超过g的蛋白质序列之后的部分进行截断,得到蛋白质长度为g的蛋白质无序区预测训练数据集无序柔性连接体预测的训练数据集和测
试数据集其中,g>1000;本实施例中g=1500。
37.步骤4)构建蛋白质特征表示矩阵:
38.4a)使用psi-blast工具计算中每个蛋白质的进化信息,得到对应维度为m
×g×
d1、n
train
×g×
d1、n
test
×g×
d1的无序区训练集进化信息矩阵无序柔性连接体训练集蛋白质进化信息矩阵无序柔性连接体测试集蛋白质进化信息矩阵其中,d1≥20;本实施例中d1=20;
39.4b)使用aaindex工具计算中每个蛋白质的物理化学信息,得到对应维度为m
×g×
d2、n
train
×g×
d2、n
test
×g×
d2的无序区训练集物理化学信息矩阵无序柔性连接体训练集蛋白质物理化学信息矩阵无序柔性连接体测试集蛋白质物理化学信息矩阵其中,d2≥13,所选的物理化学信息在aaindex中索引为cidh920101、eisd860103、nisk860101、qian880105、robb760101、robb760108、robb760112、robb760113、corj870103、corj870106、corj870107、corj870108、miys990104;本实施例中d2=13;
40.4c)将分别与在第三个维度上进行拼接,得到维度分别为m
×g×
d、n
train
×g×
d、n
test
×g×
d的无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵无序柔性连接体测试数据集蛋白质特征表示矩阵其中,d=d1+d2;本实施例中d=33。
41.步骤5)构建蛋白质无序柔性连接体预测网络模型:
42.构建包括共享层及与其输出端连接且并行排布的无序区塔层和无序柔性连接体塔层的蛋白质无序柔性连接体预测网络模型o,其中,共享层包括依此层叠的嵌入层和transformer encoder层;无序区塔层包括依此层叠的全连接网络和sigmod分类器;无序柔性连接体塔层包括依此层叠的全连接网络和sigmod分类器;本实施例中,共享层中嵌入层的维度为64,无序区塔层和无序柔性连接体塔层中全连接网络仅包含一个隐藏层,隐藏层单元数均为32。
43.步骤6)对蛋白质无序柔性连接体预测网络模型进行迭代训练:
44.6a)初始化迭代次数为t,最大迭代次数为t,当前预测网络模型中共享层、无序区塔层、无序柔性连接体塔层的可训练参数分别为w1、w2、w3,并令t=0;
45.6b)将无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵作为预测网络模型o的输入进行前向传播,得到无序区训练集的无序区预测结果无序柔性连接体训练集的无序柔性连接体预测结果实现步骤为为:
46.6b1)共享层中的嵌入层对无序区训练数据集蛋白质特征表示矩阵和无序柔性连接体训练数据集蛋白质特征表示矩阵分别进行嵌入表示,得到无序区训练集的嵌入向量和无序柔性连接体训练集的嵌入向量transformer encoder层对分别进行前向传播,得到无序区训练集的共享层隐藏向量和无序柔性连接体训练集的共享层隐藏向量
47.6b2)无序区塔层、无序柔性连接体塔层中的全连接网络对无序区训练集的共享层隐藏向量无序柔性连接体训练集的共享层隐藏向量分别进行前向传播,得到无序区训练集的无序区塔层隐藏向量无序柔性连接体训练集的塔层隐藏向量sigmod分类器对分别进行无序区预测和无序柔性连接体预测,得到无序区训练集的无序区预测结果无序柔性连接体训练集的无序柔性连接体预测结果
48.6c)通过无序区损失值l
idrs
、无序柔性连接体损失值l
dfls
对当前预测网络模型中共享层、无序区塔层、无序柔性连接体塔层的可训练参数w1、w2、w3进行更新,得到本次迭代的预测网络模型o
t
;实现步骤为:
49.6c1)采用二元交叉熵损失函数,并通过与以及与计算无序区损失值l
idrs
、无序柔性连接体损失值l
dfls
:
[0050][0051][0052][0053][0054][0055][0056]
其中,分别代表无序区训练数据集中第m个蛋白质的预测结果及标签;代表无序柔性连接体训练数据集中第n个蛋白质的预测结果及标签;
[0057]
6c2)通过l
idrs
、l
dfls
计算预测网络模型o的整体损失l,并计算l对w1、w2、w3的偏导数η1、η2、η3:
[0058]
l=l
dfls
+l
idrs
[0059][0060][0061][0062]
6c3)采用梯度下降法,通过w1、w2、w3的偏导数η1、η2、η3对共享层、无序区塔层和无序柔性连接体塔层的可训练参数w1、w2、w3进行更新,得到本次迭代的预测网络模型o
t
。
[0063]
6d)判断t=t是否成立,若是,得到训练好的预测网络模型o
*
,否则,令t=t+1,o=o
*
,并执行步骤6b)。
[0064]
步骤7)获取蛋白质无序柔性连接体预测结果:
[0065]
将无序柔性连接体测试数据集蛋白质特征表示矩阵作为训练好的预测网络模型o
*
的输入进行前向传播,得到无序柔性连接体测试数据集中蛋白质序列的无序柔性连接体预测
[0066]
以下结合仿真实验,对本发明的技术效果作进一步说明:
[0067]
1.实验条件和内容:
[0068]
仿真实验在intel(r)xeon(r)gold 5115cpu(20核心)、主频2.40ghz,内存48g,ubuntu平台上的python 3.7结合pytroch1.7框架进行。
[0069]
对本发明和现有的无序柔性连接体预测方法的无序柔性连接体预测结果进行对比仿真,结果如表1所示。
[0070]
2.实验结果分析:
[0071]
表1
[0072]
模型名称roc-auc现有技术0.783本发明0.802
[0073]
参照表1,本发明方法的蛋白质无序柔性连接体roc-auc为0.802,指标高于现有技术方法,证明本发明方法提高了蛋白质无序柔性连接体识别准确度。roc-auc是接受者操作特性曲线roc的曲线下面积,数值越大性能越好。
技术特征:
1.一种基于多任务学习的蛋白质无序柔性连接体预测方法,其特征在于,包括如下步骤:(1)获取多任务数据集:将获取的m个无序区蛋白质氨基酸序列x
idrs
及其对应的无序区标签y
idrs
组成蛋白质无序区预测训练数据集同时将获取的n个无序柔性连接体蛋白质氨基酸序列x
dfls
及其对应的无序柔性连接体标签y
dfls
组成蛋白质无序柔性连接体预测数据集d
dfls
={x
dfls
,y
dfls
},其中m≥1000,n≥200;(2)对蛋白质无序柔性连接体预测数据集进行划分:基于序列相似度对蛋白质无序柔性连接体预测数据集d
dfls
进行划分,得到包含n
train
条蛋白质的无序柔性连接体预测训练数据集和包含n
test
条蛋白质的测试数据集其中,n=n
train
+n
test
,n
train
>n
test
;(3)对蛋白质无序区预测训练数据集、无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一:对蛋白质无序区预测训练数据集无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一,得到蛋白质长度为g的无序区预测训练数据集无序柔性连接体预测的训练数据集和测试数据集(4)构建蛋白质特征表示矩阵:构建对应的维度分别为m
×
g
×
d、n
train
×
g
×
d、n
test
×
g
×
d的无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵无序柔性连接体测试数据集蛋白质特征表示矩阵其中d>30;(5)构建蛋白质无序柔性连接体预测网络模型:构建包括共享层及与其输出端连接且并行排布的无序区塔层和无序柔性连接体塔层的蛋白质无序柔性连接体预测网络模型o,其中,共享层包括依此层叠的嵌入层和transformer encoder层;无序区塔层和无序柔性连接体塔层均包括依此层叠的全连接网络和sigmod分类器;(6)对蛋白质无序柔性连接体预测网络模型进行迭代训练:(6a)初始化迭代次数为t,最大迭代次数为t,当前预测网络模型中共享层、无序区塔层、无序柔性连接体塔层的可训练参数分别为w1、w2、w3,并令t=0;(6b)将无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵作为预测网络模型o的输入进行前向传播,得到无序区训练集的无序区预测结果无序柔性连接体训练集的无序柔性连接体预测结果(6c)通过无序区损失值l
idrs
、无序柔性连接体损失值l
dfls
对当前预测网络模型中共享
层、无序区塔层、无序柔性连接体塔层的可训练参数w1、w2、w3进行更新,得到本次迭代的预测网络模型o
t
;(6d)判断t=t是否成立,若是,得到训练好的预测网络模型o
*
,否则,令t=t+1,o=o
*
,并执行步骤(6b);(7)获取蛋白质无序柔性连接体预测结果:将无序柔性连接体测试数据集蛋白质特征表示矩阵作为训练好的预测网络模型o
*
的输入进行前向传播,得到无序柔性连接体测试数据集中蛋白质序列的无序柔性连接体预测2.根据权利要求1所述的方法,其特征在于,步骤(2)中所述的基于序列相似度对蛋白质无序柔性连接体预测数据集d
dfls
进行划分,实现步骤为:(2a)使用blastclust软件包,对无序柔性连接体数据集d
dfls
中的蛋白质氨基酸序列x
dfls
序列相似度大于a聚为一类,得到聚类结果c={c1,c2,
…
,c
c
,
…
,c
k
},其中,a≥25%,k≥100,c
c
代表聚类结果c中第c类蛋白质集包含的蛋白质氨基酸序列;(2b)将c按类分成两份,得到包含n
train
条蛋白质的无序柔性连接体预测训练数据集和包含n
test
条蛋白质的测试数据集3.根据权利要求1所述的方法,其特征在于,步骤(3)中所述的对蛋白质无序区预测训练数据集、无序柔性连接体预测的训练数据集和测试数据集中的蛋白质进行长度统一,具体为:对长度不足g蛋白质序列以0进行填充,对于长度超过g的蛋白质序列之后的部分进行截断,得到蛋白质长度为g的无序区预测训练数据集无序柔性连接体预测的训练数据集和测试数据集其中,g>1000。4.根据权利要求1所述的方法,其特征在于,步骤(4)中所述的构建蛋白质特征表示矩阵,实现步骤为:(4a)使用psi-blast工具计算中每个蛋白质的进化信息,得到对应维度为m
×
g
×
d1、n
train
×
g
×
d1、n
test
×
g
×
d1的无序区训练集进化信息矩阵无序柔性连接体训练集蛋白质进化信息矩阵无序柔性连接体测试集蛋白质进化信息矩阵其中,d1≥20;(4b)使用aaindex工具计算中每个蛋白质的物理化学信息,得到对应维度为m
×
g
×
d2、n
train
×
g
×
d2、n
test
×
g
×
d2的无序区训练集物理化学信息矩阵无序柔性连接体训练集蛋白质物理化学信息矩阵无序柔性连接体测试集蛋白质物理化学信息矩阵其中,d2≥13,所选的物理化学信息在aaindex中索引为cidh920101、eisd860103、nisk860101、qian880105、robb760101、robb760108、robb760112、robb760113、corj870103、corj870106、corj870107、corj870108、miys990104;
(4c)将分别与在第三个维度上进行拼接,得到维度分别为m
×
g
×
d、n
train
×
g
×
d、n
test
×
g
×
d的无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵无序柔性连接体测试数据集蛋白质特征表示矩阵其中,d=d1+d2。5.根据权利要求1所述的方法,其特征在于,步骤(5)中所述的预测网络模型o,其中:共享层中嵌入层的维度为64,无序区塔层和无序柔性连接体塔层中全连接网络仅包含一个隐藏层,隐藏层单元数均为32。6.根据权利要求1所述的方法,其特征在于,步骤(6b)中所述的将无序区训练数据集蛋白质特征表示矩阵无序柔性连接体训练数据集蛋白质特征表示矩阵作为预测网络模型o的输入进行前向传播,实现步骤为:(6b1)共享层中的嵌入层对无序区训练数据集蛋白质特征表示矩阵和无序柔性连接体训练数据集蛋白质特征表示矩阵分别进行嵌入表示,得到无序区训练集的嵌入向量和无序柔性连接体训练集的嵌入向量transformer encoder层对分别进行前向传播,得到无序区训练集的共享层隐藏向量和无序柔性连接体训练集的共享层隐藏向量(6b2)无序区塔层、无序柔性连接体塔层中的全连接网络对无序区训练集的共享层隐藏向量无序柔性连接体训练集的共享层隐藏向量分别进行前向传播,得到无序区训练集的无序区塔层隐藏向量无序柔性连接体训练集的塔层隐藏向量sigmod分类器对分别进行无序区预测和无序柔性连接体预测,得到无序区训练集的无序区预测结果无序柔性连接体训练集的无序柔性连接体预测结果7.根据权利要求1所述的方法,其特征在于,步骤(6c)中所述的过无序区损失值l
idrs
、无序柔性连接体损失值l
dfls
对当前预测网络模型中共享层、无序区塔层、无序柔性连接体塔层的可训练参数w1、w2、w3进行更新,实现步骤为:(6c1)采用二元交叉熵损失函数,并通过与以及与计算无序区损失值l
idrs
、无序柔性连接体损失值l
dfls
::::
其中,分别代表无序区训练数据集中第m个蛋白质的预测结果及标签;代表无序柔性连接体训练数据集中第n个蛋白质的预测结果及标签;(6c2)通过l
idrs
、l
dfls
计算预测网络模型o的整体损失l,并计算l对w1、w2、w3的偏导数η1、η2、η3:l=l
dfls
+l
idrsidrsidrs
(6c3)采用梯度下降法,通过w1、w2、w3的偏导数η1、η2、η3对共享层、无序区塔层和无序柔性连接体塔层的可训练参数w1、w2、w3进行更新,得到本次迭代的预测网络模型o
t
。
技术总结
本发明公开了一种基于多任务学习的蛋白质无序柔性连接体预测方法,包括如下步骤:获取多任务数据集;对蛋白质无序柔性连接体预测数据集进行划分;对蛋白质无序区预测训练数据集、无序柔性连接体预测的训练数据集和测试数据集进行长度统一;构建蛋白质特征表示矩阵;构建蛋白质无序柔性连接体预测网络模型;对蛋白质无序柔性连接体预测网络模型进行迭代训练;获取蛋白质无序柔性连接体预测结果。本发明在构建蛋白质无序柔性连接体预测网络时,使用无序区数据增加信息量,使用多任务学习降低了训练过程信息损失,提高了网络模型中信息的丰度,有效提高了识别蛋白质无序柔性连接体的准确率。准确率。准确率。
技术研发人员:鱼亮 李浩铮
受保护的技术使用者:西安电子科技大学
技术研发日:2023.06.25
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
