基于深度学习的mlncs预测方法

未命名 10-19 阅读:94 评论:0


1.本发明涉及生物信息学领域,具体是基于深度学习的mlncs预测方法。


背景技术:

2.moonlighting蛋白质(mps)是一种具有两种或多种功能的蛋白质,例如酶,其最常见的功能是催化,同时又参与调节转录、细胞转导和细胞凋亡等生理生化过程。近年来,针对moonlighting蛋白的研究成为了生信领域内的热点之一,然而对生理生化过程中的moonlighting的研究大多集中在蛋白质和编码蛋白的基因上,很少关注到lncrna。lncrna通过与蛋白质互作调节基因表达和功能,目前已有研究表明,lncrna序列的突变与许多疾病高度相关。类似的,moonlighting lcnrna(mlncs)是一种具有两种或多种功能的lncrna。对mlncs的识别和研究,对疾病治疗、亚细胞定位和物理相互作用等都具有重要意义。然而,现存的针对mlncs的研究十分有限。
3.mlncs研究需要面临的重要挑战主要有以下三点:
4.1.现存的mlncs识别方法有两个:moonfinder和moonfinder2.0,二者都基于lncrna和蛋白质的互作对mlncs进行预测,然而获取lncrna和蛋白质互作信息的过程十分繁琐费时;
5.2.mlncs缺乏可靠的数据集或数据库,这是mlncs研究中亟待解决的一项重要挑战;
6.3.通过现存的mlncs识别方法得到了mlncs正样本后,若想建立mlncs预测的二分类机器学习模型,还需要可靠的负样本进行训练,从无标记样本中筛选可以用于机器学习模型训练的负样本,目前主流的方法是直接在无标记样本中随机采样,或构建单分类器,两种方法对预测精度都有一定负面的影响。
7.因此,针对以上现状,迫切需要提供基于深度学习的mlncs预测方法,以克服当前实际应用中的不足。


技术实现要素:

8.本发明的目的在于提供基于深度学习的mlncs预测方法,旨在解决上述背景技术中的问题。
9.本发明是这样实现的,基于深度学习的mlncs预测方法,该方法包括以下步骤:
10.步骤1:结合计算方法与深度学习方法构建mlncs正样本集;
11.步骤2:基于sure强化学习模型,更改输入特征,构建mlncs负样本集;
12.步骤3:利用胶囊网络作为mlncs预测模型,并用构建好的mlncs正样本集和mlncs负样本集进行训练。
13.作为本发明进一步的方案:在步骤1中,结合计算方法与深度学习方法构建mlncs正样本集的具体步骤为:
14.在rnainter数据库中提取互作得分大于0.5的lncrna-蛋白质互作对,然后通过对
与lncrna互作的蛋白质簇进行go语义相似度计算,以及对lncrna互作的蛋白质利用mel-mp进行mps的预测,完成对mlncs正样本集的构建。
15.作为本发明进一步的方案:在步骤2中,mlncs负样本筛选模型由负样本筛选器和负样本监督器组成,在强化学习模型训练完成之后,负样本筛选器将拥有从无标签样本中筛选出可靠负样本的能力,将mlncs的无标签样本输入训练好的负样本筛选器,完成对mlncs负样本集的构建。
16.作为本发明进一步的方案:负样本筛选器包含三个强化学习元素:状态si、动作ai和策略网络π
θ
(ai|si);
17.其中状态si为样本i的特征表示,动作ai属于{0,1)是负样本筛选器对样本i的决策,ai=0意味着负样本筛选器将样本i视为负样本,ai=1意味着负样本筛选器将样本i视为正样本,策略网络π
θ
(ai|si)=p(ai|si;θ)是一个由胶囊网络构建的二分类器,其中θ为训练过程中需要通过反向传播更新的参数。
18.作为本发明进一步的方案:负样本监督器包含两个强化学习元素:样本评价网络和奖励;
19.负样本选择器选择的样本输入负样本监督器,然后负样本监督器通过五折交叉验证计算auc分数,负样本选择器选择的样本可靠性越高,样本集的噪声越小,负样本监督其的分类性能越好,其返回的奖励分数越大。
20.作为本发明进一步的方案:在步骤3中,提取lncrna的序列特征、motif特征、物理化学特征和二级结构特征;每种特征输入不同的由全连接层构成的特征学习子网,进行高层特征的抽取和维度的统一;特征学习子网输出的高层特征向量组成胶囊,并通过变换矩阵将其投射入相同的高维预测空间;将不同胶囊相加得到新的胶囊,并通过squashing激活函数将向量长度压缩至0-1之间;如果输出向量长度大于0.5,则输入的lncrna被预测为mlncs;如果输出向量长度小于0.5,则输入的lncrna被预测为非mlncs。
21.作为本发明进一步的方案:squashing激活函数的公式如下:
[0022][0023]
其中sj为输入的向量,vj为输出的向量。
[0024]
与现有技术相比,本发明的有益效果:
[0025]
本技术提出了一种全新的基于深度学习的mlncs预测模型,不需要蛋白质与lncrna的互作信息,只需要lncrna的序列信息即可实现预测;通过计算方法、深度学习方法和强化学习方法为mlncs预测工作构建了可靠的正负样本集;该mlncs预测模型还可以用于开发在线服务平台,便于临床及科研人员端到端地使用本模型;与传统的mlncs预测方法相比,本发明只需输入lncrna的序列信息,省去了获取蛋白质互作信息的繁琐流程,此外,现存的mlncs研究方法缺乏可靠的数据集支持,本发明通过计算方法、深度学习方法和强化学习方法构建了可靠的mlncs预测工作的正负样本集,为mlncs的研究提供了新的探索方向。
附图说明
[0026]
图1为本发明实施例中mlncs正样本集的构建流程图。
[0027]
图2为本发明实施例中mlncs负样本集的构建流程图。
[0028]
图3为本发明实施例中mlncs预测模型工作流程图。
[0029]
图4为本发明实施例中负样本筛选前后样本分布情况图。
具体实施方式
[0030]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下结合具体实施例对本发明的具体实现进行详细描述。
[0031]
请参阅图1-图3,本发明实施例提供的基于深度学习的mlncs预测方法,该方法包括以下步骤:
[0032]
步骤1:结合计算方法与深度学习方法构建mlncs正样本集:通过对与lncrna互作的蛋白质簇进行go语义相似度计算,以及对lncrna互作的蛋白质利用mel-mp进行mps的预测,完成对mlncs正样本集的构建;
[0033]
具体地,rnainter数据库提供了lncrna与蛋白质互作的信息及关联得分,在rnainter数据库中提取互作得分大于0.5的lncrna-蛋白质互作对,共得到了14721个lncrna、14522个蛋白质和208913个lncrna-蛋白质互作对;其中,一个lncrna同时与多个蛋白质互作,形成了与该lncrna关联的蛋白质簇,正样本集的构建流程如图1所示;
[0034]
基于go语义相似度计算的mlncs预测:
[0035]
利用go功能注释相似度聚类算法对mlncs进行预测:首先,提取14522个与lncrna互作蛋白的go注释,然后对其进行超几何分布检验,进而计算出与lncrna相关联的go功能注释;两个go注释的功能越相似,则其相似度越大;反之则越小;基于go注释的相似度进行聚类,得到的类簇数量可以抽象为lncrna功能域的数量;对lncrna的go注释进行基于相似度的聚类,完成对mlncs的预测;
[0036]
go数据库从细胞组分(cellular component,cc)、分子功能(molecular function,mf)和生物过程(biological process,bp)三个方面提供了描述基因功能的注释信息;通过超几何分布检验从lncrna-蛋白质互作网络中获取lncrna的go功能注释,超几何分布检验的公式如下所示:
[0037][0038]
给定一个lncrna x和go注释y,其中n为数据集中与所有lncrna互作的所有蛋白质的数量,n为与x互作的蛋白质数量,m为y关联的蛋白质的数量,m为同时与x互作且与y关联的蛋白质的数量;当p-value(x,y)<0.05时,表明当前给定的lncrna x和go注释y有显著关联;
[0039]
在计算得到lncrna的go注释后,使用simrel指标计算go术语间的相似度,公式如下:
[0040]
freq(c)=anno(c)+∑
h∈children(c)
freq(h)
ꢀꢀꢀꢀꢀ
(2);
[0041]
[0042][0043]
其中freq(c)是go术语c的频率,anno(c)为c的产物数量,children(c)为c的一阶邻居子节点集;p(c)为c的概率,root为go本体图中的根结点;sim
rel(c1,c2)
为go术语c1和c2的相似度,s(c1,c2)为c1和c2本体图中祖先节点集;
[0044]
基于rel方法通过以下三个条件对lncrna进行筛选预测:
[0045]
1.与至少八条go注释相关联;
[0046]
2.在go语义相似度阈值为0.1时进行聚类,类簇的数量至少为2;
[0047]
3.在go语义相似度阈值为0.5时进行聚类,类簇的数量至少为4;
[0048]
首先,根据条件1去除关联go注释少于八条的lncrna;然后,分别对bp和mf本体的go注释进行两两之间的相似度计算,得到go矩阵相似度矩阵,公式如下:
[0049][0050]
其中,n为go注释的数量,goi(i=1,2,...,n)为同一本体下go注释的集合;
[0051]
基于rel方法的go语义相似度聚类算法以一常量为阈值,当两个go注释的相似度大于该阈值时,判定其为两个连通的节点;连通节点的集合构成一张连通图,相似度矩阵中连通图的数量即图中聚类簇的的数量;该算法的输入为go相似度矩阵array和超参数阈值,输出为连通图的数量即类簇的数量;利用基于rel方法的go语义相似度聚类算法对lncrna的bp本体和mf本体进行分析,分别在阈值为0.1和0.5时进行聚类,得到lncrna go语义相似度矩阵的类簇数量,并利用条件2和条件3进行筛选,获得了5138个mlncs;
[0052]
基于lncrna-moonlighting蛋白质互作的mlncs预测:
[0053]
lncrna通过与蛋白质互作来发挥作用,因此当与lncrna互作的蛋白质簇中moonlighting蛋白质占大多数时,该lncrna极有可能是mlnc;mel-mp模型是一个多模态特征融合的用于预测moonlighting蛋白质的集成模型,具有优越的预测性能;利用mel-mp模型对数据中的蛋白质进行预测,其中有5651个蛋白质被预测为moonlighting蛋白质;
[0054]
在与每个lncrna互作的蛋白质簇中,都有一定数量的蛋白质被预测为moonlighting蛋白质,对其进行了超几何检验来计算lncrna关联蛋白簇中mps的显著性;如公式(1),给定一个lncrna x,n为蛋白质的总数量,m为被预测为moonlighting蛋白的蛋白质数量,n为与x互作的蛋白质数量,m为与x互作且被预测为moonlighting蛋白的蛋白质数量;当p value<0.05时,说明与lncrna x互作的蛋白质中moonlighting蛋白质显著存在,进而推断该lncrna为mlncs;在经过超几何检验后,得到了1012个mlncs;
[0055]
取上述两种预测方法结果的并集,共得到5988个mlncs,完成了mlncs正样本集的构建。
[0056]
步骤2:利用sure模型并基于强化学习模型构建mlncs负样本筛选模型,通过强化学习模型从无标签lncrna样本中抽取mlncs负样本集:mlncs负样本筛选模型由负样本筛选器和负样本监督器组成,在强化学习模型训练完成之后,负样本筛选器将拥有从无标签样
本中筛选出可靠负样本的能力,将mlncs的无标签样本输入训练好的负样本筛选器,完成对mlncs负样本集的构建;
[0057]
具体地,noncode是近年来较为全面的lncrna数据库,提供了序列信息和注释信息;从noncode数据库中获取了446867条lncrna序列信息,对已经被预测为mlncs的正样本和剩余无标记样本加以区分,构建强化学模型进行负样本的筛选;
[0058]
sure是一个基于强化学习的lncrna和蛋白质互作负样本筛选模型,实验结果证明sure模型有着优越的性能,其筛选的负样本可靠度较高;基于sure模型构建了mlncs的负样本筛选模型,工作流程如图2所示:
[0059]
首先,对lncrna序列信息进行多模态特征构建,包括序列特征、motif特征、物理化学特征和二级结构特征;在完成特征提取后,将正样本和无标记样本的特征输入强化学习模型进行负样本筛选;该模型分为两个组件:负样本筛选器和负样本监督器:负样本筛选器是一个强化学习中的智能体(agent),它与环境进行交互,充分学习正样本特征并通过负样本监督器的反馈来降低数据集的噪声,进行负样本的筛选;负样本监督器是一个分类器,它对负样本筛选器筛选出的负样本进行评价,计算奖励并反馈给负样本监督器;在训练结束后,负样本筛选器将拥有筛选可靠负样本的能力;
[0060]
其中负样本筛选器包含三个强化学习元素:状态、动作和策略网络;
[0061]
状态si为样本i的特征表示;动作ai属于{0,1}是负样本筛选器对样本i的决策,ai=0意味着负样本筛选器将样本i视为负样本,ai=1意味着负样本筛选器将样本i视为正样本;动作ai是策略网络基于状态si计算出来的;策略网络π
θ
(ai|si)=p(ai|si;θ)是一个由胶囊网络构建的二分类器,其中θ为训练过程中需要通过反向传播更新的参数;
[0062]
其中负样本监督器包含两个强化学习元素:样本评价网络和奖励。负样本选择器选择的样本输入负样本监督器,然后负样本监督器通过五折交叉验证计算auc分数;负样本选择器选择的样本可靠性越高,样本集的噪声越小,负样本监督其的分类性能越好,其返回的奖励分数越大;
[0063]
样本评价网络是一个进行二分类任务的网络,其中为训练过程中需要通过反向传播更新的参数,si为第i个样本的特征向量,li为网络的输出;采用与mlncs预测模型相同结构的胶囊网络构建样本评价网络,使用梯度下降策略来最小化交叉熵损失函数;
[0064]
当负样本选择器完成当前epoch的选择后,正样本和被选择的负样本被输入负样本监督器来获取奖励;基于五折交叉验证,样本评价网络以si为输入,ai作为标签计算auc分数;第k个epoch下负样本监督器返回给负样本选择器的奖励公式如下:
[0065]rk
=auc
k-max_auc
k-1 k≥1
ꢀꢀꢀꢀꢀ
(6);
[0066]
其中,在第k个epoch下,只有当auck超过前k-1个epoch中最大的奖励值max_auc
k-1
时,负样本选择器才会收到正奖励;否则,负样本选择器会收到一个负奖励;max_auc0是基于正样本和无标记样本计算的,其中无标记样本被视为负样本;
[0067]
在强化学习训练结束后,将446867条lncrna样本输入负样本筛选器,得到了7292条负样本信息。
[0068]
步骤3:利用胶囊网络作为mlncs预测模型,并用构建好的mlncs正样本集和mlncs
负样本集进行训练;
[0069]
具体地,在得到可靠的mlncs正负样本后,构建多模态特征融合的胶囊网络作为mlncs的预测网络,其工作的流程图如图3所示:
[0070]
首先,提取lncrna的序列特征、motif特征、物理化学特征和二级结构特征;每种特征输入不同的由全连接层构成的特征学习子网,进行高层特征的抽取和维度的统一;特征学习子网输出的高层特征向量组成胶囊,并通过变换矩阵将其投射入相同的高维预测空间;不同胶囊在相同空间下的方向可能不同;将其相加得到新的胶囊,并通过squashing激活函数将向量长度压缩至0-1之间;最终,如果输出向量长度大于0.5,则输入的lncrna被预测为mlncs;如果输出向量长度小于0.5,则输入的lncrna被预测为非mlncs;
[0071]
squashing激活函数的公式如下:
[0072][0073]
其中sj为输入的向量,vj为输出的向量。
[0074]
在本发明的实施例中,提出了一种全新的基于深度学习的mlncs预测模型,不需要蛋白质与lncrna的互作信息,只需要lncrna的序列信息即可实现预测;通过计算方法、深度学习方法和强化学习方法为mlncs预测工作构建了可靠的正负样本集;该mlncs预测模型还可以用于开发在线服务平台,便于临床及科研人员端到端地使用本模型;与传统的mlncs预测方法相比,本发明只需输入lncrna的序列信息,省去了获取蛋白质互作信息的繁琐流程,此外,现存的mlncs研究方法缺乏可靠的数据集支持,本发明通过计算方法、深度学习方法和强化学习方法构建了可靠的mlncs预测工作的正负样本集,为mlncs的研究提供了新的探索方向。
[0075]
为了证明上述方法的有效性和优越性,进行了全面且系统的对比实验;首先选取六个单分类模型仅使用mlncs正样本集进行实验,然后选取了包含构建的胶囊网络在内的七个二分类方法,通过随机采样负样本的方式构建负样本集进行实验,最后在利用计算方法、深度学习方法和机器学习方法构建的正负样本集上选取与上述相同的七个而分类方法进行实验,实验结果如表1所示:
[0076]
表1实验结果
[0077]
[0078]
[0079][0080]
此外,还分别对正样本与无标记样本以及正样本和强化学习筛选的负样本样本空间进行了可视化,图4展示了样本筛选前后的样本分布情况。
[0081]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.基于深度学习的mlncs预测方法,其特征在于,该方法包括以下步骤:步骤1:结合计算方法与深度学习方法构建mlncs正样本集;步骤2:基于sure强化学习模型,更改输入特征,构建mlncs负样本集;步骤3:利用胶囊网络作为mlncs预测模型,并用构建好的mlncs正样本集和mlncs负样本集进行训练。2.根据权利要求1所述的基于深度学习的mlncs预测方法,其特征在于,在步骤1中,结合计算方法与深度学习方法构建mlncs正样本集的具体步骤为:在rnainter数据库中提取互作得分大于0.5的lncrna-蛋白质互作对,然后对与lncrna互作的蛋白质簇进行g0语义相似度计算,以及对lncrna互作的蛋白质利用mel-mp进行mps的预测,完成对mlncs正样本集的构建。3.根据权利要求1所述的基于深度学习的mlncs预测方法,其特征在于,在步骤2中,mlncs负样本筛选模型由负样本筛选器和负样本监督器组成,在强化学习模型训练完成之后,负样本筛选器将拥有从无标签样本中筛选出可靠负样本的能力,将mlncs的无标签样本输入训练好的负样本筛选器,完成对mlncs负样本集的构建。4.根据权利要求3所述的基于深度学习的mlncs预测方法,其特征在于,负样本筛选器包含三个强化学习元素:状态s
i
、动作a
i
和策略网络π
θ
(a
i
|s
i
);其中状态s
i
为样本i的特征表示,动作a
i
属于{0,1}是负样本筛选器对样本i的决策,a
i
=0意味着负样本筛选器将样本i视为负样本,a
i
=1意味着负样本筛选器将样本i视为正样本,策略网络π
θ
(a
i
|s
i
)=p(a
i
|s
i
;θ)是一个由胶囊网络构建的二分类器,其中θ为训练过程中需要通过反向传播更新的参数。5.根据权利要求3所述的基于深度学习的mlncs预测方法,其特征在于,负样本监督器包含两个强化学习元素:样本评价网络和奖励;负样本选择器选择的样本输入负样本监督器,然后负样本监督器通过五折交叉验证计算auc分数,负样本选择器选择的样本可靠性越高,样本集的噪声越小,负样本监督其的分类性能越好,其返回的奖励分数越大。6.根据权利要求1所述的基于深度学习的mlncs预测方法,其特征在于,在步骤3中,提取lncrna的序列特征、motif特征、物理化学特征和二级结构特征;每种特征输入不同的由全连接层构成的特征学习子网,进行高层特征的抽取和维度的统一;特征学习子网输出的高层特征向量组成胶囊,并通过变换矩阵将其投射入相同的高维预测空间;将不同胶囊相加得到新的胶囊,并通过squashing激活函数将向量长度压缩至0-1之间;如果输出向量长度大于0.5,则输入的lncrna被预测为mlncs;如果输出向量长度小于0.5,则输入的lncrna被预测为非mlncs。7.根据权利要求6所述的基于深度学习的mlncs预测方法,其特征在于,squashing激活函数的公式如下:其中s
j
为输入的向量,v
j
为输出的向量。

技术总结
本发明适用于生物信息学领域,提供了基于深度学习的mlncs预测方法,该方法包括以下步骤:步骤1:结合计算方法与深度学习方法构建mlncs正样本集;步骤2:基于SURE强化学习模型,更改输入特征,构建mlncs负样本集;步骤3:利用胶囊网络作为mlncs预测模型,并用构建好的mlncs正样本集和mlncs负样本集进行训练,本发明不需要蛋白质与lncRNA的互作信息,只需要lncRNA的序列信息即可实现预测,通过计算方法、深度学习方法和强化学习方法为mlncs预测工作构建了可靠的正负样本集。工作构建了可靠的正负样本集。工作构建了可靠的正负样本集。


技术研发人员:李瑛 方文思 孙航 赵家宁 孙睿涵
受保护的技术使用者:吉林大学
技术研发日:2023.07.19
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐