蛋白质间相互作用的预测方法、装置及电子设备与流程

未命名 08-09 阅读:125 评论:0


1.本技术涉及计算机技术领域,具体而言,本技术涉及一种蛋白质间相互作用的预测方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.蛋白质相互作用研究能够从分子水平上揭示蛋白质的功能,帮助揭示生长发育、新陈代谢、分化和凋亡等细胞活动的规律。在全基因组范围内识别蛋白质相互作用是解释细胞调控机制的重要一步。
3.随着蛋白质相互作用实验技术的发展,人们能够获得大量的蛋白质相互作用数据,甚至能够在全基因组范围内对蛋白质相互作用进行分析。然而,由于实验技术的限制,通过实验检测来确定蛋白质间的相互作用的方式耗费大量人力资源且效率较低,不适用于大规模的检测。


技术实现要素:

4.本技术的目的旨在至少能解决上述的技术缺陷之一,特别是传统实验方法不适用于大规模蛋白质相互作用检测的技术缺陷。
5.根据本技术的一个方面,提供了一种蛋白质间相互作用的预测方法,该方法包括:
6.获取第一蛋白质的氨基酸序列,所述第一蛋白质的氨基酸序列包括多个第一氨基酸序列;分别获取每个所述第一氨基酸序列的第一序列信息;
7.获取第二蛋白质的氨基酸序列,所述第二蛋白质的氨基酸序列包括多个第二氨基酸序列;分别获取每个所述第二氨基酸序列的第二序列信息;
8.根据所述第一序列信息以及所述第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;
9.根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
10.可选地,所述第一序列信息包括:所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息,
11.所述第二序列信息包括:所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息,
12.所述根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系,包括:
13.确定所述第一数量信息与所述第二数量信息之间的第一关联关系;以及确定所述第一特征信息与所述第二特征信息的第二关联关系;
14.根据所述第一关联关系及所述第二关联关系,确定所述序列关联关系。
15.可选地,所述确定所述第一数量信息与所述第二数量信息之间的第一关联关系,包括:
16.根据预设概率分布算法,确定所述第一数量信息与所述第二数量信息之间的相似度,得到所述第一关联关系。
17.可选地,所述确定所述第一特征信息与所述第二特征信息的第二关联关系,包括:
18.根据所述第一特征信息与所述第二特征信息,确定所述第一氨基酸序列与第二氨基酸序列的特征关联关系;
19.根据所述特征关联关系,确定所述第二关联关系。
20.可选地,所述第一关联关系对应的数据关系包括:
[0021][0022]
其中,φ(k|ui)表示第一关联关系;k表示第二氨基酸序列的数量;λ(ui)表示ui中第一氨基酸序列的数量的期望;ui表示所述第一蛋白质。
[0023]
可选地,所述第二关联关系对应的数据关系包括:
[0024][0025]
其中,y表示所述第二关联关系;m表示第一氨基酸序列的数量;k表示第二氨基酸序列的数量;null表示预设氨基酸序列;表示所述第二蛋白质uj中的第k个第二氨基酸序列;
[0026]
其中,p
ml
(w|ui)表示从所述第一蛋白质ui中选出任意一个所述第一氨基酸序列w的概率;
[0027]
表示所述预设氨基酸序列与之间的条件概率。
[0028]
可选地,所述序列关联关系对应的数据关系包括:
[0029]
p(uj|ui)=yφ(k|ui);
[0030]
其中,y表示所述第二关联关系;φ(k|ui)表示第一关联关系。
[0031]
可选地,确定所述序列关联关系、根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:
[0032]
将所述第一序列信息以及所述第二序列信息输入至预设预测模型,得到所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0033]
可选地,所述将所述第一序列信息以及所述第二序列信息输入至预设预测模型之前,所述方法还包括:
[0034]
获取训练样本;其中,所述训练样本包括:样本蛋白质对以及所述样本蛋白质对对应的样本关联关系;所述样本蛋白质对包括第一样本蛋白质及第二样本蛋白质;
[0035]
将所述训练样本输入初始预测模型中,得到每个所述训练样本对应的预测结果;
[0036]
根据所述样本关联关系及所述预测结果,确定训练损失值;
[0037]
基于所述训练损失值,对所述初始模型进行重复训练,直至得到符合训练结束条件的所述预设预测模型。
[0038]
可选的,所述训练损失值对应的数据关系包括:
[0039][0040]
其中,l表示所述训练损失值;|qi|表示所述第一样本蛋白质qi中所述第一氨基酸序列的数量;|ai|表示所述第二样本蛋白质ai中所述第二氨基酸序列的数量。表示qi中第k个所述第一氨基酸序列;null表示预设氨基酸序列;h表示所述样本蛋白质对的数量。
[0041]
可选地,所述序列关联关系包括关联关系值,
[0042]
所述根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:
[0043]
将所述关联关系值与预设关系阈值进行比较,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息;
[0044]
所述相互作用信息指示所述第一蛋白质与所述第二蛋白质是否发生相互作用。
[0045]
根据本技术的另一个方面,提供了一种蛋白质间相互作用的预测方法,该装置包括:
[0046]
获取模块,用于获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;其中,所述第一氨基酸序列包括第一蛋白质的氨基酸,所述第二氨基酸序列包括第二蛋白质的氨基酸;
[0047]
确定模块,用于根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;
[0048]
预测模块,用于根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0049]
根据本技术的另一个方面,提供了一种电子设备,该电子设备包括:
[0050]
一个或多个处理器;
[0051]
存储器;
[0052]
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行如本技术的第一方面所示的任一项所述的蛋白质间相互作用的预测方法。
[0053]
例如,本技术的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
[0054]
存储器用于存放至少一可执行指令,可执行指令使处理器执行如本技术的第一方面所示的蛋白质间相互作用的预测方法对应的操作。
[0055]
根据本技术的再一个方面,提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现如本技术的第一方面所示的任一项所述的蛋白质间相互作用的预测方法。
[0056]
例如,本技术实施例的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本技术第一方面所示的蛋白质间相互作用的预测方法。
[0057]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的各种可选实现方式中提供的方法。
[0058]
本技术提供的技术方案带来的有益效果是:
[0059]
本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。
附图说明
[0060]
为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
[0061]
图1为本技术实施例提供的一种蛋白质间相互作用的预测方法的系统架构示意图;
[0062]
图2为本技术实施例提供的一种蛋白质间相互作用的预测方法的流程示意图;
[0063]
图3为本技术实施例提供的一种蛋白质间相互作用的预测方法的流程示意图;
[0064]
图4为本技术实施例提供的一种蛋白质间相互作用的预测装置的结构示意图;
[0065]
图5为本技术实施例提供的一种蛋白质间相互作用的预测系统的架构示意图;
[0066]
图6为本技术实施例提供的一种蛋白质间相互作用的预测的电子设备的结构示意图。
具体实施方式
[0067]
下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
[0068]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
[0069]
为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
[0070]
本技术实施例提供的蛋白质间相互作用的预测方法中的至少部分内容涉及到人
工智能领域中的机器学习等领域,还涉及云技术的多种领域,如云技术(cloud technology)中的云计算、云服务以及大数据领域中的相关数据计算处理领域。
[0071]
人工智能(artificial intelligence,简称ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0072]
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0073]
自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
[0074]
机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0075]
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0076]
其中,本技术实施例的预测方法可以应用于生物医疗等技术领域。具体的,以下是对本技术涉及的技术术语进行解释:
[0077]
k-mer序列片段:在生物信息领域,通常采用k-mer分析方法,即将蛋白质的氨基酸序列划分为k-mer片段,mer表示单个氨基酸,k-mer表示k个相邻氨基酸组成的段序列片段,称作“字”。k-mer又称k-字、k-word或k-tuple。k可以取1、2、3,

任意正整数。
[0078]
为进一步说明本技术实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本技术实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本技术实施例提供的执行顺序。
[0079]
首先结合图1,其为本技术实施例提供的蛋白质间相互作用的预测方法的系统架构图。该系统可以包括服务器101以及终端集群,其中,服务器101可以认为是预测处理的后
台服务器。
[0080]
终端集群可以包括:终端102、终端103、终端104、
……
,其中,终端中可以安装有支持预测处理的客户端。终端之间可以存在通信连接,例如终端102与终端103之间存在通信连接,终端103与终端104之间存在通信连接。
[0081]
同时,服务器101可以通过通信连接功能为终端集群提供服务,终端集群中的任一终端可以与服务器101存在通信连接,例如终端102与服务器101之间存在通信连接,终端103与服务器101之间存在通信连接,其中,上述的通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其他方式。
[0082]
上述通信连接的网络可以通过网络可以是广域网或者局域网,又或者是二者的组合。本技术在此不做限制。
[0083]
本技术实施例的蛋白质间相互作用的预测方法,可以在服务器侧执行,也可在终端侧执行,本技术实施例中不对执行主体进行限定。在预测处理过程中,可以通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,得到预测结果。
[0084]
因此,本技术实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端(也包括上述的用户终端)或服务器(也包括上述的服务器101)。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
[0085]
当然,本技术实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,即本技术不限于蛋白质分子之间得相互作用预测,还可以应用于其它生物大分子之间得相互作用预测,例如核糖核酸(ribonucleic acid,rna)之间的相互作用预测等。
[0086]
本技术实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
[0087]
作为一种可选实施方式,图2中示出了本技术提供的一种蛋白质间相互作用的预测方法的整体流程示意图。如图2中所示,可以先输入第一蛋白质(后续简称为protein-1)的信息及第二蛋白质(后续简称为protein-2)的信息。其中,protein-1的信息可以包括protein-1的氨基酸序列信息;protein-2的信息可以包括protein-2的氨基酸序列信息。然后,分别对protein-1的信息及protein-2的信息进行预处理;例如,预处理可以包括将protein-1的氨基酸序列、protein-2的氨基酸序列划分为k-mer片段,得到本技术中的第一氨基酸序列及第二氨基酸序列。进一步的,基于所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系,预测所述protein-1与所述protein-2之间的相互作用信息,相互
作用信息包括预测protein-1与protein-2是否发生相互作用。
[0088]
本技术实施例提供了一种可能的实现方式,该方案可以由任一电子设备执行,可选的,任一电子设备可以为具有预测能力的服务器设备,也可以为集成在这些设备上的装置或芯片。如图3所示,其为本技术实施例提供的一种蛋白质间相互作用的预测方法的流程示意图之一,该方法包括如下步骤:
[0089]
步骤s301:获取第一蛋白质的氨基酸序列,所述第一蛋白质的氨基酸序列包括多个第一氨基酸序列;分别获取每个所述第一氨基酸序列的第一序列信息;获取第二蛋白质的氨基酸序列,所述第二蛋白质的氨基酸序列包括多个第二氨基酸序列;分别获取每个所述第二氨基酸序列的第二序列信息。
[0090]
可选的,本技术实施例的预测方法可以应用于生物信息领域,对第一蛋白质以及第二蛋白质进行预测处理,以预测所述第一蛋白质以及所述第二蛋白质是否发生相互作用。其中,相互作用可以包括相互结合等;可选的,本技术实施例中,所述第一蛋白质以及所述第二蛋白质之间的相互作用还可以理解为,第一蛋白质中的第一氨基酸序列与第二蛋白质中的第二氨基酸序列存在联系。
[0091]
其中,第一蛋白质可以包括任一蛋白质;第二蛋白质可以包括第一蛋白质以外的任一蛋白质。
[0092]
protein-1及protein-2中分别包括多种氨基酸,因此,protein-1及protein-2可以分别表示为相应的氨基酸序列。
[0093]
其中,protein-1及protein-2中包括的氨基酸可以由字母表示:用l表示甘氨酸;a表示丙氨酸;v表示缬氨酸;l表示亮氨酸;i表示异亮氨酸;m表示甲硫氨酸;p表示脯氨酸;w表示色氨酸;s表示丝氨酸;y表示酪氨酸;c表示半胱氨酸;f表示苯丙氨酸;d表示天冬酰胺;q表示谷氨酰胺;t表示苏氨酸;n表示天冬氨酸;e表示谷氨酸;k表示赖氨酸;r表示精氨酸;h表示组氨酸等等。这样,protein-1及protein-2对应的氨基酸序列可以分别表示为例如mtaqdd

sys;eaelcp

drc等。
[0094]
本技术实施例中,所述第一氨基酸序列可以为protein-1对应的氨基酸序列的子序列;所述第二氨基酸序列可以为protein-2对应的氨基酸序列的子序列。所述第一氨基酸序列可以包括protein-1中的一个氨基酸,也可以包括protein-1中的多个氨基酸;所述第二氨基酸序列可以包括protein-2中的一个氨基酸,也可以包括protein-2中的多个氨基酸。
[0095]
在确定第一氨基酸序列及第二氨基酸序列时,可以采用k-mer(k-字)分析方法,分别对protein-1对应的氨基酸序列及protein-2对应的氨基酸序列进行划分。
[0096]
以对protein-1对应的氨基酸序列进行划分为例:可以将protein-1对应的氨基酸序列划分为多个k-mer序列片段(k为大于或者等于1的整数),即每个k-mer序列片段包含k个氨基酸。这样,得到的k-mer序列片段即为第一氨基酸序列。例如,当protein-1对应的氨基酸序列为mtaqdd

sys时,对该序列进行1-mer划分,可以得到m、t、a、q、d、d

等多个包含一个氨基酸的第一氨基酸序列;又如,对该序列进行3-mer划分,可以得到mta、qdd

等多个包含三个氨基酸的第一氨基酸序列;此外,对该序列进行3-mer划分时,还可以采用重叠方式对protein-1对应的氨基酸序列进行划分,其中,重叠方式中,同一个氨基酸可以包含于多个第一氨基酸序列中。例如,protein-1经过重叠方式划分后,可以得到mta、taq、aqd


多个第一氨基酸序列。
[0097]
可选的,由于3-mer序列片段具有较好的统计特征,因此,本技术实施例中,可以分别将protein-1对应的氨基酸序列及protein-2对应的氨基酸序列进行3-mer划分,得到分别包含三个氨基酸的第一氨基酸序列及第二氨基酸序列。
[0098]
第一序列信息为第一氨基酸序列的信息,第二序列信息为第二氨基酸序列的信息。其中,第一序列信息可以包括所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息等等。第二序列信息可以包括所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息等等。
[0099]
可选地,第一特征信息可以包括第一氨基酸序列的向量特征信息;第一数量信息可以包括第一蛋白质中第一氨基酸序列的数量。第二特征信息可以包括第二氨基酸序列的向量特征信息;第二数量信息可以包括第二蛋白质中第二氨基酸序列的数量。
[0100]
以第一序列信息为例:第一序列信息中的第一特征信息可以通过one-hot(独热编码)编码方式,或者随机化方法,将第一氨基酸序列进行向量化表示得到;或者,第一特征信息还可以通过特征提取模型对第一氨基酸序列进行特征提取得到,其中,特征提取模型可以包括预先训练的神经网络学习模型等等。第一序列信息中的第一数量信息可以通过统计所述第一蛋白质包括的所述第一氨基酸序列的数量得到。例如,以protein-1对应的氨基酸序列为mtaqdd为例。若第一氨基酸序列为氨基酸1-mer,即第一氨基酸序列中包括一个氨基酸,那么,protein-1中包含的第一氨基酸序列分别为m、t、a、q、d、d,也就是说,protein-1中包含六个第一氨基酸序列,因此,第一数量信息为6。
[0101]
第二序列信息可以通过与第一序列信息类似的方式得到,在此不再赘述。
[0102]
步骤s302:根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系。
[0103]
具体的,序列关联关系为所述第一氨基酸序列与所述第二氨基酸序列之间的关联关系。可选的,本技术实施例中,可以通过所述第一氨基酸序列与所述第二氨基酸序列之间的条件概率来表示所述序列关联关系。
[0104]
可选的,若第一序列信息包括所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息;第二序列信息包括所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息,在确定序列关联关系时,可以根据第一数量信息与第二数量信息之间的第一关联关系确定序列关联关系;也可以根据第一特征信息与第二特征信息之间的第二关联关系确定序列关联关系;此外,还可以根据第一关联关系及第二关联关系确定序列关联关系。
[0105]
步骤s303:根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0106]
具体的,所述相互作用信息可以指示所述第一蛋白质与所述第二蛋白质是否发生相互作用。
[0107]
可选的,本技术实施例中,所述序列关联关系可以包括关联关系值,关联关系值用于表征所述第一氨基酸序列与所述第二氨基酸序列之间的关联程度。
[0108]
在确定所述相互作用信息时,可以将所述关联关系值与预设关系阈值进行比较,
确定protein-1与protein-2是否发生相互作用。例如,当所述关联关系值大于预设关系阈值时,表示protein-1与protein-2之间发生相互作用;当所述关联关系值小于预设关系阈值时,表示protein-1与protein-2之间不会发生相互作用。
[0109]
本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。
[0110]
在本技术的一些实施例中,所述第一序列信息包括:所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息,
[0111]
所述第二序列信息包括:所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息,
[0112]
所述根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系,包括:
[0113]
确定所述第一数量信息与所述第二数量信息之间的第一关联关系;以及确定所述第一特征信息与所述第二特征信息的第二关联关系;
[0114]
根据所述第一关联关系及所述第二关联关系,确定所述序列关联关系。
[0115]
具体的,第一特征信息包括第一氨基酸序列的特征;第一数量信息包括第一蛋白质中所述第一氨基酸序列的数量。第二特征信息包括第二氨基酸序列的特征;第二数量信息包括第二蛋白质中所述第二氨基酸序列的数量。
[0116]
第一特征信息可以通过one-hot(独热编码)编码方式,或者随机化方法,将第一氨基酸序列进行向量化表示得到;或者,第一特征信息还可以通过特征提取模型对第一氨基酸序列进行特征提取得到。第一数量信息可以通过统计所述第一蛋白质包括的所述第一氨基酸序列的数量得到。
[0117]
第二特征信息及第二数量信息可以通过与第一特征信息、第一数量信息类似的方式得到,在此不再赘述。
[0118]
第一关联关系为所述第一数量信息与所述第二数量信息之间的关联关系。可选的,第一关联关系可以通过所述第一数量信息与所述第二数量信息之间相似度确定。
[0119]
第一数量信息包括第一蛋白质中第一氨基酸序列的数量;第二数量信息包括第二蛋白质中第二氨基酸序列的数量。可以理解的是,若第一蛋白质中第一氨基酸序列的数量与第二蛋白质中第二氨基酸序列的数量相接近,也就是第一蛋白质包含的氨基酸数量与第二蛋白质包含的氨基酸数量相接近,在一定程度上可以说明第一蛋白质与第二蛋白质在结构上存在一定的相似性,那么,第一蛋白质与第二蛋白质发生相互作用的概率较大。
[0120]
例如,第一蛋白质中第一氨基酸序列的数量为10;第二蛋白质中第二氨基酸序列的数量12;由于上述第一氨基酸序列的数量与第二氨基酸序列的数量相近,因此,在一定程度上,第一蛋白质与第二蛋白质发生相互作用的概率较大。又如,第一蛋白质中第一氨基酸序列的数量为10;第二蛋白质中第二氨基酸序列的数量2000;由于上述第一氨基酸序列的
数量与第二氨基酸序列的数量相差较远,因此,在一定程度上,第一蛋白质与第二蛋白质发生相互作用的概率较小。
[0121]
因此,通过所述第一数量信息与所述第二数量信息之间相似度来确定的第一关联关系,可以用于预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0122]
第二关联关系为所述第一特征信息与所述第二特征信息之间的关联关系。
[0123]
第一特征信息可以包括第一氨基酸序列的向量特征信息;第二特征信息可以包括第二氨基酸序列的向量特征信息。由于第一氨基酸序列的向量特征信息可以反应第一氨基酸序列的特征;第二氨基酸序列的向量特征信息可以反应第二氨基酸序列的特征,因此,通过所述第一特征信息与所述第二特征信息之间的关联关系确定的第二关联关系,可以反应第一氨基酸序列与第二氨基酸序列之间的关联性。
[0124]
可选的,第二关联关系可以根据第一蛋白质中的任一第一氨基酸序列的第一特征信息,与第二蛋白质中的任一第二氨基酸序列的第二特征信息之间的关联关系确定。例如,第一蛋白质中包括第一氨基酸序列的第一特征信息分别为a1、a2;第二蛋白质中包括第二氨基酸序列的第二特征信息分别为b1、b2。可以根据a1与b1之间的关联关系(记为a1b1)、a1与b2之间的关联关系(记为a1b2)、a2与b1之间的关联关系(记为a2b1)、a2与b2之间的关联关系(记为a2b2)来确定第二关联关系。
[0125]
在本技术的一些实施例中,所述确定所述第一数量信息与所述第二数量信息之间的第一关联关系,包括:
[0126]
根据预设概率分布算法,确定所述第一数量信息与所述第二数量信息之间的相似度,得到所述第一关联关系。
[0127]
在本技术的另一个实施例中,所述确定所述第一特征信息与所述第二特征信息的第二关联关系,包括:
[0128]
根据所述第一特征信息与所述第二特征信息,确定所述第一氨基酸序列与第二氨基酸序列的特征关联关系;
[0129]
根据所述特征关联关系,确定所述第二关联关系。
[0130]
本技术实施例中,第一蛋白质为uo、第二蛋白质为uj为例进行说明:
[0131]
其中,第一蛋白质ui中包括多个第一氨基酸序列,每个第一氨基酸序列可以以氨基酸3-mer为例(氨基酸3-mer仅为示例,也可以是其它氨基酸k-mer),氨基酸3-mer即第一氨基酸序列中包括3个氨基酸,因此,可以将第一蛋白质ui表示为ui={w
i,1
,....,w
i,m
},其中,wi为第一氨基酸序列,m为第一氨基酸序列的数量。第二蛋白质uj中包括多个第二氨基酸序列,每个第二氨基酸序列为氨基酸3-mer,即第二氨基酸序列中包括3个氨基酸,因此,可以将第二蛋白质uj表示为uj={w
j,1
,....,w
j,k
},其中,wj为第二氨基酸序列,k为第二氨基酸序列的数量。
[0132]
本技术实施例中,可以通过泊松分布确定所述第一数量信息与所述第二数量信息之间的第一关联关系,即第一关联关系φ(k|ui)为:其中,k表示第二氨基酸序列的数量;λ(ui)表示ui中第一氨基酸序列的数量的期望。可选的,在通过神经网络模型来预测蛋白质间相互作用时,λ(ui)为神经网络模型的模型参数。
[0133]
在确定第二关联关系时,可以先分别确定ui中的每个第一氨基酸序列的第一特征
信息,与uj中的每个第二氨基酸序列的第二特征信息之间的特征关联关系。例如,可以先确定{w
i,1
,w
i,2
...,w
i,m
}中w
i,1
与{w
j,1
,w
j,2
...,w
j,k
}中每个元素之间的特征关联关系、然后确定w
i,2
与{w
j,1
,w
j,2
...,w
j,k
}中每个元素之间的特征关联关系
……
直至w
i,m
与{w
j,1
,w
j,2
...,w
j,k
}中每个元素之间的特征关联关系。然后根据上述特征关联关系,确定第二关联关系,例如,可以根据上述特征关联关系的平均值,确定第二关联关系,即第二关联关系可以表示为:
[0134][0135]
其中,y表示所述第二关联关系;m表示第一氨基酸序列的数量;k表示第二氨基酸序列的数量;null表示预设氨基酸序列,该预设氨基酸序列可以为氨基酸3-mer,即预设氨基酸序列中包括3个氨基酸,其中,预设氨基酸序列可以为预先构造的氨基酸序列。预设氨基酸序列用于:当第一蛋白质中的任意一个第一氨基酸序列均与第二蛋白质中的第二氨基酸序列(例如)之间没有关联关系时,可以通过预设氨基酸序列与建立联系;表示uj中第k个元素,即uj中的第k个第二氨基酸序列;表示ui中第ak个元素,即ui中的第ak个第一氨基酸序列。
[0136]
此外,其中,p
ml
(w|ui)表示从ui中选出任意一个氨基酸3-mer w的概率,其中,上述概率p
ml
(w|uo)可以通过极大似然估算的方式确定。例如,当uo中存在5个氨基酸3-mer,那么选出其中的氨基酸3-mer w的概率为1/5;w可以为uo中任一氨基酸3-mer。在通过神经网络模型来预测蛋白质间相互作用时,为神经网络模型的模型参数。表示w与之间的关联关系。
[0137]
进一步的,根据所述第一关联关系及所述第二关联关系,确定所述序列关联关系。
[0138]
本技术实施例中,序列关联关系可以表示为根据所述第一关联关系及所述第二关联关系确定的条件概率:
[0139]
所述序列关联关系对应的数据关系包括:
[0140]
p(uj|ui)=yφ(k|ui);
[0141]
其中,p(uj|ui)表示所述序列关联关系;y表示所述第二关联关系;φ(k|ui)表示第一关联关系。即:
[0142]
[0143]
其中,k表示第二氨基酸序列的数量;λ(ui)是由ui的中第一氨基酸序列的数量的期望。可选的,在通过神经网络模型确定序列关联关系时,λ(ui)为模型参数。
[0144]
其中,m表示第一氨基酸序列的数量;k表示第二氨基酸序列的数量;null表示预设氨基酸序列,该预设氨基酸序列可以为氨基酸3-mer,即预设氨基酸序列中包括3个氨基酸;表示uj中第k个元素,即uj中的第k个第二氨基酸序列;表示ui中第ak个元素,即ui中的第ak个第一氨基酸序列。
[0145]
此外,其中,p
ml
(w|ui)表示由ui经过极大似然估计得到的ui产生氨基酸3-merw的概率,其中w可以为ui中任一氨基酸3-mer。在通过神经网络模型确定序列关联关系时,为模型参数。表示w与之间的关联关系。
[0146]
由于条件概率p(uj|ui)表征ui到uj的转换概率,本技术实施例中,为更准确的描述序列关联关系,还可以以与上述方式类似的方法确定条件概率p(ui|uj),即uj到ui的转换概率;然后,综合考虑p(uj|ui)和p(ui|uj)来确定序列关联关系,例如,可以对p(uj|ui)和p(ui|uj)进行加权处理得到序列关联关系;可选的,可以均衡考虑p(uj|ui)和p(ui|uj),也就是说,序列关联关系可以表示为:0.5
×
(p(ui|uj)+p(uj|ui))。
[0147]
在本技术的一些实施例中,确定所述序列关联关系、根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:
[0148]
将所述第一序列信息以及所述第二序列信息输入至预设预测模型,得到所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0149]
其中,本技术的预设预测模型可以为基于概率的模型,预设预测模型的训练方式可以通过以下实施例实现:
[0150]
在本技术的另一个实施例中,所述将所述第一序列信息以及所述第二序列信息输入至预设预测模型之前,所述方法还包括:
[0151]
获取训练样本;其中,所述训练样本包括:样本蛋白质对以及所述样本蛋白质对对应的样本关联关系;所述样本蛋白质对包括第一样本蛋白质及第二样本蛋白质;
[0152]
将所述训练样本输入初始预测模型中,得到每个所述训练样本对应的预测结果;
[0153]
根据所述样本关联关系及所述预测结果,确定训练损失值;
[0154]
基于所述训练损失值,对所述初始模型进行重复训练,直至得到符合训练结束条件的所述预设预测模型。
[0155]
具体的,本技术实施例中,训练数据集可以表示为{(q1,a1),(q2,a2),....,(qh,ah)},其中,(qi,ai)表示样本蛋白质对,qi和ai分别表示第一样本蛋白质及第二样本蛋白质。h表示样本蛋白质对的数量。
[0156]
本技术实施例中,将所述训练样本输入初始预测模型中,得到每个所述训练样本对应的预测结果;然后根据所述样本关联关系及所述预测结果,确定训练损失值。其中,由于样本关联关系为确定数值,因此,在计算训练损失值时,为便于计算,也可以仅通过所述预测结果计算训练损失值,即训练损失值l的数据关系可以表示为:
[0157][0158]
其中,l表示所述训练损失值;|qi|表示第一样本蛋白质qi中第一氨基酸序列(第一氨基酸序列可以为氨基酸3-mer)的数量;|ai|表示第二样本蛋白质ai中第二氨基酸序列(第二氨基酸序列可以为氨基酸3-mer)的数量。表示qi中第k个元素,即qi中的第k个第一氨基酸序列;null表示预设氨基酸序列。
[0159]
为确定模型参数λ,本技术实施例中,可以计算上述训练损失值对ai的偏导数,并假设训练损失值对ai的偏导数为0,通过计算可以得到:
[0160][0161]
其中,δ是克罗内克δ函数。
[0162]
在确定模型参数时,由于参数没有封闭形式的解,本技术实施例可以通过em算法来学习参数具体过程如下:
[0163]
(1)确定的初始值;
[0164]
(2)对于每个样本蛋白质对(qi,ai),i∈[1,h],确定(qi,ai)中由w(w为任一氨基酸3-mer)转换成的期望
[0165][0166]
其中,wj(1≤j≤|ai|)是ai中的氨基酸3-mer,和c(w,ai)分别是在qi中出现的次数以及w在ai中出现的次数;
[0167]
(3)确定
[0168][0169]
其中,表示由w转换成的期望;c(t

|w,qj,aj)表示由w转换成t

的期望;t

表示任一氨基酸3-mer。
[0170]
(4)重复执行(2)和(3)直至收敛。
[0171]
在本技术的一些实施例中,所述序列关联关系包括关联关系值,
[0172]
所述根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互
作用信息,包括:
[0173]
将所述关联关系值与预设关系阈值进行比较,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息;
[0174]
所述相互作用信息指示所述第一蛋白质与所述第二蛋白质是否发生相互作用。
[0175]
在确定所述相互作用信息时,可以将所述关联关系值与预设关系阈值进行比较,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息。例如,当所述关联关系值大于或等于预设关系阈值时,表示所述第一蛋白质与所述第二蛋白质之间发生相互作用;当所述关联关系值小于预设关系阈值时,表示所述第一蛋白质与所述第二蛋白质之间不会发生相互作用。
[0176]
本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。
[0177]
本技术实施例提供了一种蛋白质间相互作用的预测装置,如图4所示,该装置40可以包括:获取模块401、确定模块402以及预测模块403,其中,
[0178]
获取模块401,用于获取第一蛋白质的氨基酸序列,所述第一蛋白质的氨基酸序列包括多个第一氨基酸序列;分别获取每个所述第一氨基酸序列的第一序列信息;
[0179]
获取第二蛋白质的氨基酸序列,所述第二蛋白质的氨基酸序列包括多个第二氨基酸序列;分别获取每个所述第二氨基酸序列的第二序列信息;
[0180]
确定模块402,用于根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;
[0181]
预测模块403,用于根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0182]
在本技术的一些实施例中,所述第一序列信息包括:所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息,
[0183]
所述第二序列信息包括:所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息,
[0184]
所述确定模块具体用于确定所述第一数量信息与所述第二数量信息之间的第一关联关系;以及确定所述第一特征信息与所述第二特征信息的第二关联关系;
[0185]
根据所述第一关联关系及所述第二关联关系,确定所述序列关联关系。
[0186]
在本技术的一些实施例中,所述确定模块具体用于根据预设概率分布算法,确定所述第一数量信息与所述第二数量信息之间的相似度,得到所述第一关联关系。
[0187]
在本技术的一些实施例中,所述确定模块具体用于根据所述第一特征信息与所述第二特征信息,确定所述第一氨基酸序列与第二氨基酸序列的特征关联关系;
[0188]
根据所述特征关联关系,确定所述第二关联关系。
[0189]
在本技术的一些实施例中,所述第一关联关系对应的数据关系包括:
[0190][0191]
其中,φ(k|ui)表示所述第一关联关系;k表示所述第二氨基酸序列的数量;λ(ui)表示ui中所述第一氨基酸序列的数量的期望;ui表示所述第一蛋白质。
[0192]
在本技术的一些实施例中,所述第二关联关系对应的数据关系包括:
[0193][0194]
其中,y表示所述第二关联关系;m表示所述第一氨基酸序列的数量;k表示所述第二氨基酸序列的数量;null表示预设氨基酸序列;表示所述第二蛋白质uj中的第k个所述第二氨基酸序列;
[0195]
其中,p
ml
(w|ui)表示从所述第一蛋白质ui中选出任意一个所述第一氨基酸序列w的概率;
[0196]
表示所述预设氨基酸序列与之间的条件概率。
[0197]
在本技术的一些实施例中,所述序列关联关系对应的数据关系包括:
[0198]
p(uj|ui)=yφ(k|ui);
[0199]
其中,p(uj|ui)表示所述序列关联关系;y表示所述第二关联关系;φ(k|ui)表示第一关联关系。
[0200]
在本技术的一些实施例中,所述确定模块、所述预测模块具体用于将所述第一序列信息以及所述第二序列信息输入至预设预测模型,得到所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0201]
在本技术的一些实施例中,该装置还包括:训练模块,
[0202]
所述训练模块用于在所述将所述第一序列信息以及所述第二序列信息输入至预设预测模型之前,
[0203]
获取训练样本;其中,所述训练样本包括:样本蛋白质对以及所述样本蛋白质对对应的样本关联关系;所述样本蛋白质对包括第一样本蛋白质及第二样本蛋白质;
[0204]
将所述训练样本输入初始预测模型中,得到每个所述训练样本对应的预测结果;
[0205]
根据所述样本关联关系及所述预测结果,确定训练损失值;
[0206]
基于所述训练损失值,对所述初始模型进行重复训练,直至得到符合训练结束条件的所述预设预测模型。
[0207]
在本技术的一些实施例中,所述训练损失值对应的数据关系包括:
[0208][0209][0210]
其中,l表示所述训练损失值;|qi|表示所述第一样本蛋白质qi中所述第一氨基酸序列的数量;|ai|表示所述第二样本蛋白质ai中所述第二氨基酸序列的数量;表示qi中第k个所述第一氨基酸序列;null表示预设氨基酸序列;h表示所述样本蛋白质对的数量。
[0211]
在本技术的一些实施例中,所述序列关联关系包括关联关系值,
[0212]
所述预测模块具体用于将所述关联关系值与预设关系阈值进行比较,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息;
[0213]
所述相互作用信息指示所述第一蛋白质与所述第二蛋白质是否发生相互作用。
[0214]
本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
[0215]
本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。
[0216]
基于同一发明构思,本技术实施例提供了一种蛋白质间相互作用的预测系统,该预测系统的架构示意图如图5所示,包括:输入单元、处理器和显示单元。
[0217]
输入单元用于接收第一蛋白质的氨基酸序列,及每个所述第一氨基酸序列的第一序列信息,及第二蛋白质的氨基酸序列,及每个所述第二氨基酸序列的第二序列信息。
[0218]
处理器与输入单元电连接,用于利用本技术中任一种蛋白质间相互作用的预测的处理方法,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0219]
显示单元与处理器电连接,用于展示所述第一蛋白质与所述第二蛋白质之间的相互作用信息。
[0220]
可选地,本技术实施例的蛋白质间相互作用的预测系统具体为单独的终端设备,终端设备可以是台式电脑、笔记本电脑或二合一电脑等具有较强算力的电子设备。
[0221]
可选地,本技术实施例的蛋白质间相互作用的预测系统包括通信连接的云端设备和终端设备。云端设备可以是单台服务器、服务器集群或分布式服务器等具有较强算力的电子设备,具有处理器,用于执行上述运动推荐方法中的步骤s301至s303、以及步骤s301至s303中各步骤的展开处理。终端设备可以是智能手机或平板电脑等算力较弱的电子设备,具有输入单元、处理器和显示单位,用于执行各蛋白质间相互作用的预测的方法中的步骤以及步骤的展开处理。
[0222]
本技术实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质
之间的相互作用信息,可以提升预测的准确度。
[0223]
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0224]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(fieldprogrammable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0225]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0226]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc readonly memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0227]
存储器4003用于存储执行本技术方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
[0228]
其中,电子设备包括但不限于:移动电话、笔记本电脑、多媒体播放器、台式计算机等。
[0229]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
[0230]
本技术实施例通过获取第一氨基酸序列的第一序列信息以及第二氨基酸序列的第二序列信息;根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息;其中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第
一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。
[0231]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
[0232]
应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
[0233]
以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。

技术特征:
1.一种蛋白质间相互作用的预测方法,其特征在于,包括:获取第一蛋白质的氨基酸序列,所述第一蛋白质的氨基酸序列包括多个第一氨基酸序列;分别获取每个所述第一氨基酸序列的第一序列信息;获取第二蛋白质的氨基酸序列,所述第二蛋白质的氨基酸序列包括多个第二氨基酸序列;分别获取每个所述第二氨基酸序列的第二序列信息;根据所述第一序列信息以及所述第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。2.根据权利要求1所述的预测方法,其特征在于,所述第一序列信息包括:所述第一氨基酸序列的第一特征信息,以及所述第一蛋白质包括的所述第一氨基酸序列的第一数量信息,所述第二序列信息包括:所述第二氨基酸序列的第二特征信息,以及所述第二蛋白质包括的所述第二氨基酸序列的第二数量信息,所述根据所述第一序列信息以及所述第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系,包括:确定所述第一数量信息与所述第二数量信息之间的第一关联关系;以及确定所述第一特征信息与所述第二特征信息的第二关联关系;根据所述第一关联关系及所述第二关联关系,确定所述序列关联关系。3.根据权利要求2所述的预测方法,其特征在于,所述确定所述第一数量信息与所述第二数量信息之间的第一关联关系,包括:根据预设概率分布算法,确定所述第一数量信息与所述第二数量信息之间的相似度,得到所述第一关联关系。4.根据权利要求2所述的预测方法,其特征在于,所述确定所述第一特征信息与所述第二特征信息的第二关联关系,包括:根据所述第一特征信息与所述第二特征信息,确定所述第一氨基酸序列与第二氨基酸序列的特征关联关系;根据所述特征关联关系,确定所述第二关联关系。5.根据权利要求2所述的预测方法,其特征在于,所述第一关联关系对应的数据关系包括:其中,φ(k|u
i
)表示所述第一关联关系;k表示所述第二氨基酸序列的数量;λ(ui)表示ui中所述第一氨基酸序列的数量的期望;ui表示所述第一蛋白质。6.根据权利要求5所述的预测方法,其特征在于,所述第二关联关系对应的数据关系包括:
其中,y表示所述第二关联关系;m表示所述第一氨基酸序列的数量;k表示所述第二氨基酸序列的数量;null表示预设氨基酸序列;表示所述第二蛋白质u
j
中的第k个所述第二氨基酸序列;其中,p
ml
(w|u
i
)表示从所述第一蛋白质u
i
中选出任意一个所述第一氨基酸序列w的概率;表示所述预设氨基酸序列与之间的条件概率。7.根据权利要求6所述的预测方法,其特征在于,所述序列关联关系对应的数据关系包括:p(u
j
|u
i
)=yφ(k|u
i
);其中,p(u
j
|u
i
)表示所述序列关联关系;y表示所述第二关联关系;φ(k|u
i
)表示第一关联关系。8.根据权利要求1所述的预测方法,其特征在于,确定所述序列关联关系、根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:将所述第一序列信息以及所述第二序列信息输入至预设预测模型,得到所述第一蛋白质与所述第二蛋白质之间的相互作用信息。9.根据权利要求8所述的预测方法,其特征在于,所述将所述第一序列信息以及所述第二序列信息输入至预设预测模型之前,所述方法还包括:获取训练样本;其中,所述训练样本包括:样本蛋白质对以及所述样本蛋白质对对应的样本关联关系;所述样本蛋白质对包括第一样本蛋白质及第二样本蛋白质;将所述训练样本输入初始预测模型中,得到每个所述训练样本对应的预测结果;根据所述样本关联关系及所述预测结果,确定训练损失值;基于所述训练损失值,对所述初始模型进行重复训练,直至得到符合训练结束条件的所述预设预测模型。10.根据权利要求9所述的预测方法,其特征在于,所述训练损失值对应的数据关系包括:其中,l表示所述训练损失值;|q
i
|表示所述第一样本蛋白质q
i
中所述第一氨基酸序列的数量;|a
i
|表示所述第二样本蛋白质a
i
中所述第二氨基酸序列的数量;表示q
i
中第k个所述第一氨基酸序列;null表示预设氨基酸序列;h表示所述样本蛋白质对的数量。11.根据权利要求1所述的预测方法,其特征在于,所述序列关联关系包括关联关系值,所述根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,包括:将所述关联关系值与预设关系阈值进行比较,确定所述第一蛋白质与所述第二蛋白质之间的相互作用信息;所述相互作用信息指示所述第一蛋白质与所述第二蛋白质是否发生相互作用。
12.一种预测装置,其特征在于,包括:获取模块,用于获取第一蛋白质的氨基酸序列,所述第一蛋白质的氨基酸序列包括多个第一氨基酸序列;分别获取每个所述第一氨基酸序列的第一序列信息;获取第二蛋白质的氨基酸序列,所述第二蛋白质的氨基酸序列包括多个第二氨基酸序列;分别获取每个所述第二氨基酸序列的第二序列信息;确定模块,用于根据所述第一序列信息以及第二序列信息,确定所述第一氨基酸序列与所述第二氨基酸序列之间的序列关联关系;预测模块,用于根据所述序列关联关系,预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息。13.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至11任一项所述的预测方法。14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的预测方法。

技术总结
本申请实施例提供了一种蛋白质间相互作用的预测方法、装置、电子设备及计算机可读存储介质,涉及计算机技术领域。本申请实施中,第一氨基酸序列及第二氨基酸序列分别作为第一蛋白质及第二蛋白质的组成部分,第一氨基酸序列与第二氨基酸序列之间的序列关联关系可以反应第一蛋白质与第二蛋白质之间的关系。这样,通过序列关联关系预测所述第一蛋白质与所述第二蛋白质之间的相互作用信息,可以提升预测的准确度。测的准确度。测的准确度。


技术研发人员:张振中
受保护的技术使用者:京东方科技集团股份有限公司
技术研发日:2022.01.27
技术公布日:2023/8/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐