使用简化多序列比对来训练蛋白结构预测神经网络的制作方法

未命名 08-26 阅读：102 评论：0

使用简化多序列比对来训练蛋白结构预测神经网络

背景技术：

1.本说明书涉及训练预测蛋白结构的神经网络。
2.蛋白由一个或多个氨基酸序列指定。氨基酸是包括氨基官能团和羧基官能团以及对氨基酸具有特异性的侧链(即，原子团)的有机化合物。蛋白折叠是指氨基酸序列折叠成三维(3-d)构型的物理进程。蛋白的结构定义了在蛋白经历蛋白折叠之后蛋白的氨基酸序列中的原子的3-d构型。当在由肽键链接的序列中时，氨基酸可以被称为氨基酸残基。
3.可以使用机器学习模型来进行预测。机器学习模型接收输入并且基于接收到的输入来生成输出，例如预测输出。一些机器学习模型是参数模型并且基于接收到的输入和模型的参数值来生成输出。一些机器学习模型是采用多层模型来为接收到的输入生成输出的深度模型。例如，深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型，该隐藏层分别将非线性变换应用于接收到的输入以生成输出。

技术实现要素：

4.本说明书描述了被实现为一个或多个位置中的一个或多个计算机上的计算机程序的训练系统以用于训练可以预测蛋白结构的结构预测神经网络。
5.如贯穿本说明书所使用，术语“蛋白”可以被理解为指由一个或多个氨基酸序列指定的任何生物分子。例如，术语蛋白可以被理解为指蛋白结构域(例如可以经历几乎独立于氨基酸序列的其余部分的蛋白折叠的氨基酸序列的一部分)或蛋白复合物(例如由多个相关联的氨基酸序列指定的)。
6.本文中所描述的方法和系统可以用于将结构预测神经网络训练为用于获得配体，诸如工业酶的药物或配体。例如，获得配体的方法可以包括获得靶氨基酸序列，具体地为靶蛋白的氨基酸序列，并且使用结构预测神经网络基于靶氨基酸序列来处理输入以确定靶蛋白的(三级)结构，即，预测蛋白结构。该方法然后可以包括评估一种或多种候选配体与靶蛋白的结构的相互作用。该方法还可以包括根据相互作用的评估结果来选择候选配体中的一者或多者作为配体。
7.在一些实施方式中，评估相互作用可以包括评估候选配体与靶蛋白的结构的结合。例如，评估相互作用可以包括识别以对于生物效应足够的亲和力结合的配体。在一些其他实施方式中，评估相互作用可以包括评估候选配体与靶蛋白的结构的缔合，其对靶蛋白(例如酶)的功能具有影响。评估可以包括评估候选配体与靶蛋白的结构之间的亲和力，或评估相互作用的选择性。
8.候选配体可以衍生自候选配体数据库，和/或可以通过修饰候选配体数据库中的配体而衍生，例如通过修饰候选配体的结构或氨基酸序列而衍生，和/或可以通过候选配体的逐步或迭代组装/优化而衍生。
9.评估候选配体与靶蛋白的结构的相互作用可以使用计算机辅助方法来进行，在该计算机辅助方法中，显示了候选配体和靶蛋白结构的图形模型以供用户操纵，和/或评估可以例如使用标准分子(蛋白-配体)对接软件来部分或完全自动地进行。在一些实施方式中，
评估可以包括确定候选配体的相互作用分数，其中相互作用分数包括候选配体与靶蛋白之间的相互作用的量度。相互作用分数可以取决于相互作用的强度和/或特异性，例如，分数取决于结合自由能。可以根据候选配体的分数来选择候选配体。
10.在一些实施方式中，靶蛋白包括受体或酶，并且配体是受体或酶的激动剂或拮抗剂。在一些实施方式中，该方法可以用于识别细胞表面标志物的结构。这然后可以用于识别结合到细胞表面标志物的配体，例如抗体或诸如荧光标记的标记。这可以用于识别和/或治疗癌细胞。
11.在一些实施方式中，候选配体可以包括小分子配体，例如分子量《900道尔顿的有机化合物。在一些其他实施方式中，候选配体可以包括多肽配体，即，由氨基酸序列定义的多肽配体。
12.在一些情况下，使用本文中所描述的技术训练的结构预测神经网络可以用于确定候选多肽配体(例如工业酶的药物或配体)的结构。然后可以评估该结构与靶蛋白结构的相互作用；可能已经使用结构预测神经网络或使用常规物理调查技术(诸如x射线晶体学和/或磁共振技术)来确定靶蛋白结构。
13.因此，在另一方面，提供了一种使用结构预测神经网络的方法，该结构预测神经网络使用本文中所描述的技术来训练以获得多肽配体(例如分子或其序列)。该方法可以包括获得一种或多种候选多肽配体的氨基酸序列。该方法还可以包括使用结构预测神经网络确定候选多肽配体的(三级)结构。该方法还可以包括经由计算机模拟(in silico)和/或通过物理调查来获得靶蛋白的靶蛋白结构，并且评估一种或多种候选多肽配体中的每一者的结构与靶蛋白结构之间的相互作用。该方法还可以包括根据评估结果来选择候选多肽配体中的一者或多者作为多肽配体。
14.如前所述，评估相互作用可以包括评估候选多肽配体与靶蛋白的结构的结合，例如识别以对于生物效应足够的亲和力结合的配体，和/或评估候选多肽配体与靶蛋白的结构的缔合，其对靶蛋白(例如酶)的功能具有影响，和/或评估候选多肽配体与靶蛋白的结构之间的亲和力，或评估相互作用的选择性。在一些实施方式中，多肽配体可以是适配体。
15.该方法的实施方式还可以包括合成(即，制作)小分子或多肽配体。配体可以通过任何常规化学技术合成和/或可能已经获得，例如可以来自化合物库或可能已经使用组合化学合成。合成可以是手动的，或半自动的，或全自动的。合成的小分子或多肽配体可以是药物。
16.该方法还可以包括在体外和/或体内测试配体的生物活性。例如，可以测试配体的adme(吸收、分布、代谢、排泄)和/或毒物学特性以筛选出不合适的配体。测试可以包括例如使候选小分子或多肽配体与靶蛋白接触并且测量蛋白的表达或活性的变化。
17.在一些实施方式中，候选(多肽)配体可以包括：分离的抗体、分离的抗体的片段、单变量结构域抗体、双或多特异性抗体、多价抗体、双变量结构域抗体、免疫缀合物、纤连蛋白分子、粘附蛋白、darpin、抗体、亲和体、抗转运蛋白、亲和蛋白、蛋白表位模拟物或它们的组合。候选(多肽)配体可以包括具有突变或化学修饰的氨基酸fc区的抗体，例如，当与野生型fc区相比时，该突变或化学修饰的氨基酸fc区防止或降低adcc(抗体依赖性细胞毒性)活性和/或增加半衰期。因此，在一些实施方式中，该方法用于获得包括抗体的多肽配体。
18.错误折叠的蛋白与多种疾病相关联。因此，在另一方面，提供了一种使用结构预测
神经网络的方法，该结构预测神经网络使用本文中所描述的技术来训练以识别蛋白错误折叠疾病的存在。该方法可以包括获得蛋白的氨基酸序列并且使用结构预测神经网络确定蛋白的结构。该方法还可以包括例如通过常规(物理)方法(诸如x射线晶体学、nmr光谱学或电子显微术)来获得从人体或动物体中获得的蛋白的样式(version)的结构。该方法然后可以包括将蛋白的结构与从身体中获得的样式的结构进行比较，并且根据比较结果来识别蛋白错误折叠疾病的存在。也就是说，可以通过与经由计算机模拟确定的结构进行比较来确定来自身体的蛋白的样式的错误折叠。
19.在一些其他方面，如上所述或本文中所描述的计算机实现的方法可以用于从靶蛋白的氨基酸序列中识别该靶蛋白上的活性/结合/阻断部位。
20.根据另一方面，提供了一种系统，该系统包括：一个或多个计算机；以及一个或多个存储设备，该一个或多个存储设备通信地耦合到一个或多个计算机，其中一个或多个存储设备存储指令，该指令在由一个或多个计算机执行时致使一个或多个计算机进行操作以实现本文中所描述的技术。该系统可以包括用于制作使用技术获得的蛋白的子系统，例如机器人蛋白合成子系统。
21.可以实现本说明书中所描述的主题的特定实施例，以便实现以下优点中的一者或多者。
22.本说明书描述了一种训练系统，该训练系统可以使用“配对”训练示例和“非配对”训练示例两者来训练结构预测神经网络。每个配对训练示例包括蛋白和基础实况(ground truth)(例如实际)蛋白结构的多序列比对(msa)，并且该训练系统可以将结构预测神经网络训练为处理msa以生成与基础实况蛋白结构匹配的预测蛋白结构。每个非配对训练示例包括蛋白的msa，但蛋白的基础实况结构可以是未知的。为了基于非配对训练示例来训练结构预测神经网络，该训练系统通过使用结构预测神经网络处理来自非配对训练示例的msa来生成靶蛋白结构，从而针对每个非配对训练示例生成预测靶。该训练系统然后训练结构预测神经网络来针对每个非配对训练示例处理“简化”msa(即，其中已经去除或掩蔽了msa中的一些数据)，以生成与对应靶蛋白结构匹配的预测蛋白结构。
23.通过使用非配对训练示例来训练结构预测神经网络，该训练系统可以通过降低结构预测神经网络过度拟合配对训练示例的可能性来改进结构预测神经网络的性能(例如预测精度)。结构预测神经网络可以例如通过基于msa中的不相关变化，而不是基于以推断的生物化学原理为基础的隐式推理而学习预测由配对训练示例指定的基础实况蛋白结构来“过度拟合”配对训练示例。此外，可用非配对训练示例的数量可以远大于可用配对训练示例的数量，因此基于非配对训练示例来训练结构预测神经网络可以使得其能够学习有效地预测更多种蛋白的结构。
24.本说明书描述了一种用于训练“学生”结构预测神经网络的训练系统，该“学生”结构预测神经网络可以通过处理输入来预测蛋白的结构，该输入包括蛋白的氨基酸序列的表示，但不包括蛋白的msa。为了增加可用的训练数据量，而不只是配对训练示例(即，其中基础实况蛋白结构是已知的)，该训练系统训练“教师”结构预测神经网络，该“教师”结构预测神经网络可以通过处理包括蛋白的msa的输入来精确地预测蛋白的结构。该训练系统使用教师结构预测神经网络通过处理包括来自非配对训练示例的msa的输入来生成靶蛋白结构，从而针对每个非配对训练示例生成预测靶。该训练系统然后将学生结构预测神经网络
训练为针对每个非配对训练示例生成与训练示例的靶蛋白结构匹配的预测蛋白结构，而不处理蛋白msa。
25.通过使用教师结构预测神经网络生成预测靶，该训练系统可以显著增加可用于训练学生结构预测神经网络的训练数据量，从而使得能够将学生结构预测神经网络训练为实现更高预测精度。在训练之后，学生结构预测神经网络可以用于预测任何蛋白的结构，而不管该蛋白的msa是否可用，从而使该学生结构预测神经网络广泛地适用于需要预测蛋白结构的任何任务。
26.识别基础实况蛋白结构可以是昂贵且耗时的，并且许多蛋白的基础实况结构可以是未知的。本说明书中所描述的训练系统使得结构预测神经网络能够被训练为即使在不存在许多蛋白的基础实况结构的情况下也能有效地预测多种蛋白的结构。
27.在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点将通过说明书、附图和权利要求书而变得显而易见。
附图说明
28.图1a-b描述了用于训练结构预测神经网络的训练系统，该结构预测神经网络可以通过处理包括蛋白的msa的输入来预测蛋白的结构。
29.图2描述了用于训练结构预测神经网络的训练系统，该结构预测神经网络可以预测蛋白的结构，而不处理该蛋白的msa。
30.图3是未折叠蛋白和折叠蛋白的图示。
31.图4是用于训练结构预测神经网络的示例进程的流程图，该结构预测神经网络被配置为通过处理网络输入来生成表征蛋白的结构的结构参数，该网络输入包括蛋白的多序列比对的表示。
32.图5是用于训练结构预测神经网络的示例进程的流程图，该结构预测神经网络可以生成表征蛋白的结构的结构参数，而不处理蛋白的多序列比对。
33.各个附图中的相同附图标记和名称指示相同元件。
具体实施方式
34.本说明书描述了训练系统，该训练系统可以例如通过重复调整模型参数的当前值以根据模型参数的初始值确定模型参数的训练值来训练具有模型参数集的蛋白结构预测神经网络。
35.贯穿本说明书，蛋白结构预测神经网络(或“结构预测神经网络”)是指处理表征蛋白的输入以生成包括表征蛋白的预测结构的结构参数集的输出的神经网络。蛋白的结构是指蛋白经历蛋白折叠之后蛋白中的原子的三维(3-d)构型。图3提供了未折叠蛋白和折叠蛋白的图示。
36.出于方便起见，本说明书将主要涉及将神经网络训练为进行蛋白结构预测。然而，本文中所描述的技术广泛适用于将任何机器学习模型(即，具有可训练模型参数集)训练为进行蛋白结构预测。机器学习模型的其他示例可以包括例如随机森林模型和支持向量机模型。
37.为了生成表征蛋白的预测结构的结构参数，结构预测神经网络可以处理输入，该
输入包括蛋白的氨基酸序列的表示，并且在一些情况下包括蛋白的多序列比对(msa)的表示。msa可以指定蛋白的氨基酸序列与例如来自其他蛋白(例如同源蛋白)的多个附加氨基酸序列的序列比对。更具体地，msa可以定义蛋白的氨基酸序列中的位置与多种附加蛋白的氨基酸序列中的对应位置之间的对应关系。可以例如通过使用任何适合的计算序列比对技术(例如渐进性比对构建)处理氨基酸序列的数据库来生成msa。msa中的氨基酸序列可以被理解为例如在msa中的每个氨基酸序列可以共享共同祖先的情况下具有进化关系。msa中的氨基酸序列之间的相关性可以对与预测蛋白的结构相关的信息进行编码。可以通过任何已知技术来获得msa，该已知技术诸如被综述为https://en.wikipedia.org/wiki/multiple_sequence_alignment的技术。
38.蛋白的氨基酸序列的表示可以是有序嵌入类集，该有序嵌入类集包括对应于氨基酸序列中的每个位置的相应嵌入(即，有序数值类集，例如数值的向量或矩阵)。对应于氨基酸序列中的每个位置的相应嵌入可以是例如独热向量(one-hot vector)，该独热向量定义了氨基酸序列中的位置处的氨基酸的同一性(identity)。独热向量具有对应于每个可能氨基酸(例如预定数量的可能氨基酸中的每个可能氨基酸)的不同分量。表示特定氨基酸的独热向量在对应于特定氨基酸的分量中具有值一(或某个其他预定值)，并且在其他分量中具有值零(或某个其他预定值)。
39.蛋白的msa的表示可以是有序嵌入类集，该有序嵌入类集包括对应于msa中的每个氨基酸序列中的每个位置的相应嵌入。对应于每个氨基酸序列中的每个位置的相应嵌入可以是例如独热向量，该独热向量定义了氨基酸序列的位置中的氨基酸的同一性。在一些情况下，蛋白的msa的表示可以是衍生自msa的特征集合，例如二阶统计特征，诸如参考以下描述的特征：s.seemayer、m.gruber和j.soding：“ccmpred：来自相关突变的蛋白残基-残基接触的快速且精确的预测(ccmpred:fast and precise prediction of protein residue-residue contacts from correlated mutations)”，生物信息学，2014年。
40.在一些实施方式中，由蛋白的结构预测神经网络生成的结构参数可以包括三维(3d)数值坐标的序列，其中每个坐标表示蛋白的氨基酸中的对应原子的空间位置(在一些给定参考帧中)。在特定示例中，结构参数可以包括表示蛋白中的氨基酸中的α碳原子的相应空间位置的3d数值坐标序列。在本说明书中可以被称为主链原子的α碳原子是指氨基酸中氨基官能团，羧基官能团和侧链结合至的碳原子。替代地或另外，结构参数可以包括蛋白的氨基酸中的特定原子之间的扭转(即，二面)角的序列。例如，结构参数可以是蛋白的氨基酸中的主链原子之间的phi(φ)、psi(ψ)和omega(ω)二面角的序列。
41.在一些实施方式中，由蛋白的结构预测神经网络生成的结构参数可以包括表征蛋白中的每对氨基酸之间的相应估计距离(例如，以埃为单位进行测量)的“距离图”。在一些示例中，距离图可以通过氨基酸对之间的可能距离集合上的概率分布来表征氨基酸对之间的估计距离。距离图可以被表示为有序数值类集，例如数值的向量或矩阵。
42.通常，本说明书中所描述的结构预测神经网络可以具有使得其能够进行它们描述的功能的任何适合的神经网络架构。例如，结构预测神经网络可以具有包括以任何适合的配置(例如作为层的线性序列)布置的任何适合类型的神经网络层(例如全连接层、卷积层、池化层、自关注层等)的相应架构。
43.下面将更详细地描述的图1a-b描述了用于训练结构预测神经网络的训练系统，该
结构预测神经网络可以通过处理包括蛋白的msa的输入来预测蛋白的结构。
44.下面将更详细地描述的图2描述了用于训练神经网络的训练系统，该神经网络可以预测蛋白的结构，而不处理蛋白的msa。
45.图1a示出了示例训练系统100。训练系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中实现了下面描述的系统、组件和技术。
46.训练系统100被配置为训练结构预测神经网络102，该结构预测神经网络可以通过处理输入来生成表征蛋白的结构的结构参数，该输入包括以下各项的相应表示：(i)蛋白的氨基酸序列；和(ii)蛋白的msa。
47.训练系统100使用监督训练系统104和自监督训练系统106训练结构预测神经网络102。
48.监督训练系统104基于“配对”训练示例108的集合来训练结构预测神经网络102。每个配对训练示例108对应于相应蛋白并且包括数据，该数据定义以下各项：(i)至结构预测神经网络的训练输入，包括蛋白的氨基酸序列和蛋白的msa；和(ii)蛋白的基础实况结构。蛋白的基础实况结构是指蛋白的已知结构，可能已经通过物理实验室技术(例如x射线晶体学)或通过某种其他技术使用蛋白的物理(即，真实世界)实例在实验上确定该已知结构。蛋白的基础实况结构可以呈多个基础实况结构参数的相应值的形式。基础实况结构参数可以分别是由结构预测神经网络生成的结构参数。
49.监督训练系统104可以将结构预测神经网络训练为生成与由配对训练示例108指定的基础实况结构参数匹配的结构参数。更具体地，监督训练系统104可以将结构预测神经网络102训练为优化目标函数，该目标函数测量(i)由结构预测神经网络生成的结构参数与(ii)由配对训练示例指定的基础实况结构参数之间的误差。目标函数可以测量相应结构参数集之间的误差，例如作为平方误差，或以任何其他适合的方式测量该误差。监督训练系统104可以使用任何适合的训练技术(例如随机梯度下降)训练结构预测神经网络102。
50.可选地，监督训练系统104可以将结构预测神经网络102训练为生成一个或多个辅助输出。将结构预测神经网络训练为生成辅助输出可以允许更快速地训练结构预测神经网络，并且例如通过使得结构预测神经网络能够生成蛋白的更有效的内部表示来实现更高预测精度。接下来描述辅助输出的几个示例。
51.在一个示例中，监督训练系统104可以将结构预测神经网络训练为处理表征蛋白的输入以生成辅助输出，该辅助输出估计由结构预测神经网络针对蛋白生成的结构参数的精度的置信度。更具体地，辅助输出可以估计(i)由蛋白的结构预测神经网络生成的结构参数与(ii)蛋白的基础实况结构参数之间的误差(例如平方误差)。
52.在另一示例中，监督训练系统104可以掩蔽作为结构预测神经网络102的输入提供的msa中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性。在该示例中，监督训练系统104可以将结构预测神经网络102训练为生成辅助输出，该辅助输出预测输入msa中的每个掩蔽氨基酸的同一性。“掩蔽”msa中的位置处的氨基酸的同一性可以是指由预定义掩蔽标识符(令牌)替换识别该位置处的氨基酸的数据。监督训练系统可以随机选择要在msa中掩蔽的氨基酸的位置。
53.自监督训练系统106基于“非配对”训练示例110的集合来训练结构预测神经网络。每个非配对训练示例110对应于相应蛋白并且包括定义至结构预测神经网络的训练输入的
数据，该训练输入包括蛋白的氨基酸序列和蛋白的msa。与配对训练示例108相反，对于一些或所有非配对训练示例，基础实况蛋白结构可以是未知的。
54.为了训练结构预测神经网络102，自监督训练系统106可以处理包括在每个非配对训练示例中的msa，以例如通过从完整msa(即，训练示例110中的整个msa，其通常包括针对相应蛋白中的基本上每个氨基酸的相应数据)中随机去除或掩蔽数据来生成“简化”msa。自监督训练系统106可以基于由结构预测神经网络102通过处理输入生成的结构参数集来生成定义每个非配对训练示例110的相应“靶”结构参数的数据，该输入包括来自非配对训练示例的完整(即，非简化)msa。自监督训练系统106然后可以将结构预测神经网络训练为处理每个非配对训练示例的简化msa，以生成与训练示例的靶结构参数匹配的结构参数。参考图1b更详细地描述了自监督训练系统106的示例。
55.训练系统100使用监督训练系统104和自监督训练系统106两者训练结构预测神经网络102。例如，训练系统100可以首先使用监督训练系统104，然后使用自监督训练系统106来训练结构预测神经网络102。在一些实施方式中，训练系统100可以在使用监督训练系统104和自监督训练系统106训练结构预测神经网络102之间重复地交替。
56.使用自监督训练系统106训练结构预测神经网络102可以通过降低结构预测神经网络过度拟合配对训练示例108的可能性来改进结构预测神经网络102的性能(例如预测精度)。结构预测神经网络102可以例如通过基于训练输入中的不相关变化，而不是基于以推断的生物化学原理为基础的隐式推理而学习预测由配对训练示例指定的基础实况蛋白结构来“过度拟合”配对训练示例。此外，可用非配对训练示例的数量可以远大于可用配对训练示例的数量，因此自监督训练系统106可以使得结构预测神经网络102能够学习有效地预测更多种蛋白的结构。
57.图1b示出了示例自监督训练系统106。自监督训练系统106是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中实现了下面描述的系统、组件和技术。
58.自监督训练系统106基于非配对训练示例110的集合来训练结构预测神经网络102。每个非配对训练示例110对应于相应蛋白并且包括定义至结构预测神经网络102的训练输入的数据，该训练输入包括(i)蛋白的氨基酸序列；和(ii)蛋白的“完整”(即，非简化)msa。通常，对于一些或所有非配对训练示例，基础实况蛋白结构可以是未知的。
59.作为训练结构预测神经网络102的一部分，自监督训练系统106生成每个非配对训练示例110的靶结构参数112的相应集。非配对训练示例的靶结构参数112表征对应于非配对训练示例的蛋白的预测结构。当处理蛋白的简化msa而不是完整msa时，靶结构参数112为结构预测神经网络102提供预测靶，如将在下面更详细地描述的。
60.为了生成非配对训练示例110的靶结构参数112，结构预测神经网络102处理包括完整msa114和蛋白的氨基酸(aa)序列116的表示的输入，以生成输出结构参数118。自监督训练系统106然后基于由结构预测神经网络102通过处理完整msa114和aa序列116生成的结构参数118来确定靶结构参数112。在一些实施方式中，自监督训练系统106可以将靶结构参数112确定为等于由结构预测神经网络生成的结构参数118。在一些实施方式中，自监督训练系统106可以通过将随机噪声值添加到由结构预测神经网络102生成的结构参数118来确定靶结构参数112。将随机噪声值添加到由结构预测神经网络102生成的结构参数118作为
生成靶结构参数112的一部分可能降低过度拟合的可能性，并且由此使结构预测神经网络102的训练规则化。
61.除了生成每个非配对训练示例110的靶结构参数112之外，自监督训练系统106还使用简化引擎120处理来自每个非配对训练示例110的完整msa 114，以生成对应“简化”msa 122。简化引擎120可以处理完整msa 114以例如通过从完整msa114中随机去除或掩蔽数据来生成简化msa 122。接下来更详细地描述可以由简化引擎120进行以从完整msa 114中生成简化msa 122的操作的几个示例。
62.在一些实施方式中，简化引擎120可以从完整msa114中随机去除一个或多个氨基酸序列，作为生成简化msa122的一部分。简化引擎120可以使用随机过程来确定要从完整msa114中去除多少氨基酸序列以及要从完整msa114中去除哪些特定氨基酸序列。例如，简化引擎120可以根据可能缩减参数值的空间上的概率分布来对缩减参数值进行采样，该缩减参数值定义了要从完整msa114中去除的氨基酸序列的数量。可能缩减参数值的空间可以是例如间隔(0,1)，并且采样的缩减参数值可以定义要从完整msa 114中去除的氨基酸序列的部分。例如，对缩减参数值0.15进行采样可以定义应去除完整msa114中的氨基酸序列的15％。在对缩减参数值进行采样之后，简化引擎120可以从完整msa114中随机去除指定数量的氨基酸序列。
63.在一些实施方式中，简化引擎120可以随机掩蔽完整msa 114中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性。“掩蔽”完整msa 114中的位置处的氨基酸的同一性可以是指由预定义掩蔽标识符(令牌)替换识别该位置处的氨基酸的数据。在一个示例中，简化引擎120可以根据可能掩蔽参数值的空间(例如间隔(0，0.05))上的概率分布来对掩蔽参数值进行采样。掩蔽参数值可以定义应当掩蔽完整msa的任何氨基酸序列中的任何位置处的相应氨基酸的同一性的概率。在对掩蔽参数值进行采样之后，简化引擎120可以用由掩蔽参数值定义的概率掩蔽msa中的每个氨基酸序列中的每个氨基酸的同一性。
64.自监督训练系统106训练结构预测神经网络102来针对每个非配对训练示例处理(i)aa序列116和(ii)简化msa 122的表示，以生成与非配对训练示例的靶结构参数112匹配的结构参数126。更具体地，自监督训练系统106使用训练引擎124将结构预测神经网络102训练为优化目标函数。对于每个非配对训练示例，目标函数可以测量(i)由结构预测神经网络从简化msa 122中生成的结构参数126与(ii)从完整msa 114中生成的靶结构参数112之间的误差。目标函数可以测量相应结构参数集之间的误差例如作为平方误差，或以任何其他适合的方式测量该误差。
65.自监督训练系统106可以使用训练引擎124来使用任何适合的训练技术(例如通过训练迭代序列的随机梯度下降)训练结构预测神经网络102。更具体地，在每次训练迭代中，训练引擎124可以对一批非配对训练示例进行采样。针对该批次中的每个非配对训练示例，结构预测神经网络102可以根据结构预测神经网络102的模型参数128的当前值来处理对应的简化msa 122和aa序列116，以生成对应结构参数126。训练引擎124然后可以评估目标函数，该目标函数测量(i)靶结构参数112与(ii)由结构预测神经网络102针对当前批次中的非配对训练示例生成的结构参数126之间的误差。训练引擎124可以例如通过反向传播来确定目标函数相对于结构预测神经网络的模型参数的梯度，并且使用梯度来使用任何适合的
梯度下降优化技术(例如rmsprop或adam)更新模型参数的当前值。
66.在一些实施方式中，自监督训练系统106可以将结构预测神经网络102训练为生成一个或多个辅助输出，例如预测简化msa 122中的每个掩蔽氨基酸的同一性的辅助输出。
67.由结构预测神经网络基于完整msa 114生成的结构参数118对于非配对训练示例中的一者或多者来说可以是不精确的。因此，这些训练示例的靶结构参数112可以是不精确的，并且在训练期间使用这些靶结构参数112可以例如通过加强由结构预测神经网络102造成的误差来降低结构预测神经网络102的性能。
68.为了降低不精确的靶结构参数112负面地影响结构预测神经网络102的训练的可能性，自监督训练系统106可以估计每个非配对训练示例的靶结构参数112的相应置信度。在一些实施方式中，自监督训练系统106可以抑制基于置信度估计不满足阈值的任何靶结构参数112来训练结构预测神经网络。在一些实施方式中，自监督训练系统106可以根据每个训练示例的靶结构参数112中的置信度估计来调节目标函数，例如以减少低置信度靶结构参数112对目标函数的影响。例如，目标函数可以由下式给出：
[0069][0070]
其中i为n个训练示例编索引，ci表示基于训练示例i的靶结构参数的置信度的缩放因子，ti表示训练示例i的靶结构参数，pi表示由结构预测神经网络基于训练示例i的简化msa生成的结构参数，并且err(
·
,
·
)表示误差测量，例如平方误差。
[0071]
自监督训练系统106可以按照各种方式确定靶结构参数112的置信度估计。接下来更详细地描述了确定训练示例的靶结构参数112的置信度估计的几种示例方式。
[0072]
在一个示例中，自监督训练系统106可以获得训练示例的靶结构参数112的置信度估计，作为由结构预测神经网络102通过处理训练示例的完整msa 114生成的辅助输出。参考图1a更详细地描述了生成置信度估计作为结构预测神经网络102的辅助输出。
[0073]
在另一示例中，自监督训练系统106可以基于对应于训练示例的蛋白的估计距离图来获得训练示例的靶结构参数112的置信度估计。距离图可以针对蛋白中的每对氨基酸定义在蛋白结构中的氨基酸对之间的可能物理距离范围内的概率分布。自监督训练系统106可以获得距离图作为由结构预测神经网络通过处理训练示例的完整msa 114生成的辅助或主输出。针对每对氨基酸，自监督训练系统106可以基于(i)由氨基酸对之间的可能距离上的距离图定义的概率分布与(ii)“背景”概率分布之间的差异来确定置信度估计。
[0074]
背景概率分布可以是反映已知蛋白结构中的氨基酸对之间的距离的统计分布的在可能距离范围内的预定义概率分布。相应概率分布之间的差异可以被确定为例如kullback-leibler发散(divergence)。通常，由距离图定义的概率分布与背景概率分布之间的较大差异可以指示由结构预测神经网络针对训练示例生成的靶结构参数的较高置信度。
[0075]
在将结构预测神经网络102训练为处理简化msa 122以生成每个训练示例的对应靶结构参数112之后，自监督训练系统106可以提供结构预测神经网络102的训练模型参数128作为输出。
[0076]
可选地，自监督训练系统106可以根据结构预测神经网络102的模型参数128的训
练值来生成训练示例110的新靶结构参数112，并且重复上述过程以继续训练结构预测神经网络102。在一些情况下，自监督训练系统106可以继续迭代地重复用于训练结构预测神经网络102的自监督训练过程，直到满足终止准则为止。
[0077]
在一些实施方式中，自监督训练系统106增加在训练过程的每次迭代中由简化引擎120从完整msa 114中去除或掩蔽的预期数据量。例如，自监督训练系统106可以在训练过程的每次迭代中增加可能缩减参数值上的概率分布的均值，简化引擎根据该概率分布来对定义要从完整msa中去除的氨基酸序列的部分的缩减参数值进行采样。增加在训练过程的每次迭代中从完整msa中去除或掩蔽的预期数据量可以通过处理包括几个氨基酸序列的msa来改进结构预测神经网络102在预测蛋白结构时的性能。
[0078]
图2示出了示例教师-学生训练系统200。教师-学生训练系统200是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中实现了下面描述的系统、组件和技术。
[0079]
训练系统200使用“教师”结构预测神经网络202来训练“学生”结构预测神经网络204，具体地通过使用教师结构预测神经网络来生成待由学生结构预测神经网络用作预测靶的靶结构参数。
[0080]
教师结构预测神经网络202被配置为处理输入，该输入包括以下两者：(i)蛋白的氨基酸(aa)序列206的表示；和(ii)蛋白的msa 208的表示。教师结构预测神经网络202处理输入以生成表征蛋白的预测结构的结构参数210。
[0081]
学生结构预测神经网络204被配置为处理包括蛋白的aa序列的表示但不包括蛋白的msa208的表示的输入。在一些实施方式中，学生结构预测神经网络204处理仅包括蛋白的aa序列的表示的输入。学生结构预测神经网络204处理输入以生成表征蛋白的预测结构的结构参数212(具体地，在不处理蛋白的msa的表示的情况下，与确实处理包括msa的表示的输入的教师结构预测神经网络202相反)。
[0082]
可以使用任何适合的机器学习训练技术来训练教师结构预测神经网络202。例如，可以使用参考图1a描述的监督训练系统104或如参考图1a-b描述的监督训练系统104与自监督训练系统106的组合来训练教师结构预测神经网络202。
[0083]
训练系统200基于非配对训练示例214的集合来训练学生结构预测神经网络。每个非配对训练示例214对应于相应蛋白并且包括数据，该数据定义以下各项：(i)蛋白的氨基酸序列；和(ii)蛋白的多序列比对。
[0084]
通常，对于一些或所有非配对训练示例214，基础实况蛋白结构可以是未知的。因此，训练系统200使用教师结构预测神经网络202生成每个非配对训练示例214的表征对应蛋白的预测结构的靶结构参数216的集合。
[0085]
为了生成训练示例214的靶结构参数216，训练系统200使用教师结构预测神经网络202来生成每个训练示例214的结构参数210的集合。教师结构预测神经网络202通过处理输入来生成每个训练示例的结构参数210，该输入包括以下各项的相应表示：(i)来自训练示例的aa序列206；和(ii)来自训练示例的msa 208。
[0086]
训练系统200基于由教师结构预测神经网络202针对训练示例生成的结构参数210来确定每个训练示例的靶结构参数216。在一些实施方式中，训练系统200可以将靶结构参数216确定为等于由教师结构预测神经网络202生成的结构参数210。在一些实施方式中，训
练系统200可以通过将随机噪声值添加到由教师结构预测神经网络202生成的结构参数210来确定靶结构参数216。将随机噪声值添加到由教师结构预测神经网络202生成的结构参数210作为生成靶结构参数216的一部分可能降低过度拟合的可能性，并且由此使学生结构预测神经网络204的训练规则化。
[0087]
训练系统200可以训练学生结构预测神经网络204来针对每个训练示例处理训练示例的aa序列206的表示，以生成与训练示例的靶结构参数216匹配的结构参数212。更具体地，训练系统200使用训练引擎218训练学生结构预测神经网络204以优化目标函数。对于每个训练示例，目标函数可以测量(i)由学生结构预测神经网络通过处理训练示例的aa序列206生成的结构参数212与(ii)训练示例的靶结构参数216之间的误差。目标函数可以测量相应结构参数集之间的误差，例如作为平方误差，或以任何其他适合的方式测量该误差。
[0088]
训练系统200可以使用任何适合的训练技术(例如通过训练迭代序列的随机梯度下降)训练学生结构预测神经网络204。更具体地，在每次训练迭代中，训练引擎218可以对一批训练示例进行采样。针对该批次中的每个训练示例，学生结构预测神经网络204根据学生结构预测神经网络204的模型参数220的当前值来处理对应aa序列206的表示，以生成结构参数212。训练引擎218然后评估目标函数，该目标函数测量(i)靶结构参数216与(ii)由学生结构预测神经网络204针对当前批次中的训练示例生成的结构参数212之间的误差。训练引擎218确定目标函数相对于学生结构预测神经网络的模型参数的梯度，并且使用梯度来使用任何适合的梯度下降优化技术更新学生结构预测神经网络的模型参数的当前值。训练引擎可以采用所确定的梯度来例如通过反向传播改进模型参数，并且梯度下降优化技术可以是例如rmsprop或adam。
[0089]
在一些情况下，由教师结构预测神经网络生成的结构参数210对于训练示例中的一者或多者来说可以是不精确的。因此，这些训练示例的靶结构参数216可以是不精确的，并且在训练期间使用这些靶结构参数216可能降低学生结构预测神经网络204的性能。
[0090]
为了降低不精确的靶结构参数216负面地影响学生结构预测神经网络204的训练的可能性，训练系统200可以估计每个训练示例的靶结构参数216的相应置信度。在一些实施方式中，训练系统200可以抑制基于训练示例的靶结构参数216的置信度不满足阈值的任何训练示例来训练学生结构预测神经网络。在一些实施方式中，训练系统200可以根据每个训练示例的靶结构参数216的置信度来调节目标函数，例如以减少低置信度靶结构参数216对目标函数的影响。例如，目标函数可以由下式给出：
[0091][0092]
其中i为n个训练示例编索引，ci表示基于训练示例i的靶结构参数216的置信度的缩放因子，ti表示训练示例i的靶结构参数，pi表示由学生结构预测神经网络针对训练示例i生成的结构参数，并且err(
·
,
·
)表示误差测量，例如平方误差。
[0093]
训练系统200可以按照各种方式确定靶结构参数216的置信度估计。接下来更详细地描述了确定训练示例的靶结构参数216的置信度估计的几种示例方式。
[0094]
在一个示例中，训练系统200可以获得训练示例的靶结构参数216的置信度估计，作为用于训练示例的教师结构预测神经网络202的辅助输出。参考图1a更详细地描述了生
成置信度估计作为结构预测神经网络的辅助输出。
[0095]
在另一示例中，训练系统200可以基于对应于训练示例的蛋白的估计距离图来获得训练示例的靶结构参数216的置信度估计。距离图可以针对蛋白中的每对氨基酸定义在蛋白结构中的氨基酸对之间的可能物理距离范围内的概率分布。训练系统200可以获得距离图作为教师结构预测神经网络202的辅助或主输出。上面参考图1b更详细地描述了基于估计的距离图来生成结构参数集的置信度估计。
[0096]
在训练学生结构预测神经网络204之后，训练系统200可以提供学生结构预测神经网络204的训练模型参数220作为输出。
[0097]
学生结构预测神经网络204可以基于蛋白的氨基酸序列来预测任何蛋白的结构，而不需要蛋白的msa。因此，学生结构预测神经网络可以比教师结构更广泛地应用，例如，这是因为msa对于许多蛋白来说可以是不可获得的。
[0098]
图3是未折叠蛋白和折叠蛋白的图示。未折叠蛋白是氨基酸的无规卷曲。未折叠蛋白经历蛋白折叠并且折叠成3d构型。蛋白结构通常包括稳定的局部折叠模式，诸如α螺旋(例如，如302所描绘)和β折叠。
[0099]
图4是用于训练结构预测神经网络的示例进程400的流程图，该结构预测神经网络被配置为通过处理网络输入来生成表征蛋白的结构的结构参数，该网络输入包括蛋白的多序列比对的表示。出于方便起见，进程400将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的训练系统(例如图1a的训练系统100)可以执行进程400。
[0100]
系统针对多种蛋白中的每一者获得蛋白的完整多序列比对(402)。
[0101]
系统针对蛋白中的每一者生成表征来自蛋白的完整多序列比对的蛋白的结构的靶结构参数(404)。更具体地，系统使用结构预测神经网络处理每种蛋白的完整多序列比对的表示以生成输出结构参数，并且基于蛋白的输出结构参数来确定蛋白的靶结构参数。
[0102]
系统针对每种蛋白例如通过从蛋白的完整多序列比对中去除或掩蔽数据来确定蛋白的简化多序列比对(406)。
[0103]
系统将结构预测神经网络训练为针对蛋白中的一者或多者处理蛋白的简化多序列比对的表示，以生成与蛋白的靶结构参数匹配的结构参数(408)。
[0104]
图5是用于训练结构预测神经网络的示例进程500的流程图，该结构预测神经网络可以生成表征蛋白的结构的结构参数，而不处理蛋白的多序列比对。出于方便起见，进程500将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当编程的教师-学生训练系统(例如图2的教师-学生训练系统200)可以执行进程500。
[0105]
系统训练教师结构预测神经网络，该教师结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数，该输入包括以下各项的相应表示：(i)蛋白的氨基酸序列；和(ii)蛋白的多序列比对(502)。
[0106]
系统使用教师结构预测神经网络针对多种蛋白中的每一者生成相应靶结构参数(504)。
[0107]
系统训练学生结构预测神经网络，该学生结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数(506)，该输入(i)包括蛋白的氨基酸序列的表示；和
(ii)不包括蛋白的多序列比对的表示。系统将学生结构预测神经网络训练为针对每种蛋白生成表征蛋白的结构的结构参数，该结构参数与蛋白的靶结构参数匹配。
[0108]
本说明书结合系统和计算机程序组件使用术语“配置”。对于要被配置为进行特定操作或动作的一个或多个计算机的系统来说意味着该系统已经在其上安装有在操作中致使该系统进行这些操作或动作的软件、固件、硬件或它们的组合。对于要被配置为进行特定操作或动作的一个或多个计算机程序来说意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时致使该装置进行这些操作或动作。
[0109]
可以利用数字电子电路系统、利用有形体现的计算机软件或固件、利用计算机硬件(包括本说明书中所公开的结构及其结构等效物)或利用它们中的一者或多者的组合来实现本说明书中所描述的主题和功能操作的实施例。本说明书中所描述的主题的实施例可以被实现为一个或多个计算机程序，即，编码在有形的非暂时性存储介质上以供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或串行存取存储器设备或它们中的一者或多者的组合。替代地或另外，程序指令可以编码在人工生成的传播信号(例如机器生成的电、光或电磁信号，生成该信号是为了对用于传输至合适的接收器装置以供数据处理装置执行的信息进行编码)。
[0110]
术语“数据处理装置”是指数据处理硬件并且囊括了用于处理数据的所有种类的装置、设备和机器，该所有种类的装置、设备和机器包括例如可编程处理器、计算机或多个处理器或计算机。该装置也可以是或还包括专用逻辑电路系统，例如fpga(现场可编程门阵列)或asic(专用集成电路)。除了硬件之外，该装置还可以可选地包括为计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一者或多者的组合的代码。
[0111]
可以用任何形式的编程语言(包括编译语言或解译语言，或陈述性语言或程序语言)来编写计算机程序，该计算机程序也可以被称为或被描述为程序、软件、软件应用、应用程序、模块、软件模块、脚本或代码。并且可以按照任何形式(包括作为独立式程序或模块、组件、子例程或适合用于计算环境的其他单元)来部署该计算机程序。程序可以但并非必须对应于文件系统中的文件。可以将程序存储在保持其他程序或数据(例如存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于探讨中的程序的单个文件中，或存储在多个协作文件(例如存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一个计算机上执行或在位于一个站点处或分布在多个站点中并且通过数据通信网络互连的多个计算机上执行。
[0112]
在本说明书中，术语“引擎”广泛地用于指被编程为进行一个或多个特定功能的基于软件的系统、子系统或进程。通常，引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎；在其他情况下，多个引擎可以被安装在同一个或多个计算机上并且在其上运行。
[0113]
本说明书中所描述的进程和逻辑流程可以由一个或多个可编程计算机进行，该一个或多个可编程计算机执行一个或多个计算机程序以通过操作输入数据并且生成输出来执行功能。这些进程和逻辑流程也可以由专用逻辑电路系统(例如fpga或asic)执行，或由专用逻辑电路系统与一个或多个编程计算机的组合来执行。
[0114]
适合执行计算机程序的计算机可以是基于通用微处理器或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于进行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路系统补充或并入专用逻辑电路系统中。通常，计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁盘、磁光盘或光盘)，或计算机可以操作地耦合以接收来自该海量存储设备的数据或将数据发送至该海量存储设备或进行两者。然而，计算机无需具有此类设备。此外，计算机可以嵌入在另一设备中，该设备例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏机、全球定位系统(gps)接收器或便携式存储设备(例如通用串行总线(usb)闪存驱动器)，仅举几例。
[0115]
适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如eprom、eeprom和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及cd-rom盘和dvd-rom盘。
[0116]
为了提供与用户的交互，可以在计算机上实现本说明书中所描述的主题的实施例，该计算机具有用于向用户显示信息的显示设备，例如crt(阴极射线管)或lcd(液晶显示器)监视器；以及键盘和指向设备，例如鼠标或轨迹球，用户可以通过该键盘和该指向设备来将输入提供给计算机。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以按照任何形式(包括声输入、语音输入或触觉输入)接收来自用户的输入。另外，计算机可以通过将文档发送给用户所使用的设备并且接收来自该设备的文档(例如，通过响应于从网络浏览器接收到的请求而将网页发送给用户的设备上的网络浏览器)来与用户交互。此外，计算机可以通过将文本消息或其他形式的消息发送给个人设备(例如正在运行消息传送应用的智能电话)并且作为回报接收来自用户的响应消息来与用户交互。
[0117]
用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元以用于处理机器学习训练或生产(即，推断)工作量的通用和计算密集部分。
[0118]
可以使用机器学习框架(例如tensorflow框架、微软认知工具包框架、apache singa框架或apache mxnet框架)来实现和部署机器学习模型。
[0119]
本说明书中所描述的主题的实施例可以在包括后台组件的计算系统(例如作为数据服务器)、或包括中间件组件的计算系统(例如应用服务器)、或包括前端组件的计算系统(例如具有图形用户界面、网络浏览器或应用程序的客户端计算机，用户可以通过该图形用户界面、该网络浏览器或该应用程序来与本说明书中所描述的主题的实施方式交互)、或包括一个或多个这种后台组件、中间件组件或前端组件的任何组合的计算系统中实现。可以通过任何形式或介质的数字数据通信(例如通信网络)来将系统的组件互连。通信网络的示例包括局域网(lan)和广域网(wan)，例如互联网。
[0120]
计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络进行交互。通过在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。在一些实施例中，服务器将数据(例如html页面)发送至用户设备，例如为了向与充当客户端的设备交互的用户显示数据并且接收来自该用户的用户输入。可以在服务器处从设备接收在用户设备处生成的数据，例如用户交互的结果。
[0121]
虽然本说明书包含许多具体实施细节，但这些细节不应该被解释为对任何发明或可能被要求保护的内容的范围的限制，而是作为对可特定于特定发明的特定实施方式的特征的描述。在本说明书中在单独实施例的背景下描述的某些特征还可以组合地实现在单个实施例中。相反，在单个实施例的背景下描述的各种特征也可以单独地或按照任何合适的子组合实现在多个实施例中。此外，尽管上面可能将这些特征描述为以某些组合来起作用并且最初甚至同样地对这些特征进行了要求，但在一些情况下可以从所要求保护的组合中删除来自该组合的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变化。
[0122]
同样，虽然在附图和权利要求书中按照特定顺序描绘和叙述了操作，但不应该将其理解为需要按照所示的特定顺序或按照相继顺序来进行此类操作，或需要进行所有图示的操作以实现期望结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中都需要这种分离，并且应理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装到多个软件产品中。
[0123]
已经描述了本主题的特定实施例。其他实施例在以下权利要求书的范围内。例如，在权利要求书中叙述的动作可以按照不同顺序来进行并且仍然可实现期望结果。作为一个示例，在附图中描绘的进程并不一定需要所示的特定顺序或相继顺序来实现期望结果。在一些情况下，多任务处理和并行处理可以是有利的。

技术特征：
1.一种由一个或多个数据处理装置进行的用于训练结构预测神经网络的方法，所述结构预测神经网络被配置为通过处理网络输入来生成表征蛋白的结构的结构参数，所述网络输入包括所述蛋白的多序列比对的表示，所述方法包括：针对多种蛋白中的每一者获得所述蛋白的完整多序列比对；针对所述多种蛋白中的每一者生成表征来自所述蛋白的所述完整多序列比对的所述蛋白的结构的靶结构参数，包括：使用所述结构预测神经网络处理所述蛋白的所述完整多序列比对的表示以生成表征所述蛋白的结构的输出结构参数；以及基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数；针对所述多种蛋白中的每一者确定所述蛋白的简化多序列比对，包括从所述蛋白的所述完整多序列比对中去除或掩蔽数据；以及将所述结构预测神经网络训练为针对所述多种蛋白中的一者或多者处理所述蛋白的所述简化多序列比对的表示，以生成与所述蛋白的所述靶结构参数匹配的结构参数。2.根据权利要求1所述的方法，其中针对所述多种蛋白中的每一者，从所述蛋白的所述完整多序列比对中去除数据包括：从所述蛋白的所述多序列比对中去除一个或多个氨基酸序列。3.根据权利要求2所述的方法，其中从所述蛋白的所述多序列比对中去除一个或多个氨基酸序列包括：根据可能缩减参数值集合上的概率分布来从所述可能缩减参数值集合中对缩减参数值进行采样，其中所述缩减参数值指定要从所述蛋白的所述完整多序列比对中去除的氨基酸序列的数量；以及从所述蛋白的所述完整多序列比对中去除指定数量的氨基酸序列。4.根据权利要求3所述的方法，其中从所述蛋白的所述完整多序列比对中去除所述指定数量的氨基酸序列包括：随机选择要从所述蛋白的所述完整多序列比对中去除的所述氨基酸序列。5.根据任一前述权利要求所述的方法，其中针对所述多种蛋白中的每一者，从所述蛋白的所述完整多序列比对中掩蔽数据包括：掩蔽所述蛋白的所述完整多序列比对中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性。6.根据权利要求5所述的方法，其中掩蔽所述蛋白的所述完整多序列比对中的一个或多个氨基酸序列中的一个或多个位置处的相应氨基酸的同一性包括：对要在所述蛋白的所述完整多序列比对中的所述氨基酸序列中掩蔽的所述位置进行随机采样。7.根据权利要求5至6中任一项所述的方法，所述方法还包括：将所述结构预测神经网络训练为针对所述多种蛋白中的每一者处理所述蛋白的所述简化多序列比对的所述表示，以生成预测所述蛋白的所述简化多序列比对中的每个掩蔽氨基酸的所述同一性的辅助输出。8.根据任一前述权利要求所述的方法，其中基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数包括：
将随机噪声值添加到所述蛋白的所述输出结构参数。9.根据任一前述权利要求所述的方法，其中所述结构预测神经网络被配置为处理网络输入，所述网络输入包括以下两者：(i)蛋白的多序列比对的表示；和(ii)所述蛋白的氨基酸序列的表示。10.根据任一前述权利要求所述的方法，所述方法还包括：针对所述多种蛋白中的每一者，确定所述蛋白的所述靶结构参数的置信度估计。11.根据权利要求10所述的方法，所述方法还包括：识别所述蛋白的所述靶结构参数的所述置信度估计不满足阈值的一种或多种蛋白；以及抑制基于所识别的蛋白来训练所述结构预测神经网络。12.根据权利要求10至11中任一项所述的方法，其中训练所述结构预测神经网络包括：确定目标函数的梯度，所述目标函数针对所述多种蛋白中的一者或多者测量(i)由所述结构预测神经网络通过处理所述蛋白的所述简化多序列比对的所述表示而生成的所述结构参数与(ii)所述蛋白的所述靶结构参数之间的误差，其中所述误差由所述蛋白的所述靶结构参数的所述置信度估计的函数缩放。13.根据权利要求10至12中任一项所述的方法，其中针对所述多种蛋白中的每一者：通过处理所述蛋白的所述完整多序列比对的所述表示来生成所述蛋白的所述靶结构参数的所述置信度估计作为所述结构预测神经网络的辅助输出；其中所述蛋白的所述靶结构参数的所述置信度估计定义(i)由所述结构预测神经网络通过处理所述蛋白的所述完整多序列比对生成的所述输出结构参数与(ii)表征所述蛋白的基础实况结构的基础实况结构参数之间的误差的估计。14.根据任一前述权利要求所述的方法，所述方法还包括：将所述结构预测神经网络训练为针对一种或多种其他蛋白处理所述其他蛋白的多序列比对的表示，以生成与所述其他蛋白的基础实况结构参数匹配的结构参数。15.根据权利要求14所述的方法，其中通过物理实验确定所述其他蛋白的所述基础实况结构参数。16.一种由一个或多个数据处理装置进行的方法，所述方法包括：训练教师结构预测神经网络，所述教师结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数，所述输入(i)包括所述蛋白的氨基酸序列的表示；和(ii)包括所述蛋白的多序列比对的表示；以及训练学生结构预测神经网络，所述学生结构预测神经网络被配置为通过处理输入来生成表征蛋白的结构的结构参数，所述输入(i)包括所述蛋白的氨基酸序列的表示；和(ii)不包括所述蛋白的多序列比对的表示，其中针对多种蛋白中的每一者所述训练包括：使用所述教师结构预测神经网络生成表征所述蛋白的结构的靶结构参数；以及将所述学生结构预测神经网络训练为生成表征所述蛋白的结构的结构参数，所述结构参数与所述蛋白的所述靶结构参数匹配。17.根据权利要求16所述的方法，其中针对所述多种蛋白中的每一者，使用所述教师结构预测神经网络生成表征所述蛋白的所述结构的靶结构参数包括：处理输入，所述输入(i)包括所述蛋白的氨基酸序列的表示；和(ii)包括所述蛋白的多
序列比对的表示，使用所述教师结构预测神经网络生成表征所述蛋白的结构的输出结构参数；以及基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数。18.根据权利要求17所述的方法，其中基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数包括：将随机噪声值添加到所述蛋白的所述输出结构参数。19.根据权利要求16至18中任一项所述的方法，其中由所述教师结构预测神经网络处理的蛋白的所述多序列比对的所述表示包括衍生自所述蛋白的所述多序列比对的特征。20.根据权利要求16至19中任一项所述的方法，所述方法还包括：针对所述多种蛋白中的每一者，确定所述蛋白的所述靶结构参数的置信度估计。21.根据权利要求20所述的方法，所述方法还包括：识别所述蛋白的所述靶结构参数的所述置信度估计不满足阈值的一种或多种蛋白；以及抑制基于所识别的蛋白来训练所述学生结构预测神经网络。22.根据权利要求20至21中任一项所述的方法，其中训练所述学生结构预测神经网络包括：确定目标函数的梯度，所述目标函数针对所述多种蛋白中的一者或多者测量(i)由所述学生结构预测神经网络针对所述蛋白生成的所述结构参数与(ii)所述蛋白的所述靶结构参数之间的误差，其中所述误差由所述蛋白的所述靶结构参数的所述置信度估计的函数缩放。23.根据权利要求20至22中任一项所述的方法，其中针对所述多种蛋白中的每一者：生成所述蛋白的所述靶结构参数的所述置信度估计作为所述教师结构预测神经网络的辅助输出；其中所述蛋白的所述靶结构参数的所述置信度估计定义(i)由所述教师结构预测神经网络针对所述蛋白生成的结构参数与(ii)表征所述蛋白的基础实况结构的基础实况结构参数之间的误差的估计。24.根据权利要求23所述的方法，其中通过物理实验确定表征所述基础实况结构的所述基础实况结构参数。25.根据任一前述权利要求所述的方法，其中所述结构参数包括多个扭转角和多个原子坐标中的一者或两者。26.根据任一前述权利要求所述的方法，所述方法还包括：获得蛋白的氨基酸序列并且使用经训练的结构预测神经网络确定所述蛋白的结构。27.根据权利要求26所述的方法，所述方法还包括：从人体或动物体中提取所述蛋白并且从提取到的蛋白中获得所述氨基酸序列。28.根据权利要求26或27所述的方法，所述方法还包括：从人体或动物体中获得所述蛋白的样式的结构，将所述蛋白的所述结构与从所述身体中获得的所述样式的所述结构进行比较，并且根据比较结果来识别蛋白错误折叠疾病的存在。29.一种选择用作工业酶的药物或配体的蛋白的方法，所述方法包括：通过根据任一前述权利要求所述的方法来训练结构预测神经网络；
使用所述结构预测神经网络确定靶蛋白的结构；评估一种或多种候选蛋白与所述靶蛋白的所述结构的相互作用；以及根据每种候选药物蛋白的所评估的相互作用来选择用作工业酶的所述药物或配体的所述候选蛋白中的一者。30.一种选择用作工业酶的药物或配体的蛋白的方法，所述方法包括：通过根据任一前述权利要求所述的方法来训练结构预测神经网络；使用所述结构预测神经网络确定一种或多种候选蛋白的结构；基于所述一种或多种候选蛋白的所确定的结构，评估所述一种或多种候选蛋白与靶蛋白的相互作用；以及根据每种候选药物蛋白的所评估的相互作用来选择用作工业酶的所述药物或配体的所述候选蛋白中的一者。31.根据权利要求30所述的方法，其中所述一种或多种候选蛋白与所述靶蛋白的所述相互作用的所述评估是基于通过物理实验确定的所述靶蛋白的结构的。32.根据权利要求29至31中任一项所述的方法，其中所述靶蛋白包括受体或酶，并且其中所述蛋白是所述受体或酶的激动剂或拮抗剂。33.根据权利要求29至32中任一项所述的方法，所述方法还包括：制作所选择的蛋白。34.一种系统，包括：一个或多个计算机；以及一个或多个存储设备，所述一个或多个存储设备通信地耦合到所述一个或多个计算机，其中所述一个或多个存储设备存储指令，所述指令在由所述一个或多个计算机执行时致使所述一个或多个计算机进行根据权利要求1至33中任一项所述的相应方法的操作。35.根据权利要求34所述的系统，当从属于权利要求29至33中任一项时，所述系统还包括用于制作所选择的蛋白的子系统。36.一种或多种存储指令的非暂时性计算机存储介质，所述指令在由一个或多个计算机执行时致使所述一个或多个计算机进行根据权利要求1至32中任一项所述的相应方法的操作。

技术总结
用于训练神经网络训练以预测蛋白的结构的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括：针对多种蛋白中的每一者获得所述蛋白的完整多序列比对；针对所述多种蛋白中的每一者生成表征来自所述蛋白的所述完整多序列比对的所述蛋白的结构的靶结构参数，包括：使用结构预测神经网络处理所述蛋白的所述完整多序列比对的表示以生成表征所述蛋白的结构的输出结构参数；以及基于所述蛋白的所述输出结构参数来确定所述蛋白的所述靶结构参数；针对所述多种蛋白中的每一者确定所述蛋白的简化多序列比对，包括从所述蛋白的所述完整多序列比对中去除或掩蔽数据。去除或掩蔽数据。去除或掩蔽数据。

技术研发人员：R
受保护的技术使用者：渊慧科技有限公司
技术研发日：2021.08.12
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：用于生产次氯酸水溶液的方法和系统与流程 下一篇：用环糊精预防胆固醇结晶栓塞的方法与流程

使用简化多序列比对来训练蛋白结构预测神经网络的制作方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

使用简化多序列比对来训练蛋白结构预测神经网络的制作方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表