数据建模中基于相关生物物理学属性来预测功能的方法和系统与流程

未命名 10-18 阅读:93 评论:0

数据建模中基于相关生物物理学属性来预测功能的方法和系统
1.发明人:alexander kozintsev、tilman sebastian schlothauer、raul agustin sun han chang
2.交叉引用
3.本技术要求2021年2月19日提交的名称为“methods and systems for predicting function based on related biophysical atttributes in data modeling”的美国临时专利申请号63/151,527的优先权,该申请通过援引以其全文并入本文。
技术领域
4.本文提供了用于蛋白质(诸如抗体)的功能应答的改进的预测的方法和系统。更具体地,提供了用于使用多种生物物理学属性来预测抗体的相关功能应答的方法和系统。


背景技术:

5.用于将生物物理学属性与功能测定相关联的现有数据建模方法依赖于使用来自仅一种单一生物物理学属性的数据的、单一生物物理学属性与功能之间的线性关系。这种现有方法常常忽略同样已被证明或可能潜在地调节目标功能的多种其他生物物理学属性的贡献影响,并且难以在生物物理学属性本身之间的相互作用影响的研究中使用。仍然存在开发使用多个预测因子诸如生物物理学属性来更准确地预测功能应答的改进的方式的需求。


技术实现要素:

6.可以提供方法和系统以基于针对治疗蛋白的预测因子集来预测功能应答。例如,方法可以包括:接收输入数据,该输入数据包括:第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的预测因子集的相应所测量的功能应答相关;以及第二输入数据,该第二输入数据与预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中该预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用第一输入数据来训练机器学习模型。该方法可以进一步包括:使用机器学习模型和预测因子集以基于第二输入数据来预测第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。例如,治疗蛋白样品可以为抗体样品,功能应答可以为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种附加糖基化属性。
7.在各种实施例中,一种系统可以包括:数据源,该数据源用于获得一个或多个数据集,其中该一个或多个数据集包括:a)第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的预测因子集的相应所测量的功能应答相关;以及b)第二
输入数据,该第二输入数据与预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中该预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;计算装置,该计算装置通信地连接到数据源并且配置成接收数据集,该计算装置包括含有指令的非暂时性计算机可读存储介质,该指令当在一个或多个数据处理器上执行时,使该一个或多个数据处理器执行方法,该方法包括:用第一输入数据来训练机器学习模型;使用机器学习模型和预测因子集以基于第二输入数据来预测第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。
8.在各种实施例中,可以提供一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,该计算机程序产品包括指令,该指令配置成使一个或多个数据处理器执行用于基于单个细胞数据集来选择目标细胞的方法,该方法包括:接收输入数据,该输入数据包括:a)第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的预测因子集的相应所测量的功能应答相关;以及b)第二输入数据,该第二输入数据与预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中该预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用第一输入数据来训练机器学习模型;使用机器学习模型和预测因子集以基于第二输入数据来预测第二治疗蛋白样品集的功能应答;返回包括所预测的功能应答的输出。
9.已采用的术语和表达被用作描述性而非限制性的术语,并且在使用这些术语和表达时,无意排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在所要求保护的实施例的范围内,各种修改是可能的。因此,应当理解,尽管已通过实施例和任选特征具体地公开了本发明所要求保护的实施例,但是本领域技术人员可以采用本文所公开的概念的修改和变化,并且认为这样的修改和变化在由所附权利要求限定的范围内。
附图说明
10.结合附图描述本公开:
11.图1展示了根据各种实施例的用于基于相关生物物理学属性的所选择的组合来预测功能活动的一般示意性工作流程的非限制性示例性实施例。
12.图2展示了根据各种实施例的用于开发用于使用多种生物物理学属性来预测相关功能应答的模型的非限制性示例性过程。
13.图3展示了根据各种实施例的用于基于相关生物物理学属性的所选择的组合来预测功能活动的一般示意性工作流程300的非限制性示例性实施例。
14.图4a展示了示出所有经比较的变量的相关图的图表的非限制性示例性实施例。
15.图4b展示了示出样品内的变化并进一步确定预测因子之间的相关性的图表的非限制性示例性实施例。
16.图5展示了示出通过计算每个预测因子对针对变量重要性排名的模型的相对贡献进行的预测因子的排名的图表的非限制性示例性实施例。
17.图6展示了示出来自特征选择方法的结果的图表的非限制性示例性实施例。这种特征选择方法通过计算繁重且更严密的重复随机子采样验证来运行预测因子的每一种可能组合。
18.图7展示了示出来自特征选择方法的结果的图表的非限制性示例性实施例。这种
特征选择方法从初步中等验证到重复随机子采样验证仅运行一组表现最佳的预测因子子集。
19.图8a至图8b展示了示出残差分析(图8a)和回收率分析(图8b)中的模型性能验证的图表的非限制性示例性实施例。
20.图9为示出根据各种实施例的用于基于相关生物物理学属性来预测功能活动的方法的流程图。
21.图10展示了根据各种实施例的用于基于相关生物物理学属性来预测功能活动的系统的非限制性示例性实施例。
22.图11为展示根据各种实施例的配置成执行本文提供的方法的计算机系统的非限制性实例的框图。
具体实施方式
23.i.概述
24.考虑到多种生物物理学属性诸如经修饰的结构属性对一种生物学相关功能应答的复合和协同效应,机器学习在结构-功能关系的建模中的应用有助于解决生物治疗剂的生物学复杂性所特有的困难挑战。生物治疗剂在整个生产和后续加工中容易经受不同的结构修饰,导致在构成制造批次的分子的群体的下游存在单独经修饰的结构属性的分布。为了确保生物治疗剂的质量,制造过程控制致力于确保具有相似关键修饰分布的生物治疗剂批次的可重复生产。然而,为了对修饰的可接受水平设定适当的限度,科学家必须首先证明在修饰或杂质的一定范围内(或低于其一定限度),生物治疗产品将保持安全和有效的功能概况。
25.科学家以多种方式实现这一目标:利用来自动物模型的研究、探究可靠的先验知识、参考临床暴露水平、以及通过将关键修饰的水平与生物学相关体外功能表征相关联。由于单个批次中存在修饰的不同分布,但制造批次之间的这些分布的多样性低,因此难以对不同单独经修饰的结构属性与生物学相关功能的有意义定量关系进行反卷积。以下事实使这一点进一步复杂化:大多数生物学相关体外功能受到以加性或协同的方式协作地作用的多种结构属性的显著影响。尽管科学家可以生成或分离一些经修饰的结构变异体,但这样做他们仅仅促进单变量结构功能影响的建模,而这些单变量结构功能影响在组合时仍然无法纳入不同结构修饰的协同效应。
26.如本文所描述,通过使用机器学习建模提供了针对该生物学和分析性问题的独特适应的解决方案,其降低源自生物修饰维度的复杂性并且基于生物治疗剂的整体结构表征概况来引出相关定量关系。
27.例如,在治疗抗体(诸如单克隆人抗体(mab))的临床和商业制造过程中,可以仔细监测治疗抗体的生物物理学和功能特性,以便确保过程和质量控制。监测中收集的这种数据可以用于使用单独结构属性来预测生物学相关功能应答,并从而指导针对释放的验收标准的计算。在治疗抗体的一种结构属性对治疗抗体的特定功能应答具有极大影响的情况下,此类单变量相关性可以作为强大的预测模型;然而,在多种结构属性以相似的规模影响生物学相关功能应答的情况下,单一结构属性与相关功能应答之间的单变量相关性不太有用。
28.本文描述的方法和系统可以利用多个预测因子,诸如来自单独分子以及来自相似类别的多个分子(例如,抗体诸如cho衍生的igg1治疗剂)的集的针对较大数据集的多种生物物理学属性(例如,结构属性),来生成稳健的线性和非线性模型。在各种实施例中,本文描述的方法和系统可以同时执行主成分分析以近似地量化预测因子与应答之间以及与彼此之间的关系并使其可视化,并且因此可以基于该关系来识别并选择用于预测功能应答的相关预测因子。
29.在各种实施例中,本文描述的方法和系统可以应用于预测治疗蛋白的功能应答,诸如抗体的体外抗体依赖性细胞毒性(adcc)应答。例如,体外adcc与去岩藻糖基化聚糖种类的水平的相关性以及抗体或其片段的一种或多种其他生物物理学属性可以用于预测adcc应答并且因此预测抗体或其片段的治疗功效。
30.蛋白质诸如治疗糖蛋白(例如,抗体)的非限制性生物物理学属性可以包括但不限于fc n-聚糖结构、fc区的聚糖种类(诸如高度半乳糖基化形式、高甘露糖形式)、fc区的总体糖基化程度、以及某些翻译后修饰在fc中的存在。本文描述的方法和系统可以用于基于多种生物物理学属性(如fc区的去岩藻糖基化聚糖种类或其他聚糖种类、fc区的总体糖基化程度、以及某些翻译后修饰在fc上的存在,或其任何组合)来预测功能应答,诸如adcc应答。
31.根据各种实施例,治疗蛋白或抗体可以包括多价igg样分子(诸如双特异性抗体)或工程化的fab片段(诸如可以结合两种抗原的双靶向工程化的fab片段)。
32.在各种实施例中,治疗蛋白或抗体的功能应答可以包括例如抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcγr)结合或补体c1q结合,并且治疗蛋白或抗体的相关生物物理学属性包括例如糖基化属性、fc(vsnk)的脱酰胺、低或高分子量形式。例如,糖基化属性可以包括去岩藻糖基化、半乳糖基化、唾液酸化程度、聚糖链长度、聚糖结构单元类型和缺少n-聚糖链的抗体形式,或其任何组合。
33.根据各种实施例,治疗蛋白或抗体的功能应答可以包括例如药代动力学清除或新生儿fc受体(fcrn)结合,并且治疗蛋白或抗体的相关生物物理学属性可以包括例如fc的位点特异性修饰或fab的荷电变异体。
34.根据各种实施例,治疗蛋白或抗体的功能应答可以包括例如基于细胞的免疫效力或活性以及靶标结合,并且治疗蛋白或抗体的相关生物物理学属性可以包括例如cdr的位点特异性修饰、电荷和大小变异体、二硫键错配、以及游离硫基。
35.根据各种实施例,治疗蛋白或抗体的功能应答可以包括例如免疫原性,并且治疗蛋白或抗体的相关生物物理学属性可以包括例如双特异性抗体中的轻链或半抗体的剪切、大小形式、或错配。
36.例如,在(诸如在生物治疗剂的后期技术开发中)已经可获得大量生物物理学和功能表征数据的情况下,此类方法和系统实现产品知识的增强,并且可以有助于制定针对制造控制的规范,并且甚至识别和选择用于治疗剂开发的治疗剂候选。
37.本公开描述了用于使用多种生物物理学属性来预测相关功能应答,诸如例如治疗蛋白(诸如例如抗体)的adcc应答的各种示例性实施例。然而,本公开不限于这些示例性实施例和应用,也不限于示例性实施例和应用操作或在本文中描述的方式。此外,附图可能显示简化或局部视图,并且附图中元件的尺寸可能被夸大或不成比例。
38.ii.定义
39.应理解,本文使用的术语只是为了描述特定实施例的目的,并非旨在进行限制。
40.除非另有定义,否则本文中使用的所有技术术语、符号和其他技术和科学术语或用语旨在具有所要求保护的主题物所属领域的普通技术人员通常理解的含义。在某些情况下,为清晰起见和/或为便于参考,本文定义了具有通常理解含义的术语,并且与现有技术中通常理解的术语定义相比,本文包含的这些定义不一定解释成表示与本领域的通常理解存在明显差异。通常,本文描述了与化学、生物化学、分子生物学、药理学和毒理学结合使用的命名法和技术,这些命名法和技术是本领域中众所周知和常用的那些。
41.如本文所用,单数形式“一个”、“一种”和“该”也旨在包括复数形式,除非上下文另外明确地指出。还应理解,本文所用的术语“和/或”是指并涵盖相关列出项中的一项或多项的任何和所有可能组合。还应进一步理解,当在本文使用术语“包括”和/或“包含”时,其指定所规定的特征、整数、步骤、操作、要素、组分和/或单元的存在,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、要素、组分、单元和/或它们的组。
42.在整个本公开中,以范围格式呈现各个方面。应当理解,以范围格式进行的描述仅仅是为了方便和简洁,而不应被解释为对本公开的不灵活限制。因此,对范围的描述应当被认为已经具体公开所有可能的子范围以及该范围内的各个数值。例如,在提供值范围的情况下,应当理解,在该范围的上限和下限与在所述范围内的任何其他所述值或中间值之间的每个中间值都涵盖在本公开中。这些较小范围的上限和下限可以独立地包括在较小范围中,并且也包括在本公开中,但要遵守所述范围内的任何明确排除的限制。若所述范围包括一个或两个限值,则排除那些所包括限制中的任意一个或两个的范围也包括在本公开内容中。无论范围的宽度如何,这都适用。
43.如本文所用,术语“抗体”旨在广泛地指任何免疫学结合剂,诸如igg、igm、iga、igd和ige以及包括保留抗原结合活性的抗体cdr结构域的多肽。因此,术语“抗体”用于指具有抗原结合区的任何抗体分子,并且包括抗体片段(诸如fab'、fab、f(ab')2、单结构域抗体(dab)、fv、scfv(单链fv)和具有抗体cdr的多肽)、展示cdr的支架结构域(例如,抗运载蛋白(anticalin))、或纳米抗体。
44.如本文所用,术语“fc”或可结晶片段是指与称为fc受体的细胞表面受体以及补体系统的一些蛋白质相互作用的抗体片段。fc相对恒定,并且编码针对给定抗体的同种型;该fc区还可以通过诸如抗体依赖性补体沉积、细胞毒性、细胞啃噬作用和细胞吞噬作用的过程来赋予额外的功能能力。术语“fab”,也称为抗原结合片段,是指具有实现与同源抗原的给定表位结合的互补位的抗体分子的可变部分。抗体分子的fab部分的氨基酸和核苷酸序列是高度可变的。
45.如本文所用,术语“抗体依赖性细胞毒性(adcc)”,也称为抗体依赖性细胞介导的细胞毒性,是细胞介导的免疫防御机制,其中免疫系统的效应细胞主动裂解其膜表面抗原已由特定抗体结合的靶标细胞。该机制是抗体作为体液免疫应答的一部分可以通过其发挥限制和遏制感染作用的机制中的一种。
46.如本文所用,术语“生物物理学属性”可以指从生物分子诸如抗体分子(包括其片段)的生物物理学测定确定的任何值。例如,糖蛋白诸如抗体分子的生物物理学属性可以包括任何翻译后修饰、聚糖结构、或电荷和大小种类、去岩藻糖基化聚糖种类或其他聚糖种类
(例如,半乳糖基化聚糖种类、甘露糖形式、唾液酸化种类等)、总体糖基化的程度、以及某些翻译后修饰的存在,或其任何组合。抗体分子的生物物理学属性可以为特定区(诸如抗体分子的fc区)的修饰或结构,如fc区的去岩藻糖基化聚糖种类或其他聚糖种类。
47.如本文所用,蛋白质的岩藻糖基化形式是指至少具有岩藻糖部分的聚糖结构。如本文所用,蛋白质的去岩藻糖基化形式是指缺少岩藻糖部分的聚糖结构。如本文所用,蛋白质的半乳糖基化形式是指至少具有半乳糖单糖部分的聚糖结构。如本文所用,蛋白质的甘露糖形式是指至少具有甘露糖部分的聚糖结构。如本文所用,蛋白质的唾液酸化形式是指至少具有唾液酸化部分的聚糖结构。
48.如本文所用,“聚糖”是指糖,其可以是糖残基的单体或聚合物(诸如至少三种糖),并且可以是直链或支链的。“聚糖”可以包括天然糖残基(例如,葡萄糖、n-乙酰葡糖胺、n-乙酰基神经氨酸、半乳糖、甘露糖、岩藻糖、己糖、阿拉伯糖、核糖、木糖等)和/或经修饰的糖(例如,2
′‑
氟核糖、2
′‑
脱氧核糖、磷酸甘露糖、6

磺基n-乙酰葡糖胺等)。术语“聚糖”包括糖残基的均聚物和杂聚物。术语“聚糖”还涵盖糖缀合物的(例如,糖蛋白、糖脂、蛋白聚糖等的)聚糖组分。该术语还涵盖游离聚糖,包括已从糖缀合物裂解或以其他方式释放的聚糖。
49.如本文所用,术语“糖蛋白”是指含有共价连接至一个或多个糖部分(即,聚糖)的肽骨架的蛋白质,诸如抗体。糖部分可以呈单糖、二糖、寡糖和/或多糖的形式。糖部分可以包括糖残基的单个不分支的链或可以包括一个或多个分支的链。糖蛋白可以含有o-连接糖部分和/或n-连接糖部分。
50.如本文所用,术语“cdr(互补决定区)”是指作为t或b细胞受体的氨基酸序列的部分并且预计与抗原结合的互补决定区。
51.如本文所用,术语“约”是指包括针对容易知晓的对应值的常见误差范围。在本文中提及“约”值或参数包括(且描述)涉及该值或参数本身的实施例。例如,提及“约x”的描述包括“x”的描述。在各种实施例中,“约”可以是指如本领域技术人员所理解的
±
15%、
±
10%、
±
5%或
±
1%。
52.此外,由于本文使用术语“与...耦接”或“与...通信地耦接”或类似词语,因此一个要素可能能够经由一个或多个有线通信链路、一个或多个无线通信链路、一个或多个光通信链路或它们的组合直接、间接或同时直接和间接与另一要素通信。此外,在提及元件列表(例如,元素a、b、c)的情况下,此类提及旨在包括单独列出的任何一种元件、少于所有列出的元件的任何组合和/或所有列出的元件的组合。
53.如本文所用,“基本上”是指足以达到预期目的。因此,术语“基本上”允许相对于绝对或完美状态、尺寸、测量、结果等的微小、无关紧要的变化,如本领域普通技术人员所期望的,但不会明显影响整体性能。当用于数值或可表示为数值的参数或特性时,“基本上”是指百分之十以内。
54.如本文所用,术语“复数个(ones)”意味着多于一个。
55.如本文所用,术语“多个”或“组”可以是2、3、4、5、6、7、8、9、10或更多。
56.如本文所用,短语
“……
中的至少一个”在与项目列表一起使用时表示可以使用所列项目中的一个或多个的不同组合,并且可能仅需要列表中的一个项目。项目可以是特定的对象、事物、步骤、操作、过程或类别。换言之,
“……
中的至少一个”是指列表中可以使用的任何项目组合或项目数量,但并非列表中的所有项目都是必需的。例如但非限制性地,“项目a、项目b或项目c中的至少一个”或“项目a、项目b和项目c中的至少一个”可以指项目a;项目a和项目b;项目b;项目a、项目b和项目c;项目b和项目c;或项目a和c。在一些情况下,“项目a、项目b或项目c中的至少一个”或“项目a、项目b和项目c中的至少一个”可以指但不限于项目a中的两个、项目b中的一个和项目c中的十个;项目b中的四个和项目c中的七个;或某种其他合适的组合。
[0057]“个体”、“受试者”或“患者”为哺乳动物。哺乳动物包括但不限于驯养的动物(例如牛、绵羊、猫、犬和马)、灵长类动物(例如人和非人灵长类动物,诸如猴)、兔以及啮齿类动物(例如小鼠和大鼠)。在某些方面,个体或受试者是人。
[0058]
本文档的章节和子章节之间的标题和副标题仅用于提高可读性的目的,并不暗示不能跨章节和子章节组合特征。因此,章节和子章节不描述单独的实施例。
[0059]
本公开的各种实施例包括一种系统,该系统包括一个或多个数据处理器。在各种实施例中,该系统包括含有指令的非暂时性计算机可读存储介质,该指令在一个或多个数据处理器上被执行时使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的各种实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,该计算机程序产品包括指令,该指令配置成使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。
[0060]
该描述仅提供优示例性实施例,并且不旨在限制本公开的范围、适用性或配置。相反,示例性实施例的后续描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解,在不脱离所附权利要求中阐述的精神和范围的情况下,可以对元件的功能和布置进行各种改变。
[0061]
在以下描述中给出具体细节以提供对实施例的透彻理解。然而,应当理解,可以在没有这些具体细节的情况下实践实施例。例如,电路、系统、网络、过程和其他组件可以以框图形式显示为部件,以免在不必要的细节中混淆实施例。在各种情况下,可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施例。
[0062]
本文所引用的所有参考文献,包括专利申请、专利公开和uniprotkb/swiss-prot登录号通过引用整体并入本文,如同个别参考文献各自特定地和个别地指示为通过引用并入一样。
[0063]
iii.基于生物物理学属性的功能活动的预测
[0064]
本文描述的各种方法和系统实施例使得能够使用多种生物物理学属性来预测相关功能应答,诸如adcc应答或与期望靶标(例如,期望抗原)的结合。例如,本文描述的方法和系统可以用于利用一个或多个统计模型和机器学习模型来识别生物物理学属性与功能表征数据之间的相关性,并建立将所测量的生物物理学属性作为输入并输出所预测的功能表征的预测模型。本文描述的实施例可以是灵敏的和可再现的,并且可以实现对功能应答的更准确的预测。
[0065]
iii.a.工作流程
[0066]
图1展示了根据各种实施例的用于基于相关生物物理学属性的所选择的组合来预测功能活动的一般示意性工作流程的非限制性示例性实施例。工作流程100可以包括特征的各种组合,无论是比图1所展示的更多还是更少的特征。因此,图1只是示出了可能的工作
流程的一个实例。工作流程100可以使用例如关于图10所述的系统1000或类似系统来实现。
[0067]
在各种实施例中,工作流程100可以是自动化的。工作流程100可以包括,在步骤110,接收输入数据。输入数据可以包括第一输入数据,该第一输入数据与预测因子(例如,生物物理学属性)集以及关联于从第一治疗蛋白(例如,抗体)样品集获得的预测因子集的相应功能应答(例如,所测量的抗体依赖性细胞毒性(adcc)应答)相关。第一输入数据可以包括具有同一样品集的生物物理学属性数据与功能数据之间的相关性的经标记的数据,用于训练模型。
[0068]
输入数据可以进一步包括与第二治疗蛋白质(例如,抗体)样品集相关的第二输入数据,用于使用通过第一输入数据训练的模型来预测功能应答。第二输入数据可以为未经标记的数据并且可以包括用于预测功能应答(诸如adcc应答)的生物物理学属性数据。
[0069]
生物物理学属性数据,也称为“预测因子”数据,可以从研究与开发、过程验证或gmp测试获得,并且可以来自多种物理学测定,诸如例如,标记释放聚糖亲水相互作用液相色谱(hilic)分析、非还原和还原毛细管电泳十二烷基硫酸钠(ce-sds)、离子交换色谱、尺寸排阻色谱、以及成像毛细管等电聚焦(icief)。
[0070]
功能数据,也称为以及“应答”数据,也可以从研究与开发、过程验证或gmp测试获得,并且可以来自多个分子特异性或基于平台细胞的体外活性测定。
[0071]
工作流程100可以包括,在步骤120,用第一输入数据来训练模型。第一输入数据,例如,包括所选择的预测因子子集(选自包括但不限于聚糖、电荷和大小种类、肽修饰的预测因子)和目标功能应答(包括但不限于效力、受体结合、adcc应答)的经标记的数据,可以首先输入至工作流程100中用于训练模型。
[0072]
该模型可以为用户选择的模型或自动选择的模型,诸如回归和分类统计模型或机器学习模型。模型的非限制性示例可以包括基于偏最小二乘、随机森林、支持向量机、朴素贝叶斯、k近邻(knn)、广义加性模型、逻辑回归、梯度提升、套索、或其任何组合或修改的模型。适当模型的选择可以为以下一个或多个步骤的鸟枪法(shotgun approach),包括:基于统计模型和机器学习模型的最佳用途(例如,小或大样品尺寸、强烈非线性行为等)将它们分为组,选择最佳适应数据集的标准的模型组,以及/或者在特征选择步骤比较该组中的所有模型的性能。
[0073]
训练步骤120可以包括如图2中详细描述的一个或多个步骤,诸如例如,使一些或所有变量的相关性可视化,确定样品分布,识别用于训练的预测因子子集,用与所确认的预测因子子集相关联的数据来训练模型,以及验证模型。需注意,虽然图2展示了一系列连接的步骤,但是图2中展示的每一个步骤在执行训练步骤120时不需要出现。
[0074]
工作流程100可以包括,在步骤130,使用经训练的模型基于第一输入数据和第二输入数据针对具有未知或未确定的功能应答的样品来预测功能应答。第二输入数据与第二治疗蛋白(例如,抗体)样品集相关,并且可以输入至通过第一输入数据训练的模型中,用于预测第二治疗蛋白(例如,抗体)样品集的功能应答。例如,第一输入数据包括经清理的数据集,其包括基于来自特征选择的所选择的预测因子子集和应答的数据,其中该数据与具有预测因子和应答的已知值的样品相关。第二输入数据与用于预测的期望样品相关,该期望样品含有针对所选择的预测因子子集的测量值(不需要应答值,因为这些将由经完全训练的模型预测)。步骤130处的预测的输出可以为第二输入数据中针对用于预测的期望样品的
功能应答的预测值。
[0075]
工作流程100可以包括,在步骤140,返回基于所预测的功能应答的输出。输出可以用于选择具有满足预定义标准的所预测的功能应答的抗体治疗剂候选。候选可以通过实验进行验证以确认其功能应答和治疗价值,并用于治疗剂开发。
[0076]
根据各种实施例,图2中提供了一般且示例性的示意性工作流程200,以展示用于开发模型的非限制性示例性过程,该模型用于使用多种生物物理学属性来预测相关功能应答,诸如adcc应答。工作流程200的一个或多个步骤可以并入工作流程100的一个或多个步骤,包括例如图1中的训练步骤120。
[0077]
在各种实施例中,工作流程200可以是自动化的。工作流程200可以包括特征的各种组合,无论是比图2所展示的更多还是更少的特征。因此,图2只是示出了可能的工作流程的一个实例。工作流程200可以使用例如关于图10所述的系统1000或类似系统来实现。
[0078]
在各种实施例中,工作流程200可以包括以下中的一者或多者:顺序数据预处理、主成分分析、特征选择以及训练和验证用户选择的模型(诸如回归或分类统计模型或机器学习模型),或其组合或修改型式。
[0079]
工作流程200可以包括在步骤210处的数据预处理。在此步骤中,可以通过省略或插补具有针对预测因子和应答的缺失值的样品(例如,具有仅针对预测因子但不针对应答的值的样品,或者具有仅针对应答但不针对预测因子的值的样品)来接收和清理包括针对预测因子和应答的值的原始数据,尤其是对于与以下相关的原始数据:预测因子集以及关联于从第一治疗蛋白(例如,抗体)样品集获得的预测因子集的相应所测量的抗体依赖性细胞毒性(adcc)应答。
[0080]
工作流程200可以包括,在步骤220,使生物物理学属性与功能应答之间的相关性可视化,并使用来自数据预处理步骤210的经清理的数据来确定样品分布。此步骤可以用于从分子数据集收集更多信息,例如,样品分布(识别异常值的可能性)以及预测因子之间的共线性。
[0081]
例如,相关图分析可以用于使所比较的变量之间的相关性可视化,所比较的变量包括一个或多个预测因子以及功能应答(例如抗体的fc区中去岩藻糖基化的总和、抗体的fc区中半乳糖基化的总和、抗体的fc区中甘露糖的总和、抗体的fc区中唾液酸化的总和以及adcc)或变量的组合。针对相关图的输入为含有所有预测因子和期望应答的完整经清理数据集(省略或插补具有针对预测因子和应答的缺失值的样品)。
[0082]
例如,可以执行主成分分析(pca)以使样品内的变化可视化并进一步确定任何所比较的预测因子或其组合(例如抗体的fc区中去岩藻糖基化的总和、半乳糖基化的总和、抗体的fc区中甘露糖的总和、抗体的fc区中唾液酸化的总和)之间的相关性。例如,针对pca的输入可以为仅含有预测因子且不含有应答的完整经清理数据集。
[0083]
工作流程200可以包括,在步骤230,选择预测因子子集。预测因子子集可以包括预测或确定满足预定义的性能标准的预测因子的组合,例如,前第一、第二、第三、第四、第五或任何预定义的最高排名的预测因子组合。预测因子子集可以包括至少或至多两个、三个、四个、五个、六个、七个、九个、十个预测因子的组合。预测因子子集可以选自抗体或其片段的任何生物物理学属性,诸如氨基酸完整性、寡聚状态和糖基化模式。在各种实施例中,预测因子子集可以选自糖基化模式的任何属性,诸如聚糖种类异质性、整体糖基化的程度以
及抗体或其片段的fc区中某些翻译后修饰的存在。
[0084]
在各种实施例中,预测因子初始集的每一单种可能组合可以经历重复随机子采样验证,其中与预测因子初始集相关的数据被分割成用于构建模型的训练集和用于验证模型的测试集。经训练的模型预测针对测试集样品应答的值,该值直接与实际测量值进行比较,以计算该模型的预测均方根误差(rmsep)。这是通过针对每一种预测因子集组合的随机训练和测试集分割的使用者定义数量的迭代来执行的。可以针对满足预定义标准的性能来选择预测因子子集;例如,然后自动地选择产生具有最佳平均预测准确度(最低平均rmsep)的模型的预测因子子集来继续前进。
[0085]
根据各种实施例,通过对预测因子初始集的每一种组合运行初步k折交叉验证来最初减少预测因子初始集的组合的数量。不是在随机化训练集和测试集分割的不同迭代上训练和验证多个模型,而是将数据仅分割一次成为不同组的预定义k值,例如预定义k值为五或十或所选择的任何值,使得基于k值的数据样品的每个训练/测试组足够大以在统计上表示较宽泛的数据集。除一个组之外,所有组均用作训练集来拟合模型,然后使用剩余组作为测试集来评估该模型。可以一直执行这个过程,直至每个组充当测试集一次为止,并且报告测试集的针对预测的平均性能。类似地,可以基于所预测的性能针对满足预定义标准的性能来选择预测因子子集。
[0086]
在各种实施例中,针对步骤230的输入为含有所有预测因子和期望应答的完整经清理数据集(例如,经由5折交叉验证用于特征重要性排名和初步特征选择的完整数据,或者经由重复随机子采样用于完整特征选择的训练/测试分割数据)。在各种实施例中,针对该步骤230的输出为每个预测因子对为预测应答而构建的模型的相对贡献的经排名的次序以及用于模型的所选择的预测因子子集(例如,对具有针对未见样品的最佳预测性能的模型进行训练的预测因子数据子集)。
[0087]
工作流程200可以包括在步骤240处的模型性能的验证。在各种实施例中,针对该步骤240的输入为经清理的数据集,该经清理的数据集包括例如与以下相关联的数据:来自步骤230处的特征选择的所选择的预测因子子集以及与后跟分割成训练/测试分割数据的所选择的预测因子子集相对应的应答。在各种实施例中,针对该步骤240的输出为对期望样品的功能应答预测中针对误差范围的统计上合理的估计(例如,经验规则和容差区间)。
[0088]
图3展示了根据各种实施例的用于基于相关生物物理学属性的所选择的组合来预测功能活动的一般示意性工作流程300的非限制性示例性实施例。工作流程300可以包括特征的各种组合,无论是比图3所展示的更多还是更少的特征。因此,图3只是示出了可能的工作流程的一个实例。工作流程300可以使用例如关于图10所述的系统1000或类似系统来实现。
[0089]
在各种实施例中,工作流程300可以是自动化的。例如,自动化工作流程300可以使用编程语言r来构建,并且可以使用针对r的任何集成开发环境来运行。在各种实施例中,使用软件包来执行预测建模,该软件包可以含有使创建针对回归和分类问题的预测模型的过程简化的函数集。
[0090]
在各种实施例中,工作流程300利用多变量偏最小二乘(pls)回归模型。该包可以实现内核算法,当预测因子的数量大于样品的数量时,该内核算法可以是高效的。此外,例如,当预测因子高度共线性时(相关生物物理学属性之间可能为这种情况),pls可以是稳健
的。
[0091]
例如,为了研究多种聚糖属性的影响,使用来自多种cho衍生的igg1单克隆抗体(mab)(治疗mab 1、2、3)的亲水相互作用色谱(hilic)聚糖数据,以利用通过2-ab hilic聚糖分析获得的聚糖种类的相对百分比面积来对体外adcc功能应答进行建模。对每个分子单独以及组合地进行建模,以便检查聚糖结构的翻译对跨不同分子的体外adcc功能应答的影响。在如图3中所描述的示例性工作流程中接着进行建模。
[0092]
图4至图9为示出用于使用多种生物物理学属性来预测相关功能应答(诸如其中模型使用三分子(治疗mab 1、2、3)数据集来构建的实例中的adcc应答)的非限制性示例性实施例的图表。使用该数据集,工作流程的每个可能的组成部分均在图3中概述且在下文详细描述。再次需注意,图3充当用于基于相关生物物理学属性的所选择的组合来预测功能活动的示例性工作流程,并且因此,不需要针对所有实施例来包括展示在其中的每个组成部分。
[0093]
图3中的工作流程300可以包括,在步骤310,接收原始数据,该原始数据包括与用相应功能应答标记的预测因子初始集相关的数据。例如,原始数据可以为数据集,该数据集包括hilic聚糖数据总和(三个抗体分子的fc区中的去唾液酸-去半乳糖-岩藻糖基化双触角寡糖(g0f)总和、去岩藻糖基化总和、半乳糖基化总和、甘露糖总和及唾液酸化总和)以及来自三种中国仓鼠卵巢(cho)衍生的抗体分子(包括三种igg1治疗剂(治疗mab 1、2、3))的组合的adcc功能结果。
[0094]
在步骤310,将含有期望预测因子(例如,hilic聚糖结构相对百分比面积值)和应答(例如,体外adcc归一化百分比值)的数据作为.csv文件加载至r脚本中。该文件由使用者手动生成,并且格式化指令包括在脚本中。在数据已经载入之后,使用者定义使用者想要运行的模型类型。
[0095]
工作流程300可以包括在步骤320处的数据清理。步骤320可以包括格式化和加载期望的数据。在各种实施例中,还可以根据使用者偏好,通过省略缺失数据或在其位置插补针对预测因子的平均值来清理原始输入数据。如本文所使用,“数据1.0”对应于针对相关图、pca分析(应答由此处的代码删除)、特征排名和/或特征选择的预测因子和应答的完整经清理数据集。
[0096]
工作流程300可以包括,在步骤330,使经清理的数据和样品分布中的不同变量之间的相关性可视化。本文呈现的示例针对数据清理省略了所有缺失数据。经清理的数据用于以图表来表示所有所比较的变量的相关图(图4a),并且执行主成分分析(pca)以使样品内的变化可视化并进一步确定预测因子之间的相关性(图4b)。图4a指示所比较的变量(包括预测因子和应答)之间的相关性。图4b展示pca双标图,其中前两个主成分(pc)由x轴线和y轴线表示并且展示了数据内的大部分方差。这些pc为预测因子的线性组合,其在图中表示为箭头。
[0097]
工作流程300可以包括在步骤340的变量重要性确定和特征选择。在步骤340,使用经清理的数据来执行特征选择,以识别和选择哪个预测因子子集将对使用预测均方根误差(rmsep)来测量的最准确的预测模型进行训练。如本文所使用,“数据2.0”对应于预测因子最佳子集和应答的数据集,该数据集用于验证模型并估计对未见样品(训练/测试分割数据)的预测性能以及训练将用于预测期望样品(完整数据)的完整模型。
[0098]
最初,通过计算每个预测因子对针对变量重要性排名的模型的相对贡献来对每个
预测因子进行排名(图5)。
[0099]
在变量重要性排名之后,通过两种不同的方法执行特征选择。经由第一方法的特征选择更彻底,但代价是计算量和时间(图6的顶部分),而经由第二方法的特征选择更高效,但代价是不太详尽(图7的顶部分)。
[0100]
在第一特征选择方法中,预测因子的每一单种可能组合均经历重复随机子采样验证,其中数据被分割成用于构建模型的训练集和用于验证模型的测试集。经训练的模型预测针对测试集样品应答的值,该值直接与实际测量值进行比较,以计算该模型的rmsep。这是通过针对每一种预测因子组合的随机训练和测试集分割的使用者定义数量的迭代来执行的。然后,自动地选择产生具有最佳平均预测准确度(最低平均rmsep)的模型的预测因子子集以继续前进。此方法可能计算繁重,因为每一种预测因子组合均经历随机子采样验证达使用者定义数量的迭代。
[0101]
在第二特征选择方法中,通过对每一种预测因子组合运行初步5折交叉验证来最初减少预测因子组合的数量。不是在随机训练和测试集分割的不同迭代上训练和验证多个模型,而是将数据分割仅一次成为5个不同的组。除一个组之外,所有组均用作训练集来拟合模型,然后使用剩余组作为测试集来评估该模型。一直执行这个过程,直至每个组作为测试集一次为止,并且报告测试集的针对预测的平均性能。
[0102]
考虑到使用仅一个数据分割来训练和验证单个模型,第二特征选择方法中的该过程比第一特征选择方法中的重复随机子采样验证耗时少得多。针对5折交叉验证的表现最佳百分比的预测因子子集自动地前进到重复随机子采样验证。
[0103]
当使用针对含有五个hilic聚糖预测因子的三分子数据集的相同硬件来运行图3中的工作流程时,第一特征选择方法花费21分31秒,并且经由第二特征选择方法的特征选择花费1分54秒。取决于特定应用的要求或约束,任一特征选择方法均可以用在本文描述的方法和系统中。
[0104]
使用任一特征选择方法均能够识别相同的预测因子最佳子集。随着有更多的预测因子,这些预测因子的可能组合的总数可能急剧增加,并且第一或第二特征选择方法中的计算时间也可能增加。
[0105]
工作流程300可以包括,在步骤350,清理经特征选择的数据。工作流程300可以包括,在步骤360,通过选择将经清理的数据分割成训练数据和测试数据的分割方法来对数据分割选择进行建模,以用于在步骤370进行模型性能验证。
[0106]
工作流程300可以包括在步骤370处的模型性能的验证。在使用任一特征选择方法来选择预测因子最佳子集之后,对来自该所选择的最佳子集的数据使用重复随机子采样,以估计基于整个该数据构建的单个模型在预测未见样品方面的性能(图6和图7的底部分中的性能验证)。
[0107]
在步骤370,经由所有预测的测试集样品的残差分析来复合重复随机子采样方面的模型性能(图8a)。在此,残差为所测量的和预测的adcc值之间的差值,并且为模型预测与真实值相差多远的直接量度。针对理想模型的残差图具有接近于零(预测值与测量值之间的微小差值)的高密度点并且关于零对称(同方差)。残差的同方差性意味着模型为均匀预测点,也就是说,无论实际应答值的大小如何,该模型的性能均相同。
[0108]
工作流程300可以包括,在步骤380,对经训练的模型的性能的预测。在步骤380,重
复随机子采样之后模型的预测准确度可以经由%回收率(预测值/测量值*100)来报告,以便捕获针对每个样品的预测的相对误差,并查看误差是否符合所建立的容差,通常为80%-120%回收率。对于正态分布的值集,95%的值落在平均值的两个标准偏差内,并且99%的值落在平均值的2.5个标准偏差内。这种统计近似(称为经验规则)可以用于通过报告大多数%回收率值(95%和99%的值)所落入的估计的值范围来预测针对期望样品的模型性能,换句话说,针对adcc的大多数模型预测与数据中针对样品的实际测量值相差多远的近似。
[0109]
因此,三分子模型的预测能力在80%-120%回收率范围(99%置信区间)内。在对于检测资格普遍接受的范围内进行一致预测的能力增强该模型在先前的聚糖和adcc数据有限或不可用于类似格式的较新分子实体(例如,igg1 mab)的情况下的有用性。
[0110]
值的总体理想地呈正态分布,使得性能预测可以保持真实。因此,执行经由概率密度图的定性分析,以确认针对所有经预测的测试集样品的%回收率的值呈正态分布(图8b)。图8b还示出回收率百分比(其等于所预测的adcc/测量的adcc*100)介于约80%与约120%之间。
[0111]
在估计最终模型在预测针对禁用样品(例如,未见数据)的应答方面的性能之后,通过对针对最佳预测因子的完整数据(无训练/测试分割)进行训练来构建实际模型。可以使用与用于训练最终模型的相同的经测量的预测因子集对任何样品进行预测。
[0112]
除了使用三种分子(治疗mab 1、2、3)的模型分析之外,如上文于图4至图9中所详细描述,由三分子数据的组合生成几个其他模型。表1中呈现了针对这些模型中的每一个的验证度量。在表1中,关键如下:g0f总和(g0f+g0f-n)=s.g0f,去岩藻糖基化总和(g0-n+g0+g1)=s.a.,半乳糖基化总和(g1f+g2f+g1)=s.g.,甘露糖总和(m5+m6+m7+m8)=s.m.,唾液酸化总和(g1s1f+g2s1f+g2s2f)=s.s.注意:历经训练和测试集分割(完整数据的80/20分割)的100次迭代执行了重复随机子采样,[方括号]中的项对应于其中删除了治疗mab 1的单个异常值的数据。
[0113]
表1
[0114]
[0115][0116]
将图3中的此数据建模工作流程的性能与常用的数据分析技术(使用与应答强线性相关的已知属性的线性回归)进行比较。在这种情况下,使用去岩藻糖基化总和对adcc应答(表2)。
[0117]
与每种情况下的线性回归相比,pls模型具有覆盖99%的%回收率的较小的值范围,但治疗mab 1+2+3除外,其中值范围几乎相同。重要的是,对于针对预测样品的99%的%回收率值,pls模型中的所有单独分子均安全地处于80%-120%回收率内,而治疗mab 1和3在线性回归中显著地偏离该阈值。
[0118]
如表2中所示,pls模型在具有决定大多数应答表现的强单变量线性相关性的数据集中表现得与线性回归(如方括号中所示)一样好,但当相关性表现为非线性或多个预测因子与应答之间存在显著相关性时,表现得好得多。无论哪种方式,pls模型均更加稳健,并且最终更适合用于这种数据分析方式。值得注意的是,在大多数情况下,模型的预测准确度的成功阈值将由使用者和分析的上下文定义。
[0119]
在表2中呈现的情况下,80%与120%之间的%回收率范围用作接受的误差水平,因为该范围是分析测定的合格认证中普遍接受的误差幅度。使用此度量,我们可以估计pls模型令人满意地预测大多数(99%)的未见样品(在80%-120%回收率内)。
[0120]
表2.针对在治疗mabdata上训练的线性回归模型的输出
[0121]
[0122][0123]
注意:方括号中的项对应于其中删除了针对治疗mab 1的单个异常值的数据。
[0124]
最后,测试了pls模型与随机森林模型和支持向量机(两种广泛使用的机器学习算法)相比的性能(表3)。在此数据集的背景(大小、复杂性等)下,在比较平均rmsep时,pls模型的表现与其他模型相同或更好,尽管这是可预期的,因为更复杂的机器学习算法往往在较小的数据集的情况下表现不佳。
[0125]
表3.模型之间的性能差异
[0126][0127]
注意:所有模型均使用三分子数据库来构建,所有模型均使用100次迭代进行重复随机子采样,其中训练/测试分割为80/20。
[0128]
iii.b.方法
[0129]
根据各种实施例,提供了用于基于相关生物物理学属性来预测功能活动的各种示例性方法。这些方法可以(可互换地,以任何组合)并入工作流程100、200或300的一个或多个特征,并且可以经由计算机软件或硬件或其组合来实现,例如,如图10或图11中所例示。方法还可以在计算装置/系统上实现,该计算装置/系统可以包括用于检测用于靶标结合的候选的引擎的组合。在各种实施例中,计算装置/系统可以经由直接连接或通过因特网连接来通信地连接到数据源、数据建模分析器和显示装置中的一者或多者。
[0130]
现在参考图9,根据各种实施例的展示用于基于相关生物物理学属性来预测功能
活动的非限制性示例性方法900的流程图。方法900可以包括,在步骤902,接收输入数据。输入数据可以包括第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白(例如,抗体)样品集获得的预测因子集的相应所测量的功能应答(例如,所测量的抗体依赖性细胞毒性(adcc)应答)相关。输入数据可以进一步包括第二输入数据,该第二输入数据与预测因子集和用于预测功能应答(例如,adcc应答)的第二治疗蛋白(例如,抗体)样品集相关。在各种实施例中,预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合,诸如抗体的去岩藻糖基化程度和一种或多种附加糖基化属性的组合而选择的。例如,抗体的一种或多种附加糖基化属性包括半乳糖基化、唾液酸化、聚糖链长度、聚糖结构单元类型、高分子量形式和缺少n-聚糖链的抗体形式,或其任何组合。第一治疗蛋白(例如,抗体)样品集或第二治疗蛋白(例如,抗体)样品集可以包括单克隆抗体样品。
[0131]
方法900可以包括,在步骤904,用第一输入数据来训练机器学习模型。步骤904可以包括从治疗蛋白的相关生物物理学属性(诸如例如抗体的去岩藻糖基化程度和/或一种或多种附加糖基化属性)的多种组合选择预测因子集。选择预测因子集可以包括重复随机子采样验证或使用第一输入数据的预定义分割的交叉验证,诸如五折交叉验证。
[0132]
步骤904可以进一步包括选择机器学习模型。如果使用第一输入数据和预测因子集确定机器学习模型具有满足预定义阈值的模型性能,则可以选择该机器学习模型。机器学习模型可以为基于例如偏最小二乘、随机森林、支持向量机、朴素贝叶斯、knn、广义加性模型、逻辑回归、梯度提升或套索的模型。
[0133]
方法900可以包括,在步骤906,基于第二输入数据来预测第二治疗蛋白(例如,抗体)样品集的功能应答(例如,adcc应答)。可以使用机器学习模型和预测因子集来完成预测。
[0134]
方法900可以包括,在步骤908,返回包括所预测的adcc应答的输出。方法900可以进一步包括基于所预测的功能应答(例如,所预测的adcc应答)从第二治疗蛋白(例如,抗体)样品集选择治疗候选。方法900可以进一步包括验证治疗候选的治疗功效。方法900可以进一步包括开发包含治疗候选的治疗组合。预测引擎1012可以使用机器学习模型和预测因子集来预测adcc应答。
[0135]
iii.c.系统
[0136]
在各种实施例中,用于基于相关生物物理学属性的所选择的组合或如工作流程100、200或300中所例示来预测功能活动的任何方法可以经由诸如图10中所描述的软件、硬件、固件或其组合来实现。图10展示了根据各种实施例的配置成基于相关生物物理学属性的所选择的组合来预测功能活动的非限制性示例性系统。系统1000可以包括特征的各种组合,无论是比图10所展示的更多还是更少的特征。因此,图10只是展示了可能的系统的一个实例。
[0137]
系统1000包括数据收集单元1002、数据存储单元1004、计算装置/分析服务器1006、显示器1014、和验证单元1016。数据收集单元1002可以通信地连接到数据存储单元1004并且可以将数据集发送到数据存储单元,方式是通过串行总线(如果两者形成集成式仪器平台)或通过网络连接(如果两者都是分布式/分离式装置)。生成的数据集存储在数据存储单元1004中用于后续处理。在各种实施例中,一个或多个原始数据集也可以在处理和分析之前存储在数据存储单元1004中。因此,在各种实施例中,数据存储单元1004可以配置
成存储本文各种实施例的对应于几个治疗蛋白(例如,抗体)样品集的数据集。在各种实施例中,经处理的数据集可以实时馈送到计算装置/分析服务器1006用于进一步的下游分析。
[0138]
数据存储单元1004可以通信地连接到计算装置/分析服务器1006。在各种实施例中,数据存储单元1004和计算装置/分析服务器1006可以是集成式设备的一部分。在各种实施例中,数据存储单元1004可以由与计算装置/分析服务器1006不同的装置来托管。在各种实施例中,数据存储单元1004和计算装置/分析服务器1006可以是分布式网络系统的一部分。在各种实施例中,计算装置/分析服务器1006可以经由网络连接来通信地连接到数据存储单元1004,该网络连接可以是“硬连线”物理网络连接(例如,因特网、lan、wan、vpn等)或无线网络连接(例如,wi-fi、wlan等)。根据各种实施例,计算装置/分析服务器1006可以是工作站、大型计算机、分布式计算节点(“云计算”或分布式联网系统的一部分)、个人计算机、移动装置等。计算装置/分析服务器1006可以是客户端计算装置。在各种实施例中,计算装置/分析服务器1006可以为具有网络浏览器(例如,internet explorer
tm
、firefox
tm
、safari
tm
等)的个人计算装置,其可以用于控制数据收集单元1002、数据存储单元1004、显示器1014和验证单元1016的操作。
[0139]
根据各种实施例,计算系统(诸如计算机装置/分析服务器1006)配置成托管一个或多个特征选择引擎1008、一个或多个训练引擎1010和/或一个或多个预测引擎1012。特征选择引擎1008配置成从抗体的去岩藻糖基化程度和一种或多种糖基化属性的多种组合选择预测因子集。在各种实施例中,抗体的一种或多种糖基化属性包括半乳糖基化、唾液酸化、聚糖链长度、聚糖结构单元类型、高分子量形式和缺少n-聚糖链的抗体形式,或其任何组合。训练引擎1010可以配置成例如利用第一输入数据来训练机器学习模型。预测引擎1012可以配置成基于第二输入数据来预测第二治疗蛋白(例如,抗体)样品集的adcc应答。预测引擎1012可以使用机器学习模型和预测因子集来预测adcc应答。预测引擎1012可以进一步配置成基于对功能应答的预测从第二治疗蛋白(例如,抗体)样品集选择治疗候选。系统1000进一步包括配置成验证所选择的候选的期望功能应答的验证单元1016。
[0140]
在当计算装置/分析服务器1006正接收和处理来自数据存储单元1004的数据时的时间期间或在处理完成之后,结果的输出可以作为结果或总结显示在通信地连接到计算装置/分析服务器1006的显示器1014上。显示器1014可以为客户端计算装置或客户端终端。显示器1014可以为具有网络浏览器(例如,internet explorer
tm
、firefox
tm
、safari
tm
等)的个人计算装置,其可以用于控制数据收集单元1002、数据存储单元1004、特征选择引擎1008、训练引擎1010、预测引擎1012和显示器1014的操作。
[0141]
应当理解,各种引擎可以组合或坍缩为单个引擎、部件或模块,这取决于特定应用或系统架构的要求。引擎1008/1010/1012可以包括特定应用或系统架构所需的附加引擎或部件。
[0142]
iv.计算机实现的系统
[0143]
在各种实施例中,用于基于相关生物物理学属性的所选择的组合或如工作流程100、200或300中所例示来预测功能活动的任何方法可以经由诸如图10或图11中所描述的软件、硬件、固件或其组合来实现。
[0144]
即,如图10所示,本文公开的方法可以在诸如计算机系统1000(例如,计算装置/分析服务器)等的计算机系统上实现。计算机系统1000可以包括计算装置/分析服务器1006,
该计算装置/分析服务器可以经由直接连接或通过网络连接(例如,lan、wan、因特网等)通信地连接到数据存储装置1004和显示系统1014。应当理解,图10中描绘的计算机系统1000可以包括特定应用或系统架构所需的附加引擎或部件。
[0145]
图11为示出本教导的实施例可以在其上被实现的计算机系统1100的框图。在本教导的各种实施例中,计算机系统1100可以包括总线1102或用于传递信息的其他通信机制,以及与总线1102耦接用于处理信息的处理器1104。在各种实施例中,计算机系统1100还可以包括存储器(其可以是随机存取存储器(ram)1106或其他动态存储装置),该存储器耦接到总线1102用于确定要由处理器1104执行的指令。存储器还可以用于在执行要由处理器1104执行的指令期间存储临时变量或其他中间信息。在各种实施例中,计算机系统1100可以进一步包括耦接到总线1102的用于存储针对处理器1104的静态信息和指令的只读存储器(rom)1108或其他静态存储装置。可以提供存储装置1110(诸如磁盘或光盘)并将其耦接到总线1102以用于存储信息和指令。
[0146]
在各种实施例中,处理器1104可以经由总线1102耦接到显示器1012(诸如阴极射线管(crt)或液晶显示器(lcd)),用于向计算机用户显示信息。包括字母数字键和其他键的输入装置1114可以耦接到总线1002,用于将信息和命令选择传递到处理器1104。另一类型的用户输入装置是光标控制1116(诸如鼠标、轨迹球或光标方向键),用于将方向信息和命令选择传递到处理器1104并用于控制显示器1112上的光标移动。
[0147]
与本教导的某些实施方式一致,结果可以由计算机系统1100响应于处理器1104执行包含在存储器1106中的一个或多个指令的一个或多个序列而提供。此类指令可以从另一计算机可读介质或计算机可读存储介质(诸如存储装置1110)读入存储器1106。包含在存储器1106中的指令序列的执行可以使处理器1104执行本文描述的过程。在各种实施例中,可以使用硬接线电路系统来代替软件指令或与软件指令结合来实现本教导。因此,本教导的实施不限于硬件电路系统和软件的任何特定组合。
[0148]
如本文所用,术语“计算机可读介质”(例如,数据存储、数据存储装置等)或“计算机可读存储介质”是指参与向处理器1104提供指令以供执行的任何介质。此类介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的实例可以包括但不限于动态存储器,诸如存储器1106。传输介质的实例可以包括但不限于同轴电缆、铜线和光纤,包括构成总线1102的线。
[0149]
常见形式的计算机可读介质包括:例如,软盘、可折叠盘、硬盘、磁带或任何其他磁性介质;cd-rom、任何其他光学介质;穿孔卡、纸带、任何其他具有孔图案的物理介质;ram、prom和eprom、flash-eprom、任何其他存储器芯片或盒;或计算机可以读取的任何其他有形介质。
[0150]
除了计算机可读介质之外,指令或数据也可以作为信号而提供在包括在通信设备或系统中的传输介质上,以将一个或多个指令的序列提供给计算机系统1100的处理器1104以供执行。例如,通信设备可以包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或多个处理器实现本文公开中概述的功能。数据通信传输连接的代表性实例可以包括但不限于电话调制解调器连接、广域网(wan)、局域网(lan)、红外数据连接、nfc连接等。
[0151]
应当理解,本文所述的方法、流程图、图和随附的公开内容可以使用计算机系统
1000作为独立装置或在诸如云计算网络等共享计算机处理资源的分布式网络上实现。
[0152]
根据应用,本文描述的方法可以通过各种方式来实现。例如,这些方法可以在硬件、固件、软件或它们的任何组合中实现。针对硬件实现,处理单元可以在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理装置(dspd)、可编程逻辑装置(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、电子装置、设计用于执行本文描述的功能的其他电子单元、或其组合内实现。
[0153]
在各种实施例中,本教导的方法可以实现为固件和/或软件程序以及以诸如r、c、c++、python等传统编程语言编写的应用程序。如果实现为固件和/或软件,则本文描述的实施例可以在非暂时性计算机可读介质上实现,其中存储程序以使计算机执行上述方法。应当理解,本文描述的各种引擎可以提供在计算机系统上,诸如计算机系统1100,其中根据任一个存储器部件1106/1108/1110或其组合提供的指令以及经由输入装置1114提供的用户输入,处理器1104将执行由这些引擎提供的分析和确定。
[0154]
如本文所用,术语“计算机可读介质”(例如,数据存储区、数据存储装置等)或“计算机可读存储介质”是指参与向处理器1104提供指令以供执行的任何介质。此类介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质的实例可以包括但不限于光盘、固态硬盘、磁盘(诸如存储装置1110)。易失性介质的实例可以包括但不限于动态存储器,诸如存储器1106。传输介质的实例可以包括但不限于同轴电缆、铜线和光纤,包括构成总线1102的线。
[0155]
常见形式的计算机可读介质包括:例如,软盘、可折叠盘、硬盘、磁带或任何其他磁性介质;cd-rom、任何其他光学介质;穿孔卡、纸带、任何其它具有孔图案的物理介质;ram、prom和eprom、flash-eprom、任何其它存储器芯片或盒;或计算机可以读取的任何其它有形介质。
[0156]
除了计算机可读介质之外,指令或数据也可以作为信号而提供在包括在通信设备或系统中的传输介质上,以将一个或多个指令序列提供给计算机系统1100的处理器1104以供执行。例如,通信设备可以包括具有指示指令和数据的信号的收发器。指令和数据被配置为使一个或多个处理器实现本文公开中概述的功能。数据通信传输连接的代表性实例可以包括但不限于电话调制解调器连接、广域网(wan)、局域网(lan)、红外数据连接、nfc连接等。
[0157]
应当认识到,本文描述的方法、流程图、图和随附的公开内容可以使用计算机系统1200作为独立装置或在诸如云计算网络的共享计算机处理资源的分布式网络上实现。
[0158]
根据应用,本文描述的方法可以通过各种方式来实现。例如,这些方法可以在硬件、固件、软件或它们的任何组合中实现。针对硬件实现,处理单元可以在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理装置(dspd)、可编程逻辑装置(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、电子装置、设计用于执行本文描述的功能的其他电子单元、或其组合内实现。
[0159]
数字处理装置
[0160]
在各种实施例中,本文描述的系统和方法可以包括数字处理装置或其用途。在各种实施例中,数字处理装置可以包括执行装置的功能的一个或多个硬件中央处理单元(cpu)或通用图形处理单元(gpgpu)。在各种实施例中,数字处理装置进一步包括配置成执
行可执行指令的操作系统。在各种实施例中,数字处理装置可以为任选地连接的计算机网络。在各种实施例中,数字处理装置可以任选地连接到因特网,以便其访问万维网。在各种实施例中,数字处理装置可以任选地连接到云计算基础设施。在各种实施例中,数字处理装置可以任选地连接到内联网。在各种实施例中,数字处理装置可以任选地连接到数据存储装置。
[0161]
根据各种实施例,合适的数字处理装置可以包括(举非限制性示例来说)服务器计算机、台式计算机、膝上型计算机、笔记本计算机、亚笔记本计算机、上网本计算机、上网平板计算机、手持式计算机、因特网设备、移动智能手机、平板计算机和个人数字助理。本领域的普通技术人员将认识到,许多智能手机适用于本文描述的系统。本领域普通技术人员还将认识到,具有任选计算机网络连接性的精选电视、视频播放器和数字音乐播放器适用于本文描述的系统。合适的平板计算机包括本领域普通技术人员已知的具有小册子、平板和可转换配置的平板计算机。
[0162]
在各种实施例中,数字处理装置包括配置成执行可执行指令的操作系统。操作系统可以为例如包括程序和数据的软件,其管理装置的硬件并提供用于执行应用程序的服务。本领域普通技术人员将认识到,合适的服务器操作系统(举非限制性示例来说)包括freebsd、openbsd、net bsd、linux、mac os xwindows和本领域普通技术人员将认识到,合适的个人计算机操作系统包括(举非限制性示例来说)mac os和类unix操作系统(诸如)。在各种实施例中,操作系统由云计算提供。本领域普通技术人员还将认识到,合适的移动智能电话操作系统包括(举非限制性示例来说)os、research inblack berryberrywindowsos、windowsos、和
[0163]
在各种实施例中,该装置包括存储和/或存储器装置。存储和/或存储器装置为用于临时或永久地存储数据或程序的一个或多个物理设备。在各种实施例中,装置是易失性存储器,并且需要电源来保持存储的信息。在各种实施例中,装置是非易失性存储器,并且在数字处理装置未通电时保留存储的信息。在各种实施例中,非易失性存储器包括闪存存储器。在各种实施例中,非易失性存储器可以包括动态随机存取存储器(dram)。在各种实施例中,非易失性存储器可以包括铁电随机存取存储器(fram)。在各种实施例中,非易失性存储器可以包括相变随机存取存储器(pram)。在各种实施例中,装置可以为存储装置,其包括(举非限制性示例来说)cd-rom、dvd、闪存存储器装置、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储装置。在各种实施例中,存储和/或存储器装置为诸如本文公开的那些的装置的组合。
[0164]
在各种实施例中,数字处理装置包括显示器以向使用者发送可视信息。在各种实施例中,显示器为阴极射线管(crt)。在各种实施例中,显示器为液晶显示器(lcd)。在各种实施例中,显示器为薄膜晶体管液晶显示器(tft-lcd)。在各种实施例中,显示器为有机发光二极管(oled)显示器。在各种实施例中,oled显示器为无源矩阵oled(pmoled)或有源矩阵oled(amoled)显示器。在各种实施例中,显示器为等离子体显示器。在各种实施例中,显
示器为视频投影仪。在各种实施例中,显示器为诸如本文所公开的那些的装置的组合。
[0165]
在各种实施例中,数字处理装置包括输入装置以从使用者接收信息。在一些实施例中,输入装置为键盘。在各种实施例中,输入装置为指向装置,该指向装置(举非限制性示例来说)包括鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触笔。在各种实施例中,输入装置为触摸屏或多点触摸屏。在各种实施例中,输入装置为麦克风以捕获语音或其他声音输入。在各种实施例中,输入装置为视频相机或其他传感器以捕获运动或可视输入。在各种实施例中,输入装置为kinect、leap motion等。在各种实施例中,输入装置为诸如本文公开的那些的装置的组合。
[0166]
非暂时性计算机可读存储介质
[0167]
在各种实施例中,并且如上所述,本文公开的系统和方法可以包括一个或多个非暂时性计算机可读存储介质(并且本文的方法可以在其上运行),该一个或多个非暂时性计算机可读存储介质编码有程序,该程序包括由任选地联网的数字处理装置的操作系统可执行的指令。在各种实施例中,计算机可读存储介质为数字处理装置的有形部件。在各种实施例中,计算机可读存储介质从数字处理装置任选地可移除。在各种实施例中,计算机可读存储介质包括(举非限制性示例来说)cd-rom、dvd、闪存存储器装置、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在各种实施例中,程序和指令永久地、基本上永久地、半永久地或非暂时地编码在介质上。
[0168]
计算机程序
[0169]
在各种实施例中,本文公开的系统和方法可以包括至少一个计算机程序或使用至少一个计算机程序。计算机程序包括编写来执行指定任务的在数字处理装置的cpu中可执行的指令序列。计算机可读指令可以实现为执行特定任务或实现特定抽象数据类型的程序模块,诸如函数、对象、应用程序编程接口(api)、数据结构等。本领域普通技术人员将认识到,计算机程序可以用各种语言的各种版本来编写。
[0170]
计算机可读指令的功能性可以根据需要在各种环境中组合或分布。在各种实施例中,计算机程序包括一个指令序列。在各种实施例中,计算机程序包括多个指令序列。在各种实施例中,计算机程序从一个位置提供。在各种实施例中,计算机程序从多个位置提供。在各种实施例中,计算机程序包括一个或多个软件模块。在各种实施例中,计算机程序部分或全部包括一个或多个网络应用程序、一个或多个移动应用程序、一个或多个独立应用程序、一个或多个网络浏览器插件、扩展、加载项或附加组件,或其组合。
[0171]
网络应用程序
[0172]
在各种实施例中,计算机程序包括网络应用程序。本领域普通技术人员将认识到,在各种实施例中,网络应用程序利用一个或多个软件框架和一个或多个数据库系统。在各种实施例中,网络应用程序是在软件框架诸如.net或ruby on rails(ror)上创建的。在各种实施例中,网络应用程序利用一个或多个数据库系统,举非限制性示例来说,包括关系数据库系统、非关系数据库系统、面向对象数据库系统、关联数据库系统和xml数据库系统。
[0173]
在各种实施例中,合适的关系数据库系统包括(举非限制性示例来说)sql server、mysql
tm
和本领域普通技术人员还将认识到,在各种实施例中,网络应用程序是用一种或多种语言的一个或多个版本来编写的。网络应用程序可
以用一种或多种标记语言、呈现定义语言、客户侧脚本语言、服务器侧编码语言、数据库查询语言或其组合来编写。在各种实施例中,网络应用程序在某种程度上是用标记语言(诸如超文本标记语言(html)、可扩展超文本标记语言(xhtml)或可扩展标记语言(xml))来编写的。在各种实施例中,网络应用程序在某种程度上是用呈现定义语言诸如层叠样式表(css)来编写的。
[0174]
在各种实施例中,网络应用程序在某种程度上是用客户端侧脚本语言(诸如异步javascript和xml(ajax)、actionscript、javascript或)来编写的。在各种实施例中,网络应用程序在某种程度上是用服务器侧编码语言(诸如动态服务器页面(asp)、perl、java
tm
、javaserver pages(jsp)、超文本预处理器(php)、python
tm
、ruby、tel、smalltalk、或groovy)来编写的。在各种实施例中,网络应用程序在某种程度上是用数据库查询语言诸如结构化查询语言(sql)来编写的。在各种实施例中,网络应用程序集成了企业服务器产品诸如lotus在各种实施例中,网络应用程序包括媒体播放器元件。在各种实施例中,媒体播放器元件利用许多合适的多媒体技术中的一种或多种,该多媒体技术,举非限制性示例来说,包括html 5、java
tm

[0175]
移动应用程序
[0176]
在各种实施例中,计算机程序包括提供给移动数字处理装置的移动应用程序。在各种实施例中,移动应用程序在制造移动数字处理装置时提供给该移动数字处理装置。在各种实施例中,移动应用程序经由本文描述的计算机网络提供给移动数字处理装置。
[0177]
移动应用程序可以通过本领域普通技术人员已知的技术使用本领域已知的硬件、语言和开发环境来创建。本领域普通技术人员将认识到,移动应用程序可以用多种语言来编写。合适的编程语言包括(举非限制性示例来说)c、c++、c#、objective-c、java
tm
、javascript、pascal、object pascal、rust、python
tm
、ruby、vb.net、wml和具有或不具有css的xhtml/html,或其组合。
[0178]
合适的移动应用程序开发环境可以从多个源获得。可商购获得的开发环境包括(举非限制性示例来说)airplaysdk、alchemo、celsius、bedrock、flash lite、net compact frame-work、rhomobile和worklight mobile platform。可以免费获得其他开发环境,包括(举非限制性示例来说)lazarus、mobi-flex、mosync和phonegap。此外,移动装置制造商配销软件开发工具包,包括(举非限制性示例来说)iphone和ipad(ios)sdk、android
tm
sdk、sdk、brew sdk、ossdk、symbian sdk、webossdk和mobile sdk。
[0179]
本领域普通技术人员将认识到,若干商业论坛可用于配销移动应用程序,包括(举非限制性示例来说)app store、play、chrome webstore、app world、针对palm装置的app store、针对webos的app catalog、针对移动的marketplace、针对装置的ovi store、apps和
nintendo dsi shop。
[0180]
独立应用程序
[0181]
在各种实施例中,计算机程序包括独立应用程序,其是作为独立计算机进程运行的程序,而不是现有进程的附加组件,例如,不是插件。本领域的普通技术人员将认识到,独立应用程序通常是经编译的。编译器为一个或多个计算机程序,其将用编程语言编写的源代码转换成二进制对象代码,诸如汇编语言或机器代码。合适的经编译编程语言包括(举非限制性示例来说)rust、c、c++、objective-c、cobol、delphi、eiffel、java
tm
、lisp、python
tm
、visual basic和vb.net,或其组合。通常至少部分地执行编译以创建可执行程序。在各种实施例中,计算机程序包括一个或多个可执行经编译应用程序。
[0182]
网络浏览器插件
[0183]
在各种实施例中,计算机程序包括网络浏览器插件(例如,扩展等)。在计算中,插件为一个或多个软件组件,其可以向较大的软件应用程序添加特定功能性。软件应用程序制造商支持插件,以使第三方开发人员能够创建扩展应用程序的能力,以支持轻松添加新特征并减小应用程序的大小。当受支持时,插件实现定制软件应用程序的功能性。例如,插件通常在网络浏览器中用于播放视频、生成交互性、针对病毒进行扫描以及显示特定文件类型。本领域普通技术人员将熟悉若干网络浏览器插件,包括player、和和在各种实施例中,工具栏包括一个或多个网络浏览器扩展、加载项或附加组件。在各种实施例中,工具栏包括一个或多个浏览器栏、工具带或桌面带。
[0184]
本领域普通技术人员将认识到,可获得实现以各种编程语言开发插件的若干插件框架,包括(举非限制性示例来说)c++、delphi、java
tm
、php、python
tm
和vb.net,或其组合。
[0185]
网络浏览器(也称为因特网浏览器)为软件应用程序,设计用于与网络连接的数字处理装置一起使用,以用于检索、呈现和遍历万维网上的信息资源。合适的网络浏览器包括(举非限制性示例来说)internetchrome、chrome、opera和kde konqueror。在各种实施例中,网络浏览器为移动网络浏览器。移动网络浏览器(也称为微浏览器、迷你浏览器和无线浏览器)设计用于移动数字处理装置,包括(举非限制性示例来说)手持计算机、平板计算机、上网本计算机、亚笔记本计算机、智能手机和个人数字助理(pda)。合适的移动网络浏览器包括(举非限制性示例来说)浏览器、rim浏览器、浏览器、blazer、浏览器、针对移动的浏览器、针对移动的移动版internetbasic web、浏览器、移动版opera和sony psp
tm
浏览器。
[0186]
软件模块
[0187]
在各种实施例中,本文公开的系统和方法包括软件、服务器和/或数据库模块,或者将它们的用途并入根据本文公开的各种实施例的方法中。软件模块可以通过本领域普通技术人员已知的技术使用本领域已知的机器、软件和语言来创建。本文公开的软件模块以
多种方式实现。在各种实施例中,软件模块包括文件、代码段、编程对象、编程结构或其组合。在另外的各种实施例中,软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在各种实施例中,一个或多个软件模块包括(举非限制性示例来说)网络应用程序、移动应用程序和独立应用程序。在各种实施例中,软件模块在一个计算机程序或应用程序中。在各种实施例中,软件模块在多于一个计算机程序或应用程序中。在各种实施例中,软件模块托管在一个机器上。在各种实施例中,软件模块托管在多于一个机器上。在各种实施例中,软件模块托管在云计算平台上。在各种实施例中,软件模块托管在一个位置的一个或多个机器上。在各种实施例中,软件模块托管在多于一个位置的一个或多个机器上。
[0188]
数据库
[0189]
在各种实施例中,本文公开的系统和方法包括一个或多个数据库,或者将其用途并入根据本文公开的各种实施例的方法中。本领域普通技术人员将认识到,许多数据库适合于存储和检索使用者、查询、令牌和结果信息。在各种实施例中,合适的数据库包括(举非限制性示例来说)关系数据库、非关系数据库、面向对象数据库、对象数据库、实体关系模型数据库、关联数据库和xml数据库。另外的非限制性示例包括sql、postgresql、mysql、oracle、db2和sybase。在各种实施例中,数据库是基于因特网的。在进一步的网络中。合适的网络浏览器包括(举非限制性示例来说)internetchrome、opera和kde konqueror。在各种实施例中,网络浏览器为移动网络浏览器。移动网络浏览器(也称为微浏览器、迷你浏览器和无线浏览器)设计用于移动数字处理装置,包括(举非限制性示例来说)手持计算机、平板计算机、上网本计算机、亚笔记本计算机、智能手机和个人数字助理(pda)。合适的移动网络浏览器包括(举非限制性示例来说)浏览器、rim浏览器、blazer、浏览器、针对移动的移动版internetinternetbasic web、浏览器、移动版opera和sony psp
tm
浏览器。
[0190]
在各种实施例中,数据库是基于网络的。在各种实施例中,数据库是基于云计算的。在其他实施例中,数据库基于一个或多个本地计算机存储装置。
[0191]
数据安全
[0192]
在各种实施例中,本文公开的系统和方法包括防止未经授权的访问的一个或多个特征。安全措施可以例如保护使用者的数据。在各种实施例中,数据是经加密的。在各种实施例中,对系统的访问需要多因素认证和访问控制层。在各种实施例中,对系统的访问需要两步认证(例如,基于网络的界面)。在各种实施例中,两步认证要求使用者除了用户名和密码之外还输入发送到使用者的电子邮件或手机的访问代码。在各种情况下,使用者在未能输入正确的用户名和密码之后被锁定在帐户之外。在各种实施例中,本文公开的系统和方法还可以包括用于保护使用者基因组及其跨任何基因组的搜索的匿名性的机制。
[0193]
尽管结合各种实施例描述了本教导,但本教导并不旨在限于此类实施例。相反,本教导涵盖本领域技术人员将理解的各种替代、修改和等同物。
[0194]
在描述各种实施例时,本说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,只要方法或过程不依赖于本文阐述的步骤的特定次序,该方法或过程便不应限于所描述的步骤的特定次序。如本领域普通技术人员将认识的,其他步骤次序可以是可能的。因此,说明书中阐述的步骤的特定次序不应解释为对权利要求的限制。成为,涉及方法和/或过程的权利要求不应限于按所写次序执行它们的步骤,并且本领域技术人员可以容易地认识到,次序可以改变并且仍然保持在各种实施例的精神和范围内。
[0195]
实施例陈述
[0196]
实施例1:一种方法,其包括:接收输入数据,该输入数据包括:a)第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的预测因子集的相应所测量的功能应答相关;以及b)第二输入数据,该第二输入数据与预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中该预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用第一输入数据来训练机器学习模型;以及使用机器学习模型和预测因子集以基于第二输入数据来预测第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。
[0197]
实施例2:根据实施例1所述的方法,其中治疗蛋白样品为抗体样品,功能应答为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种附加糖基化属性。
[0198]
实施例3:根据实施例2所述的方法,其中抗体的一种或多种附加糖基化属性包括半乳糖基化、唾液酸化、聚糖链长度、聚糖结构单元类型和缺少n-聚糖链的抗体形式,或其任何组合。
[0199]
实施例4:根据实施例2或3所述的方法,其中抗体的一种或多种附加糖基化属性包括抗体的两种糖基化属性。
[0200]
实施例5:根据实施例2至4中任一者所述的方法,其中抗体的一种或多种附加糖基化属性包括抗体的半乳糖基化和唾液酸化。
[0201]
实施例6:根据实施例2至5中任一者所述的方法,其中抗体样品包括单克隆抗体样品。
[0202]
实施例7:根据实施例1至6中任一者所述的方法,其中训练机器学习模型包括从治疗蛋白的相关生物物理学属性的多种组合选择预测因子集。
[0203]
实施例8:根据实施例7所述的方法,其中选择预测因子集包括重复随机子采样验证。
[0204]
实施例9:根据实施例7或8所述的方法,其中选择预测因子集包括使用第一输入数据的预定义分割的交叉验证。
[0205]
实施例10:根据实施例1至9中任一者所述的方法,其中训练机器学习模型包括:如果使用第一输入数据和预测因子集确定机器学习模型具有满足预定义阈值的模型性能,则选择该机器学习模型。
[0206]
实施例11:根据实施例1至11中任一者所述的方法,该方法进一步包括基于所预测的功能应答从第二治疗蛋白样品集选择治疗候选。
[0207]
实施例12:根据实施例11中任一者所述的方法,该方法进一步包括验证治疗候选
的治疗功效。
[0208]
实施例13:根据实施例11或12中任一者所述的方法,该方法进一步包括开发包含治疗候选的治疗组合。
[0209]
实施例14:根据实施例1至13中任一者所述的方法,其中机器学习模型为基于偏最小二乘、随机森林、支持向量机、朴素贝叶斯、knn、广义加性模型、逻辑回归、梯度提升或套索的模型。
[0210]
实施例15:根据实施例1至14中任一者所述的方法,其中机器学习模型为基于偏最小二乘、随机森林或支持向量机的模型。
[0211]
实施例16:一种系统,其包括:数据源,该数据源用于获得一个或多个数据集,其中该一个或多个数据集包括:a)第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的预测因子集的相应所测量的功能应答相关;以及b)第二输入数据,该第二输入数据与预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中该预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;计算装置,该计算装置通信地连接到数据源并且配置成接收数据集,计算装置包括含有指令的非暂时性计算机可读存储介质,该指令当在一个或多个数据处理器上执行时,使一个或多个数据处理器执行方法,该方法包括:用第一输入数据来训练机器学习模型;使用机器学习模型和预测因子集以基于第二输入数据来预测第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。
[0212]
实施例17:根据实施例16所述的系统,其中治疗蛋白样品为抗体样品,功能应答为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种糖基化属性。
[0213]
实施例18:根据实施例16或17所述的系统,其中训练机器学习模型包括从治疗蛋白的相关生物物理学属性的多种组合选择预测因子集。
[0214]
实施例19:根据实施例18所述的系统,其中选择预测因子集包括重复随机子采样验证。
[0215]
实施例20:根据实施例18或19所述的系统,其中选择预测因子集包括使用第一输入数据的预定义分割的交叉验证。
[0216]
实施例21:根据实施例16至20中任一者所述的系统,其中训练机器学习模型包括:如果使用第一输入数据和预测因子集确定机器学习模型具有满足预定义阈值的模型性能,则选择该机器学习模型。
[0217]
实施例22:根据实施例16至21中任一者所述的系统,其中第一治疗蛋白样品集或第二治疗蛋白样品集包括抗体样品。
[0218]
实施例23:根据实施例16至22中任一者所述的系统,其中该方法进一步包括基于所预测的功能应答从第二治疗蛋白样品集选择治疗候选。
[0219]
实施例24:根据实施例16至23中任一者所述的系统,其中机器学习模型为基于偏最小二乘、随机森林或支持向量机的模型。
[0220]
实施例25:一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,包括指令,该指令配置成使一个或多个数据处理器执行用于基于单个细胞数据集来选择目
标细胞的方法,该方法包括:接收输入数据,该输入数据包括:a)第一输入数据,该第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的预测因子集的相应所测量的功能应答相关;以及b)第二输入数据,该第二输入数据与预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中该预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用第一输入数据来训练机器学习模型;使用机器学习模型和预测因子集以基于第二输入数据来预测第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。
[0221]
实施例26:根据实施例25所述的计算机程序产品,其中治疗蛋白样品为抗体样品,功能应答为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种糖基化属性。
[0222]
实施例27:根据实施例25或26所述的计算机程序产品,其中训练机器学习模型包括从治疗蛋白的相关生物物理学属性的多种组合选择预测因子集。
[0223]
实施例28:根据实施例27所述的计算机程序产品,其中选择预测因子集包括重复随机子采样验证。
[0224]
实施例29:根据实施例27或28所述的计算机程序产品,其中选择预测因子集包括使用第一输入数据的预定义分割的交叉验证。
[0225]
实施例30:根据实施例25至29中任一者所述的计算机程序产品,其中训练机器学习模型包括:如果使用第一输入数据和预测因子集确定机器学习模型具有满足预定义阈值的模型性能,则选择该机器学习模型。
[0226]
实施例31:根据实施例25至30中任一者所述的计算机程序产品,其中第一治疗蛋白样品集或第二治疗蛋白样品集包括抗体样品。
[0227]
实施例32:根据实施例25至31中任一者所述的计算机程序产品,其中该方法进一步包括基于所预测的功能应答从第二治疗蛋白样品集选择治疗候选。
[0228]
实施例33:根据实施例25至32中任一者所述的计算机程序产品,其中机器学习模型为基于偏最小二乘、随机森林或支持向量机的模型。

技术特征:
1.一种方法,其包括:接收输入数据,所述输入数据包括:a)第一输入数据,所述第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的所述预测因子集的相应所测量的功能应答相关,以及b)第二输入数据,所述第二输入数据与所述预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中所述预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用所述第一输入数据来训练机器学习模型;使用所述机器学习模型和所述预测因子集以基于所述第二输入数据来预测所述第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。2.根据权利要求1所述的方法,其中所述治疗蛋白样品为抗体样品,所述功能应答为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且所述治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种附加糖基化属性。3.根据权利要求2所述的方法,其中所述抗体的一种或多种附加糖基化属性包括半乳糖基化、唾液酸化、聚糖链长度、聚糖结构单元类型和缺少n-聚糖链的抗体形式,或其任何组合。4.根据权利要求2所述的方法,其中所述抗体的一种或多种附加糖基化属性包括抗体的两种糖基化属性。5.根据权利要求2所述的方法,其中所述抗体的一种或多种附加糖基化属性包括抗体的半乳糖基化和唾液酸化。6.根据权利要求2所述的方法,其中所述抗体样品包括单克隆抗体样品。7.根据权利要求1所述的方法,其中训练所述机器学习模型包括从所述治疗蛋白的相关生物物理学属性的多个组合选择所述预测因子集。8.根据权利要求7所述的方法,其中选择所述预测因子集包括重复随机子采样验证。9.根据权利要求7所述的方法,其中选择所述预测因子集包括使用所述第一输入数据的预定义分割的交叉验证。10.根据权利要求1所述的方法,其中训练所述机器学习模型包括:如果使用所述第一输入数据和所述预测因子集确定所述机器学习模型具有满足预定义阈值的模型性能,则选择所述机器学习模型。11.根据权利要求1所述的方法,所述方法进一步包括基于所预测的功能应答从所述第二治疗蛋白样品集选择治疗候选。12.根据权利要求11所述的方法,所述方法进一步包括验证所述治疗候选的治疗功效。13.根据权利要求11所述的方法,所述方法进一步包括开发包含所述治疗候选的治疗组合。14.根据权利要求1所述的方法,其中所述机器学习模型为基于偏最小二乘、随机森林、支持向量机、朴素贝叶斯、knn、广义加性模型、逻辑回归、梯度提升或套索的模型。
15.根据权利要求1所述的方法,其中所述机器学习模型为基于偏最小二乘、随机森林或支持向量机的模型。16.一种系统,其包括:数据源,所述数据源用于获得一个或多个数据集,其中所述一个或多个数据集包括:a)第一输入数据,所述第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的所述预测因子集的相应所测量的功能应答相关,以及b)第二输入数据,所述第二输入数据与所述预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中所述预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;计算装置,所述计算装置通信地连接到所述数据源并配置成接收所述数据集,所述计算装置包括含有指令的非暂时性计算机可读存储介质,所述指令当在一个或多个数据处理器上执行时,使所述一个或多个数据处理器执行方法,所述方法包括:用所述第一输入数据来训练机器学习模型;使用所述机器学习模型和所述预测因子集以基于所述第二输入数据来预测所述第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。17.根据权利要求16所述的系统,其中所述治疗蛋白样品为抗体样品,所述功能应答为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且所述治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种糖基化属性。18.根据权利要求16所述的系统,其中训练所述机器学习模型包括从所述治疗蛋白的相关生物物理学属性的多个组合选择所述预测因子集。19.根据权利要求18所述的系统,其中选择所述预测因子集包括重复随机子采样验证。20.根据权利要求18所述的系统,其中选择所述预测因子集包括使用所述第一输入数据的预定义分割的交叉验证。21.根据权利要求16所述的系统,其中训练所述机器学习模型包括:如果使用所述第一输入数据和所述预测因子集确定所述机器学习模型具有满足预定义阈值的模型性能,则选择所述机器学习模型。22.根据权利要求16所述的系统,其中所述第一治疗蛋白样品集或所述第二治疗蛋白样品集包括抗体样品。23.根据权利要求16所述的系统,其中所述方法进一步包括基于所预测的功能应答从所述第二治疗蛋白样品集选择治疗候选。24.根据权利要求16所述的系统,其中所述机器学习模型为基于偏最小二乘、随机森林或支持向量机的模型。25.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品,包括指令,所述指令配置成使一个或多个数据处理器执行用于基于单个细胞数据集选择目标细胞的方法,所述方法包括:接收输入数据,所述输入数据包括:
a)第一输入数据,所述第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的所述预测因子集的相应所测量的功能应答相关,以及b)第二输入数据,所述第二输入数据与所述预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中所述预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用所述第一输入数据来训练机器学习模型;使用所述机器学习模型和所述预测因子集以基于所述第二输入数据来预测所述第二治疗蛋白样品集的功能应答;以及返回包括所预测的功能应答的输出。26.根据权利要求25所述的计算机程序产品,其中治疗蛋白样品为抗体样品,所述功能应答为抗体依赖性细胞介导的细胞毒性(adcc)应答、补体依赖性细胞毒性(cdc)应答、fcγ受体(fcyr)结合或补体c1q结合,并且所述治疗蛋白的相关生物物理学属性包括抗体的去岩藻糖基化程度和一种或多种糖基化属性。27.根据权利要求25所述的计算机程序产品,其中训练所述机器学习模型包括从所述治疗蛋白的相关生物物理学属性的多个组合选择所述预测因子集。28.根据权利要求27所述的计算机程序产品,其中选择所述预测因子集包括重复随机子采样验证。29.根据权利要求27所述的计算机程序产品,其中选择所述预测因子集包括使用所述第一输入数据的预定义分割的交叉验证。30.根据权利要求25所述的计算机程序产品,其中训练所述机器学习模型包括:如果使用所述第一输入数据和所述预测因子集确定所述机器学习模型具有满足预定义阈值的模型性能,则选择所述机器学习模型。31.根据权利要求25所述的计算机程序产品,其中所述第一治疗蛋白样品集或所述第二治疗蛋白样品集包括抗体样品。32.根据权利要求25所述的计算机程序产品,其中所述方法进一步包括基于所述所预测的功能应答从所述第二治疗蛋白样品集选择治疗候选。33.根据权利要求25所述的计算机程序产品,其中所述机器学习模型为基于偏最小二乘、随机森林或支持向量机的模型。

技术总结
可以提供方法和系统以基于针对治疗蛋白的预测因子集来预测功能应答。例如,一种方法可以包括:接收输入数据,所述输入数据包括:第一输入数据,所述第一输入数据与预测因子集以及关联于从第一治疗蛋白样品集获得的所述预测因子集的相应所测量的功能应答相关;以及第二输入数据,所述第二输入数据与所述预测因子集以及第二治疗蛋白样品集相关,用于预测功能应答,其中所述预测因子集是基于预定标准作为治疗蛋白的相关生物物理学属性的组合而选择的;用所述第一输入数据来训练机器学习模型;以及使用所述机器学习模型和所述预测因子集以基于所述第二输入数据来预测所述第二治疗蛋白样品集的功能应答。蛋白样品集的功能应答。蛋白样品集的功能应答。


技术研发人员:A
受保护的技术使用者:基因泰克公司
技术研发日:2022.02.11
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐