药物活性预测方法、装置、设备及存储介质
未命名
10-18
阅读:88
评论:0
1.本发明涉及生物医药技术领域,尤其涉及一种药物活性预测方法、装置、设备及存储介质。
背景技术:
2.癌症作为一种全球死亡率最高的疾病之一,对公众健康产生了巨大的影响。癌症的发生和发展是一个极其复杂的生物学过程,常伴有基因突变,拷贝数变异,dna甲基化和组蛋白修饰等,而不同的生物学机制使得抗肿瘤药物对肿瘤患者的疗效各不相同。
3.目前越来越多的研究者提倡对肿瘤患者进行精准治疗,也即根据癌症患者的基因谱,生活环境和生活方式等差异,为肿瘤患者提供最佳的治疗方案。但现有的精准治疗方式并不能准确识别靶向抗肿瘤药物对肿瘤患者的疗效。因此,在临床前准确识别靶向抗肿瘤药物对不同肿瘤患者的治疗效果成为一个亟待解决的问题。
4.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现要素:
5.本发明的主要目的在于提供了一种药物活性预测方法、装置、设备及存储介质,旨在解决现有技术中精准治疗方式不能准确识别靶向抗肿瘤药物对肿瘤患者的疗效的技术问题。
6.为实现上述目的,本发明提供了一种药物活性预测方法,所述方法包括以下步骤:
7.基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;
8.将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征;
9.获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征;
10.基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值。
11.可选地,所述将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征的步骤之前,还包括:
12.获取所述肿瘤细胞系对应的训练集样本,并确定所述训练集样本中各训练样本对应的目标基因;
13.相应的,所述将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征的步骤,包括:
14.将所述基因水平多组学信息聚集至对应的目标生物通路;
15.基于所述目标基因、所述基因水平多组学信息和所述目标生物通路构建细胞系特征图;
16.通过所述细胞系特征图获取所述肿瘤细胞系对应的细胞系特征。
17.可选地,所述基于所述目标基因、所述基因水平多组学信息和所述目标生物通路构建细胞系特征图的步骤,包括:
18.根据所述基因水平多组学信息确定所述目标基因和所述目标生物通路之间的节点连接关系;
19.基于所述节点连接关系构建所述目标基因和所述目标生物通路之间的连接边,并根据所述连接边构建细胞系特征图。
20.可选地,所述药物活性预测方法基于细胞系特征提取网络实现,所述细胞系特征提取网络中设置有输入层和第一隐藏层;
21.相应的,所述基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息的步骤之前,还包括:
22.将所述基因水平多组学信息与所述输入层的输入神经元之间建立连接关系;
23.通过所述第一隐藏层的隐藏层神经元与所述输入神经元建立神经元连接,以通过所述神经元连接建立所述输入层和所述第一隐藏层之间的连接,所述隐藏层神经元与所述输入神经元存在连接边;
24.在建立完成时,执行所述基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息的步骤。
25.可选地,所述获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征的步骤,包括:
26.获取待预测药物的药物化学结构信息,并对所述药物化学结构信息中药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列;
27.基于所述药物分子指纹和所述药物分子序列获取所述待预测药物对应的分子特征向量;
28.将所述分子特征向量输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物结构特征。
29.可选地,所述基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值的步骤之后,还包括:
30.基于所述训练集样本的样本数量、所述药物细胞系活性预测值和药物细胞系活性标准值,通过预设损失计算公式确定均方误差损失;
31.根据所述均方误差损失和学习率对所述药物活性预测模型进行更新;
32.其中,所述预设损失计算公式为:
[0033][0034]
式中,为所述均方误差损失,n为所述样本数量,为所述药物细胞系活性预测值,yi为所述药物细胞系活性标准值。
[0035]
可选地,所述基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值的步骤,包括:
[0036]
对所述细胞系特征和所述药物结构特征进行特征拼接,获得拼接特征;
[0037]
将所述拼接特征输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物细胞系活性预测值,所述药物活性预测模型的隐藏层中设置有规范神经网络层和线性整流激活函数。
[0038]
此外,为实现上述目的,本发明还提出一种药物活性预测装置,所述装置包括:
[0039]
多组学信息获取模块,用于基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;
[0040]
细胞系特征获取模块,用于将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征;
[0041]
药物结构特征获取模块,用于获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征;
[0042]
预测值确定模块,用于基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值。
[0043]
此外,为实现上述目的,本发明还提出一种药物活性预测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的药物活性预测程序,所述药物活性预测程序配置为实现如上文所述的药物活性预测方法的步骤。
[0044]
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有药物活性预测程序,所述药物活性预测程序被处理器执行时实现如上文所述的药物活性预测方法的步骤。
[0045]
在本发明中,公开了基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;将基因水平多组学信息聚集至对应的目标生物通路,以获取肿瘤细胞系对应的细胞系特征;获取待预测药物的药物化学结构信息,并基于药物化学结构信息中药物化学结构对应的线性规范字符串获取待预测药物的药物结构特征;基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值;由于本发明将肿瘤细胞系的基因水平多组学信息聚集至对应的目标生物通路获取对应的细胞系特征,并基于药物化学结构对应的线性规范字符串获取药物结构特征,再基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值,从而解决了现有技术中精准治疗方式不能准确识别靶向抗肿瘤药物对肿瘤患者的疗效的技术问题。
附图说明
[0046]
图1为本发明实施例方案涉及的硬件运行环境的药物活性预测设备的结构示意图;
[0047]
图2为本发明药物活性预测方法第一实施例的流程示意图;
[0048]
图3为本发明药物活性预测方法第二实施例的流程示意图;
[0049]
图4为本发明药物活性预测方法第三实施例的流程示意图;
[0050]
图5为本发明药物活性预测装置第一实施例的结构框图。
[0051]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0052]
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0053]
参照图1,图1为本发明实施例方案涉及的硬件运行环境的药物活性预测设备结构示意图。
[0054]
如图1所示,该药物活性预测设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0055]
本领域技术人员可以理解,图1中示出的结构并不构成对药物活性预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0056]
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及药物活性预测程序。
[0057]
在图1所示的药物活性预测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明药物活性预测设备中的处理器1001、存储器1005可以设置在药物活性预测设备中,所述药物活性预测设备通过处理器1001调用存储器1005中存储的药物活性预测程序,并执行本发明实施例提供的药物活性预测方法。
[0058]
本发明实施例提供了一种药物活性预测方法,参照图2,图2为本发明药物活性预测方法第一实施例的流程示意图。
[0059]
本实施例中,所述药物活性预测方法包括以下步骤:
[0060]
步骤s10:基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息。
[0061]
需要说明的是,本实施例的方法的执行主体可以为在临床前对靶向抗肿瘤药物对肿瘤患者的疗效进行识别的药物活性预测设备,或者是其他能够实现相同或相似功能的、包含了该药物活性预测设备的药物活性预测系统。此处以药物活性预测系统(以下简称系统)对本实施例和下述各实施例提供的药物活性预测方法进行具体说明。
[0062]
应当理解的是,上述预设基因组数据库可以为存储有肿瘤细胞系和抗肿瘤药物信息的数据库。例如:ccle(the cancer cell line encyclopedia,癌症细胞系百科全书)和gdsc(genomics of drug sensitivity in cancer,抗癌药物敏感性基因组学数据库)等,本实施例对此不加以限制。其中,ccle数据库和gdsc数据库提供了肿瘤细胞系的多组学数据和多种药物的筛检数据。
[0063]
可以理解的是,上述基因水平多组学信息可以为肿瘤细胞系对应的数据,基因水平多组学信息可以包括某一肿瘤细胞系对应的基因突变数据、基因表达数据、拷贝数数据、融合数据和crispr ko data(探究肿瘤的基因依赖性)数据等。本实施例对肿瘤细胞的具体类型不加以限制。
[0064]
在具体实现中,本实施例中系统可以从ccle数据库或gdsc数据库获取本实施例方
法中研究的肿瘤细胞系对应的基因突变数据、基因表达数据和拷贝数变异数据等基因水平多组学信息。
[0065]
步骤s20:将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征。
[0066]
需要说明的是,上述目标生物通路可以为由点和线构成的基因与其对应的特征之间的关系图。实际应用中,目标生物通路可以为kegg(kyoto encyclopedia of genes and genomes,京都基因和基因组百科全书)通路,或其他与kegg通路具有相同或相似功能的通路,本实施例对此不加以限制。其中,kegg通路可以为整合了基因组信息、化学信息和系统功能信息的数据库,其中包含有大量的通道图。
[0067]
应当理解的是,上述细胞系特征可以为肿瘤细胞系在生物通路水平上的特征。实际应用中,系统首先可以建立一个学习模型bio-sdcr(biologically sparse drug-cell response network),并将kegg通路信息整合至bio-sdcr模型中,再将肿瘤细胞系的基因水平多组学信息聚集至其对应的生物通路中,从而可以从肿瘤细胞系的基因水平多组学信息中提取中肿瘤细胞系在生物通路水平上的细胞系特征。此外,将bio-sdcr模型与deeplift算法相结合,可以实现对药物和细胞系作用下的生物学过程进行可视化,从而形象直观地展示出药物作用于肿瘤细胞时肿瘤细胞内部从基因突变和拷贝数变异至基因水平至生物通路水平上的作用过程。
[0068]
进一步地,所述药物活性预测方法基于细胞系特征提取网络实现,所述细胞系特征提取网络中设置有输入层和第一隐藏层;相应的,所述s10之前,所述方法还包括:将所述基因水平多组学信息与所述输入层的输入神经元之间建立连接关系;通过所述第一隐藏层的隐藏层神经元与所述输入神经元建立神经元连接,以通过所述神经元连接建立所述输入层和所述第一隐藏层之间的连接,所述隐藏层神经元与所述输入神经元存在连接边;在建立完成时,执行所述基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息的步骤。
[0069]
需要说明的是,上述细胞系特征提取网络可以为对肿瘤细胞系对应的细胞系特征进行提取的网络,本实施例对细胞系特征提取网络具体的网络类型不做限制。
[0070]
应当理解的是,细胞系特征提取网络中可以设置有输入层和第一隐藏层,其中,输入层的每个神经元(即上述输入神经元)对应肿瘤细胞系对应的基因水平多组学信息,如基因的突变情况、拷贝数扩增和拷贝数删失等。在第一隐藏层中,第一隐藏层中的一个神经元(即上述隐藏层神经元)对应一个基因,并且该神经元可以与输入层中对应基因水平多组学信息的神经元存在连接边。因此,通过将第一隐藏层中的隐藏层神经元与输入层的输入神经元之间建立一一对应的神经元连接,就可以实现输入层和第一隐藏层之间的连接。
[0071]
可以理解的是,细胞系特征提取网络中还可以设置有第二隐藏层,其中,第二隐藏层中的每个神经元对应一条生物通路,该神经元也仅仅与对应的生物通路的基因存在连接边。
[0072]
在具体实现中,本实施例可以通过基因与生物通路之间的连接关系自定义细胞系特征提取网络中相应神经元之间的连接边,在细胞系特征提取网络的向前传播过程中就可以将多个基因的信息聚集至对应的生物通路中。此外,为了避免细胞系特征提取网络在训练过程中出现过拟合现象,本实施例可以为输入层、第一隐藏层和第二隐藏层均匹配
dropout层(p=0.25)和batchnorm层,并使用relu(x)=max(x,0)对神经元特征进行非线性转换,从而可以在充分利用先验生物学信息的同时对细胞系特征提取网络中的模型结构进行稀疏化。
[0073]
步骤s30:获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征。
[0074]
需要说明的是,上述待预测药物可以为本实施例中进行药物活性预测的具有抗肿瘤功效的药物,如抗肿瘤药物nhwd-870(一种bet抑制剂)。实际应用中,若待预测药物为nhwd-870,则上述肿瘤细胞系对应为肺鳞癌细胞系和肺腺癌细胞系,即本实施例的方法可以预测抗肿瘤药物nhwd-870对肺鳞癌和肺腺癌的活性。
[0075]
可以理解的是,上述药物化学结构信息可以为各药物的药物化学结构对应的信息。其中,药物化学结构可以为表示药物中的化合物(或单质)分子中原子的排列和结合方式的结构,本实施例对药物化学结构信息的具体获取方式不做限制。
[0076]
应当理解的是,上述线性规范字符串可以为表征药物化学结构的字符串,本实施例对字符串的具体类型不加以限制。
[0077]
在具体实现中,可以预先基于各药物的线性规范字符串和各药物对应的药物结构特征,训练一个对抗肿瘤药物对应的药物特征进行提取的药物特征提取模型,在获取到本实施例中的待预测药物对应的药物化学结构信息后,可以将药物化学结构信息中药物化学结构对应的线性规范字符串输入值训练好的药物特征提取模型中,以输出待预测药物对应的药物结构特征。
[0078]
步骤s40:基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值。
[0079]
需要说明的是,上述药物活性预测模型可以为对药物的活性进行预测的模型,本实施例可以通过药物对应的药物细胞系活性预测值预测药物治疗对应细胞系的活性,且药物活性预测模型可以为预先训练完成的bio-sdcr模型。实际应用中,可以将gdsc数据库中的药物和细胞系按照6:2:2随机划分成训练集、验证集和测试集。其中,训练集的样本数据用于更新bio-sdcr模型的参数;验证集的样本数据用于执行提前停止策略(early stopping);测试集样本用于评估bio-sdcr模型的预测性能。
[0080]
可以理解的是,上述药物细胞系活性预测值可以为预测待预测药物对应细胞系的活性的值,即通过待预测药物的药物细胞系活性预测值可以识别待预测药物对不同肿瘤患者的治疗效果。
[0081]
进一步地,所述步骤s40具体可以包括:对所述细胞系特征和所述药物结构特征进行特征拼接,获得拼接特征;将所述拼接特征输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物细胞系活性预测值,所述药物活性预测模型的隐藏层中设置有规范神经网络层和线性整流激活函数。
[0082]
应当理解的是,上述拼接特征可以为对肿瘤细胞系对应的细胞系特征和待预测药物对应的药物结构特征进行拼接后获得的特征。
[0083]
可以理解的是,上述规范神经网络层可以为用于加速收敛,提高泛化能力,即防止过拟合的网络层,如batchnorm层。相应的,上述线性整流激活函数可以为用于增加神经网络模型的非线性的函数,如relu激活函数。实际应用中,在药物活性预测模型的隐藏层中设
置有规范神经网络层可以防止药物活性预测模型中出现过拟合现象,影响模型预测的准确率。相应的,设置线性整流激活函数可以对药物活性预测模型中的神经元特征进行非线性转换,提高模型的数据处理效率。
[0084]
需要说明的是,在训练获得药物活性预测模型(bio-sdcr模型)后,可以使用训练所得的最佳bio-sdcr模型对上述测试集样本中药物-细胞系对的药物细胞系活性预测值进行预测,并将预测获得的药物细胞系活性预测值与真实值进行比较,其中,本实施例中的评价标准可以为rmse,r2,pearson相关系数(r)和spearman相关系数(rs)。同时,还可以比较bio-sdcr模型与传统机器学习模型随机森林(random forest,rf),岭回归(ridge regression)和lasso回归(lasso regression)的性能差异,从而实现对bio-sdcr模型的预测性能进行评估,提升bio-sdcr模型预测的药物细胞系活性预测值的有效性。
[0085]
在具体实现中,在获取到肿瘤细胞系对应的细胞系特征和待预测药物对应的药物结构特征后,可以对细胞系特征和药物结构特征进行特征拼接,获得拼接后的拼接特征,并将拼接特征输入至预先训练好的药物活性预测模型中,以使药物活性预测模型输出待预测药物的药物细胞系活性预测值,对待预测药物的活性进行预测。
[0086]
本实施例公开了基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;将基因水平多组学信息聚集至对应的目标生物通路,以获取肿瘤细胞系对应的细胞系特征;获取待预测药物的药物化学结构信息,并基于药物化学结构信息中药物化学结构对应的线性规范字符串获取待预测药物的药物结构特征;基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值;由于本实施例将肿瘤细胞系的基因水平多组学信息聚集至对应的目标生物通路获取对应的细胞系特征,并基于药物化学结构对应的线性规范字符串获取药物结构特征,再基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值,从而解决了现有技术中精准治疗方式不能准确识别靶向抗肿瘤药物对肿瘤患者的疗效的技术问题。
[0087]
参考图3,图3为本发明药物活性预测方法第二实施例的流程示意图。
[0088]
基于上述第一实施例,本实施例中,所述步骤s20之前,所述方法还包括:
[0089]
步骤s021:获取所述肿瘤细胞系对应的训练集样本,并确定所述训练集样本中各训练样本对应的目标基因。
[0090]
需要说明的是,上述训练样本集可以为用于提取肿瘤细胞系对应的细胞系特征的样本的集合。
[0091]
相应的,所述步骤s20包括:步骤s201:将所述基因水平多组学信息聚集至对应的目标生物通路。
[0092]
步骤s202:基于所述目标基因、所述基因水平多组学信息和所述目标生物通路构建细胞系特征图。
[0093]
应当理解的是,上述细胞系特征图可以为基于肿瘤细胞系对应的基因水平多组学信息构建的,用于表征肿瘤细胞系的基因和生物通路之间关系的图形。
[0094]
进一步地,为了构建肿瘤细胞系对应的细胞系特征图,所述步骤s202具体可以包括:根据所述基因水平多组学信息确定所述目标基因和所述目标生物通路之间的节点连接关系;基于所述节点连接关系构建所述目标基因和所述目标生物通路之间的连接边,并根据所述连接边构建细胞系特征图。
[0095]
可以理解的是,上述节点连接关系可以为基因对应的节点和生物通路对应的节点之间的连接关系。
[0096]
在具体实现中,可以将训练集样本中各训练样本对应的目标基因作为细胞系特征图的节点,并通过基因水平多组学信息获取目标基因之间的生物通路信息,即确定节点和生物通路之间的节点连接关系,当多种基因同时出现某一通路时,则可以对这些基因对应的节点之间构建一条边作为基因和生物通路之间的连接边,从而可以通过构建各训练样本对应的基因和生物通路之间的连接边构建细胞系特征图。
[0097]
步骤s203:通过所述细胞系特征图获取所述肿瘤细胞系对应的细胞系特征。
[0098]
需要说明的是,在完成细胞系特征图的构建后,就可以根据细胞系特征图中基因与生物通路之间的连接关系从细胞系特征图中提取肿瘤细胞系在生物通路水平上的细胞系特征。
[0099]
进一步地,为了对药物活性预测模型进行更新,以提升药物活性预测模型预测结果的准确性,所述步骤s40之后,所述方法还包括:基于所述训练集样本的样本数量、所述药物细胞系活性预测值和药物细胞系活性标准值,通过预设损失计算公式确定均方误差损失;根据所述均方误差损失和学习率对所述药物活性预测模型进行更新;其中,所述预设损失计算公式为:
[0100][0101]
式中,为所述均方误差损失,n为所述样本数量,为所述药物细胞系活性预测值,yi为所述药物细胞系活性标准值。
[0102]
应当理解的是,本实施例可以将肿瘤细胞系对应的细胞系特征和待预测药物的药物结构特征输入至药物活性预测模型(使用f
θ
表示)中,以使药物活性预测模型输出待预测药物的药物细胞系活性预测值
[0103][0104]
式中,x
cell
为基因水平多组学信息,x
drug
为从线性规范字符串得到的摩根分子指纹构成的矩阵。
[0105]
可以理解的是,上述药物细胞系活性标准值可以为表征待预测药物的活性的真实值。实际应用中,在通过预设损失计算公式计算获得药物细胞系活性预测值和药物细胞系活性标准值之间的均方误差损失后,可以使用基于梯度下降算法的反向传播过程对药物活性预测模型中的参数θ进行更新:
[0106][0107]
式中,η为所述学习率,其取值可以为0.01。
[0108]
实际应用中,为了使药物活性预测模型bio-sdcr模型在训练过程中能够迅速收敛,可以使用固定步长衰减策略动态调整学习率,也即每隔30个训练轮次,学习率变为原来的0.5。同时,训练过程中还可以采用提前停止策略,以验证集样本上药物细胞系活性标准值和药物细胞系活性预测值的pearson相关系数r作为标准,当r连续50次不提高时停止对
药物活性预测模型的训练。
[0109]
本实施例通过将基因水平多组学信息聚集至对应的目标生物通路,基于肿瘤细胞系对应的训练集样本中各训练样本对应的目标基因、基因水平多组学信息和目标生物通路构建细胞系特征图,并通过细胞系特征图获取肿瘤细胞系对应的细胞系特征,从而可以准确获取肿瘤细胞系对应的细胞系特征。同时,根据药物细胞系活性预测值和药物细胞系活性标准值之间的均方误差损失和学习率对药物活性预测模型进行更新,从而可以提升药物活性预测模型预测结果的准确性。
[0110]
参考图4,图4为本发明药物活性预测方法第三实施例的流程示意图。
[0111]
基于上述各实施例,为了准确获取待预测药物的药物结构特征,本实施例中,所述步骤s30包括:
[0112]
步骤s301:获取待预测药物的药物化学结构信息,并对所述药物化学结构信息中药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列。
[0113]
需要说明的是,本实施例可以通过模态转换方式对药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列。其中,药物分子指纹可以为通过比特串表示的药物分子结构,药物分子序列可以为通过字符串表示的药物分子结构,如smiles表达式等。
[0114]
步骤s302:基于所述药物分子指纹和所述药物分子序列获取所述待预测药物对应的分子特征向量。
[0115]
应当理解的是,针对药物分子指纹和药物分子序列,本实施例可以采用对应的特征提取的方式分别对药物分子指纹和药物分子序列进行特征提取,以获得药物分子指纹对应的药物分子指纹特征向量,以及药物分子序列对应的药物分子序列特征向量。同时,再对药物分子指纹特征向量和药物分子序列特征向量进行融合,以获得融合后的分子特征向量。
[0116]
可以理解的是,对于药物分子序列,还可以统计每个smiles字符串的字符位置以构建药物小分子特征向量。但由于融合后的分子特征向量相较于物小分子特征向量更加完备、充分,从而可以使获得的待预测药物的药物结构特征更准确。
[0117]
步骤s303:将所述分子特征向量输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物结构特征。
[0118]
在具体实现中,首先可以对待预测药物的药物化学结构信息中药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列,并通过特征提取方式获取药物分子指纹对应的药物分子指纹特征向量,以及药物分子序列对应的药物分子序列特征向量,并对药物分子指纹特征向量和药物分子序列特征向量进行融合,以获得融合后的分子特征向量,再将分子特征向量输入至药物活性预测模型,以获得待预测药物的药物结构特征。
[0119]
本实施例通过对待预测药物的药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列,并基于药物分子指纹和药物分子序列获取待预测药物对应的分子特征向量,再将分子特征向量输入至药物活性预测模型以输出待预测药物的药物结构特征,从而可以使获得的待预测药物的药物结构特征更准确。
[0120]
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有药物活性预测
程序,所述药物活性预测程序被处理器执行时实现如上文所述的药物活性预测方法的步骤。
[0121]
参照图5,图5为本发明药物活性预测装置第一实施例的结构框图。
[0122]
如图5所示,本发明实施例提出的药物活性预测装置包括:
[0123]
多组学信息获取模块501,用于基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;
[0124]
细胞系特征获取模块502,用于将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征;
[0125]
药物结构特征获取模块503,用于获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征;
[0126]
预测值确定模块504,用于基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值。
[0127]
进一步地,所述药物活性预测方法基于细胞系特征提取网络实现,所述细胞系特征提取网络中设置有输入层和第一隐藏层;所述多组学信息获取模块501,还用于将所述基因水平多组学信息与所述输入层的输入神经元之间建立连接关系;通过所述第一隐藏层的隐藏层神经元与所述输入神经元建立神经元连接,以通过所述神经元连接建立所述输入层和所述第一隐藏层之间的连接,所述隐藏层神经元与所述输入神经元存在连接边;在建立完成时,执行所述基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息的步骤。
[0128]
进一步地,所述预测值确定模块504,还用于对所述细胞系特征和所述药物结构特征进行特征拼接,获得拼接特征;将所述拼接特征输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物细胞系活性预测值,所述药物活性预测模型的隐藏层中设置有规范神经网络层和线性整流激活函数。
[0129]
本实施例的药物活性预测装置公开了基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;将基因水平多组学信息聚集至对应的目标生物通路,以获取肿瘤细胞系对应的细胞系特征;获取待预测药物的药物化学结构信息,并基于药物化学结构信息中药物化学结构对应的线性规范字符串获取待预测药物的药物结构特征;基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值;由于本实施例将肿瘤细胞系的基因水平多组学信息聚集至对应的目标生物通路获取对应的细胞系特征,并基于药物化学结构对应的线性规范字符串获取药物结构特征,再基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值,从而解决了现有技术中精准治疗方式不能准确识别靶向抗肿瘤药物对肿瘤患者的疗效的技术问题。
[0130]
基于本发明上述药物活性预测装置第一实施例,提出本发明药物活性预测装置的第二实施例。
[0131]
在本实施中,所述细胞系特征获取模块502,还用于获取所述肿瘤细胞系对应的训练集样本,并确定所述训练集样本中各训练样本对应的目标基因;将所述基因水平多组学信息聚集至对应的目标生物通路;基于所述目标基因、所述基因水平多组学信息和所述目
标生物通路构建细胞系特征图;通过所述细胞系特征图获取所述肿瘤细胞系对应的细胞系特征。
[0132]
进一步地,所述细胞系特征获取模块502,还用于根据所述基因水平多组学信息确定所述目标基因和所述目标生物通路之间的节点连接关系;基于所述节点连接关系构建所述目标基因和所述目标生物通路之间的连接边,并根据所述连接边构建细胞系特征图。
[0133]
进一步地,所述预测值确定模块504,还用于基于所述训练集样本的样本数量、所述药物细胞系活性预测值和药物细胞系活性标准值,通过预设损失计算公式确定均方误差损失;根据所述均方误差损失和学习率对所述药物活性预测模型进行更新;其中,所述预设损失计算公式为:
[0134][0135]
式中,为所述均方误差损失,n为所述样本数量,为所述药物细胞系活性预测值,yi为所述药物细胞系活性标准值。
[0136]
本实施例通过将基因水平多组学信息聚集至对应的目标生物通路,基于肿瘤细胞系对应的训练集样本中各训练样本对应的目标基因、基因水平多组学信息和目标生物通路构建细胞系特征图,并通过细胞系特征图获取肿瘤细胞系对应的细胞系特征,从而可以准确获取肿瘤细胞系对应的细胞系特征。同时,根据药物细胞系活性预测值和药物细胞系活性标准值之间的均方误差损失和学习率对药物活性预测模型进行更新,从而可以提升药物活性预测模型预测结果的准确性。
[0137]
基于上述各装置实施例,提出本发明药物活性预测装置的第三实施例。
[0138]
在本实施例中,所述药物结构特征获取模块503,还用于获取待预测药物的药物化学结构信息,并对所述药物化学结构信息中药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列;基于所述药物分子指纹和所述药物分子序列获取所述待预测药物对应的分子特征向量;将所述分子特征向量输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物结构特征。
[0139]
本实施例通过对待预测药物的药物化学结构对应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列,并基于药物分子指纹和药物分子序列获取待预测药物对应的分子特征向量,再将分子特征向量输入至药物活性预测模型以输出待预测药物的药物结构特征,从而可以使获得的待预测药物的药物结构特征更准确。
[0140]
本发明药物活性预测装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
[0141]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0142]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0143]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方
法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0144]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种药物活性预测方法,其特征在于,所述药物活性预测方法包括:基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征;获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征;基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值。2.如权利要求1所述的药物活性预测方法,其特征在于,所述将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征的步骤之前,还包括:获取所述肿瘤细胞系对应的训练集样本,并确定所述训练集样本中各训练样本对应的目标基因;相应的,所述将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征的步骤,包括:将所述基因水平多组学信息聚集至对应的目标生物通路;基于所述目标基因、所述基因水平多组学信息和所述目标生物通路构建细胞系特征图;通过所述细胞系特征图获取所述肿瘤细胞系对应的细胞系特征。3.如权利要求2所述的药物活性预测方法,其特征在于,所述基于所述目标基因、所述基因水平多组学信息和所述目标生物通路构建细胞系特征图的步骤,包括:根据所述基因水平多组学信息确定所述目标基因和所述目标生物通路之间的节点连接关系;基于所述节点连接关系构建所述目标基因和所述目标生物通路之间的连接边,并根据所述连接边构建细胞系特征图。4.如权利要求1所述的药物活性预测方法,其特征在于,所述药物活性预测方法基于细胞系特征提取网络实现,所述细胞系特征提取网络中设置有输入层和第一隐藏层;相应的,所述基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息的步骤之前,还包括:将所述基因水平多组学信息与所述输入层的输入神经元之间建立连接关系;通过所述第一隐藏层的隐藏层神经元与所述输入神经元建立神经元连接,以通过所述神经元连接建立所述输入层和所述第一隐藏层之间的连接,所述隐藏层神经元与所述输入神经元存在连接边;在建立完成时,执行所述基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息的步骤。5.如权利要求1所述的药物活性预测方法,其特征在于,所述获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征的步骤,包括:获取待预测药物的药物化学结构信息,并对所述药物化学结构信息中药物化学结构对
应的线性规范字符串进行转换,获得药物分子指纹和药物分子序列;基于所述药物分子指纹和所述药物分子序列获取所述待预测药物对应的分子特征向量;将所述分子特征向量输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物结构特征。6.如权利要求2所述的药物活性预测方法,其特征在于,所述基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值的步骤之后,还包括:基于所述训练集样本的样本数量、所述药物细胞系活性预测值和药物细胞系活性标准值,通过预设损失计算公式确定均方误差损失;根据所述均方误差损失和学习率对所述药物活性预测模型进行更新;其中,所述预设损失计算公式为:式中,为所述均方误差损失,n为所述样本数量,为所述药物细胞系活性预测值,y
i
为所述药物细胞系活性标准值。7.如权利要求1所述的药物活性预测方法,其特征在于,所述基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值的步骤,包括:对所述细胞系特征和所述药物结构特征进行特征拼接,获得拼接特征;将所述拼接特征输入至药物活性预测模型,以使所述药物活性预测模型输出所述待预测药物的药物细胞系活性预测值,所述药物活性预测模型的隐藏层中设置有规范神经网络层和线性整流激活函数。8.一种药物活性预测装置,其特征在于,所述装置包括:多组学信息获取模块,用于基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;细胞系特征获取模块,用于将所述基因水平多组学信息聚集至对应的目标生物通路,以获取所述肿瘤细胞系对应的细胞系特征;药物结构特征获取模块,用于获取待预测药物的药物化学结构信息,并基于所述药物化学结构信息中药物化学结构对应的线性规范字符串获取所述待预测药物的药物结构特征;预测值确定模块,用于基于所述细胞系特征和所述药物结构特征,通过药物活性预测模型确定所述待预测药物的药物细胞系活性预测值。9.一种药物活性预测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的药物活性预测程序,所述药物活性预测配置为实现如权利要求1至7中任一项所述的药物活性预测方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有药物活性预测程序,所述药物活性预测程序被处理器执行时实现如权利要求1至7任一项所述的药物活性预测方法的步骤。
技术总结
本发明公开了一种药物活性预测方法、装置、设备及存储介质,该方法包括:基于预设基因组数据库获取肿瘤细胞系对应的基因水平多组学信息;将基因水平多组学信息聚集至对应的目标生物通路,以获取肿瘤细胞系对应的细胞系特征;获取待预测药物的药物化学结构信息,并基于药物化学结构信息中药物化学结构对应的线性规范字符串获取待预测药物的药物结构特征;基于细胞系特征和药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值。本发明基于肿瘤细胞系的细胞系特征和待预测药物药物结构特征,通过药物活性预测模型确定待预测药物的药物细胞系活性预测值,从而可以准确识别靶向抗肿瘤药物对肿瘤患者的疗效。效。效。
技术研发人员:李康 张刘超 嵇建鑫 王柳滢 王鹤淞 宋永振 王萌 李爽 张萱
受保护的技术使用者:哈尔滨医科大学
技术研发日:2023.06.05
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
