一种基于混合关系网络的小样本分子性质预测方法
未命名
08-15
阅读:113
评论:0
1.本发明主要涉及小样本分子性质预测方法,尤其涉及基于混合关系网络的小样本分子性质预测的方法。
背景技术:
2.药物发现是一项重要的生物医学任务,旨在寻找所需性质的新型潜在化合物,例如更好帮助人体吸收、分布、代谢和排泄(adme),低毒性和药理活性。据记录,发现一种新药平均需要花费至少10年的时间,而临床成功率约为10%。为了加快这一过程,许多工作使用深度学习的方法来建立分子结构与特定性质之间的关系。分子性质预测模型通常由两个组件组成:一个分子编码器,它将分子结构编码为固定长度的分子表征;一个预测器,它根据分子表征估计分子某种性质的活性。然后可以在虚拟筛选中,科研人员使用预测模型来更有效地发现潜在分子。
3.但是,分子性质预测本质上是一个小样本问题。因为分子的潜在化学空间巨大,共享同一性质的分子数量特别少,在经过一系列的化学湿实验,大多数候选分子因没有预期目标性质而被筛选掉,最终只有一小部分的分子通过筛选保留下来。目前,在小样本学习领域,大多数工作引入图结构学习方法来解决已有标签分子数据稀少的问题。但是它们都忽略了一个事实:具有相同性质的分子,不同化学结构的分子会表现出或强或弱的活性。所以,基于某一性质的分子之间相似性是一个概率值,而不是一个逻辑值(0/1)。如果单纯将基于某一性质分子间的关系建模为逻辑关系,会导致模型不能精准构建分子关系,在聚合相似分子之间的信息时,会聚合一些虚假相关信息,错过一些真实相关信息。
4.因此,在小样本分子性质预测任务中,如何精确地构建基于某一性质分子之间的关系,以此优化分子表征,实现标签传播是一个亟待解决的技术问题。
技术实现要素:
5.为了解决现有技术的不足,本发明提供了一种基于混合关系网络的小样本分子性质预测的方法。
6.分子性质有强有弱,因此基于某一性质,分子之间关系应该是一个概率值,而不应该是一个逻辑值(0/1)。本发明从这一点出发对基于某一性质分子间的关系进行建模。首先,在每个任务中,本发明使用图神经网络和类原型学习方法来学习一个性质感知的分子表征,同时,将分子视为节点,性质感知的分子表征向量视为节点特征,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个性质感知的分子表征之间的相似性来构建性质感知的二维分子关系图。此外,使用分子与数据集其他分子之间关系来学习一个分子分布关系图,同理,将分子视为节点,分子分布表征向量视为节点特征,以任务中每个分子实例作为节点,两个节点之间边的权重为分子分布表征向量之间相似性来构建分子分布关系图。然后使用二维分子关系图和分子分布关系图构建混合关系网络模块来融合不同关系图内特有的分子关系。本发明使用真实数据标签和基于化学领域知识的分子拓扑指纹知识
构成一个混合先验关系图模块来约束模型的优化,进而实现标签传播,更好地实现分子性质预测。
7.本发明的目的通过以下技术方案来实现:
8.一种基于混合关系网络的小样本分子性质预测方法,其步骤如下:
9.s1:将分子smiles和相对应的标签数据按照预定义的小样本分子性质预测任务中样本集分割为n
t
个分子性质预测任务每个任务都是一个2-way k-shot的分类任务,包含一个支持集和查询集;任务可以分为训练任务和测试任务,训练任务用于学习模型的初始化参数,测试任务用于测试模型的性能;
10.s2:在每个任务上,首先使用rdkit工具和图神经网络gin利用smiles和标签信息来分别生成表示分子实例之间不同关系的三个关系图结构:基于性质感知的二维分子关系图、分子分布关系图和混合先验关系图,构建混合关系网络模型和混合先验关系图,然后在混合先验关系图的约束下对混合关系网络模型进行学习,最终得到具有丰富语义的分子表征向量用于分子性质预测,实现标签有效传播;
11.s3:最后,将s2中优化后的二维分子关系图中的分子表征向量和分子分布关系图中的分子分布表征向量拼接在一起,输入到分类器中预测分子的性质,计算预测损失作为实例分类任务的损失并优化混合关系网络模型的参数,以提高分子性质预测的准确率;
12.s4:在元学习框架下,元网络在训练任务上重复以上s1~s3步骤,进行元学习的训练,让混合关系网络模型学习到“先验知识”,即混合关系网络模型初始化的参数,然后将初始化后的元网络应用到测试任务上,使用测试任务中的支持集对元网络的参数进行微调,最后使用微调之后的混合关系网络模型在测试任务中的查询集上进行测试;将通过测试的混合关系网络模型用于进行实际的分子性质预测。
13.作为优选,所述s2的具体实现方法如下:
14.s21:首先,使用rdkit工具将每个分子smiles转化为二维分子图结构,使用gin和类原型学习网络为原始编码器模型,通过gin得到一个基于二维图结构的通用分子表征向量,然后在类原型学习网络中将通用分子表征向量和类原型拼接后通过注意力机制获得性质感知的分子表征向量;以每个分子为一个节点,性质感知的分子表征向量为节点特征,两个节点之间边的权重为两个分子表征向量之间的相似性,构造一个性质感知的二维分子关系图;
15.s22:然后,使用每个任务的支持集中已有的实例标签信息,对任务中每个分子实例和支持集中所有的分子实例之间的关系进行建模得到分子实例的标签分布,作为该分子实例的分布表征向量,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子实例的标签分布的相似性,构建每个任务对应的分子分布关系图;
16.s23:再后,使用rdkit工具得到任务中每个分子的基于化学领域知识的分子拓扑指纹作为分子指纹表征,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子拓扑指纹的相似性,来构造分子指纹关系图;使用已有的分子性质标签作为分子表征向量,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子性质标签之间的相似性,来构造真实标签关系图;然后,将分子指纹关系图和真实标签关系图的相似性矩阵进行对位元素加和平均,从而实现信息相互融合,最终构成混合先验关系图;
17.s24:在得到二维分子关系图和分子分布关系图后,将这两个关系图用于构建混合
关系网络模型;首先,利用二维分子关系图中性质感知的分子表征向量来计算得到相似性矩阵,相似性矩阵中每个数值代表两个性质感知的分子表征向量之间的相似性,然后用该相似性矩阵来聚合更新分子分布关系图中的分子分布表征向量,利用更新过后的分子分布表征向量计算代表分子分布之间相似性的相似性矩阵,然后再使用该相似性矩阵来聚合更新二维分子关系图,如此循环更新二维分子关系图和分子分布关系图,得到优化后的二维分子关系图和分子分布关系图;
18.s25:在得到优化后的二维分子关系图和分子分布关系图后,分别计算得到各自对应的相似性矩阵;然后,计算混合先验关系图的相似性矩阵,使用二维分子关系图的相似性矩阵和混合先验关系图的相似性矩阵构建正则项来约束混合关系网络模型学习正确且有效的分子关系图,提升混合关系网络模型的预测性能。
19.作为优选,所述s2中,rdkit工具将smiles转化为二维分子图,然后以图神经网络gin为基础编码器,使用基础编码器gin对二维分子图进行编码,得到通用分子表征向量,每一性质标签类别对该类别分子的通用分子表征向量进行平均值计算从而得到类原型,然后将通用分子表征向量和类原型拼接后通过注意力机制得到性质感知的分子表征向量;以任务中的每个分子为节点,性质感知的分子表征向量为节点特征,构建二维分子关系图,其中性质感知的分子表征向量记为分子表征向量之间的相似性记为使用分子的标签分布来构建分子分布关系图,其中分子标签分布记为分子标签分布之间的相似性记为以rdkit工具中拓扑指纹生成函数对分子smiles处理后得到的分子拓扑指纹作为分子表征向量,构建基于化学领域知识的分子指纹关系图,其中分子拓扑指纹记为分子拓扑指纹之间的相似性记为使用真实分子标签之间的关系来构建真实标签关系图,其中真实分子标签记为真实分子标签之间相似性记为
20.作为优选,所述s21中,二维分子关系图的构建方式如下:
21.通过rdkit工具对输入的分子smiles数据x
τ,i
进行处理,转化为二维分子图的形式,利用基础编码器gin对二维分子图进行编码并作为分子表征向量g
τ,i
,然后把支持集中每一性质标签类别对应的分子表征向量g
τ,i
以加和求平均的方式得到每类性质标签的类原型计算公式如下:
[0022][0023]
其中,第τ个任务中性质标签类别为c的样本集合为其中,第τ个任务中性质标签类别为c的样本集合为且y
τ,i
=c},表示分子性质标签的类别,c=0或1,τ表示第τ个任务,x
τ,i
为分子实例的smiles,y
τ,i
为分子实例的待预测性质对应的二分类标签;
[0024]
然后,将每个分子表征向量和所有的类原型进行拼接,通过注意力机制来求出性质感知的分子表征向量m
τ,i
:
[0025][0026]
其中,g
τ,i
表示分子表征向量,表示标签类别为0的所
有分子的类原型,表示标签类别为1的所有分子的类原型,dg表示分子表征向量的维度;
[0027]
然后,使用多层感知机来压缩性质感知的分子表征向量:
[0028][0029]
其中,w
τ,r
是多层感知机mlp的参数;
[0030]
将任务中的每个分子视为一个节点,压缩后的性质感知的分子表征向量s
τ,i
视为初始的节点特征来构建二维分子关系图,整个二维分子关系图是全连接图,每条边的权重表示该边对应的两个节点之间的相似性,在第l轮循环时边的权重计算公式如下:
[0031][0032]
其中,是多层感知机mlp的参数,和分别为第l轮循环时第i个节点和第j个节点的节点特征,是相似性矩阵,是中坐标为(i,j)的元素,代表第i个节点和第j个节点之间的相似性;得到相似性矩阵后,再将的每一排数值分别进行0-1归一化。
[0033]
作为优选,所述s22中,分子分布关系图是通过引入分布学习来构建,具体为:首先,对所有分子实例的性质标签进行编码,支持集和查询集中分子实例的编码规则不同;支持集的分子实例的分布是通过对分子和支持集中所有分子实例之间的关系进行建模,若两个分子实例间的性质标签相同,对应位置设置为1;若两个分子实例间的性质标签不同,对应位置设置为0;查询集的分子实例因其性质标签未知,因此全部初始化为一个初始值,这个初始值是和支持集的分子实例数量有关的平均值;将任务中的所有分子视为分子分布关系图中的节点,初始化分子分布关系图中分子实例的节点特征如下:
[0034][0035]
其中,第τ个任务中第i个节点的初始节点特征k表示一个性质标签类别中的分子实例数量,||表示拼接操作,y
τ,i
和y
τ,j
分别表示第i个节点和第j个节点的性质标签;δ(
·
)是克罗内克函数,当y
τ,i
=y
τ,j
,输出结果为1,否则输出结果为0;
[0036]
然后,根据初始化的节点特征来计算得到分子分布关系图的相似性矩阵计算公式如下:
[0037][0038]
其中,是多层感知机mlp的可学习的参数;是中坐标为(i,j)的元素,代表第i个节点和第j个节点之间标签分布的相似性;在得到后,对中每一排的数值进行0-1归一化;在计算得到分子分布关系图的节点特征和相似性矩阵后,以此构建分子分布关系图。
[0039]
作为优选,所述s23中,构建分子指纹关系图采用的分子指纹为分子拓扑指纹,它是从一个分子出发直至设定数量键的路径上所有的分子片段,然后对每个路径进行哈希计
算产生指纹;通过分子拓扑指纹来表示基于化学领域知识的分子表征向量,然后使用tanimoto系数求解公式来计算分子间基于化学领域知识的关系,计算公式如下:
[0040][0041]
其中,表示分子指纹关系图的相似性矩阵中坐标为(i,j)的元素,代表第i个节点和第j个节点之间分子拓扑指纹的相似性,a和b分别代表第i个节点的分子拓扑指纹和第j个节点的分子拓扑指纹中比特值为1的数目,c代表两个分子拓扑指纹和中同一位置的比特值同时为1的数目;以任务中的每个分子为节点,分子拓扑指纹为节点特征,tanimoto系数为节点之间边的权重,以此构建分子指纹关系图;
[0042]
而真实标签关系图表示的是分子之间的真实逻辑关系,两个分子之间的性质标签相同为1,性质标签不同为0;
[0043]
通过将分子指纹关系图和真实标签关系图融合,得到混合先验关系图来约束混合关系网络模型的优化;分子指纹关系图和真实标签关系图融合过程如下:
[0044][0045]
其中,是混合先验关系图的相似性矩阵,是中坐标为(i,j)的元素,是分子指纹关系图的相似性矩阵中坐标为(i,j)的元素,是真实标签关系图的相似性矩阵中坐标为(i,j)的元素。
[0046]
作为优选,所述s4的混合关系网络中,使用二维分子关系图中的相似性矩阵来更新分子分布关系图中的节点特征,第l轮的更新公式如下:
[0047][0048]
其中,是可学习的参数;
[0049]
在更新得到分子分布关系图中的节点特征后,使用更新后的分子分布关系图的节点特征来计算更新分子分布关系图的相似性矩阵计算公式如下:
[0050][0051]
其中,是多层感知机mlp可学习的参数;
[0052]
然后,应用softmax函数作用在上的每一行,将每行的数值归一化为0到1之间的数值;
[0053]
再后,在得到更新后的分子分布关系图的相似性矩阵基础上,用来更新二维分子关系图的节点特征计算公式如下:
[0054][0055]
其中,是可学习的参数;
[0056]
在更新得到二维分子关系图的节点表征后,使用其更新二维分子关系图的相似性矩阵
[0057][0058]
其中,是多层感知机mlp中可学习的参数;
[0059]
然后,应用softmax函数作用在上的每一行,将每行的数值归一化为0到1之间的数值;
[0060]
所述混合关系网络模型设计为2层,整个混合关系网络模型中第l层的更新顺序如下:l初始为0。
[0061]
作为优选,将两个关系图中增强后的分子表征向量拼接在一起,计算公式如下:
[0062][0063]
在获得拼接后的分子表征向量后,输入到分类器中预测分子性质类别,公式如下:
[0064][0065]
其中,wc是可学习的参数;
[0066]
再根据分类器输出的分子性质类别以及真实的分子性质类别标签,计算预测损失作为实例分类任务的损失,并通过优化器优化混合关系网络模型的参数,以提高分子性质预测的准确率。
[0067]
作为优选,所述预测损失采用交叉熵损失,且使用混合先验关系图来约束二维分子关系图的相似性矩阵的学习,计算公式如下:
[0068][0069]
混合关系网络模型训练的总损失为:
[0070][0071]
其中,λ是可学习的参数。
[0072]
作为优选,所述元学习框架采用maml。
[0073]
相对于现有技术相比,本发明的的有益效果如下:
[0074]
和现有技术相比,本发明通过将应用双图关系网络框架来融合二维分子关系图和分子分布关系图的信息,充分学习一个混合知识指导的分子表征用来做分子性质预测任务。而且,本发明能够利用现有的化学领域的知识和真实标签信息来构建混合先验关系图来约束混合关系网络模型的学习和分子表征的优化,可以提高分子性质预测的准确率。
附图说明
[0075]
图1为一种基于混合关系网络的小样本分子性质预测方法的步骤示意图;
[0076]
图2为本发明的二维分子关系图的框架图;
[0077]
图3为本发明的分子分布关系图的框架图;
[0078]
图4为本发明的混合先验关系图的框架图;
[0079]
图5为本发明的混合关系网络框架图。
具体实施方式
[0080]
下面结合附图和具体实施例对本发明做进一步阐述和说明。
[0081]
如图1所示,在本发明的一个较佳实例中,提供了一种基于混合关系网络的小样本分子性质预测方法,其中待预测的分子性质可以是分子的某种毒性、药理活性等性质。该预测方法的具体步骤如s1~s4所示:
[0082]
s1:将分子smiles和相对应的标签数据按照预定义的小样本分子性质预测任务中样本集分割为n
t
个分子性质预测任务(以下简称任务),每个任务都是一个2-way k-shot的分类任务,包含一个支持集和查询集;任务可以分为训练任务和测试任务,训练任务用于学习模型的初始化参数,测试任务用于测试模型的性能。
[0083]
在本发明的实施例中,上述2-way k-shot主要采用2-way 1-shot和2-way10-shot。
[0084]
s2:在每个任务上,首先使用rdkit工具和图神经网络gin利用smiles和标签信息来分别生成表示分子实例之间不同关系的三个关系图结构:基于性质感知的二维分子关系图、分子分布关系图和混合先验关系图,构建混合关系网络模型和混合先验关系图,然后在混合先验关系图的约束下对混合关系网络模型进行学习,最终得到具有丰富语义的分子表征向量用于分子性质预测,实现标签有效传播。
[0085]
在本发明的实施例中,上述步骤s2的具体实现方法如下:
[0086]
s21:首先,使用rdkit工具将每个分子smiles转化为二维分子图结构,使用gin和类原型学习网络为原始编码器模型,通过gin得到一个基于二维图结构的通用分子表征向量,然后在类原型学习网络中将通用分子表征向量和类原型拼接后通过注意力机制获得性质感知的分子表征向量;以每个分子为一个节点,性质感知的分子表征向量为节点特征,两个节点之间边的权重为两个分子表征向量之间的相似性,构造一个性质感知的二维分子关系图;
[0087]
s22:然后,使用每个任务的支持集中已有的实例标签信息,对任务中每个分子实例和支持集中所有的分子实例之间的关系进行建模得到分子实例的标签分布,作为该分子实例的分布表征向量(后续称为分子分布表征向量),以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子实例的标签分布的相似性,构建每个任务对应的分子分布关系图;
[0088]
s23:再后,使用rdkit工具得到任务中每个分子的基于化学领域知识的分子拓扑指纹作为分子指纹表征,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子拓扑指纹的相似性,来构造分子指纹关系图;使用已有的分子性质标签作为分子表征向量,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子性质标签之间的相似性,来构造真实标签关系图;然后,将分子指纹关系图和真实标签关系图的相似性矩阵进行对位元素加和平均,从而实现信息相互融合,最终构成混合先验关系图;
[0089]
s24:在得到二维分子关系图和分子分布关系图后,将这两个关系图用于构建混合
关系网络模型;首先,利用二维分子关系图中性质感知的分子表征向量来计算得到相似性矩阵,相似性矩阵中每个数值代表两个性质感知的分子表征向量之间的相似性,然后用该相似性矩阵来聚合更新分子分布关系图中的分子分布表征向量,利用更新过后的分子分布表征向量计算代表分子分布之间相似性的相似性矩阵,然后再使用该相似性矩阵来聚合更新二维分子关系图,如此循环更新二维分子关系图和分子分布关系图(在本发明的实施例中可循环更新两轮),得到优化后的二维分子关系图和分子分布关系图;
[0090]
s25:在得到优化后的二维分子关系图和分子分布关系图后,分别计算得到各自对应的相似性矩阵;然后,计算混合先验关系图的相似性矩阵,使用二维分子关系图的相似性矩阵和混合先验关系图的相似性矩阵构建正则项来约束混合关系网络模型学习正确且有效的分子关系图,提升混合关系网络模型的预测性能。
[0091]
在本发明的实施例中,上述s2的每个任务中,rdkit工具将smiles转化为二维分子图,然后以图神经网络gin为基础编码器,使用基础编码器gin对二维分子图进行编码,得到通用分子表征向量,每一性质标签类别对该类别分子的通用分子表征向量进行平均值计算从而得到类原型,然后将通用分子表征向量和类原型拼接后通过注意力机制得到性质感知的分子表征向量;以任务中的每个分子为节点,性质感知的分子表征向量为节点特征,构建二维分子关系图,其中性质感知的分子表征向量记为分子表征向量之间的相似性记为使用分子的标签分布来构建分子分布关系图,其中分子标签分布记为分子标签分布之间的相似性记为以rdkit工具中拓扑指纹生成函数对分子smiles处理后得到的分子拓扑指纹作为分子表征向量,构建基于化学领域知识的分子指纹关系图,其中分子拓扑指纹记为分子拓扑指纹之间的相似性记为使用真实分子标签之间的关系来构建真实标签关系图,其中真实分子标签记为真实分子标签之间相似性记为
[0092]
在本发明的实施例中,上述s21中,二维分子关系图的构建方式如下:
[0093]
通过rdkit工具对输入的分子smiles数据x
τ,i
进行处理,转化为二维分子图的形式,利用基础编码器gin对二维分子图进行编码并作为分子表征向量g
τ,i
,然后把支持集中每一性质标签类别对应的分子表征向量g
τ,i
以加和求平均的方式得到每类性质标签的类原型计算公式如下:
[0094][0095]
其中,第τ个任务中性质标签类别为c的样本集合为其中,第τ个任务中性质标签类别为c的样本集合为且y
τ,i
=c},表示分子性质标签的类别,c=0或1,τ表示第τ个任务,x
τ,i
为第i个分子实例的smiles,y
τ,i
为第i个分子实例的待预测性质对应的二分类标签,分别代表有指定的分子性质和没有指定的分子性质。例如,以分子性质为毒性为例,y
τ,i
包含了两类标签,分别代表有毒性和没有毒性。
[0096]
然后,将每个分子表征向量和所有的类原型进行拼接,通过注意力机制来求出性质感知的分子表征向量m
τ,i
:
[0097]
[0098]
其中,g
τ,i
表示分子表征向量,表示性质标签类别为0的所有分子的类原型,表示性质标签类别为1的所有分子的类原型,dg表示分子表征向量的维度;
[0099]
然后,使用多层感知机来压缩性质感知的分子表征向量:
[0100][0101]
其中,w
τ,r
是多层感知机mlp的参数;
[0102]
将任务中的每个分子视为一个节点,压缩后的性质感知的分子表征向量s
τ,i
视为初始的节点特征来构建二维分子关系图,整个二维分子关系图是全连接图,每条边的权重表示该边对应的两个节点之间的相似性,在第l轮循环时边的权重计算公式如下:
[0103][0104]
其中,是多层感知机mlp的参数,和分别为第l轮循环时第i个节点和第j个节点的节点特征;是相似性矩阵,是中坐标为(i,j)的元素,代表第i个节点和第j个节点之间的相似性;得到相似性矩阵后,再将的每一排数值分别进行0-1归一化。
[0105]
在本发明的实施例中,上述s22中,分子分布关系图是通过引入分布学习来构建,具体为:首先,对所有分子实例的性质标签进行编码,支持集和查询集中分子实例的编码规则不同;支持集的分子实例的分布是通过对分子和支持集中所有分子实例之间的关系进行建模,若两个分子实例间的性质标签相同,对应位置设置为1;若两个分子实例间的性质标签不同,对应位置设置为0;查询集的分子实例因其性质标签未知,因此全部初始化为一个初始值,这个初始值是和支持集的分子实例数量有关的平均值(即支持集的分子实例数量的倒数);将任务中的所有分子视为分子分布关系图中的节点,初始化分子分布关系图中分子实例的节点特征如下:
[0106][0107]
其中,第τ个任务中第i个节点的初始节点特征k表示一个性质标签类别中的分子实例数量,||表示拼接操作,y
τ,i
和y
τ,j
分别表示第i个节点和第j个节点的性质标签;δ(
·
)是克罗内克函数,当y
τ,i
=y
τ,j
,输出结果为1,否则输出结果为0;
[0108]
然后,根据初始化的节点特征来计算得到分子分布关系图的相似性矩阵计算公式如下:
[0109][0110]
其中,是多层感知机mlp的可学习的参数;是中坐标为(i,j)的元素,代表第i个节点和第j个节点之间标签分布的相似性;在得到后,对中每一排的数值进行0-1归一化;在计算得到分子分布关系图的节点特征和相似性矩阵后,以此构建
分子分布关系图。
[0111]
在本发明的实施例中,上述s23中,构建分子指纹关系图采用的分子指纹为分子拓扑指纹,它是从一个分子出发直至设定数量键的路径上所有的分子片段,然后对每个路径进行哈希计算产生指纹;通过分子拓扑指纹来表示基于化学领域知识的分子表征向量,然后使用tanimoto系数求解公式来计算分子间基于化学领域知识的关系,计算公式如下:
[0112][0113]
其中,表示分子指纹关系图的相似性矩阵中坐标为(i,j)的元素,代表第i个节点和第j个节点之间分子拓扑指纹的相似性,a和b分别代表第i个节点的分子拓扑指纹和第j个节点的分子拓扑指纹中比特值为1的数目,c代表两个分子拓扑指纹和中同一位置的比特值同时为1的数目;以任务中的每个分子为节点,分子拓扑指纹为节点特征,tanimoto系数为节点之间边的权重,以此构建分子指纹关系图;
[0114]
而真实标签关系图表示的是分子之间的真实逻辑关系,两个分子之间的性质标签相同为1,性质标签不同为0;
[0115]
通过将分子指纹关系图和真实标签关系图融合,得到混合先验关系图来约束混合关系网络模型的优化;分子指纹关系图和真实标签关系图融合过程如下:
[0116][0117]
其中,是混合先验关系图的相似性矩阵,是中坐标为(i,j)的元素,是分子指纹关系图的相似性矩阵中坐标为(i,j)的元素,是真实标签关系图的相似性矩阵中坐标为(i,j)的元素。
[0118]
s3:最后,将s24中优化后的二维分子关系图中的分子表征向量和分子分布关系图中的分子分布表征向量拼接在一起,输入到分类器中预测分子的性质,计算预测损失作为实例分类任务的损失并优化混合关系网络模型的参数,以提高分子性质预测的准确率。
[0119]
在本发明的实施例中,上述s3中将两个关系图中增强后的分子表征向量拼接在一起,计算公式如下:
[0120][0121]
在获得拼接后的分子表征向量后,输入到分类器中预测分子性质类别,公式如下:
[0122][0123]
其中,wc是可学习的参数;
[0124]
再根据分类器输出的分子性质类别以及真实的分子性质类别标签,计算预测损失作为实例分类任务的损失,并通过优化器优化混合关系网络模型的参数,以提高分子性质预测的准确率。
[0125]
在本发明的实施例中,上分类器采用的是多层感知机,主要是由linear层、
dropout层和softmax层组成。
[0126]
在本发明的实施例中,上述预测损失采用交叉熵损失,且使用混合先验关系图来约束二维分子关系图的相似性矩阵的学习,计算公式如下:
[0127][0128]
混合关系网络模型训练的总损失为:
[0129][0130]
其中,λ是可学习的参数。
[0131]
s4:在元学习框架下,元网络在训练任务上重复以上s1~s3步骤,进行元学习的训练,让混合关系网络模型学习到“先验知识”,即混合关系网络模型初始化的参数,然后将初始化后的元网络应用到测试任务上,使用测试任务中的支持集对元网络的参数进行微调,最后使用微调之后的混合关系网络模型在测试任务中的查询集上进行测试;将通过测试的混合关系网络模型用于进行实际的分子性质预测。
[0132]
在本发明的实施例中,上述步骤s4的混合关系网络中,使用二维分子关系图中的相似性矩阵来更新分子分布关系图中的节点特征,第l轮的更新公式如下:
[0133][0134]
其中,是可学习的参数;
[0135]
在更新得到分子分布关系图中的节点特征后,使用更新后的分子分布关系图的节点特征来计算更新分子分布关系图的相似性矩阵计算公式如下:
[0136][0137]
其中,是多层感知机mlp可学习的参数;
[0138]
然后,应用softmax函数作用在上的每一行,将每行的数值归一化为0到1之间的数值;
[0139]
再后,在得到更新后的分子分布关系图的相似性矩阵基础上,用来更新二维分子关系图的节点特征计算公式如下:
[0140][0141]
其中,是可学习的参数;
[0142]
在更新得到二维分子关系图的节点表征后,使用其更新二维分子关系图的相似性矩阵
[0143][0144]
其中,是多层感知机mlp中可学习的参数;
[0145]
然后,应用softmax函数作用在上的每一行,将每行的数值归一化为0到1之间的数值。
[0146]
在本发明的实施例中,上述混合关系网络模型设计为2层,基于性质感知的分子关系图和分子分布图交换邻接矩阵来循环更新彼此的节点特征,因此整个混合关系网络模型中第l层的更新顺序如下:中第l层的更新顺序如下:l初始为0。需说明的是,此处代表的是二维分子关系图中所有节点的节点特征、分子分布关系图中所有节点的节点特征。
[0147]
在本发明的实施例中,选择maml框架作为元模型框架。
[0148]
下面将上述s1~s4所述的基于混合关系网络的小样本分子性质预测方法应用与一个具体实施例中,以展示其所能实现的技术效果。
[0149]
实施例
[0150]
分子通常是由一些原子和化学键组成。直观上,当前很多研究都是把分子中原子看作节点,化学键看作节点之间的边,以此来对分子的二维拓扑结构进行建模,采用当前比较流行的图神经网络来捕捉分子的有效信息来学习分子表征。而分子性质预测任务因为已知标签的分子数目特别少是严格意义上的小样本任务。表1展示的是2-way 2-shot的分子性质预测任务,在该任务的数据集中,支持集中包含2个正样本和2个负样本,查询集中包含一个样本。通过建立支持集和查询集分子数据的关系来实现特征优化和标签传播。
[0151]
表1 2-way 2-shot样例数据
[0152][0153]
如图1所示,本实施例按照上述s1~s4所述的基于混合关系网络的小样本分子性质预测方法流程,使用2-way 2-shot的分子性质预测任务,通过构建基于本实施例中的二维分子关系图和分子分布关系图,通过交换彼此的相似性矩阵来更新本身的节点特征,实现彼此关系信息相互融合。另外,通过将本实施例分子指纹关系图和真实标签关系图融合,可以得到本实施例中的混合先验关系图来约束模型的优化。本实施例中基于混合关系网络的小样本分子性质预测方法的具体实现流程与上述s1~s4的步骤框架相同,下面主要具体
描述该框架在本实施例的实现过程以及技术效果。
[0154]
针对于本实施例中基于性质感知的二维分子关系图的构建,如图2所示。
[0155]
针对于本实施例中的分子分布关系图的构建,如图3所示,通过引入分布学习来构建本实施例中的分子分布关系图。在计算得到分子分布关系图的节点特征和相似性矩阵后,以此构建本实施例中的分子分布关系图。
[0156]
针对于本实施例中的混合先验关系图,如图4所示,本实施例中采用的是基于拓扑的指纹来表示基于化学领域知识的分子表征向量,然后使用tanimoto系数求解公式来计算分子间基于化学领域知识的关系。以分子为节点,分子指纹为节点特征,tanimoto系数为节点之间边的权重,以此构建分子指纹关系图。
[0157]
而真实标签关系图表示的是分子之间的真实逻辑关系,两者性质相同为1,性质不同为0。通过将基于拓扑的分子指纹关系图和真实标签关系图融合,可以得到混合先验关系图来约束模型的优化。
[0158]
针对于混合关系图网络模型构建如图5所示,本实施例中将其命名为hkgsr。在混合关系网络模型hkgsr中,使用二维分子关系图中的相似性矩阵来更新二维分子分布图中的节点特征在更新得到分子分布关系图中的节点特征后,使用更新后的分子分布关系图的节点特征来计算更新分子分布关系图的相似性矩阵然后在得到更新后的分子分布关系图的相似性矩阵后,用其来更新二维分子关系图的节点特征在更新得到二维分子关系图的节点表征后,使用其计算二维分子关系图的相似性矩阵
[0159]
在本实施例中,在上述的混合关系网络的设计为2层。整个混合网络hkgsr更新顺序如下:l是指l-th层,初始为0。
[0160]
最后,将两个关系图中增强后的分子表征向量拼接在一起,输入到分类器中预测分子的性质,并计算预测损失作为实例分类任务的损失,基于损失来优化模型参数,以提高分子性质预测的准确率。上述预测分类任务损失可以采用交叉熵损失。
[0161]
本实施例是元学习任务中的某一个训练任务,让模型学习到“先验知识”,即模型初始化参数,然后将初始化的参数应用到测试任务上。本实施例使用的是maml元学习框架。
[0162]
下面将上述方法应用至具体数据集中,主要的实施例采用2-way 1-shot和2-way 10-shot的实例分别在tox21、muv、sider和toxcast数据集上具体实施步骤如前所述,下面主要展示其效果。
[0163]
本实施例在实验中评估了hkgsr和pre-hkgsr。pre-hkgsr采用的是pre gnn预训练好的模型。
[0164]
表2 2-way 1-shot和2-way 10-shot的实验结果
[0165][0166]
hkgsr在小样本分子性质预测任务上的表现,即tox21、muv、sider和toxcast数据集,如表2所示。在从头训练的模型中,hkgsr比之前sota:par基线相比,在tox21数据集10-shot和1-shot任务上分别获得了2.4%和2%的改善,在muv数据集10-shot和1-shot任务上分别获得了3.96%和5%的提升,在sider数据集10-shot和1-shot任务上分别获得了17.01%和13.08%的提升,在toxcast数据集10-shot和1-shot任务上分别获得了5.65%和6.58%的改善。这说明,在从头训练的模型中,混合知识指导的分子关系的建模对实现小样本分子性质预测任务来说很重要。在预训练的模型中,pre-hkgsr比之前soda:pre-par基线相比,在tox21数据集10-shot和1-shot任务上分别获得了0.16%和0.87%提升,在muv数据集10-shot和1-shot任务上分别获得了6.72%和8.8%,在sider数据集10-shot和1-shot任务上分别获得了11.62%和17.48%,在toxcast数据集10-shot和1-shot任务上分别获得了5.14%和6.33%。这说明,在预训练的模型中,虽然预训练会给模型注入一些先验知识,但是模型捕捉的知识仍然不全面,从实验结果可以发现,在混合先验知识的约束下,模型的性能得到进一步的提升。
[0167]
表3消融实验的结果
[0168][0169]
此外,本实施例对hkgsr的三个分子关系图进行了消融研究。d代表分子分布关系图,r代表基于二维分子关系图,p代表混合先验关系图。首先,在混合关系网络模块中,直接使用分子分布图来捕捉分子之间的关系,正如实验中所看到的,模型不收敛,证实了分子分布关系图仅仅在hkgsr中只是起到了辅助作用,而不是主导作用。但是直接使用二维分子关系图来捕捉分子之间的关系,从实验数据中可以看到,二维分子关系图可以有效捕捉到分子之间的关系,二维分子关系图在整个hkgsr模型中占主导地位。在二维分子关系图的基础之上叠加分子分布关系图,从实验数据中可以看到是有一定的提升效果的。在此基础之上再叠加混合先验关系图的约束后,整个模型的性能进一步的提升。
[0170]
本实例提出了hkgsr,通过构建混合关系网络模块实现二维分子关系图和分子分布关系图之间知识的相互融合,并且设计了一个混合先验关系图来约束基于二维分子关系图,最终实现分子特征向量优化和标签传播,有效的提升小样本分子性质预测任务的性能。同时,通过一组充分的实验来证实了其在小样本分子性质预测任务上的有效性。
[0171]
以上所述实施例只是本发明的一种较佳的方案,然而并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等同变换的方式所获得的技术方案,均落在本发明的保护范围内。
技术特征:
1.一种基于混合关系网络的小样本分子性质预测方法,其特征在于,步骤如下:s1:将分子smiles和相对应的标签数据按照预定义的小样本分子性质预测任务中样本集分割为n
t
个分子性质预测任务每个任务都是一个2-way k-shot的分类任务,包含一个支持集和查询集;任务可以分为训练任务和测试任务,训练任务用于学习模型的初始化参数,测试任务用于测试模型的性能;s2:在每个任务上,首先使用rdkit工具和图神经网络gin利用smiles和标签信息来分别生成表示分子实例之间不同关系的三个关系图结构:基于性质感知的二维分子关系图、分子分布关系图和混合先验关系图,构建混合关系网络模型,然后在混合先验关系图的约束下对混合关系网络模型进行学习,最终得到具有丰富语义的分子表征向量用于分子性质预测,实现标签有效传播;s3:最后,将s2中优化后的二维分子关系图中的分子表征向量和分子分布关系图中的分子分布表征向量拼接在一起,输入到分类器中预测分子的性质,计算预测损失作为实例分类任务的损失并优化混合关系网络模型的参数,以提高分子性质预测的准确率;s4:在元学习框架下,元网络在训练任务上重复以上s1~s3步骤,进行元学习的训练,让混合关系网络模型学习到“先验知识”,即混合关系网络模型初始化的参数,然后将初始化后的元网络应用到测试任务上,使用测试任务中的支持集对元网络的参数进行微调,最后使用微调之后的混合关系网络模型在测试任务中的查询集上进行测试;将通过测试的混合关系网络模型用于进行实际的分子性质预测。2.如权利要求1所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述s2的具体实现方法如下:s21:首先,使用rdkit工具将每个分子smiles转化为二维分子图结构,使用gin和类原型学习网络为原始编码器模型,通过gin得到一个基于二维图结构的通用分子表征向量,然后在类原型学习网络中将通用分子表征向量和类原型拼接后通过注意力机制获得性质感知的分子表征向量;以每个分子为一个节点,性质感知的分子表征向量为节点特征,两个节点之间边的权重为两个分子表征向量之间的相似性,构造一个性质感知的二维分子关系图;s22:然后,使用每个任务的支持集中已有的实例标签信息,对任务中每个分子实例和支持集中所有的分子实例之间的关系进行建模得到分子实例的标签分布,作为该分子实例的分布表征向量,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子实例的标签分布的相似性,构建每个任务对应的分子分布关系图;s23:再后,使用rdkit工具得到任务中每个分子的基于化学领域知识的分子拓扑指纹,作为分子指纹表征,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子拓扑指纹的相似性,来构造分子指纹关系图;使用已有的分子性质标签作为分子表征向量,以任务中的每个分子实例作为节点,两个节点之间边的权重为两个分子性质标签之间的相似性,来构造真实标签关系图;然后,将分子指纹关系图和真实标签关系图的相似性矩阵进行对位元素加和平均,从而实现信息相互融合,最终构成混合先验关系图;s24:在得到二维分子关系图和分子分布关系图后,将这两个关系图用于构建混合关系网络模型;首先,利用二维分子关系图中性质感知的分子表征向量来计算得到相似性矩阵,
相似性矩阵中每个数值代表两个性质感知的分子表征向量之间的相似性,然后用该相似性矩阵来聚合更新分子分布关系图中的分子分布表征向量,利用更新过后的分子分布表征向量计算代表分子分布之间相似性的相似性矩阵,然后再使用该相似性矩阵来聚合更新二维分子关系图,如此循环更新二维分子关系图和分子分布关系图,得到优化后的二维分子关系图和分子分布关系图;s25:在得到优化后的二维分子关系图和分子分布关系图后,分别计算得到各自对应的相似性矩阵;然后,计算混合先验关系图的相似性矩阵,使用二维分子关系图的相似性矩阵和混合先验关系图的相似性矩阵构建正则项来约束混合关系网络模型学习正确且有效的分子关系图,提升混合关系网络模型的预测性能。3.如权利要求2所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述s2中,rdkit工具将smiles转化为二维分子图,然后以图神经网络gin为基础编码器,使用基础编码器gin对二维分子图进行编码,得到通用分子表征向量,每一性质标签类别对该类别分子的通用分子表征向量进行平均值计算从而得到类原型,然后将通用分子表征向量和类原型拼接后通过注意力机制得到性质感知的分子表征向量;以任务中的每个分子为节点,性质感知的分子表征向量为节点特征,构建二维分子关系图,其中性质感知的分子表征向量记为分子表征向量之间的相似性记为使用分子的标签分布来构建分子分布关系图,其中分子标签分布记为分子标签分布之间的相似性记为以rdkit工具中拓扑指纹生成函数对分子smiles处理后得到的分子拓扑指纹作为分子表征向量,构建基于化学领域知识的分子指纹关系图,其中分子拓扑指纹记为分子拓扑指纹之间的相似性记为使用真实分子标签之间的关系来构建真实标签关系图,其中真实分子标签记为真实分子标签之间相似性记为4.如权利要求3所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述s21中,二维分子关系图的构建方式如下:通过rdkit工具对输入的分子smiles数据x
τ,i
进行处理,转化为二维分子图的形式,利用基础编码器gin对二维分子图进行编码并作为分子表征向量g
τ,i
,然后把支持集中每一性质标签类别对应的分子表征向量g
τ,i
以加和求平均的方式得到每类性质标签的类原型计算公式如下:其中,第τ个任务中性质标签类别为c的样本集合为其中,第τ个任务中性质标签类别为c的样本集合为且y
τ,i
=c},表示分子性质标签的类别,c=0或1,τ表示第τ个任务,x
τ,i
为分子实例的smiles,y
τ,i
为分子实例的待预测性质对应的二分类标签;然后,将每个分子表征向量和所有的类原型进行拼接,通过注意力机制来求出性质感知的分子表征向量m
τ,i
:
其中,g
τ,i
表示分子表征向量,表示标签类别为0的所有分子的类原型,表示标签类别为1的所有分子的类原型,d
g
表示分子表征向量的维度;然后,使用多层感知机来压缩性质感知的分子表征向量:其中,w
τ,r
是多层感知机mlp的参数;将任务中的每个分子视为一个节点,压缩后的性质感知的分子表征向量s
τ,i
视为初始的节点特征来构建二维分子关系图,整个二维分子关系图是全连接图,每条边的权重表示该边对应的两个节点之间的相似性,在第l轮循环时边的权重计算公式如下:其中,w
τ,ra
是多层感知机mlp的参数,和分别为第l轮循环时第i个节点和第j个节点的节点特征,是相似性矩阵,是中坐标为(i,j)的元素,代表第i个节点和第j个节点之间的相似性;得到相似性矩阵后,再将的每一排数值分别进行0-1归一化。5.如权利要求4所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述s22中,分子分布关系图是通过引入分布学习来构建,具体为:首先,对所有分子实例的性质标签进行编码,支持集和查询集中分子实例的编码规则不同;支持集的分子实例的分布是通过对分子和支持集中所有分子实例之间的关系进行建模,若两个分子实例间的性质标签相同,对应位置设置为1;若两个分子实例间的性质标签不同,对应位置设置为0;查询集的分子实例因其性质标签未知,因此全部初始化为一个初始值,这个初始值是和支持集的分子实例数量有关的平均值;将任务中的所有分子视为分子分布关系图中的节点,初始化分子分布关系图中分子实例的节点特征如下:其中,第τ个任务中第i个节点的初始节点特征k表示一个性质标签类别中的分子实例数量,||表示拼接操作,y
τ,i
和y
τ,j
分别表示第i个节点和第j个节点的性质标签;δ(
·
)是克罗内克函数,当y
τ,i
=y
τ,j
,输出结果为1,否则输出结果为0;然后,根据初始化的节点特征来计算得到分子分布关系图的相似性矩阵计算公式如下:其中,w
τ,l,da
是多层感知机mlp的可学习的参数;是中坐标为(i,j)的元素,代表第i个节点和第j个节点之间标签分布的相似性;在得到后,对中每一排的数值进行0-1归一化;在计算得到分子分布关系图的节点特征和相似性矩阵后,以此构建分
子分布关系图。6.如权利要求5所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述s23中,构建分子指纹关系图采用的分子指纹为分子拓扑指纹,它是从一个分子出发直至设定数量键的路径上所有的分子片段,然后对每个路径进行哈希计算产生指纹;通过分子拓扑指纹来表示基于化学领域知识的分子表征向量,然后使用tanimoto系数求解公式来计算分子间基于化学领域知识的关系,计算公式如下:其中,表示分子指纹关系图的相似性矩阵中坐标为(i,j)的元素,代表第i个节点和第j个节点之间分子拓扑指纹的相似性,a和b分别代表第i个节点的分子拓扑指纹和第j个节点的分子拓扑指纹中比特值为1的数目,c代表两个分子拓扑指纹和中同一位置的比特值同时为1的数目;以任务中的每个分子为节点,分子拓扑指纹为节点特征,tanimoto系数为节点之间边的权重,以此构建分子指纹关系图;而真实标签关系图表示的是分子之间的真实逻辑关系,两个分子之间的性质标签相同为1,性质标签不同为0;通过将分子指纹关系图和真实标签关系图融合,得到混合先验关系图来约束混合关系网络模型的优化;分子指纹关系图和真实标签关系图融合过程如下:其中,是混合先验关系图的相似性矩阵,是中坐标为(i,j)的元素,是分子指纹关系图的相似性矩阵中坐标为(i,j)的元素,是真实标签关系图的相似性矩阵中坐标为(i,j)的元素。7.如权利要求6所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述s4的混合关系网络中,使用二维分子关系图中的相似性矩阵来更新分子分布关系图中的节点特征,第l轮的更新公式如下:其中,是可学习的参数;在更新得到分子分布关系图中的节点特征后,使用更新后的分子分布关系图的节点特征来计算更新分子分布关系图的相似性矩阵计算公式如下:其中,是多层感知机mlp可学习的参数;然后,应用softmax函数作用在上的每一行,将每行的数值归一化为0到1之间的数值;
再后,在得到更新后的分子分布关系图的相似性矩阵基础上,用来更新二维分子关系图的节点特征计算公式如下:其中,是可学习的参数;在更新得到二维分子关系图的节点表征后,使用其更新二维分子关系图的相似性矩阵性矩阵其中,是多层感知机mlp中可学习的参数;然后,应用softmax函数作用在上的每一行,将每行的数值归一化为0到1之间的数值;所述混合关系网络模型设计为2层,整个混合关系网络模型中第l层的更新顺序如下:l初始为0。8.如权利要求7所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,将两个关系图中增强后的分子表征向量拼接在一起,计算公式如下:在获得拼接后的分子表征向量后,输入到分类器中预测分子性质类别,公式如下:其中,w
c
是可学习的参数;再根据分类器输出的分子性质类别以及真实的分子性质类别标签,计算预测损失作为实例分类任务的损失,并通过优化器优化混合关系网络模型的参数,以提高分子性质预测的准确率。9.如权利要求8所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述预测损失采用交叉熵损失,且使用混合先验关系图来约束二维分子关系图的相似性矩阵的学习,计算公式如下:混合关系网络模型训练的总损失为:其中,λ是可学习的参数。10.如权利要求1所述的基于混合关系网络的小样本分子性质预测方法,其特征在于,所述元学习框架采用maml。
技术总结
本发明公开一种基于混合关系网络的小样本分子性质预测方法。本发明包括如下步骤:1)处理数据,生成多个子任务,每个任务的支持集中正负样本数相同;2)构建基于性质感知的二维分子关系图和分子分布关系图,然后使用两个分子关系图构建混合关系网络模块;3)使用分子性质的真实标签和基于化学领域知识的分子拓扑指纹知识构建一个混合先验关系图来约束混合关系网络模块的优化,进而有效实现标签传播。和现有的技术相比,本发明利用了不同关系图中蕴含的知识,有效地提升模型在小样本分子性质预测任务中的预测效果。预测任务中的预测效果。预测任务中的预测效果。
技术研发人员:张寅 李瑞凤
受保护的技术使用者:浙江大学
技术研发日:2023.03.30
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
