面向先导化合物合成与筛选的三维分子结构仿真方法
未命名
09-13
阅读:136
评论:0
1.本发明涉及的是一种计算机分子仿真领域的技术,具体是一种面向先导化合物合成与筛选的三维分子结构仿真方法。
背景技术:
2.目前已有的分子结构表征方案多为经典图方法,分子由于其结构原因,能够很自然地被建模为一个图。随着深度学习的发展,图神经网络的发展给予一个处理图数据的极佳工具。借由图神经网络,使得特征信息能够在图上传递,从而获取完整的图表征。具有相同数量种类原子的分子如具有不同的三维空间构型,则两者性质可能完全不同,因此复杂的信息量对现有的预测方法的信息编码计算量要求较大,无法满足当前工业需要。
技术实现要素:
3.本发明针对现有图学习技术无法满足不同空间结构下分子性质不同的问题,以及现有的神经网络对于分子结构中坐标信息识别方面的不足,提出一种面向先导化合物合成与筛选的三维分子结构仿真方法,从三维坐标提取特征,基于量子参数电路的三维分子结构表征模型,面相药物设计过程中的先导化合物的筛选与合成。
4.本发明是通过以下技术方案实现的:
5.本发明涉及一种面向先导化合物合成与筛选的三维分子结构仿真方法,将分子的三维空间结构建模为三维图结构,选取三维图的中心原子节点及其邻居节点的编码输入含参数的量子参数电路中,基于量子机器学习技术从图结构中得到完整的分子表示;再将分子表示进行分子性质预测和/或解决三维分子几何生成问题,对药物生成中的先导化合物进行筛选和预合成,实现仿真。
6.本发明涉及一种实现上述方法的系统,包括:位于量子计算机端的量子比特编码单元、三维特征学习单元、原子表征提取单元以及位于经典计算机端的后处理单元,其中:量子比特编码单元根据原子的三维空间相对位置信息以及原子种类信息,进行角度编码,得到蕴含相应信息的量子比特;三维特征学习单元基于量子线路,对编码后的量子比特进行酉变换,在高维希尔伯特空间中获取相应原子的量子态表征;原子表征提取单元根据量子线路的运行得到的量子末态,进行泡利z测量,得到实数向量的原子表征;后处理单元根据仿真需求对原子表征进行分子性质预测和/或生成三维分子的几何结构,用于对药物生成中的先导化合物进行筛选和预合成。技术效果
7.本发明通过量子图表征学习算法对空间坐标展现出更好地表征能力,相比现有技术仅用少量的量子比特就能逐步吃下整张图,从而避免过多量子比特数带来的影响。同时少量的量子比特数也使得量子计算模型中的参数量非常少,这样的学习模式相较于传统机器学习在训练中有很大的优势。
附图说明
8.图1为本发明流程图;
9.图2为量子三维嵌入式学习参数电路示意图。
具体实施方式
10.如图1所示,为本实施例涉及一种面向先导化合物合成与筛选的三维分子结构仿真方法,包括:
11.步骤1、将分子的三维空间结构建模为三维图结构,该分子上的每个原子对应三维图中的节点,原子与原子之间的键对应图中的连边,整个分子包含的原子个数图中的节点数;
12.步骤2、选取三维图的中心原子节点及其邻居节点的编码输入含参数的量子参数电路中,通过更新参数电路中的参数,基于量子机器学习技术从图结构中的每一个节点提取出一个特征,从而学习得到完整的分子表示。
13.所述的编码是指:使用两个量子比特编码当前原子。
14.所述的编码,具体包括:
15.①
将与待编码原子距离在特定阈值内的节点选为邻居节点,邻居节点的位置信息和性质通过选取的中心节点的相对距离以及原子种类表征,即四元组其中:a为邻居节点的原子种类,d为邻居节点到中心节点的距离,θ为旋转角,为扭转角。
16.②
选取rx和ry两个旋转门,在一个量子比特上编码两维的数据,具体为:用两个量子比特编码步骤
①
中四元组的一个原子,即将两个旋转角θ和编码到量子比特1上,然后将距离d和种类a编码到比特2上。
17.需要注意这里为将一个任意实数转化为一个旋转角度,选择将d转化为d/d
max
*2π,a转化为a/a
num
*2π,其中:d
max
为整个数据集中每个原子最大的度,a
num
为整个数据集中原子的种类,a是一个1到a
num
的整数。
18.所述的两个量子比特的表达式为:所述的两个量子比特的表达式为:其中:u
x
与uy分别为含参数的绕x轴和y轴的旋转门对应的酉阵,i指的是中心节点,j指代当前邻居节点。
19.③
将每个原子所对应的两个量子比特都张量积为一个新的量子态作为量子参数电路的输入,具体为:其中:|ψ>为一个量子态,上标0为整个线路的初始量子态,下标1到2n为第1个比特到第2n个比特对应的量子态,n为原子数量,共2n个量子比特以编码n个原子。
20.所述的量子参数电路,通过以下方式构建得到:
21.i)确认需要量子比特的个数:对于每个需要学习的节点,都需要这个节点和它在阈值范围内的邻居节点,每个节点需要两个量子比特,所以最终总的量子比特数取决于节点的邻域有多大。根据分子化学特性可知,随着原子之间距离的增加,两个原子之间的相互作用力也在迅速减小,所以所需要考虑的邻域相对较小。每个原子的邻域中如果有5个左右的原子,那么所需要的量子比特数对应10个左右,如此少的比特给能够尝试在现有的量子
计算机上运行相应算法的可能。所以在设计含参数的量子参数电路时,选取硬件高效的量子参数电路,这个参数电路已经被多个现存的量子计算机验证能够在真实环境中运行,例如来自中科大团队的66比特祖冲之二号。
22.ii)含参数的量子参数电路采取多个层构成,通过重复构建完整的可训练的参数电路,如图2所示,每个层内的量子门的排布均相同,具体包括:含参数的旋转门构成的第一模块和由两比特门构成的第二模块,其中:第一模块的参数能够替代经典神经网络中的参数,对特征进行学习,第二模块使用cnot门使所有的量子比特两两纠缠,使不同量子比特间的信息可以进行交互,同时扩大特征所处的空间。
23.所述的含参数的旋转门是指:每个量子比特上分别有两个旋转门rz和ry。
24.所述的学习是指:计算参数电路的每一层中的θz和θy的梯度,并且通过回传的方式在每一次迭代中优化整个参数点路。
25.所述的梯度其中:将每一个θi变换为θi+π/2和θ
i-π/2分别计算。
26.如果将整个参数电路的酉阵形式写出,那么从第1层到第l层的酉阵形式为其中:u
ent
是纠缠层,由cnot门构成,u
l
(θ)是第l层中的可训练层,rz和ry为旋转门,为第l层上第k个量子比特的ry门的参数。
27.经过l层的量子态|ψ
l
》=u
ent
×ul
×
(
…
(u
ent
×
u1|ψ0》0)),其中:|ψ0》为步骤2编码后的结果,作为线路的输入也就是初态;l层的量子参数电路就起到神经网络的作用,通过训练其中的参数,可以得到最终的结果。
28.所述的完整的分子表示,通过对n量子比特的参数电路末端增加n组不同的pauli-z测量,从而在2n的希尔伯特空间中获取最终的分子表征,即针对n个可观测量获得一个n维的实数向量,将这个向量作为当前中心原子的特征。
29.所述的n维的实数向量包括:
[0030][0031][0032][0033]
…
[0034][0035]
步骤3、将步骤2得到的分子表示进行分子性质预测和/或解决三维分子几何生成问题,对药物生成中的先导化合物进行筛选和预合成,实现仿真。
[0036]
所述的分子性质预测是指:针对先导化合物性质预测,可以在现有结构表征算法后对接一个简单的多层感知机模型,从而对已经获取的分子表征进行回归,获取相应的性质预测值。
[0037]
所述的解决三维分子几何生成问题是指:将分子表示用于在生成过程中提取三维分子信息。所使用的生成模型是自回归流模型,这个模型是一个成熟的生成模型,被广泛应
用在分子生成领域。自回归流模型是一个序列生成模型,通过采样原子种类以及在三维空间中的位置来逐个生成,从0开始最终构成完整分子。通过检验模型所生成的分子的各项化学性质来判断所生成的分子优劣。
[0038]
经过具体实际实验,在分子性质预测任务上对本方法进行实验,采用28核的intel(r)xeon(r)w-3175x,3.10ghz,1tb的存储,两块nvidiaquadrortx8000gpu。基于python实现torchquantum量子模拟器。实验使用的数据集是计算化学领域的常用性质预测数据集qm9,其中包含超过13万个分子的15项性质。
[0039]
实验中随机选取110,000个分子作为训练集,10,000个分子作为验证集,10,831个分子作为测试机。选取15个性质中的7个与能量相关的性质进行汇报,第一个阶段是学习分子的特征信息,第二个阶段是基于已有的特征信息进行预测和生成,具体包括:
[0040]
a)对一个数据集,首先需要对其中的分子进行预处理计算每个分子中原子的相对坐标。
[0041]
b)提取数据集中的某一个分子,依次选取其中的原子作为中心原子,计算这个中心原子的表征。
[0042]
c)在距离中心原子d
max
范围内的原子被提取出来,利用他们的三维笛卡尔坐标计算和中心原子的相对坐标,配合原子种类组成四元组。
[0043]
d)将四元组编码到两个量子态上,中心原子在0和1号,其他邻居节点依次递增。
[0044]
e)将初态通过含参数的量子参数电路进行学习。
[0045]
f)读出末态,转化为向量,作为当前原子的表征。
[0046]
g)将每个原子的表征叠加得到分子的表征。
[0047]
h)利用分子的表征,训练自回归流模型(或预测模型)。
[0048]
i)得到训练完成的自回归流模型后,进行生成任务,依次生成新的原子种类及其位置,或通过训练完的预测模型进行性质预测(模型后续对接的预测模型采用多层感知机mlp)。
[0049]
表1实验结果比较
[0050]
如表1所示,在与最新的经典模型的对比中,本发明均能达到同一数量级的精度,并且量子线路中的参数仅有384个,即使加上后续模型线性层中的参数,也远低于其他经典模型上百万的巨大参数量。值得注意的是,化学精度是一个考量实验数值的重要指标,化学精度的数值是43.5mev,可以看到所有的能量预测精度都达到化学精度,从而证明的结果是可采信的结果。
[0051]
与现有技术相比,本方法能够确保编码的高效性,在现有的量子计算机上这是最高效的编码方式,同时这个编码方式也足够节约量子比特数,使得现有量子计算机处理30个左右原子的分子成为可能。本方法能够带来参数化量子电路最主要的性能提升,即参数量的大幅度下降,借用指数级别的希尔伯特空间对编码的特征进行映射,使能够仅用很少的参数就完成学习的同时避免量子层析带来的巨大开销,高效获得实数域的分子表征。
[0052]
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
技术特征:
1.一种面向先导化合物合成与筛选的三维分子结构仿真方法,其特征在于,将分子的三维空间结构建模为三维图结构,选取三维图的中心原子节点及其邻居节点的编码输入含参数的量子参数电路中,基于量子机器学习技术从图结构中得到完整的分子表示;再将分子表示进行分子性质预测和/或解决三维分子几何生成问题,对药物生成中的先导化合物进行筛选和预合成,实现仿真。2.根据权利要求1所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,具体包括:步骤1、将分子的三维空间结构建模为三维图结构,该分子上的每个原子对应三维图中的节点,原子与原子之间的键对应图中的连边,整个分子包含的原子个数图中的节点数;步骤2、选取三维图的中心原子节点及其邻居节点的编码输入含参数的量子参数电路中,通过更新参数电路中的参数,基于量子机器学习技术从图结构中的每一个节点提取出一个特征,从而学习得到完整的分子表示;步骤3、将步骤2得到的分子表示进行分子性质预测和/或解决三维分子几何生成问题,对药物生成中的先导化合物进行筛选和预合成,实现仿真;所述的编码是指:使用两个量子比特编码当前原子。3.根据权利要求1或2所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,所述的编码,具体包括:
①
将与待编码原子距离在特定阈值内的节点选为邻居节点,邻居节点的位置信息和性质通过选取的中心节点的相对距离以及原子种类表征,即四元组其中:a为邻居节点的原子种类,d为邻居节点到中心节点的距离,θ为旋转角,为扭转角;
②
选取rx和ry两个旋转门,在一个量子比特上编码两维的数据,具体为:用两个量子比特编码步骤
①
中四元组的一个原子,即将两个旋转角θ和编码到量子比特1上,然后将距离d和种类a编码到比特2上;
③
将每个原子所对应的两个量子比特都张量积为一个新的量子态作为量子参数电路的输入,具体为:其中:|ψ>为一个量子态,上标0为整个线路的初始量子态,下标1到2n为第1个比特到第2n个比特对应的量子态,n为原子数量,共2n个量子比特以编码n个原子;所述的两个量子比特的表达式为:所述的两个量子比特的表达式为:其中:u
x
与u
y
分别为含参数的绕x轴和y轴的旋转门对应的酉阵,i指的是中心节点,j指代当前邻居节点。4.根据权利要求3所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,将d转化为d/d
max
*2π,a转化为a/a
num
*2π,其中:d
max
为整个数据集中每个原子最大的度,a
num
为整个数据集中原子的种类,a是一个1到a
num
的整数。5.根据权利要求1或2所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,所述的量子参数电路,通过以下方式构建得到:i)确认需要量子比特的个数:对于每个需要学习的节点需要两个量子比特,总的量子比特数取决于节点的邻域;
ii)含参数的量子参数电路采取多个层构成,重复构建每个层内的量子门的排布均相同的参数电路,具体包括:含参数的旋转门构成的第一模块和由两比特门构成的第二模块,其中:第一模块的参数能够替代经典神经网络中的参数以对特征进行学习,第二模块使用cnot门使所有的量子比特两两纠缠以交互不同量子比特间的信息的同时扩大特征所处的空间。6.根据权利要求1或2所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,所述的学习是指:计算参数电路的每一层中的θ
z
和θ
y
的梯度,并且通过回传的方式在每一次迭代中优化整个参数电路;所述的梯度其中:将每一个θ
i
变换为θ
i
+π/2和θ
i-π/2分别计算,整个参数电路从第1层到第l层的酉阵形式为其中:u
ent
是纠缠层,由cnot门构成,u
l
(θ)是第l层中的可训练层,rz和ry为旋转门,为第l层上第k个量子比特的ry门的参数;经过l层的量子态|ψ
l
>=u
ent
×
u
l
×
(
…
(u
ent
×
u1|ψ0>)),其中:|ψ0>为步骤2编码后的结果,作为线路的输入也就是初态;l层的量子参数电路就起到神经网络的作用,通过训练其中的参数,可以得到最终的结果。7.根据权利要求1或2所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,所述的完整的分子表示,通过对n量子比特的参数电路末端增加n组不同的pauli-z测量,从而在2
n
的希尔伯特空间中获取最终的分子表征,即针对n个可观测量获得一个n维的实数向量,将这个向量作为当前中心原子的特征;所述的n维的实数向量包括:所述的n维的实数向量包括:所述的n维的实数向量包括:
…
8.根据权利要求1或2所述的面向先导化合物合成与筛选的三维分子结构仿真方法,其特征是,所述的分子性质预测是指:针对先导化合物性质预测,可以在现有结构表征算法后对接一个简单的多层感知机模型,从而对已经获取的分子表征进行回归,获取相应的性质预测值;所述的解决三维分子几何生成问题是指:将分子表示输入自回归流模型,用于在生成过程中提取三维分子信息,该自回归流模型通过采样原子种类以及在三维空间中的位置,从0开始逐个,最终构成完整分子后,通过检验模型所生成的分子的各项化学性质来判断所生成的分子优劣。9.一种实现权利要求1-8中任一所述面向先导化合物合成与筛选的三维分子结构仿真方法的系统,其特征在于,包括:位于量子计算机端的量子比特编码单元、三维特征学习单
元、原子表征提取单元以及位于经典计算机端的后处理单元,其中:量子比特编码单元根据原子的三维空间相对位置信息以及原子种类信息,进行角度编码,得到蕴含相应信息的量子比特;三维特征学习单元基于量子线路,对编码后的量子比特进行酉变换,在高维希尔伯特空间中获取相应原子的量子态表征;原子表征提取单元根据量子线路的运行得到的量子末态,进行泡利z测量,得到实数向量的原子表征;后处理单元根据仿真需求对原子表征进行分子性质预测和/或生成三维分子的几何结构,用于对药物生成中的先导化合物进行筛选和预合成。
技术总结
一种面向先导化合物合成与筛选的三维分子结构仿真方法,将分子的三维空间结构建模为三维图结构,选取三维图的中心原子节点及其邻居节点的编码输入含参数的量子参数电路中,基于量子机器学习技术从图结构中得到完整的分子表示;再将分子表示进行分子性质预测和/或解决三维分子几何生成问题,对药物生成中的先导化合物进行筛选和预合成,实现仿真。本发明能够带来参数化量子电路最主要的性能提升,即参数量的大幅度下降,借用指数级别的希尔伯特空间对编码的特征进行映射,使能够仅用很少的参数就完成学习的同时避免量子层析带来的巨大开销,高效获得实数域的分子表征。高效获得实数域的分子表征。高效获得实数域的分子表征。
技术研发人员:严格 严骏驰
受保护的技术使用者:上海交通大学
技术研发日:2023.06.13
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:业务处理方法、装置、电子设备及存储介质与流程 下一篇:账户数据分析方法及装置与流程
