基于遗传算法和分子对接模拟的分子优化模型

未命名 10-19 阅读：139 评论：0

1.本发明涉及分子优化和分子生成技术领域，具体为一种基于遗传算法和分子对接模拟的分子优化模型。

背景技术：

2.一个有效的药物设计流程会产生符合特定标准的药物小分子，如对特定靶标的疗效、药物的安全性、理想的理化性质等。发现具有理想理化性质的新药是一项具有挑战性的任务，事实上，在可合成分子的空间中进行搜索是非常困难的，在化学空间中大约有10
23
到10
60
种可能的类药结构，但只有约108种具有治疗意义。由于传统高通量筛选方法所产生的活性和非活性化合物数量之间的不平衡，识别有前景的药物分子结构非常困难，效率低下，且费用昂贵。近年来，高性能计算和大数据已经使人工智能方法超越了传统的药物发现方法，计算机与其他学科之间的交叉程度也显著提高。其中，分子优化是化学计算中对分子结构进行优化的过程，旨在寻找分子的最稳定构象。结合遗传算法和分子对接模拟技术，可以优化现有药物分子与对应靶标的结合亲和力，为在实际药物发现场景中应用计算方法创造新的机会。

技术实现要素：

3.本发明的目的是为了解决上述药物发现领域所面临的困难和挑战，提供一种基于遗传算法和分子对接模拟的分子优化模型。能够优化现有药物分子的结构，提高药物分子和靶标的结合亲和力，为药物发现提供新的思路。本发明的技术方案如下：
4.一种基于遗传算法和分子对接模拟的分子优化模型，其包括专家策略模块、学徒策略模块和分子对接模拟模块：
5.专家策略模块，专家策略通过对一组分子应用遗传算法(包括变异和交叉)，从而产生具有理想理化性质分布的分子。遗传算法主要为基于图的变异和交叉，它们在从头分子设计中展现出了最佳性能。首先从一组分子中随机选择两个亲代分子，然后，根据设定的概率进行环形交叉或非环形交叉，最后，在原子或键的水平上以小概率进行变异。新生成的分子存储于专家策略优先奖励队列中进行评估。
6.学徒策略模块，学徒策略是一个深度神经网络，经过训练可以生成新的分子。该策略采用transformer深度神经网络架构，并使用zinc-250k数据集进行预训练。学徒策略在每个优化步骤中逐一生成新的候选分子，新生成的分子存储于学徒策略优先奖励队列中进行评估，最后用分子对接模拟模块对候选分子进行评估，并选择最优分子作为最终输出。
7.分子对接模拟模块，分子对接模拟计算专家策略优先奖励队列和学徒策略优先奖励队列中的新分子与特定靶标的对接分数，构建3d结合构象，并更新队列，保留最优对接分数的分子，并为对接姿势的生成和对接后的分析提供一个灵活的模块化框架。
8.进一步的，所述基于遗传算法和分子对接模拟的分子优化模型的专家策略模块具体包括：
9.1)对随机选取一组分子随机应用遗传算法，包括变异和交叉操作；
10.2)变异操作包括原子删除、原子增加、原子插入、原子类型改变、键序改变、环键删除和环键增加七种，交叉操作包括非环交叉和环交叉；
11.3)将优化后的分子通过rdkit工具进行合法化检验，确保新分子为有效药物分子；
12.4)通过合法化检验的新分子存储于专家策略优先奖励队列中等待分子对接模拟。
13.进一步的，所述基于遗传算法和分子对接模拟的分子优化模型的学徒策略模块具体包括：
14.1)由于selfies的鲁棒性更高且可快速优化和调整分子结构，因此首先将数据集中的smiles字符串转换为selfies表示；
15.2)使用zinc-250k数据集对transformer深度神经网络进行预训练并保存最优模型；
16.3)学徒策略模块根据数据集分布生成新的药物分子，存储于学徒策略优先奖励队列中；
17.4)根据分子对接模拟模块反馈的对接分数，不断优化学徒策略优先奖励队列并指导模型生成。
18.进一步的，所述基于遗传算法和分子对接模拟的分子优化模型的分子对接模拟模块具体包括：
19.1)从rcsbproteindatabank(pdb)数据库获取特定靶标晶体结构的pdb文件；
20.2)确定对接程序需要的基本参数，包括对接盒子的中心坐标和体积；
21.3)进行分子对接模拟，计算新分子与特定靶标的对接分数，构建3d结合构象，并将对接分数反馈给专家策略模块和学徒策略模块。
22.本发明的有益效果如下：
23.本发明针对传统的药物发现方法在识别有前景的先导化合物结构方面效率低下，而且费用昂贵的局限性。设计了一种基于遗传算法和分子对接模拟的分子优化模型，借助遗传算法和分子对接模拟，优化现有药物分子结构，提高药物分子和对应靶标的结合亲和力，为药物发现提供新的思路。
24.本发明具有如下优点：
25.1)利用深度神经网络和遗传算法，结合分子对接模拟，优化现有药物分子结构，提高药物分子和对应靶标的结合亲和力；
26.2)利用专家策略和学徒策略相结合的方式，逐步优化分子结构，迭代筛选最优分子队列，最终得到具有最优亲和力分数的分子。
27.结果表明，所述基于遗传算法和分子对接模拟的分子优化模型可以探索更复杂的分子空间结构，进一步加速药物发现过程。
附图说明
28.图1是基于遗传算法和分子对接模拟的分子优化模型的生成和验证过程图
具体实施方式
29.以下结合具体实施方式进一步对本发明的技术方案进行阐述。
30.本发明为基于遗传算法和分子对接模拟的分子优化模型，能够优化现有药物分子的结构，提高药物分子和靶标的结合亲和力，为药物发现提供新的思路。一种基于遗传算法和分子对接模拟的分子优化模型，专家策略模块、学徒策略模块和分子对接模拟模块，基本步骤如下：
31.1)专家策略模块，专家策略通过对一组随机选取的分子应用遗传算法(包括变异和交叉)，从而产生具有理想理化性质分布的分子。遗传算法主要为基于图的变异和交叉，主要包括7种变异操作和2种交叉操作。首先随机选择两个亲代分子，然后，根据设定的概率进行环形交叉或非环形交叉，最后，在原子或键的水平上以小概率进行变异。
32.2)学徒策略模块，学徒策略是一个深度神经网络，经过训练可以生成新的分子。该策略采用transformer深度神经网络架构，并使用zinc-250k数据集进行预训练。学徒策略选择最优的预训练模型逐一生成新的分子，新生成的分子存储于学徒策略优先奖励队列中进行评估，最后用分子对接模拟模块对候选分子进行评估，并选择最优分子作为最终输出。
33.3)分子对接模拟模块，计算专家策略优先奖励队列和学徒策略优先奖励队列中的新分子与特定靶标的对接分数，构建3d结合构象，并更新队列，保留最优对接分数的分子，并为对接姿势的生成和对接后的分析提供一个灵活的模块化框架。
34.具体的，所述基于遗传算法和分子对接模拟的分子优化模型的专家策略模块具体包括：
35.1)对随机选取的一组分子随机应用遗传算法，包括变异和交叉操作；
36.2)变异操作包括原子删除、原子增加、原子插入、原子类型改变、键序改变、环键删除和环键增加七种，交叉操作包括非环交叉和环交叉；
37.3)将优化后的分子通过rdkit工具进行合法化检验，确保新分子为有效药物分子；
38.4)通过合法化检验的新分子存储于专家策略优先奖励队列中等待分子对接模拟。
39.具体的，所述基于遗传算法和分子对接模拟的分子优化模型的学徒策略模块具体包括：
40.1)由于selfies的鲁棒性更高且可快速优化和调整分子结构，因此首先将数据集中的smiles字符串转换为selfies表示；
41.2)使用zinc-250k数据集对transformer深度神经网络进行预训练并保存最优模型；
42.3)学徒策略模块根据数据集分布生成新的药物分子，存储于学徒策略优先奖励队列中；
43.4)根据分子对接模拟模块反馈的对接分数，不断优化学徒策略优先奖励队列并指导模型生成。
44.具体的，所述基于遗传算法和分子对接模拟的分子优化模型的分子对接模拟模块具体包括：
45.1)从rcsbproteindatabank(pdb)数据库获取特定靶标晶体结构的pdb文件；
46.2)确定对接程序需要的基本参数，包括对接盒子的中心坐标和体积；
47.3)进行分子对接模拟，计算生成分子与特定靶标的对接分数，构建3d结合构象，并将对接分数反馈给专家策略模块和学徒策略模块。
48.所述基于遗传算法和分子对接模拟的分子优化模型，接受药物selfies序列作为
输入，利用transformer深度神经网络预训练，所生成的分子利用遗传算法和分子对接模拟进行进一步的优化，以优化现有药物分子得到具有更优亲和力分数的新药物分子。随着后续药物理化性质信息、药物-靶标相互作用信息的扩充，将有更多数据用于所述模型的训练，从而进一步探索更有效的新药设计方法。
49.以上所述仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载内容之后，技术人员可以对本发明作各种改动与修改，这些等效变化和修饰同样落入本发明权利要求所定的范围。

技术特征：
1.一种基于遗传算法和分子对接模拟的分子优化模型，其特征在于，包括以下步骤：1)专家策略，对一组随机选取的分子应用遗传算法(包括变异和交叉)，从而产生具有理想理化性质分布的分子；2)学徒策略，采用transformer深度神经网络架构，并使用zinc-250k数据集进行预训练，经过训练后的模型可以生成新的分子；3)分子对接模拟，计算专家策略和学徒策略得到的新分子与特定靶标的对接分数，构建3d结合构象。2.根据权利要求1所述的基于遗传算法和分子对接模拟的分子优化模型，其主要特征在于，基于遗传算法和分子对接模拟的分子优化模型，包括专家策略模块、学徒策略模块和分子对接模拟模块。专家策略模块通过对一组随机选取的分子应用遗传算法，从而产生具有理想理化性质分布的分子。遗传算法主要为基于图的变异和交叉，主要包括7种变异操作和2种交叉操作。学徒策略模块采用transformer深度神经网络架构，并使用zinc-250k数据集进行预训练，选择最优的预训练模型逐一生成新的分子。分子对接模拟模块计算专家策略和学徒策略得到的新分子与特定靶标的对接分数，构建3d结合构象，保留最优对接分数的分子，并构建对接姿势作为对接后的分析依据。3.根据权利要求2所述的基于遗传算法和分子对接模拟的分子优化模型，其特征在于，专家策略模块具体包括：1)对随机选取一组分子随机应用遗传算法，包括变异和交叉操作；2)变异操作包括原子删除、原子增加、原子插入、原子类型改变、键序改变、环键删除和环键增加七种，交叉操作包括非环交叉和环交叉；3)将优化后的分子通过rdkit工具进行合法化检验，确保新分子为有效药物分子；4)通过合法化检验的新分子存储于专家策略优先奖励队列中等待分子对接模拟。4.根据权利要求2所述的基于遗传算法和分子对接模拟的分子优化模型，其特征在于，学徒策略模块具体包括：1)由于selfies的鲁棒性更高且可快速优化和调整分子结构，因此首先将数据集中的smiles字符串转换为selfies表示；2)使用zinc-250k数据集对transformer深度神经网络进行预训练并保存最优模型；3)学徒策略模块根据数据集分布生成新的药物分子，存储于学徒策略优先奖励队列中；4)根据分子对接模拟模块反馈的对接分数，不断优化学徒策略优先奖励队列并指导模型生成。5.根据权利要求2所述的基于遗传算法和分子对接模拟的分子优化模型，其特征在于，分子对接模拟模块具体包括：1)从rcsbproteindatabank(pdb)数据库获取特定靶标晶体结构的pdb文件；2)确定对接程序需要的基本参数，包括对接盒子的中心坐标和体积；3)进行分子对接模拟，计算生成分子与特定靶标的对接分数，构建3d结合构象，并将对接分数反馈给专家策略模块和学徒策略模块。6.一种计算机设备，包括存储器，显卡，中央处理器，所述存储器存储有计算机程序，其特征在于，所述中央处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的
步骤。

技术总结
本发明为一种基于遗传算法和分子对接模拟的分子优化模型，从而实现优化现有药物分子的结构，提高药物分子和靶标的结合亲和力，为药物发现提供新的思路，包括1)从通用药物数据集ZINC-250k中获取具有理想的类药物特性的分子，训练以Transformer深度神经网络为基础架构的学徒策略，生成新的分子；2)利用专家策略，对一组随机选取的新生成分子应用遗传算法(包括变异和交叉)，从而产生具有理想理化性质分布的分子；3)利用分子对接模拟，计算新生成分子与特定靶标的对接分数，构建3D结合构象，保留具有最优对接分数的分子；4)对模型进行参数调优，最优模型将用于靶向分子生成、药物发现等研究。等研究。

技术研发人员：王珣高畅楠陈文琪丁洪震
受保护的技术使用者：中国石油大学（华东）
技术研发日：2023.07.19
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于遗传算法和分子对接模拟的分子优化模型

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于遗传算法和分子对接模拟的分子优化模型

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表