一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法
未命名
09-13
阅读:321
评论:0
1.本发明属于分子模拟技术领域,具体涉及一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法。
背景技术:
2.sf6气体具有优异的绝缘和灭弧性能,其广泛应用于断路器、气体绝缘开关设备(gas insulated switchgear,gis)、气体绝缘输电线路(gas insulated transmission line,gil)等高压电气设备。然而sf6是一种极强的温室气体,其温室效应潜在值(global warming potential,gwp)约为co2的23500倍,大气寿命长达3200年。近年来,新型环保绝缘气体的研究引起了世界各国的关注,c5f
10
o、c3f7cn、cf3so2f等多种潜在的sf6替代绝缘气体相继出现,这些潜在的环保绝缘气体通常具有更接近或更好的绝缘强度和更低的gwp。然而新的绝缘气体的工业应用要根据年使用量的增加逐级开展更为严苛的毒理学测试,以明确其大规模应用的安全性。因此需要明确其毒性作用靶点以提出适用于环保绝缘气体的安全防护措施及急救方案,为大规模应用环保绝缘气体提供生物安全性参考。
3.目前从毒性靶点入手的实验费用是非常高昂的,实验手段包括亲和质谱、交联质谱等化学生物学的方法,去鉴定环保绝缘气体分子可能的毒性靶点。但这些实验方法往往会返回大量的结果,进而导致无法从中正确区分“真阳性与假阳性”。而计算预测有利于进一步缩小蛋白质靶标的范围,从而加快研究进程。
4.目前虽然有方法可以利用已知配体-蛋白质结合信息来匹配目标化合物的特征,从而找到跟目标化合物相似的已知的蛋白质-配体对,进而找出化合物的潜在靶点。但这一类方法受限于已有的化合物-蛋白相互作用数据,无论采用多么有效的小分子比对方法,类似于环保绝缘气体这种结构新颖的小分子均无法采用这一类方法取得准确的结果。因此,需要制定一种高效合理的方法对环保绝缘介质的毒性靶点进行预测。
技术实现要素:
5.针对现有技术的上述问题,本发明提供一种针对环保绝缘气体分子,且不依赖已有的化合物-蛋白相互作用数据进行高通量筛选毒性靶点的方法。该方法无需进行大规模细胞和动物试验,利用本地计算资源进行分子模拟计算即可实现快速预测环保绝缘气体毒性靶点。
6.本发明的目的通过下述技术方案实现:
7.一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法,包括以下步骤:
8.(1)建立蛋白数据库;
9.(2)配体准备:优化环保绝缘气体分子结构以获得配体的互变异构体和立体异构;
10.(3)受体准备:通过包括去除杂原子、残基,补残基,优化侧链和能量最小化,以优化蛋白质结构;
11.(4)寻找对接位点:通过搜索蛋白质分子的结合位点,根据口袋的空间场,口袋内
的静电场,找出潜在的排名靠前的受体结合位点;
12.(5)分子对接:将受体和配体进行模拟对接,并进行对接打分和排序,寻找环保绝缘气体分子潜在作用靶点;
13.(6)关键靶点筛选:构建蛋白质-蛋白质相互作用网络,并进行可视化和拓扑分析,筛选出核心指标最高的五种蛋白作为环保绝缘气体分子毒性机制的关键靶点;
14.(7)分子动力学验证环保绝缘气体分子与关键靶点的稳定性。
15.进一步,所述步骤(1)包括以下子步骤:
16.从genecards数据库(https://www.genecards.org)整理并获得人类基因组中所有蛋白质靶点。汇总并去重,转化为标准的gene symbol格式。将gene symbol格式的蛋白质靶点通过metascape数据库(https://metascape.org)进行基因本体论(go)富集分析,通过生物途径分析,挑选与毒理机制相关的生物途径及关联靶点。筛选得到的靶点通过uniprot数据库(https://www.uniprot.org/)进行id转换,转换为uniprot entry name。然后将uniprot entry name输入到getpdb脚本获得目前已解析的人类蛋白结构,包括x-ray、nmr及冷冻电镜解析的结构,以及人工智能alphafold2预测的结构。其中alphafold2预测的蛋白结构再使用julia脚本清理无序区域以使其适应分子对接,并提取无序区域的序列以使其可用于序列基序搜索。上述所有蛋白结构用于构建蛋白质数据库。
17.本发明需要建立蛋白质结构库以作为靶点的结构输入,然而将每个靶点的pdb数据逐个下载是非常繁琐的工作。本发明使用一个简单的脚本getpdb,可以直接根据uniprotid,非冗余的抓取自己所需的一系列蛋白质。
18.更进一步,所述蛋白数据库还包括通过人工智能alphafold2预测的结构。为了保证蛋白数据库的完整性,本发明还将人工智能alphafold2预测的蛋白结构也加入到蛋白数据库。然而alphafold2预测结构许多无序区域的低置信度结构使得这些结构难以用于分子对接。因此本发明使用julia脚本(该脚本可以清理alphafold2预测结构中的无序区域以使其适应分子对接,提取无序区域的序列以使其可用于序列基序搜索)的交互式参数来处理,避免了上述问题。
19.进一步,所述环保绝缘气体分子包括c4f7n、c5f
10
o和c6f
12
o等。
20.进一步,所述步骤(2)包括以下子步骤:
21.在进行分子对接前,先对环保绝缘气体分子(配体)进行准备。环保绝缘气体分子的化学结构用chemdraw软件画出,然后使用chem3d保存成sdf格式。结构优化使用软件中的maestro模块中的ligprep程序,使用opls力场进行能量最小化、ph 7.0
±
2.0质子化,使环保绝缘气体分子的3d结构达到最低能量构象,以产生配体的互变异构体和立体异构。
22.进一步,所述步骤(3)包括以下子步骤:
23.对蛋白质结构逐个准备是非常耗时的,本发明提出了两种针对不同大小数据库的蛋白准备方案,当蛋白数量低于10000种时使用软件包中的protein preparation wizard模块。当蛋白数据库过大时(大于10000个pdb结构),本发明使用rosettascore_jd2脚本,该脚本可以为超过10000个蛋白结构加氢加电荷以及补全侧链。
24.本发明蛋白准备的操作具体如下:
25.当数据库蛋白数量小于10000时选择protein preparation wizard模块:应用
软件的maestro中的protein preparation wizard模块进行蛋白的准备,包括去除杂原子、补残基、加氢,使propka在ph 7.0电离氨基酸,使用opls力场进行能量最小化。
26.当数据库蛋白数量大于10000时选择rosettascore_jd2脚本:将蛋白数据库的pdb文件输入rosetta score_jd2中。将谷氨酰胺、天冬酰胺以及组氨酸构象翻转设置为true。删除水分子以及其他未能被rosetta识别的残基分子,并选择优化侧链模式。
27.进一步,所述步骤(4)包括以下子步骤:
28.为了更精确的搜索蛋白质上的结合位点,实现对接的全局化。本发明使用软件中sitemap模块,对每个蛋白,根据口袋的空间场,口袋内的静电场,找出潜在的排名靠前的受体结合位点,根据sitemap的打分函数,对口袋进行打分排序,保留打分最高的口袋,即最有潜力成为环保绝缘气体分子结合位点的口袋。
29.进一步,所述步骤(5)包括以下子步骤:
30.力场的选择对分子对接的准确性非常重要。opls系列力场以适应的体系广泛著称。同时,glide作为一种经典的分子对接方法也已经在诸多计算任务中接受过足够的考验,其预测的准确率和鲁棒性也在多个benchmark中表现排名前列。在执行分子对接时,本发明使用基于opls力场的glide程序。具体操作如下。
31.使用软件中receptor grid generation模块,选择sitemap预测的位点,得到受体口袋网络文件。然后调用glide进行对接。glide对接程序认为蛋白质是一个刚性实体,而配体可以相对于受体的结合位点灵活移动。依据对接打分进行排序,保留打分最高的结合模式,以docking score为筛选标准,寻找环保绝缘气体分子潜在作用靶点。
32.更进一步,在分子对接中使用了xdock的脚本程序使上述步骤自动批量运行。将分子对接的结果按照结合自由能分数进行打分排序。优选的,以对接结合自由能小于-6kcal/mol为筛选标准挑选环保绝缘气体分子潜在靶点。
33.进一步,所述步骤(6)包括以下子步骤:
34.将步骤(5)中筛选得到的环保绝缘气体分子潜在靶点的uniprot id导入string数据库(https://string-db.org),物种选择为人种,构建蛋白质-蛋白质相互作用网络结果被下载并以tsv格式保存。将tvs文件导入cytoscape软件进行可视化和拓扑分析,拓扑网络中的核心指标最高的五种蛋白将被视为环保绝缘气体分子毒性机制的关键靶点。
35.构建蛋白质-蛋白质相互作用网络的构建是为了进一步识别环保绝缘气体分子毒性机理中的关键靶点。
36.进一步,所述步骤(7)包括以下子步骤:
37.为保证上述所得关键靶点的准确性和可靠性,本发明对关键靶点与环保绝缘气体分子的对接构象进行分子动力学研究以确定对接构象的稳定性。本发明使用的desmond模块进行分子动力学模拟,将glide分子对接的最佳构象文件作为动力学模拟的输入文件,使用spc水模型对蛋白质-配体复合物进行溶剂化,通过添加na
+
、cl-离子来维持离子平衡,模拟真实的生理条件。使用斜方的盒子来设置周期性条件,该系统使用等温-等压(npt)来进行平衡,以模拟蛋白质-配体复合物弛豫到稳态的过程。在分子动力学模型运行期间,使用simulation interactions diagram模块分析体系的均方根偏差(rmsd)判断对接结构的稳定性。
38.更进一步,所述分子动力学模型运行时间长度为30-70ns。优选的,分子动力学模型运行时间长度为50ns。
39.更进一步,如果rmsd波动范围在1nm以内,则认为对接结构稳定。基于上述步骤,本发明筛选到了环保绝缘介质的关键靶点,这些关键靶点与环保绝缘介质毒性最为密切。
40.本发明一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法具有下述优点:
41.1、本发明方法仅通过理论计算的方法实现了缩小环保绝缘气体毒性蛋白质靶点的范围,避免了大规模实验筛选潜在靶标,从而加快研究进程和减少实验成本。
42.2、与目前已有的基于形状结构相似原理靶标预测方法相比,本发明方法不受制于已有的化合物-蛋白相互作用数据,对于结构新颖的环保绝缘气体分子具有更优异的适用性。
43.3、本发明方法将人工智能alphafold预测的蛋白结构加入到了蛋白数据库中,使之拥有完整的蛋白数据库,避免了因蛋白数据库不全而导致蛋白靶点的遗漏。
44.4、本发明方法通过kegg/go数据库将候选靶蛋白进行了有针对性的预富集,筛选出高可能性的靶标再进行分子对接,节约了大量的计算资源。
45.5、本发明方法使用sitemap进行全局搜索蛋白中的对接位点,可以在蛋白质表面准确找到与蛋白与目标小分子的最优结合模式,同时,使用glide打分函数可以准确区分环保绝缘气体和蛋白质靶点的亲和力。
46.6、本发明方法所有步骤均以批量运行的方式进行,显著提高计算效率。
附图说明
47.图1为本发明提供的一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法的实施流程图;
48.图2为go富集分析的结果;
49.图3为c4f7n分子结构;
50.图4为构建的ppi互作网络;
51.图5为c4f7n与alb(a)、egfr(b)、casp3(c)对接示意图;
52.图6为c4f7n与alb(a)、egfr(b)和casp3(c)的配体-受体复合物的均方根偏差(rmsd),其中,cα为蛋白骨架(浅色线),对应左边纵轴;(lig)fit on prot为配体(环保绝缘气体,深色线),对应右边纵轴。
具体实施方式
53.下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
54.实施例
55.以环保绝缘气体c4f7n为例对其毒性靶点进行预测,包括以下步骤:1建立蛋白数据库
56.建立对接所需要的蛋白库。从genecards数据库(https://www.genecards.org)检索蛋白质靶点,将靶点名称转化为标准的gene symbol格式。如图2所示,将所有的gene symbol格式的蛋白质靶点通过metascape数据库(https://metascape.org)进行基因本体
论富集分析,通过生物途径分析,挑选与毒理机制相关的生物途径及关联靶点。保留后的潜在靶点共计735个,这些靶点与炎症、自噬、药物代谢等途径密切相关。使用getpdb脚本,从uniprot数据库中获取对应的蛋白结构,包括x-ray、nmr及冷冻电镜解析的结构,以及alphafold2预测的结构。每个靶点都会获得一系列蛋白晶体结构。共获得3934个蛋白质结构。
57.2配体准备
58.在进行分子对接前,先对环保绝缘气体分子c4f7n(配体)进行准备。c4f7n分子结构用chemdraw软件画出,然后使用chem3d保存成sdf格式。结构优化使用软件中的maestro模块中的ligprep程序,使用opls力场进行能量最小化、使用ph 7.0
±
2.0质子化、使环保绝缘气体分子的3d结构达到最低能量构象,以产生配体的互变异构体和立体异构。优化后的分子结构如图3所示。
59.3蛋白准备
60.应用软件的maestro中的protein preparation wizard模块对3934个蛋白进行优化,包括去除杂原子、补残基、加氢,使用propka在ph 7.0电离氨基酸,然后使用opls力场进行能量最小化。
61.4确定对接口袋
62.为了更精确的搜索蛋白质上的结合位点,实现对接的全局化,本发明使用软件中sitemap模块,对每个蛋白,根据口袋的空间场,口袋内的静电场,找出潜在的排名靠前的受体结合位点,根据sitemap的打分函数,对口袋进行打分排序,保留打分最高的口袋,即最有潜力成为环保绝缘气体分子结合位点的口袋。
63.5分子对接
64.使用软件中receptor grid generation模块,选择sitemap预测的位点,得到受体口袋网络文件。然后调用glide进行对接。glide对接程序认为蛋白质是一个刚性实体,而配体可以相对于受体的结合位点灵活移动。依据对接打分进行排序,保留打分最高的结合模式,以docking score为筛选标准,寻找环保绝缘气体分子潜在作用靶点。在分子对接中使用了xdock的脚本程序使上述步骤自动批量运行。将分子对接的结果按照结合自由能分数进行打分排序,表1为docking score小于-6kcal/mol的环保绝缘气体分子潜在靶点,共58个。
65.表1docking score小于-6kcal/mol的所有蛋白靶点
66.[0067][0068]
6关键靶点筛选
[0069]
将上一步骤中筛选得到的58个c4f7n分子潜在靶点的uniprot id导入string数据库(https://string-db.org),物种选择为人种,蛋白质-蛋白质相互作用网络结果被下载并以tsv格式保存。如图4所示,将tvs文件导入cytoscape软件进行可视化和拓扑分析,拓扑网络中的核心指标最高的三种蛋白将被视为环保绝缘气体c4f7n毒性机制的关键靶点。核心指标排名前3的靶点依次是alb、egfr、casp3。如图5所示,alb主要通过氟基和氰基形成的氢键(val455、gln459、val456、asp187、lys190、val191)。egfr通过ile466、trp453、thr464、tyr116、arg164氢键稳定的结合。casp3通过thr62、ile78、cso163、his121氢键稳定的结合。
[0070]
7分子动力学验证c4f7n与关键靶点的稳定性
[0071]
为保证上述所得关键靶点的准确性和可靠性,本发明对关键靶点与环保绝缘气体分子的对接构象进行分子动力学研究以确定对接构象的稳定性。本发明使用的desmond模块进行分子动力学模拟,将上部分中glide分子对接的最佳构象文件作为动力学模拟的输入文件,使用spc水模型对蛋白质-配体复合物进行溶剂化,通过添加na
+
、cl-离子来维持离子平衡,模拟真实的生理条件。使用斜方的盒子来设置周期性条件,该系统使用等温-等压(npt)来进行平衡,以模拟蛋白质-配体复合物弛豫到稳态的过程。分子动力学运行时间长度为50ns,并用simulation interactions diagram模块分析体系的均方根偏差(rmsd)。在50ns的模拟时间中,alb、egfr、casp3的rmsd波动范围均在1nm以内,认为对接结
构稳定(图6)。基于上述步骤,本实施例筛选到了c4f7n的关键靶点为alb、egfr、casp3,这些关键靶点与环保绝缘介质毒性机制相关。
[0072]
以上所述,仅为本发明较佳的具体实施方式,但本发明保护的范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内所做的任何修改,等同替换和改进等,均应包含在发明的保护范围之内。
技术特征:
1.一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,包括以下步骤:(1)建立蛋白数据库;(2)配体准备:优化环保绝缘气体分子结构以获得配体的互变异构体和立体异构;(3)受体准备:通过包括去除杂原子、残基,补残基,优化侧链和能量最小化,以优化蛋白质结构;(4)寻找对接位点:通过搜索蛋白质分子的结合位点,根据口袋的空间场,口袋内的静电场,找出潜在的排名靠前的受体结合位点;(5)分子对接:将受体和配体进行模拟对接,并进行对接打分和排序,寻找环保绝缘气体分子潜在作用靶点;(6)关键靶点筛选:构建蛋白质-蛋白质相互作用网络,并进行可视化和拓扑分析,筛选出核心指标最高的五种蛋白作为环保绝缘气体分子毒性机制的关键靶点;(7)分子动力学验证环保绝缘气体分子与关键靶点的稳定性。2.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(1)包括以下子步骤:从genecards数据库整理获得人类基因组中所有蛋白质靶点,汇总并去重;将蛋白质靶点通过metascape数据库进行基因本体论富集分析,通过生物途径分析,挑选与毒理机制相关的生物途径及关联靶点;筛选得到的靶点通过uniprot数据库进行id转换,转换为uniprot entry name;然后将uniprot entry name输入到getpdb脚本获得目前已解析的人类蛋白结构;在前述蛋白质结构的基础上,加入利用人工智能alphafold2预测得到的蛋白质结构。3.根据权利要求2所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述环保绝缘气体分子包括c4f7n、c5f
10
o和c6f
12
o。4.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(2)包括以下子步骤:将环保绝缘气体分子的化学结构进行优化以得到最低能量构象,以产生配体的互变异构体和立体异构。5.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(3)包括以下子步骤:当数据库蛋白数量小于10000时,应用软件的maestro中的protein preparation wizard模块进行蛋白的准备,包括去除杂原子、补残基、加氢,使propka在ph 7.0电离氨基酸,使用opls力场进行能量最小化;当数据库蛋白数量大于10000时,将蛋白数据库的pdb文件输入rosetta score_jd2中,将谷氨酰胺、天冬酰胺以及组氨酸构象翻转设置为true,删除水分子以及其他未能被rosetta识别的残基分子,并选择优化侧链模式。6.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(4)包括以下子步骤:利用软件中sitemap模块,对每个蛋白,根据口袋的空间场和口袋内的静电场,找出潜在的排名靠前的受体结合位点,根据sitemap的
打分函数,对口袋进行打分排序,保留打分最高的口袋,即最有潜力成为环保绝缘气体分子结合位点的口袋。7.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(5)包括以下子步骤:使用软件中receptor grid generation模块,选择sitemap预测的位点,得到受体口袋网络文件;然后调用glide进行对接;依据对接打分进行排序,保留打分最高的结合模式,以docking score为筛选标准,寻找环保绝缘气体分子潜在作用靶点。8.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(6)包括以下子步骤:将步骤(5)中筛选得到的环保绝缘气体分子潜在靶点的uniprot id导入string数据库,物种选择为人种,得到蛋白质-蛋白质相互作用网络结果;将结果导入cytoscape软件进行可视化和拓扑分析,拓扑网络中的核心指标最高的五种蛋白将被视为环保绝缘气体分子毒性机制的关键靶点。9.根据权利要求1所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(7)包括以下子步骤:使用的desmond模块进行分子动力学模拟,将glide分子对接的最佳构象文件作为动力学模拟的输入文件,使用spc水模型对蛋白质-配体复合物进行溶剂化,通过添加na
+
、cl-离子来维持离子平衡,模拟真实的生理条件,使用斜方的盒子来设置周期性条件,该系统使用等温-等压来进行平衡,以模拟蛋白质-配体复合物弛豫到稳态的过程,在分子动力学模型运行期间,使用simulation interactions diagram模块分析体系的均方根偏差判断对接结构的稳定性。10.根据权利要求9所述的快速高通量筛选环保绝缘气体吸入毒性靶点的方法,其特征在于,所述步骤(7)中,若均方根偏差波动范围在1nm以内,则认为对接结构稳定,进而筛选出与环保绝缘介质毒性最为密切的关键靶点。
技术总结
本发明公开一种快速高通量筛选环保绝缘气体吸入毒性靶点的方法,包括以下步骤:(1)建立蛋白数据库;(2)配体准备;(3)受体准备;(4)寻找对接位点;(5)分子对接:将受体和配体进行模拟对接,并进行对接打分和排序,寻找环保绝缘气体分子潜在作用靶点;(6)关键靶点筛选;(7)分子动力学验证环保绝缘气体分子与关键靶点的稳定性。本发明方法仅通过理论计算的方法实现了缩小环保绝缘气体毒性蛋白质靶点的范围,避免了大规模实验筛选潜在靶标,从而加快研究进程和减少实验成本。本发明方法不受制于已有的化合物-蛋白相互作用数据,对于结构新颖的环保绝缘气体分子具有更优异的适用性。该方法显著提高计算效率。方法显著提高计算效率。方法显著提高计算效率。
技术研发人员:田双双 张晓星 刘伟豪 叶凡超
受保护的技术使用者:湖北工业大学
技术研发日:2023.05.30
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种基于知识图谱注意力网络的装备健康状态评估方法 下一篇:线缆保护装置的制作方法
