一种可解释模块化结构网络的细胞代谢模型

未命名 09-08 阅读:158 评论:0


1.本发明属于生物技术与信息技术交叉领域,涉及微生物的可解释模块化基因组规模代谢网络模型的构建。


背景技术:

2.代谢是指在生物体内所发生的一系列化学反应,代谢系统在微生物体内的细胞活动中起到了非常关键的作用。基因组规模代谢网络模型(gsmm)一直被认为可以表达出细胞代谢过程中代谢物、代谢反应与蛋白质之间的关系,基因组规模代谢网络模型作为一个自下而上的系统生物学工具,使得代谢网络模型得到了基于某些特定约束的细胞代谢和表型的预测。在gsmm的基础上整合其他组学数据来提升模型是提升gsmm性能的发展方向之一。其中,酶约束的代谢网络模型被认为可以有效的通过整合蛋白酶用量数据进行通量约束从而提升模型性能。
3.在利用微生物酶约束的基因组规模代谢网络模型进行表型和代谢预测时,常用的方法是基于通量平衡的分析方法。通量平衡分析是一种通过细胞代谢网络分析与代谢物相关反应通量的数学方法,该方法定义了一个基于单目标求解的线性规划问题,优化目标是微生物的比生长速率达到最大。通过通量平衡分析方法得到线性规划的优化结果是一组唯一的通量分布,它可以作为分析、设计微生物代谢过程的工具。
4.随着全细胞数字模型概念的提出,代谢网络的重要性进一步的提高,对代谢网络模型的结果要求也越来越高。当代谢网络模型的求解结果能够达到一定的精度后,可以用来指导代谢工作或基因工程的研究。因此提出了一种基于稳态假设的可解释模块化网络结构细胞代谢模型,构建由四个模块整合的双隐层网络模型。同时,通过对网络的计算公式分析和推导,试图开发新的求解方法,引入带有随机性的差法进化算法使计算的结果不再单一,符合生物生长的随机性规律。为代谢网络模型的构建方法展现出一个新的思路。
5.差分进化算法是一种求解问题的简单的、有效的启发式并行搜索算法,具有收敛快、控制参数少且设置简单、优化结果稳健等优点,是一种基于种群的全局搜索算法。差分进化算法把一定比例的多个个体的差分信息作为个体的扰动量,使得算法在搜索方向上具有适应性。由于在初始化过程中随机给定初始迭代个体,并且在每个迭代环节都引入了随机性的参数,所以差分进化算法都具备很好的随机性,具有向种群个体学习的能力,使得其拥有其他进化算法无可比拟的性能。


技术实现要素:

6.本发明的目的是提出了一种基于稳态假设的可解释模块化网络结构细胞代谢模型,构建由四个模块整合的双隐层网络模型。通过网络的计算公式推导后,引入差分进化算法进行模型的求解。
7.为了实现上述发明目的,本发明的具体技术方案是:
8.一种可解释模块化结构网络的细胞代谢模型,是由四个模块整合的双隐层网络模
型构建;通过网络的计算公式推导后,引入差分进化算法进行模型的求解;得到可解释模块化结构网络的细胞代谢模型;具体包括如下步骤:
9.步骤1,确定代谢网络的四个模块;
10.步骤2,建立四个模块之间的连接,将四个模块整合成一个完整的网络模型,对各层之间的连接赋予实际意义;
11.步骤3,对各层与它们之间连接的参数进行预处理,确定模型参数和结构;
12.步骤4,分析网络的输入到输出之间的关系,建立数学公式。对公式进行推导,构建新的计算方法;
13.步骤5,设置迭代参数,对代谢模型进行模拟计算。
14.具体的,对于步骤1中所述的网络模块,可解释模块化网络结构的细胞代谢模型可以分为四个模块:酶浓度模块、通量上界模块、通量数据模块与代谢物浓度模块。考虑到蛋白酶对反应存在着不可忽略的催化作用,这种作用会使代谢反应通量发生变化。将整个网络模型的输入部分定为酶浓度模块,将输入层定义为酶的浓度。第一隐藏层与第二隐藏层分别为通量上界模块和通量大小模块。代谢物浓度模块作为的是网络输出层,即表示代谢过程中各代谢物的浓度变化。
15.具体的,对于步骤2中所述的模块连接,根据各子模块的定义,可以将四个模块整合成一个完整的可解释结构的网络模型。各模块之间通过权值连接。其中,输入层与第一隐藏层通过酶的周转数k
cat
进行连接,将酶浓度和周转数计算得出反应的通量上界,形成蛋白酶约束。第一隐层与第二隐层之间是一个由权值一一对应连接的关系,即各反应的通量大小是由它们的通量上界的不同比重决定的。第二隐层与输出层一起构成了稳态平衡条件,其中的所有权值同样具有实际的意义。如果第二隐藏层节点所表示的代谢反应中包含了输出层所表示的代谢物,那么它们之间存在一个化学计量系数用来表示它们之间的关系。那么第二隐层与输出层节点之间的关系就由化学计量系数来表达。四个模块都通过具有可解释性的权值连接在一起,构建了一个完整的具有很强的可解释的模块化网络结构细胞代谢模型。
16.具体的,对于步骤3所述的参数预处理,在对模型求解之前,一些关键的参数需要提前给定,包括输入的酶浓度、酶周转数以及模型的化学计量矩阵。由于可解释模块化网络的细胞结构代谢模型的输入是各蛋白酶的浓度,通过给定各蛋白质浓度,从而约束代谢反应的通量上界。但是,细胞内的蛋白质数量非常庞大,想要在细胞生长的过程中对个蛋白酶的浓度进行实时的测量是十分困难的。那么,我们可以选择从数据库中获取的蛋白质丰度数据,通过计算后代表细胞内的蛋白酶浓度,从而达到约束代谢反应的作用。在不同的酶催化条件下,由于蛋白酶催化代谢反应存在一定的逻辑关系,如“or”和“and”。所以在网络模型进行计算之前,需要对同时催化同一个反应的蛋白酶进行分析和处理。对于模型的化学计量矩阵,它是一个非常稀疏的矩阵,其中的每一个非零元素代表的是代谢物和代谢反应之间的计量关系。他们都需要在进行求解之前完成参数的处理。
17.具体的,对于步骤4中的公式推导,从可解释模块化网络结构的细胞代谢模型的结构可以看出,由于网络中的大部分参数都是需要预先给定的,所以模型求解的关键在于寻找第一隐藏层与第二隐藏层之间连接的权重。同时,该模块化网络结构的模型中大部分参数已经被固定,并且随着模型维度的上升,继续采用一般的基于梯度的计算方法可能无法
有效的找到最优解。那么,同时为了能够在求解过程中引入一定的随机性来更好的体现细胞生长的规律,我们对模型的公式进行了一定的推导,开发了基于差分进化算法以及矩阵零空间搜索的新求解方法。
18.具体的,对于步骤5中代谢模型,对比模型与kegg数据库和uniprot数据库中的代谢反应和酶催化关系,确定原模型的具体数据,根据各代谢反应和代谢物之间的化学计量系数确定。最后在brenda数据库中获取中心代谢中蛋白酶在代谢反应上的酶周转数。
19.与现有的技术相比,本发明方法具有以下的优点和有益效果:(1)提出了代谢网络模型的新结构,使模型能匹配表现更复杂的过程;(2)模型中的每一个节点和连接都包含实际的意义,使得模型具有很强的可解释性;(3)将计算后的酶丰度数据代替酶浓度,解决了酶浓度无法进行测量的局限;(4)通过公式推导开发了基于差分进化算法的模型求解方法,引入了随机性使结果更加具有合理性;(5)对微生物比生长速率的模拟结果更加准确,能提升模型的精度。
附图说明
20.图1为本发明中可解释模块化网络结构的细胞代谢模型的结构图。
21.图2为本发明中提出的求解算法在酿酒酵母中心代谢上的总目标函数迭代曲线。
22.图3为本发明中提出的求解算法在酿酒酵母中心代谢上的违反上下界程度迭代曲线。
23.图4为本发明中提出的求解算法在酿酒酵母中心代谢上的比生长速率迭代曲线。
具体实施方式
24.以下通过实施例对本发明作进一步说明:
25.可解释模块化网络结构细胞代谢模型中,本实例采用的是酿酒酵母的中心代谢模型,该模型共包含了113个代谢反应、81个代谢物和151个蛋白酶。本实施例利用该模型构建酿酒酵母的可解释模块化结构网络代谢模型并使用新求解方法进行求解。图1为发明中可解释模块化结构网络细胞代谢模型的整体结构图。
26.1.各模块的设计与整合
27.可解释模块化网络结构细胞代谢模型可以分为四个模块(见图1):酶浓度模块、通量上界模块、通量数据模块与代谢物浓度模块。酶浓度作为整个网络的输入部分,输入不同的酶浓度数据求得对应条件下的反应通量大小。通量上界模块作为第一隐藏层,代表了代谢过程中各代谢反应的允许通量上界,规定了网络在求解时各反应的求解范围。第二隐藏层为通量数据模块,表征出各代谢反应的具体通量大小。它是可解释模块化网络结构细胞代谢模型的求解核心,代谢网络的求解目标即为得到一组满足条件的通量数据,因此该模块的数据是评判网络模型运算结果的关键。代谢物浓度模块作为的是网络输出层,即表示代谢过程中各代谢物的浓度变化。该模块在求解模型时起到了至关重要的作用,是可解释模块化网络结构细胞代谢模型的基底。
28.该网络建立在细胞处在稳态建模的基础上,根据各子模块的定义,可以将四个模块整合成一个完整的可解释结构的网络模型。提出的模块化网络模型是一个双隐藏层的神经网络模型,输入层为蛋白酶的浓度,第一隐藏层为各代谢反应的通量上界,第二隐藏层为
各代谢反应通量大小,输出层为代谢物的浓度变化。各模块之间通过权值连接。其中,输入层与第一隐藏层通过酶的周转进行连接,将酶浓度和周转数计算得出反应的通量上界,形成蛋白酶约束。第一隐层与第二隐层之间是一个由权值一一对应连接的关系,即各反应的通量大小是由它们的通量上界的不同比重决定的。第二隐层与输出层一起构成了稳态平衡条件,其中的所有权值同样具有实际的意义。如果第二隐藏层节点所表示的代谢反应中包含了输出层所表示的代谢物,那么它们之间存在一个化学计量系数用来表示它们之间的关系。那么第二隐层与输出层节点之间的关系就由化学计量系数来表达。四个模块都通过具有可解释性的权值连接在一起,构建了一个完整的具有很强的可解释的模块化网络结构细胞代谢模型。
29.2.模块化网络的解释性
30.与一般神经网络只对输入和输出进行定义不同,该模块化网络模型的每一个节点和连接是包含了实际意义的,即模型具备很强的可解释性。
31.从图1中可以看出,可解释模块化网络结构细胞代谢模型将其各模块以神经网络的形式整合在了一起。对于酶约束模块,每一个输入的节点都代表了代谢过程中的一种蛋白酶。那么输入层与第一隐藏层之间的连接权重应该为酶的周转数,以此建立蛋白酶约束限制反应速率。
32.第一隐藏层为代谢反应速率上界,根据公式(1)将酶周转数与酶浓度之间的乘积定义为存在催化关系的通量上界[9]。若该蛋白酶与代谢反应之间没有构成催化关系,则该连接将被置为零。其中可以看到r6节点没有前置的输入节点,这意味着该反应没有受到蛋白酶的催化作用,因此需要人为的给定一个的上界值。
[0033]
r=k
cat
·eꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0034]
由图1中输入层与输出层之间的连接情况也可以看出,酶催化可以分成3种类型。第一种类型为单个酶催化单个反应,即一一连接的关系。那么只需要获取对应的酶浓度和周转数后根据公式(1)进行上界的计算即可。第二种情况是单个酶催化不同的多个反应,即一对多。说明某一个蛋白酶可以同时对多个反应产生催化效果,它们对这些反应的催化能力是不同的,那么它们的该反应上的酶周转数也不同。所以在得到酶浓度数据后,需要根据催化反应的获取对应的k
cat
参数,而后再根据公式(1)进行计算。第三种情况是多个酶催化同一种反应,即多对一。这种情况是最为复杂的,这是由于多个酶在催化同一个反应时,这些酶之间会产生一定的关系,从而影响最终的催化效果。所以在得到对应的酶浓度和周转数参数后,需要对他们之间的关系进一步分析。分析方法在参数部分进行具体的描述。
[0035]
第一隐藏层与第二隐藏层之间构成的是反应通量模块。第二隐藏层为各代谢反应的通量大小,通过一个权重参数w与速率上界r的乘积计算得到,见公式(2)。因此权重参数w应是一个0到1内的实数。由此可见第一隐藏层与第二隐藏层之间是一一连接的关系。每个代谢反应的通量范围由前面的酶约束模块输出的通量上界决定。
[0036]
v=w
·rꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0037]
最后的稳态平衡模块包含第二隐藏层与输出层。输出层为各代谢物浓度的变化,s为所对应的代谢反应和代谢物的化学计量系数。该模型仍是基于稳态建模的,因此仍假定代谢物浓度不随时间发生变化。则该层的计算公式见公式(3)。同样的,对于没有联系的代谢物和代谢反应之间的连接将被置为零。
[0038]s·
v=m=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0039]
从公式中可以看出,模型的求解关键在于找到一组合适的权重参数w。在输入一组蛋白酶浓度后,先通过公式(1)计算各反应速率上界,再找到一组合适的w使各反应通量大小符合公式(3)的稳态条件。其中,酶的周转数k
cat
、化学计量系数s需要作为网络的预先输入。在输入酶浓度e后,网络的求解得到一组w,并根据公式(2)得到具体的反应通量模拟结果。
[0040]
由此可见,该模块化网络模型具有很强的可解释性,网络中的所有部分都包含了实际的意义。模型的构建可以完全用直观的公式展现,数据从输入层到输出层的过程也可以直接用公式表达。各模块的机理以及它们之间整合也可以清晰的解释。
[0041]
3.模型的参数预处理
[0042]
根据图1的模型结构可以看出,在对模型求解之前,一些关键的参数需要提前给定,包括输入的酶浓度e、酶周转数k
cat
以及模型的化学计量矩阵s。
[0043]
由于可解释模块化网络结构细胞代谢模型的输入是各蛋白酶的浓度,通过给定各蛋白质浓度,从而约束代谢反应的通量上界。但是,细胞内的蛋白质数量非常庞大,想要在细胞生长的过程中对各蛋白酶的浓度进行实时的测量是十分困难的。那么,我们可以选择从数据库中获取的蛋白质丰度数据,通过计算后代表细胞内的蛋白酶浓度,从而达到约束代谢反应的作用。因此,我们需要对丰度数据进行处理并进行计算。具体的酶浓度计算方法见公式(4)。
[0044][0045]
其中,abundance是从数据库中获取的蛋白质丰度数据,mw为该蛋白质的分子质量。各蛋白质的分子质量可以在数据库uniprot中获取。由此即可通过计算获得基于蛋白质丰度的酶浓度估计值。
[0046]
在网络模型进行计算之前,需要对同时催化同一个反应的蛋白酶进行分析和处理。逻辑关系“or”指的是几种酶对于催化同一个反应的效果是相当的,当某一个酶对该反应的催化作用达到最大时,其他酶的催化作用可以忽略不计。那么对于这样的蛋白酶催化逻辑关系,同时也为了不约束通量上界过小,我们选择能使反应通量上界最大的那个酶与其对应的k
cat
和e来进行下一步的计算,其中酶的周转数可以在brenda数据库中得到。如对于两个逻辑关系为“or”并且催化同一代谢反应的酶,它们的浓度和在该反应上的周转数分别为e1和e2以及k
cat1
和k
cat2
,则该代谢反应的速率上界计算公式见公式(5)
[0047]
e1or e2:r=max{k
cat1
·
e1,k
cat2
·
e2}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0048]
同样的,对于逻辑关系为“and”的几种酶同时催化同一种反应,表示该代谢反应中这几种酶缺一不可。每一种酶都参与了催化的过程,缺少某一个酶则无法起到催化作用。那么催化作用的大小就由作用最小的那个蛋白酶决定。反应在模型中,就是找到这几个酶在这个反应上用公式(1)的计算值之间的最小值。同样的,对于两个酶以“and”为关系同时催化同一个反应的情况可以用公式(6)表示。
[0049]
e1and e2:r=min{k
cat1
·
e1,k
cat2
·
e2}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0050]
在提出的模型进行w的求解之前,需要将输入层到第一隐藏层的结构与参数进行确定。这是由于这部分的处理与运算可以在确定模型中的酶周转数参数并且输入酶浓度之
后直接得出。而如果在进行网络计算时额外加入的逻辑运算,将大幅度降低其运算效率。
[0051]
最后,对于模型的化学计量矩阵s,可以从模型数据库bigg中获取代谢模型后提取出其中的化学计量矩阵s。它是一个非常稀疏的矩阵,其中的每一个非零元素代表的是代谢物和代谢反应之间的计量关系。进行imnmm求解之前,第二隐层与输出层之间的参数s需要事先给定。在完成了上述的参数设置后,则需要对最重要的w权重向量进行求解。
[0052]
4.模型的求解方法
[0053]
从可解释模块化网络结构细胞代谢模型的结构可以看出,由于输入层到第一隐藏层以及第二隐藏层到输出层的参数都是需要预先给定的,所以模型求解的关键在于寻找第一隐藏层与第二隐藏层之间连接的权重w。同时,该模块化网络结构的模型中大部分参数已经被固定,并且随着模型维度的上升,继续采用一般的基于梯度的计算方法可能无法有效的找到最优解。那么,同时为了能够在求解过程中引入一定的随机性来更好的体现细胞生长的规律,我们对模型的公式进行了一定的推导,试图发现一些新的计算方法。
[0054]
令net(x)为可解释模块化网络结构细胞代谢模型的输出。b为输入层到第一隐藏层的偏置,在这里b可以理解为给定的未受到蛋白酶约束的代谢反应的通量上界。那么当模型中有n个蛋白酶,m个代谢反应,k个代谢物时,根据神经网络模型的计算公式,我们可以把该代谢模型的计算过程表示成公式(7)的形式。
[0055][0056]
那么,各矩阵的维度可以见表1。需要指出的是,由于第一隐藏层和第二隐藏层是一一对应的关系,所以w是一个对角阵。
[0057]
表1各矩阵及其维度
[0058][0059]
那么对于公式(7),我们可以将其简单写为公式(8)的形式。
[0060][0061]
则对于等式(8),对等式两边同时取转置,即可得如下公式。
[0062]s·w·
(k
cat
·
x
t
+b
t
)=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0063]
令k
cat
·
x
t
+b
t
=d,那么d是一个m
×
1的向量。则公式(9)可以改写为公式(10)。
[0064]s·w·
d=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0065]
根据矩阵乘法的分配律,我们可以先进行公式(11)的计算。
[0066]s·
(w
·
d)=0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0067]
由于w是一个对角阵,d是一个向量,那么我们可以对(w
·
d)的计算进行公式(12)的变化。
[0068][0069]
即把对角阵的w和向量d的各元素对换位置,它们的乘积结果不会发生变化。我们将变换后的矩阵命名为和则此时为m
×
1的向量,为m
×
m的对角阵。那么公式(11)可以改写为公式(13)。
[0070][0071]
令h为k
×
m的矩阵。那么将视为待求解参数时,可以构成一个线性齐次方程组。
[0072][0073]
一般而言,代谢网络中的代谢物数量少与代谢反应的数量,即k<m。同时,代谢网络具有很大的自由度,所以该线性齐次方程组应会有无穷多组解,因此尝试求得该方程组的通解。
[0074]
令rank(h)=z<m,那么我们可以通过求h矩阵的零空间获取方程组的一组由m-z个向量组成的基础解系。
[0075]
p=null(h)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0076]
那么p应当为一个m
×
(m-z)维的矩阵,可以表示为公式(16)的形式。
[0077]
p=(p1p2p3…
p
m-z
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0078]
其中的p是m
×
1的向量。那么,公式(14)的线性齐次方程组的通解可以表示成公式(17)的形式。
[0079][0080]
其中q为实数。线性齐次方程组的通解可以表示为m-z个基础解系的线性组合。改写为矩阵形式可得公式(18)。
[0081][0082]
那么求得的即可满足公式(7)的要求。则此时代谢反应的通量计算方法见公式(19)。
[0083][0084]
此时,模型的求解问题转化为q向量的寻优问题。由于q由m-z个实数组成,同时为了引入一定的随机性,考虑采用差分进化算法进行q向量的寻优。
[0085]
差分进化算法(de)是一种简单的、有效的启发式并行搜索优化算法,是目前功能最强大的随机搜索算法之一,在许多领域都有着广泛应用。在可解释模块化网络结构代细胞谢模型中,我们采用标准de算法进行q向量的寻优。标准de算法的流程包括初始化、变异、交叉、选择等迭代过程。在可解释模块化网络结构细胞代谢模型的求解过程中,采用了随机的初始化方法、de/rand/1的变异策略以及二项式交叉策略。我们希望能在搜索空间中进行全局的搜索,以尽可能找到最优解。同时,根据上述公式的推导可以保证在迭代过程中的所有个体都能在理论上使得模型的输出net(x)=m=0,那么在寻优过程中有两个需要优化的
目标:(1)比生长速率达到最大;(2)使反应通量v在可行的上下界范围内。由于这两个目标并不是相互矛盾的,它们可以在某种情况下同时达到最优,因此无法采用多目标的选择方法进行寻优。那么,优化问题可以将两个目标组合为单目标,从而描述为公式(20)的形式。
[0086]
minf=-m
·
(p
·
q)
obj
+∑max(-(ub-p
·
q)(p
·
q-lb)
·
correction2,0)
ꢀꢀꢀ
(20)
[0087]
以公式(20)构建的无约束单目标问题进行q的寻优,公式中第一项表示比生长速率,第二项表示通量突破上下界的程度。其中,ub和lb分别为各反应通量的上下限范围,都在[0,1]的范围内。obj为表示比生长速率,m是一个可变参数,correction为一个修正参数。公式中的m参数是在将多个优化目标整合为单目标时的放大系数,为了使得两个目标更好的匹配。由于不同的代谢反应通量大小量级也是不同的,那么在计算通量违反上下界的程度时,如果不引入一个修正项会使得不同反应在突破上下界时对迭代计算的影响产生很大的差异。因此引入correction参数来平衡这种差异。
[0088]
5.构建酿酒酵母中心代谢的可解释模块化网络细胞代谢模型
[0089]
酿酒酵母的蛋白质丰度数据可以在数据库paxdb中获取。在paxdb数据库中,共有18组丰度数据,覆盖率从最低的16%到最高96%。每一组数据由于测量的条件、所受到测量的蛋白质总量不同,每组间相同蛋白质的测量结果存在差距。同样的,为了避免过多限制代谢反应的通量上界,我们对比了paxdb中获取的18组蛋白质丰度数据。相同的蛋白质,我们选择18组数据中最大的丰度值作为参考,根据公式(1)和公式(4)计算出它们的估计蛋白质浓度和对应的代谢反应通量上界。
[0090]
考虑到酿酒酵母在有乙醇的环境中生长会受到抑制,尤其是当该乙醇是由酿酒酵母代谢过程中自己产生的时候。并且,细胞内葡萄糖的含量将很大程度上影响微生物的生长速率。因此,将m定义为公式(21)的形式。
[0091][0092]
同样的,我们将修正参数correction定义为公式(22)的形式。
[0093][0094]
其中,如果代谢反应的ubi=0,那么给定一个很小的值作为上界ubi=10-8
,来保证公式(22)可以正常的计算。
[0095]
优化的目标函数可以分为比生长速率最大和违反上下界的程度最小两个部分,见公式(23)。
[0096]
min f=f1+f2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)
[0097]
其中f1=-m
·
(p
·
q)
obj
代表比生长速率的部分,f2=∑max(-(ub-p
·
q)(p
·
q-lb)
·
correction2,0)代表违反上下界的程度,q为待寻优的参数。
[0098]
我们将葡萄糖的消耗、氧气的消耗、乙醇的产出、醋酸盐的产出以及二氧化碳的产出的实验数据作为约束条件。设置最大世代数为50000,交叉概率cr=0.5,种群规模为1000。我们对生长情况进行了20次重复运算。分别绘制了总目标函数f、违反上下界程度f2和比生长速率三张迭代图,分别见图2、图3和图4。

技术特征:
1.一种可解释模块化结构网络的细胞代谢模型,其特征在于,是由四个模块整合的双隐层网络模型构建;通过网络的计算公式推导后,引入差分进化算法进行模型的求解;得到可解释模块化结构网络的细胞代谢模型;具体包括如下步骤:步骤1,确定代谢网络的四个模块;步骤2,建立四个模块之间的连接,将四个模块整合成一个完整的网络模型,对各层之间的连接赋予实际意义;步骤3,对各层与它们之间连接的参数进行预处理,确定模型参数和结构;步骤4,分析网络的输入到输出之间的关系,建立数学公式;对公式进行推导,构建新的计算方法;步骤5,设置迭代参数,对代谢模型进行模拟计算,得到可解释模块化结构网络的细胞代谢模型。2.根据权利要求1所述的一种可解释模块化结构网络的细胞代谢模型,其特征在于,所述步骤1中的代谢网络的四个模块:酶浓度模块、通量上界模块、通量数据模块、以及代谢物浓度模块;其中,将整个网络模型的输入部分定为酶浓度模块;将输入层定义为酶的浓度;第一隐藏层与第二隐藏层分别为通量上界模块和通量大小模块;代谢物浓度模块作为的是网络输出层,即表示代谢过程中各代谢物的浓度变化。3.根据权利要求1所述的一种可解释模块化结构网络的细胞代谢模型,其特征在于,所述步骤2的中网络各模块之间的连接,是将步骤1中四个模块整合成一个完整的可解释结构的网络模型,所述网络模型是模块化的一个双隐藏层的神经网络模型,输入层为蛋白酶的浓度,第一隐藏层为各代谢反应的通量上界,第二隐藏层为各代谢反应通量大小,输出层为代谢物的浓度变化;所述网络模型中的各模块之间通过权值连接;其中,输入层与第一隐藏层通过酶的周转数进行连接,将酶浓度和周转数计算得出反应的通量上界,形成蛋白酶约束;第一隐层与第二隐层之间是一个由权值一一对应连接的关系,即各反应的通量大小是由它们的通量上界的不同比重决定的;第二隐层与输出层一起构成了稳态平衡条件,其中的所有权值同样具有实际的意义;如果第二隐藏层节点所表示的代谢反应中包含了输出层所表示的代谢物,那么它们之间存在一个化学计量系数用来表示它们之间的关系;那么第二隐层与输出层节点之间的关系就由化学计量系数来表达;四个模块都通过具有可解释性的权值连接在一起,构建了一个完整的具有很强的可解释的模块化网络结构细胞代谢模型。4.根据权利要求1所述的一种可解释模块化结构网络的细胞代谢模型,其特征在于,所述步骤3中的网络参数预处理,所述网络参数包括输入的酶浓度、酶周转数以及模型的化学计量矩阵。5.根据权利要求1所述的一种可解释模块化结构网络的细胞代谢模型,其特征在于,所述步骤4中的建立数学公式;对公式进行推导,构建新的计算方法,是寻找第一隐藏层与第二隐藏层之间连接的权重;通过从原问题中转化得到一个线性齐次方程组公式,进而得到基于差分进化算法以及矩阵零空间搜索的新求解计算方法。6.根据权利要求1所述的一种可解释模块化结构网络的细胞代谢模型,其特征在于,所述步骤5中所述的代谢模型,是对比模型与数据库中的代谢反应和酶催化关系,确定原模型的具体数据,根据各代谢反应和代谢物之间的化学计量系数确定,获取中心代谢中蛋白酶
在代谢反应上的酶周转数。

技术总结
本发明公开了一种可解释模块化结构网络的细胞代谢模型。该模块化网络包含输入层、两个隐藏层和一个输出层。首先确定各模块的功能,将输入层与细胞内的酶浓度对应,采用酶丰度数据进行计算代替,将两个隐藏层分别与反应通量上界与反应通量大小对应,最后的输出层定义为细胞内代谢物的浓度变化。四个模块整合成一个完成的网络模型,各层之间的连接具有实际意义。对各层之间的连接参数进行预处理,处理参数之间的逻辑关系,确定模型的参数和结构。分析网络的数学公式,对公式进行推导,开发了基于差分进化算法以及矩阵零空间搜索的求解方法。最后设置迭代参数,对代谢模型进行模拟计算。本发明可以应用于制药、食品等工业生物领域的细胞建模。领域的细胞建模。领域的细胞建模。


技术研发人员:颜学峰 范星存 曹凌峰
受保护的技术使用者:华东理工大学
技术研发日:2023.03.14
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐