基于血浆的用于评价不同膳食模式的标志物及预测模型的制作方法

未命名 09-12 阅读：118 评论：0

1.本发明属于医疗保健技术领域，涉及基于血浆的用于评价不同膳食模式的标志物及预测模型。

背景技术：

2.超重/肥胖是高血脂、高血压和糖尿病等多种慢性代谢性疾病的重要危险因素。基于碳水化合物、蛋白质和脂肪的精确组合的饮食干预可有效阻止肥胖的发生，是预防和治疗多种慢性代谢性疾病的重要举措。因此，准确评估人群饮食习惯和食物消费特征对于评估代谢疾病风险、预防代谢性疾病和提供适当的饮食干预措施至关重要。
3.目前，评估食物摄入量主要通过自我报告的饮食数据来估计的，如24小时膳食回顾，膳食记录或膳食频率问卷等。但是基于食物摄入量的评估方法具有一定的局限性：(1)饮食数据收集的主观性：人们并不总是记得他们吃过的所有东西，或者不能回忆起所有吃过的食物或它们的特定成分，或者难以准确估计食物的分量，此外，人们经常少报饮食摄入量，这些因素决定了饮食评估中的测量误差；(2)食物成分表的局限性：一些营养素，如绝大多数微量元素，在食物成分表中没有得到充分的描述，因此，不能根据摄入量正确地评估营养状况，某些脂溶维生素也是如此，另一方面，食物的营养成分既不一致也不统一，食品成分数据库通常落后于目前的饮食模式；(3)影响营养吸收的因素：某些营养素具有反馈调控机制，根据人体营养状况增加或减少吸收效率；某些食物组合、食物的烹调和加工程度也可能影响营养成分和吸收，而饮食调查问卷中并未包括足够多的相关影响因素信息。
4.由于传统膳食评估方法的局限性，因此迫切需要开发更加准确、简便的膳食标志物，以便客观评估特定的食物摄入和饮食暴露。

技术实现要素：

5.针对现有技术的不足和实际需求，本发明提供基于血浆的用于评价不同膳食模式的标志物及预测模型，探究反映食物摄入的膳食标志物，寻找可以有效区分葡萄糖、蛋白质、黄油和橄榄油的特征分子，并使用惩罚logistic回归建立多类别食物摄入的模型，有效预测受试者饮食偏好。
6.为达上述目的，本发明采用以下技术方案：
7.第一方面，本发明提供基于血浆的用于评价不同膳食模式的标志物，所述标志物包括以下组合中任意一种或至少两种：
8.蛋白质组学中血浆催乳素诱导蛋白和载脂蛋白d的组合、脂质组学中dg 44:4、nae 9:0、dg 49:10和tg45:1|tg14:0_15:0_16:1的组合或代谢组学中酮基苯酸和2-氧代-2-(3,4,5-三甲氧基苯基)乙醛的组合。
9.本发明选择了葡萄糖、蛋白质、黄油(动物脂肪)和橄榄油(植物脂肪)四种单一常量营养素组成的食物进行负荷试验，并使用多组学分析(蛋白质组学、脂质组学和代谢组学)来描述血浆中营养素负荷后纵向的分子变化，利用机器学习分别构建血浆中的膳食生
物标记物模型，为临床设计和开发针对代谢性疾病的饮食干预措施提供有价值的信息。
10.第二方面，本发明提供第一方面所述基于血浆的用于评价不同膳食模式的标志物在构建用于评价不同膳食模式的模型中的应用。
11.第三方面，本发明提供一种构建用于评价不同膳食模式的模型的方法，所述方法包括：
12.选取目标食物，以第一方面所述的基于血浆的用于评价不同膳食模式的标志物作为特征分子，使用惩罚logistic回归建立多类别食物摄入的模型，并使用留一交叉验证将数据集划分为训练集和验证集构建用于评价不同膳食模式的模型。
13.优选地，所述目标食物包括葡萄糖、蛋白质、黄油和橄榄油。
14.优选地，所述惩罚logistic回归的算法公式如式(1)所示。
[0015][0016]
其中，j表示某个目标食物类别，j表示类别总数，β表示系数值，x表示某个标志物，n表示标志物总数。
[0017]
优选地，所述目标食物类别包括葡萄糖、蛋白质、黄油或橄榄油。
[0018]
优选地，所述使用惩罚logistic回归具体包括：
[0019]
(1)构建4个二分类数据集，分别是1)葡萄糖为阳性样本，蛋白质、黄油和橄榄油为阴性样本，数据集简称为葡萄糖数据集；2)蛋白质为阳性样本，葡萄糖、黄油和橄榄油为阴性样本，数据集简称为蛋白质数据集；3)黄油为阳性样本，蛋白质、葡萄糖和橄榄油为阴性样本，数据集简称为黄油数据集；4)橄榄油为阳性样本，蛋白质、黄油和葡萄糖为阴性样本，数据集简称为橄榄油数据集，m表示样本个数，n表示标志物个数，n在每个数据集数目是相等，每个标志物使用的数值是该标志物在不同时间点的曲线下面积；
[0020]
(2)使用式(1)计算葡萄糖数据集的拟合公式，记为y(葡萄糖)＝β
0葡萄糖
+β
1葡萄糖
x1+β
2葡萄糖
x2+
…
+β
n葡萄糖
xn；
[0021]
计算蛋白质数据集的线性拟合公式，记为y(蛋白质)＝β
0蛋白质
+β
1蛋白质
x1+β
2蛋白质
x2+
…
+β
n蛋白质
xn；
[0022]
计算黄油数据集的线性拟合公式，记为y(黄油)＝β
0黄油
+β
1黄油
x1+β
2黄油
x2+
…
+β
n黄油
xn；
[0023]
计算橄榄油数据集的线性拟合公式，记为y(橄榄油)＝β
0橄榄油
+β
1橄榄油
x1+β
2橄榄油
x2+
…
+βn橄榄油xn；
[0024]
每次输入标志物的曲线下面积，可以依次得到y(葡萄糖)、y(蛋白质)、y(黄油)和y(橄榄油)的值；
[0025]
(3)使用归一化指数函数计算y(葡萄糖)、y(蛋白质)、y(黄油)和y(橄榄油)对应的概率值；
[0026]
(4)比较的概率值大小，最大的概率值对应的食物为模型预测的食物。
[0027]
优选地，所述概率值的计算方法具体包括：
[0028]
使用softmax函数计算概率值，公式如下所示：
[0029]
[0030][0031][0032][0033]
p(葡萄糖)表示样本摄入葡萄糖的概率值，p(蛋白质)表示样本摄入蛋白质的概率值，p(黄油)表示样本摄入黄油的概率值，p(橄榄油)表示样本摄入橄榄油的概率值。
[0034]
优选地，所述曲线下面积包括是指模型标志物的曲线下面积，每个标志物使用的数值是该标志物在不同时间点的曲线下面积，为模型输入数据。
[0035]
第三方面，本发明提供一种用于评价不同膳食模式的模型，所述模型由第二方面所述的构建用于评价不同膳食模式的模型的方法构建得到。
[0036]
第四方面，本发明提供第三方面所述的评价不同膳食模式的模型在评价食物摄入中的应用。
[0037]
第五方面，本发明提供一种评价食物摄入的方法，所述方法包括：
[0038]
取待测试者的血液样本，计算第一方面所述的基于血浆的用于评价不同膳食模式的标志物的曲线下面积，输入第三方面所述的评价不同膳食模式的模型中，预测待测试者的偏好食物。
[0039]
与现有技术相比，本发明具有以下有益效果：
[0040]
本发明选择葡萄糖、蛋白质、黄油和橄榄油四种单一常量营养素组成的食物进行负荷试验，并使用多组学分析(蛋白质组学、脂质组学和代谢组学)来描述血浆中营养素负荷后纵向的分子变化，开发更加准确、简便的膳食标志物，利用机器学习分别构建血浆中的膳食生物标记物模型，实现高效客观评估特定的食物摄入和饮食暴露。
附图说明
[0041]
图1为样本采集及分析流程示意图；
[0042]
图2a为每个血浆样本中蛋白质强度结果图，横坐标为样本，纵坐标为分子的强度经过log2转化后的数值，颜色表示不同时间点的分组，每个样本的强度信息用箱线图表示；
[0043]
图2b为每个血浆样本中脂类的强度结果图，横坐标为样本，纵坐标为分子的强度经过log2转化后的数值，颜色表示不同时间点的分组，每个样本的强度信息用箱线图表示；
[0044]
图2c为每个血浆样本中代谢物的强度结果图，横坐标为样本，纵坐标为分子的强度经过log2转化后的数值，颜色表示不同时间点的分组，每个样本的强度信息用箱线图表示；
[0045]
图2d为脂质组学和代谢组学的tsne分析结果图，脂质组学与代谢组学在志愿者中的变化，颜色表示志愿者编号，散点上标注为时间点(a,b,c,d,e)，描述了在不同饮食种类下，人的个体差异与组学分子变化情况；
[0046]
图2e为蛋白质组学、脂质组学和代谢组学的中位数相对标准偏差(rsd)结果图，横坐标为时间点分组，纵坐标分别是在不同组学类别中分子强度的相对标准偏差，数据分布
以箱线图展示。
[0047]
图2f为蛋白质组学、脂质组学和代谢组学中样本的相关系数结果图，横坐标为时间点分组，纵坐标为皮尔森相关性系数，小提琴图展示的结果为同一时间点下的样本中分子的皮尔森相关系数；
[0048]
图2g为对所有4种食物的蛋白质组学、脂质组学和代谢组学的不同时间点的个体样本进行主成分分析；
[0049]
图2h为对多种组学中四种食物负荷反应的个体间变异性结果图，字母a、b、c、d和e分别代表食物负荷的动态时间点0、30、60、120和180分钟。qc：质量控制；
[0050]
图3a为4种食物摄入期间血浆蛋白组学分子pip和apod强度曲线下面积(auc)结果图；
[0051]
图3b为4种食物摄入过程中血浆脂质组学分子dg 44:4、nae 9:0、dg 49:10、tg 45:1|tg 14:0_15:0_16:1的auc结果图；
[0052]
图3c为4种食物摄入期间血浆代谢组学分子酮-苯二酸和2-氧代-2-(3,4,5-三甲氧基苯基)乙醛的auc结果图；
[0053]
图3d为利用蛋白质组学预测不同种类食物摄入的惩罚logistic回归模型的roc曲线和精确度-召回曲线图；
[0054]
图3e为利用脂质组学预测不同种类食物摄入的惩罚logistic回归模型的roc曲线和精确度-召回曲线图；
[0055]
图3f为利用代谢组学预测不同种类食物摄入的惩罚logistic回归模型的roc曲线和精确度-召回曲线图；
[0056]
图3g为通过k-均值聚类将受试者分成两组，计算基于三天膳食调查问卷的能量摄入的营养素比率图，***p《0.001；
[0057]
图3h为蛋白质组学分子组合的roc曲线预测受试者饮食偏好结果图；
[0058]
图3i为脂质组学分子组合的roc曲线预测受试者饮食偏好结果图；
[0059]
图3j为代谢组学分子组合的roc曲线预测受试者饮食偏好结果图。
具体实施方式
[0060]
为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。
[0061]
实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。
[0062]
实施例1
[0063]
本实施例进行样本的收集。
[0064]
招募12名健康男性和12名健康女性，年龄18-40岁，研究前至少在南京居住6个月，符合以下标准，纳入研究：(1)没有糖代谢异常病史(空腹血糖《6mmol/l，口服葡萄糖耐量试验餐后2小时血糖《7.8mmol/l)；(2)体质指数(body mass index,bmi)18
–
24kg/m2；(3)一级亲属没有糖尿病病史。所有受试者签署书面知情同意。本研究获得南京医科大学第一附属
abundant protein depletion resin中，置于摇床涡旋孵育30min，孵育结束后，离心收集滤液；滤液转移至10kd过滤管后，加入200μl 8m尿素，12,000g，离心10min；加入dtt溶液至终浓度10mm，37℃反应30min；加入iam溶液至终浓度20mm，25℃，避光反应30min；；加入200μl 50mm nh4hco3，12,000g，离心10min；每个样品中加入200μl 50mm nh4hco3，1μg lysc，37℃，震荡，孵育2h；再加入1μg trypsin,37℃震荡，孵育过夜；往反应体系中加入10μl10％tfa，终止反应。
[0078]
肽段脱盐：加入100μl甲醇到solaμhrp板中，600g，离心1min；加入100μl 80％acn 0.1％tfa，1000g，离心1min；加入200μl 0.1％tha，1000g，离心1min；将样品加入到solaμhrp板中，1000g，离心2min；重复上样一次；加入200μl 0.1％tha，1000g，离心2min；加入100μl 80％acn 0.1％tfa，1000g，离心3min，收集洗脱液；洗脱液在离心浓缩仪中40℃旋干，用0.1％fa溶解到0.5μg/μl，质谱上样1μg用于定量分析。
[0079]
实施例3
[0080]
本实施例进行组学分析。
[0081]
3.1代谢组学检测方法
[0082]
样品在vanquish超高效液相色谱仪与q exactive quadrupole-orbitrap高分辨率质谱仪联用系统上检测，代谢物通过反相色谱和亲水色谱分离，然后再分别进行正离子(esi+)模式或负离子(esi-)模式的检测。
[0083]
色谱检测条件：样品在vanquish超高效液相色谱仪上通过反相色谱柱和亲水色谱柱对样本中代谢物进行分离，然后再分别进行高分辨质谱检测；流动相为水/甲醇，溶剂均加入0.1％fa和2mm甲酸铵缓冲盐，代谢物在acquity
tm beh c18(waters co.,usa,1.7μm,2.1
×
100mm)柱子上分离，洗脱梯度如下：12min内有机相从2％升高到100％，多余的6min用于冲洗和平衡柱子；流速和柱温分别为0.3ml/min和40℃，分别采用正离子或负离子模式进行检测。
[0084]
高分辨质谱检测条件：代谢物检测在质谱仪q exactive plus质谱仪上完成，数据依赖型采集(dda)方式采集数据。质谱采用加热电喷雾离子源，正离子检测模式离子化电压为4kv，负离子检测模式为3.5kv，鞘气流速为45arb，辅助气体流速为10arb，加热器温度为355℃，毛细管温度为320℃，离子传输透镜rf水平为50％；全扫分辨率为70,000@m/z200，agc为1e6，最大离子进样时间为100ms，扫描质核比范围为70～1050m/z，二级扫描分辨率为17,500@m/z 200，agc为1e5，最大离子进样时间为50ms扫描质核比范围为70～1050m/z，标准化碰撞能量为40％，使用超纯氮气作为碎裂气体。
[0085]
3.2脂质组学检测方法
[0086]
样品在ultimate
tm 3000超高效液相色谱仪与q exactive quadrupole-orbitrap高分辨率质谱仪联用系统(thermo scientific,usa)上检测。脂质分子通过反向色谱分离，然后分别进行正离子(esi+)模式和负离子(esi-)模式的检测；
[0087]
色谱检测条件：样品在vanquish超高效液相色谱仪上通过反相色谱柱和亲水色谱柱对样本中脂质分子进行分离，然后再分别进行高分辨质谱检测；流动相为60％乙腈水溶液(a)和10％乙腈异丙醇溶液(b)，两种洗脱液中均含有2mm甲酸铵和0.1％甲酸，脂质分子在acquity
tm beh c18(waters co.,usa,1.7μm,2.1
×
100mm)柱子上分离，洗脱梯度如下：初始为30％的b洗脱液，之后20min内b升高到100％，后面5min用于冲洗和平衡柱子；流速和柱
温分别为0.3ml/min和40℃，分别采用正离子或负离子模式进行检测。
[0088]
高分辨质谱检测条件：脂质分子检测在质谱仪q exactive plus质谱仪上完成，数据依赖型采集(dda)方式采集数据。正离子检测模式离子化电压为3.5kv，负离子检测模式为3.2kv；其他质谱参数如下：鞘气流速为45arb，辅助气体流速为10arb，加热器温度为275℃，毛细管温度为350℃，离子传输透镜rf水平为50％。物质检测采用全扫模式检测，分辨率为70,000fwhm，agc为1e6，最大离子进样时间为100ms。扫描质核比范围为200～2000m/z。脂类代谢物通过dda二级质谱进行结构鉴定，主要的参数设定包括全扫描模式一级分辨率为70,000fwhm，二级质谱分辨率为17,500fwhm，循环记数为10，agc目标为3e6，全扫描和二级质谱的最长注射时间分别为100ms和50ms，动态排除为4s，标准化碰撞能量为40％，使用超纯氮气作为碎裂气体。
[0089]
3.3蛋白质组学检测方法
[0090]
色谱检测条件：肽段分离通过ultimate
tm 3000rslc系统(thermo scientific,usa)完成。获得肽段溶解到缓冲液中(含0.1％甲酸)，取约2μg肽段上样到acclaim pepmap rslc c18(2μm,75μm i.d.
×
20mm)捕集柱上，然后通过acclaim pepmap rslc c18(2μm,75μm i.d.
×
25cm)分析柱分离。流动相a为含0.1％甲酸的水溶液，流动相b为含0.1％甲酸的80％乙腈。梯度洗脱，0-4min，1％-8％b，4-85min，8％-30％b，85-90min 30％-90％b，90-91min 90％-1％b，91-95min 1％b，流速为400nl/min，柱温为55℃。
[0091]
高分辨质谱检测条件：肽段检测在质谱仪q exactive hf-x质谱仪上完成，数据独立型采集(dia)方式采集数据。每次质谱扫描包括一次全扫和50个dia扫描窗口。循环时间为约4.8s。全扫分辨率为60,000@m/z 200，agc为3e6，最大离子进样时间为20ms，扫描范围为m/z 350-1200，标准化碰撞能量为32％，二级质谱扫描范围为m/z 200-2000。dia扫描分辨率为30,000@m/z 200，agc为1e6，最大离子进样时间为45ms，隔离窗口为12th，每个样品分析3次，覆盖m/z 400-1000内的所有碎片离子。
[0092]
实施例4
[0093]
本实施例进行质谱的数据处理(数据质控、pca、opls-da、roc分析等)。
[0094]
4.1代谢组学数据处理
[0095]
代谢物鉴定：使用compounddiscoverer软件处理全扫描和数据依赖性ms2代谢谱数据，以进行全面的组分提取；采用xcalibur quan browser提取总离子流图曲线下面积值(area under the cures，aucs)作为代谢物的定量信息提取。代谢物结构鉴定通过比对检测获得的一级、二级质谱图与本平台自建标准品ms/ms数据库，hmdb数据库，nist数据库和mzcloud数据库(thermo scientific，usa)进行匹配打分，对于代谢物鉴定或结构注释，先决条件为母离子质量准确性介于
±
5ppm范围内，保留时间偏差介于
±
0.2min范围内，同位素信息(10ppm范围内至少包含一个同位素)和相对同位素丰度模式拟合分数70％用于确认化学式。最终鉴定打分score值大于80的代谢物注释结果再次经过专业技术人员人工审核后，将来自多种检测方法的代谢物定量原始信息合并在一起，合并过程中，将重复检测到的代谢物定量信息排除，以保证代谢物定量信息的独特性，数据合并后再进行数据预处理过程。原始数据包含质控样本和检测样本，为了更好地分析数据，需要对原始数据进行一系列的预处理，经过数据的预处理过程，可以减小数据中与研究目的不相关的变异对数据分析的影响，利于目的代谢物的筛选和后续生信分析。
[0096]
数据归一化：组学数据分析一般要求数据为正态分布或者高斯分布，这通常需要进行数据归一化处理，本实施例通过vsn(variance stabilization normalization)算法将所有的数据映射到同一尺度，让每一个特征数据保持相同的影响力，方便进行后续的分析。
[0097]
缺失值填充：样本可能会由于各种原因造成一个或多个值的缺失，在表格中缺失值通常是以空值的形式或者na(notanumber)存在。首先对检测结果缺失值进行评估，去除缺失值大于80％的代谢物；然后对于缺失值进行填充，主要方法有极小值、中位数(适合偏态分布)、平均值(适合正态分布)、knn(k-nearest neighbor)、随机森林、最大期望值等，本实施例按照knn算法对缺失值进行填充。
[0098]
数据转换：log2数据转化方式可以矫正数据集的异方差性，减少或消除数据结构的不对称性，提高数据结构的正态分布性，从而满足常见的统计分析方法如student's test，线性回归和相关性分析等假设，达到减少分析误差的效果。
[0099]
生信分析：采用xcalibur quan browser提取总离子流图曲线下面积值(area under the cures，aucs)作为代谢物的定量信息，将代谢物定量强度导入r和python编程语言中进行多种差异分析和富集分析，包括student’s t-test、pca、opls-da、聚类分析、tsne分析、通路富集分析等。
[0100]
4.2脂质组学数据处理
[0101]
脂质分子鉴定：本实施例使用ms dialv4.70软件处理脂质组学数据，包括峰值采集，脂类代谢物鉴定。采集的ms2谱图对通过在lipidblast数据库中收录的多种磷脂，中性甘油脂，鞘脂，中性糖鞘脂，鞘糖脂，类固醇，脂肪酯等进行注释比对。对于ms dial软件的主要参数设置为：1.一级质谱(母离子)精确质荷比(ms1)的实测值与理论值的容差(tolerance)限定在0.01da；2.二级质谱(子离子)精确质荷比(ms2)的实测值与理论值的容差(tolerance)限定在0.025da；3.质谱匹配相似度阈值设为80％；4.数据合并对齐时设定ms1阈值为0.025da，保留时间容差在0.1min；5.正离子检测模式潜在的电离加合物包括氢，钠，铵加合离子，负离子检测模式的加合离子包括脱氢，甲酸根和乙酸根加合离子。严格手动检查脂质鉴定结果并逐个研究以消除假阳性，检查过程依据为峰形，加合离子行为，碎裂模式和色谱行为。
[0102]
数据归一化：组学数据分析一般要求数据为正态分布或者高斯分布，这通常需要进行数据归一化处理，本实施例通过vsn(variance stabilization normalization)算法将所有的数据映射到同一尺度，让每一个特征数据保持相同的影响力，方便进行后续的分析。
[0103]
缺失值填充：样本可能会由于各种原因造成一个或多个值的缺失，在表格中缺失值通常是以空值的形式或者na(notanumber)存在。首先对检测结果缺失值进行评估，去除缺失值大于80％的脂质分子；然后对于缺失值进行填充，主要方法有极小值、中位数(适合偏态分布)、平均值(适合正态分布)、knn(k-nearest neighbor)、随机森林、最大期望值等，本实施例按照knn算法对缺失值进行填充。
[0104]
数据转换：log2数据转化方式可以矫正数据集的异方差性，减少或消除数据结构的不对称性，提高数据结构的正态分布性，从而满足常见的统计分析方法如student's test，线性回归和相关性分析等假设，达到减少分析误差的效果。
[0105]
生信分析：输出由ms dial软件根据峰形计算出的脂质分子定量强度，将该脂质分子强度导入r和python编程语言中进行多种差异分析和富集分析，包括student’s t-test、pca、opls-da、聚类分析、tsne分析、通路富集分析等。
[0106]
4.3蛋白质组学数据处理
[0107]
蛋白质鉴定：所有的dia文件基于深度覆盖的血浆蛋白质组谱图库，dia-nn v1.8.0获取肽段和蛋白含量数据，软件设置使用软件默认参数。为了更好地分析数据，需要对原始数据进行一系列的预处理，主要包括对原始数据缺失值进行填充以及数据转化等。经过数据的预处理过程，可以减小数据中与研究目的不相关的变异对数据分析的影响，利于潜在目标蛋白质的筛选和分析。
[0108]
数据归一化：组学数据分析一般要求数据为正态分布或者高斯分布，这通常需要进行数据归一化处理，本实施例通过vsn(variance stabilization normalization)算法将所有的数据映射到同一尺度，让每一个特征数据保持相同的影响力，方便进行后续的分析。
[0109]
缺失值填充：样本可能会由于各种原因造成一个或多个值的缺失，在表格中缺失值通常是以空值的形式或者是na(notanumber)存在。首先对检测结果缺失值进行评估，去除缺失值大于50％的蛋白质；然后对于缺失值进行填充，主要方法有极小值、中位数(适合偏态分布)、平均值(适合正态分布)、knn(k-nearestneighbor)、随机森林、最大期望值等，本实施例按照knn算法对缺失值进行填充。
[0110]
数据转换：log2数据转化方式可以矫正数据集的异方差性，减少或消除数据结构的不对称性，提高数据结构的正态分布性，从而满足常见的统计分析方法如student's test，线性回归和相关性分析等假设，达到减少分析误差的效果。
[0111]
生信分析：输出由dian根据top3肽的平均值计算的蛋白质强度。将该蛋白质强度导入导入r和python编程语言中进行多种差异分析和富集分析，包括student’s t-test、pca、opls-da、聚类分析、tsne分析、通路富集分析等。
[0112]
4.4多组学数据联合分析及机器学习
[0113]
多组学联合分析：将单个组学鉴定结果中的差异代谢物、脂质及蛋白质强度导入r和python编程语言中进行多组学联合分析模块，包括组内和组间的相关性分析、通路富集分析、临床指标与组学数据关联分析等。
[0114]
机器学习：本实施例采用逻辑回归算法进行标志物发现及模型性能评估(评估指标包括aucroc、accuracy、average precision、npv、f1 score、sensitivity、specificity、precision。所有指标95％置信区间采用bootstrap抽样计算)，逻辑回归是一种广义的线性回归分析模型，属于监督学习中的分类方法，最常用的为二分类逻辑回归，逻辑回归借助logit函数将因变量和自变量关系转化为线性回归，并常使用最大似然方法估计回归模型各参数值。在临床上，该算法可以探讨疾病关联的危险因素，并根据危险因素预测疾病发生的概率。逻辑回归建模速度快，变量易解释，适用于医学上多种类型数据，使其成为生物医学领域使用范围最广的一种算法。
[0115]
对共计480个血浆样本进行了蛋白质组学(来自同一时间点的三个个体的样本混合在一起检测)、脂质组学和代谢组学分析。经过数据整理和注释，共鉴定出773种蛋白质、783种代谢物和857种脂类。每个样本中蛋白质、脂类和代谢物的强度(和丰度)相对稳定(图
2a-图2c)。蛋白质组学数据的中位数相对标准偏差(rsd)低于0.3，而脂类组学和代谢组学数据的中位数在所有时间点都低于0.4(图2e)。蛋白质组学的中位相关系数在0.95以上，脂类组学和代谢组学的中位相关系数在0.9以上(图2f)。这些结果表明，多组学分析结果具有很好的可重复性。
[0116]
此外，我们分析了基线及四种食物负荷后的个体间反应的变异性，在基线条件下，蛋白质组学的变异系数(coefficients ofvariation,cv)最低，在葡萄糖、蛋白质、黄油和橄榄油刺激前分别为25.49％、28.60％、24.88％和20.13％。食物负荷后代谢产物的cv最大，对葡萄糖、蛋白质、黄油和橄榄油四种食物分别为50.52％、42.57％、40.16％和42.93％。在食物负荷后的4次不同时间点(30、60、120和180分钟)，代谢物也表现出最高的变异性(图2h)。主成分分析(pca)显示，四种食物负荷前后的蛋白质组学、脂质组学和代谢组学分子呈现出随着不同采样时间点的显著聚集性(图2g)。脂质组学tsne结果表明，来自同一受试者的大多数样本倾向于聚集在一起，这表明即使在食物负荷后也有较好的个体相似性(图2d)。代谢组学的tsne结果显示，葡萄糖摄入后180分钟与蛋白质摄入后120分钟和180分钟的分子倾向于分别聚集(图2d)，这表明饮食摄入对代谢物的影响大于个体间差异。
[0117]
实施例5
[0118]
为了探究反映食物摄入的膳食标志物，我们首先计算了饮食负荷后血浆中各个组学分子的曲线下面积，寻找可以有效区分四种不同食物的特征分子。然后使用惩罚logistic回归建立多类别食物摄入的模型，并使用留一交叉验证将数据集划分为训练集和验证集构建模型。
[0119]
多分类logistic回归建立算法模型介绍如下。
[0120]
本实施例有4种食物，使用多分类逻辑回归算法，具体实现过程如下。
[0121]
(1)多分类逻辑回归用公式表示j表示某个类别，本实施例有4种食物4个分类，分别是葡萄糖、蛋白质、黄油和橄榄油。j表示类别总数，β表示系数值，x表示某个特征或者标志物，n表示特征或者标志物总数。
[0122]
(2)构建4个二分类数据集，分别是1)葡萄糖为阳性样本，剩余3种食物为阴性样本，数据集简称为葡萄糖数据集；2)蛋白质为阳性样本，剩余3种食物为阴性样本，数据集简称为蛋白质数据集；3)黄油为阳性样本，剩余3种食物为阴性样本，数据集简称为黄油数据集；4)橄榄油为阳性样本，剩余3种食物为阴性样本，数据集简称为橄榄油数据集。m表示样本个数，n表示特征个数或者分子标志物个数，n在每个数据集数目是相等。每个特证使用的数值是该标志物在5个时间点的曲线面积。
[0123]
(3)使用上述的多分类逻辑回归算法计算葡萄糖数据集的拟合公式，记为y(葡萄糖)＝β
0葡萄糖
+β
1葡萄糖
x1+β
2葡萄糖
x2+
…
+β
n葡萄糖
xn；
[0124]
计算蛋白质数据集的线性拟合公式，记为y(蛋白质)＝β
0蛋白质
+β
1蛋白质
x1+β
2蛋白质
x2+
…
+β
n蛋白质
xn；
[0125]
计算黄油数据集的线性拟合公式，记为y(黄油)＝β
0黄油
+β
1黄油
x1+β
2黄油
x2+
…
+β
n黄油
xn；
[0126]
计算橄榄油数据集的线性拟合公式，记为y(橄榄油)＝β
0橄榄油
+β
1橄榄油
x1+β
2橄榄油
x2+
…
+βn橄榄油xn；
[0127]
每次输入特征或者分子标志物的曲线下面积，可以依次得到y(葡萄糖)、y(蛋白
质)、y(黄油)和y(橄榄油)的值。
[0128]
(4)使用归一化指数函数(softmax函数)计算y(葡萄糖)、y(蛋白质)、y(黄油)和y(橄榄油)对应的概率值，公式可表示为：
[0129][0130][0131][0132][0133]
p(葡萄糖)表示样本吃葡萄糖的概率值，p(蛋白质)表示样本吃蛋白质的概率值，p(黄油)表示样本吃黄油的概率值，p(橄榄油)表示样本吃橄榄油的概率值。
[0134]
(5)比较p(葡萄糖)、p(蛋白质)、p(黄油)、p(橄榄油)的概率值大小，最大的概率值对应的食物就是样本所吃的食物，也就是多分类模型预测的食物。
[0135]
对于新样本，根据训练集构建的模型，也就是执行步骤(1)-(5)，可以得到样本属于每种食物的概率，并且找出概率值最大的食物，定义为模型预测的偏好食物。
[0136]
根据上述模型的建模过程，依次得到血液中蛋白质组，脂质组和代谢组的食物预测模型。血液：对于蛋白质组，1个模型中的变量最少需要2个，总共得到5671个模型；对于脂质组，1个模型中的变量最少需要4个，总共得到12650个模型；对于代谢组，1个模型中的变量最少需要2个，总共得到4950个模型。
[0137]
示例性地，展示各个组学各列出评价前10的模型，如表2-表4所示，分别为蛋白质组10个模型、脂质组10个模型组合和代谢组10个模型组合，每个模型构建过程类似上文算法描述过程。
[0138]
表2
[0139]
[0140]
[0141][0142]
表3
[0143]
[0144]
[0145][0146]
表4
[0147]
[0148][0149][0150]
考虑到临床实践操作中空腹指标具有更好的便捷性，因此，我们选择了三个组学分析中评价前10的模型，并使用为期3天的饮食调查问卷进一步验证了空腹标志物的预测
能力。根据调查问卷计算出每名受试者在过去3天中蛋白质、脂肪和碳水化合物三种常量营养素的平均摄入量和能量供应比率。使用k-均值聚类分析将24名参与者分为两组(图3g)。第一组受试者碳水化合物的供能比例较高(第一组46.13％，第二组33.55％，p《0.001)，而第二组受试者脂肪的供能比例较高(第一组36.46％，第二组47.44％，p《0.001)。两组人群中蛋白质供能比例相似(第1组18.13％，第2组18.66％，p＝0.735)。
[0151]
摄入这四种食物后，蛋白质组学中血浆催乳素诱导蛋白(pip)和载脂蛋白d(apod)的浓度具有显著差异，并且pip和apod组合构建的模型在预测食物摄入方面表现出良好的性能(图3a和图3d)。此外，通过结合3天饮食调查问卷分析发现，预测饮食偏好的能力最强的是基线空腹血浆pip和apod的组合，其roc曲线下面积最大(auc＝0.800，95％ci[0.623-0.977])(图3h)。进食后脂质组学中dg 44:4,nae 9:0,dg 49:10和tg45:1|tg14:0_15:0_16:1四种脂类分子血浆浓度变化显著，并且对食物类型有很好的预测能力(图3b和3e)。空腹状态下，上述四种血脂分子的组合模型在预测饮食特征方面性能最优(auc＝0.807，95％ci[0.618-0.997])(图3i)。同样，在代谢组学中，酮基苯酸和2-氧代-2-(3,4,5-三甲氧基苯基)乙醛构建的模型在预测饮食偏好排名前10的组合中具有最大的auc值(0.793，95％ci[0.611-0.974])(图3c、3f和3j)。
[0152]
综上所述，本发明选择葡萄糖、蛋白质、黄油(动物脂肪)和橄榄油(植物脂肪)四种单一常量营养素组成的食物进行负荷试验，并使用多组学分析(蛋白质组学、脂质组学和代谢组学)来描述血浆中营养素负荷后纵向的分子变化，利用机器学习分别构建血浆中的膳食生物标记物模型，为临床设计和开发针对代谢性疾病的饮食干预措施提供有价值的信息。
[0153]
申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

技术特征：
1.基于血浆的用于评价不同膳食模式的标志物，其特征在于，所述标志物包括以下组合中任意一种或至少两种：血浆催乳素诱导蛋白和载脂蛋白d的组合、dg 44:4、nae 9:0、dg 49:10和tg45:1|tg14:0_15:0_16:1的组合或酮基苯酸和2-氧代-2-(3,4,5-三甲氧基苯基)乙醛的组合。2.根据权利要求1所述的基于血浆的用于评价不同膳食模式的标志物在构建用于评价不同膳食模式的模型中的应用。3.一种构建用于评价不同膳食模式的模型的方法，其特征在于，所述方法包括：选取目标食物，以权利要求1所述的基于血浆的用于评价不同膳食模式的标志物作为特征分子，使用惩罚logistic回归建立多类别食物摄入的模型，并使用留一交叉验证将数据集划分为训练集和验证集构建用于评价不同膳食模式的模型。4.根据权利要求3所述的构建用于评价不同膳食模式的模型的方法，其特征在于，所述目标食物包括葡萄糖、蛋白质、黄油和橄榄油。5.根据权利要求3或4所述的构建用于评价不同膳食模式的模型的方法，其特征在于，所述惩罚logistic回归的算法公式如式(1)所示；其中，j表示某个目标食物类别，j表示类别总数，β表示系数值，x表示某个标志物，n表示标志物总数；优选地，所述目标食物类别包括葡萄糖、蛋白质、黄油或橄榄油。6.根据权利要求5所述的构建用于评价不同膳食模式的模型的方法，其特征在于，所述使用惩罚logistic回归具体包括：(1)构建4个二分类数据集，分别是1)葡萄糖为阳性样本，蛋白质、黄油和橄榄油为阴性样本，数据集简称为葡萄糖数据集；2)蛋白质为阳性样本，葡萄糖、黄油和橄榄油为阴性样本，数据集简称为蛋白质数据集；3)黄油为阳性样本，蛋白质、葡萄糖和橄榄油为阴性样本，数据集简称为黄油数据集；4)橄榄油为阳性样本，蛋白质、黄油和葡萄糖为阴性样本，数据集简称为橄榄油数据集；(2)使用式(1)计算葡萄糖数据集的拟合公式，记为y(葡萄糖)＝β
0葡萄糖
+β
1葡萄糖
x1+β
2葡萄糖
x2+
…
+β
n葡萄糖
x
n
；计算蛋白质数据集的线性拟合公式，记为y(蛋白质)＝β
0蛋白质
+β
1蛋白质
x1+β
2蛋白质
x2+
…
+β
n蛋白质
x
n
；计算黄油数据集的线性拟合公式，记为y(黄油)＝β
0黄油
+β
1黄油
x1+β
2黄油
x2+
…
+β
n黄油
x
n
；计算橄榄油数据集的线性拟合公式，记为y(橄榄油)＝β
0橄榄油
+β
1橄榄油
x1+β
2橄榄油
x2+
…
+β
n
橄榄油x
n
；每次输入标志物的曲线下面积，可以依次得到y(葡萄糖)、y(蛋白质)、y(黄油)和y(橄榄油)的值；(3)使用归一化指数函数计算y(葡萄糖)、y(蛋白质)、y(黄油)和y(橄榄油)对应的概率值；(4)比较的概率值大小，最大的概率值对应的食物为模型预测的食物。7.根据权利要求6所述的构建用于评价不同膳食模式的模型的方法，其特征在于，所述
概率值的计算方法具体包括：使用softmax函数计算概率值，公式如下所示：使用softmax函数计算概率值，公式如下所示：使用softmax函数计算概率值，公式如下所示：使用softmax函数计算概率值，公式如下所示：p(葡萄糖)表示样本摄入葡萄糖的概率值，p(蛋白质)表示样本摄入蛋白质的概率值，p(黄油)表示样本摄入黄油的概率值，p(橄榄油)表示样本摄入橄榄油的概率值。8.一种用于评价不同膳食模式的模型，其特征在于，所述模型由权利要求3-7任一项所述的构建用于评价不同膳食模式的模型的方法构建得到。9.权利要求8所述的评价不同膳食模式的模型在评价食物摄入中的应用。10.一种评价食物摄入的方法，其特征在于，所述方法包括：取待测试者的血液样本，计算权利要求1所述的基于血浆的用于评价不同膳食模式的标志物的曲线下面积，输入权利要求8所述的评价不同膳食模式的模型中，预测待测试者的偏好食物。

技术总结
本发明公开了基于血浆的用于评价不同膳食模式的标志物及预测模型。所述标志物包括以下组合中任意一种或至少两种：蛋白质组学中血浆催乳素诱导蛋白和载脂蛋白D的组合、脂质组学中DG44:4、NAE9:0、DG49:10和TG45:1|TG14:0_15:0_16:1的组合或代谢组学中酮基苯酸和2-氧代-2-(3,4,5-三甲氧基苯基)乙醛的组合。本发明选择特定营养素组成的食物进行负荷试验，并使用多组学分析描述血浆中营养素负荷后纵向的分子变化，开发更加准确、简便的膳食标志物，利用机器学习构建血浆中的膳食生物标记物模型，实现高效客观评估特定的食物摄入和饮食暴露。露。露。

技术研发人员：杨涛付麒戴皓郑帅柳和春成晓亮张磊余静周岳张伟
受保护的技术使用者：南京品生医疗科技有限公司
技术研发日：2023.06.12
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种LED灯珠及LED灯具的制作方法 下一篇：一种具有散热结构的智能手表的制作方法

基于血浆的用于评价不同膳食模式的标志物及预测模型的制作方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于血浆的用于评价不同膳食模式的标志物及预测模型的制作方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表