质谱数据的分析方法与流程

未命名 10-18 阅读:143 评论:0


1.本公开涉及一种质谱数据的分析方法,具体但非排他地,涉及一种确定反卷积输出中的峰是否可能是伪迹或物质的指示的方法。


背景技术:

2.使用反卷积算法对原始实验质谱进行反卷积是已知的。在原始实验质谱的反卷积中,对原始实验质谱数据(通常是m/z相对于强度的图)进行反卷积以提供反卷积输出(通常是物质相对于强度的图)。存在许多已知的用于原始实验质谱数据的反卷积的算法以提供反卷积输出。反卷积算法可能会在反卷积输出中产生伪迹,特别是在当使用非理想设置来减少处理时间或由于数据内容的不确定性的时候。典型的伪迹是在当分析物在分析的样品中不存时,出现在物质的反卷积输出相对于分析物的物质的强度指示的峰。
3.本公开的非排他目的是解决反卷积输出中的伪迹的问题。


技术实现要素:

4.提供了一种质谱数据的分析方法,包括:
5.获得原始实验质谱数据;
6.使用反卷积算法、宽的第一输入参数集和宽的第一输出参数集来执行所述原始实验质谱数据的第一次反卷积,以获得反卷积输出;
7.从反卷积输出获得离散峰数据;
8.模拟离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据;
9.模拟离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据;以及
10.通过将疑似模拟原始离散数据与参考模拟原始离散数据进行比较来确定第二峰是否可能是伪迹或物质的指示。
11.离散峰数据的第一峰可以是离散峰数据的最强峰。
12.离散峰数据的第二峰可以是离离散峰数据的第一峰最近的物质。
13.将疑似模拟原始离散数据与参考模拟原始离散数据进行比较可以包括将疑似模拟原始离散数据的m/z值与参考模拟原始离散数据的m/z值进行比较。
14.将疑似模拟原始离散数据的m/z值与参考模拟原始离散数据的m/z值进行比较可以包括计算在考虑中的m/z值的电荷状态z处的理论同位素分布的宽度。
15.如果疑似模拟原始离散数据的所有m/z值都在参考模拟原始离散数据的m/z值内,则第二峰可以被识别为可能是伪迹。
16.如果疑似模拟原始离散数据的m/z值不在参考模拟原始离散数据的m/z值内,则第二峰可被识别为可能是物质的指示。
17.一旦第二峰被识别为可能是物质的指示,则可以停止将疑似模拟原始离散数据与参考模拟原始离散数据进行比较。
18.一旦第二峰被识别为可能是物质的指示,则疑似模拟原始离散数据就可以被添加
到参考模拟原始离散数据中。
19.质谱数据的分析方法可以:
20.还包括模拟离散峰数据的其他峰的原始数据,以获得其他疑似模拟原始离散数据;以及
21.还包括通过将其他疑似模拟原始离散数据与参考模拟原始离散数据进行比较来确定其他峰是否可能是伪迹或物质的指示。
22.质谱数据的分析方法还可以包括:
23.确定窄的第二输入参数集,包括:
24.设定输入谱阈值百分比;
25.将参考模拟原始离散数据中高于输入谱阈值百分比的最小m/z值设置为所述窄的第二输入参数集的下限;和/或
26.将参考模拟原始离散数据中高于输入谱阈值百分比的最大m/z值设置为所述窄的第二输入参数集的上限。
27.确定窄的第二输入参数集还可以包括:
28.如果第二峰被确定为可能是物质的指示:
29.并且如果疑似模拟原始离散数据中高于输入谱阈值百分比的最小m/z值小于所述窄的第二输入参数集的下限,则将疑似模拟原始离散数据中的最小m/z值设置为所述窄的第二输入参数集的下限;和/或
30.并且如果疑似模拟原始离散数据中高于输入谱阈值百分比的最大m/z值大于所述窄的第二输入参数集的上限,则将疑似模拟原始离散数据中的最大m/z值设置为所述窄的第二输入参数集的上限。
31.确定窄的第二输入参数集还可以包括:
32.如果所述或其他峰被确定为可能是物质的指示:
33.如果其他疑似模拟原始离散数据中高于输入谱阈值百分比的最小m/z值小于所述窄的第二输入参数集的下限,则将其他疑似模拟原始离散数据中的最小m/z值设置为所述窄的第二输入参数集的下限;和/或
34.如果其他疑似模拟原始离散数据中高于输入谱阈值百分比的最大m/z值大于所述窄的第二输入参数集的上限,则将所述疑似模拟原始离散数据中的最大m/z值设置为所述窄的第二输入参数集的上限。
35.输入谱阈值百分比可被设为零。
36.质谱数据的分析方法还可以包括:
37.确定窄的第二输出参数集,包括:
38.设置偏移值;以及
39.将第一峰、第二峰和/或被确定为物质的指示的任何其他峰减去所述偏移值中的最小者设置为所述窄的第二输出参数集的下限;和/或
40.将第一峰、第二峰和/或被确定为物质的指示的任何其他(一个或多个)峰加上所述偏移值中的最大者设置为所述窄的第二输出参数集的上限。
41.质谱数据的分析方法还可以包括:
42.确定窄的第二输出参数集,包括:
43.设置偏移值;以及
44.将第一峰、第二峰和/或被确定为物质的指示加上和减去所述偏移值的任何其他(一个或多个)峰设置为包括在所述窄的第二输出参数集中。
45.质谱数据的分析方法还可以包括:
46.使用反卷积算法和使用本文的方法确定的窄的第二输入参数集来执行原始实验质谱数据的第二反卷积;
47.和/或,使用本文的方法确定的窄的第二输出参数集以获得第二反卷积输出。
48.还提供了一种确定在反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法,包括:
49.从反卷积输出中获得离散峰数据;
50.模拟离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据;
51.模拟离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据;以及
52.通过将所述疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较来确定所述第二峰是否可能是伪迹或物质的指示。
53.确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法还可以包括本文描述的质谱数据的分析方法的一个或多个或所有特征。
54.还提供了一种质谱数据的分析方法,包括:
55.获得原始实验质谱数据;
56.使用反卷积算法、宽的第一输入参数集和宽的第一输出参数集来执行原始实验质谱数据的第一次反卷积,以获得反卷积输出;
57.识别所述反卷积输出中的峰;
58.模拟所述反卷积输出的第一峰的原始数据,以获得参考模拟原始数据;
59.模拟所述反卷积输出的第二峰的原始数据,以获得疑似模拟原始数据;
60.确定所述疑似模拟原始数据与所述参考模拟原始数据之间的重叠系数;以及
61.通过将所述重叠系数与预定阈值进行比较来确定所述第二峰是否可能是伪迹或物质的指示。
62.确定疑似模拟原始数据与参考模拟原始数据之间的重叠系数可以包括确定疑似模拟原始数据中的峰或峰集与参考模拟原始数据中的峰或峰集的重叠系数。
63.确定疑似模拟原始数据与参考模拟原始数据之间的重叠系数可以包括确定疑似模拟原始数据和参考模拟原始数据中的全部或基本上全部的重叠系数。
64.还提供了一种确定在反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法,该方法包括:
65.识别反卷积输出中的峰;
66.模拟所述反卷积输出的第一峰的原始数据,以获得参考模拟原始数据;
67.模拟所述反卷积输出的第二峰的原始数据,以获得疑似模拟原始数据;
68.确定所述疑似模拟原始数据与所述参考模拟原始数据之间的重叠系数;以及
69.通过将所述重叠系数与预定阈值进行比较来确定所述第二峰是否可能是伪迹或物质的指示。
70.确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法还可以包括本
文描述的质谱数据的分析方法的一个或多个或所有特征。
71.还提供了一种计算机可读介质,其上存储有指令,当由处理器执行时,所述指令可以执行本文所述的方法。
72.还提供了一种包括指令的计算机程序,当由处理器执行时,所述指令可以执行本文所述的方法。
73.还提供了一种包括至少一个处理器和计算机可读介质的系统,其中,所述计算机可读介质具有存储在其上的指令,所述指令在由所述至少一个处理器执行时可以使所述系统执行本文描述的方法。
附图说明
74.为了可以更容易地理解本公开,现在将参考附图仅通过示例的方式描述本公开的优选实施例,在附图中:
75.图1是根据本公开的一个实施例的方法的流程图;
76.图2示出根据本公开的一个实施例使用的来自一个反卷积输出的一个示例性离散峰数据;
77.图3示出从图2的离散峰数据的第一峰获得的参考模拟原始离散数据的一个示例;
78.图4示出从图2的离散峰数据的第二峰获得的疑似模拟原始离散数据的一个示例;
79.图5示出与图4的疑似模拟原始离散数据(底部)相邻的图3的参考模拟原始离散数据(顶部);
80.图6示出了根据本公开的一个实施例的用于确定窄的第二输入参数集的一个示例性参考模拟原始离散数据;以及
81.图7示出根据本公开的一个实施例获得的一个示例性第二反卷积输出。
具体实施方式
82.从观察原始实验质谱数据,不能立即清楚在分析的样品中存在多少分析物或在分析的样品中存在的分析物的物质是多少。特别是,一些电离方法(例如电喷雾)会产生多种电荷状态,因此对于每种分析物来说可以产生多个质谱峰。来自不同分析物的峰可以在质荷比上重叠,并且还可以位于彼此的顶部。因此,为了尝试和确定样品中分析物的物质,操作者可以采用反卷积算法。反卷积算法例如可以利用基于最大熵或贝叶斯或最小二乘的技术。反卷积算法的输出如图2所示。
83.当利用反卷积算法时,通常指定一个预期的输出物质范围,即输出参数集。在这种情况下,窄的预期输出物质范围是未知的;因此,指定了从20kda到300kda的宽输出参数集。如图2中所示,从反卷积算法得出的反卷积输出包括了148kda的第一峰和74kda的第二峰。操作者通常将假定最强物质是样品中分析物的物质表示。由于148kda是74kda的倍数,因此操作者可以直观地怀疑74kda处的峰是一个伪迹。然而,在缺乏样品知识的情况下,对于操作者来说74kda峰是否是一个伪迹或者74kda峰是否对应于分析物的一个物质是不明显的(样品可以包含两种分析物,一种具有148kda的物质,一种具有74kda的物质,但是操作者不知道是否是这种情况)。在这种情况下,反卷积算法将在约2965m/z的峰簇归于一个148kda的物质和一个50个电子的电荷,以及归于一个74kda的物质和一个25个电子的电荷-因此,
74kda的峰可能是一个伪迹。
84.解决这个问题的一种方法是操作者基于所分析的样品的知识,指定包括窄的预期输出物质范围的窄的输出参数集作为算法输入的一部分。例如,操作者可以基于样品的知识指定包括从100kda到200kda的预期输出物质范围的窄的输出参数集。在这种情况下,反卷积算法然后就可以提供仅具有约150kda的物质峰的反卷积输出(参见图7)。然而,如果操作者具有足够的样品知识,包括预期的物质范围,则仅可能基于样品知识指定窄的输出参数集。此外,必须足够详细地知道预期输出物质范围以排除伪迹的物质范围。如应当理解的,在新样品的分析中,操作者可能不知道足够窄的预期输出物质范围,因此不知道输出参数集。因此,操作者并不总是能够基于样品的知识来指定适当的窄的输出参数集。此外,操作者感知到的样品知识可能是错误的,在这种情况下,可能会无意地排除对应于分析物的物质,而可能无意地包括了对应于伪迹的物质。
85.本公开的实现依赖于操作者对样品的知识会可能导致在反卷积输出中伪迹的错误识别。
86.本公开的其他实现是操作者可以使用宽的输出参数集。因此,操作者可以分析包含伪迹的反卷积输出(可能错误地将伪迹归结为物质的指示),反过来,当该误差最终揭开时,可以降低所使用的反卷积算法的感知可靠性。
87.本公开的其他实现是,反卷积输出中的伪迹的识别的自动化将节省熟练操作者的时间并增加反卷积算法的感知可靠性。
88.参考图1,本公开提供了一种质谱数据的分析方法。该方法包括获得原始实验质谱数据。
89.使用反卷积算法、宽的第一输入参数集和宽的第一输出参数集来执行原始实验质谱数据的第一次反卷积,以获得一个反卷积输出。图2示出了物质相对于强度的一个示例性第一反卷积输出。
90.反卷积算法可以是任何已知的反卷积算法,例如基于最大熵的反卷积(maxent1)或基于嵌套采样的反卷积(bayesspray)。bayesspray反卷积算法在us8604421中描述了。反卷积算法的选择可基于已知的通常因素,例如分子大小、所用仪器的分辨率、保留时间、峰大小、峰形状、所需的处理速度等。宽的第一输入参数集通常包括了全部实验原始数据。为了使该过程有效,可以限制由该算法执行的迭代的最大次数。如果所使用的算法需要峰宽或分辨率值,则其可以自动地从原始实验数据中获得。
91.在本文件中,应用在设置或参数上的术语“宽”可以被理解为意指分配给被折衷(或不理想的)的设置或参数的值。这种折衷例如可以包括将输入或输出物质分配给电荷或物质范围,其大于数据中存在的(先验未知的)分量实际所需的。它可以附加地或替代地包括减少算法的迭代次数以提高处理速度、输出物质轴上的点数和/或在嵌套采样方法中使用的对象的数目。它可以包括当峰宽未知和/或数据中存在或可能存在多个不同的峰宽时设置折衷的峰宽值。应当理解,使用参数的折衷值可能存在许多其它原因。
92.离散峰数据可以从反卷积输出中获得。第一反卷积谱内的物质可以被评估为离散峰数据。如果用于产生第一反卷积输出的算法产生了连续数据,例如maxent1,则会在第一反卷积输出中检测到峰。可以使用广泛接受的使谱居中的方法。这产生了离散数据,并且居中谱有时被称为“棒状图”或“居中谱”。如果使用了产生离散数据的算法,例如bayesspray,
则可以不需要对谱进行居中定位。
93.通过使连续数据居中产生的离散数据可以产生包含许多低强度的物质的居中谱。根据所使用的算法、原始实验数据的复杂性和所使用的精确的第一反卷积方法设置,这些可能已经可以从原始实验数据中的噪声导出。另外,反卷积算法的许多用户没有研究反卷积谱中的非常低强度的物质。由于这些原因,强度阈值可以用于在其他评估之前过滤离散峰数据中的物质。例如,可以使用绝对强度阈值。或者,可以找到在居中谱中的最大强度,并且将百分比阈值应用于该最大强度以便计算绝对强度阈值。
94.模拟离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据。图3示出了图2中148kda处的峰的参考模拟原始离散数据。
95.在其他实施例中,如下所述,模拟数据不需要是离散的。在这种情况下,比较连续模拟数据。模拟的连续数据集(参考和疑似)的重叠或相关性的任何测量都可以用于评估相似性。这种测量可以被描述为重叠系数。
96.离散峰数据的第一峰可以是离散峰数据的最强峰。这是因为最强的物质通常可以假定是样品中分析物的物质的指示。然而,如果例如样品的性质是已知的,那么这样的信息就可以用于选择第一峰。
97.获得参考模拟原始离散数据可以包括产生仿真(或“模拟”)原始连续数据,然后将该数据居中以获得参考模拟原始离散数据。模拟数据可以使用居中或杆状数据来产生,或者可以使用在反卷积数据中检测到的峰位置附近的连续数据来产生
98.或者,如果可的话,则可以使用电荷状态分布信息,直接从居中或杆状数据来产生参考模拟离散数据。
99.一些反卷积算法可以推断出对于每个检测到的峰或反卷积的物质轴的每个点的电荷状态分布。该电荷状态分布信息可以包括与每个允许的电荷状态相对应的信号的比例、和/或最小和最大观察到的电荷状态、和/或平均电荷状态,以及/或电荷状态分布的一个或多个矩或分位数。应当理解,也可以使用概括电荷状态分布的其他方法。优选地,在模拟数据的产生中利用推断的电荷状态分布信息。可利用电荷状态分布来获益。例如,在给定电荷状态下的模拟强度可能非常低,这意味着数据可以被忽略(或者确定为重叠系数低)。这样,可以比较模拟数据的相对强度。特别是,可以通过计算重叠系数来比较模拟数据的相对强度。
100.参考模拟原始离散数据可以是m/z和强度值对的列表。可以通过增加与参考物质的物质差来对物质进行排序。
101.模拟离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据。图4示了出图2中74kda处峰的疑似模拟原始离散数据。
102.离散峰数据的第二峰可以是离离散峰数据的第一峰最近的物质。换句话说,一旦已经选择了被假定为是物质的指示的峰,那么待分析的下一个峰就可以是物质上最接近的峰。第二峰可被称为一个疑似的物质。
103.然后通过将疑似模拟原始离散数据与参考模拟原始离散数据进行比较来确定第二峰是否可能是伪迹或物质的指示。在该示例中,图5示出了与图4的疑似模拟原始离散数据(底部)相邻的图3的参考模拟原始离散数据(顶部)。
104.将疑似模拟原始离散数据与参考模拟原始离散数据进行比较可以包括将疑似模
拟原始离散数据的m/z值与参考模拟原始离散数据的m/z值进行比较。
105.作为替选,也可以通过将疑似模拟原始连续谱数据与参考模拟原始连续谱数据进行比较,来确定第二峰是否可能是伪迹或物质的指示。这可以通过确定疑似模拟原始数据与参考模拟原始数据之间的重叠系数,并且通过将重叠系数与一个预定阈值进行比较来确定第二峰是否可能是伪迹或物质的指示来完成。
106.将疑似模拟原始连续数据与参考模拟原始连续数据进行比较可以包括将疑似模拟原始连续数据的m/z值与参考模拟原始连续数据的m/z值进行比较。
107.确定疑似模拟原始数据与参考模拟原始数据之间的重叠系数可以包括确定疑似模拟原始数据中的峰或峰集与参考模拟原始数据中的峰或峰集的重叠系数。换句话说,可以决定仅比较单个峰或峰集以及以与本文所述的离散数据的处理类似的方式处理的数据。
108.确定疑似模拟原始数据与参考模拟原始数据之间的重叠系数可以包括确定疑似模拟原始数据和参考模拟原始数据中的全部或基本上全部的重叠系数。换句话说,可以决定比较整个模拟的原始数据集。
109.如果疑似模拟原始连续谱数据与参考模拟原始连续谱数据没有显著重叠,则第二峰可被识别为可能是物质的指示。重叠程度的计算可以例如包括基线重叠的比例、峰宽的一部分内的重叠、相对熵(kullback leibler散度)或利用m/z值和/或指示两个峰是否可能源自一个单个潜在特征的强度的任何量(概率的或其他)。
110.如果疑似模拟原始离散数据的m/z值没有充分接近参考模拟原始离散数据的m/z值(在例如本文所述的误差容限或公差内),那么第二峰就可被识别为可能是物质的指示。特别是,可以搜索唯一的m/z值,即这意味着它们在某个绝对或相对阈值以上在参考模拟原始离散数据中不存在(在例如本文所述的误差容限或容限内)。可以根据参考模拟数据、疑似模拟数据或任何其它模拟原始或原始数据中的强度值来计算相对阈值。相对阈值可以是参考模拟原始数据中的峰或个别数据点的强度的一个比例。另外或作为替选,“不存在”还可能意味着不存在于疑似数据强度的某一分数或倍数以上。
111.一旦第二峰被识别为可能是物质的指示,则可以停止将疑似模拟原始离散数据与参考模拟原始离散数据进行比较。
112.一旦第二峰被识别为可能是物质的指示,则疑似模拟原始离散数据就可以被添加到参考模拟原始离散数据中。因为疑似物质可被认为是真实的。
113.当将疑似模拟原始离散数据中的m/z与参考模拟原始离散数据中的m/z进行比较时,我们可以使用被考虑的m/z的电荷状态(z)下的同位素分布的预测宽度来决定疑似模拟原始数据中的m/z是否存在于参考模拟原始数据中。或者,在非离散(连续)模拟数据是如上所述的直接数据的情况下,这种附加步骤可能不是必需的,因为这种连续模拟数据可能已经包括了同位素分布的预测宽度。
114.将疑似模拟原始离散数据的m/z值与参考模拟原始离散数据的m/z值进行比较可以包括计算在考虑中的m/z值的电荷状态z处的理论同位素分布的宽度。
115.如果疑似模拟原始离散数据的所有m/z值足够接近参考模拟原始离散数据的m/z值(在例如本文所述的误差容限或公差内),那么第二峰就可被识别为可能是伪迹。
116.例如,参考图5,假设考虑了在74100da处的疑似物质的疑似模拟原始离散数据中2965.0114的m/z。参考模拟原始离散数据可以包含属于148200da的真实物质的m/z的
2964.9966m/z。可以计算理论(或预测)同位素分布意味着2964.9966m/z中0.45m/z内的m/z值可能是反卷积的物质148200的同位素。在这种情况下,可以计算出在疑似模拟原始离散数据中2965.0114m/z不是唯一的,因为它在2964.9966m/z的0.45m/z内。
117.质谱数据的分析方法还可以包括模拟离散峰数据的其他峰的原始数据,以获得其他疑似模拟原始离散数据;并且还包括通过将所述其他疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较来确定所述其他峰是否可能是伪迹或物质的指示。换句话说,可以对离散峰数据的其他峰重复该过程。
118.上述分析其它峰的方法可以重复至少2、4、6、8、16、32、64、128、256、512、1025、2048、4096、8192、16384或更多次。可以重复该方法以包括其他峰,直到分析了所有显著的峰(例如,所有高于一个阈值的峰)。如果以这种方式评估所有(显著)物质,则可以产生真实物质和强度对的列表。另外,对于真实物质列表中的每个物质,可能已经产生了并保留了模拟的原始离散数据。
119.质谱数据的分析方法还可以包括基于模拟原始数据的分析来确定窄的第二输入参数集。
120.在本文件中,应用在设置或参数上的术语“窄”可以被理解为意指分配给被优化(或改进)的设置或参数的值。这种优化例如可以包括将输入或输出物质分配给排除已知伪影的电荷或物质范围。它可以额外或替换地包括增加输出物质轴上的点的数量和/或在嵌套采样方法中使用的对象的数量。它可以包括设置优化的峰宽值。应当理解,可以使用本文所述的方法来优化许多其它参数。
121.质谱数据的分析方法还可以包括确定窄的第二输入参数集,包括设置输入谱阈值百分比;将参考模拟原始离散数据中高于输入谱阈值百分比的最小m/z值设置为窄的第二输入参数集的下限;和/或将参考模拟原始离散数据中高于输入谱阈值百分比的最大m/z值设置为窄的第二输入参数集的上限。
122.确定窄的第二输入参数集还可以包括:如果第二峰被确定为可能是物质的指示,并且如果疑似模拟原始离散数据中高于输入谱阈值百分比的最小m/z值小于窄的第二输入参数集的下限,则将疑似模拟原始离散数据中的最小m/z值设置为窄的第二输入参数集的下限;和/或如果在输入谱阈值百分比以上的疑似模拟原始离散数据中的最大m/z值大于窄的第二输入参数集的上限,则将疑似模拟原始离散数据中的最大m/z值设置为窄的第二输入参数集的上限。
123.确定窄的第二输入参数集还可以包括:如果在输入谱阈值百分比以上的其他疑似模拟原始离散数据中的最小m/z值小于窄的第二输入参数集的下限的情况下,所述峰或其他峰被确定为可能是物质的指示,则将所述其他疑似模拟原始离散数据中的最小m/z值设置为窄的第二输入参数集的下限;和/或如果所述其他疑似模拟原始离散数据中高于输入谱阈值百分比的最大m/z值大于窄的第二输入参数集的上限,则将疑似模拟原始离散数据中的最大m/z值设置为窄的第二输入参数集的上限。
124.输入物质范围阈值百分比可被用于优化产生第二窄的输入参数集(例如,物质范围)以包括足够的数据来产生最终反卷积的谱。输入谱阈值百分比可被设为零。这意味着在最终的反卷积方法中处理原始实验数据内的所有可反卷积的数据。或者,可使用大于零的阈值,使得用足够的原始实验数据去产生优质的第二(例如,最终)反卷积谱。
125.上述过程可以用于产生输入m/z范围,该输入m/z范围包含产生反卷积谱中的真实物质所需的大部分数据,如果不是全部的话。
126.例如,参考图6,其示出了对于最强烈的可能是真实物质的模拟原始离散数据。输入谱阈值百分比可被设为零。在输入谱阈值百分比以上的参考模拟原始离散数据中的最小m/z值(1190)可以被设置为窄的第二输入参数集的下限,并且在输入谱阈值百分比以上的参考模拟原始离散数据中的最大m/z值(6450)可以被设置为窄的第二输入参数集的上限。在该示例中,这给出了1190-6450的输入m/z范围。
127.或者,仍参看图6,在此示例中,输入谱阈值百分比可设定为10%,从而可以给出从2310到3620的输入m/z范围。作为另一替选方案,在此示例中,输入谱阈值百分比可设定为20%,从而可以给出从2385到3455的输入m/z范围。
128.质谱数据的分析方法还可以包括确定窄的第二输出参数集,包括设置偏移值;以及将第一峰、第二峰和/或被确定为物质的指示的任何其他(一个或多个)峰减去偏移值中的最小值设置为窄的第二输出参数集的下限;和/或将第一峰、第二峰和/或被确定为物质的指示的任何其他(一个或多个)峰中的最大者加上偏移值设置为窄的第二输出参数集的上限。
129.当算法允许定义单个输出物质范围,但是在第一反卷积输出中已经发现了多个真实物质时,可以使用该方法。
130.质谱数据的分析方法还可以包括确定窄的第二输出参数集,包括设置偏移值;以及将第一峰、第二峰和/或被确定为物质的指示加上和减去偏移值的任何其他(一个或多个)峰设置为包括在窄的第二输出参数集中。
131.当算法允许定义输出物质范围的集合并且在第一反卷积输出中已经发现了多个真实物质时,可以使用该方法。如应当理解的,第二输出参数集是输出物质范围的集合。
132.如应当理解的,以此方式,该方法还可包括确定窄的第二输出参数集,其中,窄的参数集排除了可能是伪迹的峰并且包括了物质的指示的峰。
133.重要的是理解是否存在其它相关的物质,例如,对应于蛋白质的其它次要糖形的物质,或对应于合成肽中的失败序列的物质。在最简单的情况下,在存在一个真实物质的情况下,可以通过使用偏移值来计算受限的输出物质范围,该偏移值可以是一个真实物质的百分比,因此用户可以(仅)看到存在或不存在紧密相关的物质。
134.质谱数据的分析方法还可以包括使用反卷积算法和使用本文的方法确定的窄的第二输入参数集来执行原始实验质谱数据的第二反卷积;和/或使用本文的方法确定的窄的第二输出参数集来获得第二反卷积输出。
135.通常,如果所使用的算法需要峰宽或分辨率值,则其可以自动地从原始实验数据中获得。
136.在限定了有限的输入和输出参数的情况下,可以增加由算法执行的最大迭代次数,并且可以对原始实验数据进行反卷积以产生更高物质的反卷积谱。可以允许继续进行由算法执行的迭代,直到达到收敛或大的最大迭代次数。如应当理解的,在第一反卷积谱中评估物质以确定哪些可能是真实的以及哪些可能是伪迹,并且仅使用可能的真实物质来计算最终输出物质范围可以避免使用不必要的宽输出物质范围用于最终反卷积。另外,可以自动地计算更精确的输入m/z范围。这可能是有利的,因为太宽的输出物质范围和太宽的输
入m/z范围可能会延长处理时间,并且可能会在反卷积输出中导致更多的伪迹。
137.在该示例中,输出参数集可被选择为包括在148kda处的峰并且排除在74kda处的峰(例如,从140700da至155700da的物质范围)。
138.图7示出了使用窄的第二输入参数集和窄的第二输出参数集的反卷积输出的一个例子。应当理解,使用本方法(图1),在操作者不必基于分析的样品的知识指定排除伪迹(74kda的峰,图2)的预期物质范围的情况下,获得了图7的反卷积输出。此外,图7的反卷积输出排除了伪迹,在该示例中是在74kda处的峰。此外,图7的反卷积输出是使用可自动化的方法获得的。
139.如应当理解的,确定反卷积输出中的峰是否可能是伪迹或物质的指示的方法可被孤立地使用。因此,还提供了确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法,包括从反卷积输出中获得离散峰数据;模拟离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据;模拟离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据;以及通过将疑似模拟原始离散数据与参考模拟原始离散数据进行比较来确定第二峰是否可能是伪迹或物质的指示。
140.另外,还提供了一种确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法,包括:识别反卷积输出中的峰;模拟反卷积输出的第一峰的原始数据,以获得参考模拟原始数据;模拟反卷积输出的第二峰的原始数据,以获得疑似模拟原始数据;确定疑似模拟原始数据与参考模拟原始数据之间的重叠系数;以及通过将重叠系数与预定阈值进行比较来确定第二峰是否可能是伪迹或物质的指示。
141.确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法还可以包括本文描述的质谱数据的分析方法的一个或多个或所有特征。
142.一旦反卷积输出中的峰已经被确定为可能是伪迹或可能是物质的指示,则该信息就可以与反卷积输出一起显示,例如,物质相对于强度的曲线图的峰就可以被标记为可能是物质的指示或可能是伪迹。
143.如上所述的整个过程可以重复任意次数。例如,原始数据的第二次反卷积的结果可被用于产生模拟的原始数据,该模拟的原始数据可被用于确定第二输出谱中的峰的可靠性。模拟的原始数据可以替代地或额外地用于产生反卷积参数的其他改进,以用于第三反卷积步骤等。
144.还提供了一种计算机程序。该计算机程序包括指令,当处理器执行该程序时,该指令使得可以执行上述质谱数据的分析方法。
145.还提供了其他计算机程序。该计算机程序包括指令,当处理器执行该程序时,该指令使得可以执行上述确定反卷积输出中的峰是否可能是伪迹或物质的指示的方法。
146.还提供了一种计算机可读介质,其上存储有指令,当由处理器执行时,所述指令使得可以执行上述质谱数据的分析方法。
147.还提供了一种计算机可读介质,其上存储有指令,当处理器执行这些指令时,使得可以执行上述方法,确定在反卷积输出中的峰是否可能是伪迹或物质的指示。
148.还提供了一种包括至少一个处理器和计算机可读介质的系统,其中,所述计算机可读介质具有存储在其上的指令,所述指令在由所述至少一个处理器执行时可以使所述系统执行上述质谱数据分析的方法。
149.还提供了一种系统,包括至少一个处理器和计算机可读介质,其中,计算机可读介质具有存储在其上的指令,当由至少一个处理器执行时,所述指令可以使系统执行上述确定在反卷积输出中的峰是否可能是伪迹或物质的指示的方法。
150.系统可以包括处理器和计算机可读介质。计算机可读介质可以被配置成存储由处理器执行的指令。处理器可以包括多个子处理器,这些子处理器可以被配置成一起工作,例如彼此并行地工作,以执行指令。子处理器可以在地理上和/或物理上彼此分离,并且可以通信地耦合以使得能够协调执行指令。
151.计算机可读介质可以是任何期望类型的易失性和/或非易失性存储器或其组合,例如静态随机存取存储器(sram)、动态随机存取存储器(dram)、闪存、只读存储器(rom)和/或大容量存储设备(包括例如光或磁存储设备)。
152.包括处理器和计算机可读介质的系统可以以服务器、台式计算机、膝上型计算机等的形式来提供。
153.当在本说明书和权利要求书中使用时,术语“包括”和“包含”及其变体意味着包括指定的特征、步骤或整体。这些术语不应被解释为排除其他特征、步骤或组件的存在。
154.本发明还可以广泛地包括在说明书中单独或共同地以两个或更多个部件、要素、步骤、示例和/或特征的任何和所有组合提及或指出的部件、要素、步骤、示例和/或特征。特别是,本文所述的任何实施例中的一个或多个特征可以与来自本文所述的任何其他实施例的一个或多个特征组合。
155.可以寻求对在本文结合本公开内容引用的任何一个或多个公开的文件中公开的任何特征的保护。
156.尽管已经描述了本发明的某些示例性实施例,但是所附权利要求的范围并不仅局限于这些实施例。权利要求书应被从字面上、有目的地解释,和/或包含等同替换物。

技术特征:
1.一种质谱数据的分析方法,包括:获得原始实验质谱数据;使用反卷积算法、宽的第一输入参数集和宽的第一输出参数集来执行所述原始实验质谱数据的第一次反卷积,以获得反卷积输出;从所述反卷积输出获得离散峰数据;模拟所述离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据;模拟所述离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据;以及通过将所述疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较来确定所述第二峰是否可能是伪迹或物质的指示。2.根据权利要求1所述的质谱数据分析方法,其中,所述离散峰数据的第一峰是所述离散峰数据的最强峰。3.根据权利要求1或2所述的质谱数据分析方法,其中,所述离散峰数据的第二峰是最接近所述离散峰数据的第一峰的物质。4.根据权利要求1、2或3所述的质谱数据的分析方法,其中,将所述疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较包括将所述疑似模拟原始离散数据的m/z值与所述参考模拟原始离散数据的m/z值进行比较。5.根据权利要求4所述的质谱数据分析方法,其中,将所述疑似模拟原始离散数据的m/z值与所述参考模拟原始离散数据的m/z值进行比较包括计算在考虑的m/z值的电荷状态z下的理论同位素分布的宽度。6.根据权利要求4或5所述的质谱数据分析方法,其中,如果所述疑似模拟原始离散数据的所有m/z值都在所述参考模拟原始离散数据的m/z值内,则所述第二峰被识别为可能是伪迹。7.根据权利要求4、5或6所述的质谱数据分析方法,其中,如果所述疑似模拟原始离散数据的m/z值不在所述参考模拟原始离散数据的m/z值内,则所述第二峰被识别为可能是物质的指示。8.根据前述权利要求中任一项所述的质谱数据分析方法,其中,一旦所述第二峰被识别为可能是物质的指示,则停止将所述疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较。9.根据前述权利要求中任一项所述的质谱数据分析方法,其中,一旦所述第二峰被识别为可能是物质的指示,则将所述疑似模拟原始离散数据添加到所述参考模拟原始离散数据中。10.根据前述权利要求中任一项所述的质谱数据分析方法,还包括模拟所述离散峰数据的其他峰的原始数据,以获得其他疑似模拟原始离散数据;以及通过将所述其他疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较来确定所述其他峰是否可能是伪迹或物质的指示。11.根据前述权利要求中任一项所述的质谱数据分析方法,还包括:确定窄的第二输入参数集,包括:设定输入谱阈值百分比;
将所述参考模拟原始离散数据中高于所述输入谱阈值百分比的最小m/z值设置为所述窄的第二输入参数集的下限;和/或将所述参考模拟原始离散数据中高于所述输入谱阈值百分比的最大m/z值设置为所述窄的第二输入参数集的上限。12.根据权利要求11所述的质谱数据的分析的方法,其中,确定所述窄的第二输入参数集还包括:如果所述第二峰被确定为可能是物质的指示:如果所述疑似模拟原始离散数据中高于所述输入谱阈值百分比的最小m/z值小于所述窄的第二输入参数集的下限,则将所述疑似模拟原始离散数据中的最小m/z值设置为所述窄的第二输入参数集的下限;和/或以及,如果所述输入谱阈值百分比以上的所述疑似模拟原始离散数据中的最大m/z值大于所述窄的第二输入参数集的上限,则将所述疑似模拟原始离散数据中的最大m/z值设置为所述窄的第二输入参数集的上限。13.根据权利要求11或12所述的质谱数据的分析的方法,其中,确定所述窄的第二输入参数集还包括:如果所述或其他峰被确定为可能是物质的指示:如果所述其他疑似模拟原始离散数据中高于所述输入谱阈值百分比的最小m/z值小于所述窄的第二输入参数集的下限,则将所述其他疑似模拟原始离散数据中的最小m/z值设置为所述窄的第二输入参数集的下限;和/或如果所述其他疑似模拟原始离散数据中高于所述输入谱阈值百分比的最大m/z值大于所述窄的第二输入参数集的上限,则将所述疑似模拟原始离散数据中的最大m/z值设置为所述窄的第二输入参数集的上限。14.根据权利要求11、12或13所述的质谱数据分析方法,其中,所述输入谱阈值百分比被设置为零。15.根据前述权利要求中任一项所述的质谱数据分析方法,还包括:确定窄的第二输出参数集,包括:设置偏移值;以及将所述第一峰、所述第二峰和/或被确定为物质的指示的任何其他峰减去所述偏移值中的最小者设置为所述窄的第二输出参数集的下限;和/或将所述第一峰、所述第二峰和/或被确定为物质的指示的任何其他(一个或多个)峰加上所述偏移值中的最大者设置为所述窄的第二输出参数集的上限。16.根据权利要求1至14中任一项所述的质谱数据分析方法,还包括:确定窄的第二输出参数集,包括:设置偏移值;以及将所述第一峰、所述第二峰和/或被确定为物质的指示加上和减去所述偏移值的任何其他(一个或多个)峰设置为包括在所述窄的第二输出参数集中。17.根据权利要求15或16所述的质谱数据分析方法,当从属于权利要求11至14中任一项时,还包括:使用反卷积算法和根据权利要求11至14中任一项所述的窄的第二输入参数集来执行
所述原始实验质谱数据的第二反卷积;和/或,根据权利要求15或16所述的窄的第二输出参数集,获得第二反卷积输出。18.一种确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法,包括:从反卷积输出中获得离散峰数据;模拟所述离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据;模拟所述离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据;以及通过将所述疑似模拟原始离散数据与所述参考模拟原始离散数据进行比较来确定所述第二峰是否可能是伪迹或物质的指示。19.一种质谱数据的分析方法,包括:获得原始实验质谱数据;使用反卷积算法、宽的第一输入参数集和宽的第一输出参数集来执行所述原始实验质谱数据的第一次反卷积,以获得反卷积输出;识别所述反卷积输出中的峰;模拟所述反卷积输出的第一峰的原始数据,以获得参考模拟原始数据;模拟所述反卷积输出的第二峰的原始数据,以获得疑似模拟原始数据;确定所述疑似模拟原始数据与所述参考模拟原始数据之间的重叠系数;以及通过将所述重叠系数与预定阈值进行比较来确定所述第二峰是否可能是伪迹或者物质的指示。20.根据权利要求19所述的质谱数据分析方法,其中,确定所述疑似模拟原始数据与所述参考模拟原始数据之间的重叠系数包括确定所述疑似模拟原始数据中的峰或峰集合与所述参考模拟原始数据中的峰或峰集合的重叠系数。21.根据权利要求19所述的质谱数据的分析方法,其中,确定所述疑似模拟原始数据与所述参考模拟原始数据之间的重叠系数包括确定所述疑似模拟原始数据和所述参考模拟原始数据中的全部或基本上全部的重叠系数。22.一种确定反卷积输出中的第二峰是否可能是伪迹或物质的指示的方法,包括:识别所述反卷积输出中的峰;模拟所述反卷积输出的第一峰的原始数据,以获得参考模拟原始数据;模拟所述反卷积输出的第二峰的原始数据,以获得疑似模拟原始数据;确定所述疑似模拟原始数据与所述参考模拟原始数据之间的重叠系数;以及通过将所述重叠系数与预定阈值进行比较来确定所述第二峰是否可能是伪迹或者物质的指示。23.一种计算机可读介质,具有存储在其上的指令,所述指令在由处理器执行时使得可以执行根据权利要求1至22中任一项所述的方法。24.一种包括指令的计算机程序,所述指令在由处理器执行时使得可以执行根据权利要求1至22中任一项所述的方法。25.一种包括至少一个处理器和计算机可读介质的系统,其中,所述计算机可读介质具有存储在其上的指令,所述指令在由所述至少一个处理器执行时使所述系统可以执行根据权利要求1至22中任一项所述的方法。

技术总结
提供了一种质谱数据的分析方法,包括:获得原始实验质谱数据;使用反卷积算法、宽的第一输入参数集和宽的第一输出参数集来执行原始实验质谱数据的第一次反卷积,以获得反卷积输出;从反卷积输出获得离散峰数据;模拟离散峰数据的第一峰的原始数据,以获得参考模拟原始离散数据;模拟离散峰数据的第二峰的原始数据,以获得疑似模拟原始离散数据;以及通过将疑似模拟原始离散数据与参考模拟原始离散数据进行比较来确定第二峰是否可能是伪迹或物质的指示。质的指示。


技术研发人员:P
受保护的技术使用者:沃特世科技爱尔兰有限公司
技术研发日:2022.02.02
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐