寡核苷酸序列中的缺失检测的制作方法

未命名 08-12 阅读:129 评论:0

寡核苷酸序列中的缺失检测
1.相关申请的交叉引用
2.本技术要求澳大利亚临时申请2020903839的优先权,所述澳大利亚临时申请的内容通过引用整体并入本文。
技术领域
3.本公开涉及检测基因组中的缺失。


背景技术:

4.近年来,通过引入边合成边测序已经促进了对整个人类基因组的分析,在所述边合成边测序中,并行读取大量相对较短的dna、rna或其它寡核苷酸序列的片段。然后通常将这些

读段’与参考基因组比对,以检测变异,如单核苷酸多态性,其中一个核苷酸碱基改变为不同的碱基。
5.另一变体形式是结构变体,所述结构变体包含缺失。然而,从短的读段中检测缺失是困难的,因为缺失的区域通常比单个读段长,这使得比对过程在计算上昂贵且不准确。
6.已包含在本说明书中的对文献、动作、材料、装置、制品等的任何论述不应由于其在所附权利要求中的每一个的优先权日期之前已存在而被视为承认这些内容中的任一个或全部形成现有技术基础的部分或者是与本公开相关的领域中的公知常识。
7.贯穿本说明书,词语“包括(comprise)”或如“包括(comprises)”或“包括(comprising)”等变体应当被理解为暗示包含所陈述要素、整数或步骤或要素组、整数组或步骤组,但不排除任何其它要素、整数或步骤或要素组、整数组或步骤组。


技术实现要素:

8.本公开提供了一种用于检测缺失的方法,其中不是比对短读段,而是将每个读段分割成长度为k的区段,所述区段也称为k聚体或简称为聚体。然后,所提出的方法在不进行比对的情况下直接利用所述k聚体训练机器学习模型。在缺失的情况下,所述方法可以检测缺失的k聚体的不存在和缺失属于缺失的dna序列的部分的k聚体的存在。因此,可以准确地诊断与此类缺失相关的疾病。
9.本文所公开的是一种用于检测基因序列中的缺失的计算机实施的方法。所述方法包括:接收训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段;将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段;利用所述多个区段训练机器学习模型;接收包括多个测试读段的测试测序数据;将所述多个测试读段中的每一个测试读段分割成多个测试区段;以及针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。
10.所述方法的优点是利用所述序列的多个区段训练和评估所述机器学习模型。因此,不需要比对或变体识别,这显著降低了评估步骤的计算复杂性。应注意,训练步骤在计算上可能是昂贵的,但对于整个训练数据集来说,此步骤仅执行一次。
11.在一些实施例中,所述训练区段和所述测试区段是k聚体。
12.在一些实施例中,所述测试测序数据由测序仪生成。在一些实施例中,所述测试测序数据由所述测序仪以fastq文件的形式提供。
13.在一些实施例中,所述机器学习模型是神经网络。在一些实施例中,所述神经网络包括门控递归单元。在一些实施例中,所述神经网络包括双向门控递归单元,以处理所述训练测序数据和所述测试测序数据的正向和反向读段方向。在一些实施例中,所述方法进一步包括对所述区段进行编码,并将经编码的区段直接用作所述双向门控递归单元的输入。
14.在一些实施例中,所述方法进一步包括在图形处理单元上执行所述方法的一个或多个步骤。
15.在一些实施例中,所述方法进一步包括基于所述缺失检测疾病。
16.在一些实施例中,检测所述疾病是所述经训练的机器学习模型的输出。
17.在一些实施例中,所述训练测序数据和所述测试测序数据是通过边合成边测序获得的。
18.在一些实施例中,所述训练测序数据和所述测试测序数据包括rna读段,并且所述缺失在受试者的基因组中。
19.在一些实施例中,所述读段的长度介于100与200个碱基对之间,并且所述区段的长度介于4与100个碱基对之间。
20.在一些实施例中,所述区段的长度介于4与20个碱基对之间。
21.软件在由计算机执行时使所述计算机执行上述方法。
22.进一步公开了一种用于检测基因序列中的缺失的计算机系统。所述计算机系统包括:数据存储器,所述数据存储器被配置成存储训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段;处理器,所述处理器被配置成:将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段;利用所述多个区段训练机器学习模型;接收包括多个测试读段的测试测序数据;将所述多个测试读段中的每一个测试读段分割成多个测试区段;以及针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。
附图说明
23.现在将参考以下附图来描述实例:
24.图1展示了用于检测基因组中的缺失的计算机系统。
25.图2展示了用于检测dna序列中的缺失的方法。
26.图3展示了包含嵌入层的机器学习模型。
27.图4展示了具有直接输入到门递归单元的机器学习模型。
28.图5展示了sigmoid曲线。
具体实施方式
29.系统
30.图1展示了用于检测基因组中的缺失的计算机系统100。计算机系统100包括处理器101、程序存储器102、数据存储器103、通信端口104、图形处理单元(gpu)105和数据库
106。系统100通过通信端口104连接到测序仪110,所述测序仪包括流动池111和相机113,在所述流动池上连接有多条寡核苷酸链112,所述相机用于捕获附接在链112上的荧光标签。在一个实例中,测序仪110执行边合成边测序,由此在每个循环中,根据哪种碱基位于链112中的当前位置,将一个标签附接到每条链112上。每个碱基的标签以不同颜色发荧光,使得相机113捕获图像,其中所述图像中的每个着色点表示碱基之一。处理器101然后可以执行碱基识别方法来确定每个循环的碱基,并将每条链中的碱基连接成

读段’。在一个实例中,测序仪110是依诺米那公司(illumina inc)的x10下一代测序(ngs)测序仪。
31.应注意,处理器101可以从测序仪110接收图像数据,或者可以从测序仪110接收碱基识别。在后一种情况下,测序仪110在内部执行碱基识别,并提供例如含有碱基和进一步质量信息的fastq文件。从测序仪110接收的任何指示碱基或核苷酸的数据被称为测序数据。处理器101使用测序数据来检测基因序列中的缺失。
32.缺失是dna的一种变体类型。其它类型包含单核苷酸多态性(snp),其中单个碱基发生改变。snp可以通过将读段与参考基因组比对并确定读段与参考基因组之间的差异来检测。然而,对于缺失,比对是困难的,因为参考基因组的长区段在样品中缺失。因此,处理器101使用不进行比对的不同方法。
33.在一些实例中,流动池111上的链112是rna链,使得测序数据表示指示dna序列如何表达为rna的表达数据。根据所述表达数据,处理器101然后可以在与参考序列相比时通过识别参考基因组的哪些区域未表达来检测dna序列中的缺失。
34.方法
35.图2展示了由处理器101执行的用于检测dna序列中的缺失的方法200。方法200包括接收201训练测序数据。训练测序数据包括来自测序仪110的多个训练读段。训练读段分为两组并进行标记。第一组与具有缺失的基因序列相关(例如标记为
‘1’
),并且第二组与不具有缺失的基因序列相关(例如标记为
‘0’
)。标签还可以指示个体受试者是否患有疾病或是否健康。
36.处理器101将多个训练读段中的每一个训练读段分割成比训练读段短的多个训练区段。例如,训练读段的长度可以是150bp,而区段的长度介于10与50bp之间。
37.然后,处理器101利用多个区段训练机器学习模型。一旦训练完成并且经训练的机器学习模型存储在数据存储器103上,处理器101就接收204包括多个测试读段的测试测序数据。在一些实例中,测试测序数据来自待诊断患者的样品。
38.处理器101再次将多个测试读段中的每一个测试读段分割205成多个测试区段,并且针对多个测试区段评估206经训练的机器学习模型,以检测测试测序数据中的缺失。
39.机器学习模型
40.图3展示了呈神经网络形式的机器学习模型300。在此实例中,机器学习模型300包括输入层301和嵌入层304、双向门控递归单元(gru)309、密集层312和sigmoid输出313。
41.输入层301示出了示例输入读段302和在处理器101已经将读段302分割之后的一组区段303。嵌入层包括word2vec模块305和k聚体模型306,以上两者在一些实例中都可以省略。word2vec是用于自然语言处理的技术。word2vec算法使用神经网络模型从大型文本语料库中学习词语联想。一旦经过训练,此类模型就可以检测同义词或为部分句子建议另外的词语。此处,word2vec可以应用于读段的区段。
42.进一步地,嵌入层304包括嵌入矩阵308。嵌入矩阵是从原始空间(k之一(one-of-k))到实值空间的线性映射,其中实体可以具有有意义的关系。就像神经网络中的其它矩阵一样,嵌入矩阵也可以进行训练。因此,此处,原始空间可能是所有可能的k聚体的空间,并且嵌入矩阵将所述空间映射到实值空间。
43.在双向gru中使用来自嵌入层的实值结果。这涉及多个单独的gru 310,每个gru接收嵌入层304的输出。在此实例中,存在两串gru 311和312,并且每个串包括串联连接的多个gru,使得所述串中的一个gru的输出用作

下游’gru的输入。来自两个串311和312的结果通过合并操作313进行合并。合并操作313的结果随后被提供给包括多个神经元(未示出)的密集层314。在密集层中,层中的每个神经元接收来自先前层中存在的所有神经元的输入,因此,所述神经元是密集连接的。换言之,密集层是完全连接的层,这意味着层中的所有神经元都连接到下一层中。有关模型的更多详细信息可以在《自然科学报告(nature scientific reports)》(2018)8:15270中的zhen shen,wenzheng bao和de-shuang huang,“预测转录因子结合位点的递归神经网络(recurrent neural network for predicting transcription factor binding sites)”中找到,所述文献通过引用包含在本文中。
44.最后,sigmoid函数315基于密集层的结果计算输出分类/标签。此输出可以是疾病指标或缺失的存在。
45.直接学习
46.虽然图3示出了嵌入层,但也可能在没有嵌入层304的情况下利用区段进行学习,如使用独热编码{'a':0,'c':1,'g':2,'t':3,'n':4}。
47.图4展示了所得机器学习模型400,其中输入读段401被分割成区段402,并且经编码的区段402被直接用于双向gru 403。这在检测缺失的情况下特别有用,因为区段的存在或不存在比上调或下调更接近二元决策。
48.实例
49.本公开阐述了如何通过机器学习神经网络在dna基因组学水平上进行差异分析。例如,考虑健康受试者的基因组中的21号染色体。在某个时间点,染色体上的两个dna片段缺失。缺失的dna可能导致疾病。
50.本文所公开的方法使用机器学习来“记住”那些缺失的区域。以下实例被大大简化,以提供对过程的解释:
51.21号染色体的序列:0123456789。每个数字表示特定核苷酸的位置。出于说明的目的,这些数字被用于前进的核苷酸。
52.在此实例中,k聚体长度被设置为4。这将产生以下来自健康基因组的k聚体和二进制标签。二进制标签0意指“健康”:
53.[0054][0055]
现在存在缺失“23456”,这导致此缺失区域中的以下k聚体。二进制标签1意指“疾病”。
[0056]
区段标签2345134561
[0057]
一旦训练神经网络,处理器101就可以使用“789”作为测试区段。结果是非常低的概率(约0.01),表明此区域与疾病不重叠。对于测试区段“2345”,网络提供了非常高的概率(约合0.99),表明此区域与疾病重叠。
[0058]
在这个意义上,网络表现得像“字典”,使用双向gru记忆什么是健康(0)以及什么是疾病(1)。gru是双向的,因为k聚体可以从左到右和从右到左定向。
[0059]
实施方案
[0060]
在一个实例中,所公开的方法基于使用keras的kaggle来实施,如通过:
[0061]
model=sequential()
[0062]
model.add(embedding(max_fatures,embed_dim,input_length=x.shape[1]))
[0063]
model.add(spatialdropout1d(0.4))
[0064]
model.add(lstm(lstm_out,dropout=0.2,recurrent_dropout=0.2))
[0065]
model.add(dense(2,activation='softmax'))
[0066]
model.compile(loss='categorical_crossentropy',
[0067]
optimizer='adam',metrics=['accuracy'])
[0068]
在另一实例中,模型使用了一维卷积层。keras解决方案看起来像:
[0069]
model.add(conv1d(4,l,input_shape=x.shape[1:],activation='relu'))
[0070]
model.add(bidirectional(gru(512,return_sequences=true)))
[0071]
model.add(bidirectional(gru(512)))
[0072]
model.add(dense(512,activation='relu'))
[0073]
model.add(dense(1,activation='sigmoid'))
[0074]
在使用标准梯度下降的4个时期之后,所提出的模型能够实现99%的训练精度。没有试图防止过度拟合,如插入脱落层。所述模型的输出是sigmoid(也可以是softmax),针对每个dna序列生成概率。
[0075]
图5展示了具有阈值0.50的sigmoid曲线,所述sigmoid曲线可以实现足够的roc。
[0076]
如先前所提及的,处理器101还包括gpu 105,所述gpu还可以位于处理器101的外部。在一个实例中,机器学习模型的训练或评估或两者至少部分地由gpu 105执行。优点是gpu经设计具有高度并行性,这意味着神经网络的训练可以在显著缩短的时间框架内完成。
[0077]
实验
[0078]
所公开的方法利用以下进行测试:
[0079]

较长的染色体(chr1和chr18)
[0080]

各种测序覆盖度(10x、30x、50x和100x)
[0081]

区域数量(1至3)
[0082]
与前面一样,损失函数是binary_crossentropy(https://keras.io/losses/)。两个隐藏层。实施方案可以使用以下规则将测序数据转换为独热编码:{'a':0,'c':1,'g':2,'t':3,'n':4}
[0083]
准确度良好,并且与chr18的分离度良好,与chr21很相似。为了提高模型的鲁棒性,可以减少存储器的使用。例如,有可能加载基因组的随机子集,而不是来自整个基因组的读段。进一步地,模型可以被扩展,并且更多的隐藏层可以改善结果。
[0084]
本领域技术人员将理解,在不脱离本公开广泛的一般范围的情况下,可以对上述实施例进行多种变化和/或修改。因此,本发明的实施例应被视为在所有方面都是说明性而非限制性的。

技术特征:
1.一种用于检测基因序列中的缺失的计算机实施的方法,所述方法包括:接收训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段;将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段;利用所述多个区段训练机器学习模型;接收包括多个测试读段的测试测序数据;将所述多个测试读段中的每一个测试读段分割成多个测试区段;以及针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。2.根据权利要求1所述的方法,其中所述训练区段和所述测试区段是k聚体。3.根据权利要求1或2所述的方法,其中所述测试测序数据由测序仪生成。4.根据权利要求3所述的方法,其中所述测试测序数据由所述测序仪以fastq文件的形式提供。5.根据前述权利要求中任一项所述的方法,其中所述机器学习模型是神经网络。6.根据权利要求5所述的方法,其中所述神经网络包括门控递归单元。7.根据权利要求6所述的方法,其中所述神经网络包括双向门控递归单元,以处理所述训练测序数据和所述测试测序数据的正向和反向读段方向。8.根据权利要求7所述的方法,其中所述方法进一步包括对所述区段进行编码,并将经编码的区段直接用作所述双向门控递归单元的输入。9.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括在图形处理单元上执行所述方法的一个或多个步骤。10.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括基于所述缺失检测疾病。11.根据权利要求10所述的方法,其中检测所述疾病是所述经训练的机器学习模型的输出。12.根据前述权利要求中任一项所述的方法,其中所述训练测序数据和所述测试测序数据是通过边合成边测序获得的。13.根据前述权利要求中任一项所述的方法,其中所述训练测序数据和所述测试测序数据包括rna读段,并且所述缺失在受试者的基因组中。14.根据前述权利要求中任一项所述的方法,其中所述读段的长度介于100与200个碱基对之间,并且所述区段的长度介于4与100个碱基对之间。15.根据权利要求14所述的方法,其中所述区段的长度介于4与20个碱基对之间。16.一种软件,其在由计算机执行时使所述计算机执行根据前述权利要求中任一项所述的方法。17.一种用于检测基因序列中的缺失的计算机系统,所述计算机系统包括:数据存储器,所述数据存储器被配置成存储训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段;处理器,所述处理器被配置成:将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段;
利用所述多个区段训练机器学习模型;接收包括多个测试读段的测试测序数据;将所述多个测试读段中的每一个测试读段分割成多个测试区段;并且针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。

技术总结
本文所公开的是一种用于检测基因序列中的缺失的方法。所述方法包括由处理器接收训练测序数据,所述训练测序数据包括与具有缺失的基因序列和不具有缺失的基因序列相关的多个训练读段。所述处理器将所述多个训练读段中的每一个训练读段分割成比所述训练读段短的多个训练区段,并利用所述多个区段训练机器学习模型。所述处理器接收包括多个测试读段的测试测序数据,将所述多个测试读段中的每一个测试读段分割成多个测试区段,并且针对所述多个测试区段评估经训练的机器学习模型,以检测所述测试测序数据中的缺失。不需要比对或变体识别,这显著降低了评估步骤的计算复杂性。这显著降低了评估步骤的计算复杂性。这显著降低了评估步骤的计算复杂性。


技术研发人员:T
受保护的技术使用者:吉尼尤斯基因组学股份有限公司
技术研发日:2021.10.20
技术公布日:2023/8/8
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐