一种DNA数据存储的选择性访问方法与流程

未命名 07-14 阅读:98 评论:0

一种dna数据存储的选择性访问方法
技术领域
1.本发明涉及dna数据存储技术领域,更具体地涉及一种dna数据存储的选择性访问方法。


背景技术:

2.随着互联网和计算机技术的发展,数字化信息以越来越快的速度不断产生,根据国际数据公司(idc)数据显示,全球大数据存储量从2017年的21.6zb增至2020年60zb,预计到2025年全球数据量将达到175zb,至少需要175万亿个1gb的移动硬盘来存储。目前使用的存储媒介硬盘、闪存等磁学或光学等传统存储介质存储容量有限,使用寿命一般为5到10年,光盘的寿命也只有50年,因此目前的存储介质已经逐渐不能满足全世界范围内数据存储的需要。因此,面对日益增长的数据存储量和目前有限的存储空间和使用寿命的存储介质问题,急需一种存储密度大且可以长期存在的数据存储材料。
3.dna,即脱氧核苷酸,由四种碱基:腺嘌呤(a)、胸腺嘧啶(t)、胞嘧啶(c)和鸟嘌呤(g)排列组成。dna是一种长链聚合物,储存着大量的遗传信息,dna数据存储的内容可以是文字、图片、声音和影像等。dna数据存储过程包括两部分:一,将二进制文件中的0和1翻译成atcg并转换为dna序列,然后使用高通量合成技术合成dna序列储存信息;二,dna的序列的测序解码,可以使用sanger、illumina或纳米孔测序技术对dna序列测序,最后使用不同算法来将测序结果解码为二进制文件。
4.dna数据存储具有以下优点:第一,存储密度大,约为10
19
bit/cm3,分别是硬盘和闪存的数据存储密度106和103倍,1g dna可以存储多达455eb的数据,存储当前全球的所有数据大约只需要1千克dna(nucleic acids research,2021,49,5451

5469.)(nature,2016,537(7618),22

24.);第二,稳定性好,在合适的条件下,一些dna化石可以稳定存在长达数十万年,甚至几百万年(nature,2019,576,262

265);第三,存储维护成本低不需要大量的人力、财力投入,仅需要将dna数据保存在低温环境中。因此,dna分子凭借其高存储密度、稳定性和低维护成本,有望成为新一代信息存储介质。
5.dna数据存储技术的发展仍受限于数据的写入与读取时效和经济成本,但随着合成和测序技术的发展,成本也会逐渐下降。但由于dna数据文库复杂性,含有多条序列,如果能够准确的找到我们需要的序列,避免将整个dna数据库进行完整又昂贵的测序,将对降低dna数据读取的成本具有重要意义。因此,对每条dna序列设置一个寻址系统来从复杂的dna文库选出需要的文件显得十分重要。
6.目前基于pcr的寻址系统,通过使用地址特异性引物来实现利用pcr高特异性扩增,选择性地富集目标序列。然而,一方面,虽然可以使用ncbi、primer premier 5等来设计pcr引物,但其引物设计是基于tm推测获得引物,并没有充分考虑到引物颈环结构和未匹配单链对dna杂交影响;另一方面,文献或网上报道所提供的引物序列并不一定适用于要进行的研究,且由于缺少理论和算法支撑,难以根据存储工作的需要进行扩展改进,而使用已申请过专利的引物则需要获得相应的授权。因此,很有必要开发一种新的dna数据存储访问方
法。


技术实现要素:

7.本发明的目的是提供一种dna数据存储的选择性访问方法,从而解决现有技术中dna数据存储访问方法由于dna数据文库的复杂性存在读取成本较高、读取耗时较长、选择性读取准确性较低的问题。
8.为了解决上述技术问题,本发明采用以下技术方案:
9.提供一种dna数据存储的选择性访问方法,包括以下步骤:s1:基于二进制与dna碱基的映射关系,将数字信息转化为dna序列,所述dna序列分割成若干小的信息序列,并添加一段地址序列;s2:设计能够添加在序列两端的引物组,所述引物组基于gc含量、均聚物、引物结合自由能变化δg、自身互补性、以及二级结构的综合考量设计;s3:根据步骤s1和s2的设计合成dna序列并放置在合适的条件下保存,合成的每条dna序列包括连接在一起信息序列和地址序列,以及分别添加在其两端的正向引物序列和反向引物序列;s4:选择待访问文件的相对应引物组,通过多重pcr选择性扩增待访问内容的dna序列,以富集靶序列并在其两端加上测序接头;s5:通过测序读取dna序列信息;s6:基于dna碱基与二进制信息的映射关系对读取的dna序列信息进行解码,恢复文件,实现dna数据存储的选择性访问。
10.根据本发明的一个优选实施方案,步骤s2包括:s21:使用matlab或python的随机函数功能产生一对序列长度在15~30nt之间的随机引物序列,验证其gc含量是否在40%~60%之间,最大均聚物长度是否不超过4,是则验证通过,否则验证不通过,改变部分碱基后重新验证;s22:进一步计算引物结合自由能变化δg是否在-4kcal/mol~-20kcal/mol之间,是则验证通过,否则验证不通过,直接丢弃,回到步骤s21;s23:进一步进行互补性评估,在近3’端位置,与自身或另一引物的互补碱基个数不超过4个,而在中间位置则不能超过6个,是则验证通过,否则验证不通过,直接丢弃,回到步骤s21;s24:进一步考察其二级结构的形成情况,对于有明显二级结构的引物则直接丢弃,回到步骤s21,验证通过的引物则添加至可用引物库中。
11.优选的,步骤s22中,引物结合自由能变化δg的计算基于nearest neighbor模型,使用相应的热力学参数,计算自由能δg=δh

tδs,其中t的单位为开尔文。
12.更优选的,步骤s22中,计算在常规pcr条件下所述引物结合自由能变化δg在-10.5kcal/mol~-12.5kcal/mol之间,是则验证通过。作为举例而非限制,常规pcr条件为na
+
离子浓度为0.18m,温度t为60℃。
13.根据本发明的一个优选实施方案,步骤s2还包括:通过序列比对工具对引物的扩增特异性进行验证。
14.根据本发明的一个优选实施方案,步骤s2还包括:所述引物在设计时可修饰选自:rna、lna、pna、xna、du、spacer、peg、荧光基团、磷酸化基团、反向dt、甲基化碱基中的任意一种功能基团。
15.优选的,步骤s4包括:可根据需求组合1~n对引物,以一定比例混合,在相应pcr条件下对dna序列进行选择性扩增并测序读取。
16.本发明的目的是使用设计的引物通过pcr技术对dna数据库中的特定目标文件序列扩增,并通过引物序列实现目标文件序列的选择性读取。本发明的选择性读取的方法避
免了为从dna数据库中找到某一特定目标文件序列而对整个数据库测序读取造成的测序时间和成本的浪费。
17.步骤s4中,pcr条件包括:1)pcr循环步骤可以按照变性-退火-延伸的步骤进行,也可以按照变性-退火+延伸的方式扩增;2)pcr的引物浓度范围在1nm~100μm之间;3)pcr的退火温度范围在20℃~72℃之间,退火温度也可随着循环数的增加而改变;4)pcr中使用的聚合酶为低保真聚合酶或高保真聚合酶,其中低保真聚合酶包括:taq、powerup、itaq、universal blue等,高保真聚合酶包括:kapa、phusion、q5等;5)pcr中所使用的反应液中,mg
2+
浓度在1mm~100mm之间,dntp浓度在20μm~20mm之间,dmso浓度在1%~30%之间,na
+
浓度在100mm~10m之间。
18.根据本发明,提供了一种dna数据存储的选择性访问方法,特别是提供了一种引物设计方法,通过对gc含量、均聚物、引物结合自由能变化δg、自身互补性、以及二级结构的一系列综合考量设计出合适的引物组,从而最终实现对dna数据中目标文件的低成本的、高准确度的、快速的读取。现有方法没有考虑由于引物结构引起的文库的非特异性扩增,因为现有技术中所采用的引物设计方法通常是基于tm推测获得,并没有考虑到引物颈环结构和未匹配单链对dna杂交的影响。
19.本发明的关键发明点即在于,基于引物结合自由能变化δg的计算设计出能和目标文件的dna序列特异性结合的引物,可以检查引物二聚体的情况,同时可以检查非特异性扩增,增加选择性读取的准确性,使用设计的引物通过pcr技术选择性扩增整个dna数据库中相应目标文件序列,最后根据引物序列实现目标文件序列的选择性读取。
20.综上所述,根据本发明提供的一种dna数据存储的选择性访问方法,相比于基于tm值设计引物的现有技术,本发明基于对gc含量、均聚物、引物结合自由能变化δg、自身互补性、以及二级结构的一系列综合考量设计pcr引物的方法,可以检查引物二聚体的情况,同时可以检查非特异性扩增,增加选择性读取的准确性;其次,本发明的引物设计方法有望拓展用于多重引物组的设计,建立更大的引物组来增加dna数据存储的容量。
附图说明
21.图1示出了dna存储读取的全过程;
22.图2示出了基于pcr扩增技术在dna存储中实现目标文件的选择性访问的原理图;
23.图3示出了根据本发明提供的一种dna数据存储的选择性访问方法中引物组设计流程图;
24.图4示出了引物上可修饰的基团种类。
具体实施方式
25.以下结合具体实施例,对本发明做进一步说明。应理解,以下实施例仅用于说明本发明而非用于限制本发明的范围。
26.结合图1、图2、图3所示,为根据本发明的一个优选实施例提供的一种dna数据存储的选择性访问方法。该方法主要包括以下步骤:
27.1)dna序列的编码合成:电脑端的任何文件,本质都是由0101这样的二进制信息构成。dna存储的第一步便是基于数字信息与碱基之间的映射关系,将二进制信息转化为dna
序列。对于具体如何操作,已发展了很多不同的编码方式,为方便理解,此处我们介绍两种简单的映射方法:

a,t,c,g分别对应00,01,10,11;

a/c对应1,t/g对应0。基于选择的映射方法,便可将文件的数字信息转化为一段长dna序列。但由于dna合成技术的限制,通常需要序列分割为许多小的片段,并添加一段地址(address)序列,以便复原时确定每一段序列的位置。最后,在序列两端添加正向引物(forward primer,fp)与反向引物(reverse primer,rp)的退火位点(退火即引物与模板结合的过程),便得到了最终需要合成的序列。然后将设计好的dna序列通过化学合成法或生物酶法合成并放置在相应的环境下保存。
28.2)dna序列的测序解码:读取可分为两个子步骤,分别为建库与测序。首先,选择待访问文件的相对应引物组,通过聚合酶链反应(pcr)扩增(用于增加核酸分子的拷贝数)富集靶序列并在其两端加上测序接头。然后,通过illumina等测序仪器对构建的文库进行测序。最后,根据编码时使用的映射关系表将测序所得dna序列转换为数字信息,从而恢复保存在dna序列中的文件信息。
29.显然,选择性访问在dna存储中具有重要意义,通过设计的pcr引物选择目标文件,不用再读取dna文库中的所有信息并将其解码,从而降低解码所花费的时间和金钱。首先,在编码的dna序列中,每个文件的相关序列都有相关的引物组。其次,针对想要访问的目标文件,通过使用该目标文件的引物组进行pcr扩增,即可实现引物组对应的目标文件序列的特异扩增。再次,按照普通建库步骤,在序列两端添加上测序接头,并进行测序。最后,对得到的测序结果进行解码分析,最后便可获得相应的文件信息。
30.因此,本发明通过提供一种dna数据存储的选择性访问方法,特别是提供一种引物设计方法,通过对gc含量、均聚物、引物结合自由能变化δg、自身互补性、以及二级结构的一系列综合考量设计出合适的引物组,最终实现dna存储数据的选择性访问。该方法主要包括以下步骤:
31.s1:基于二进制与dna碱基的映射关系,将数字信息转化为dna序列,所述dna序列分割成若干小的信息序列,并添加一段地址序列;
32.s2:设计能够添加在序列两端的引物组,所述引物组基于gc含量、均聚物、引物结合自由能变化δg、自身互补性、以及二级结构的综合考量设计;
33.s3:根据步骤s1和s2的设计合成dna序列并放置在合适的条件下保存,合成的每条dna序列包括连接在一起信息序列和地址序列,以及分别添加在其两端的正向引物序列和反向引物序列;
34.s4:选择待访问文件的相对应引物组,通过多重pcr选择性扩增待访问内容的dna序列,以富集靶序列并在其两端加上测序接头;
35.s5:通过测序读取dna序列信息;
36.s6:基于dna碱基与二进制信息的映射关系对读取的dna序列信息进行解码,恢复文件,实现dna数据存储的选择性访问。
37.根据本发明的一个优选实施例,结合图3所示,步骤s2所涉及的引物组设计流程说明如下,主要包括以下子步骤:
38.s21:使用matlab或python的随机函数功能,如random,产生一对序列长度在15~30nt之间的随机引物序列,验证其gc含量是否在40%~60%之间,最大均聚物长度是否不超过4,是则验证通过,否则验证不通过,改变部分碱基后重新验证。
39.应当理解的是,gc含量使用matlab或python等编程语言统计a\t\c\g数目进行计算,cg含量=(c+g)/(a+t+c+g)。类似的,最大均聚物长度通过程序语言即可实现。
40.s22:进一步计算在常规pcr条件下引物结合自由能变化δg是否在-4kcal/mol~-20kcal/mol之间,是则验证通过,对于δg在范围外的引物组,直接丢弃并回到步骤s21,重新生成新序列进行优化设计。
41.应当知晓的是,引物结合自由能变化δg的计算可基于nearest neighbor模型,使用相应的热力学参数,如δh,δs,计算自由能δg=δh

tδs,其中t的单位为开尔文。
42.更优选的,在常规pcr条件下(包括但不限于na
+
离子浓度为0.18m,温度t为60℃)引物结合自由能变化δg范围为-10.5kcal/mol~-12.5kcal/mol。
43.作为举例说明:在普通pcr条件下,如na
+
浓度为0.18m,温度t为60℃时,设计引物gctcttcc,δg=-3.19kcal/mol,长度为8nt,合成困难且成本增高,此时能量太大可能会导致目标文件的dna序列扩增失败以及后续的选择性读取;如果δg太低,例如gctcttcctctcacatctttatttaacccattagaaaatcctatcagctcta gac,δg=-26.39kcal/mol,长度为57nt,引物太长容易自身互补和二级结构。
44.s23:进一步进行互补性评估,在近3’端位置,与自身或另一引物的互补碱基个数不超过4个,而在中间位置则不能超过6个,是则验证通过,否则验证不通过,直接丢弃,回到步骤s21。
45.s24:进一步考察其二级结构的形成情况,对于有明显二级结构的引物则直接丢弃,回到步骤s21,验证通过的引物则添加至可用引物库中。
46.应当理解的是,二级结构的验证可使用一些机构提供的核酸结构、杂交预测软件,如nupack,mfold。
47.根据本发明的一个优选实施方案,通过使用不同功能基团来修饰引物可以赋予引物额外的功能,如图4所示展示了引物上可修饰的基团种类。通过修饰rna或lna、pna、xna等核酸类似物,可改变引物与模板的结合能力,从而提高引物的单碱基分辨率(区分单个碱基的错判)。而在引物中间修饰多个du碱基,结合尿嘧啶-dna糖基化酶(udg酶,可特异性切割du)可以减少引物二聚体的形成。在引物的5’端修饰有荧光基团与淬灭基团的分子信标,可以实现对pcr扩增过程实时监测的效果。
48.以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

技术特征:
1.一种dna数据存储的选择性访问方法,其特征在于,包括以下步骤:s1:基于二进制与dna碱基的映射关系,将数字信息转化为dna序列,所述dna序列分割成若干小的信息序列,并添加一段地址序列;s2:设计能够添加在序列两端的引物组,所述引物组基于gc含量、均聚物、引物结合自由能变化δg、自身互补性、以及二级结构的综合考量设计;s3:根据步骤s1和s2的设计合成dna序列并放置在合适的条件下保存,合成的每条dna序列包括连接在一起信息序列和地址序列,以及分别添加在其两端的正向引物序列和反向引物序列;s4:选择待访问文件的相对应引物组,通过多重pcr选择性扩增待访问内容的dna序列,以富集靶序列并在其两端加上测序接头;s5:通过测序读取dna序列信息;s6:基于dna碱基与二进制信息的映射关系对读取的dna序列信息进行解码,恢复文件,实现dna数据存储的选择性访问。2.根据权利要求1所述的选择性访问方法,其特征在于,步骤s2包括以下子步骤:s21:使用matlab或python的随机函数功能产生一对序列长度在15~30nt之间的随机引物序列,验证其gc含量是否在40%~60%之间,最大均聚物长度是否不超过4,是则验证通过,否则验证不通过,改变部分碱基后重新验证;s22:进一步计算引物结合自由能变化δg是否在-4kcal/mol~-20kcal/mol之间,是则验证通过,否则验证不通过,直接丢弃,回到步骤s21;s23:进一步进行互补性评估,在近3’端位置,与自身或另一引物的互补碱基个数不超过4个,而在中间位置则不能超过6个,是则验证通过,否则验证不通过,直接丢弃,回到步骤s21;s24:进一步考察其二级结构的形成情况,对于有明显二级结构的引物则直接丢弃,回到步骤s21,验证通过的引物则添加至可用引物库中。3.根据权利要求2所述的选择性访问方法,其特征在于,步骤s22中,引物结合自由能变化δg的计算基于nearest neighbor模型,使用相应的热力学参数,计算自由能δg=δh

tδs,其中t的单位为开尔文。4.根据权利要求2所述的选择性访问方法,其特征在于,步骤s22中,计算在常规pcr条件下所述引物结合自由能变化δg在-10.5kcal/mol~-12.5kcal/mol之间,是则验证通过。5.根据权利要求1所述的选择性访问方法,其特征在于,步骤s2还包括:通过序列比对工具对引物的扩增特异性进行验证。6.根据权利要求1所述的选择性访问方法,其特征在于,步骤s2还包括:所述引物在设计时可修饰选自:rna、lna、pna、xna、du、spacer、peg、荧光基团、磷酸化基团、反向dt、甲基化碱基中的任意一种功能基团。7.根据权利要求1所述的选择性访问方法,其特征在于,步骤s4包括:可根据需求组合1~n对引物,以一定比例混合,在相应pcr条件下对dna序列进行选择性扩增并测序读取。8.根据权利要求1所述的选择性访问方法,其特征在于,步骤s4中,pcr条件包括:1)pcr循环步骤可以按照变性-退火-延伸的步骤进行,也可以按照变性-退火+延伸的方式扩增;
2)pcr的引物浓度范围在1nm~100μm之间;3)pcr的退火温度范围在20℃~72℃之间,退火温度也可随着循环数的增加而改变;4)pcr中使用的聚合酶为低保真聚合酶或高保真聚合酶,其中低保真聚合酶包括:taq、powerup、itaq、universal blue,高保真聚合酶包括:kapa、phusion、q5;5)pcr中所使用的反应液中,mg
2+
浓度在1mm~100mm之间,dntp浓度在20μm~20mm之间,dmso浓度在1%~30%之间,na
+
浓度在100mm~10m之间。

技术总结
本发明提供一种DNA数据存储的选择性访问方法,包括以下步骤:S1:基于二进制与DNA碱基的映射关系,将数字信息转化为DNA序列;S2:基于GC含量、均聚物、引物结合自由能变化ΔG、自身互补性、以及二级结构的综合考量设计引物组;S3:合成DNA序列;S4:选择待访问文件的相对应引物组,通过多重PCR选择性扩增待访问内容的DNA序列;S5:通过测序读取DNA序列信息;S6:对读取的DNA序列信息进行解码,恢复文件。本发明基于对GC含量、均聚物、引物结合自由能变化ΔG、自身互补性、以及二级结构的一系列综合考量设计PCR引物的方法,最终实现对DNA数据库中目标文件的低成本的、高准确度的、快速的读取。快速的读取。快速的读取。


技术研发人员:樊春海 宋萍 翁智 司云培
受保护的技术使用者:祥符实验室
技术研发日:2023.04.07
技术公布日:2023/7/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐