错配sgRNA选取方法及其在DNA特定位点上CRISPR系统中的应用
未命名
10-19
阅读:115
评论:0
错配sgrna选取方法及其在dna特定位点上crispr系统中的应用
技术领域
1.本发明涉及基因编辑领域,具体为一种错配sgrna选取方法及其在dna特定位点上crispr系统中的应用。
背景技术:
2.crispr/cas9(clustered regularly interspaced short palindromic repeat/crispr-associa-ted protein 9)系统介导的基因组编辑技术是目前应用最广泛的基因组定点编辑技术,通过由一条sgrna(single guide rna,向导rna)通过碱基互补配对与靶位点识别,引导cas9蛋白进行酶切,产生双链断裂,从而实现在dna水平的基因编辑。相比之前被发明其他基因编辑技术相比,crispr/cas9技术适用性广,成本低廉且易操作性,很快被应用于基因研究与治疗的各个方面。在基因治疗方面,crispr/cas9技术也体现出巨大的优越性与潜力。然而,由于sgrna只需要其5’端前20碱基与靶点dna序列互补配对,且cas9在发挥内切酶功能时允许sgrna与靶位点dna的互补结构存在一定错配,导致了crispr系统根源性的脱靶问题。因此,采用更为准确的sgrna靶向切割效率与脱靶效应预测模型,对sgrna进行评估就显得尤为重要。
3.目前已有多种用于预测sgrna效率的方法,深度学习在近几年也逐渐被应用于sgrna效率预测。现有的基于深度学习的sgrna效率预测方法基于卷积神经网络,利用sgrna序列作为输入,模型可较好的捕捉到sgrna序列的全局特征,预测准确率高于其他传统机器学习模型。但是目前所有的sgrna设计方法,都仅限于对dna上目标区域内所有可能结合sgrna的位点进行sgrna效率与脱靶预测,在位点选择受限的情况下,往往无法找到可用的兼具高效靶向切割效率与较低脱靶效应的sgrna。
技术实现要素:
4.针对现有技术中存在的问题,本发明提供一种错配sgrna选取方法及其在dna特定位点上crispr系统中的应用,可以考虑在这些错配sgrna之中,预测其对该dna位点的靶向切割效率与脱靶效应,再与完全匹配sgrna的靶向切割效率与脱靶效应进行对比,可找出兼具高靶向切割效率于低脱靶效应的错配sgrna。
5.本发明是通过以下技术方案来实现:
6.一种错配sgrna选取方法,包括如下步骤:
7.p1,利用已公开的hek293t中sgrna-dna相对活性数据集搭建sgrna错配相对活性预测模型;
8.p2,针对任意sgrna靶向的dna位点,生成与该给定的dna位点相结合的错配sgrna集合和完全匹配sgrna,并通过sgrna错配活性预测模型,对错配sgrna集合中的每个错配sgrna,获得与完全匹配sgrna比较的相对活性预测值;
9.p3,从错配sgrna集合中根据相对活性预测值选取候选错配sgrna,并分别预测每
个候选错配sgrna的脱靶效应;
10.p4,比较完全匹配sgrna、p3中候选错配sgrna的打靶活性与脱靶效应,选取出具有较高打靶活性且兼具较低脱靶效应的候选错配sgrna,即为目标错配sgrna。
11.优选的,在p1中,sgrna错配活性预测模型的搭建步骤如下:
12.p11,使用独热编码的方式处理sgrna-dna相对活性数据集中的sgrna-dna序列,获得编码为2
×4×
22的多维矩阵;
13.p12,以多维矩阵作为输入层,利用卷积神经网络提取序列特征,之后依次利用全局做大池化层、第一全连接层、第二全连接层和输出层,得到sgrna相对活性预测模型。
14.优选的,在p11中,多维矩阵中包括dna靶点与sgrna的序列信息,pam序列信息以及错配位点信息。
15.优选的,在p12中,卷积神经网的卷积层包括32个卷积核,卷积层包括第一层和第二层,第一层的卷积核为4
×
4,第二层的卷积核为4
×
1。
16.优选的,在p12中,第一全连接层的神经元数目为256,第二全连接层的神经元数目为128。
17.优选的,在p2中,错配sgrna集合的生成过程包括以下步骤:
18.p21,针对给定的dna位点,生成与之序列一致的完全匹配sgrna的序列;
19.p22,选择完全匹配sgrna序列上的n个位置,改变n个位置上的碱基的类型,形成m个组合,改变后的序列记为错配sgrna,直至已穷尽与完全匹配sgrna序列不同的所有的m个碱基组合。
20.优选的,在p3中,具体包括以下步骤:
21.p31,挑选相对活性≥0.8的错配sgrna,列入候选错配sgrna集合;
22.p32,针对每个候选错配sgrna,在目标基因组上通过blast比对算法找出差异碱基数≤6的所有dna脱靶位点;其中,dna脱靶位点的类型包括外显子//cds/utr区、启动子、内含子去和其他区域;预测与计算各个候选错位sgrna在其各自的dna脱靶位点上的脱靶活性;
23.p33,计算每个候选错位sgrna的脱靶效应。
24.优选的,在p32中,利用已公开的sgrna打靶活性预测工具分别预测每个与dna脱靶位点完全匹配sgrna的打靶活性;
25.利用sgrna错配活性预测模型分别预测每个错位sgrna在各个脱靶dna位点上与各个脱靶dna位点完全匹配sgrna相比的相对活性;
26.将打靶活性与相对活性相乘获取错位sgrna在脱靶位点的脱靶活性。
27.优选的,在p33中,计算过程如下:
28.s331,对dna脱靶位点的类型进行赋值,赋值为:外显子/cds/utr区赋值为10,启动子赋值为5,内含子区赋值为3,其他区域赋值为1;
29.p332,加和计算每个错配sgrna在各个dna脱靶位点上的脱靶活性
×
基因组注权重,作为该错配sgrna的脱靶效应,即脱靶效应=∑脱靶活性
×
基因组注释权重。
30.一种由所述的错配sgrna选取方法选取的错配sgrna在dna特定位点上crispr系统中的应用,该错配sgrna用于降低dna特定位点上crispr系统的脱靶效应。
31.与现有技术相比,本发明具有以下有益效果:
32.本发明采用的错配sgrna选取方法,利用不同于以往只考虑与目标dna位点完全匹配sgrna效率的方法,通过生产与之错配的sgrna作为候选,通过卷积神经网络预测其针对目标dna位点的靶向切割活性,并同步预测脱靶效应,能够在使用crispr/cas9系统目标编辑位点有限的情况下,极大地拓宽sgrna的选择范围,挑选出兼具高效靶向切割活性与低脱靶效应的sgrna,适用于所有应用crispr/cas9技术的场景,例如靶向基因敲除、靶向基因修饰和基因治疗等。
33.进一步,在生产错配sgrna候选文库的过程中,选择sgrna序列上少于或者等于3个位置进行突变,是为了减少生产的错配sgrna数量,有助于减少运算时间并减少预测模型假阳性结果的产生。
34.进一步,在评估错配sgrna脱靶效应时,比对基因组使用少于等于6个碱基作为潜在脱靶效应位点,是由于以往数项研究crispr/cas9系统脱靶机制的研究文献中,以统计得出sgrna与其脱靶的位点错配碱基数少于等于6个。
35.本发明报告的模型在测试数据集上被充分验证,且通过实验数据进行进一步验证,与现有的其他sgrna设计方法相比,本发明可以产生兼具高效靶向切割活性与低脱靶效应的sgrna,为后续crispr/cas9技术在基因编辑与基因治疗方面的研究与应用提供帮助。
附图说明
36.图1为本发明的一种错配sgrna选取方法的计算流程图。
37.图2为本发明所使用的基于卷积神经网络的相对活性预测模型
38.图3为使用本发明对给定示例dna位点进行降低脱靶效应的错配sgrna设计结果展示;
39.图4为实施例中双荧光素酶测试得到的相对活性。
具体实施方式
40.下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
41.本发明采用已公开的sgrna-dna相对活性数据集,其中总计26248条错配sgrna,以及对应的1978个dna靶点和匹配sgrna,每个错配sgrna都有得到实验验证的相对匹配sgrna的活性。
42.本发明提出了一种错配sgrna选取方法,该方法在使用寻找更低脱靶效应的sgrna的过程中,需要先构建并训练预测错配sgrna相对活性的的神经网络模型,利用训练好的模型对生成的错配sgrna的相对活性进行预测,之后再找出具有较高相对活性错配sgrna的脱靶位点并计算其脱靶效应,主要流程参考图1,包括以下步骤:
43.p1,利用已公开的hek293t中sgrna-dna相对活性数据集搭建sgrna,具体步骤如下:
44.p11,使用独热编码的方式处理对sgrna-dna相对活性数据集中的sgrna-dna序列,获得编码为2
×4×
22的多维矩阵;例如,对于序列中的碱基a、t(u),使用独热(one-hot)编码的方式,将其编码为4个一维向量[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]。对于长度为22bp的dna靶点序列,以及19nt的sgrna序列,分别得到一个4
×
22和4
×
19的矩阵,为了
模型输入的统一,给sgrna同样加上pam序列的编码,延长为22nt。将二者合并起来,最终得到一个2
×4×
22的多维矩阵,包含了dna靶点与sgrna的序列信息,pam序列信息以及错配位点信息。
[0045]
p12,参考图2,搭建卷积神经网络,以多维矩阵作为输入层,在通过两个卷积核大小分别为4
×
4和4
×
1的具有32个卷积核的卷积层提取序列特征后,使用全局做大池化层、神经元数目为256的第一全连接层、神经元数目为128的第二全连接层和输出层,得到输出的sgrna相对活性预测模型。
[0046]
提取特征过程中,使用公式为:的激活函数relu时,设置每个卷积核横向尺寸大小为4,扫描步长为1,用于提取相邻碱基组合的特征信息。
[0047]
池化窗口尺寸为1
×
2,经过池化的数据进行批量标准化层。之后再连接第一连接层和第二连接层,经过公式为g(x)=1/(1+e^(-x))的激活函数计算后,再由输出层的线性激活函数f(x)=ax得到最终输出的错配sgrna活性预测值。
[0048]
p2,针对任意sgrna靶向的dna位点,生成与该给定的dna位点相结合的错配sgrna集合和完全匹配sgrna,并通过sgrna错配活性预测模型,对错配sgrna集合中的每个错配sgrna,获得与完全匹配sgrna比较的相对活性预测值。
[0049]
其中,错配sgrna集合的生成过程包括以下步骤:
[0050]
p21,针对给定的dna位点,生成与之序列一致的完全匹配sgrna的序列;例如,直接将dna位点的序列中碱基t换为u处理后,作为完全匹配sgrna的序列。
[0051]
p22,选择完全匹配sgrna序列上的n个位置,改变n个位置上的碱基的类型,形成m个组合,改变后的序列记为错配sgrna,直至已穷尽与完全匹配sgrna序列不同的所有的m个碱基组合。对于1个完全匹配sgrna,在选定的n个位置上,共有4
n-1个错配sgrna的碱基组合。
[0052]
也就是说,选择完全匹配sgrna序列上的n个位置,改变n个位置上的碱基的类型,形成m个组合,改变后的序列记为错配sgrna,直至已穷尽与完全匹配sgrna序列不同的所有的m个碱基组合。之后选择新的n个位置,重复穷举m种碱基类型组合形成错配sgrna的过程,直至在sgrna序列上n个位置的组合已被穷尽。其中,n、m为常数,n=1、2、3。对于1个完全匹配sgrna,当n=1时,共有20种组合;但n=2时,共有190种组合;但n=3时,共有1140种组合;共计1350种组合。
[0053]
p3,从错配sgrna集合根据相对活性预测值选取具有目标的错配sgrna集合,预测其各自的脱靶概率,具体步骤如下:
[0054]
p31,从错配sgrna集合挑选相对活性≥0.8的错配sgrna,列入候选错配sgrna集合;
[0055]
p32,针对每个候选错配sgrna,在目标基因组上通过blast比对算法找出差异碱基数≤6的所有dna脱靶位点;其中,dna脱靶位点的类型包括外显子//cds/utr区、启动子、内含子去和其他区域;预测与计算各个候选错位sgrna在其各自的dna脱靶位点上的脱靶活性。
[0056]
其中,利用已公开的sgrna打靶活性预测工具分别预测每个与dna脱靶位点完全匹配sgrna的打靶活性;
[0057]
利用sgrna错配活性预测模型分别预测每个错位sgrna在各个脱靶dna位点上与各个脱靶dna位点完全匹配sgrna相比的相对活性;
[0058]
将打靶活性与相对活性相乘获取错位sgrna在脱靶位点的脱靶活性。
[0059]
p33,计算每个候选错位sgrna的脱靶效应,步骤如下:
[0060]
s331,对dna脱靶位点的类型进行赋值,赋值为:外显子/cds/utr区赋值为10,启动子赋值为5,内含子区赋值为3,其他区域赋值为1;
[0061]
p332,加和计算每个错配sgrna在各个dna脱靶位点上的脱靶活性
×
基因组注权重,作为该错配sgrna的脱靶效应,即脱靶效应=∑脱靶活性
×
基因组注释权重。
[0062]
p4,参考图3,比较完全匹配sgrna、p3中错配sgrna的打靶活性与脱靶概率,选取出具有较高打靶活性且兼具较低脱靶效应的候选错配sgrna,即为目标错配sgrna。
[0063]
实施例
[0064]
针对pgl3-promoter上的萤火虫荧光基因(luciferase),采用本发明所提供的方法对其上的37个dna位点,均找到了其各自对应的错配sgrna,各dna位点与错配sgrna序列、预测的相对活性见参考表1。在hek293t的转染实验中,60%以上的错配sgrna,相对于完全匹配sgrna的靶向切割活性均≥0.8。双荧光素酶测试得到的相对活性见图4。
[0065]
表1 pgl3-promoter上的萤火虫荧光基因中各dna位点与错配sgrna序列、预测的相对活性
[0066]
[0067][0068]
本发明还公开了一种错配sgrna在dna特定位点上crispr系统中的应用,即该错配sgrna用于降低dna特定位点上crispr系统的脱靶效应。
[0069]
综上所述,本发明创建了一种利用错配sgrna降低dna特定位点上crispr系统脱靶效应的sgrna方法,重点研究了利用与给定dna位点具有错配的sgrna在其至上具有多少打靶活性的问题,引入基于卷积神经网络的模型进行错配sgrna活性预测,并在测试数据集被充分验证,且通过实验数据进行进一步验证。
[0070]
与现有的其他sgrna设计方法只考虑与目标dna位点完全匹配sgrna活性相比,本发明将与目标dna位点有错配关系的sgrna列入备选,扩大了sgrna设计的可能性,能够有效降低该位点上crispr系统的脱靶效应,可以产生兼具高效靶向切割活性与低脱靶效应的sgrna,为后续crispr/cas9技术在基因编辑与基因治疗方面的研究与应用提供帮助。
[0071]
本发明通过分析sgrna-dna序列对在不同匹配情况下错配sgrna活性的改变规律,建立基于深度学习模型的sgrna错配活性预测模型,并对给定dna位点上与之结合的错配sgrna进行活性预测与脱靶效应分析。本发明将与目标dna位点有错配关系的sgrna列入备选,扩大了sgrna设计的可能性,能够有效降低该位点上crispr系统的脱靶效应,适用于所有需要crispr/cas9系统降低脱靶效应的情形,例如基因敲除、基因治疗等,可以解决现有sgrna技术方法的局限性。
[0072]
以上所述的仅是本技术的优选实施方式,本发明不限于以上实施例。可以理解为,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其它改进和变化,均应认为包含在本发明的保护范围之内。
技术特征:
1.一种错配sgrna选取方法,其特征在于,包括如下步骤:p1,利用已公开的hek293t中sgrna-dna相对活性数据集搭建sgrna错配相对活性预测模型;p2,针对任意sgrna靶向的dna位点,生成与该给定的dna位点相结合的错配sgrna集合和完全匹配sgrna,并通过sgrna错配活性预测模型,对错配sgrna集合中的每个错配sgrna,获得与完全匹配sgrna比较的相对活性预测值;p3,从错配sgrna集合中根据相对活性预测值选取候选错配sgrna,并分别预测每个候选错配sgrna的脱靶效应;p4,比较完全匹配sgrna、p3中候选错配sgrna的打靶活性与脱靶效应,选取出具有较高打靶活性且兼具较低脱靶效应的候选错配sgrna,即为目标错配sgrna。2.根据权利要求1所述的错配sgrna选取方法,其特征在于,在p1中,sgrna错配活性预测模型的搭建步骤如下:p11,使用独热编码的方式处理sgrna-dna相对活性数据集中的sgrna-dna序列,获得编码为2
×4×
22的多维矩阵;p12,以多维矩阵作为输入层,利用卷积神经网络提取序列特征,之后依次利用全局做大池化层、第一全连接层、第二全连接层和输出层,得到sgrna相对活性预测模型。3.根据权利要求2所述的错配sgrna选取方法,其特征在于,在p11中,多维矩阵中包括dna靶点与sgrna的序列信息,pam序列信息以及错配位点信息。4.根据权利要求2的错配sgrna选取方法,其特征在于,在p12中,卷积神经网的卷积层包括32个卷积核,卷积层包括第一层和第二层,第一层的卷积核为4
×
4,第二层的卷积核为4
×
1。5.根据权利要求4的错配sgrna选取方法,其特征在于,在p12中,第一全连接层的神经元数目为256,第二全连接层的神经元数目为128。6.根据权利要求1的错配sgrna选取方法,其特征在于,在p2中,错配sgrna集合的生成过程包括以下步骤:p21,针对给定的dna位点,生成与之序列一致的完全匹配sgrna的序列;p22,选择完全匹配sgrna序列上的n个位置,改变n个位置上的碱基的类型,形成m个组合,改变后的序列记为错配sgrna,直至已穷尽与完全匹配sgrna序列不同的所有的m个碱基组合。7.根据权利要求1的错配sgrna选取方法,其特征在于,在p3中,具体包括以下步骤:p31,挑选相对活性≥0.8的错配sgrna,列入候选错配sgrna集合;p32,针对每个候选错配sgrna,在目标基因组上通过blast比对算法找出差异碱基数≤6的所有dna脱靶位点;其中,dna脱靶位点的类型包括外显子//cds/utr区、启动子、内含子去和其他区域;预测与计算各个候选错位sgrna在其各自的dna脱靶位点上的脱靶活性;p33,计算每个候选错位sgrna的脱靶效应。8.根据权利要求7的错配sgrna选取方法,其特征在于,在p32中,利用已公开的sgrna打靶活性预测工具分别预测每个与dna脱靶位点完全匹配sgrna的打靶活性;利用sgrna错配活性预测模型分别预测每个错位sgrna在各个脱靶dna位点上与各个脱靶dna位点完全匹配sgrna相比的相对活性;
将打靶活性与相对活性相乘获取错位sgrna在脱靶位点的脱靶活性。9.根据权利要求8的错配sgrna选取方法,其特征在于,在p33中,计算过程如下:s331,对dna脱靶位点的类型进行赋值,赋值为:外显子/cds/utr区赋值为10,启动子赋值为5,内含子区赋值为3,其他区域赋值为1;p332,加和计算每个错配sgrna在各个dna脱靶位点上的脱靶活性
×
基因组注权重,作为该错配sgrna的脱靶效应,即脱靶效应=∑脱靶活性
×
基因组注释权重。10.一种由权利要求1~9任一项所述的错配sgrna选取方法选取的错配sgrna在dna特定位点上crispr系统中的应用,其特征在于,该错配sgrna用于降低dna特定位点上crispr系统的脱靶效应。
技术总结
本发明涉及一种错配sgRNA选取方法及其在DNA特定位点上CRISPR系统中的应用,涉及基因编辑领域,该方法包括:搭建sgRNA脱靶错配活性预测模型、给定DNA位点上错配sgRNA活性的预测与挑选、挑选出的错配sgRNA脱靶效应预测。本发明通过分析sgRNA-DNA序列对在不同匹配情况下错配sgRNA活性的改变规律,建立基于深度学习模型的sgRNA错配活性预测模型,并对给定DNA位点上与之结合的错配sgRNA进行活性预测与脱靶效应分析。本发明将与目标DNA位点有错配关系的sgRNA列入备选,扩大了sgRNA设计的可能性,能够有效降低该位点上CRISPR系统的脱靶效应,适用于所有需要CRISPR/Cas9系统降低脱靶效应的情形,例如基因敲除、基因治疗等,可以解决现有sgRNA技术方法的局限性。有sgRNA技术方法的局限性。有sgRNA技术方法的局限性。
技术研发人员:郭燕 胡维欣 荣誉 董珊珊 杨铁林
受保护的技术使用者:西安交通大学
技术研发日:2023.04.13
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
